博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Uber 开源深度学习分布训练库 Petastorm
阅读量:7121 次
发布时间:2019-06-28

本文共 761 字,大约阅读时间需要 2 分钟。

  hot3.png

Uber 近日宣布,这是由 Uber ATG 开发的数据访问库,可直接基于数 TB 的  格式数据集进行单机或分布式训练和深度学习模型评估。Petastorm支持流行的基于Python的机器学习(ML)框架,如 、 和  ,也可以直接用在 Python 代码中。

ae5e1a534bcbcfebb0b77dc8600d4e9e340.jpg

通常,我们通过连接来自多个数据源的记录来生成数据集。该数据集由 Apache Spark 的 Python 接口 PySpark 生成,稍后将被用在机器学习训练中。Petastorm 提供了一个简单的功能,可以使用 Petastorm 特定的元数据扩展标准的 Parquet ,从而使其与 Petastorm 兼容。

使用 Petastorm ,消耗数据就像在 HDFS 或文件系统路径创建和迭代读取对象一样简单。Petastorm 使用  库来读取 Parquet 文件。过程概述图如下:

Petastorm 结合了各种特性以支持自动驾驶算法的训练,包括行过滤、数据分片、shuffle、对字段子集的访问,以及对时间序列数据(n-gram)的支持。

对于其他上下文,典型数据集的结构包括:

  • 在自动驾驶汽车测试运行期间收集的传感器数据的多个列,包括摄像头、激光定位器和雷达。

  • 手动生成的标签作为行中的字段进行存储。

行数据按照行分组的时间顺序排列,行组大小通常在 30-100 范围内。

Petastorm 的设计目标包括:

  • 由单数据模式定义驱动数据的编码和解码。

  • 提供 ML 框架和纯 Python 代码可用的高数据加载带宽。

  • 将 Apache Spark 作为分布式集群计算框架来生成数据集。

  • 与纯 Python,ML 平台无关的核心 Petastorm 组件的实现。

  • 呈现给 Tensorflow 和 PyTorch 框架的界面原生接口。

更多详情可查看或。

转载地址:http://dusel.baihongyu.com/

你可能感兴趣的文章
《IT项目管理》读书笔记(5) —— 项目时间管理
查看>>
插入排序 来自《算法导论》
查看>>
分享50+精美的网页矢量背景和矢量图形素材【上篇】
查看>>
MongoDB 管理
查看>>
MySQL中的实例、数据库关系简介
查看>>
android 图片旋转
查看>>
IIS7 如何设置读取、脚本和可执行文件的执行权限
查看>>
hibernate---->一对多关联映射
查看>>
ProgressDialog 的xml 功能布局
查看>>
web-3g-163(网易)-邮箱和博客-数据架构设计
查看>>
百度云盘试用
查看>>
iku爱酷后台开放匿名代理服务 | WooYun-2011-02909 | WooYun.org
查看>>
discuz x!2.5 个人空间 日志模版
查看>>
[Ubuntu] 启动gvim时,怎样设置一个项目的文件为打开状态
查看>>
Spring学习篇:IoC知识整理(二)
查看>>
VS下如何配置才能使用 cl 命令行方式编译 C/C++ 程序
查看>>
【百度地图API】如何制作班级地理通讯录?LBS通讯录
查看>>
从源代码上理解 PostgreSQL 的 bgwriter_lru_maxpages
查看>>
PHP开源——elfinder网页文件管理器语言设置
查看>>
Linux压缩包简体中文乱解决方案[全]
查看>>