{{tap.text}}

飞桨 x OpenVINO™ 介绍

飞桨平台训练产出的模型,目前已经支持使用OpenVINO™ 直接进行推理加速;基于此能力,我们为开发者打造了基于飞桨核心训练框架、模型库和优化工具,以及OpenVINO™ 工具套件的全流程开发部署方案,开发者可以使用飞桨进行便捷的模型开发,而后无缝迁移至OpenVINO在Intel平台上实现高性能部署

未来,我们还会加入更广泛的算子覆盖,并支持量化模型等模型特性;飞桨团队也正在尝试将OpenVINO™ 作为后端直接接入飞桨端侧推理引擎Paddle Lite中,介时开发者的使用体验可得到进一步优化

支持70+飞桨原生算子

覆盖大多数常见模型

支持控制流等复杂模型结构

关于英特尔® OpenVINO™ 工具套件
  • 人工智能推理将应用神经网络训练后获得的功能,以取得结果。英特尔® OpenVINO™ 工具套件可支持您运用附带的模型优化器和运行时及开发工具, 来优化、调优和运行全面的人工智能推理。
OpenVINO™ 工具套件优化策略
  • 针对复杂网络的模型结构压缩技术
  • 针对多任务场景的跨平台异构加速技术
  • 基于 oneAPI 的 NN 加速引擎
  • 面向低比特混合精度的量化与模型重训练策略

灵活便捷的部署方案

丰富的模型选择

海量的实践教程

课程共建

EasyDL+OpenVINO™ 课程专区
  • 开始学习

相关文档

{{tap.text}}

视频研讨会

新闻报告

联合活动

合作成果

英特尔®与飞桨多层面全方位合作
共创计划
  • 全系列CPU适配 AVX512/AMX及VNNI指令加速 OneDNN高性能库原生集成
  • OneAPI HPC Toolkit for Paddle HPC
  • 飞桨模型格式全面支持 飞桨特色模型上线 PaddleLite后端加入OpenVINO引擎

合作历程

CPU 性能优化

{{tap.text}}

在 PaddlePaddle 中,引入了英特尔® 深度学习加速技术(VNNI 指集)—— 英特尔® 深度学习加速技术就通过 VNNI 指令集提供了多条全新的宽融合乘加 (FMA) 内核指令,用于支持 8 位或 16 位低精度数值相乘,这对于需要执行大量矩阵乘法的深度学习计算而言尤为重要。

它的导入,使得用户在执行 INT8 推理时,对系统内存的要求最大可减少75%,而对内存和所需带宽的减少,也加快了低数值精度运算的速度,从而使系统整体性能获得大幅提升。

通过与英特尔开展紧密合作,飞桨深度学习平台基于英特尔® 深度学习加速技术(VNNI 指令集)发布了 INT8 离线量化方案。实际验证表明,基于第二代英特尔® 至强® 可扩展处理器平台,可在不影响预测准确度的情况下,使多个深度学习模型在使用 INT8 时的推理速度,加速到使用 FP32 时的 2-3 倍之多,大大提升了用户深度学习应用的工作效能。

借助 VNNI 扩展指令和统一编程接口oneAPI 的支持, PaddleSlim 产出的模拟INT8模型可以转化成真实的INT8模型,并部署到第三代英特尔至强可扩展处理器上。
【精度】在 ResNet-50 和 MobileNet-V1 两种模型的 TOP-1准确率(预测出最大概率的 分类是正确的概率)中,INT8 分别只有0.4% 和 0.31% 的准确度损失5,基本可视为没有准确度损失。 【性能】在BatchSize=1的条件下,ResNet-50 和MobileNet-V1 两种模型的 INT8 推理吞吐量是 FP32 的 2.2 倍到2.79 倍

BML 模型优化和部署

BML key models speedup w/ Intel AV×512-INT8 *Performance (QATINT8/FP32 OneDNN)

计划发布

{{tap.text}}
  • 飞桨的Pluggable Device机制与飞桨的算子层接入标准一起组成了飞桨硬件接入的统一方案;
  • 通过Pluggable Device中提供的设备管理API,我们可以完成Intel PVC GPU的Driver和Runtime接入;
  • 而通过插件式的算子注册,则可在无需感知框架OP的情况下,关注核心Function实现,使飞桨框架快速具备使用Intel PVC GPU进行训练、推理的能力。
飞桨核心框架 Intel PVC GPU
预期合作

飞桨希望与Intel的工程师一同建设飞桨科学计算套件在基础功功能能、应用扩展和性能优化几个方面的能力,Intel多个团队在初期参与了讨论,目前聚焦在两个合作点上:

基于Intel侧提供的几个科学计算案例的经验扩展飞桨科学计算的应用场景

与Intel团队一起进行IA平台上的运算性能优化