AI 解决方案简介

AI 解决方案简介

基于 Ampere Altra Max 的AI推理解决方案

AI 解决方案简介

Ampere—赋能未来

Ampere^® Altra^® Max 处理器是一个完整的片上系统 (SOC) 解决方案，支持多达 128 个高性能内核，具有可提供可预测的高性能的创新架构，线性缩放和高能效。运行 AI 推理是云中快速增长的实际工作负载。虽然训练深度神经网络需要大量的 GPU 或类似的硬件加速基础设施，但在大多数情况下，CPU 可以处理经过完全训练、部署就绪的 AI 算法的推理。经验证，Ampere Altra Max 非常适合在云中执行 AI 推理工作，不仅可以满足延迟和吞吐量的要求，而且性能优于基于 x86 架构的 CPU，以及当前在云中使用的其他基于 ARM 架构的处理器。

在Ampere Altra Max 处理器上部署AI推理

Ampere Altra Max 处理器为 AI 工作负载提供卓越的性能和能效。在 Ampere Altra Max 上运行 AI 推理不需要修改或转换已有神经网络，独立于其训练的平台，只要它是使用行业标准 AI 开发框架之一（如 TensorFlow、PyTorch 或 ONNX）完成的即可。Ampere 优化的 TensorFlow、Pytorch 和 ONNX 可从我们的云服务伙伴或直接从 Ampere 处免费获得。

Ampere Altra Max 是目前唯一支持 fp16 数据格式的云原生处理器。与 fp32 模型相比，FP16 提供高达 2 倍的性能加速，而没有精度损失或可忽略不计。fp32 的量化很简单，不需要重新训练或重新调整权重。如果在 GPU 上使用 fp16 进行训练，则可以在开箱即用的模型上运行推理。Ampere Altra Max 支持 fp32、fp16 和 int8 数据格式。

Ampere 提供一系列不断优化、预训练的模型，供用户下载用于演示或在实际应用程序中进行调整并使用。

最后，Ampere Altra Max CPU 还可以与 NVIDIA GPU 协同工作，以满足用户的训练需求。

我们按照 MLCommons 指南运行了一系列基准测试，以展示 Ampere Altra Max CPU 在多个具有代表性的 AI 推理任务中的卓越性能，包括计算机视觉和 NLP 应用。

在Ampere Altra Max 处理器上运行AI推理的收益

云原生：Ampere Altra Max 专为云原生的工作负载而设计，其推理性能比最好的 x86 服务器高 2 倍，比其他类似的 ARM 架构的处理器好 5 倍。
行业标准平台：Ampere Altra Max 无需修改即可在 TensorFlow、PyTorch 或 ONNX 框架上开发和运行 AI 推理的工作负载。客户只需使用 Ampere 或我们的云服务合作伙伴免费提供的优化框架即可部署运行自己应用程序。
支持 fp16 格式：Ampere Altra Max 是目前唯一一款原生支持 fp16 数据格式，并已广泛可用的云原生 CPU 处理器。将 fp32 训练的网络量化为 fp16 很简单，不会导致明显的精度损失。
可扩展性：凭借创新的可横向扩展架构，Ampere Altra Max 处理器具有更高的核心数和极其出色的单线程性能。结合所有内核可同时一致频率运行的特性，Ampere Altra Max 的单CPU整体性能比目前最好的 x86 服务器更高，更稳定，在多租户的云环境中对“嘈杂邻居”的干扰更具抵抗力。
高能效：凭借多达 128 个节能 Arm 内核，Ampere Altra Max 与性能领先的 x86 服务器相比，具有 60% 的性能功耗比优势。行业领先的性能和高能效使 Ampere Altra Max 具有更小的碳足迹并降低了总拥有成本 (TCO)。

Ampere Altra Max

128个 64-bit内核，最大主频3.0 GHZ
单核 64 KiB i-Cache, 64 KiB d-Cache
单核 1MiB L2 Cache
16MB SLC （System Level Cache）
一致性网格互联架构

内存

8x72 bit DDR4-3200 channels
支持ECC & RAS
最大可配 16x DIMMS (2 DPC) 和 4TB 内存容量

外部连接

单颗CPU提供128路 PCIe Gen4
支持双路一致性互联
4x16路 CCIX协议通道

系统

Armv8.2 指令集，SBSA Level 4认证
高级电源管理模块

性能

SPECrate®2017Integer Estimated: 350

基准测试配置信息

基准测试是使用 TensorFlow 在具有相同内存、网络和存储配置的裸机单路服务器上执行的，配置与这里所示的 x86 平台一致。测试的处理器包括启用TF2.7 ZenDNN 的 AMD EPYC 7J13 “Milan”、启用 TF 2.7 DNNL 的 Intel Xeon 8375C “Cascade Lake”、启用TF 2.7 DNNL 的 Intel Xeon 8380 “Ice Lake”，启用Ampere Optimized TF 2.7 的 Ampere Altra Max M128-30和同样 ARM-64 架构，64核配置的“Graviton 2”（通过AWSc6g云实例）进行了测试。

每种设备类型的详细基准测试条件和配置在这里

推理性能

按照 MLCommons 基准测试指南运行各种 AI 工作负载后，部分测试的结果如下。

计算机视觉方面，使用 SSD ResNet-34 测试典型的对象检测应用，在fp32 模式下，Ampere Altra Max 在延迟方面优于 Intel Xeon 8375C 2 倍，是AMD EPYC7Ji3 和 Graviton 的近4 倍。在 fp16 模式下，Altra Max 将领先优势扩大了两倍，同时保持了相同的精度。请参见图 1。

与竞争对手相比，Ampere Altra Max 在性能功耗比方面也具有显著优势。在 fp16 分辨率下，Altra Max 的能效比 Intel Xeon 和 AMD EPYC 高约 5 倍。在 fp32 分辨率下，Altra Max 比相同的 Intel 和 AMD 设备保持 2 倍的优势（图 2）

Fig 1. Object Detection Single-Stream Latency in FPS

Fig 2. ResNet Throughput (FPS)/Power (W)

总结

Ampere Altra Max 处理器是一个完整的片上系统 (SOC) 解决方案，专为云原生工作负载而构建，旨在为 AI 推理提供卓越的性能和能源效率。与 Intel® Xeon® Platinum 8375c 和 AMD EPYC 7J13 相比，Ampere Altra Max 的性能最高可提高 4 倍。在能效方面，Ampere Altra Max 同样领先竞争对手，在同等吞吐量下消耗的功率减少了 60%。

访问 https://solutions.amperecomputing.com/solutions/ampere-ai，了解如何通过我们的云服务合作伙伴访问 Ampere 系统并体验 Ampere 处理器的性能和能效。

脚注

此处包含的所有数据和信息仅供参考，Ampere 保留更改它的权利，恕不另行通知。本文档可能包含技术错误、遗漏和印刷错误，Ampere 没有义务更新或更正此信息。 Ampere 不作任何形式的陈述或保证，包括但不限于对不侵权、适销性或适用于特定目的的明示或暗示保证，并且不承担任何形式的责任。所有信息均“按原样”提供。本文件不是 Ampere 的要约或具有约束力的承诺。使用此处设想的产品需要随后的谈判和最终协议的执行，或者受 Ampere 的商品销售条款和条件的约束。

与 Ampere 测试中使用的不同的系统配置、组件、软件版本和测试环境可能会导致与 Ampere 获得的测量结果不同。

Ampere Computing® / 4655 Great America Parkway, Suite 601 / Santa Clara, CA 95054 / amperecomputing.com

Created At : August 18th 2022, 6:21:04 am

Last Updated At : February 14th 2024, 5:37:18 pm

Ampere Computing

4655 Great America Parkway

Suite 601 Santa Clara, CA 95054

| | | | | |

This site is running on Ampere Altra Processors.