什么是CPU、GPU、NPU、TPU?

本文最后更新于:2026年5月9日 下午

什么是CPU、GPU、NPU、TPU?

  随着人工智能、大模型与高性能计算的发展,传统 CPU 已难以满足海量并行计算需求,GPU、NPU、TPU 等专用处理器逐渐成为智能计算的核心。不同处理器在架构设计、并行能力、功耗控制及应用场景上存在显著差异:CPU 擅长通用逻辑控制,GPU 强于大规模并行运算,NPU 面向端侧 AI 推理优化,而 TPU 则专为深度学习训练与推理设计。本文将系统解析 CPU、GPU、NPU 与 TPU 的基本原理、性能特点及典型应用,帮助读者理解 AI 时代异构计算的发展趋势。

参考:

CPU、GPU、NPU、TPU:它们是什么?|QNAP博客

Understanding CPU vs GPU vs TPU vs NPU in Modern AI Systems

什麼是 CPU、GPU、NPU 和 TPU?它們之間有何不同? - Ciao AI 工具實驗室

一、什么是CPU?

  CPU(中央处理器)是计算机和智能设备中的核心运算与控制单元,被称为电子系统的“大脑”。它负责执行程序指令、处理数据并协调各硬件工作,是决定设备运行性能与响应速度的关键核心。

当前顶级CPU代表型号(仅供参考)

AMD Ryzen 9 9950X3D

Intel Core i9-14900KS

AMD EPYC Turin

Intel Xeon 6980P

AMD EPYC Genoa

Apple A18 Pro

(1) CPU 的基本原理

  CPU(Central Processing Unit,中央处理器)是电子设备中的核心控制单元,负责读取并执行程序指令,同时完成数据运算、任务调度和系统控制。它的工作过程主要包括“取指令—分析指令—执行指令”三个步骤,并以极高速度不断循环。CPU内部通常包含运算单元、控制单元、寄存器以及高速缓存等模块,用于提升数据处理效率。现代CPU还通过多核心、超线程、流水线和分支预测等技术进一步提高计算性能。CPU最大的特点是通用性强,能够处理复杂逻辑、系统控制和多任务协同,因此被称为整个计算机系统的“大脑”。

(2) CPU 的典型型号与应用

目前主流 CPU 广泛应用于个人电脑、服务器、手机以及嵌入式设备等领域。

在桌面计算领域,Intel Core i9-14900K 和 AMD Ryzen 9 9950X 常用于高性能游戏、视频剪辑和工程开发。

在服务器领域,Intel Xeon Platinum 8592+ 与 AMD EPYC 9754 被广泛应用于云计算、大数据和数据中心。

在移动终端领域,Apple A18 Pro 与 Qualcomm Snapdragon 8 Gen 4 常用于智能手机和平板设备。

此外,STM32H743 等嵌入式处理器则大量应用于机器人、无人机、工业控制和自动化系统。

(3) CPU 的性能特点

  CPU 属于典型的通用处理器,其优势在于逻辑处理能力强、响应速度快以及系统控制能力优秀,特别适合运行操作系统、复杂程序和串行任务。相比 GPU、NPU 等专用加速器,CPU 的核心数量通常较少,但单核心性能更强,因此更适合复杂逻辑判断与低延迟任务处理。

国产CPU 对标 Intel 型号(仅供参考) 主要应用
龙芯 3A5000 Intel Core i3-8109U 左右 国产桌面PC
龙芯 3A6000 Intel Core i5-10400 ~ Intel Core i5-11600 信创桌面
龙芯 3C6000 Intel Xeon Silver 4314 服务器
飞腾 FT-2000+ Intel Xeon E5 服务器/政企
飞腾 腾锐D2000 Intel Core i5-7500 左右 国产PC
飞腾 腾云S2500 Intel Xeon Gold 6138 左右 数据中心
华为 鲲鹏920 Intel Xeon Platinum 8260 左右 云计算
海光 C86 3250 Intel Xeon Silver 信创服务器
海光 7000系列 Intel Xeon Ice Lake 数据中心
兆芯 KX-6000 Intel Core i5-7400 国产桌面
兆芯 KX-7000 Intel Core i3-10100 ~ Intel Core i5-10400 国产PC
申威 SW26010 Intel Xeon Phi 7290 超级计算机

二、什么是GPU?

  GPU(图形处理器)最初主要用于图像显示与游戏渲染,但随着人工智能和大数据计算的发展,其强大的并行计算能力逐渐成为 AI 训练和高性能计算的重要基础。如今,GPU 已广泛应用于游戏、视频处理、自动驾驶以及大模型训练等领域。

当前顶级GPU代表型号(仅供参考)

NVIDIA B200 Blackwell

NVIDIA H200

NVIDIA RTX 5090

NVIDIA RTX 6000 Ada

AMD Instinct MI325X

Apple A18 Pro GPU

(1) GPU的基本原理

  GPU(Graphics Processing Unit,图形处理器)是一种专门面向大规模并行计算设计的处理器。与 CPU 少核心、高控制能力的结构不同,GPU 内部通常集成大量计算核心,可同时处理海量相似计算任务,因此特别适合图像渲染、矩阵运算和深度学习中的神经网络计算。GPU 最初用于 3D 图形显示和视频处理,后来因其在向量与矩阵计算上的高效率,被广泛应用于人工智能训练、高性能计算和科学仿真等领域。现代 GPU 通常需要 CPU 进行任务调度与控制,两者协同完成复杂计算任务。

(2) GPU 的典型型号与应用

目前 GPU 已广泛应用于消费电子、专业图形工作站和 AI 数据中心等领域。

在消费级市场中,NVIDIA GeForce RTX 4090 和 AMD Radeon RX 7900 XTX 常用于高端游戏、3D 建模和视频渲染。

在人工智能与云计算领域,NVIDIA H100 Tensor Core GPU 和 NVIDIA A100 Tensor Core GPU 被广泛用于大模型训练、AI 推理及超级计算中心。

此外,手机芯片中的 GPU 也承担图形显示和移动端 AI 加速任务,例如 Apple A18 Pro 和 Qualcomm Snapdragon 8 Gen 4 中均集成高性能图形单元。

(3) GPU 的性能特点

  GPU 最大的特点是并行计算能力极强,能够同时处理大量重复性数据运算,因此在图像渲染、视频处理、深度学习和科学计算等领域性能远高于 CPU。相比 CPU 强调复杂逻辑控制和低延迟响应,GPU 更注重高吞吐量计算,适合矩阵运算和海量数据处理任务。不过,GPU 的控制与逻辑处理能力相对较弱,通常需要 CPU 负责系统调度和任务管理。

国产 GPU 对标 NVIDIA 型号(仅供参考) 主要方向
摩尔线程 MTT S80 NVIDIA GeForce RTX 3060 ~ NVIDIA GeForce RTX 3070 游戏与桌面图形
芯动风华1号 NVIDIA GeForce GTX 1650 国产桌面显卡
景嘉微 JM9系列 NVIDIA GeForce GTX 1050 左右 信创与工业图形
壁仞 BR100 NVIDIA A100 Tensor Core GPU AI 训练
沐曦 C500 NVIDIA A100 Tensor Core GPU AI 训练与高性能计算
天数智芯 天垓100 NVIDIA V100 Tensor Core GPU AI 训练
海光 深算DCU AMD Instinct MI100 / NVIDIA A100 Tensor Core GPU 通用计算与 AI
燧原 云燧T20 NVIDIA T4 Tensor Core GPU AI 推理
寒武纪 MLU370 NVIDIA A30 Tensor Core GPU AI 推理与训练

三、什么是NPU?

  NPU(神经网络处理器)是专门为人工智能计算设计的处理器,主要用于加速深度学习和神经网络推理。相比 CPU 和 GPU,NPU 更强调 AI 运算效率与低功耗,已广泛应用于手机、自动驾驶、智能安防以及边缘 AI 设备等领域。


Apple Neural Engine

Qualcomm Hexagon NPU

Google TPU v5p

Google TPU 8t and 8i

Huawei Ascend 910B

NVIDIA DRIVE Thor

(1) NPU的基本原理

  NPU(Neural Processing Unit,神经网络处理器)是一种针对人工智能神经网络运算专门优化的处理器,其核心目标是高效完成矩阵乘法、卷积计算和向量运算等 AI 核心任务。相比 CPU 强调通用控制能力、GPU 强调大规模并行计算,NPU 更关注神经网络推理效率与能耗优化。NPU 内部通常采用专用 AI 指令集、张量计算单元以及低精度计算架构,可大幅提升深度学习推理速度,并降低功耗。目前,NPU 已成为智能手机、边缘计算设备、机器人和自动驾驶系统中的重要 AI 加速核心。

(2) NPU的典型型号与应用

目前 NPU 已广泛应用于手机 SoC、AI 加速卡和边缘智能设备。

在移动端领域,Apple A18 Pro Neural Engine、Huawei Ascend Da Vinci NPU 以及 Qualcomm Hexagon NPU 主要用于 AI 拍照、语音识别和本地大模型推理。

在数据中心领域,Huawei Ascend 910B 和 寒武纪 MLU370 常用于 AI 训练和推理服务器。

此外,NPU 也广泛用于智能安防、工业视觉、自动驾驶以及机器人控制等边缘 AI 场景。

(3) NPU 的性能特点

  NPU 最大的特点是“高 AI 运算效率与低功耗”。由于其专门针对神经网络结构优化,因此在 AI 推理任务中,NPU 的能效通常远高于 CPU 和 GPU,特别适合移动设备和边缘计算场景。相比 GPU 强调通用并行计算,NPU 更聚焦 AI 专用算子加速,例如卷积、Transformer 和矩阵乘法等。不过,NPU 的通用性相对较弱,通常只能高效执行特定 AI 模型,因此仍需 CPU 负责系统控制、GPU 负责部分高性能并行任务。在现代 AI 系统中,CPU、GPU 与 NPU 往往协同工作,共同完成复杂智能计算任务。

国产 NPU 对标产品(仅供参考) 主要方向
华为昇腾 910B NVIDIA A100 Tensor Core GPU AI训练
华为昇腾 310B NVIDIA T4 Tensor Core GPU AI推理
寒武纪 MLU370 NVIDIA A30 Tensor Core GPU AI训练/推理
寒武纪 MLU590 NVIDIA A100 Tensor Core GPU 大模型训练
地平线征程6 NVIDIA Orin 自动驾驶
黑芝麻 A1000 NVIDIA Xavier 智能汽车
瑞芯微 RK3588 Qualcomm Hexagon NPU 边缘AI
全志V853 Google Edge TPU 智能视觉

四、什么是TPU?

  TPU(张量处理器)是一种专门面向人工智能深度学习设计的 AI 加速芯片,最早由 Google 提出。相比 CPU 和 GPU,TPU 更强调大规模张量运算效率,在大模型训练、云端 AI 推理和数据中心计算中具有极高性能与能效优势。

(1) TPU的基本原理

  TPU(Tensor Processing Unit,张量处理器)是一种专门针对深度学习张量运算优化的 AI 加速处理器,其核心目标是高效完成矩阵乘法、卷积和 Transformer 等神经网络计算。TPU 内部通常采用大规模矩阵计算阵列(Systolic Array,脉动阵列)结构,可在极短时间内完成海量张量运算,因此特别适合深度学习训练与推理任务。相比 CPU 强调通用控制能力、GPU 强调并行计算能力,TPU 更专注于 AI 神经网络中的高密度矩阵计算,可显著提升 AI 模型训练速度并降低能耗。目前 TPU 已广泛用于大模型、搜索引擎、语音识别以及云端 AI 服务等领域。

(2) TPU的典型型号与应用

TPU 最具代表性的产品来自 Google TPU 系列,包括 Google TPU v4、Google TPU v5e 以及 Google TPU v5p 等型号,主要用于 Gemini、大模型训练以及 Google 云 AI 服务。

在边缘 AI 领域,Google Edge TPU 常用于智能摄像头、机器人和 IoT 设备。

TPU 目前主要部署于大型数据中心和云计算平台,通过成千上万个 TPU 芯片组成 AI 超级计算集群,为大模型训练和高并发 AI 推理提供算力支持。

(3) TPU 的性能特点

  TPU 最大的特点是针对 AI 张量运算进行了高度专用化优化,因此在深度学习训练和推理中的能效比通常高于传统 GPU。其脉动阵列结构能够高效完成矩阵乘法与 Transformer 计算,非常适合大模型训练、自然语言处理和计算机视觉等任务。相比 GPU 更强调通用并行计算,TPU 更聚焦 AI 专用工作负载,因此在 Google TensorFlow 等生态下具有极高性能。不过,TPU 的通用性较弱,对特定 AI 框架依赖较强,通常主要部署于大型云平台与数据中心。简单来说,GPU 更像“通用 AI 工厂”,而 TPU 更像“专门为深度学习打造的超级 AI 引擎”。

中国制造的 TPU / 类 TPU 芯片

  由于 “TPU” 本身是 Google 提出的专有名称,因此国内更多称为:

  • AI 加速器;
  • 张量处理器;
  • AI 训练芯片;
  • 类 TPU 架构芯片。

  目前较接近 TPU 架构路线的国产产品包括:

国产芯片 对标产品 主要方向
华为昇腾 910B Google TPU v4 / NVIDIA A100 Tensor Core GPU 大模型训练
寒武纪 MLU590 Google TPU v4 AI训练
燧原 云燧T21 Google TPU v5e AI训练/推理
天数智芯 天垓200 NVIDIA A100 Tensor Core GPU AI训练
壁仞 BR100 Google TPU v4 通用AI计算
阿里含光800 Google Edge TPU 云端推理
昆仑芯2代 Google TPU v4 AI训练/推理

算力指标衡量

(1) TOPS

  TOPS(Tera Operations Per Second)是衡量 AI 芯片计算能力的重要指标,表示处理器每秒可执行多少“万亿次运算”。其中,1 TOPS 等于每秒 1 万亿次操作,常用于衡量 NPU、TPU、GPU 等 AI 加速芯片在神经网络推理中的性能水平。TOPS 数值越高,通常意味着芯片处理 AI 模型、图像识别、语音识别和大模型推理的速度越快。不过,TOPS 并不完全等于真实 AI 性能,因为实际效率还会受到内存带宽、数据传输、软件生态以及模型结构等因素影响。因此,TOPS 更像是 AI 芯片的“理论算力指标”,而不是最终实际应用性能。

(2) TFLOPS

  TFLOPS(Tera Floating Point Operations Per Second)是衡量处理器浮点计算能力的重要指标,表示芯片每秒可执行多少“万亿次浮点运算”。其中,1 TFLOPS 等于每秒 1 万亿次浮点计算,常用于衡量 CPU、GPU、TPU 等处理器在科学计算、图形渲染和 AI 训练中的理论性能。例如,大模型训练中的矩阵运算通常会使用 FP32、FP16 或 BF16 等浮点精度,因此 GPU 参数中常会标注 TFLOPS 指标。

  TOPS 与 TFLOPS 的核心区别在于“运算类型不同”。TFLOPS 主要统计浮点数计算能力,强调高精度数学运算,常用于 GPU、超级计算机和 AI 训练性能描述;而 TOPS 更偏向整数或低精度 AI 推理运算,常用于 NPU、边缘 AI 芯片和移动端 AI 加速器。简单来说,TFLOPS 更适合衡量“高精度计算能力”,而 TOPS 更适合衡量“AI 推理吞吐能力”。不过,两者都属于理论算力指标,实际性能还会受到内存带宽、功耗、软件优化和模型结构等因素影响。

(3) IPS

  IPS(Inference Per Second)通常指“每秒推理次数”,是衡量 AI 芯片或 AI 系统实际推理性能的重要指标,用来表示设备每秒能够完成多少次完整 AI 模型推理任务。

  相比 TOPS、TFLOPS 这类“理论算力指标”,IPS 更接近真实应用性能,因为它直接反映了模型运行后的实际处理能力。例如:

  • 一个摄像头 AI 芯片:
    • 100 IPS
    • 表示每秒可完成 100 次目标识别。
  • 一个大模型服务器:
    • 20 IPS
    • 表示每秒可完成 20 次完整大模型回答。

本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!