大模型这场竞赛正酣,国内外科技巨头、勇于探索商业模式的公司“打”得异常火热。从一直在升级的 OpenAI GPT 系列、Google Gemini,到国产大模型 DeepSeek 以及这两天爆火的 ,各大厂商你追我赶,唯独苹果自推出 Apple Intelligence 之后,似乎没了太大动静。然而,就在外界以为苹果就要错失先机时,没想到其重磅发布了一款 Mac Studio,从硬件层面为大模型的运行铺了路。
有专门在各种设备上尝试跑大模型的机构深入分析显示,这款设备能够运行超 6000 亿参数的 LLM(大语言模型)。换句话说,个人用户在家就能流畅运行完整体量的 DeepSeek R1,这一突破让众多 AI 爱好者兴奋不已。
与 M1 Ultra、M2 Ultra 类似,全新的 M3 Ultra 其实就是由两颗 M3 Max 处理器通过台积电的先进封装技术(苹果将其称为“UltraFusion”)拼接在一起的。从外部看是一颗芯片,但内部其实就是两个 M3 Max 组合,总共包含 1840 亿个晶体管。
相比前代,M3 Ultra 带来了大幅升级。该芯片最多可配置 32 核(24 颗高性能核心和 8 颗高能效核心),而 M2 Ultra 的最高配置为 24 核(16 颗高性能核心和 8 颗高能效核心)。苹果表示,这使得 M3 Ultra 相比 M2 Ultra 性能提升 50%,相比初代 M1 Ultra 提升 80%。
GPU 方面,这一代的 M3 Ultra 最高配备 80 核,相较于 M2 Ultra 的 76 核提升不大。不过,苹果在 2023 年 10 月的“Scary Fast”活动中就提到,真正影响 GPU 速度的,更多是架构优化,而不只是核心数量。
苹果还强调,M3 系列的 GPU 核心相比 M2 系列快 80%,部分原因主要在于引入了硬件加速的网格着色(Mesh Shading)和光线追踪(Ray Tracing)技术。再加上 M3 Ultra 额外的 GPU 核心,苹果表示其图形处理性能大约是 M2 Ultra 的两倍。
因为以上强大的更新,据苹果介绍,搭载 M3 Ultra 的 Mac Studio,足以运行“参数超过 6000 亿”的 LLM。
正因此,Mac Studio 已成为 AI 研究人员和爱好者的热门选择之一,被认为是运行高参数大模型最具性价比的平台之一。
Alex Cheema 算了笔账,并分享了其最新观点。他表示,想跑这些超大的 AI 模型,第一步就是让它们塞进显存(或者是苹果称之为的“统一内存”)。那问题来了,不同平台的内存价格和性能差距有多大?
对此,他做了一个不同硬件平台的内存容量、带宽和成本的对比(注意:这里没有包含 DIGITS 有关数据,因为具体细节尚未确认):
不过,Alex Cheema 认为,苹果的 M3 Ultra 的 Mac Studio 短板也很明显。有个问题是——“内存刷新率”,也就是设备的内存带宽和内存大小的比值。这个数值决定了设备每秒可以完整读写多少次全部内存,对单条输入(batch_size=1)推理速度 影响很大。如果是一个会占满设备全部内存的密集型模型,它的最大理论 token 生成速率就受这个数值限制。
可以看出,苹果用更大内存换来了更低的刷新率,M3 Ultra 的这个数值甚至比 H100 低 24 倍。换句话说,苹果设备更适合那些需要大量内存、但对带宽要求不高的 AI 模型。
再看看单位带宽的成本(每 1GB/s 内存带宽要多少钱,数值越低越划算):
从数据来看,M3 Ultra 在这方面性价比比 M2 Ultra 还差,不过它的优点是超大容量的内存。
MoE 结构在每一层都有多个“专家”(子模型),但每次推理时只激活其中的 一小部分。比如 DeepSeek R1 的激活率是 1/32(8/256),如果未来能优化到 1/128(8/1024),那就更适合 M3 Ultra 了,因为它主要依赖大内存,而不是高带宽。
这类方法(比如 DiPaCo)会用多个小模型,然后由一个“控制器”决定激活哪些模型,把结果组合起来。这个方案同样是需要大内存但对带宽要求低,刚好适合 M3 Ultra。
所以,虽然 M3 Ultra 带宽没优势,但对于只激活少量参数的 AI 模型,它反而是个不错的选择。
Alex Cheema 预测道,“如果明年苹果推出 M4 Ultra 版 Mac Studio,很有可能会提升带宽。因为苹果的 UltraFusion 技术是把两块 Max 芯片拼在一起,而 M4 Max 的内存带宽比 M3 Max 提升了 36.5%,所以如果 M4 Ultra 继续用类似架构,带宽问题应该能得到一定的改善(甚至可能会出现更大提升)。”
总的来说,M3 Ultra 目前是一个高内存、低带宽的 AI 计算平台,它很适合稀疏专家模型(MoE)和模块化 AI 结构。如果苹果在 M4 Ultra 上逐步提升带宽,那么它在 AI 计算领域的竞争力会更强。
对此,The Register 指出,虽然高端 Mac Studio 用的是 M3 Ultra,但基础款其实搭载的是 M4 Max——这颗芯片去年秋天就已经在 MacBook Pro 上亮相了。M4 Max 最高配备 16 核 CPU(12 颗高性能核心 + 4 颗高能效核心)、40 核 GPU,并支持最高 128GB 统一内存,存储也能扩展到 8TB。不过,考虑到苹果的存储溢价一向不低,而 Mac Studio 主要是桌面设备,更划算的方案可能是选外接 USB4 或 Thunderbolt 存储,性价比更高。
尽管价格不菲,Mac Studio 的发布还是让不少 AI 爱好者兴奋不已,不少人涌入社交平台分享自己的最新看法。
来自 X 平台的用户 Aaron Ng 评价道:“苹果的 512GB Mac Studio 绝非噱头。别说大多数 PC 只能支持 128GB 内存了,而且还不是显存(VRAM)。512GB 统一内存的规格,已经能与那些售价五位数的高端 GPU 相媲美。这台机器不仅能跑 DeepSeek R1,几乎所有 AI 任务都能轻松应对。在 AI 计算领域,没有比这更强的个人电脑了。”
“这可能是全球首款能在家里直接跑满血版 DeepSeek V3/R1 的「桌面超算」。”
“DeepSeek R1 是一个拥有 6710 亿参数的超大规模 AI 模型,常常要强大的硬件才能运行。
苹果最新的 M3 Ultra 版 Mac Studio,配备 512GB 内存,确实可以运行这个模型,但如果想在家完整运行未量化版本,需要两台设备协同工作。
虽然技术上可行,但这种配置价格昂贵,更适合研究人员或 AI 爱好者,而非普通用户。
对于大多数人来说,运行较小或经过量化优化的 AI 模型会更实际,同时依然能提供出色的性能。”