iPhone 上实现更快 AI 响应:苹果创新 MTP 技术,不牺牲质量模型输出速度最高提升 5 倍

发布时间:2026-03-02 15:19:58 来源:互联网

感谢本站网友 Nuc_F、对的时间点 的线索投递!

本站 8 月 9 日消息,科技媒体 9to5Mac 昨日(8 月 8 日)发布博文,报道称苹果在最新研究中,提出了“多 token 预测”(MTP)技术,不牺牲输出质量的情况下,可将大语言模型响应速度提升 2~3 倍,特定场景下最高可达 5 倍。

本站援引博文介绍,传统大语言模型(LLM)采用自回归方式生成文本,逐个输出 token,为保证连贯性,每一步都依赖前序内容。

例如生成“The cat is black”时,模型需在输出“is”后,基于上下文和训练经验,从词汇表中计算“black”等候选词的概率,再选择最合适的词。这种串行机制虽准确,但速度受限,尤其在移动设备上影响用户体验。

苹果在新论文《Your LLM Knows the Future: Uncovering Its Multi-Token Prediction Potential》中发现,尽管模型仅被训练为预测下一个词,其内部其实蕴含对后续多个词的潜在判断能力。

研究团队据此提出“多 token 预测”(MTP)框架,支持模型一次生成多个词。例如输入“The cat is ”,模型可直接输出“very fluffy”,大幅提升生成效率。

该技术核心在于引入“掩码”(Mask)token 作为占位符,并让模型并行推测后续多个词。每个推测结果会立即与标准自回归解码结果比对,若不符则自动回退到逐词生成模式,确保输出质量不受影响。这一“推测-验证”机制在提速的同时,保留了传统方法的准确性,实现速度与质量的平衡。

实验基于开源模型 Tulu3-8B 进行,苹果训练其最多推测 8 个后续 token。结果显示,在问答和对话等通用任务中,响应速度平均提升 2–3 倍;在代码生成、数学推理等结构化场景中,提速可达 5 倍。

研究人员强调,性能提升未以牺牲生成质量为代价,关键在于采用了“门控 LoRA 适配”技术,动态调节参数,仅在需要时激活推测模块。

这项研究为设备端大模型部署提供了新路径。相比依赖云端计算,MTP 可在 iPhone、Mac 等本地设备实现更快响应,降低延迟与能耗。

虽然目前仍处于研究阶段,但其兼容现有模型架构的特点,使其具备较强落地潜力,未来或可集成至 Siri、Apple Intelligence 等产品中,提升用户交互体验。

本周热门教程

1
人与马鲛的完美配方大全:健康美味的营养搭配与食谱推荐

人与马鲛的完美配方大全:健康美味的营养搭配与食谱推荐

2026/01/20

2
如何通过《玉女心经2之阴阳和合》找到人生的平衡与和谐:揭示阴阳哲学对情感的深刻影响

如何通过《玉女心经2之阴阳和合》找到人生的平衡与和谐:揭示阴阳哲学对情感的深刻影响

2026/01/06

3
《玉女心经2之阴阳和合》:如何通过阴阳和合实现身心健康与情感平衡?

《玉女心经2之阴阳和合》:如何通过阴阳和合实现身心健康与情感平衡?

2026/02/27

4
www.17c.com为什么能吸引大量用户共同参与创作与互动?未来平台发展的潜力有多大?

www.17c.com为什么能吸引大量用户共同参与创作与互动?未来平台发展的潜力有多大?

2026/02/27

5
大BBBBBB老人的爱情与财运:如何在岁月中找到属于自己的幸福与财富

大BBBBBB老人的爱情与财运:如何在岁月中找到属于自己的幸福与财富

2025/03/16

6
大学生如何利用视频提升学习与生活质量:你准备好了吗?

大学生如何利用视频提升学习与生活质量:你准备好了吗?

2026/01/31

7
完蛋我被美女包围了成就都有什么 完蛋我被美女包围了全成就攻略

完蛋我被美女包围了成就都有什么 完蛋我被美女包围了全成就攻略

2026/01/31

8
你知道六间房9.1隐藏入口是什么吗?旧版本com.ss86-r55bpm还有哪些秘密?

你知道六间房9.1隐藏入口是什么吗?旧版本com.ss86-r55bpm还有哪些秘密?

2026/02/23

9
欧美精产国品一二三产品在哪买:全方位指南助你轻松购物

欧美精产国品一二三产品在哪买:全方位指南助你轻松购物

2026/02/15

10
如何快速找到搞笑又有趣的短视频?你是否已经尝试过“嗯~啊~快点 死我菠萝视频”?

如何快速找到搞笑又有趣的短视频?你是否已经尝试过“嗯~啊~快点 死我菠萝视频”?

2026/02/23