iPhone 上实现更快 AI 响应：苹果创新 MTP 技术，不牺牲质量模型输出速度最高提升 5 倍-寻峰游戏园

感谢本站网友 Nuc_F、对的时间点的线索投递！

本站 8 月 9 日消息，科技媒体 9to5Mac 昨日（8 月 8 日）发布博文，报道称苹果在最新研究中，提出了“多 token 预测”（MTP）技术，不牺牲输出质量的情况下，可将大语言模型响应速度提升 2~3 倍，特定场景下最高可达 5 倍。

本站援引博文介绍，传统大语言模型（LLM）采用自回归方式生成文本，逐个输出 token，为保证连贯性，每一步都依赖前序内容。

例如生成“The cat is black”时，模型需在输出“is”后，基于上下文和训练经验，从词汇表中计算“black”等候选词的概率，再选择最合适的词。这种串行机制虽准确，但速度受限，尤其在移动设备上影响用户体验。

苹果在新论文《Your LLM Knows the Future: Uncovering Its Multi-Token Prediction Potential》中发现，尽管模型仅被训练为预测下一个词，其内部其实蕴含对后续多个词的潜在判断能力。

研究团队据此提出“多 token 预测”（MTP）框架，支持模型一次生成多个词。例如输入“The cat is ”，模型可直接输出“very fluffy”，大幅提升生成效率。

该技术核心在于引入“掩码”（Mask）token 作为占位符，并让模型并行推测后续多个词。每个推测结果会立即与标准自回归解码结果比对，若不符则自动回退到逐词生成模式，确保输出质量不受影响。这一“推测-验证”机制在提速的同时，保留了传统方法的准确性，实现速度与质量的平衡。

实验基于开源模型 Tulu3-8B 进行，苹果训练其最多推测 8 个后续 token。结果显示，在问答和对话等通用任务中，响应速度平均提升 2–3 倍；在代码生成、数学推理等结构化场景中，提速可达 5 倍。

研究人员强调，性能提升未以牺牲生成质量为代价，关键在于采用了“门控 LoRA 适配”技术，动态调节参数，仅在需要时激活推测模块。

这项研究为设备端大模型部署提供了新路径。相比依赖云端计算，MTP 可在 iPhone、Mac 等本地设备实现更快响应，降低延迟与能耗。

虽然目前仍处于研究阶段，但其兼容现有模型架构的特点，使其具备较强落地潜力，未来或可集成至 Siri、Apple Intelligence 等产品中，提升用户交互体验。

iPhone 上实现更快 AI 响应：苹果创新 MTP 技术，不牺牲质量模型输出速度最高提升 5 倍