苹果看上的公司,靠量子“邪修”给模型“瘦身”

日期:2025-09-04 20:01:30 / 人气:7


在人工智能行业,端侧模型和小模型已不是新鲜事物,但西班牙初创公司Multiverse Computing凭借独特的量子物理技术给模型瘦身,引起了广泛关注,还获得了苹果等巨头的青睐。

一、公司发展历程与转折

早期聚焦量子计算金融应用

2019年成立的Multiverse Computing,最初聚焦量子计算软件,致力于用量子技术解决金融领域的投资组合优化、风险管理等传统IT技术难以攻克的难题。凭借技术积累,该公司被第三方数据分析与咨询机构Gartner评为量子计算领域的“Cool Vender”,还获得欧盟加速器EIC 1250万欧元的资金支持,成为欧洲资本最充足的量子初创公司之一。其团队实力雄厚,40%成员拥有博士学位,核心成员横跨金融、量子物理与科技创业三大领域,CEO恩里克、联合创始人罗曼和CTO塞缪尔分别在数学、量子物理和量子计算与机器学习领域有深厚造诣和丰富经验。

转向量子与AI结合

2023年生成式AI爆发,大模型参数规模暴涨,算力成本飙升成为行业痛点。Multiverse团队敏锐地发现,他们深耕多年的量子张量网络技术可用于破解这一困局,量子多体系统中的数学技巧能实现大模型参数的高效压缩且最大程度保留性能。基于此判断,团队组建AI压缩专项组,年底推出核心技术CompactifAI,从“量子 + 金融”转向“量子 + AI”,踩中了“小模型”风口,迎来爆发式发展。

二、“量子瘦身”技术解析

技术原理

Multiverse的核心技术CompactifAI不同于行业常用的量化、蒸馏技术简单削减参数,它运用量子物理张量网络方法,融合张量分解、矩阵低秩近似等复杂数学技巧,从模型底层重构参数逻辑。联合创始人奥鲁斯表示,该技术源自对量子物理的理解,更加微妙而精炼。通俗来讲,就像把高维度的大拼图重新打碎,通过升高维度、去掉重复碎片,将其装到小盒子里并保留几乎所有信息,需要时还能重新还原。

技术优势

这种方法对大多数神经网络变体的模型具有很强的泛化性,难点在于把大语言模型基础算子/结构抽象出来,形成通用的压缩工作流。CompactifAI通常能将模型体积缩小80 - 95%,而准确率只下降2 - 3个百分点。例如,Llama 4 70B模型的精简版“Llama 4 Scout Slim”以及Llama 3系列和Mistral小模型的精简版等,都能在绝大多数基准测试中与原模型表现相当。2025年8月发布的“苍蝇脑”(SuperFly)和“小鸡脑”(ChickBrain)两款超小模型,更是展示了其技术实力。“苍蝇脑”基于开源SmolLM模型压缩而成,参数从1.35亿压缩到9400万;“小鸡脑”由Meta的Llama 3.1系列8B模型压缩成3.2B参数,具备一定推理能力。

商业价值

CompactifAI带来了显著的成本与效率优化。其瘦身版模型推理速度是未压缩模型的4 - 12倍,推理成本降低50 - 80%,在AWS云服务上可大幅节省费用。例如,压缩过的Llama 4 Scout Slim在AWS上每处理百万tokens可节省约30%费用。该技术还让原本只能在昂贵服务器上运行的AI模型进入“平民设备”时代,部分精简模型可在PC、手机、汽车上运行。Multiverse提供了三种商业服务模式,包括通过AWS API访问、购买私有部署许可以及通过服务提供商交付,主要客户为广泛使用大模型的企业和开发者,能帮助他们削减算力成本、支持离线部署,还能节省云GPU租用费和能耗开销。

三、市场机遇与挑战

市场机遇

Multiverse的技术吸引了全球硬件巨头的关注,已与苹果、三星、Sony、HP等洽谈合作,契合苹果优先做适配iOS/macOS的轻量化本地模型的战略。小模型和端侧模型是巨头云集的赛道,科技巨头纷纷下场,初创公司也在争抢AI效率赛道,大家都瞄准了“提高AI性能/成本比”的目标。

面临挑战

量子计算领域人士认为,Multiverse的壁垒不算太高,其大部分业务围绕已有模型压缩,而非自己训练小模型,在效果上可能难以达到惊艳程度,且极度依赖原有的模型能力。一些专注小模型的初创公司除压缩模型外,还自己训练小模型并取得了不错效果。此外,端侧模型除了轻量化,还需配合不同设备的计算资源、能耗、发热等进行调节,是一个工程化问题。Multiverse若想建立自己的生态壁垒,或许需要绑定一家硬件厂商,同时在端侧模型布局上的工程化问题和模型能力本身的技术壁垒仍有待观察。

作者:长运娱乐




现在致电 xylmwohu OR 查看更多联系方式 →

长运娱乐 版权所有