AI 的下一个战场中鼎策略,不在云端,而在你的口袋里。
iPhone、华为、三星、小米、OPPO 等各大手机厂商几乎都在将大模型塞进手机,端侧 AI 已然成为兵家必争之地。
背后的逻辑清晰而坚定:最懂你的 AI,必须能安全地访问你的个人数据——邮件、照片、日程,而这一切的前提,就是将计算留在本地,将隐私还给用户。
然而,想让 AI 在本地流畅运行,远比想象的要难得多。最好的证据,莫过于财力雄厚、软硬一体的苹果,其雄心勃勃的 Apple Intelligence 计划也未能如期而至,核心 AI 功能不得不推迟到明年。
这无疑向整个行业释放了一个清晰的信号:端侧 AI,是一块难啃的硬骨头。
正当全球科技巨头在端侧 AI 的道路上艰难探索时,一股产学研深度融合的新兴力量,给出了独有的解决路线。
今天,上海交通大学 IPADS 研究所、上海交通大学人工智能学院联合初创公司本智激活(Zenergize AI),在 HuggingFace 开源了端侧原生大模型 SmallThinker。
该系列模型采用为端侧算力、内存、存储特性而原生设计的模型架构,并从零开始预训练,具体包含两个尺寸的稀疏模型,分别是 SmallThinker-4B-A0.6B 和 SmallThinker-21B-A3B,模型也已开源,链接如下。
https://huggingface.co/PowerInfer/SmallThinker-21BA3B-Instruct
https://huggingface.co/PowerInfer/SmallThinker-4BA0.6B-Instruct
其显著特征,就是用端侧 CPU 即可快速推理,不再依赖高端 GPU。
其中,4B 模型在 1GB 峰值内存下的推理速度达到惊人的 19.41 tokens/s。
而更令人瞩目的是,21B 旗舰稀疏模型,在一块百元级的国产 RK3588 开发板上,实现了相较于同等能力的主流模型(Qwen-14B)高达 21 倍的推理加速,将同类解决方案远远甩在身后。
SmallThinker:端侧原生大模型
主流大模型,从出生起就是为云端成千上万 TOPS 算力、TB 级显存的 GPU 集群"量身定制"的。想把它们塞进算力、内存等都不到云端 5% 的端侧设备,传统方法只有"压缩"。
这就好比让一个"博士生"模型,通过蒸馏、量化等手段,强行"降智",最终变成一个只会简单问答的"小学生",牺牲了太多智能。
是否存在一种不做"模型降智",而是一步到位的选择?
为了实现这一目标,SmallThinker 系列针对端侧的弱算力、小内存、慢存储,设计了创新的大模型架构,并从零开始预训练,实现了与端侧硬件的"精巧匹配"。
具体来说,这一端侧原生的大模型架构主要拥有三大核心技术特性:
第一,端侧算力原生的双层稀疏架构,稀疏度提升 5 倍。
传统的 MoE(混合专家模型)只在专家层面是稀疏的。而 SmallThinker 在此基础上,增加了专家内部的神经元稀疏。
这就好比,模型不仅能精准调用最相关的专家知识,还能只激活专家知识库里最核心的部分,避免"复述全部所学",对端侧算力的要求大大降低。
第二,端侧存储原生的专家路由前置,显著隐藏 IO 开销。
在内存资源受限的端侧,通常模型权重不能完全放置在内存里中鼎策略,需要在推理过程中动态从慢速存储(比如 SSD、UFS 等)加载模型专家权重,而在这个过程中,端侧的慢速 I/O 会严重影响推理速度。
传统方案是算完注意力,再计算路由,最后排队等待加载专家。
而 SmallThinker 在模型架构中就原生提供了机制,帮助预判需要哪个专家,在进行注意力计算的同时,就去异步加载专家。
做到了"边检查边传唤",将 I/O 等待时间隐藏在注意力计算的过程中。
第三,端侧内存原生的混合稀疏注意力,KV 缓存占用下降 76%。
针对长文本场景,SmallThinker 设计了"略读" + "精读"的混合注意力机制。它使用滑动窗口注意力(Sliding Window)进行高效的"略读",同时保留全局注意力的能力进行"精读"。
两种方式组合,在处理 16K 文本时,相比传统 GQA 机制,KV 缓存占用降低 76%,让端侧设备也能轻松处理长文档
生态兼容性与极致性能:SmallThinker 与 PowerInfer 的完美结合
一个真正优秀的开源模型,不仅自身要强大,更要拥抱广阔的开放生态。
SmallThinker 模型系列在设计上充分考虑了开发者的使用习惯,能够无缝兼容 HuggingFace Transformers、vLLM、SGLang、llama.cpp、KTransformers 等一系列主流推理框架。
在硬件适配上,它实现了对英特尔、英伟达、高通等主流芯片,甚至已经可以在国产鸿蒙操作系统上进行推理。这种开箱即用的灵活性,极大地降低了开发者的使用门槛。
而要体验 SmallThinker 最极致的端侧加速与内存优化效果,则需要使用团队为其量身打造的端侧原生 Infra —— PowerInfer(https://github.com/SJTU-IPADS/PowerInfer/blob/main/smallthinker/README.md)。
PowerInfer 是团队于 2023 年 12 月开源的业界首个稀疏大模型端侧推理框架,发布后迅速获得全球开发者的高度关注,目前 GitHub 星标已达 8.2K,并曾连续两天蝉联 GitHub 全球项目趋势榜第一。
它能够深度激活 SmallThinker 原创的双层稀疏架构,在推理时只调用必要的专家及神经元,并能在不影响推理速度的情况下降低内存占用。
它就像是为 SmallThinker 这台" F1 赛车"专门打造的引擎,为开发者提供了一套从模型到部署、真正完整的全栈优化解决方案。
SmallThinker 模型智力与推理性能兼具
理论再好,也要看疗效。SmallThinker 团队交出的,是一份模型能力与端侧推理性能兼备的答卷。
为了真正实现"端侧原生",团队从零开始预训练,基于高质量数据语料,训练了两种规模的模型:
SmallThinker-4B-A0.6B:基于2.5T Tokens数据预训练,拥有 40 亿参数,激活 6 亿参数,主打极速响应。
SmallThinker-21B-A3B:基于 7.5T Tokens 数据预训练,拥有 210 亿参数,激活 30 亿参数,主打旗舰性能。它能够在百元级 RK3588 上流畅部署,全内存情况下的 CPU 推理速度也能达到 10.84 tokens/s。
口说无凭,评测见真章。
在 MMLU、GPQA 等多个权威评测基准上,SmallThinker 的智力水平均超越了同尺寸甚至更大尺寸的开源模型,充分证明了其"原生"架构设计的优越性。
而在更关键的实际运行性能上,当 SmallThinker 与 PowerInfer 结合时,其在内存约束场景下的优势尽显。团队在旗舰移动平台和个人电脑 PC 上,对业界主流模型进行了正面硬刚。
场景一: 手机极限内存瓶颈 (1GB RAM)
在主流手机上,SmallThinker-4B-A0.6B 模型的 Q4 量化版本,在仅调用 4 个 CPU 核心的情况下,推理速度便高达79 tokens/s。
而在对模型架构与推理框架构成终极考验的极限内存瓶颈(1GB)场景下,SmallThinker 的优势则体现得淋漓尽致;4B 模型依然跑出了 19.91 tokens/s的流畅速度。
作为对比,Qwen3-1.7B 模型速度仅为 1.07 tokens/s,几乎无法正常使用。
近 19 倍的性能差距,充分证明了 SmallThinker 在极端资源受限环境下的卓越运行能力。这不仅是一次技术的胜利,更是将高端 AI 平民化的关键一步。
场景二: 主流 PC 配置(8GB RAM)
当内存放宽到旗舰 PC 的 8GB 时,SmallThinker 的架构优势依然显著。
SmallThinker-21B-A3B 的 4 核 CPU(Intel i9 14990K)推理速度达到20.30 tokens/s,而Qwen3-30B-A3B的 4 核 CPU 速度为 10.11 tokens/s,加速比达到 2 倍。
未来展望:不止于此,通往端侧原生智能
在这训练过程中,团队发现;即使在如此庞大的数据投喂之后,模型的 loss 曲线仍在稳步下降,仍未达到饱和。
未来,团队会围绕两条路线演进。
第一条路线,继续 Scaling:更大更强。
既然模型尚未"吃饱",那么最直接的路径就是——继续投喂。
团队的下一步计划,将继续遵循被验证有效的 Scaling Law,利用更多的高质量 Tokens 进行进一步训练。进一步压榨模型潜力,在知识储备、逻辑推理和代码生成等核心能力上,将 SmallThinker 推向新的高度,打造出更强大的端侧基础模型。
第二条路线,打造"个人贾维斯":从模型到可信赖的智能体。
如果说 Scaling Law 是让模型变得更"博学",那么团队的终极野心,则是打造一个真正属于每个人的"贾维斯式"智能体。
这个智能体的独特之处在于,它完全运行在你的个人设备上,能够安全、完整地理解你的全部数字生命——从邮件、日程,到聊天记录和相册。正是在这片独一无二的私有数据土壤之上,才能生长出"千人千面"、真正懂你的可信赖 AI。
相信未来,随着端侧原生 AI 能力的不断进步,未来的 AI 能力就会像今天的水和空气一样,主动融入我们每个人的日常工作和生活,提供安全私密、成本低廉、充满智慧的 AI 体验。
* 本文系量子位获授权刊载,观点仅为原作者所有。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
� � 点亮星标 � �
科技前沿进展每日见中鼎策略
倍顺网提示:文章来自网络,不代表本站观点。