感受的起源#
11 月 Gemini 3 发布,然后官方说是完全在自家的 TPU 上进行训练,然后上周千问发布了自己的开源文生图模型,Z-Image,我看了他们生成出来的图片很心动,因为我觉得如果有机会能把这个模型用来生成我自己的 PPT 里面就好了,我十分不擅长找各种各样或者自己手动绘制图例
然后我就面临着一个很残酷的现实,我的本地显卡的显存太小了,4060 的 8G 版本,无法运行满血的版本,只能用量化的版本,即便是可以直接下载的模型权重,我也无法运行,更别提别的什么满血的 DeepSeek 或者 Kimi
我忽然又想到之前大家对 OpenAI 或者 Claude 的一些批评,是在 Gemini 出来之后,大家认为 OpenAI 和 Claude 都依赖于 Microsoft 和 AWS,并没有自己的基础设施,依赖于英伟达的显卡,因此也会出现所谓的「卡脖子」,更别提国内的一些大模型厂商,为了显卡资源也是想尽了很多奇奇怪怪的办法,「量化技术」、「混合专家模型(MoE)」等等,包括 DeepSeek 在他们 V3.2 版本上用的稀疏注意力机制
包括今年很多朋友和我说他们在上一门大语言模型的课,然后老师要他们微调模型,大概是 qwen3 4B,当时我们就觉得很奇怪,一方面微调能不能调得比原来的效果更好是一个问题;另一方面到底有没有足够的资源能来跑这个微调,其实说到底还是资源的问题
新开源精神#
从「代码即权力」到「算力即权力」#
以前在 GitHub 上,开源一个 Web 框架(比如 Django 或 Vue),即使你只有一台十年前的笔记本,你也能跑起来,能读懂每一行代码,能修改它,甚至能重构它,那时的准入门槛是智力,而不是财力
但是现在,很多厂商给你的是一个编译好的「二进制大对象」(模型权重),你不知道它是用什么数据训练的(数据隐私/版权),你也不知道具体的训练超参数(炼丹秘方),开源精神的其中就是「可复现」,但是对于开发者,即便是我给你所有的数据集和代码,你也复现不出来,因为你没得那几万张显卡,从某种程度上说,我们是被迫使用的
所以其实,这种开放权重的大模型开源,很大程度上,其实是更有利于中大型企业,因为他们有资源接住这个「半成品」,把它变成产品,对于普通的开发者,其实是很难接触到的
开源是护城河,不是慈善#
为什么 Meta(Llama)、阿里(Qwen)、Mistral 要开源?他们不是为了让只有 4060 显卡的学生能做 PPT,而是为了制定标准和扼杀竞争对手
如果所有人都在用 Llama 的架构开发工具(LangChain, LlamaIndex, vLLM),那么 Llama 就成了 AI 界的 Linux,当架构成为标准,Google 和 OpenAI 的闭源模型就会被孤立
像你我这样的开发者,虽然跑不动满血版,但我们会去跑量化版,会去报 Bug,会去开发周边的适配工具。巨头白嫖了全世界开发者的「维护精力」,我还真干过类似的事情,我当时是要做一个本地敏感数据清晰的工作,然后我就在本地跑了个 qwen 的量化小模型,虽然最终速度非常慢而告终
所以我觉得这种开源其实是有一种「圈地运动」的意味在里面
被「逼」出来的平民技术革命#
虽然这种开源看起来有点「耍流氓」,但辩证地看,正是这种「硬件门槛」逼出了下沉市场的技术大爆发
如果所有模型大家都能随便跑,技术可能就停滞了,正因为平价显卡跑不动,社区才被迫发明了:
- 量化(Quantization): GGUF、AWQ、GPTQ,让 70B 的模型硬塞进 24 G 显存,让 8B 的模型塞进你的 8G 显存
- 高效微调(LoRA/QLoRA): 你不需要重新训练模型,只需要训练 1% 的参数,这是普通人唯一能「修改」模型的方式
- 推理加速(vLLM/FlashAttention): 把硬件性能榨干到极致
这是「贫穷」倒逼出来的创新,如果没有我们这些买不起 H100 的人在 GitHub 上疯狂折腾,现在的 AI 效率可能还停留在两年前
量化、LoRA 这些技术确实是 brilliance under pressure 的典范,但有个残酷现实:这些优化本质上是在替巨头的 inefficiency 买单,当社区费尽心思把 70B 模型塞进 24 G 显存时,真正该问的是:为什么模型要设计得如此臃肿?DeepSeek 的 MoE 架构之所以惊艳,正因为它从根源上质疑了「暴力美学」——不是优化现有体系,而是重新设计游戏规则。这才是真正的革命
新开源范例#
目前的开源大模型(Llama 系列、Mistral、Qwen、DeepSeek)虽然品牌不同,但底层架构越来越趋同(大部分是 Transformer 的变体,魔改了 Attention 机制或激活函数),这就导致了一个现象,社区的工具链是围着开源标准转的
比如你想用 vLLM 加速推理,想用 LoRA 微调,想用 Ollama 部署,想用 GGUF 量化,这些工具最先支持的、支持得最好的,永远是 Llama 架构或者 Qwen/DeepSeek 这种公开权重的模型
OpenAI 和 Gemini,它们变成了单纯的 API 端点,你没法对 Gemini 3 做深度手术,没法把它的某一层拿出来做实验,没法用最新的社区量化技术去压缩它,它们虽然强大,但在技术生态的演进中,它们是一座座封闭的孤岛,外面热闹非凡的「改装车文化」与它们无关
开源模型给我们带来了什么#
我觉得开源模型主要是做了两件事情,「祛魅」和「价格锚定」
客观来说,闭源模型,比如说 Gemini 3 在复杂逻辑、多模态理解和长上下文上,依然是目前的 SOTA(State of the Art),也许类似于 Deepseek、Kimi 或者 GLM 在中文语境或者其他领域能有部分反超,但在综合能力上,闭源模型依然有微弱的护城河
但是开源模型给了我们更多的选择,以及告诉我们,Tokens 不必那么贵
DeepSeek 在 25 年初的时候证明了一件事,达到 GPT-4 95% 的性能,只需要 GPT-4 1% 的价格(甚至更低),DeepSeek 最大的贡献在于它极其激进的 MoE(混合专家)架构优化和低成本训练策略,它告诉世界:「智能不应该那么贵」
这逼得 OpenAI 和其他厂商不得不降价
其实现在也是一样的,虽然说 Claude 的模型写代码很好用,但是你定价那么高,我为什么不用价格不到你十分之一,但是效果能有你 90% 的 GLM 呢
如果没有 Llama 和 DeepSeek 这种开源鲶鱼在后面追,OpenAI 可能到现在还会死守着 GPT-4 的高价不放,甚至会像当初的英特尔挤牙膏一样,放缓更新速度,开源模型的存在,是一把悬在巨头头顶的达摩克利斯之剑,迫使他们必须不断拿出真正具有代差优势的新技术,才能说服用户继续付费
DeepSeek 们的存在,并没有彻底消灭闭源模型,但它们确立了一个「基准线」
在这个基准线之上,是 OpenAI 和 Google 探索未知的无人区(AGI);而在基准线之下,是属于我们大众的、普惠的、是可以不被作恶的「数字人权」,正发生在现在的是,越来越多的开源模型成为这个基线上面的部分
这也许就是历史那个圈里,最让人欣慰的部分,技术最终总会从神庙流向街头
我又想起雷总说的话:「让每个人都能享受科技的乐趣」,但我想说的是「让每个人都能定义自己的智能」,开源模型的终极价值不是追赶 SOTA,而在于解构智能本身——当 DeepSeek 把训练成本打下来,当 Ollama 让部署一键化,当 LoRA 让个性化触手可及,我们才能真正从「使用 AI」过渡到「拥有 AI」
未来会是什么样子呢?会不会就和当年显卡进入寻常百姓家一样,每个人家里都会有一个小盒子,是全家的 AI 计算中枢,还是会全部上云,是不是每个人都会有一个自己的数字孪生,是不是我们会和钢铁侠里面一样有一个贾维斯
我好期待
