每日吃瓜大赛爆料聚集地,小米AI负责人罗福莉:AI【让我】兴奋,睡[太多]都是浪{费时}间-兴和县振泓遥百货店

小米AI负责人罗福莉:AI【让我】兴奋,睡[太多]都是浪{费时}间

2026-05-18 23:02:25 起步纵横 广耳 / 余悬机

内容来源:张小珺(张小珺商业访谈录)对小米AI大模型负责人罗福莉采访的内容整理。

第 9612篇深度好文:10104 | 25分钟阅读

商业思维

笔记君说:

技术,已经"变天"了。

过去我们总以为,大模型拼的是参数、是算力、是预训练。但就在看完张小珺对罗福莉的访谈后,我们可以发现竞争的"第二幕"已经拉开,赛点变了,游戏规则也变了。

Open Claw一个开源的Agent框架,居然能让一个表现平平的"中层模型",激发出顶尖模型的上限。一群没有大模型经验的人,居然能在三四周内,干完以前三四十周才能干完的事。

这背后,不仅是技术的突变,更是组织和人的范式转移。

罗福莉在这篇访谈里,聊了很多:为什么她让团队"不用AI就辞职"?为什么她觉得"规范和约束是压制创造力的"?又为什么她判定,AGI(通用人工智能)两年内就会实现?

读完之后,你可能也会有一种"坐不住"的感觉。这个时代变化太快了,快到只争朝夕。

但她也给了我们一种力量。那就是,在巨变面前,最好的应对方式,不是焦虑,而是"把每天的研究都做好"。

以下为张小珺商业访谈对话罗福莉的精编内容整理版,希望对你有所帮助。

一、OpenClaw时刻:

我被一个开源框架彻底震撼

1. 三天,我经历了认知的三级跳

我把OpenClaw当做一个"划时代的Agent(智能体)框架"去定义。

第一次看到这个东西是1月份,我很排斥。

觉得它就是Claude Code(Anthropic推出的AI编程工具)加一个IM(即时通信)、更有利于交互的UI(用户界面)设计。

加上创始人很会做一些玄幻的运营动作,什么Skillhub(技能中心)之类的,让你更排斥。它所谓的本地化、24小时,在我看来都是产品定义而已。

真正转变发生在春节的一天深夜。

我想搞明白这东西为什么那么火,尝试装了它,折腾两个小时装上了。第一次跟它对话,从凌晨2点持续到6点天亮。那一晚我脑内的多巴胺还是内啡肽,持续在分泌,兴奋到完全睡不着觉。

第一个感受是它非常有自主性,非常有灵魂。

聊到很晚,它会老提醒我:现在已经很晚,你要不早点去睡觉。这样的温度和关怀,是所有人用OpenClaw第一个感受到的。但你深究原因,是有很多机制保证的。

比如它怎么感知时间?就在每轮对话的Context(上下文)前面拼上当前时间。

我把它叫做"精细编排的Context",它在大家没关注的角度,把Context编排得非常好。产品设计做到了一种超乎想象的地步,让所有人觉得这个框架有灵魂。

但第二天晚上,我开始把觉得框架做不成的日常生活中的事交给它做,发现它全部都做出来了。

我跟它聊了第二个话题:怎么去激发一个团队的好奇心?怎么筛选具有好奇心的人?深入探讨了一个小时,它的很多哲思远超我的想象。

接着我们聊怎么构建一个更好的大模型团队,从人员筛选到组织架构,到面临范式转变时该做什么。它完全能get我的点,最后形成一套体系化的东西,并且变成一套Skills(技能)。在这个事情上,它变成了我的数字分身。

真正超乎意料是第三天。我尝试把研究任务交给它。Agent框架里最关键的事是进行多轮交互,那就必须模拟User Agent(用户代理)进行多轮交互。我跟它沟通一两个小时,这个事基本就做出来了,已经诞生了一个很好的User Agent。

我可以用这个跟我的Post-train(后训练)框架构造更丰富的Agent场景数据,不管是做SFT(Supervised Fine-Tuning,监督微调)还是RL(Reinforcement Learning,强化学习),这个User Agent都非常关键。

从一个有灵魂、有温度的产品,到帮我替代生活或工作的一部分,到最后能促进我的研究,三天发生的。它每天都能给我额外的更多惊喜。

2.这个框架到底好在哪?

后边我深入去看,这些所谓好在哪,单独拎出来讲都有点boring(无聊),没有很酷,这也是大家觉得OpenClaw有很多槽点的原因。但把它整合在一起,完成度非常高。

它有更持久的memory(记忆)体系,对memory有分层和分级,我在Claude Code里完全没有这样的感受。

在对多个模型联合利用上也非常超乎我的想象。我直接发给它一段视频,它会自己想办法找一个视频理解能力好的模型做。

这种自主去面对模型缺点、在框架上补齐的能力,很超乎我意料。OpenClaw的框架设计之初,就是想尽量通过Agent的整套编排去弥补模型短板。

我们把没做针对性训练的MiMo-V2-Flash(我们的小米多模态模型)接进去,甚至把最近训的一个很小的端侧3B(30亿参数)模型放进去,发现这一套复杂的Agent框架下,它依然能做我认为不可能是一个非常小的模型能做出来的事。

我第一次感受到:原来一套非常复杂的Agent框架设计,是能弥补非常多模型能力的短板的。

紧接着第二个问题就来了:现在市场上Agent框架非常丰富,你怎么让你的模型在不同框架上都有一个稳定和超预期的表现?怎么让你的后训练范式做适配和迁移?所以,我们整个后训练范式,有了从Chat到Agent的迁移。

3.一个好的框架,应该弥补行动的缺陷

一个非常好的框架,应该尽量去弥补行动上的缺陷。

很好的memory系统是弥补行动缺陷,接入更广泛的message channel(消息通道)是弥补行动缺陷,更主动的定时任务和自更新迭代,都是在弥补行动上的缺陷。

大模型是你给它越好的Context,执行效果越好。你能把这些它获取不到的、行动上的Context都给它,它肯定会完成得更好。

还有很关键的一环是评估。现在已有的评估体系都非常简单,只防止不出致命性错误。怎么有更有泛化力的评估体系来促进框架自迭代?现在是把最高阶那群人当评估。

你交给它更难、更高价值场景的任务,完成不了就给它补充信息,指出错在哪,push它经过更多轮交互完成。这个评估会慢慢被框架吸收,也会被模型能力吸收。

但Agent框架跟产品差异蛮大。产品是你直接人交互能感受的那一层东西,Agent框架同时在定义你怎么跟模型沟通那一层,它甚至知道模型能力的长板短板,知道怎么做调度。

这个中间层可以做得非常厚重,前端UI展示反而是最薄的一层。OpenClaw展示了Agent框架可以怎么做,想象空间非常大。

Claude Code一直是一套很复杂的Agent框架,但它是黑盒。OpenClaw是开源的,你知道它怎么设计的,你可以去改它。改它,是非常非常激发人的创造力的。

从二点几版本不好用,到三点几版本非常易用,因为整个Agent的架构被一堆人,开发者也好,像我这种使用者也好,大家都可以改进它。在我看来,这是开源Agent框架本身的价值和意义。

4.顶尖模型+顶尖框架:自学习的发生

如果追求最顶尖的编程体验,哪怕当下也是Claude Code加Claude Opus 4.6(Anthropic的最强模型)最好。

但Code(代码)是一个泛化性非常强的场景,不代表你能在非Code场景也做到很高的准确率和完成度。我用OpenClaw不用考虑这些,框架本身就弥补了很多模型短板。

同时它在很多设计逻辑上,比如更多message channel、定时任务、心跳任务,更适合日常场景。但它没有丢弃好Agent框架的基本特点,比如持久化记忆,这些后被Claude Code吸纳进去了,这是双向触动。

因为这些设计,它激发了中层模型的上限。借助这套框架,一个中层模型(85%任务达到Claude Sonnet水准)能应付绝大部分场景。

当然上限一定是靠Claude Opus4.6带来的。我和它高强度合作一周,只用Opus,因为只有它能带来惊艳感。

但我让Opus帮我改好框架,再切换到Sonnet(Claude的中档模型),甚至切换到我们当时正在训的MiMo-V2-Pro,就觉得很强大。顶尖的模型,应该跟顶尖的Agent框架,共同往前去进步。

"自学习"大概率发生的途径,是你需要这个模型跟Agent的架构本身同步往前走。

模型在进步时,也改变你的Agent框架,包含静态信息如Memory、Skill Fold(技能文件夹),还有动态信息如整个Agent架构设计。这些让我第一次感受到,"Agent的自学习"到底是怎么发生的。

5.被开源框架激活的群体智能

高强度交互第一周,第一天快花了1000美金。后面人的适应性非常强,第一天很惊艳的东西,第二天就不惊艳了。

Opus帮我把框架打造好后,让我惊艳的事情越来越少。现在缺乏的是想象力和成本速度的优化。一个人通常是薄弱的,会有认知坍缩。

春节那几天高度兴奋,我在群里强烈推荐大家使用,但没人搭理我。大家觉得过于玄幻的东西太不真实了,我也是这个感觉。

第二天我觉得不行了,必须让大家去用。我给大家下了一个指令:第二天OpenClaw对话次数不超过100轮的人,可以直接quit(辞职)。

我不会最终去考核,只是想表达一种态度:你不用,你可能真的要落后了。

春节回来过后两天,整个团队在群里躁动。你看别人能完成这个事,你也很想玩。群消息10分钟不看就999+,非常happy(开心)。

玩了两天,大家发现这么好玩,那搞啊!马上进入研究范式:怎么借助Agent框架提升模型能力,同时让模型改变Agent框架。我们三四周做完了以前三四十周才能做到的事。

最有冲击的是大家一块改框架本身。在一个近100人的群里,它的memory做得非常智能,对每个人画像把控都没有串得太厉害。100多个人疯狂改它,没有把框架改坏,它还变得更智能。

这是我第一次感受到,怎么用一群人的智慧去提升一个事情。如果我自己单一去改,进步速度非常慢。一群人去改进,几小时就迭代一轮。

这个事给我们带来一个冲击:利用群体智能去提升Agent框架非常重要。

我非常欣喜看到OpenClaw star量(GitHub收藏数)飞升,这是AGI(Artificial General Intelligence,通用人工智能)到来前兆必须要有的事情。

它卖给OpenAI后,开源没变,还是可以在这套框架基础上大家一块设计更好的Agent架构,这种群体演变的可能和基因火种是保留的,挺好的。

二、巨变的2026:

生产力爆发的Agent时代

1.Code为什么有泛化力?

接下来我就去搞明白,为什么Code是一个

最新头条

实时推荐