Apodex 1.0:多智能体研究系统把AI推向“可审计推理”
陈天桥再一次把AI往“研究系统”方向推了一步,这次不是聊天框,也不是搜索增强,而是一个带有明显工程气质的深层研究框架——Apodex 1.0。
它的核心不是回答问题,而是拆解问题。任务被丢进系统后,会被一个类似调度中心的协调器切成数十甚至上百个子任务,最多可并行驱动150个子智能体同时工作。检索、验证、交叉比对,各自跑在不同路径上,最后再汇入一个共享证据池。
这个结构听起来有点像把研究生团队“算法化”了,只不过每个人都不会偷懒,也不会写错引用。
更关键的变化在后面。Apodex引入了一个全局验证器,它不直接生成结论,而是专门审计结论来源,沿着“证据图谱”逐层回溯——每一个断言都必须能找到支撑它的路径,否则就无法进入最终报告。
这种设计的语感,已经明显偏离传统大模型路线。OpenAI、Anthropic这些系统仍然以生成能力为中心,而Apodex更像在尝试解决另一个长期被忽略的问题:AI输出到底能不能被追责。
如果说过去的大模型更像“写得像真的”,Apodex试图做的是“证明它是真的”。
在工程实现上,这套系统依赖多种机制叠加:规划模块负责拆解任务,工具调用模块处理外部信息,假设检验机制不断修正路径,而最终的证据合成则像论文编辑部,把所有材料重新拼接成一份结构化报告。
训练方式也不是简单的预训练加微调。Qwen3.5系列模型作为基础骨架,上面叠加了监督微调、智能体直接偏好优化,以及长序列强化学习。整体思路更像在训练一个“会做研究流程的系统”,而不是一个会聊天的模型。
在公开测试中,Apodex在网页导航任务中拿到90.3分,复杂推理测试60.8分。这类数字放在AI领域不算罕见,但它的意义不在分数本身,而在结构——多智能体协作体系开始在复杂任务上跑通闭环。
这也是一个细微但重要的变化:AI不再只是单体能力竞争,而是开始进入“组织形态竞争”。谁能更高效地调度智能体、谁能更可靠地控制证据链,可能比单一模型参数更重要。
这种方向在产业层面并不孤立。过去一年,研究型AI工具开始密集出现,从代码代理到文献分析,再到企业级自动报告系统,本质都在解决同一个问题:大模型可以生成信息,但很难保证信息结构是可信的。
Apodex选择了一条更重的路径——把“可信”变成系统设计的一部分,而不是后期过滤。
也有一个现实问题没有被回避:这种架构复杂度极高,150个智能体并行运算意味着成本、延迟和调度难度都会显著上升。它更像面向高价值研究场景的工具,而不是通用产品。
换句话说,它还不是一个“消费级AI”,更接近一个研究基础设施原型。
但方向感已经比较清晰:当大模型从“会说话”走向“会研究”,下一阶段的竞争点可能不再是生成能力,而是可验证性、可追溯性,以及系统级协作效率。
Apodex只是其中一个版本,但它把问题说得更直白了一点——AI如果不能证明自己,那它生成的内容就只能停留在“看起来合理”。





