Apodex 1.0：多智能体研究系统把AI推向“可审计推理”

当前位置：首页-最新资讯-详情

2026-06-09

陈天桥再一次把AI往“研究系统”方向推了一步，这次不是聊天框，也不是搜索增强，而是一个带有明显工程气质的深层研究框架——Apodex 1.0。

它的核心不是回答问题，而是拆解问题。任务被丢进系统后，会被一个类似调度中心的协调器切成数十甚至上百个子任务，最多可并行驱动150个子智能体同时工作。检索、验证、交叉比对，各自跑在不同路径上，最后再汇入一个共享证据池。

这个结构听起来有点像把研究生团队“算法化”了，只不过每个人都不会偷懒，也不会写错引用。

更关键的变化在后面。Apodex引入了一个全局验证器，它不直接生成结论，而是专门审计结论来源，沿着“证据图谱”逐层回溯——每一个断言都必须能找到支撑它的路径，否则就无法进入最终报告。

这种设计的语感，已经明显偏离传统大模型路线。OpenAI、Anthropic这些系统仍然以生成能力为中心，而Apodex更像在尝试解决另一个长期被忽略的问题：AI输出到底能不能被追责。

如果说过去的大模型更像“写得像真的”，Apodex试图做的是“证明它是真的”。

在工程实现上，这套系统依赖多种机制叠加：规划模块负责拆解任务，工具调用模块处理外部信息，假设检验机制不断修正路径，而最终的证据合成则像论文编辑部，把所有材料重新拼接成一份结构化报告。

训练方式也不是简单的预训练加微调。Qwen3.5系列模型作为基础骨架，上面叠加了监督微调、智能体直接偏好优化，以及长序列强化学习。整体思路更像在训练一个“会做研究流程的系统”，而不是一个会聊天的模型。

在公开测试中，Apodex在网页导航任务中拿到90.3分，复杂推理测试60.8分。这类数字放在AI领域不算罕见，但它的意义不在分数本身，而在结构——多智能体协作体系开始在复杂任务上跑通闭环。

这也是一个细微但重要的变化：AI不再只是单体能力竞争，而是开始进入“组织形态竞争”。谁能更高效地调度智能体、谁能更可靠地控制证据链，可能比单一模型参数更重要。

这种方向在产业层面并不孤立。过去一年，研究型AI工具开始密集出现，从代码代理到文献分析，再到企业级自动报告系统，本质都在解决同一个问题：大模型可以生成信息，但很难保证信息结构是可信的。

Apodex选择了一条更重的路径——把“可信”变成系统设计的一部分，而不是后期过滤。

也有一个现实问题没有被回避：这种架构复杂度极高，150个智能体并行运算意味着成本、延迟和调度难度都会显著上升。它更像面向高价值研究场景的工具，而不是通用产品。

换句话说，它还不是一个“消费级AI”，更接近一个研究基础设施原型。

但方向感已经比较清晰：当大模型从“会说话”走向“会研究”，下一阶段的竞争点可能不再是生成能力，而是可验证性、可追溯性，以及系统级协作效率。

Apodex只是其中一个版本，但它把问题说得更直白了一点——AI如果不能证明自己，那它生成的内容就只能停留在“看起来合理”。

欧易