时效性陷阱，记录一次 OpenClaw 翻车现场

2026-03-30 08:00:00 · ai / openclaw / agent / 搜索 · 1080 字 · 约 6 分钟阅读

AI 擅长搜索和总结，但它对信息的时效性判断和搜索覆盖面经常翻车。

前段时间刷到一条苹果下架 512GB 内存 M3 Ultra 的 Mac Studio 配置选项，出于好奇顺手把问题丢给了获麟：

Mac Studio M3 Ultra 512GB，最适合部署哪个大模型？

获麟的第一次回答

我瞬间惊觉：Qwen 2.5？Llama 3.3？今夕是何年？

是模型太弱了吗？

获麟现在用的是阿里的 Coding Plan，配置的是 Glm-5。

我又去 ChatGPT、Claude 等上面做了同样的提问，回答都大同小异。甚至很多模型给的答案跟获麟的惊人一致。

到底哪里出了问题？

我去翻了下 OpenClaw 的后台日志，发现获麟就是一通搜索，总结后给了我结论。

我甚至找到了一篇文章几乎能够涵盖这个答案，文章正是对 512GB 的 Mac Studio 做的大模型测试，并且其使用的模型正好是获麟答案里给到的：

找到的信息源文章

OpenClaw 在处理我这个问题的过程基本就是：

分解问题成不同的关键词
搜索这些关键词
获取前几条结果的页面内容
汇总得出答案

所以翻车的原因很简单：

信息源方面：差不多 1 年以前有人拿 512GB 的 Mac Studio 做过测试，发布过文章，后续没有人持续更新测评文章，但大模型一直在更新
Agent 方面：获麟拿到问题直接开始搜答案，结果就只能拿到一些过时的信息

于是，过时的信息只能得到过时的答案。

针对我的问题，互联网上的公开信息理论上是能够组织出更好的答案的，关键问题在于 Agent 解决问题的方法。

这跟 RAG 经常不好用很像——虽然可能在知识库里隐藏着标准答案，但因为检索的问题，AI 拿到的信息不对，就无法得出合适的答案。

你自己反省一下

能不能跑 MiniMax 2.5 满血版？

因为在我的印象中，开源模型中的 MiniMax 算是参数量比较小的，就算不能跑满血版，也能跑量化版本。于是我继续追问获麟，果然他给的答案是能够跑的🤣

接着我让他分析下，为什么第一次给的答案里没有 MiniMax 2.5。他给出了三大理由：

问题一：搜索路径单一

所有搜索词都围绕「M3 Ultra 512GB + LLM」这个硬件视角展开，所以只能找到”已经有人在 M3 Ultra 上测过的模型”。

问题二：缺少全景视角

没有做过一轮”2026 年最强开源模型全景扫描”。所以不知道当前这个时间点上到底有哪些值得关注的模型，自然无法判断自己遗漏了什么。

问题三：搜索词设计的局限

第一轮的搜索词全部是泛化的：best LLM、what models can fit、benchmark performance。没有出现任何具体的模型名称。

换句话说，我的搜索路径是「硬件 → 找模型」，而缺少了「模型全景 → 筛选适配硬件」这条反向路径。如果加上后者，MiniMax-M2.5 这类”参数不大但能力很强”的模型就不会被遗漏。

那就按你说的做！

果然，获麟按照他自己总结的这条”反向路径”操作后就可以获得比较好的结果了：

按反向路径搜索后的结果

而且获麟还给出了步骤：

Step 1: 反向搜索 -- "该领域当前全景是什么"
         ↓
Step 2: 建立全量清单（不带任何过滤条件）
         ↓
Step 3: 正向搜索 -- "我的具体条件 + 关键词"
         ↓
Step 4: 合并两条路径的结果，去重
         ↓
Step 5: 逐一深挖每个候选项的细节
         ↓
Step 6: 标注所有来源的日期，剔除过时信息
         ↓
Step 7: 按场景分类输出最终推荐

核心逻辑是先知道”世界上有什么”，再判断”哪些适合我”，而不是上来就按关键词搜索，反而只能拿到过时的信息。