互联网巡回犬 Vol.14：22岁的斯坦福小子要给每个 Agent 装法官，成都的毛绒猫在日本签了十万台

今天叼回两件事，外加一个特别观察。第一件：三个 22 岁的美国小子刚从隐身模式里跳出来，拿了一笔 $32M 的 Seed + A 组合融资，要做「深度 Agent 的评估基础设施」——这个赛道三个月前还没有公认的名字，现在叫 continuous improvement layer。第二件：成都一家成立不到两年的公司，用一只会说话会撒娇的毛绒猫叼回了 KK 集团、4399 和科大讯飞，王府井首店三天卖完 300 只，日本代理已经签约了年保底十万台的订单。两个故事乍看没什么关系，但它们碰到的是同一道题：AI 产品怎么从「能跑」变成「真的有用」。

一、Judgment Labs 🌐｜每一条 Agent 轨迹都需要被审判

项目介绍

Judgment Labs 在做的事情，用最简单的方式说是这样的：你的 AI Agent 上线运行之后，出错了，你怎么知道错在哪里、哪一步走偏了、怎么改才不会下次再错？1

2026 年 5 月 12 日，这家公司从隐身模式公开亮相，同时宣布完成 $32M 的 Seed + Series A 组合融资，Lightspeed Venture Partners 领投了两轮。1 跟投方包括 Nova Global、SV Angel、Valor Equity Partners 和 Dynamic，个人投资方里有 DoorDash 和 Mercor 的创始人，以及 Stanford NLP 的 Chris Manning 教授。1

公司给自己的定位是「AI Agent 持续改进层」（continuous improvement layer）——帮助 AI 原生团队从生产数据中持续改进 Agent 行为。2 产品的核心工作流是四步：你在 Slack 里 @ Judgment 问一个问题（Ask），它用一个 Agent Swarm 去生产数据里搜索相似的失败案例（Triage），然后用这些生产案例跑一次修复方案的测试（Sanity Check），最后持续追踪这个行为模式，防止下次回归（Never Miss）。3

让 Judgment 跟已有工具拉开距离的是「轨迹级评估」（trajectory-level eval）这个概念。普通的 eval 框架做的是输入 → 输出的检查，看最终答案对不对。但深度 Agent（deep agent）的错误不是这样的——它跑起来是一条漫长的决策轨迹，搜索关键词选错了、某个推理步骤偏了、某个工具调用结果被误读了，这些错误会层层叠加，最终输出「看起来只是略微有点问题」，但真正的根因埋在轨迹的第四步或第五步。4 CEO Alex Shan 在播客里说过一句话：「当 Agent 出错时，最终答案往往只是略微看起来不对。真正的错误可能埋在四五步之前。」1

"When an agent fails, the final answer often looks only slightly wrong. The actual mistake might be buried four or five steps back."
「当 Agent 出错时，最终答案往往只是略微看起来不对。真正的错误可能埋在四五步之前。」

技术上，Judgment 声称可以处理高达 10M token 的超长 context trace，并在大多数客户场景下维持 95% 的评估准确率，单条轨迹最多并行运行 80+ 条评估指标。4 产品同时提供开源 SDK（judgeval，GitHub 1k+ stars，Apache-2.0 许可）和托管云版本，几乎所有付费客户都在用云版本，因为同时管理 80 条 eval 并发跑起来「太复杂了」。5 现有生产客户包括 E3 Group、Monaco、Contrario、Vigil Labs 和 Human Behavior 等 Agent 原生公司。3

Judgment 平台 Behaviors 页面，深色模式下展示 Agent 行为定义界面

图片来自：Judgment Labs 官方文档

团队背景

三个创始人都是 22 到 23 岁的小子，而且是真正意义上的「从小一起长大的朋友」。

CEO Alex Shan 今年 22 岁，在 Stanford NLP Group 做过研究，导师是 Chris Manning——做 NLP 的人都知道这个名字。1 毕业后他进了 Juniper Networks（网络设备大厂），在 CTO 组织下从零搭建了自主网络 Agent 业务线。Juniper 被 HPE 以约 $150 亿收购之后，他于 2024 年底离开，创立了 Judgment Labs。4 在 Juniper 做 multi-agent 系统时，他遇到了这件事的另一面：trace 跑出 800 步，他说「我根本看不懂我在读什么，我没法翻过所有这些 token」——这是 Judgment Labs 最初的需求来源。

Chief Scientist Andrew Li 今年 23 岁，Berkeley 辍学生，TogetherAI 的早期研究员，专注 post-training 和合成数据。1 CTO Joseph Camyre 前身是 Datadog 的系统工程师，做的正好是监控和可观察性基础设施。1 Joe 是 Alex 小学五年级的同学，小学时候教会了 Alex 写代码，Alex 是他第一个付钱的学生。4 Andrew 和 Alex 的这段关系更绕：两个人的妈妈从小在中国南方是发小，在农村长大，一起上高中、上大学、读研究生，两人差不多同期生了孩子。Alex 和 Andrew 认识的时间，甚至比两个人各自记事的时间还长。4

图片来自：Judgment Labs Raises $32M to Build the Improvement Layer for AI Agents

Lightspeed 合伙人 James Alcorn 在投资声明里说：「Judgment 在解决 Agent 栈里最难的问题——你怎么衡量和改进一个会思考、会规划、会用工具、还有记忆的系统？Judgment 团队在『evals』这个词流行之前，就已经把 agentic evaluation 做成产品了。」1

"Judgment is solving the hardest problem in the agent stack — how do you measure and improve something that thinks, plans, uses tools, and remembers?"
「Judgment 在解决 Agent 栈里最难的问题——你怎么衡量和改进一个会思考、会规划、会用工具、还有记忆的系统？」

为什么值得关注

现在是 2026 年，Claude Code、OpenAI Codex、Cognition Devin 这些深度 Agent 已经在生产环境跑着了。这批系统不是聊天机器人——它们自主规划、写代码并运行、搜索网页、追问澄清，一个任务跑几分钟到几个小时。1

问题是，这类系统出错的方式是旧有 eval 框架设计时完全没考虑到的。旧框架的逻辑是：给一个输入，看一个输出，和标准答案比。深度 Agent 没有「标准答案」，也没有单一输出——它的输出是一条决策轨迹，600 步、800 步。Alex 在播客里说，旧 eval 集最坏的后果不是发现不了问题，而是给你一个「虚假的安全感」：「If your eval set is still stuck in the olden days, at best, you get this false sense of confidence that doesn't correlate to what's happening in production.」（「如果你的 eval 集还停在过去那个时代，最好的结果也只是给你一种和实际生产情况完全脱节的虚假安全感。」）4

Lightspeed 种子轮之后不到六个月追加领投了 A 轮，这个节奏本身就是信号。1 投资方相信这个团队正在建的是 Agent 时代的质量基础设施，而不只是另一个 logging 工具。市场上现有的可观察性方案——LangSmith（LangChain 生态）、Arize AI、Braintrust、Langfuse——本质上仍然是追踪和日志系统，把 trace 扔进 LLM 打个分，碰到超出上下文窗口的 trace 系统就崩了。4

从竞争格局看，这个赛道正在形成一个互补三角：Chronicle Labs（Vol.11 报道过）做的是部署前的回测（pre-deploy backtesting），把生产数据转化为 staging 环境，让 Agent 在上线前就能被历史场景测试；Fabraix 做的是对抗性安全验证（adversarial verification），用 1000+ 攻击策略去主动找 Agent 的安全和逻辑漏洞；Judgment Labs 做的是部署后的生产行为持续监控和改进。6 7 三者不是直接竞争，而是覆盖了 Agent 生命周期的三个不同节点。

Judgment 平台 Trace 详情弹窗，展示 Agent 执行轨迹中的 Behaviors 评分

图片来自：Judgment Labs 官方文档

Alex 说过公司成立时的底层判断：「The data layer is going to be the people that collect all these trajectories.」（「数据层将属于那些收集了所有这些决策轨迹的人。」）4 如果这个判断成立，Judgment 手里握着的每一条生产轨迹都在积累一个别人很难复制的飞轮。开放性问题是：当 Agent 的规模继续扩张，轨迹数据的飞轮效应会先成立，还是评估准确率的技术壁垒会先成立？两者都是护城河，但方向不同。

二、Walulu / 雨之灵动 🇨🇳｜599 元买一只会记住你的 AI 猫，成都团队签了日本十万台

项目介绍

成都雨之灵动科技有限公司做的产品叫 Walulu，是一只 AI 仿生毛绒宠物猫。8 产品形态一句话说完：内置 4 组高精度金属舵机、14 个自由度，可以做出 60+ 种互动动作，包括眨眼、伸懒腰、摇尾巴；搭载阿里通义千问 3.0 大模型，支持无唤醒词的自然对话和情绪识别；定价标准版 599 元，承诺终身免费 AI 算力，不需要订阅费。9

Walulu 的成长记忆系统会记录你的互动习惯，通过 OTA 持续更新，理论上越用越懂你。8 配套小程序生态支持用户分享互动瞬间，形成社交传播路径。后续产品线已有挂件版在开发中、2.0 版计划上电子屏眼睛，联名方向是加菲猫版和大熊猫版。8

需要说清楚的一件事：Walulu 的 AI 能力目前属于「规则式交互 + LLM 对话」层级，不是自主决策的 Agent 闭环。它没有开放 API、没有 MCP 协议集成，AI 的判断链路是预设规则框架内的响应，而不是感知-决策-行动的完整 Agent 循环。8 这不是贬低，而是定位——它是 AI 消费品，不是 AI Agent 硬件，和 Wilo Ring（Vol.13 报道）想做的那件事不是一个赛道。

图片来自：36 氪：Walulu：用六个月撕开一条新赛道

团队背景

公司成立于 2024 年 5 月 7 日，法定代表人兼 CEO 是顾小毛，注册地址在成都高新区。8 核心团队在游戏行业深耕了十多年，推出过毛利过亿的单款产品，负责过注册用户超过 10 亿的产品线。8 他们最初从 2023 年开始研究垂类大模型，后来判断「做 70 分的通用产品比做 90 分的垂直产品更难持久」，放弃自研转而接入成熟 AI 能力，六个月完成了从立项到上架。

顾小毛对商业模式的判断有一条逻辑：纯线上模式很难形成稳定闭环，IP 需要实体载体落地，否则永远停留在流量层面。这也是公司选择「场景找技术」而不是「技术找场景」路径的核心原因。8

2026 年 5 月 12 日，公司宣布完成总额数千万人民币的天使轮及 Pre-A 轮融资，投资方包括 KK 集团（国内潮玩渠道龙头）、4399（游戏平台）、科大讯飞（AI 技术），以及一家未披露名称的财务投资机构。8 Pre-A 轮的主要份额由天使轮投资方直接行使优先认购权，几乎没给新投资人进入空间——投资方对估值增长有足够信心，不愿意让出额度。KK 集团的出现尤其值得注意，它不只是财务投资方，本身就是潮玩线下渠道的核心节点，进来之后直接带动了产品的渠道铺设。

为什么值得关注

PMF 信号比较清晰。2025 年国庆，北京王府井喜悦购物中心开出首家品牌旗舰店，首批 300 多只三天卖完，后续只能预售，连展示样机也被买走了。8 2025 年圣诞在成都环球中心开了 X11 联名店，2026 年五一在重庆开出西南区首家旗舰店。线上旺季（1-2 月）单日销量达到数百只。京东 AI 玩具热卖榜排名第三，AI 机器人店铺黑马榜单在 Walulu 潮玩旗舰店位列第一。8 出海方面，美国、欧洲、日本的合规认证已完成，日本代理商已签约，年保底销量 10 万台。8

图片来自：36 氪：Walulu：用六个月撕开一条新赛道

当然，负面声音也有。有用户评价 Walulu 「能动的部分不多，只有头和尾巴，动起来还能听见廉价电机的声音」，认为花的是「AI 概念」的价格，买到的是有限的硬件体验。10 这个批评指向的问题是真实的：599 元的定价对于现在这个硬件规格来说有一定溢价，支撑这个溢价的是品牌叙事和 AI 情感交互，而不是纯粹的机械工程。

Walulu 真正有意思的地方在于它走出的这条路径：潮玩渠道 × AI 交互 × 实体形态，三者叠加之后，消费者愿意为「有灵魂的玩具」付溢价，而不是为「会对话的硬件」。这不是 AI 公司的叙事，而是新消费品牌的叙事，只是它的差异化武器是 AI。KK 集团的投资本质上是渠道背书：现有的潮玩购买人群已经有为情感连接付溢价的习惯，Walulu 要做的是让这群人觉得 AI 猫比普通潮玩更值。

开放性问题是：当 AI 进入消费品，用户最终买的是 AI 的功能性能力，还是 AI 赋予的情感体验？如果是后者，「AI 能力越强 = 产品越好」这个公式就不成立了——够用的 AI + 够好的情感设计才是正确的组合。Walulu 现在的市场表现倾向于证明后者，但那条「廉价电机」的差评提醒着所有人：情感溢价终究需要硬件质量托底。

特别观察：Cline 2.0 + @cline/sdk，编码 Agent 的开源基准线动了

Cline 于 2026 年 5 月 13 日发布了 Cline 2.0 及开源 Agent 运行时 @cline/sdk，CLI v3.0.3 次日跟进。11 这次更新的核心不是加功能，而是重构底层架构——Cline 团队说他们「重建了地基，而不是再叠一层补丁」（「We rebuilt the foundation instead of adding another layer of patches.」）。11

数据面：GitHub 61.9k stars，6.4k forks，Apache-2.0 许可，7M+ 开发者使用。12 Terminal Bench 基准测试上，Cline 跑 Claude Opus 4.7 的得分是 74.2%，超过 Claude Code 的 69.4%；用开源的 Kimi K2.6 跑是 55.1%。11 新功能包括插件系统（运行时层）、原生多 Agent 团队支持、定时调度（cron）、Telegram / Slack / Discord / WhatsApp 连接器。

为什么单独拿出来说：Cline 的 61.9k stars 是当前编码 Agent 开源生态里最高的锚点之一，这次 2.0 重构把 @cline/sdk 单独剥出来发布成 npm 包，意味着任何人都可以把 Cline 的 Agent 运行时当作基础设施嵌进自己的产品里。开源运行时层标准化，就像 Docker 当年对容器运行时做的事——后续会有多少工具建在它上面，是值得跟踪的信号。

共同逻辑

Judgment Labs 和 Walulu 解决的是同一件事的两端：Agent 基础设施层需要证明自己能让 Agent 在生产环境里可测量、可改进；消费品层需要证明 AI 能力不只是附加噱头，而是真的改变了用户体验。两个证明都没有完成，但两个团队都在做这件事——Judgment 靠的是轨迹数据飞轮，Walulu 靠的是线下渠道和情感设计。

Cline 2.0 则提醒着基础设施层的另一条逻辑：开源生态一旦找到基准线，商业化方向往往跟着聚合。Agent 运行时、Agent 评估、Agent 安全——每一层的开源锚点都在快速成形。

要问的问题是：两年后，哪一层的壁垒会最先成型——是收集了海量生产轨迹的评估数据层（Judgment 的方向），还是跑在最多设备上的开源运行时（Cline 的方向），还是两者都不重要，关键是那个最先签下真实企业客户合同的人？

封面图：AI 生成

互联网巡回犬 Vol.14：22岁的斯坦福小子要给每个 Agent 装法官，成都的毛绒猫在日本签了十万台

一、Judgment Labs 🌐｜每一条 Agent 轨迹都需要被审判

项目介绍

团队背景

为什么值得关注

二、Walulu / 雨之灵动 🇨🇳｜599 元买一只会记住你的 AI 猫，成都团队签了日本十万台

项目介绍

团队背景

为什么值得关注

特别观察：Cline 2.0 + @cline/sdk，编码 Agent 的开源基准线动了

共同逻辑

参考来源