红杉中国公元：如何在AI下半场，定义“好问题”？丨WAVES新浪潮2025

WAVES新浪潮2025邀你一起走向中国创投的「新纪元」。

这是属于中国创投的新纪元。当下的中国创投市场，既是周期筑底的转折点，也是结构性转型的深化期。在政策主导、国资与资本高度集中的新生态下，唯有顺应趋势、灵活调整，方能在不确定性中捕捉确定性机遇。
6月11-12日，杭州良渚文化艺术中心，36氪WAVES新浪潮2025大会以「新纪元」为主题，汇聚创投领域顶级投资人、新锐企业创始人，以及深耕科技、创新、商业的科学家、创作者与学者，共同探讨AI技术革新、全球化浪潮与价值重估等前沿议题，拆解他们眼中的商业理想和未来世界，一起讨论、寻找、走向中国创投「新纪元」。

6月12日上午，在创业者会场上红杉中国投资人公元，进行了一场独立演讲，主题为「如何在AI下半场，定义“好问题”？」。以下为演讲全文：

大家好！我是红杉中国的公元。很高兴受到36氪、暗涌waves的邀请，今天能和大家做一场分享。今天我想和大家讲的主题，和我们最近刚刚推出的xbench相关。xbench是首个由投资机构推出的面向大模型和AI Agent的基准测试。我们为什么要推出这个基准测试，今天想和大家一起分享一下背后的故事。

这两张图，左边是红杉之前在内部使用的benchmark，更新了两个版本，以及从推出到被大模型打爆100分的速度；第二张是我们引用了前一段时间一篇比较知名博客上的一张图，是市场上所有主流的benchmark从推出到大模型被拉爆到100分所使用的时间。可以看到，这个趋势是非常一致的，都阐明了AI上半场的一个问题——当强化学习被证明有效的时候，每当出现一个新的数据集和一个测试标准，大模型就一定会被训练到SOTA，市场上就会很快出现另外一个基准测试，大模型又会SOTA，这就会进入一个无限循环，这就是我们在上半场看到的一个挑战。

这就引出了我们不得不问的问题，当这些大模型都考100分的时候，到底是模型变聪明了，还是卷子出了问题？所以当我们在第三次给模型出卷子的过程中，不得不停下来问这个问题。

回顾一下在过去两年多的时间里，我们的三次迭代分别做了什么事情。

第一次是在ChatGPT刚刚出来不久，我们当时认为大模型可能是一个非常重要的投资机会，也是十年一遇甚至更长时间一遇的大浪潮。所以我们要在内部建立一个新的标准以及内部的工具，能够让我们实时去观测模型的发展，以及更好地对市场上当时的AI大模型项目进行投资判断，所以我们就做了这么一套“试卷”，一个benchmark。我们第一次更新的benchmark，里面的题非常简单，都是一些简单的逻辑题和数学题，有代表性的比如说“香蕉的平方根是什么”，都是非常简单的逻辑题。

很快的，我们第一期的benchmark就被拉到100分，之后我们就进行了第二次更新。我记得那时候应该是OpenAI o1推出不久以后，我们将这些题升级到了更难的难度系数。大家可以看到，这些题普通人很难在第一时间很快做出来。但第二次更新被拉爆的速度更快，第一次可能我们用了小一年的时间，第二次可能是六个月的时间，大模型就能答到100分了。

到了今年3月份进行第三次更新的时候，我们就开始问自己，我们在“AI的下半场”里应该怎么提出好问题？

显然，我们陷入了一个和很多研究者非常相似的惯性思维，我们在题越来越难、模型越来越聪明的惯性下，一直在往前走。但是这个惯性真的对吗？这是我们第三次更新时思考的最重要的问题：模型越来越聪明和能做越来越难的题，真的是作为投资者和创业者想要的吗？越来越聪明的投资模型具备投资价值吗？这中间的关系是什么？我们开始不断去问自己这样的问题。

投资需要投有经济效用的产品和技术，也就是说，大模型和AI产品需要成为真正能够产生商业价值的公司。但是模型越来越聪明这件事情和它有经济效用之间是否呈正比关系，或者说是否有完全关联的关系？举个简单的例子：程序员写程序很有经济效用，对模型来讲是比较简单的问题，但是让大模型去工地搬砖，这是做不到的，所以这两者之间没有完全的对应关系。

因此，第三次升级的方向就引出来我们觉得最重要的两件事情：第一，我们需要打破思维惯性，真正停下来去思考究竟“更难的问题”和“经济效用”之间到底是什么关系，我们能不能建立一套标准，能够在我们的投资过程当中，一边评估它越来越聪明，一边评估它越来越有用，这两件事情可能是同等重要的；第二，大家看到刚才我们面临的挑战，是我们的题不断被刷爆，大家就出更难的题，但是两套题之间怎么互相比较？这就像博士卷子考20分和小学卷子考100分，如何把这两个成绩在同一个人身上去做一个横向对比，真正看到他的能力提升，这是我们的第二个问题。换言之，就是怎么建立一个长期的评估机制。

针对第一个问题，我展开分享一下我们背后的思考和逻辑。拿AI模型其中的一个子能力，就是search举例。如果AI在学校里上课会做越来越难的题，越来越难的题会体现什么地方？这就是我们的AGI track，它会先做一个简单的search题，然后一个deepsearch题，再是一个deeper search，这很像我们在学校里去学习的过程。

但是当它到了社会上要去打工的时候，当AI从当好学生变成当好员工的时候，search的能力就变了，或者说社会对它的评估体系就变了。当我们去招聘一个员工的时候，什么时候会用到search，在什么岗位上会用到search？

在很多地方都需要。比如说在猎头岗位上，他需要去找简历，这是一个很典型的search。对于一个市场运营部，它要去找KOL，要和他联系和发广告，这是一个search。其实在很多职业岗位上都有search这个职能，但search职能所对应的题和value是不一样的，所以当我们从生产力的视角去看AI的时候，这个search的题可能就变了。Search题变成了一个真正和现实生产力和生产价值相关的一道题，并且能够计算出它实际的商业价值，它替代掉的就是需要人重复劳动的那一段工作。

如果沿着这个思路，我们可以看到每一个AI能力都分成两部分track：下面是AGI track，评估的是它的读书能力；上面是Profession-aligned track，评估AI走到现实世界、走到生产力环节当中的经济效用。我们开玩笑说，下面评估的是AI越来越聪明和它当学霸的能力，上面是它去打工、去帮人做牛马的能力。它们又是相互对应的，因为每一个AI能力的提升，都能点亮一个应用场景。刚才我们只是举了一个非常小的例子，在search上，它如果拥有了search的能力，可能能够去做一些HR和marketing的工作。

接下来AI会发生什么事情，比如说AI现在有了多模态的能力，当它有了多模态的能力以后，它到现实世界当中是不是可以去做一些更有经济价值的事情，比如说一些视频的生成、一些编辑类的工作；当它有了一些更高级的能力，比如说交易、博弈能力，是不是我们在现实世界当中能够让它去做一些高级的交易和与人有来回的一些工作。

所以可以理解，AGI track是经济效用的一个台阶，所以每点亮一个下面的track，我们的AI将会走向另外一个台阶，这是我们在xbench当中推出的双轨评测体系，我们也希望这套评估体系能够去帮助所有的AI创业者和AI研究者，真正能够去bridgeAI能力和经济效用之间的鸿沟。

刚才我们提到的第二件事情，就是长青，怎么去建立一个长青的评价体系。我们刚才讲到一个例子，当一个学生做博士试题的时候拿了20分，做小学试题时拿100分，两者去做比较，实际上他的能力上涨了，但是分数下降了。所以怎么让我们作为评估者、投资者或者模型和Agent的开发者、创业者，能够有感知模型的单调递增，怎么在不同的时间维度上，在一个模型上和不同的数据集、考试题上，能把一个模型的20分成绩和100分成绩去横向做比较。

我们在这个问题上也推出了我们的第二个解决方案，就是去建立长青的评估体系。这是我们做的一个回归测试，左边的这张图是我们在过去两年多时间里，用公开数据集对这些模型进行测试的汇报分数。这其中每一次的曲线下降都是基准测试换题的时间点。

从模型的能力上来讲，在过去的两年多时间里，模型的能力应该是一个单调递增上涨的。但是当我们去看分数的时候，它却呈现出一个上上下下的过程。我们去做了一个IRT的方法，并且进行了数学建模，针对这个我们也撰写和发表了一篇论文，去讲述了我们所有的方法论，做了一个回归测试，这也是首次有投资机构去做这件事。当我们进行了IRT调整之后，它自然就变成了一个单调递增的曲线。

为什么单调递增曲线对我们这么重要？因为我们在看创业者的时候，经常说判断创业者最重要的标准是Delta。我们非常重视和创业者从第一次接触到后面无数次接触中，看到他们身上发生变化，因为这个变化体现了他的学习和自我迭代能力。因此，感受曲线的斜率对我们来说是一个非常重要的事情。

放在模型和Agent上也一样，我们希望能够建立一种斜率的感知，能够让我们知道Agent的斜率在过去和未来到底是一个什么样的发展。因为只有建立了斜率的发展，我们才能像评估人一样，真正把它带到现实世界当中去评估所谓的TMF。

在过去，大家比较认可PMF的概念，但我们在这里提出了，在新的时代应该去评估TMF。它讲的是什么？讲的就是当我们不断用单调递增的视角去评判Agent能力的时候，我们能够去看到这个能力无限逼近人的能力，然后它会和人形成三个阶段。当没有达到TMF的时候，说明Agent的能力不如人，可能是一个人力主导的社会和人力主导的工作；之后，我们预计未来的世界可能还会经历两步，一步是它达到了TMF，但是它达到TMF，可能能做的是一些重复的工种和一些简单的工作，或者是一个长工作中的一小部分。接着往下走，我们可能会看到越来越专业化的Agent。建立这样的单调递增和对Agent能力Delta变量的track，也能让我们去更好地理解什么时候是投资的拐点，以及让创业者更好地去理解什么时候去切入一个赛道做Agent。

这是我们第一期的两个track的评估图，这是我们第一期的四个榜单的榜三。可以看到，前面两个榜是AGI track，就是评估模型能力是否聪明，后面两个榜是评估它打工的能力好不好。大家可以看到，这可能和很多同学的体感非常相似，我们有小镇作题家，也有职业打工人，每一个模型擅长的东西不太一样。

最后，因为时间关系，我们所有的paper和dataset很快也会开源。我们希望对社区进行一个号召，作为xbench，它从原来一个我们红杉内部的投资工具，现在我们开源出来贡献给社区，很大程度是因为我们觉得在未来，大家共建一套Agent的评估标准，对于整个社区不管track TMF或者track模型能力都是非常重要的，所以我们希望能够号召大家一起参与到整个开源社区的生态开发里。

以上是我今天的分享，谢谢大家！