大型语言模型编排结构化推理实现Kaggle大师级水平Large Language Models Orchestrating Structured Reasoning Achieve Kaggle
Grandmaster Level
我们介绍Agent K v1.0,这是一个端到端的自主数据科学代理程序,旨在自动化、优化和泛化各种数据科学任务。完全自动化的Agent K v1.0通过从经验中学习来管理整个数据科学生命周期。它利用高度灵活的结构化推理框架,使其能够动态处理内嵌结构的记忆,有效地从积累的经验中学习以处理复杂的推理任务。它通过有选择地存储和检索关键信息来优化长期和短期记忆,基于环境奖励指导未来决策。这种迭代方法使其能够在不需要微调或反向传播的情况下完善决策,通过经验学习实现持续改进。我们使用Kaggle竞赛作为案例研究来评估我们代理程序的能力。遵循完全自动化的协议,Agent K v1.0系统地解决复杂和多模态的数据科学任务,利用贝叶斯优化进行超参数调整和特征工程。我们的新评估框架严格评估Agent K v1.0的端到端能力,从Kaggle竞赛URL开始生成并提交结果。结果表明,Agent K v1.0在各种任务中取得了92.5\%的成功率,涵盖了表格、计算机视觉、自然语言处理和多模态领域。通过计算每个人类Kaggle竞争者的Elo-MMR分数,与5856名人类Kaggle竞争者进行基准测试,Agent K v1.0排名前38\%,展示了与专家级用户相当的整体技能水平。值得注意的是,其Elo-MMR分数介于人类大师的第一和第三四分位数之间。此外,我们的结果表明,Agent K v1.0已经达到了与Kaggle大师相当的表现水平,获得了6枚金牌、3枚银牌和7枚铜牌,符合Kaggle的晋级系统定义。