每日精选AI研究论文及翻译
我们介绍Agent K v1.0,这是一个端到端的自主数据科学代理程序,旨在自动化、优化和泛化各种数据科学任务。完全自动化的Agent K v1.0通过从经验中学习来管理整个数据科学生命周期。它利用高度灵活的结构化推理框架,使其能够动态处理内嵌结构的记忆,有效地从积累的经验中学习以处理复杂的推理任务。它通过有选择地存储和检索关键信息来优化长期和短期记忆,基于环境奖励指导未来决策。这种迭代方法使其能够在不需要微调或反向传播的情况下完善决策,通过经验学习实现持续改进。我们使用Kaggle竞赛作为案例研究来评估我们代理程序的能力。遵循完全自动化的协议,Agent K v1.0系统地解决复杂和多模态的数据科学任务,利用贝叶斯优化进行超参数调整和特征工程。我们的新评估框架严格评估Agent K v1.0的端到端能力,从Kaggle竞赛URL开始生成并提交结果。结果表明,Agent K v1.0在各种任务中取得了92.5\%的成功率,涵盖了表格、计算机视觉、自然语言处理和多模态领域。通过计算每个人类Kaggle竞争者的Elo-MMR分数,与5856名人类Kaggle竞争者进行基准测试,Agent K v1.0排名前38\%,展示了与专家级用户相当的整体技能水平。值得注意的是,其Elo-MMR分数介于人类大师的第一和第三四分位数之间。此外,我们的结果表明,Agent K v1.0已经达到了与Kaggle大师相当的表现水平,获得了6枚金牌、3枚银牌和7枚铜牌,符合Kaggle的晋级系统定义。
多模态大型语言模型(MLLMs)的快速发展在各种多模态基准测试中展现出优越的性能。然而,在训练过程中数据污染的问题给性能评估和比较带来了挑战。虽然存在许多用于检测大型语言模型(LLMs)中数据集污染的方法,但由于多模态和多个训练阶段,这些方法对MLLMs的效果较差。在本研究中,我们引入了一个专为MLLMs设计的多模态数据污染检测框架MM-Detect。我们的实验结果表明,MM-Detect对不同程度的污染敏感,并且能够突出由于多模态基准测试的训练集泄漏而导致的显著性能改善。此外,我们还探讨了污染可能源自MLLMs使用的LLMs的预训练阶段以及MLLMs的微调阶段,为污染可能引入的阶段提供了新的见解。
由于其强大的拟合能力,变压器在各个领域都找到了广泛的应用。这种成功部分归因于它们固有的非线性特性。因此,除了原始变压器架构中使用的ReLU函数外,研究人员还探索了诸如GeLU和SwishGLU等替代模块,以增强非线性并从而增加表示能力。在本文中,我们提出了一种新颖的多项式组合激活函数(PolyCom),旨在优化变压器的动态特性。从理论上讲,我们对PolyCom进行了全面的数学分析,突出了相对于其他激活函数的增强表达能力和有效性。值得注意的是,我们证明了集成PolyCom的网络实现了最佳逼近速率,表明PolyCom网络需要最少的参数来逼近Sobolev空间中的一般平滑函数。我们对大型语言模型(LLMs)的预训练配置进行了实证实验,包括密集和稀疏架构。通过用PolyCom替换传统激活函数,我们使LLMs能够捕捉数据中的高阶交互作用,从而提高了准确性和收敛速度等性能指标。广泛的实验结果表明了我们方法的有效性,显示出相对于其他激活函数的显著改进。代码可在https://github.com/BryceZhuo/PolyCom找到。
自我对齐是一种模型学习如何在没有人工标注的情况下改进自身的能力,是一个快速发展的研究领域。然而,由于难以确定正确的奖励,现有技术通常无法改进复杂的推理任务。已知一种改进正确性的正交方法是自一致性,在推理时应用多次抽样以找到最一致的答案。在本研究中,我们将自一致性概念扩展到模型训练中。因此,我们引入了自一致性偏好优化(ScPO),通过迭代训练一致的答案优于不一致的答案来解决无监督新问题。我们展示了ScPO在推理任务(如GSM8K和MATH)上相较于传统奖励模型训练取得了巨大改进,缩小了与使用黄金答案或偏好的监督训练之间的差距,并且将ScPO与标准监督学习相结合可以进一步提高结果。在ZebraLogic上,ScPO微调Llama-3 8B,使其优于Llama-3 70B、Gemma-2 27B和Claude-3 Haiku。
像Medprompt这样的运行时导向策略对引导大型语言模型(LLMs)在具有挑战性的任务上达到最佳性能非常有价值。Medprompt展示了通过使用提示来引发涉及思维链推理和集成的运行时策略,可以将通用LLM集中到在医学等专业领域提供最先进性能。OpenAI的o1-preview模型代表了一个新的范式,其中一个模型被设计为在生成最终响应之前进行运行时推理。我们试图了解o1-preview在各种医学挑战问题基准上的行为。在Medprompt与GPT-4的研究基础上,我们系统评估了o1-preview模型在各种医学基准上的表现。值得注意的是,即使没有提示技术,o1-preview在很大程度上优于具有Medprompt的GPT-4系列。我们进一步系统研究了经典提示工程策略的有效性,如Medprompt所代表的,在推理模型的新范式中。我们发现少样本提示阻碍了o1的性能,这表明在上下文学习可能不再是推理本地模型的有效导向方法。虽然集成仍然可行,但它需要大量资源,并需要仔细的成本性能优化。我们在运行时策略跨成本和准确性的分析中揭示了帕累托前沿,GPT-4o代表了一个更经济的选择,而o1-preview在更高成本下实现了最先进的性能。尽管o1-preview提供了最佳性能,但像Medprompt这样的导向策略使GPT-4o在特定背景下仍具有价值。此外,我们注意到o1-preview模型在许多现有医学基准上已接近饱和,强调了对新的具有挑战性的基准的需求。最后,我们对LLMs的推理时间计算的一般方向进行了反思。