AI研究论文每日精选

每日精选AI研究论文及翻译

rStar-Math：小型LLMs可以通过自我进化的深度思维掌握数学推理
rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking

Jan 8

ByXinyu Guan, Li Lyna Zhang, Yifei Liu, Ning Shang, Youran Sun, Yi Zhu, Fan Yang, Mao Yang

288

我们提出rStar-Math来展示小型语言模型（SLMs）可以在没有来自优秀模型的蒸馏的情况下，与OpenAI o1 的数学推理能力相媲美甚至超越。rStar-Math通过利用蒙特卡洛树搜索（MCTS）进行“深度思考”来实现这一点，其中一个数学策略SLM通过由基于SLM的过程奖励模型引导的测试时间搜索来执行。rStar-Math引入了三项创新来解决训练这两个SLM面临的挑战：（1）一种新颖的代码增强的CoT数据合成方法，通过进行大量的MCTS展开来生成用于训练策略SLM的逐步验证推理轨迹；（2）一种新颖的过程奖励模型训练方法，避免了天真的步骤级别评分标注，产生了更有效的过程偏好模型（PPM）；（3）一种自我进化的方法，在这种方法中，策略SLM和PPM是从头开始构建并迭代演变以提高推理能力。通过进行4轮自我演化，对747k个数学问题进行数百万个合成解的训练，rStar-Math将SLMs的数学推理提升到了最先进的水平。在MATH基准测试中，它将Qwen2.5-Math-7B的准确率从58.8%提高到90.0%，将Phi3-mini-3.8B的准确率从41.4%提高到86.4%，超过o1-preview分别增加了+4.5%和+0.9%。在美国数学奥林匹克（AIME）中，rStar-Math平均解决了53.3%（8/15）的问题，位列最优秀的高中数学学生的前20%。代码和数据将在https://github.com/microsoft/rStar 上提供。

搜素-o1：基于智能搜索增强的大规模推理模型
Search-o1: Agentic Search-Enhanced Large Reasoning Models

Jan 9

ByXiaoxi Li, Guanting Dong, Jiajie Jin, Yuyao Zhang, Yujia Zhou, Yutao Zhu, Peitian Zhang, Zhicheng Dou

102

大型推理模型（如OpenAI-o1）通过大规模强化学习展现出卓越的多步骤推理能力，但其冗长的推理过程常因知识储备不足而产生认知不确定性及潜在错误。为突破这一局限，我们提出Search-o1框架，通过智能检索增强生成机制与文档内推理模块强化LRMs的推理能力。该框架将智能搜索流程融入推理链路，当模型遭遇知识盲点时能动态获取外部知识。针对检索文档的冗长特性，我们设计了独立的文档内推理模块，在信息注入推理链前进行深度分析，有效降低信息噪声并保持推理连贯性。在科学、数学、编程等复杂推理任务及六个开放域QA基准测试上的实验表明，Search-o1具有显著性能优势。该方法提升了LRMs在复杂推理任务中的可信度与适用性，为构建更可靠、通用的智能系统开辟了新路径。代码已开源：https://github.com/sunnynexus/Search-o1。

迈向LLMs中的系统2推理：学习如何用元认知链思考
Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Though

Jan 8

ByViolet Xiang, Charlie Snell, Kanishk Gandhi, Alon Albalak, Anikait Singh, Chase Blagden, Duy Phung, Rafael Rafailov, Nathan Lile, Dakota Mahan, Louis Castricato, Jan-Philipp Franken, Nick Haber, Chelsea Finn

我们提出了一个新颖的框架，元思维链（Meta-CoT），它通过明确建模到达特定思维链所需的基本推理来扩展传统的思维链（CoT）。我们提供了来自最先进模型的经验证据，展示了表现出与上下文搜索一致的行为，并探讨通过过程监督、合成数据生成和搜索算法产生Meta-CoT的方法。最后，我们概述了一个具体的流程，用于训练模型生成Meta-CoT，其中包括使用线性化搜索轨迹的指导调整和训练后的强化学习。最后，我们讨论了一些开放性研究问题，包括扩展规律、验证者角色以及发现新型推理算法的潜力。这项工作提供了一个理论和实践路线图，以实现LLMs中的Meta-CoT，为人工智能中更强大和更类人推理铺平道路。

智能体实验室：将LLM智能体用作研究助手
Agent Laboratory: Using LLM Agents as Research Assistants

Jan 8

BySamuel Schmidgall, Yusheng Su, Ze Wang, Ximeng Sun, Jialian Wu, Xiaodong Yu, Jiang Liu, Zicheng Liu, Emad Barsoum

在历史上，科学发现一直是一个漫长且昂贵的过程，从最初构思到最终结果需要大量的时间和资源。为了加速科学发现，降低研究成本，提高研究质量，我们引入了Agent Laboratory，这是一个基于自主LLM的框架，能够完成整个研究过程。该框架接受人类提供的研究想法，并通过文献综述、实验和撰写报告三个阶段来生成全面的研究成果，包括代码库和研究报告，同时允许用户在每个阶段提供反馈和指导。我们使用各种最先进的LLM部署Agent Laboratory，并邀请多位研究人员通过参与调查来评估其质量，提供人类反馈以指导研究过程，然后评估最终论文。我们发现：（1）由o1-preview驱动的Agent Laboratory生成了最佳的研究成果；（2）生成的机器学习代码能够与现有方法相比实现最先进的性能；（3）人类参与，在每个阶段提供反馈，显著提高了研究的整体质量；（4）Agent Laboratory显著降低了研究费用，与以往的自主研究方法相比，实现了84%的降低。我们希望Agent Laboratory能够让研究人员将更多精力投入创意构思而不是低层次的编码和撰写，从而加速科学发现。

URSA：理解和验证多模式数学中的思维链推理
URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics

Jan 8

ByRuilin Luo, Zhuofan Zheng, Yifan Wang, Yiyao Yu, Xinzhe Ni, Zicheng Lin, Jin Zeng, Yujiu Yang

链式推理（CoT）已被广泛应用于大型语言模型（LLMs）的数学推理中。最近，在CoT轨迹上引入导数过程监督引发了关于在测试时增强扩展能力的讨论，从而提升了这些模型的潜力。然而，在多模态数学推理中，高质量CoT训练数据的稀缺阻碍了现有模型实现高精度的CoT推理，并限制了测试时推理潜力的实现。在这项工作中，我们提出了一个三模块综合策略，将CoT蒸馏、轨迹格式重写和格式统一集成在一起。这导致了一个高质量的多模态数学CoT推理指导微调数据集MMathCoT-1M。我们全面验证了经过训练的URSA-7B模型在多个多模态数学基准测试上的最新技术（SOTA）性能。对于测试时扩展，我们引入了一个数据合成策略，自动生成名为DualMath-1.1M的过程注释数据集，重点放在解释和逻辑上。通过在DualMath-1.1M上进一步训练URSA-7B，我们从CoT推理能力过渡到强大的监督能力。经过训练的URSA-RM-7B作为验证器，有效提升了URSA-7B在测试时的性能。URSA-RM-7B还展示了出色的超出分布（OOD）验证能力，展示了其泛化能力。模型权重、训练数据和代码将开放源代码。

LLM4SR：大型语言模型在科学研究中的调查。
LLM4SR: A Survey on Large Language Models for Scientific Research

Jan 8

ByZiming Luo, Zonglin Yang, Zexin Xu, Wei Yang, Xinya Du

近年来，大型语言模型（LLMs）的快速发展已经彻底改变了科学研究的格局，为研究周期的各个阶段提供了前所未有的支持。本文提出了第一份系统调查报告，专门探讨LLMs如何革新科学研究过程。我们分析了LLMs在研究的四个关键阶段中扮演的独特角色：假设发现、实验规划与实施、科学写作以及同行评审。我们的综述全面展示了任务特定的方法论和评估基准。通过识别当前挑战并提出未来研究方向，这份调查不仅突出了LLMs的变革潜力，还旨在激发和指导研究人员和从业者利用LLMs推动科学探究。资源可在以下存储库获取：https://github.com/du-nlp-lab/LLM4SR。

InfiGUIAgent：具有本地推理和反思能力的多模态通用GUI代理
InfiGUIAgent: A Multimodal Generalist GUI Agent with Native Reasoning and Reflection

Jan 8

ByYuhang Liu, Pengxiang Li, Zishu Wei, Congkai Xie, Xueyu Hu, Xinchen Xu, Shengyu Zhang, Xiaotian Han, Hongxia Yang, Fei Wu

由多模式大型语言模型（MLLMs）驱动的图形用户界面（GUI）代理在计算设备（如计算机和手机）上展现出了自动化任务的巨大潜力。然而，现有代理面临着多步推理和对文本注释的依赖等挑战，限制了它们的有效性。我们引入了InfiGUIAgent，这是一个基于MLLM的GUI代理，经过两阶段监督微调流程进行训练。第一阶段增强了诸如GUI理解和基础技能等基本技能，而第二阶段则利用合成数据集成了分层推理和期望-反思推理技能，以实现代理的本地推理能力。InfiGUIAgent在多个GUI基准测试中取得了竞争性表现，突显了本地推理技能对增强GUI交互以进行自动化任务的影响。资源可在https://github.com/Reallm-Labs/InfiGUIAgent找到。

GeAR：生成增强检索
GeAR: Generation Augmented Retrieval

Jan 6

ByHaoyu Liu, Shaohan Huang, Jianfeng Liu, Yuefeng Zhan, Hao Sun, Weiwei Deng, Feng Sun, Furu Wei, Qi Zhang

文档检索技术构建了大规模信息系统发展的基础。目前的方法是构建一个双编码器并计算语义相似性。然而，这种标量相似度难以反映足够的信息，阻碍了我们对检索结果的理解。此外，这种计算过程主要强调全局语义，忽略了查询与文档中复杂文本之间的细粒度语义关系。在本文中，我们提出了一种名为生成增强检索（GeAR）的新方法，该方法融合了精心设计的融合和解码模块。这使得GeAR能够基于查询和文档的融合表示生成相关文本，从而学会“关注”细粒度信息。此外，作为检索器使用时，GeAR不会增加任何计算负担。为了支持新框架的训练，我们引入了一个流水线，通过利用大型语言模型高效合成高质量数据。GeAR在各种场景和数据集中展现出竞争力的检索和定位性能。此外，GeAR生成的定性分析和结果提供了对检索结果解释的新见解。代码、数据和模型将在完成技术审查后发布，以促进未来研究。

Chirpy3D：用于创意3D鸟类生成的连续部分潜变量
Chirpy3D: Continuous Part Latents for Creative 3D Bird Generation

Jan 7

ByKam Woh Ng, Jing Yang, Jia Wei Sii, Jiankang Deng, Chee Seng Chan, Yi-Zhe Song, Tao Xiang, Xiatian Zhu

本文将精细化的三维生成推向真正创意的领域边界。当前方法要么缺乏复杂细节，要么仅仅模仿现有对象——我们实现了两者兼具。通过将二维精细理解提升至三维，通过多视角扩散和对部分潜在因素建模为连续分布，我们解锁了通过插值和抽样生成全新但可信的部分的能力。自监督特征一致性损失进一步确保了这些未曾见过部分的稳定生成。其结果是第一个能够创造具有超越现有示例的物种特定细节的全新三维对象的系统。虽然我们在鸟类上展示了我们的方法，但基础框架超越了那些能够鸣叫的事物！代码将在 https://github.com/kamwoh/chirpy3d 上发布。

SPAR3D：从单个图像稳定地感知重建3D物体
SPAR3D: Stable Point-Aware Reconstruction of 3D Objects from Single Images

Jan 8

ByZixuan Huang, Mark Boss, Aaryaman Vasishta, James M. Rehg, Varun Jampani

我们研究单图像三维物体重建问题。最近的研究分为两个方向：基于回归的建模和生成式建模。回归方法能够高效推断可见表面，但在遮挡区域方面表现不佳。生成方法通过建模分布更好地处理不确定区域，但计算成本高且生成结果常常与可见表面不对齐。本文提出了SPAR3D，一种新颖的两阶段方法，旨在兼收并蓄两个方向的优点。SPAR3D的第一阶段利用轻量级点扩散模型生成稀疏的三维点云，具有快速采样速度。第二阶段利用采样的点云和输入图像创建高度详细的网格。我们的两阶段设计实现了对单图像三维任务的概率建模，同时保持了高计算效率和出色的输出保真度。进一步使用点云作为中间表示还允许进行交互式用户编辑。在多样数据集上评估，SPAR3D在0.7秒的推断速度下展现出优于先前最先进方法的性能。项目页面包含代码和模型：https://spar3d.github.io

EpiCoder：在代码生成中涵盖多样性和复杂性
EpiCoder: Encompassing Diversity and Complexity in Code Generation

Jan 8

ByYaoxiang Wang, Haoling Li, Xin Zhang, Jie Wu, Xiao Liu, Wenxiang Hu, Zhongxin Guo, Yangyu Huang, Ying Xin, Yujiu Yang, Jinsong Su, Qi Chen, Scarlett Li

有效的指令调整对于优化代码LLMs、使模型行为与用户期望一致，并增强模型在实际应用中的性能至关重要。然而，大多数现有方法侧重于代码片段，这些片段仅限于特定功能和刚性结构，限制了合成数据的复杂性和多样性。为了解决这些局限性，我们引入了一种受抽象语法树（AST）启发的基于特征树的合成框架。与AST捕获代码的语法结构不同，我们的框架模拟代码元素之间的语义关系，从而实现更加细致和多样化的数据生成。特征树是从原始数据构建的，并经过迭代改进以增加提取特征的数量和多样性。这一过程使得能够识别代码中更复杂的模式和关系。通过对具有受控深度和广度的子树进行采样，我们的框架允许对生成的代码复杂性进行精确调整，支持从简单的函数级操作到复杂的多文件场景的各种任务。我们对广泛使用的基础模型进行了微调，创建了EpiCoder系列，实现了在多个基准测试中在函数和文件级别上的最先进性能。值得注意的是，实证证据表明我们的方法在合成高度复杂的存储库级代码数据方面具有显著潜力。进一步的分析通过软件工程原则和LLM作为评判方法，阐明了这种方法的优点，通过严格评估数据的复杂性和多样性。

多任务检索器微调，用于领域特定和高效的RAG。
Multi-task retriever fine-tuning for domain-specific and efficient RAG

Jan 8

ByPatrice Béchard, Orlando Marquez Ayala

在部署大型语言模型（LLMs）时，检索增强生成（RAG）已经变得无处不在，因为它可以解决典型限制，如生成虚构或过时信息。然而，在构建真实世界的RAG应用时，会出现一些实际问题。首先，检索到的信息通常是领域特定的。由于对LLMs进行微调计算成本高昂，因此更可行的是微调检索器以提高包含在LLM输入中的数据质量。其次，随着更多应用部署在同一真实世界系统中，无法承担部署单独的检索器的成本。此外，这些RAG应用通常检索不同类型的数据。我们的解决方案是在各种领域特定任务上对一个小型检索器编码器进行指导微调，以使我们能够部署一个编码器，可以服务于许多用例，从而实现低成本、可扩展性和速度。我们展示了这个编码器如何泛化到领域外设置，以及在真实企业用例中对未见过的检索任务的适用性。

DPO核：一种具有语义意识、增强核和丰富差异性的直接偏好优化范式
DPO Kernels: A Semantically-Aware, Kernel-Enhanced, and Divergence-Rich Paradigm for Direct Preference Optimization

Jan 5

ByAmitava Das, Suranjana Trivedy, Danush Khanna, Rajarshi Roy, Gurpreet Singh, Basab Ghosh, Yaswanth Narsupalli, Vinija Jain, Vasu Sharma, Aishwarya Naresh Reganti, Aman Chadha

大型语言模型（LLMs）的快速崛起开启了许多应用，但也凸显了将它们与多样化价值观和偏好对齐的挑战。直接偏好优化（DPO）对齐至关重要，但受到固定差异和有限特征转换的限制。我们提出了DPO-Kernels，它整合了核方法来解决这些问题，具有四个关键贡献：（i）使用多项式、RBF、马氏、和谱核的核化表示，实现更丰富的转换，以及结合基于嵌入和基于概率的目标的混合损失；（ii）差异替代方案（Jensen-Shannon、Hellinger、Renyi、Bhattacharyya、Wasserstein 和 f-差异）以提高稳定性；（iii）数据驱动的选择度量，自动选择最佳的核-差异对；以及（iv）用于局部精度和全局建模的分层核混合。在12个数据集上的评估表明，在事实性、安全性、推理和指令遵循方面表现出最先进的性能。基于重尾自正则化，DPO-Kernels 保持了对LLMs的强大泛化能力，为进一步的对齐研究提供了全面的资源。

AI研究论文每日精选

每日精选AI研究论文及翻译

rStar-Math：小型LLMs可以通过自我进化的深度思维掌握数学推理
rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking

Jan 8

ByXinyu Guan, Li Lyna Zhang, Yifei Liu, Ning Shang, Youran Sun, Yi Zhu, Fan Yang, Mao Yang

288

搜素-o1：基于智能搜索增强的大规模推理模型
Search-o1: Agentic Search-Enhanced Large Reasoning Models

Jan 9

ByXiaoxi Li, Guanting Dong, Jiajie Jin, Yuyao Zhang, Yujia Zhou, Yutao Zhu, Peitian Zhang, Zhicheng Dou

102

DPO核：一种具有语义意识、增强核和丰富差异性的直接偏好优化范式
DPO Kernels: A Semantically-Aware, Kernel-Enhanced, and Divergence-Rich Paradigm for Direct Preference Optimization

Jan 5

ByAmitava Das, Suranjana Trivedy, Danush Khanna, Rajarshi Roy, Gurpreet Singh, Basab Ghosh, Yaswanth Narsupalli, Vinija Jain, Vasu Sharma, Aishwarya Naresh Reganti, Aman Chadha