每日精选AI研究论文及翻译
长上下文建模对于下一代语言模型至关重要,然而标准注意力机制的高计算成本带来了显著的计算挑战。稀疏注意力为提高效率同时保持模型能力提供了一个有前途的方向。我们提出了NSA,一种本地可训练的稀疏注意力机制,它将算法创新与硬件对齐的优化相结合,实现了高效的长上下文建模。NSA采用动态分层稀疏策略,将粗粒度的标记压缩与细粒度的标记选择相结合,以保留全局上下文意识和局部精度。我们的方法通过两个关键创新推进了稀疏注意力设计:(1) 我们通过算术强度平衡的算法设计实现了显著的加速,同时针对现代硬件进行了实现优化。(2) 我们实现了端到端训练,减少了预训练计算而不损害模型性能。如图1所示,实验证明,使用NSA预训练的模型在一般基准、长上下文任务和基于指令的推理方面保持或超越了全注意力模型。与此同时,NSA在64k长度序列的解码、前向传播和反向传播中实现了显著的加速,验证了其在整个模型生命周期中的高效性。
我们介绍了SWE-Lancer,这是一个包含超过1,400个来自Upwork的自由软件工程任务的基准,总价值为100万美元。SWE-Lancer涵盖了独立工程任务,范围从50个错误修复到32,000美元的功能实现,以及管理任务,其中模型在技术实现提案之间进行选择。独立任务通过经验丰富的软件工程师三重验证的端到端测试进行评分,而管理决策则根据最初聘请的工程经理的选择进行评估。我们评估模型性能并发现前沿模型仍然无法解决大多数任务。为了促进未来研究,我们开源了一个统一的Docker镜像和一个公共评估分割,SWE-Lancer Diamond(https://github.com/openai/SWELancer-Benchmark)。通过将模型性能映射到货币价值,我们希望SWE-Lancer能够促进对AI模型开发经济影响的更深入研究。
在人形机器人可靠部署之前,自动摔倒恢复是一个至关重要的先决条件。手动设计起身控制器很困难,因为人形机器人在摔倒后可能出现各种配置,并且人形机器人预计在具有挑战性的地形上运行。本文开发了一个学习框架,用于生成控制器,使人形机器人能够从不同配置和不同地形中起身。与以往成功的人形机器人运动学习应用不同,起身任务涉及复杂的接触模式,这需要准确建模碰撞几何和更稀疏的奖励。我们通过遵循课程的两阶段方法来解决这些挑战。第一阶段侧重于在对平滑度或速度/扭矩限制最小的情况下发现一个良好的起身轨迹。然后,第二阶段将发现的动作优化为可部署的(即平稳且缓慢)动作,这些动作对初始配置和地形的变化具有鲁棒性。我们发现这些创新使得真实世界中的 G1 人形机器人能够从我们考虑的两种主要情况中起身:a)仰卧和b)俯卧,均在平坦、可变形、滑动表面和坡道(例如斜坡草地和雪地)上进行测试。据我们所知,这是首次成功展示了在现实世界中为人类大小的人形机器人学习起身策略。项目页面:https://humanoid-getup.github.io/
本文提出了ThinkDiff,一种新颖的对齐范式,通过整合视觉-语言模型(VLMs)的优势,赋予文本到图像扩散模型多模态上下文理解和推理能力。现有的多模态扩散微调方法主要侧重于像素级重建,而非上下文推理,并受限于基于推理的数据集的复杂性和有限可用性。ThinkDiff通过利用视觉-语言训练作为代理任务,将VLMs与编码器-解码器大型语言模型(LLM)的解码器对齐,而非扩散解码器。这个代理任务建立在这样一个观察基础上,即LLM解码器与使用相应LLM编码器进行提示嵌入的扩散解码器共享相同的输入特征空间。因此,通过与LLM解码器对齐,可以简化将VLMs与扩散解码器对齐的过程。在没有复杂训练和数据集的情况下,ThinkDiff有效释放了扩散模型中的理解、推理和组合能力。实验证明,ThinkDiff在具有挑战性的CoBSAT基准测试中,将多模态上下文推理生成的准确率从19.2%显著提高到46.3%,仅需在4个A100 GPU上进行5小时的训练。此外,ThinkDiff在将多个图像和文本组合成逻辑连贯图像方面表现出色。项目页面:https://mizhenxing.github.io/ThinkDiff。
目前针对大型语言模型的遗忘方法通常依赖于反向优化来降低目标标记的概率。然而,这种范式会干扰后续标记的预测,降低模型性能和语言连贯性。此外,现有的评估指标过分强调上下文遗忘,同时未充分评估响应流畅性和相关性。为了解决这些挑战,我们提出了ReLearn,这是一个用于有效遗忘的数据增强和微调流程,以及一个全面的评估框架。该框架引入了知识遗忘率(KFR)和知识保留率(KRR)来衡量知识级别的保留,并引入了语言得分(LS)来评估生成质量。我们的实验表明,ReLearn成功实现了有针对性的遗忘,同时保留了高质量的输出。通过机械分析,我们进一步展示了反向优化如何干扰连贯的文本生成,而ReLearn保留了这一关键能力。代码可在https://github.com/zjunlp/unlearn找到。
尽管大型语言模型(LLMs)在知识密集型任务中具有卓越的能力,但它们在理解其如何内化新知识,特别是如何在神经计算中结构化嵌入所获知识方面存在重要差距。我们通过知识电路演化的视角来解决这一问题,识别促进知识存储和处理的计算子图。我们对持续预训练期间电路演化的系统分析揭示了几个关键发现:(1)新知识的习得受其与现有知识的相关性影响;(2)知识电路的演化表现出从形成到优化的明显相位转变;(3)知识电路的演化呈现出深到浅的模式。这些见解不仅推进了我们对LLMs中新知识习得机制的理论理解,还为改进持续预训练策略以提高模型性能提供了潜在启示。代码和数据将在https://github.com/zjunlp/DynamicKnowledgeCircuits 上提供。
代码生成、符号数学推理和其他任务需要LLMs生成既符法又语义正确的输出。约束LLM生成是一种有前途的方法,可以强制遵守形式语法,但先前的研究经验表明,严格执行形式约束通常会削弱LLMs的推理能力。在这项工作中,我们首先提供了一个理论解释,说明为什么将LLM输出限制在只允许语法有效最终答案的非常严格语法中会降低模型的推理能力。其次,我们展示通过向输出语法添加精心设计的附加规则,始终可以保留LLM的推理能力,同时确保其输出的语法和语义正确性。基于这些理论见解,我们提出了一种推理增强的约束解码算法CRANE,有效地平衡了约束生成的正确性和无约束生成的灵活性。在多个开源LLMs和基准测试上的实验表明,CRANE在具有挑战性的符号推理基准测试GSM-symbolic和FOLIO上比最先进的约束解码策略和标准无约束解码表现显著优越,准确性提高了高达10%。
我们研究了在训练用于预测自然视频中遮蔽区域的通用深度神经网络模型时直观物理理解的出现。利用违反期望框架,我们发现训练在学习表示空间中预测结果的视频预测模型展现了对各种直观物理属性的理解,如物体恒常性和形状一致性。相比之下,在像素空间和通过文本推理的多模态大语言模型中进行视频预测的表现更接近于随机。我们对这些架构的比较揭示了,在联合学习抽象表示空间的同时预测感官输入的缺失部分,类似于预测编码,就足以获得对直观物理的理解,即使是在仅训练一周的独特视频上的模型也能取得高于随机的表现。这挑战了核心知识的观念 —— 一套帮助理解世界的先天系统需要被硬编码以发展对直观物理的理解的想法。
指令层级体系,从系统消息到用户消息、对话历史及工具输出,确立了一个优先级顺序,这对于确保语言模型(LMs)行为的一致性与安全性至关重要。尽管其重要性不言而喻,这一主题却鲜少受到关注,且缺乏全面评估模型遵循指令层级能力的基准测试。为此,我们引入了IHEval这一新颖基准,它包含3,538个示例,覆盖九项任务,涉及不同优先级指令间一致与冲突的情形。对主流LMs的评估揭示出它们在识别指令优先级方面存在显著困难。所有受测模型在面对冲突指令时,相较于其原始指令遵循表现,均遭遇了性能的急剧下滑。此外,表现最为优异的开源模型在解决此类冲突时,准确率仅达48%。我们的研究结果凸显了未来LM发展中针对指令层级进行针对性优化的迫切需求。
Sailor2 是一系列针对东南亚(SEA)语言的尖端多语言模型,提供 1B、8B 和 20B 三种规模,以适应多样化的应用需求。基于 Qwen2.5,Sailor2 在 5000 亿个 token(其中 4000 亿为东南亚语言专用,1000 亿为回放 token)上进行了持续预训练,支持 13 种东南亚语言,同时保持对中文和英文的熟练度。Sailor2-20B 模型在东南亚语言上与 GPT-4o 的对决中取得了 50-50 的胜率。我们还提供了一份详尽的指南,涵盖数据整理、预训练、后训练、模型定制和评估五大关键方面,旨在高效开发多语言模型。我们希望 Sailor2 模型(采用 Apache 2.0 许可证)能够推动东南亚地区的语言发展,同时 Sailor2 指南能激励研究人员为其他服务不足的语言构建更具包容性的大语言模型。
自回归范式的显著成功在多模态大语言模型(MLLMs)方面取得了重大进展,强大的模型如Show-o、Transfusion和Emu3在统一图像理解和生成方面取得了显著进展。我们首次揭示了一个共同现象:MLLMs的理解能力通常比生成能力强,两者之间存在显著差距。基于这一发现,我们提出了HermesFlow,这是一个简单而通用的框架,旨在无缝地弥合MLLMs中理解和生成之间的差距。具体而言,我们以同源数据作为输入,筛选出理解和生成的同源偏好数据。通过Pair-DPO和自我博弈迭代优化,HermesFlow有效地利用同源偏好数据对多模态理解和生成进行对齐。大量实验表明,我们的方法明显优于先前的方法,特别是在缩小多模态理解和生成之间差距方面。这些发现突显了HermesFlow作为下一代多模态基础模型的通用对齐框架的潜力。 代码:https://github.com/Gen-Verse/HermesFlow
大型语言模型(LLMs)因依赖静态训练数据而面临幻觉和知识过时的问题。检索增强生成(RAG)通过整合外部动态信息来缓解这些问题,从而增强事实性和时效性基础。多模态学习的最新进展推动了多模态RAG的发展,它融合了文本、图像、音频和视频等多种模态,以提升生成输出的质量。然而,跨模态对齐与推理为多模态RAG带来了独特的挑战,使其区别于传统的单模态RAG。本综述对多模态RAG系统进行了结构化和全面的分析,涵盖了数据集、指标、基准、评估、方法以及在检索、融合、增强和生成方面的创新。我们详细审视了训练策略、鲁棒性增强和损失函数,同时探讨了多样化的多模态RAG应用场景。此外,我们讨论了开放挑战和未来研究方向,以支持这一不断演进领域的进步。本综述为开发更强大、更可靠的AI系统奠定了基础,这些系统能够有效利用多模态动态外部知识库。相关资源可在https://github.com/llm-lab-org/Multimodal-RAG-Survey获取。
我们提出了扩散锐化(Diffusion-Sharpening),这是一种通过优化采样轨迹来增强下游对齐的微调方法。现有基于强化学习的微调方法侧重于单个训练时间步,并忽略了轨迹级别的对齐,而最近的采样轨迹优化方法会导致显著的推断 NFE 成本。扩散锐化通过使用路径积分框架在训练过程中选择最佳轨迹,利用奖励反馈并分摊推断成本来克服这一问题。我们的方法展示了卓越的训练效率,收敛速度更快,并且在不需要额外 NFE 的情况下实现了最佳推断效率。大量实验证明,扩散锐化在文本对齐、组合能力和人类偏好等多个指标上优于基于强化学习的微调方法(例如扩散-DPO)和采样轨迹优化方法(例如推断缩放),为未来扩散模型微调提供了可扩展和高效的解决方案。源代码:https://github.com/Gen-Verse/Diffusion-Sharpening
系统消息在与大型语言模型(LLMs)的交互中发挥着至关重要的作用,通常用作启动对话的提示。通过系统消息,用户可以指定特定角色,执行预期任务,整合背景信息,指定各种输出格式和沟通风格。尽管具有如此多样性,公开可用的数据往往缺乏系统消息,并受到行业领域严格的许可限制。使用符合用户指令的系统消息手动标记公开可用数据需要大量资源。鉴于这些挑战,我们的工作引入了SysGen,这是一个从带有系统消息的监督微调数据集中生成系统消息的管道,以获得更好与助手响应对齐的结果。在SysGen数据上进行训练已经显示出模型响应与系统消息和用户指令对齐方面的显著改进,这在Multifacet基准测试中得到了证明,同时对其他未见基准测试(如Open LLM Leaderboard 2)的影响最小。我们的定性分析突显了多样化系统消息的重要性,以确保在不同情境下更好地适应。
最近基于LLM的多智能体(LLM-MA)系统取得了一些进展,展现出潜力,但在智能体协作处理复杂任务时,仍然存在重大挑战,特别是在管理沟通和改进方面。本文提出了“结构化对话,分层行动”(TalkHier)的新框架,引入了结构化通信协议以进行富有上下文的交流,并采用分层改进系统来解决输出错误、虚假和偏见等问题。TalkHier在各种任务上超越了各种类型的最先进技术,包括推理扩展模型(OpenAI-o1)、开源多智能体模型(例如AgentVerse)以及当前LLM和单智能体基线(例如ReAct、GPT4o)上的多数投票策略,包括开放领域问答、特定领域选择性提问和实用广告文本生成。这些结果突显了其为LLM-MA系统设立新标准的潜力,为更有效、适应性强和协作性更强的多智能体框架铺平了道路。代码可在https://github.com/sony/talkhier找到。
近期,大型多模态模型(LMMs)的成功激发了能够自主完成复杂网络任务的智能代理的广泛应用。尽管开源LMM代理在离线评估基准上取得了显著进展,但在更贴近实际的在线环境中,其性能仍远未达到人类水平。一个关键瓶颈在于缺乏跨多个领域的多样化、大规模轨迹级数据集,而这些数据的收集成本高昂。本文通过开发一种可扩展的方法,合成了迄今为止最大且最多样化的轨迹级数据集,包含超过94,000条成功的多模态网络轨迹,涵盖49,000个唯一URL、720,000张截图及3,300万个网页元素。特别地,我们利用广泛的网络探索与优化来获取多样化的任务意图。每条成功轨迹的平均成本仅为28美分,使得社区内广大用户都能负担得起。基于此数据集,我们训练了名为Explorer的多模态网络代理,并在Mind2Web-Live、Multimodal-Mind2Web及MiniWob++等线上线下网络代理基准测试中展现了强劲性能。此外,我们的实验表明,数据规模的扩大是提升网络代理能力的关键驱动力。我们期望这项研究能推动基于LMM的前沿代理研究在更大范围内得以普及。
尽管在人工评估中取得了接近完美的结果,但模型编辑在实际应用中的有效性仍未被探索。为弥合这一差距,我们提出通过建立严格的评估实践来研究问答(QA)中的模型编辑,以评估编辑方法在纠正LLMs错误方面的有效性。这包括QAEdit,一个从流行的QA数据集衍生出的新基准,以及一个标准化的评估框架。我们的单一编辑实验表明,当前的编辑方法表现明显低于先前报告的结果(38.5% vs. ~96%)。通过模块分析和对照实验,我们证明了这种性能下降源于先前编辑研究中评估实践存在问题。一个关键问题是在测试中不当地使用教师强制,通过将地面真实标记(在实际场景中无法访问)作为输入,阻止了错误的传播。此外,我们通过顺序编辑模拟了实际部署,揭示了当前方法在仅进行1000次编辑时的严重失败。我们的分析对现有模型编辑方法的实际应用性和评估实践进行了基本重新审视,并建立了一个严格的评估框架,提供了关键见解,推动可靠且实用的模型编辑研究。
大型语言模型(LLMs)在与代码相关的任务中展示了卓越的能力,如代码理解和代码生成。然而,一个同样重要但鲜为人知的问题是LLMs是否可以作为通用代理代码执行器,预测程序的输出和行为而无需实际运行。为了系统地探究这一能力,我们引入了SURGE,一个包含八个关键方面的全面基准:多语言编程任务、竞赛级编程问题、存储库级代码分析、高成本科学计算、时间复杂度密集型算法、错误代码分析、依赖特定编译器或执行环境的程序,以及形式化数学证明验证。我们在SURGE上评估了多个开源和专有LLMs,并进行了一个规模化研究,分析了模型大小和训练数据规模对代理执行准确性的影响。此外,我们对模型预测错误进行分类,并探讨了改进的潜在领域。我们的研究结果表明,虽然LLMs在某些情况下可以预测代码执行结果,但它们在通用代理执行方面存在局限性。这项研究为使用LLMs作为代理代码执行器的可行性提供了实证见解。代码和数据集已发布在https://github.com/Imbernoulli/SURGE。
最近推理优化方面的进展显著增强了大型语言模型(LLMs)的能力,然而现有的改进推理的努力仅限于解决数学问题和专注于视觉图形输入,忽视了在一般视频理解中的更广泛应用。本文提出了video-SALMONN-o1,这是第一个面向一般视频理解任务设计的开源推理增强型视听语言模型。为了增强其推理能力,我们开发了一个推理密集型数据集,其中包含具有挑战性的视听问题及逐步解决方案。我们还提出了过程直接偏好优化(pDPO),利用对比步骤选择来实现针对多模态输入的高效步骤级奖励建模。此外,我们引入了RivaBench,这是第一个推理密集型视频理解基准,涵盖了超过4,000个高质量、专家策划的问题-答案对,涵盖了诸如脱口秀、学术演讲和合成视频检测等场景。video-SALMONN-o1在不同视频推理基准测试中相对于LLaVA-OneVision基线实现了3-8%的准确率提升。此外,pDPO在RivaBench上相对于监督微调模型实现了6-8%的改进。增强的推理使video-SALMONN-o1具备了零样本合成视频检测能力。
随着3D内容创作的爆炸性增长,对将静态3D模型自动转换为支持逼真动画的可关节版本的需求不断增加。传统方法主要依赖手动注释,这既耗时又劳动密集。此外,缺乏大规模基准数据集阻碍了基于学习的解决方案的发展。在这项工作中,我们提出了MagicArticulate,这是一个有效的框架,可以自动将静态3D模型转换为可关节的资产。我们的主要贡献有三个方面。首先,我们引入了Articulation-XL,这是一个大规模基准数据集,包含超过33k个高质量关节标注的3D模型,经过精心筛选自Objaverse-XL。其次,我们提出了一种新颖的骨骼生成方法,将任务构建为一个序列建模问题,利用自回归变换器自然处理骨骼中不同数量的骨头或关节以及它们在不同3D模型中的固有依赖关系。第三,我们使用功能扩散过程预测蒙皮权重,该过程结合了顶点和关节之间的体积测地距离先验。大量实验证明,MagicArticulate在各种物体类别上明显优于现有方法,实现了高质量的关节标注,从而实现了逼真的动画。项目页面:https://chaoyuesong.github.io/MagicArticulate。
文本转SQL旨在将自然语言问题转换为可执行的SQL查询。尽管先前的方法,如骨架掩码选择,通过检索类似的训练示例来指导大型语言模型(LLMs)已经表现出色,但在现实场景中,这些示例不可用时,它们表现不佳。为了克服这一限制,我们提出了一种名为自我增强上下文学习与细粒度示例选择的文本转SQL(SAFE-SQL)的新框架,通过生成和过滤自我增强示例来改善SQL生成。SAFE-SQL首先提示LLM生成多个与测试输入相关的文本转SQL示例。然后,SAFE-SQL通过三个相关性评估筛选这些示例,构建高质量的上下文学习示例。使用自动生成的示例,SAFE-SQL超越了先前的零-shot和少-shot文本转SQL框架,实现了更高的执行准确性。值得注意的是,我们的方法在额外困难和未知场景中提供了额外的性能增益,而传统方法通常失败。
本文提出了一种新颖的训练目标——模型引导(Model-guidance, MG),旨在替代并消除广泛使用的无分类器引导(Classifier-free Guidance, CFG)。我们的创新方法超越了仅对数据分布进行标准建模的局限,将条件后验概率纳入考量。该技术源于CFG的思想,简单而有效,可作为即插即用模块应用于现有模型。我们的方法显著加速了训练过程,使推理速度翻倍,并实现了与甚至超越当前采用CFG的扩散模型相媲美的卓越质量。大量实验验证了该方法在不同模型和数据集上的有效性、效率及可扩展性。最终,我们在ImageNet 256基准测试中取得了1.34的FID值,确立了最新的性能记录。代码已公开于https://github.com/tzco/Diffusion-wo-CFG。
大型语言模型展示了在各个领域,尤其是数学和逻辑推理方面的显著能力。然而,当前的评估忽视了基于物理的推理——这是一个复杂的任务,需要物理定理和约束条件。我们提出了PhysReason,一个包含1,200个问题的基准测试,其中包括基于知识的问题(25%)和基于推理的问题(75%),后者分为三个难度级别(简单、中等、困难)。值得注意的是,这些问题平均需要8.1个解决步骤,其中困难问题需要15.6个步骤,反映了基于物理的推理的复杂性。我们提出了物理解决方案自动评分框架,结合了高效的答案级和全面的步骤级评估。像Deepseek-R1、Gemini-2.0-Flash-Thinking和o3-mini-high等表现最佳的模型在答案级评估中不到60%,性能从知识问题(75.11%)下降到困难问题(31.95%)。通过步骤级评估,我们确定了四个关键瓶颈:物理定理应用、物理过程理解、计算和物理条件分析。这些发现将PhysReason定位为评估大型语言模型中基于物理推理能力的新颖而全面的基准测试。我们的代码和数据将发布在https:/dxzxy12138.github.io/PhysReason。
我们提出了Dyve,这是一种动态过程验证器,通过整合快速思考和慢速思考,受康奈曼的系统理论启发,增强了大型语言模型中的推理错误检测。Dyve自适应地应用立即的令牌级确认System 1来处理简单步骤,而对于复杂步骤则采用全面分析System 2。利用一种新颖的逐步共识过滤的过程监督技术,将蒙特卡洛估计与基于LLM的评估相结合,Dyve从嘈杂数据中筛选出高质量的监督信号。在ProcessBench和MATH数据集上的实验结果证实,Dyve明显优于现有基于过程的验证器,并提升了在Best-of-N设置中的性能。
潜在生成模型已成为高质量图像合成的主流方法。这些模型依赖于自编码器将图像压缩至潜在空间,随后通过生成模型学习潜在分布。我们发现现有自编码器缺乏对缩放、旋转等语义保持变换的等变性,导致潜在空间复杂,从而影响生成性能。为此,我们提出EQ-VAE,一种简单的正则化方法,通过在潜在空间强制等变性来降低其复杂度,同时不牺牲重建质量。通过使用EQ-VAE微调预训练的自编码器,我们提升了包括DiT、SiT、REPA和MaskGIT在内的多种最先进生成模型的性能,仅需五个epoch的SD-VAE微调,DiT-XL/2的速度提升了7倍。EQ-VAE兼容连续和离散自编码器,因此为广泛的潜在生成模型提供了通用性增强。项目页面与代码:https://eq-vae.github.io/。
利用数学大型语言模型(LLMs)进行证明生成是LLMs研究中的一个基本主题。我们认为当前LLMs证明陈述的能力很大程度上取决于它们在训练过程中是否遇到了相关的证明过程。这种依赖限制了它们对数学定理和相关概念的深入理解。受人类数学教育中常用的“反例证明”教学方法启发,我们的工作旨在通过反例来增强LLMs进行数学推理和证明的能力。具体而言,我们手动创建了一个高质量的大学级数学基准CounterMATH,要求LLMs通过提供反例来证明数学陈述,从而评估它们对数学概念的掌握。此外,我们开发了一个数据工程框架,自动获取训练数据以进一步改进模型。大量实验和详细分析表明CounterMATH具有挑战性,表明像OpenAI o1这样的LLMs在反例驱动的证明能力方面不足。此外,我们对模型训练的探索显示,加强LLMs的反例驱动概念推理能力对提高它们的整体数学能力至关重要。我们相信我们的工作为数学LLMs社区提供了新的视角。
现有的语言模型在面向证明的编程方面存在数据稀缺问题,主要表现在两个方面:(1) 缺乏针对面向证明编程语言(如F*)的足够语料库,以及 (2) 缺乏大规模、项目级的面向证明实现,无法教会模型在执行面向证明编程时复杂的推理过程。我们提出了一种基于合成数据增强的项目级面向证明编程方法,旨在生成和修复证明。我们的方法通过合成基本的面向证明编程问题来解决数据稀缺问题,以提高对该语言的熟练程度;结合多样化的编码数据来引发推理能力,并在现有存储库中创建新的证明和修复数据。这种方法使语言模型能够合成和修复函数级和存储库级代码的证明。我们展示,我们经过微调的拥有140亿参数的模型PoPilot,在项目级面向证明编程中的性能超过了GPT-4o,并相对提高了64%的性能,同时通过修复GPT-4o的输出,使其性能比GPT-4o自我修复提高了54%。
为培育先进的大型语言模型(LLMs),已经精心准备了大量高质量的数据,包括预训练原始文本和后训练注释。相比之下,对于信息抽取(IE),例如BIO标记序列的预训练数据很难扩展。我们展示了IE模型可以利用LLM资源作为免费骑手,通过将下一个标记预测重新构建为已经存在于上下文中的标记的抽取。具体来说,我们提出的下一个标记抽取(NTE)范式学习了一种多功能IE模型,名为Cuckoo,其中包含从LLM的预训练和后训练数据转换而来的1.026亿个抽取数据。在少样本设置下,Cuckoo能够有效适应传统和复杂的遵循指令的IE,并且表现优于现有的预训练IE模型。作为免费骑手,Cuckoo可以自然地随着LLM数据准备工作的不断改进而发展,从LLM训练管道的改进中受益,无需额外的人工努力。
记忆对于使代理能够处理具有时间和空间依赖关系的复杂任务至关重要。虽然许多强化学习(RL)算法包含记忆,但该领域缺乏一个通用基准来评估代理在不同场景下的记忆能力。这一差距在桌面机器人操作中尤为明显,那里记忆对于解决具有部分可观察性的任务和确保稳健性至关重要,然而目前并没有标准化的基准。为了解决这个问题,我们引入了MIKASA(Memory-Intensive Skills Assessment Suite for Agents),这是一个用于记忆强化学习的全面基准,具有三个关键贡献:(1)我们提出了一个记忆密集型RL任务的全面分类框架,(2)我们收集了MIKASA-Base - 一个统一的基准,可以系统评估在不同场景下记忆增强型代理的性能,以及(3)我们开发了MIKASA-Robo - 一个包含32个精心设计的记忆密集型任务的新型基准,用于评估桌面机器人操作中的记忆能力。我们的贡献建立了一个统一的框架,推动了记忆强化学习研究的发展,推动了更可靠的系统用于真实世界应用。代码可在https://sites.google.com/view/memorybenchrobots/ 获取。
具备API调用能力的大型语言模型(LLMs)不仅推动了高效语言代理(LA)的构建,还彻底革新了传统的任务导向对话(TOD)范式。然而,现有方法面临一个关键困境:TOD系统通常仅针对有限的目标API进行训练,当接入新服务时需补充新数据以维持其性能,而LA则未经过多轮对话中用户意图保持的训练。鉴于强大的多轮对话管理与高级功能调用对于高效对话代理至关重要,我们在三个主流基准上评估了这些能力:MultiWOZ 2.4(TOD)、BFCL V3(LA)和API-Bank(LA),分析表明,专业化方法在某一领域表现出色,但在另一领域则表现欠佳。为弥合这一鸿沟,我们提出了CALM(对话式代理语言模型),一种融合对话与代理能力的统一方法。我们构建了CALM-IT,一个精心设计的多任务数据集,其中交织了多轮ReAct推理与复杂API使用。利用CALM-IT,我们训练了三个模型:CALM 8B、CALM 70B和CALM 405B,这些模型在所有三个基准测试中均超越了包括GPT-4o在内的顶级领域专用模型。
本研究介绍了ILIAS,一个专为大规模实例级图像检索设计的新型测试数据集。它旨在评估当前及未来基础模型与检索技术在识别特定物体方面的能力。相较于现有数据集,ILIAS的主要优势在于其大规模性、领域多样性、精确的真实标注,以及尚未达到饱和的性能表现。ILIAS包含了针对1,000个物体实例的查询图像和正样本图像,这些图像经过人工收集,以捕捉具有挑战性的条件和多样化的领域背景。大规模检索任务则针对来自YFCC100M的1亿张干扰图像进行。为了避免假阴性结果且无需额外标注工作,我们仅纳入确认在2014年(即YFCC100M的汇编日期)之后出现的查询物体。通过广泛的基准测试,我们得出以下观察:i) 在特定领域(如地标或商品)上微调的模型在该领域表现出色,但在ILIAS上表现欠佳;ii) 利用多领域类别监督学习线性适应层能带来性能提升,尤其是对于视觉-语言模型;iii) 在检索重排序中,局部描述符仍是关键要素,特别是在背景杂乱严重的情况下;iv) 视觉-语言基础模型在文本到图像检索上的表现,意外地接近相应的图像到图像检索情况。更多信息请访问:https://vrg.fel.cvut.cz/ilias/。
大型语言模型和生成式人工智能在在线媒体中的普及加大了对有效自动事实核查的需求,以协助事实核查人员应对不断增加和复杂化的错误信息。事实核查的复杂性要求自动事实核查系统提供解释,使事实核查人员能够审查其输出。然而,目前尚不清楚这些解释应如何与事实核查人员的决策和推理过程相一致,以便有效地融入其工作流程中。通过与事实核查专业人士进行半结构化访谈,我们弥合了这一差距:(i)描述了事实核查人员如何评估证据、做出决策并解释其过程;(ii)研究了事实核查人员如何实际使用自动化工具;以及 (iii)确定了自动事实核查工具对事实核查人员解释的需求。研究结果显示了未满足的解释需求,并确定了可复制的事实核查解释的重要标准,这些解释可以追踪模型的推理路径,引用具体证据,并突出不确定性和信息缺口。
本文研究了大型语言模型(LLMs)在50个新构建的高中水平单词问题上的数学推理能力。与先前侧重于答案正确性的研究不同,我们严格分析最终答案和解决步骤,以识别推理失败。评估了包括Mixtral、Llama、Gemini、GPT-4o和OpenAI的o1变体在内的八种最先进模型,我们发现,尽管新模型(例如o3-mini、deepseek-r1)实现了更高的准确性,但所有模型在空间推理、战略规划和算术方面都存在错误,有时通过错误的逻辑得出正确答案。常见的失败模式包括毫无根据的假设、过度依赖数字模式以及难以将物理直觉转化为数学步骤。手动分析显示,模型在需要多步推断或现实世界知识的问题上遇到困难,尽管具有广泛的数学知识。我们的结果强调了评估推理过程的重要性,而非仅仅是答案,并警告不要高估LLMs的问题解决能力。该研究突出了LLMs在泛化能力方面持续存在的差距,强调了有必要针对结构化推理和约束处理进行有针对性的改进。
本文挑战了原子属性预测中最近的范式,该范式将进展与不断增长的数据集大小和计算资源联系起来。我们表明,在精心选择的与任务相关的数据集上进行预训练可以达到甚至超过大规模预训练的效果,同时仅使用 1/24 的计算成本。我们引入了化学相似性指数(CSI),这是受计算机视觉中 Fr\'echet Inception 距离启发的一种新颖度量标准,用于分子图,量化上游预训练数据集与下游任务之间的对齐程度。通过选择与最小 CSI 距离的最相关数据集,我们展示了在较小、专注的数据集上预训练的模型始终优于在大规模混合数据集(如 JMP)上预训练的模型,即使这些更大的数据集包含相关数据集。出乎意料的是,我们还发现,不加区分地添加更多数据可能会降低模型性能,尤其是当额外数据与手头任务不太对齐时。我们的发现突出了在原子属性预测的预训练中,质量往往胜过数量。
影响函数为模型训练提供了关键洞见,但现有方法存在计算成本高、泛化能力有限的问题。特别是,近期研究提出了多种利用语言模型计算数据影响的指标和算法,这些方法在面对大规模模型和数据集时难以有效扩展。原因在于计算过程中昂贵的前向和反向传播、存储大型模型所需的大量内存,以及影响估计对新数据的泛化能力不足。本文探索使用小型神经网络——我们称之为影响网络(InfluenceNetwork)——来估计影响值,实现了高达99%的成本降低。我们的评估表明,仅需使用完整语言模型(我们采用7B和8B版本)0.0027%大小的模型即可估计影响值。我们将这一估计影响值的算法(称为NN-CIFT:高效指令微调的神经网络)应用于下游任务,即通用指令微调的子集选择。研究中,我们纳入了四种最先进的影响函数,并展示了NN-CIFT在保持性能的同时实现了显著加速,与原始影响函数相比无性能损失。我们对NN-CIFT进行了深入的超参数分析。本方法的代码可在此处获取:https://github.com/agarwalishika/NN-CIFT。
尽管LLM具有显著的能力,但其学习的词表示表现出令人不满且理解不足的各向异性特征。在本文中,我们认为Adam中的二阶矩是各向异性嵌入的原因,并建议使用一种名为Coupled Adam的修改优化器来缓解这一问题。我们的实验表明,Coupled Adam显著改善了嵌入的质量,同时也在足够大的数据集上带来更好的上游和下游性能。
大型语言模型(LLMs)在自然语言生成方面取得了重大进展,但在需要精确计算和结构分析的任务中常常面临挑战。本文通过计算LIX可读性度量和平均依赖距离(ADD),研究了最先进的LLMs在语言复杂度测量任务中的表现。我们使用瑞典高中和大学级散文,评估模型计算LIX分数和执行依赖解析的能力,将它们的结果与已建立的基准进行比较。我们的研究发现,虽然所有模型都展示了一定的任务能力,但ChatGPT-o1-mini表现最为稳定,在LIX计算和依赖解析方面准确率最高。此外,我们观察到在计算LIX的准确性和在大规模多任务语言理解(MMLU)基准测试中的整体表现之间存在强有力的显著负相关性-0.875 p 0.026(N=6)。这些结果表明,语言复杂度测量能力可以作为评估LLMs一般能力的一种嘈杂的零样本代理,为模型评估提供了一种实用方法,无需大量基准测试数据集。
检测由大型语言模型(LLMs)生成的文本可能导致严重错误,例如损害学生的学术尊严。因此,LLM文本检测需要确保决策的可解释性,以帮助用户判断其预测的可靠性。当人类验证一段文本是由人撰写还是由LLM生成时,他们会直观地考察该文本与哪一方有更多相似的片段。然而,现有的可解释检测器并未与人类的决策过程保持一致,未能提供易于用户理解的证据。为填补这一空白,我们提出了ExaGPT,一种基于人类决策过程的可解释检测方法,用于验证文本来源。ExaGPT通过检查文本与数据存储中人类撰写文本或LLM生成文本的相似片段数量来进行识别。该方法能够为文本中的每个片段提供相似的片段示例作为决策依据。我们的人类评估表明,提供相似片段示例比现有的可解释方法更有效地帮助判断决策的正确性。此外,在四个领域和三种生成器上的大量实验显示,ExaGPT在1%的误报率下,准确率大幅超越先前强大的检测器,最高提升达40.9个百分点。