每日精选AI研究论文及翻译
可验证奖励强化学习(RLVR)近期在提升大语言模型(LLMs)的推理能力方面取得了显著成果,尤其是在数学和编程任务中。普遍认为,RLVR使LLMs能够持续自我改进,从而获得超越基础模型能力的新推理技能。然而,在本研究中,我们通过测量大k值下的pass@k指标,重新审视了这一假设,以探索不同模型家族和基准测试中模型的推理能力边界。令人惊讶的是,强化学习实际上并未引发根本性的新推理模式。尽管在较小k值(例如k=1)下,经过RL训练的模型优于其基础模型,但在大k值时,基础模型能够达到甚至超过其RL对应模型的pass@k得分。RL训练模型生成的推理路径已包含在基础模型的采样分布中,这表明RL训练模型展现的大多数推理能力已为基础模型所具备。进一步分析显示,RL训练通过偏向于更可能获得奖励的路径来提升性能,从而更高效地采样正确答案。但这也导致了与基础模型相比,推理能力边界更为狭窄。在采用RLVR训练的视觉推理任务中,我们观察到了类似的结果。此外,我们发现蒸馏确实能为模型引入新知识,这与RLVR不同。这些发现凸显了RLVR在推进LLM推理能力方面的一个关键局限,促使我们从根本上重新思考RL训练在推理型LLM中的影响,以及寻求更优范式的必要性。项目页面:https://limit-of-RLVR.github.io
检索增强生成(RAG)技术赋予大型语言模型访问外部及私有语料库的能力,从而在特定领域内提供事实一致的回答。通过利用语料库的固有结构,基于图的RAG方法进一步丰富了这一过程,它们构建知识图谱索引并发挥图的结构特性。然而,当前的基于图的RAG方法在设计图结构方面往往缺乏重视。设计不当的图不仅阻碍了多样图算法的无缝集成,还导致工作流程不一致和性能下降。为了进一步释放图在RAG中的潜力,我们提出了NodeRAG,这是一个以图为核心的框架,引入了异构图结构,使得基于图的方法能够无缝且全面地融入RAG工作流程。该框架紧密贴合大型语言模型的能力,确保了端到端过程的完全一致性和高效性。通过大量实验,我们证明NodeRAG在索引时间、查询时间、存储效率以及多跳基准测试和开放式一对一评估中的问答性能上,均优于包括GraphRAG和LightRAG在内的先前方法,且检索令牌数最少。我们的GitHub仓库可见于https://github.com/Terry-Xu-666/NodeRAG。
数据质量与多样性是构建高效指令微调数据集的关键。随着开源指令微调数据集的日益增多,从海量数据中自动筛选出高质量且多样化的子集显得尤为重要。现有方法通常优先考虑实例质量,并采用启发式规则来维持多样性。然而,这种缺乏对整体数据集全面考量的做法往往导致结果不尽如人意。此外,启发式规则多聚焦于嵌入空间中的距离或聚类,难以精准捕捉语义空间中复杂指令的意图。为弥合这一差距,我们提出了一种统一的方法来量化数据集的信息含量。该方法通过构建标签图来建模语义空间,并基于图中信息分布来量化多样性。基于此度量,我们进一步引入了一种高效采样方法,通过迭代选择数据样本来最大化语义空间中的信息增益(MIG)。在多种数据集和基础模型上的实验表明,MIG方法持续超越现有最先进技术。尤为突出的是,使用MIG方法从Tulu3数据集中采样5%进行微调的模型,其性能与在全数据集上训练的官方SFT模型相当,在AlpacaEval和Wildbench上的提升分别达到+5.73%和+6.89%。
先前的研究表明,大型语言模型存在显著的“英语偏向性”,即在任务以英语呈现时,其表现往往更优。有趣的是,我们观察到在某些推理任务中,使用其他特定语言反而能获得优于英语的表现。然而,这一现象尚未得到充分探索。本文旨在探讨多语言在推理任务中的潜力上限,提出多语言推理相较于仅用英语推理,不仅有望显著提升(约10个Acc@k点),而且展现出更强的鲁棒性(对翻译质量和语言选择的变动具有容忍度)。除了分析这一上限背后的原因及实现过程中面临的挑战外,我们还发现,常见的答案选择方法因其局限性和偏见,无法触及这一上限。这些发现为未来研究如何充分利用多语言推理在大型语言模型中的潜力,指明了方向。
我们探索了从地面和空中视角混合拍摄的图像进行几何重建的任务。当前最先进的基于学习的方法无法处理空中-地面图像对之间极端的视角变化。我们的假设是,缺乏高质量、共同配准的空中-地面数据集用于训练是这一失败的关键原因。这类数据难以精确组装,正是因为它难以以可扩展的方式进行重建。为了克服这一挑战,我们提出了一个可扩展的框架,将来自3D城市级网格(如Google Earth)的伪合成渲染与真实的地面众包图像(如MegaDepth)相结合。伪合成数据模拟了广泛的空中视角,而真实的众包图像则帮助提高了地面图像的视觉保真度,在这些地方基于网格的渲染缺乏足够的细节,从而有效弥合了真实图像与伪合成渲染之间的领域差距。利用这一混合数据集,我们对几种最先进的算法进行了微调,并在真实世界的零样本空中-地面任务中取得了显著改进。例如,我们观察到基线DUSt3R在相机旋转误差5度以内定位的空中-地面对不到5%,而使用我们的数据进行微调后,准确率提升至近56%,解决了处理大视角变化时的一个主要失败点。除了相机估计和场景重建,我们的数据集还在具有挑战性的空中-地面场景中提升了新视角合成等下游任务的性能,展示了我们的方法在实际应用中的实用价值。
设计高效且强大的架构骨干一直是提升基础模型能力的核心研究方向。受人类认知现象——注意力偏差(即自然倾向于优先处理某些事件或刺激)的启发,我们重新构思了包括Transformer、Titans及现代线性循环神经网络在内的神经架构,将其视为通过内部目标(称为注意力偏差)学习键值映射的联想记忆模块。令人惊讶的是,我们发现大多数现有序列模型主要依赖(1)点积相似度或(2)L2回归目标作为其注意力偏差。超越这些目标,我们提出了一系列替代的注意力偏差配置及其有效近似方法,以稳定训练过程。随后,我们将现代深度学习架构中的遗忘机制重新解释为一种保留正则化形式,为序列模型提供了一套新颖的遗忘门。基于这些洞见,我们提出了Miras框架,这是一个基于四项选择设计深度学习架构的通用框架:(i)联想记忆架构,(ii)注意力偏差目标,(iii)保留门,以及(iv)记忆学习算法。我们展示了三种新型序列模型——Moneta、Yaad和Memora,它们在超越现有线性RNN能力的同时,保持了快速并行化的训练过程。实验表明,Miras中的不同设计选择能产生各具优势的模型。例如,某些Miras实例在语言建模、常识推理及记忆密集型任务等特定任务中表现卓越,甚至超越了Transformer及其他现代线性循环模型。
理解大型语言模型(LLMs)的知识边界对于防止幻觉现象至关重要,然而,当前关于LLMs知识边界的研究主要集中于英语。在本研究中,我们首次探讨了LLMs如何通过处理多种语言中已知与未知问题时的内部表征来识别跨语言的知识边界。实证研究揭示了三个关键发现:1)LLMs对知识边界的感知编码于模型的中层至中上层,这一现象在不同语言间具有一致性。2)知识边界感知的语言差异呈现线性结构,这启发我们提出了一种无需训练的校准方法,有效实现了跨语言知识边界感知能力的迁移,从而有助于降低低资源语言中的幻觉风险。3)在双语问题对翻译上进行微调,进一步增强了LLMs跨语言识别知识边界的能力。鉴于缺乏跨语言知识边界分析的标准测试平台,我们构建了一个多语言评估套件,包含三种代表性的知识边界数据类型。我们的代码与数据集已公开于https://github.com/DAMO-NLP-SG/LLM-Multilingual-Knowledge-Boundaries。
第一代大型语言模型——可称为生成式AI的“第一幕”(2020-2023年)——通过海量参数与数据扩展取得了显著成就,但在知识时效性、浅层推理及受限认知过程方面仍存在根本性局限。这一时期,提示工程(Prompt Engineering)成为我们与AI交互的主要界面,实现了基于自然语言的对话级沟通。如今,我们正见证“第二幕”(2024年至今)的兴起,模型正通过测试时扩展技术从(潜在空间中的)知识检索系统向思维构建引擎转型。这一新范式通过基于语言的思维与AI建立了心智层面的连接。本文中,我们明确了认知工程的概念基础,并阐释了为何当前是其发展的关键时期。我们通过全面教程与优化实现系统性地拆解这些先进方法,使认知工程普及化,让每位从业者都能参与到AI的第二幕中。我们在GitHub仓库中持续更新了关于测试时扩展的论文合集:https://github.com/GAIR-NLP/cognition-engineering。
在涉及价值观冲突的高风险困境中做出抉择,即便对人类而言也颇具挑战,更不用说人工智能了。然而,先前评估大型语言模型(LLMs)在此类情境下推理能力的研究,大多局限于日常场景。为填补这一空白,本研究首先引入了CLASH(基于角色视角的高风险情境下LLM评估),这是一个精心构建的数据集,包含345个高影响力困境及3,795个体现多元价值观的个体视角。特别地,我们设计CLASH以支持研究先前工作中缺失的基于价值观的决策过程关键方面,包括理解决策中的矛盾心理与心理不适,以及捕捉角色视角中价值观的时间变化。通过对10个开放与封闭前沿模型的基准测试,我们揭示了几个关键发现:(1)即便是最强大的模型,如GPT-4o和Claude-Sonnet,在识别应存在矛盾心理的决策情境时,准确率不足50%,而在明确情境中表现显著更优。(2)虽然LLMs能合理预测人类标记的心理不适,但在理解涉及价值观转变的视角上表现不足,表明LLMs需提升对复杂价值观的推理能力。(3)实验还发现,LLMs的价值观偏好与其对特定价值观的可引导性之间存在显著相关性。(4)最后,与第一人称设定相比,LLMs在从第三方视角进行价值观推理时展现出更高的可引导性,尽管某些价值观组合在第一人称框架下能获得独特优势。
场景级三维生成是多媒体与计算机图形学领域的关键前沿,然而现有方法要么受限于物体类别,要么缺乏交互应用所需的编辑灵活性。本文提出HiScene,一种新颖的分层框架,它弥合了二维图像生成与三维物体生成之间的鸿沟,能够生成具有组合特性与美学场景内容的高保真场景。我们的核心洞见在于将场景视为等距视图下的分层“物体”,其中房间作为一个复杂物体,可进一步分解为可操控的组件。这种分层方法使我们能够生成与二维表示对齐且保持组合结构的三维内容。为确保每个分解实例的完整性与空间对齐,我们开发了一种基于视频扩散的模态补全技术,有效处理物体间的遮挡与阴影,并引入形状先验注入以确保场景内的空间一致性。实验结果表明,我们的方法能生成更自然的物体布局与完整的物体实例,适用于交互应用,同时保持物理合理性并与用户输入对齐。
全局上下文信息与局部细节特征对于去雾任务至关重要。深度学习模型在小尺寸、低分辨率图像上表现优异,但在处理大尺寸、高分辨率图像时,由于GPU内存限制,常面临困难。作为折中方案,这些模型往往采用图像切片或下采样处理。前者削弱了全局信息,后者则丢失了高频细节。为解决这些挑战,我们提出了DehazeXL,一种有效平衡全局上下文与局部特征提取的去雾方法,使得在大规模图像上实现端到端建模成为可能,且适用于主流GPU硬件。此外,为评估全局上下文利用效率对去雾性能的影响,我们设计了一种针对去雾任务特性的视觉归因方法。最后,鉴于大尺寸图像去雾领域缺乏基准数据集,我们开发了一个超高分辨率去雾数据集(8KDehaze),以支持模型的训练与测试。该数据集包含10000对清晰与雾霾遥感图像,每幅图像尺寸为8192×8192像素。大量实验表明,DehazeXL仅需21GB内存即可推理高达10240×10240像素的图像,在所有评估方法中达到了最先进的性能。源代码与实验数据集已发布于https://github.com/CastleChen339/DehazeXL。
近期,大规模推理模型(LRMs)的进展展示了通过扩展测试时计算来增强多任务推理能力的有效性。然而,LRMs普遍存在“过度思考”问题,即模型生成大量冗余的推理步骤,却仅带来有限的性能提升。现有工作依赖于微调来缓解过度思考,但这需要额外数据、非常规的训练设置,存在安全对齐风险,且泛化能力较差。 通过实证分析,我们揭示了LRM行为的一个重要特征:在思考标记(<think>和</think>)之间插入由较小模型生成的外部推理链(CoTs),能有效引导模型减少思考步骤。基于这些洞察,我们提出了一个简单而高效的流程——ThoughtMani,使LRMs能够绕过不必要的中间步骤,显著降低计算成本。我们进行了广泛的实验以验证ThoughtMani的实用性和效率。例如,在LiveBench/Code数据集上应用于QwQ-32B时,ThoughtMani保持了原有性能,并将输出标记数量减少了约30%,且CoT生成器的开销极小。此外,我们发现ThoughtMani平均提升了10%的安全对齐性。鉴于模型供应商通常同时提供不同规模的模型,ThoughtMani为构建更高效、更易获取的LRMs提供了一种有效途径,适用于实际应用场景。
AI系统在经济中的广泛应用,关键在于其创造的经济价值能否超越推理成本。评估这一权衡需要综合考虑性能与成本的指标。我们提出一个基于生产理论的框架,通过结合准确性和推理成本来评估语言模型。我们引入了“通过成本”这一概念,即生成正确解决方案的预期货币成本。随后,我们将“前沿通过成本”定义为在现有模型或“人类专家”中可实现的最低通过成本,后者基于聘请专家的近似成本。我们的分析揭示了独特的经济洞见。首先,轻量级模型在基础定量任务中成本效益最高,大型模型在知识密集型任务中表现更佳,而推理模型则适用于复杂的定量问题,尽管其每令牌成本较高。其次,追踪过去一年中这一前沿通过成本的变化,显示出显著进步,特别是在复杂定量任务中,成本大约每几个月减半。第三,为了追溯推动这一进步的关键创新,我们考察了反事实前沿:即在不包含特定模型类别情况下的成本效率估计。我们发现,轻量级、大型及推理模型的创新分别对推动基础定量、知识密集型和复杂定量任务的前沿至关重要。最后,我们评估了多数投票和自我精炼等常见推理时技术带来的成本降低,发现其边际准确性提升往往难以抵消其成本。我们的研究结果强调,模型层面的互补性创新是成本效率提升的主要驱动力,而我们的经济框架为衡量这一进展和指导部署提供了原则性工具。
尽管大规模视频语言模型(LVLMs)近期取得了进展,它们仍面临细粒度时序理解的困难,容易产生幻觉,甚至在简单的视频问答任务上也会犯下基础错误,这些都对它们在现实应用中的安全可靠部署构成了重大挑战。为解决这些局限,我们提出了一种自对齐框架,使LVLMs能够从自身错误中学习。该框架首先构建了一个包含偏好与非偏好响应对的训练集,其中非偏好响应通过融入常见错误模式生成,这些错误往往源于时空理解不足、共现概念间的虚假关联,以及过度依赖语言线索而忽视视觉模态等问题。为促进LVLMs与构建的偏好与非偏好响应对之间的自对齐,我们引入了精细化正则化偏好优化(RRPO),这是一种新颖的偏好优化方法,利用子序列级精细化奖励和逐令牌KL正则化,以克服直接偏好优化(DPO)的不足。我们证明,与DPO相比,RRPO实现了更精确的对齐和更稳定的训练。通过实验与分析,我们验证了该方法在多样化视频任务中的有效性,包括视频幻觉、短长视频理解及细粒度时序推理。
在语言模型(LMs)中进行不确定性量化(UQ)对于提升其安全性和可靠性至关重要。评估通常采用如AUROC等性能指标来衡量UQ方法(例如,负序列概率)与任务正确性函数(如ROUGE-L)之间的相关性。本文指出,常用的正确性函数通过夸大某些UQ方法的性能,导致UQ评估存在偏差。我们评估了7种正确性函数——从基于词汇和嵌入的指标到LLM作为评判者的方法——覆盖了4个数据集×4个模型×6种UQ方法。分析表明,这些正确性函数在错误中的长度偏差与UQ方法中的长度偏差相互作用,扭曲了UQ评估。我们发现,LLM作为评判者的方法在长度偏差方面表现最为中立,因此是缓解这些偏差的潜在解决方案。
在低剂量CT中,有效的去噪对于增强细微结构和低对比度病变至关重要,同时能够防止诊断错误。监督学习方法受限于有限的配对数据集,而自监督方法通常需要多张噪声图像,并依赖如U-Net等深度网络,对去噪机制的解释性较弱。为解决这些挑战,我们提出了一种可解释的自监督单图像去噪框架——Filter2Noise(F2N)。我们的方法引入了一种注意力引导的双边滤波器,该滤波器通过一个轻量级模块适应每个噪声输入,该模块预测空间变化的滤波器参数,这些参数可在训练后可视化和调整,以实现用户对特定感兴趣区域的去噪控制。为实现单图像训练,我们提出了一种新颖的下采样混洗策略,并引入了一种新的自监督损失函数,该函数将Noise2Noise的概念扩展到单图像,并解决了空间相关噪声的问题。在Mayo Clinic 2016低剂量CT数据集上,F2N在PSNR指标上领先于当前最佳的自监督单图像方法(ZS-N2N)4.59 dB,同时提升了透明度、用户控制能力和参数效率。这些特性为需要精确且可解释降噪的医疗应用提供了关键优势。我们的代码展示于https://github.com/sypsyp97/Filter2Noise.git。