每日精选AI研究论文及翻译
由LLMs生成的推理步骤可能是不完整的,因为它们模仿了在预训练数据中常见的逻辑跳跃,这些逻辑跳跃在日常交流中很常见:基本原理经常被留下隐含(未声明)。为了解决这一挑战,我们引入了RATIONALYST,这是一个基于预训练的模型,用于对基于从未标记数据中提取的大量基本原理注释进行过程监督推理。我们从网络规模的未标记数据集(Pile)和一些推理数据集的组合中提取了79k个基本原理,几乎没有人为干预。这种用于推理的网络规模预训练使RATIONALYST能够在各种推理任务中保持一致的泛化能力,包括数学、常识、科学和逻辑推理。从LLaMa-3-8B进行微调,RATIONALYST在7个代表性推理基准测试中将推理准确性平均提高了3.9%。与GPT-4等规模显著更大的验证器相比,它还表现出更优越的性能,这些验证器是在匹配的训练集上进行微调的类似大小的模型。
各种视觉基础模型具有明显的优势和劣势,这两者都可以通过异构多教师无标签知识蒸馏来改进,称为“聚合模型”。我们在这一研究基础上,研究了教师激活统计数据的影响,特别是损失函数对最终学生模型质量的影响。我们探讨了一套标准的统计规范化技术,以更好地调整不同分布并评估其影响。此外,我们研究了对下游教师匹配度量的影响,这促使我们使用哈达玛矩阵。通过这些矩阵,我们展示了它们的有用特性,展示了它们如何用于各向同性标准化,其中多变量分布的每个维度都使用相同的尺度进行标准化。我们将这一技术称为“PHI标准化”(PHI-S),并在实证中证明它在所研究方法组中产生了最佳的学生模型。
尽管大型语言模型在代码生成方面取得了重大进展,但生成代码的通过率常常受制于微妙的错误,通常需要人工干预才能通过测试,尤其是对于复杂问题。现有基于LLM的调试系统将生成的程序视为单一单元,未能解决多个粒度级别的错误,从低级语法错误到高级算法缺陷。本文介绍了多粒度调试器(MGDebugger),这是一种分层代码调试器,通过在不同粒度级别上隔离、识别和解决错误。MGDebugger将有问题的代码分解为子函数的分层树结构,每个级别代表特定粒度的错误。在调试过程中,它分析每个子函数并以自下而上的方式迭代解决错误。为了有效测试每个子函数,我们提出了一个LLM模拟的Python执行器,它跟踪代码执行并记录重要变量状态,以准确定位错误。大量实验证明,MGDebugger优于现有的调试系统,在HumanEval中的种子生成准确性方面提高了18.9%,在HumanEvalFix中的修复成功率达到了97.6%。此外,MGDebugger有效修复了不同类别和难度级别的错误,展示了其稳健性和有效性。
神经辐射场(NeRF)被广泛用于新视角合成,并已被应用于三维物体检测(3DOD),为通过视图合成表示实现3DOD提供了一种有前途的方法。然而,NeRF面临固有限制:(i)由于其隐式性质,对于3DOD的表示能力有限,(ii)渲染速度较慢。最近,三维高斯斑点(3DGS)作为一种明确的三维表示出现,解决了这些限制。受到这些优势的启发,本文首次将3DGS引入3DOD,确定了两个主要挑战:(i)高斯斑点的模糊空间分布:3DGS主要依赖于2D像素级监督,导致高斯斑点的三维空间分布不清晰,对象与背景之间的区分不明显,这妨碍了3DOD;(ii)过多的背景斑点:2D图像通常包含大量背景像素,导致密集重建的3DGS具有许多代表背景的噪声高斯斑点,对检测产生负面影响。为了解决挑战(i),我们利用3DGS重建源自2D图像的事实,提出了一种优雅而高效的解决方案,即通过引入2D边界引导显著增强高斯斑点的空间分布,使对象与其背景之间的区分更加清晰。为了应对挑战(ii),我们提出了一种使用2D框的盒子聚焦采样策略,在3D空间中生成对象概率分布,允许在3D中进行有效的概率采样,保留更多对象斑点并减少嘈杂的背景斑点。受益于我们的设计,我们的3DGS-DET明显优于SOTA NeRF-based方法NeRF-Det,在ScanNet数据集上[email protected]提高了+6.6,[email protected]提高了+8.1,在ARKITScenes数据集上[email protected]提高了惊人的+31.5。
我们研究了LLM在小学数学问题解决能力的深度。为此,我们评估它们在现有数学文字问题对上的表现,使得第二个问题的答案取决于正确回答第一个问题。我们的研究发现大多数LLM存在显著的推理差距,即在解决组合问题和独立解决每个问题之间的表现差异。这种差距在规模较小、成本更高效和专注于数学的模型中更为明显。此外,在LLM的不同规模上,指导调整配方和代码生成的效果各异,而在小学数学上的微调可能导致任务过拟合。我们的分析表明,大的推理差距并非由于测试集泄漏,而是由于额外上下文的干扰和第二跳推理能力不佳。总体而言,LLM在推理能力上表现出系统性差异,尽管它们在标准基准测试中的表现可能不同。
文本丰富的图像在现实世界的应用中很常见,其中文本作为主要的视觉元素引导整体理解。这种图像在演示幻灯片、扫描文档和网页快照等场景中广泛存在。涉及多个文本丰富图像的任务尤其具有挑战性,因为它们不仅需要理解单个图像的内容,还需要推理跨多个视觉输入的相互关系和逻辑流。尽管这些场景非常重要,但目前的多模态大型语言模型(MLLMs)在处理此类任务时存在两个关键挑战:(1)缺乏针对文本丰富多图像场景的高质量指导调整数据集,以及(2)在图像分辨率和视觉特征序列长度之间难以平衡。为了解决这些挑战,我们提出了\OurMethod,这是一个专门设计用于处理涉及多个文本丰富图像的视觉-语言任务的MLLM。首先,我们精心策划了约一百万条高质量的多模态指导调整数据,专门针对文本丰富、多图像场景。其次,我们开发了一个自适应的高分辨率多图像编码模块,根据输入图像的原始长宽比和分辨率动态优化视觉序列长度的分配。在广泛的基准测试中,实验证明我们的模型在文本丰富、多图像评估方面具有卓越的能力,并在一般领域评估中表现出竞争力。
奖励模型对于使模型遵循指令至关重要,通常根据两种流行范式之一进行训练:Bradley-Terry风格或回归风格。然而,缺乏证据表明其中一种方法优于另一种,当数据得到充分匹配时。这主要是因为这些方法需要以不同(但不兼容)格式收集的数据,这意味着在现有公共数据集中无法获得充分匹配的数据。为了解决这个问题,我们在HelpSteer2数据集中发布了偏好注释(专为Bradley-Terry训练而设计),以补充现有评分(专为回归风格训练而设计)。为了提高数据的可解释性,偏好注释附带有人类撰写的理由。利用这些数据,我们进行了首次对Bradley-Terry和回归模型进行充分匹配数据的正面比较。基于从这种比较中得出的见解,我们提出了一种结合Bradley-Terry和回归奖励建模的新方法。使用这种方法调整的Llama-3.1-70B-Instruct模型在RewardBench上得分为94.1,在2024年10月1日时超过140个奖励模型中名列前茅。我们还展示了这种奖励模型在RLHF中使模型遵循指令的有效性。我们在https://huggingface.co/datasets/nvidia/HelpSteer2开源了这个数据集(CC-BY-4.0许可),并公开发布了经过训练的奖励模型,网址为https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Reward。
我们通过对学习的 A 和 B 矩阵的不对称性分析,研究了联邦学习中的 LoRA。在这个过程中,我们发现 A 矩阵负责学习通用知识,而 B 矩阵则专注于捕捉特定客户的知识。基于这一发现,我们引入了联邦共享低秩适应(FedSA-LoRA),该方法利用两个低秩可训练的矩阵 A 和 B 来建模权重更新,但只有 A 矩阵与服务器共享以进行聚合。此外,我们深入探讨了在其他 LoRA 变体(如 rsLoRA 和 VeRA)中学习的 A 和 B 矩阵之间的关系,揭示了一致的模式。因此,我们将我们的 FedSA-LoRA 方法扩展到这些 LoRA 变体,得到了 FedSA-rsLoRA 和 FedSA-VeRA。通过这种方式,我们建立了一个将 LoRA 与联邦学习相结合的通用范式,为未来关于结合联邦学习的后续 LoRA 变体的工作提供指导。在自然语言理解和生成任务上的大量实验结果表明了所提方法的有效性。
文本到图像生成的实际应用已经从简单的单块模型发展到结合多个专门组件的复杂工作流程。虽然基于工作流程的方法可以提高图像质量,但制定有效的工作流程需要相当的专业知识,因为可用组件众多,它们之间存在复杂的相互依赖关系,并且它们依赖于生成提示。在这里,我们介绍了一项新颖的任务,即提示自适应工作流生成,其目标是自动为每个用户提示量身定制工作流程。我们提出了两种基于LLM的方法来解决这一任务:一种是基于调整的方法,从用户偏好数据中学习,另一种是无需训练的方法,利用LLM选择现有的流程。与单块模型或通用的与提示无关的工作流程相比,这两种方法都可以提高图像质量。我们的工作表明,依赖于提示的流预测为改善文本到图像生成质量提供了一条新途径,这与该领域中现有的研究方向相辅相成。
机器翻译(MT)评估中的神经度量标准因其与人类判断的优越相关性而日益突出,相较于传统的词汇度量标准。研究人员因此通过质量感知解码策略利用神经度量标准,取得比基于可能性的方法更好的结果。随着大型语言模型(LLMs)的兴起,基于偏好的对齐技术因其通过直接优化质量估计器诱导的偏好来优化模型权重而备受关注,从而提高翻译质量。本研究聚焦于对比偏好优化(CPO),并进行了大量实验来评估基于偏好的对齐对翻译质量的影响。我们的发现表明,虽然在高质量数据上,CPO在对齐度量方面始终优于监督微调(SFT),但可能导致在下游评估度量之间,特别是神经和词汇度量之间的不稳定性。此外,我们证明仅依赖基础模型生成候选翻译的性能可与使用多个外部系统相媲美,同时确保在下游度量方面更好的一致性。
随着基础模型(FMs)的兴起,以及针对其风险和影响的监管努力,开源模型引起了极大的兴趣。然而,现有的语音基础模型(SFMs)尽管声称符合开源原则,却未能完全符合,因为没有任何现有的SFMs在开源条款下公开提供模型权重、代码和训练数据。在这项工作中,我们首次着手填补这一空白,重点关注欧盟(EU)的24种官方语言。我们通过调查自动语音识别数据集和符合开源条款的未标记语音语料库,共计收集了950k小时的合适训练数据。此外,我们以宽松的CC-BY许可证发布了441k小时未标记数据的自动转录,从而促进了为欧盟语言创建开源SFMs的工作。
尽管大型语言模型(LLMs)展现出在理解复杂查询和执行复杂任务方面的卓越能力,但它们的泛化能力往往与记忆紧密交织,需要更精确的评估。为了解决这一挑战,我们引入了Scylla,一个动态评估框架,定量衡量LLMs的泛化能力。Scylla通过对模型在分布内(ID)和分布外(OOD)数据上的表现进行评估,涵盖了20个任务,跨越5个复杂级别,从而将泛化与记忆分离开来。通过大量实验,我们揭示了任务复杂性与ID和OOD数据之间性能差距之间的非单调关系,我们称之为泛化谷。具体而言,这一现象揭示了一个关键阈值 - 称为关键复杂性 - 在这一阈值上,非泛化行为的依赖达到峰值,表明了LLMs泛化能力的上限。随着模型规模的增加,关键复杂性向更高级别的任务复杂性转移,这表明更大的模型可以在过度依赖记忆之前处理更复杂的推理任务。利用Scylla和关键复杂性的概念,我们对28个LLMs进行基准测试,包括开源模型如LLaMA和Qwen家族,以及闭源模型如Claude和GPT,提供更强大的评估,并建立对LLMs泛化能力的更清晰理解。
对建模人类偏好至关重要,以使基础模型与人类价值观保持一致。传统的奖励建模方法,如Bradley-Terry(BT)奖励模型,在表达能力方面存在不足,特别是在处理不传递偏好方面。尽管受监督的成对偏好模型(PairPM)可以表达一般偏好,但它们的实现非常临时,并且无法保证比较对的一致偏好概率。此外,由于在比较多个响应时具有二次查询复杂度,它们会导致高计算成本。在本文中,我们引入了偏好表示学习,一种将响应嵌入潜在空间以高效捕获复杂偏好结构的方法,实现了线性查询复杂度。此外,我们提出了基于偏好分数的通用偏好优化(GPO),它从人类反馈中推广了基于奖励的强化学习。实验结果表明,我们的通用偏好表示模型(GPM)在RewardBench基准测试中比BT奖励模型表现优异,差距高达5.6%,并且有效地建模了循环偏好,其中任何BT奖励模型都表现得像随机猜测一样。此外,通过对AlpacaEval2.0和MT-Bench等下游任务进行评估,使用GPO和我们的通用偏好模型进行语言模型后训练后,显示出高达9.3%的性能改进。这些发现表明,我们的方法可能增强基础模型与微妙人类价值观的一致性。代码可在https://github.com/general-preference/general-preference-model找到。
大型语言模型展示了作为下一代信息访问引擎的重要潜力。然而,它们的可靠性受到幻觉和生成非事实内容的问题的影响。这在长篇回复中尤为棘手,因为评估和确保事实准确性是复杂的。本文通过提出FactAlign来填补这一空白,这是一个旨在增强LLM长篇回复事实性的新型对齐框架,同时保持其实用性。我们引入fKTO,这是一个细粒度、句子级对齐算法,扩展了Kahneman-Tversky Optimization(KTO)对齐方法。FactAlign利用最近自动事实评估的进展,利用细粒度事实评估来指导对齐过程。我们在开放域提示和信息检索问题上的实验表明,FactAlign显著提高了LLM回复的事实准确性,同时也提高了其实用性。进一步的分析表明,FactAlign能够训练LLM提供更多信息,而不失去事实精度,从而提高事实F1分数。我们的源代码、数据集和训练模型可在https://github.com/MiuLab/FactAlign 上公开获取。
我们提出了精确体积椭球渲染(EVER),这是一种用于实时可微的仅发射体积渲染的方法。与最近基于光栅化的3D高斯飞溅(3DGS)方法不同,我们基于基元的表示允许进行精确的体积渲染,而不是对3D高斯广告牌进行alpha合成。因此,与3DGS不同,我们的公式不会出现跳动伪影和视角相关密度问题,但仍然能够在NVIDIA RTX4090上以720p分辨率实现约30 FPS的帧率。由于我们的方法基于光线追踪,因此可以实现诸如焦外模糊和相机失真(例如来自鱼眼相机)等效果,这些效果在光栅化中难以实现。我们展示了我们的方法比3DGS更准确,融合问题更少,并且在视角一致渲染的后续工作中,特别是在Zip-NeRF数据集中具有挑战性的大规模场景中,我们的方法实现了实时技术中最清晰的结果。
尽管最近文本转语音(TTS)技术的进步实现了自然和富有表现力的语音,但缺乏用户选择情感和控制强度的选项。我们提出了EmoKnob,这是一个框架,允许在语音合成中对情感进行精细控制,只需少量演示任意情感的样本。我们的框架利用了最近基于基础语音克隆模型的表达性说话者表示空间。基于我们情感控制框架的少样本能力,我们提出了两种方法来在开放式文本描述的情感上应用情感控制,实现对多样微妙情感的直观界面控制。为促进更系统的情感语音合成领域,我们引入了一组旨在严格评估情感控制框架忠实度和可识别性的评估指标。通过客观和主观评估,我们展示了我们的情感控制框架有效地将情感嵌入语音,并超越了商业TTS服务的情感表达能力。
最近在视频大型语言模型(Video-LLMs)方面取得的进展展示了它们在通用视频理解方面的巨大潜力。为验证这些模型的重要性,已提出了许多基准来诊断它们在不同场景中的能力。然而,现有的基准仅通过视频级别问答来评估模型,缺乏细粒度的事件级别评估和任务多样性。为填补这一空白,我们引入了E.T. Bench(事件级别和时间敏感视频理解基准),这是一个大规模且高质量的基准,用于开放式事件级别视频理解。E.T. Bench分为3级任务分类,包括12个任务下的7.3K个样本,涵盖了8个领域的7K个视频(总长度251.4小时),提供了全面的评估。我们在我们的基准上对8个图像-LLMs和12个视频-LLMs进行了广泛评估,结果显示,针对粗略级别(视频级别)理解的最先进模型难以解决我们的细粒度任务,例如,在视频中定位感兴趣的事件,这在很大程度上是由于视频上下文长度短,时间表示不当以及缺乏多事件训练数据所致。针对这些问题,我们进一步提出了一个强大的基线模型,E.T. Chat,以及一个专为细粒度事件级别理解定制的指导调整数据集E.T. Instruct 164K。我们的简单而有效的解决方案在多种场景中展现出卓越的性能。
大型语言模型在创造性生成方面表现出色,但仍然在幻觉和偏见问题上面临挑战。检索增强生成(RAG)提供了一个框架,用于将大型语言模型的回应基于准确和最新的信息,但仍然引发了偏见问题:应选择哪些来源包含在上下文中?它们的重要性如何加权?本文研究了跨语言RAG的挑战,并提出了一个数据集,用于研究现有系统在回答有关地缘政治争端的查询时的鲁棒性,这些争端存在于语言、文化和政治边界的交汇处。我们的数据集来自包含与给定查询相关信息的维基百科页面,我们调查了包含额外上下文的影响,以及这种上下文在语言和来源方面的构成对大型语言模型回应的影响。我们的结果显示,现有的RAG系统在跨语言使用情况下仍然面临挑战,并且在提供多种语言的竞争信息时缺乏一致性。我们提供案例研究以阐明这些问题,并概述未来研究应采取的步骤来解决这些挑战。我们在https://github.com/manestay/bordIRlines上公开提供我们的数据集和代码。
视觉语言模型(VLMs)对于上下文理解视觉和文本信息至关重要。然而,它们对恶意操纵输入的脆弱性存在重大风险,导致输出受损,并引发对VLM集成应用可靠性的担忧。因此,检测这些恶意提示对于维护对VLM生成的信任至关重要。在开发安全提示分类器时面临的主要挑战是缺乏大量标记的良性和恶意数据。为解决这一问题,我们引入了VLMGuard,这是一种新颖的学习框架,利用野外未标记的用户提示进行恶意提示检测。这些未标记的提示在VLM在开放世界中部署时自然产生,包含良性和恶意信息。为了利用这些未标记数据,我们提出了一种自动恶意估计分数,用于区分这些未标记混合中的良性和恶意样本,从而实现在其上训练二元提示分类器。值得注意的是,我们的框架不需要额外的人工注释,为实际应用提供了强大的灵活性和实用性。广泛的实验表明,VLMGuard实现了卓越的检测结果,明显优于最先进的方法。免责声明:本文可能包含冒犯性示例;请谨慎阅读。
扩散变压器(DiTs)因在生成任务中具有出色的可扩展性和非凡的性能而备受关注。然而,其相当大的推理成本阻碍了实际部署。特征缓存机制涉及在时间步之间存储和检索冗余计算,有望降低扩散模型中每步推理时间。大多数现有的DiT缓存方法是手动设计的。尽管基于学习的方法试图自适应地优化策略,但由于训练和推理之间存在差异,导致性能和加速比均受到影响。经过详细分析,我们确定这些差异主要源自两个方面:(1)先前时间步忽略,即训练忽略了先前时间步中缓存使用的影响,以及(2)目标不匹配,即训练目标(使每个时间步中的预测噪声对齐)偏离了推理目标(生成高质量图像)。为了缓解这些差异,我们提出了HarmoniCa,这是一种新颖的方法,它通过基于步骤逐渐去噪训练(SDT)和图像误差代理引导目标(IEPO)构建了一种新颖的基于学习的缓存框架,从而协调训练和推理。与传统训练范式相比,新提出的SDT保持了去噪过程的连续性,使模型能够在训练期间利用先前时间步的信息,类似于推理期间的操作方式。此外,我们设计了IEPO,它集成了一个高效的代理机制,以近似重复使用缓存特征引起的最终图像误差。因此,IEPO有助于平衡最终图像质量和缓存利用,解决了仅考虑训练中每个时间步中缓存使用对预测输出的影响的问题。
在努力使自主机器人采取行动的过程中,任务规划是一个重要挑战,需要将高级任务描述转化为长期行动序列。尽管语言模型代理取得了一些进展,但它们仍然容易出现规划错误,并且在规划能力方面存在局限性。为了解决机器人规划中的这些限制,我们提倡一种自我完善的方案,该方案通过迭代地完善草案计划直至达到平衡。值得注意的是,这一过程可以从分析角度进行端到端的优化,无需策划额外的验证器或奖励模型,使我们能够以简单的监督学习方式训练自我完善的规划器。同时,我们设计了一种嵌套平衡序列建模程序,用于高效的闭环规划,该程序整合了来自环境(或内部世界模型)的有用反馈。我们的方法在VirtualHome-Env基准测试中进行了评估,展现出更好的推理计算扩展性。代码可在https://github.com/Singularity0104/equilibrium-planner找到。
深度学习优化器通常是通过凸和近似二阶理论相结合的动机驱动的。我们选择了三种这样的方法——Adam、Shampoo和Prodigy——并认为每种方法实际上可以被理解为一个无需凸性假设的一阶方法。事实上,在关闭指数移动平均值后,每种方法等同于在特定范数下的最速下降。通过概括这一观察结果,我们为训练算法开辟了一个新的设计空间。应根据张量在网络中的作用为不同的张量分配不同的算子范数。例如,虽然线性层和嵌入层可能具有相同的权重空间R^{m×n},但这些层扮演着不同的角色,应分配不同的范数。我们希望这种精心度量神经架构的想法可能会导致更稳定、可扩展,甚至更快的训练。
在资源受限的环境中,如移动设备,处理长输入上下文对大型语言模型(LLMs)仍然是一个重要挑战。我们的工作旨在通过引入InfiniPot来解决这一限制,这是一个新颖的KV缓存控制框架,旨在使预训练的LLMs能够在固定内存约束下高效地管理广泛的序列,而无需额外的训练。InfiniPot利用连续上下文蒸馏(CCD),这是一个压缩和保留关键信息的迭代过程,通过新颖的重要性度量,有效地保持关键数据,即使没有未来上下文的访问也能实现。我们的全面评估表明,InfiniPot在各种自然语言处理任务中明显优于针对长上下文训练的模型,证实了其有效性和多功能性。这项工作代表了使LLMs适用于更广泛实际场景的重大进展。
在移动声源条件下系统评估语音分离和增强模型通常需要包含各种场景的大量数据。然而,真实世界的数据集通常包含的数据不足以满足模型的训练和评估需求。尽管合成数据集提供了更多的数据量,但它们的声学模拟缺乏真实感。因此,无论是真实世界还是合成数据集都无法有效满足实际需求。为了解决这些问题,我们介绍了SonicSim,这是一个合成工具包,旨在为移动声源生成高度可定制的数据。SonicSim基于具有多级调整功能的体验式人工智能模拟平台Habitat-sim开发,包括场景级、麦克风级和声源级,从而生成更多样化的合成数据。利用SonicSim,我们构建了一个移动声源基准数据集SonicSet,使用了Librispeech、Freesound数据集50k(FSD50K)和Free Music Archive(FMA),以及来自Matterport3D的90个场景,用于评估语音分离和增强模型。此外,为了验证合成数据和真实世界数据之间的差异,我们从SonicSet验证集中随机选择了5小时无混响的原始数据,录制了一个真实世界的语音分离数据集,然后与相应的合成数据集进行比较。类似地,我们利用真实世界的语音增强数据集RealMAN验证了其他合成数据集与SonicSet数据集之间的声学差距。结果表明,SonicSim生成的合成数据能够有效地推广到真实世界场景。演示和代码可在https://cslikai.cn/SonicSim/公开获取。