每日精选AI研究论文及翻译
本研究通过分析大型语言模型(LLMs)对具有国家间对立视角(美国、英国、苏联和中国)的历史事件的解读,评估了其在各国立场上的地缘政治偏见。我们引入了一个包含中立事件描述及不同国家对比观点的新数据集。研究发现,模型存在显著的地缘政治偏见,倾向于特定国家的叙事。此外,简单的去偏见提示在减少这些偏见方面效果有限。通过操纵参与者标签的实验揭示了模型对归属的敏感性,有时会放大偏见或识别出不一致性,特别是在标签交换的情况下。这项工作凸显了LLMs中的国家叙事偏见,挑战了简单去偏见方法的有效性,并为未来的地缘政治偏见研究提供了框架和数据集。
典型的大型视觉语言模型(LVLMs)仅对文本序列应用自回归监督,未能将视觉模态充分融入学习过程。这导致了三个主要局限:(1)无法利用无伴随描述的图像,(2)存在描述遗漏关键视觉细节的风险,以及(3)某些以视觉为中心的内容难以通过文本充分传达。因此,当前的LVLMs往往侧重于视觉与语言的对应,而可能忽视了细粒度的视觉信息。尽管先前有研究探索了自回归图像生成,但如何有效利用自回归视觉监督来增强图像理解仍是一个未解难题。本文提出了自回归语义视觉重建(ASVR),它能够在统一的自回归框架内实现视觉与文本模态的联合学习。我们发现,自回归重建图像的原始视觉外观不仅无法提升,甚至可能损害多模态理解。相反,自回归重建图像的语义表示则能持续提升理解能力。值得注意的是,即使模型以连续图像特征作为输入,它们也能有效重建离散的语义标记,从而在广泛的多模态理解基准上实现稳定且一致的改进。我们的方法在不同数据规模(556k-2M)和各类LLM骨干网络上均带来了显著的性能提升。具体而言,ASVR将LLaVA-1.5在14个多模态基准上的平均得分提高了5%。代码已发布于https://github.com/AlenjandroWang/ASVR。
基于规则的推理已被公认为推理领域的基本问题之一,然而现实应用中规则格式、类型及复杂度的多样性带来了严峻挑战。近期研究表明,大型推理模型(LRMs)展现出卓越的推理能力,其性能通过强化学习(RL)得到了显著提升。然而,小型推理模型(SRMs)能否有效学习基于规则的推理,并在多样任务和领域中实现稳健泛化,仍是一个悬而未决的问题。为此,我们提出了强化规则推理方法,简称RuleReasoner,这是一种通过精心策划的任务集合及新颖的领域感知动态采样策略来执行基于规则推理的简单而有效的方法。具体而言,RuleReasoner通过基于历史奖励更新不同领域的采样权重,对每个训练批次进行重采样。这不仅促进了领域增强,还为RL提供了灵活的在线学习计划,无需依赖现有方法中预先设计的人工混合训练方案。在分布内(ID)和分布外(OOD)基准测试中的实证评估显示,RuleReasoner在八个ID任务上平均领先前沿LRMs 4.1个百分点,在三个OOD任务上平均领先10.4个百分点(相较于OpenAI-o1)。尤为突出的是,与先前的RL动态采样方法相比,我们的方法还展现了更高的计算效率。
从专业电影制作到用户生成内容,创作者和观众早已认识到视频的力量在于我们听到的内容(视频的音频轨道)与所见画面(视频的图像序列)的和谐统一。当前视频生成方法要么忽视声音,专注于通用但无声的图像序列生成;要么同时处理视觉和音频元素,但局限于特定应用领域,如重新配音。我们推出了Mirage,这是一款音频到视频的基础模型,擅长从零开始根据音频输入生成逼真、富有表现力的图像。当与现有的语音合成技术(文本到语音,即TTS)结合时,Mirage能够创造出引人入胜的多模态视频。在针对人物讲话的音频视频素材(A-roll)进行训练,并以包含语音的音频为条件时,Mirage能生成人物根据输入音频隐含的表演进行可信诠释的视频。我们的核心技术贡献在于提出了一种统一的方法,用于训练基于自注意力的音频到视频生成模型,无论是从头开始还是基于现有权重。这一方法论使Mirage在保持音频到视频生成方法通用性的同时,其输出在主观质量上优于那些融合了音频特定架构或针对人物、语音、图像或音频捕捉细节的特定损失组件的方法。我们鼓励读者亲自观看并聆听Mirage的成果(详见论文及评论中的链接)。
扩散模型的进展显著提升了视频质量,将研究焦点引向了细粒度可控性。然而,许多现有方法依赖于针对特定任务微调大规模视频模型,随着模型规模持续增长,这种做法愈发不切实际。本研究中,我们提出了帧引导(Frame Guidance),一种基于帧级信号(如关键帧、风格参考图像、草图或深度图)的无训练可控视频生成引导方法。为实现实用的无训练引导,我们提出了一种简单的潜在处理方法,大幅降低了内存占用,并应用了一种新颖的潜在优化策略,专为全局连贯的视频生成而设计。帧引导能够在无需任何训练的情况下,有效控制包括关键帧引导、风格化及循环播放在内的多样化任务,且兼容所有视频模型。实验结果表明,帧引导能够针对广泛的任务和输入信号生成高质量的受控视频。
构建能够理解三维世界的机器,对于辅助设计师创建和编辑三维环境,以及帮助机器人在三维空间中导航和交互至关重要。受语言和图像建模进展的启发,我们探索了自回归模型在一种新模态——结构化三维场景中的潜力。为此,我们提出了一个统一的LLM框架,该框架对齐了语言、图像和三维场景,并提供了一个详细的“操作手册”,阐述了实现最佳训练和性能的关键设计选择,涵盖了数据表示、模态特定目标等核心问题。我们在四个核心三维任务——渲染、识别、指令跟随和问答——以及四个合成与现实世界三维数据集上评估了性能。通过引入量化形状编码来丰富我们的三维模态,我们进一步扩展了方法以重建复杂的三维物体形状,并在现实世界的三维物体识别任务中展示了模型的有效性。项目网页:https://glab-caltech.github.io/kyvo/
我们提出了一种名为自强制(Self Forcing)的新颖训练范式,专为自回归视频扩散模型设计。该方法旨在解决长期存在的曝光偏差问题,即在推理阶段,原本基于真实上下文训练的模型不得不依赖其自身不完美的输出来生成序列。与以往基于真实上下文帧去噪未来帧的方法不同,自强制通过在训练过程中采用键值(KV)缓存进行自回归展开,使每一帧的生成都依赖于先前自生成的输出。这一策略通过视频层面的整体损失函数实现监督,直接评估整个生成序列的质量,而非仅仅依赖传统的逐帧目标。为确保训练效率,我们采用了几步扩散模型结合随机梯度截断策略,有效平衡了计算成本与性能。此外,我们引入了滚动KV缓存机制,实现了高效的自回归视频外推。大量实验表明,我们的方法在单GPU上实现了亚秒级延迟的实时流视频生成,同时生成质量与显著更慢且非因果的扩散模型相当甚至更优。项目网站:http://self-forcing.github.io/
不等式证明,这一在众多科学与数学领域中至关重要的技能,考验着诸如发现紧致边界和策略性定理应用等高级推理能力。这使其成为大型语言模型(LLMs)面临的一个独特且具挑战性的前沿领域,提供了超越一般数学问题解决的洞见。然而,现有数据集往往稀缺、合成或过于形式化,阻碍了该领域的进展。为此,我们提出了一种非正式但可验证的任务框架,将不等式证明重构为两个可自动检查的子任务:边界估计与关系预测。基于此,我们发布了IneqMath,一个由专家精心策划的奥林匹克级别不等式数据集,包含测试集和训练语料库,并附有逐步解答及定理注释。此外,我们开发了一种新颖的LLM-as-judge评估框架,结合最终答案评判与四个逐步评判机制,旨在检测常见的推理缺陷。对29个领先LLMs在IneqMath上的系统评估揭示了一个令人惊讶的事实:即便如o1这样的顶级模型,在逐步审查下的总体准确率也不足10%;相较于仅考虑最终答案等价性时的准确率,这一下降幅度高达65.5%。这一差异暴露了当前LLMs在构建严谨证明与仅寻找答案之间的脆弱推理链及关键差距。扩大模型规模与增加测试时计算量对整体证明正确性的提升有限。相反,我们的发现强调了如定理引导推理和自我精炼等有前景的研究方向。代码与数据可在https://ineqmath.github.io/获取。
近年来,多模态大语言模型(MLLMs)已被广泛应用于包括图形用户界面(GUI)自动化在内的多模态推理任务中。与一般的离线多模态任务不同,GUI自动化是在在线交互环境中执行的,需要根据环境的实时状态进行逐步决策。该任务对每一步决策错误的容忍度较低,因为任何错误都可能累积性地破坏流程,甚至导致删除或支付等不可逆的后果。为解决这些问题,我们引入了一种术前批评机制,该机制通过推理潜在结果和行动的正确性,在实际执行前提供有效反馈。具体而言,我们提出了一种建议感知梯度相对策略优化(S-GRPO)策略,以构建我们的术前批评模型GUI-Critic-R1,并引入了一种新颖的建议奖励,以增强模型反馈的可靠性。此外,我们开发了一种基于推理引导的数据收集管道,创建了GUI-Critic-Train和GUI-Critic-Test,填补了现有GUI批评数据的空白。在移动和网页领域的GUI-Critic-Test上的静态实验表明,与当前的多模态大语言模型相比,我们的GUI-Critic-R1在批评准确性方面具有显著优势。在GUI自动化基准上的动态评估进一步凸显了我们模型的有效性和优越性,这体现在成功率和操作效率的提升上。
我们提出了Squeeze3D,一种创新框架,它利用现有预训练3D生成模型所学习的隐式先验知识,以极高的压缩比压缩3D数据。该方法通过可训练的映射网络,在预训练编码器与预训练生成模型之间架起潜在空间的桥梁。任何以网格、点云或辐射场形式表示的3D模型,首先由预训练编码器编码,随后被转换(即压缩)为高度紧凑的潜在代码。此潜在代码能有效作为网格或点云的极致压缩表示。映射网络将压缩后的潜在代码转换至强大生成模型的潜在空间,进而通过条件化重构原始3D模型(即解压缩)。Squeeze3D完全在生成的合成数据上训练,无需任何3D数据集。Squeeze3D架构可灵活搭配现有的预训练3D编码器与生成模型,支持包括网格、点云及辐射场在内的多种格式。实验表明,Squeeze3D在保持与众多现有方法相当的视觉质量的同时,实现了纹理网格高达2187倍、点云55倍、辐射场619倍的压缩比。由于无需训练针对特定对象的压缩网络,Squeeze3D仅引入极小的压缩与解压缩延迟。
大型语言模型(LLMs)在开放域问答(ODQA)任务中展现了卓越的性能,这得益于其通过检索增强生成(RAG)机制利用外部文档的能力。为了降低RAG在处理较长上下文时的开销,进行上下文压缩成为必要。然而,现有的压缩方法未能有效过滤非证据性信息,这限制了LLM在基于RAG的应用中的表现。为此,我们提出了证据导向的RAG框架,即ECoRAG。ECoRAG通过依据证据性对检索到的文档进行压缩,确保答案生成得到正确证据的支持,从而提升LLM的性能。作为额外步骤,ECoRAG还会评估压缩后的内容是否提供了足够的证据,若不足,则继续检索直至满足条件。实验表明,ECoRAG在ODQA任务上显著提升了LLM的表现,超越了现有的压缩方法。此外,ECoRAG具有极高的成本效益,不仅减少了延迟,还通过仅保留生成正确答案所需的信息,最小化了token的使用量。代码已发布于https://github.com/ldilab/ECoRAG。
检索增强生成(RAG)是一种广泛采用的方法,旨在为大型语言模型(LLMs)提供相关且最新的信息。然而,检索到的资料往往包含相互矛盾的信息,而模型应如何处理这些分歧仍不明确。在本研究中,我们首先提出了一种新颖的RAG知识冲突类型分类法,并针对每种类型阐述了模型应有的行为准则。随后,我们引入了CONFLICTS,这是一个在真实RAG场景下由专家标注冲突类型的高质量基准。CONFLICTS是首个能够追踪模型在应对多种知识冲突方面进展的基准。我们在此基准上进行了大量实验,结果表明LLMs在处理来源间的冲突时常常力不从心。尽管通过提示LLMs显式地推理检索文档中的潜在冲突,显著提升了其回答的质量与适宜性,但未来研究仍有广阔的改进空间。
图像生成技术的飞速发展,加大了对可解释且鲁棒的检测方法的需求。尽管现有方法通常能达到较高的准确率,但它们往往作为黑箱运行,无法提供人类可理解的解释。多模态大语言模型(MLLMs)虽非专为伪造检测设计,却展现出强大的分析和推理能力。经过适当微调后,它们能有效识别AI生成的图像,并提供有意义的解释。然而,现有的MLLMs仍存在幻觉问题,其视觉理解常与实际图像内容及人类推理不符。为弥合这一差距,我们构建了一个包含边界框和描述性标注的AI生成图像数据集,这些标注突出了合成痕迹,为人类对齐的视觉-文本基础推理奠定了基础。随后,我们通过多阶段优化策略对MLLMs进行微调,逐步平衡准确检测、视觉定位和连贯文本解释的目标。最终模型在检测AI生成图像及定位视觉缺陷方面均表现出色,显著超越了基线方法。
大型语言模型(LLMs)通过数据学习世界知识,以生成有意义的关联与预测。因此,用于训练这些模型或在推理阶段支持其工作的数据集的性质、规模、质量及多样性,直接影响着模型的质量。随着不同质量LLMs的快速开发与广泛应用,高质量公开训练数据的稀缺性愈发凸显,亟需将这些数据的管理建立在具有清晰来源链的可持续实践基础之上。为此,本技术报告介绍了“机构图书1.0”,这是一个庞大的公共领域图书集合,最初通过哈佛图书馆自2006年起参与的谷歌图书项目进行数字化。我们与哈佛图书馆合作,提取、分析并处理这些卷册,构建了一个详尽记录的历史文本数据集。此分析涵盖了哈佛图书馆作为该项目一部分扫描的全部馆藏,最初包括1,075,899卷,涉及超过250种语言,总计约2500亿个词元。作为此次初始发布的一部分,我们公开了983,004卷(即2420亿词元)被认定为公共领域的图书的OCR提取文本(原始及后处理版本)以及元数据(书目、来源及生成信息)。本报告阐述了该项目的目标与方法,以及我们所执行分析的结果,旨在使这一历史收藏更易于访问,便于人类与机器筛选、阅读及使用。
当前测试时扩展的范式依赖于在生成响应前产生长推理轨迹(即“更多思考”)。在需要交互的智能体问题中,这可以通过在行动前生成思考轨迹来实现。然而,这一过程不允许智能体从环境中获取新信息或随时间调整其行为。在本研究中,我们提出扩展测试时交互,这是一个尚未开发的测试时扩展维度,它通过延长智能体的交互视野,使其能够在单次运行中执行丰富的行为,如探索、回溯和动态重规划。为展示这一扩展维度的潜力,我们以网页智能体领域为例进行探讨。首先,我们证明即使仅基于提示的交互扩展,无需任何训练,也能在网页基准测试上显著提升任务成功率。在此基础上,我们引入了TTI(测试时交互),一种基于课程学习的在线强化学习(RL)方法,通过自适应调整智能体的运行长度来训练它们。利用Gemma 3 12B模型,TTI在WebVoyager和WebArena基准测试上打造了当前最先进的开源、开放数据网页智能体。我们进一步展示了TTI如何使智能体自适应地平衡探索与利用。我们的研究结果确立了交互扩展作为与每步计算扩展相辅相成的强大新维度,为训练自适应智能体开辟了新途径。
图像-文本预训练模型CLIP在视频-文本检索中的参数高效适配是一个重要的研究领域。尽管CLIP专注于图像层面的视觉-语言匹配,但视频-文本检索则要求在视频层面具备全面的理解能力。从图像层面迁移至视频层面时,存在三个关键差异:视觉、语言和对齐。然而,现有方法主要关注视觉方面,而忽视了语言和对齐。本文提出了一种在视觉、语言和对齐三方面同时减少差异的方法——DiscoVLA。具体而言,我们引入了图像-视频特征融合技术,有效整合图像级与视频级特征,从而解决视觉与语言上的差异。此外,通过生成伪图像描述来学习细粒度的图像级对齐。为了缓解对齐差异,我们提出了图像到视频对齐蒸馏方法,利用图像级对齐知识来增强视频级对齐。大量实验证明了DiscoVLA的优越性。特别是在使用CLIP(ViT-B/16)的MSRVTT数据集上,DiscoVLA在R@1指标上超越了先前方法1.5%,最终达到了50.5%的R@1得分。代码已公开于https://github.com/LunarShen/DsicoVLA。
近期研究将低秩适应(LoRA)与专家混合(MoE)相结合,进一步提升了大语言模型(LLM)应用中参数高效微调(PEFT)方法的性能。现有方法采用同质化的MoE-LoRA架构,其专家模块具有相似或相同的结构与容量。然而,这些方法常面临表示坍塌与专家负载不均的问题,制约了LLM的潜力发挥。针对这些挑战,我们提出了一种异构适配器混合(MoA)方法。该方法动态整合具有多样结构的PEFT适配器专家,利用其互补的表示能力促进专家专业化,从而增强预训练知识向下游任务的有效迁移。MoA支持两种变体:(i)软MoA通过对所有专家输出进行加权融合实现细粒度整合;(ii)稀疏MoA根据贡献度稀疏激活适配器专家,在几乎不损失性能的前提下达成目标。实验结果表明,异构MoA在性能与参数效率上均优于同质化MoE-LoRA方法。我们的项目已发布于https://github.com/DCDmllm/MoA。
近期大型语言模型的进展在形式推理领域展现出巨大潜力。然而,大多数基于LLM的定理证明器长期受限于需要专家编写的正式陈述作为输入,限制了其在自然语言表达的现实问题中的应用。我们通过Mathesis填补了这一空白,这是首个处理非正式问题陈述的端到端定理证明流程。它贡献了Mathesis-Autoformalizer,这是首个利用强化学习增强自然语言问题形式化能力的自动形式化器,并辅以我们新颖的LeanScorer框架进行细致的形式化质量评估。同时,Mathesis还提出了Mathesis-Prover,用于从形式化陈述生成正式证明。为了评估端到端形式定理证明在现实世界中的适用性,我们引入了Gaokao-Formal,这是一个包含488道中国高考复杂题目的基准测试集。我们的方法经过精心设计,对每个组件进行了深入研究。实验证明了Mathesis的有效性,其自动形式化器在Gaokao-Formal上的通过率比最佳基线高出22%。完整系统超越了其他模型组合,在MiniF2F上以pass@32达到64%的准确率,并在Gaokao-Formal上取得了18%的顶尖水平。
近期大型语言模型(LLMs)的进展为金融应用带来了巨大潜力,但也为数字监管报告(DRR)引入了关键的准确性和合规性挑战。为解决这些问题,我们提出了RKEFino1,这是一个基于Fino1构建的、通过XBRL、CDM和MOF领域知识微调的法规知识增强型金融推理模型。我们设计了两类问答任务——基于知识的推理和数学推理——并引入了一个新颖的数值命名实体识别(NER)任务,涵盖句子和表格中的金融实体。实验结果表明,RKEFino1在合规性要求严格的金融任务中展现出有效性和泛化能力。我们已在Hugging Face平台上发布了该模型。
本文介绍了MMRefine,一个多模态精炼基准,旨在评估多模态大语言模型(MLLMs)的错误修正能力。随着研究重点转向推理过程中的性能提升,MMRefine提供了一个框架,不仅限于比较精炼前后的最终准确率,还评估MLLMs在六种不同场景下检测和纠正错误的能力。此外,该基准通过将错误划分为六种类型来分析精炼性能。通过对多种开源和闭源MLLMs的实验,揭示了阻碍精炼性能的瓶颈和因素,为有效推理增强指明了改进方向。我们的代码和数据集已公开于https://github.com/naver-ai/MMRefine。
基于评论的产品问答系统(PQA)使电商平台能够通过挖掘用户评论中的洞见,自动解答顾客疑问。然而,现有的PQA系统仅能生成单一视角的答案,未能充分反映顾客意见的多样性。本文提出了一项新任务——定量查询聚焦摘要(QQSUM),旨在将多样化的顾客观点提炼为代表性关键点(KPs),并量化其普遍性,从而有效回应用户查询。尽管检索增强生成(RAG)在PQA中展现出潜力,但其生成的答案仍难以全面捕捉观点的多样性。为应对这一挑战,我们的模型QQSUM-RAG在RAG基础上进行了扩展,采用少样本学习联合训练一个面向KP的检索器和一个KP摘要生成器,实现了基于KP的摘要,能够捕捉多样且具代表性的意见。实验结果表明,QQSUM-RAG在文本质量和意见量化准确性方面均优于当前最先进的RAG基线模型。我们的源代码已公开于:https://github.com/antangrocket1312/QQSUMM。