每日精选AI研究论文及翻译
近年来,在大型生成模型和多模态学习技术进步的推动下,旨在同时捕捉空间几何与时间动态的四维世界建模领域取得了显著进展。然而,真正通用的四维世界模型的发展从根本上受到高质量数据可用性的限制。现有数据集和基准测试往往缺乏支持关键任务所需的动态复杂性、多领域多样性以及时空标注,这些任务包括四维几何重建、未来预测和相机控制视频生成等。为填补这一空白,我们推出了OmniWorld,这是一个专为四维世界建模设计的大规模、多领域、多模态数据集。OmniWorld包含新收集的OmniWorld-Game数据集及多个精选的跨领域公共数据集。与现有合成数据集相比,OmniWorld-Game提供了更丰富的模态覆盖、更大的规模以及更真实的动态交互。基于此数据集,我们建立了一个具有挑战性的基准测试,揭示了当前最先进(SOTA)方法在建模复杂四维环境中的局限性。此外,在OmniWorld上微调现有的SOTA方法,在四维重建和视频生成任务上均带来了显著的性能提升,有力验证了OmniWorld作为训练和评估的强大资源的价值。我们预见OmniWorld将成为加速通用四维世界模型开发的催化剂,最终推动机器对物理世界的整体理解向前迈进。
图形用户界面(GUI)代理在通过强化学习自动化复杂用户界面交互方面取得了显著进展。然而,当前方法面临一个根本性困境:离线强化学习(RL)能够在预收集的轨迹上进行稳定训练,但由于缺乏轨迹级奖励信号,难以执行多步任务;在线RL通过环境交互捕捉这些信号,却受限于稀疏奖励和高昂的部署成本。为解决这一问题,我们提出了半在线强化学习(Semi-online Reinforcement Learning),这一新范式在离线轨迹上模拟在线RL。在每次rollout过程中,我们在多轮对话中保留原始模型输出,其中补丁模块自适应地恢复rollout与专家轨迹之间的偏差。为捕捉长期训练信号,半在线RL将折扣未来回报引入奖励计算,并通过加权步级和回合级优势优化策略。我们进一步引入半在线性能(SOP)指标,该指标与真实在线性能更契合,作为现实世界评估的实用且有效的代理。实验表明,我们的半在线RL在四个动态基准测试中,在7B模型间实现了SOTA性能,相较于基础模型有显著提升(例如,在AndroidWorld上+12.0%,在AITW上+23.8%),在缩小离线训练效率与在线多轮推理之间的差距方面取得了重大进展。代码已发布于https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1。
具身智能(Embodied AI)的发展在很大程度上依赖于大规模、可模拟的3D场景数据集,这些数据集以场景多样性和逼真布局为特征。然而,现有数据集普遍存在数据规模或多样性不足、布局过于简化缺乏小物件以及严重的物体碰撞等问题。为解决这些缺陷,我们推出了InternScenes,一个新颖的大规模可模拟室内场景数据集,通过整合三种不同的场景来源——真实世界扫描、程序生成场景和设计师创作场景,包含约40,000个多样化场景,涵盖1.96M个3D物体,覆盖15种常见场景类型和288个物体类别。我们特别保留了场景中大量的小物件,使得布局既真实又复杂,平均每个区域包含41.5个物体。我们全面的数据处理流程通过为真实世界扫描创建虚实复制品来确保可模拟性,通过在这些场景中加入可交互物体来增强交互性,并通过物理模拟解决物体碰撞问题。我们通过两个基准应用展示了InternScenes的价值:场景布局生成和点目标导航。两者均揭示了复杂且逼真的布局所带来的新挑战。更重要的是,InternScenes为这两项任务的模型训练规模化铺平了道路,使得在如此复杂的场景中进行生成和导航成为可能。我们承诺开源数据、模型和基准测试,以惠及整个社区。
视觉-语言模型(VLMs)通常通过预训练的视觉编码器处理视觉输入,随后通过连接器组件将其投影到语言模型的嵌入空间中。尽管这一投影步骤对于模态融合至关重要,但其可能引起的信息损失及其对模型能力的直接影响尚未得到充分研究。我们引入了两种互补的方法,通过分析潜在表示空间来检验和量化这种损失。首先,我们通过分析图像表示在投影前后k近邻关系的变化,评估语义信息的保留情况。其次,我们通过从投影后的表示中重建视觉嵌入,直接在图像块级别定位信息损失。实验表明,连接器显著扭曲了视觉表示的局部几何结构,投影后k近邻的差异达到40-60%,这与检索性能的下降相关。图像块级别的嵌入重建为模型在视觉问答任务中的行为提供了可解释的洞察,发现信息损失高的区域可靠地预测了模型表现不佳的实例。
依赖注意力机制进行隐式点匹配已成为基于拖拽编辑的核心瓶颈,导致在弱化反演强度和昂贵的测试时优化(TTO)之间做出根本性妥协。这一妥协严重限制了扩散模型的生成能力,抑制了高保真度的图像修复和文本引导创作。本文提出LazyDrag,首个面向多模态扩散变换器的基于拖拽图像编辑方法,直接消除了对隐式点匹配的依赖。具体而言,我们的方法从用户拖拽输入生成显式对应图,作为增强注意力控制的可靠参考。这一可靠参考首次在基于拖拽的编辑任务中实现了稳定的全强度反演过程,无需TTO,释放了模型的生成潜力。因此,LazyDrag自然地将精确的几何控制与文本引导统一起来,实现了以往难以企及的复杂编辑:如让狗张嘴并修复其内部,生成“网球”等新物体,或针对模糊拖拽,做出上下文感知的调整,如将手移入口袋。此外,LazyDrag支持多轮工作流,可同时进行移动和缩放操作。在DragBench上的评估显示,我们的方法在拖拽准确性和感知质量上均优于基线,这一结果得到了VIEScore和人类评估的验证。LazyDrag不仅确立了新的性能标杆,还为编辑范式开辟了新路径。
监督微调(SFT)对于训练大型语言模型(LLMs)至关重要,它能显著提升诸如指令遵循和上下文学习等关键能力。然而,由于特定领域的独特限制和数据稀缺性,创建适用于这些领域的高质量训练数据集仍面临挑战。本文提出了一种创新方法——SearchInstruct,专门用于构建高质量的SFT指令数据集。该方法始于一组有限的、由人工生成的领域特定问题,随后利用大型语言模型系统性地扩展这些问题。接着,动态检索领域相关资源,为每个扩展问题生成准确且上下文恰当的答案。实验评估表明,SearchInstruct不仅提升了SFT数据集的多样性和质量,还带来了LLMs在特定领域性能的显著提升。此外,我们展示了该方法在数据集生成之外,还能有效支持模型编辑等任务,实现对现有模型的高效更新。为了促进研究的可重复性和社区采用,我们在公开的Git仓库中提供了完整的实现细节、生成的指令-响应对全集以及源代码:[https://github.com/mostafaamiri/SearchInstruct](https://github.com/mostafaamiri/SearchInstruct)。
在生成模型中,扩散模型因其训练目标存在闭式最优最小化器(常被称为最优去噪器)而显得尤为引人注目。然而,使用这一最优去噪器进行扩散仅能复现训练集中的图像,因而未能捕捉到深度扩散模型的行为特征。近期研究尝试刻画最优去噪器与深度扩散模型之间的这一差距,提出了一些无需训练的分析模型,这些模型能够生成与训练过的UNet所生成图像相似的图像。其中表现最佳的方法假设卷积神经网络的平移等变性和局部性归纳偏置是性能差距的根源,因此将这些假设纳入其分析模型中。在本研究中,我们提供的证据表明,深度扩散模型中的局部性源于图像数据集的统计特性,而非卷积神经网络的归纳偏置。具体而言,我们证明了一个最优参数化线性去噪器展现出与深度神经去噪器相似的局部性特征。我们进一步从理论和实验上表明,这种局部性直接源自自然图像数据集中存在的像素相关性。最后,基于这些洞见,我们设计了一个分析去噪器,其预测的得分比之前专家设计的替代方案更接近深度扩散模型的预测结果。
以往的多目标强化学习研究通常采用固定权重的线性奖励标量化方法,这种方法已被证明无法捕捉非凸的帕累托前沿,因而导致次优结果。这一局限在大语言模型的在线偏好对齐中尤为关键。在此场景下,由参数化策略生成的随机轨迹在参数到目标之间形成了高度非线性和非凸的映射关系,任何单一的静态权重方案都无法找到最优的权衡。我们通过引入动态奖励权重来解决这一局限,该方法在在线强化学习过程中自适应地调整奖励权重。与依赖固定权重插值的现有方法不同,我们的动态权重在训练过程中持续平衡并优先考虑各项目标,从而促进在目标空间中有效探索帕累托前沿。我们提出了两种逐步复杂且更具通用性的方法:(1) 基于超体积的权重适应和 (2) 基于梯度的权重优化,为在线多目标对齐提供了一个多功能工具包。我们的大量实验表明,这些方法与常用的在线强化学习算法(包括GRPO、REINFORCE和RLOO)兼容,在多个数学推理数据集上均表现出有效性,并适用于不同的模型系列,相较于固定权重的线性标量化基线,能够以更少的训练步骤持续获得帕累托占优解。
在多模态大语言模型(MLLMs)中,幻觉现象——即模型生成与输入图像内容不符的信息——在现实应用中带来了显著风险,从视觉问答中的误导信息到决策过程中的不安全错误。现有基准测试主要关注识别准确率,即评估模型能否在干扰项中选出正确答案。然而,这忽略了一个对可信AI同样至关重要的能力:识别何时提供的选项均不正确,这种行为体现了认知谦逊。我们推出了HumbleBench,一个全新的幻觉基准测试,旨在评估MLLMs在三种幻觉类型(对象、关系和属性)上拒绝看似合理但错误答案的能力。该基准基于全景场景图数据集构建,利用细粒度的场景图注释提取真实实体和关系,并通过GPT-4-Turbo生成多项选择题,随后经过严格的人工筛选。每道题均包含“以上都不是”选项,要求模型不仅需识别正确的视觉信息,还需判断何时无有效答案。我们对包括通用型和专用推理模型在内的多种前沿MLLMs进行了HumbleBench评估,并与社区分享了宝贵的发现和见解。通过引入明确的错误选项拒绝机制,HumbleBench填补了当前评估体系中的关键空白,为安全关键场景下MLLM的可靠性提供了更为真实的衡量标准。我们的代码和数据集已公开发布,可通过https://github.com/maifoundations/HumbleBench访问。
近期,纯文本“慢思考”推理技术的突破推动了将其能力迁移至视觉-语言模型(VLMs)的努力,旨在训练视觉推理模型(VRMs)。然而,这一迁移面临关键挑战:VRMs中有效的“慢思考”需要视觉反思能力,即基于视觉信息核查推理过程的能力。通过定量分析,我们发现当前VRMs的视觉反思能力有限,其对于视觉信息的关注度随着生成回答长度的增加而迅速减弱。为应对这一挑战,我们提出了一种新型VRM——Reflection-V,它通过构建推理数据以支持冷启动学习,并结合强化学习(RL)的奖励设计,增强了视觉反思能力。首先,我们利用一个在VLMs与推理LLMs之间交互的代理,构建了以视觉为中心的推理数据,从而实现了视觉反思模式的冷启动学习。其次,在RL过程中采用基于视觉注意力的奖励模型,鼓励基于视觉信息的推理。因此,Reflection-V在多项视觉推理基准测试中展现了显著提升。此外,Reflection-V在视觉推理过程中对视觉信息的依赖更强且更一致,表明其视觉反思能力得到了有效增强。
实体导航要求智能体在复杂的三维环境中整合感知、推理与行动,以实现稳健的交互。现有方法常面临推理轨迹不连贯、不稳定等问题,这阻碍了其在多样化环境中的泛化能力,同时难以平衡长时程语义推理与低延迟控制,以满足实时导航需求。为解决这些挑战,我们提出了Nav-R1,一个统一实体环境推理的实体基础模型。首先,我们构建了Nav-CoT-110K,一个包含逐步思维链(CoT)的大规模数据集,专为实体任务设计,支持通过结构化推理进行冷启动初始化。在此基础上,我们设计了一个基于GRPO的强化学习框架,包含格式、理解和导航三种互补奖励机制,以提升结构遵循性、语义基础性和路径保真度。此外,我们引入了“快慢分离”推理范式,将深思熟虑的语义推理与低延迟的响应控制解耦,实现高效且连贯的导航。在实体AI基准测试中的广泛评估表明,Nav-R1在推理与导航性能上平均提升超过8%,持续超越强基线模型。在移动机器人上的实际部署进一步验证了其在有限机载资源下的鲁棒性。代码:https://github.com/AIGeeksGroup/Nav-R1。网站:https://aigeeksgroup.github.io/Nav-R1。
去中心化社交媒体平台的出现为公众话语的实时分析带来了新的机遇与挑战。本研究介绍了CognitiveSky,一个开源且可扩展的框架,专为Bluesky——一个联邦制的Twitter或X.com替代平台——上的情感、情绪及叙事分析而设计。通过Bluesky的应用编程接口(API)获取数据,CognitiveSky运用基于Transformer的模型对大规模用户生成内容进行标注,并生成结构化、可分析的结果。这些汇总数据驱动了一个动态仪表板,可视化展示情绪、活动及话题讨论的演变模式。完全构建于免费层级基础设施之上,CognitiveSky实现了低运营成本与高可访问性。虽然本文以心理健康话题监测为例展示其功能,但其模块化设计使其能够应用于虚假信息检测、危机响应及公民情绪分析等多个领域。通过将大型语言模型与去中心化网络相结合,CognitiveSky为数字生态系统变迁时代的计算社会科学提供了一个透明、可扩展的工具。
理解人类行为特质在人机交互、计算社会科学以及个性化AI系统应用中占据核心地位。这种理解通常需要整合多种模态以捕捉细微的模式与关系。然而,现有资源鲜少提供将行为描述符与面部属性、传记信息等互补模态相结合的数据集。为填补这一空白,我们推出了PersonaX,一个精心策划的多模态数据集集合,旨在实现跨模态公共特质的全面分析。PersonaX包含两部分:(1) CelebPersona,涵盖来自不同职业的9444位公众人物;(2) AthlePersona,覆盖7大体育联盟的4181名职业运动员。每个数据集均包含由三个高性能大语言模型推断的行为特质评估,以及面部图像和结构化传记特征。我们从两个互补层面分析PersonaX:首先,从文本描述中抽象出高层特质评分,并应用五种统计独立性检验来探究它们与其他模态的关系;其次,我们引入了一种新颖的因果表示学习(CRL)框架,专为多模态和多测量数据设计,提供了理论上的可识别性保证。在合成数据和真实世界数据上的实验验证了我们方法的有效性。通过统一结构化和非结构化分析,PersonaX为结合视觉与传记属性研究大语言模型推断的行为特质奠定了基础,推动了多模态特质分析与因果推理的进步。
语音分词技术实现了离散化表示,并促进了语音语言建模。然而,现有的神经编解码器主要捕捉低层次的声学特征,忽视了人类语音中固有的语义和上下文线索。尽管近期研究引入了自监督语音模型的语义表示或整合了预训练语言模型的上下文表示,但在对齐和统一语义与上下文表示方面仍面临挑战。我们提出了FuseCodec,通过强大的跨模态对齐和全局信息监督,统一了声学、语义和上下文表示。我们提出了三种互补技术:(i) 潜在表示融合,将语义和上下文特征直接整合到编码器的潜在空间中,以实现稳健且统一的表示学习;(ii) 全局语义-上下文监督,通过全局池化和广播表示来监督离散标记,以增强时间一致性和跨模态对齐;(iii) 时间对齐的上下文监督,通过在局部窗口内动态匹配上下文和语音标记,加强对齐,实现细粒度的标记级监督。我们进一步推出了FuseCodec-TTS,展示了该方法在零样本语音合成中的适用性。实验表明,FuseCodec在LibriSpeech数据集上实现了最先进的性能,在转录准确性、感知质量、可懂度和说话人相似度方面均超越了EnCodec、SpeechTokenizer和DAC。结果凸显了基于上下文和语义引导的分词技术在语音分词及下游任务中的有效性。代码和预训练模型可在https://github.com/mubtasimahasan/FuseCodec获取。
近期,大规模视频模型(LVMs)的显著进展极大地提升了视频理解能力。然而,这些模型仍存在幻觉问题,生成的内容与输入视频相矛盾。为解决这一问题,我们提出了Dr.V,一个涵盖感知、时序和认知层次的分层框架,通过细粒度的时空定位来诊断视频幻觉。Dr.V由两个关键组件构成:基准数据集Dr.V-Bench和卫星视频代理Dr.V-Agent。Dr.V-Bench包含从4,974个视频中抽取的10,000个实例,覆盖多样任务,每个实例均配有详细的时空标注。Dr.V-Agent通过在感知和时序层次上系统应用细粒度时空定位,随后进行认知层次推理,来检测LVMs中的幻觉。这一逐步处理流程模拟了人类般的视频理解过程,有效识别了幻觉。大量实验表明,Dr.V-Agent在诊断幻觉的同时,增强了可解释性和可靠性,为现实场景中的稳健视频理解提供了实用蓝图。我们的所有数据和代码均可在https://github.com/Eurekaleo/Dr.V获取。
在心理健康及其他敏感领域部署大型语言模型(LLMs)引发了关于伦理推理、公平性及责任对齐的紧迫问题。然而,现有的道德与临床决策基准未能充分涵盖心理健康实践中遇到的独特伦理困境,其中保密性、自主性、行善原则与偏见常常交织。为填补这一空白,我们推出了“心理健康中的伦理推理”(EthicsMH),这是一个包含125个场景的试点数据集,旨在评估AI系统如何在治疗与精神病学背景下应对充满伦理挑战的情境。每个场景均配有结构化字段,包括多项决策选项、专家一致认可的推理、预期模型行为、现实世界影响及多方利益相关者观点。这一结构不仅支持决策准确性的评估,还涵盖解释质量及与专业规范的契合度。尽管规模有限且借助模型辅助生成,EthicsMH建立了一个连接AI伦理与心理健康决策的任务框架。通过发布此数据集,我们旨在提供一个可经由社区与专家贡献扩展的种子资源,促进开发能够负责任处理社会最微妙决策的AI系统。
本文介绍了我们为CLEF 2025 CheckThat!实验室任务三开发的系统,该系统专注于利用检索到的证据验证数值和时间声明。我们探索了两种互补的方法:基于指令调优的大型语言模型(LLMs)的零样本提示,以及使用参数高效的LoRA进行监督微调。为了提高证据质量,我们研究了多种选择策略,包括全文输入和使用BM25和MiniLM进行top-k句子过滤。我们表现最佳的模型——采用LoRA微调的LLaMA,在英语验证集上取得了强劲的性能。然而,测试集上的显著下降凸显了泛化挑战。这些发现强调了证据粒度与模型适应对于稳健数值事实验证的重要性。
领域特定嵌入模型在需要专业语义理解的应用中展现出巨大潜力,例如代码助手和金融检索系统,通常比通用模型能获得更高的性能提升。然而,最先进的嵌入模型通常基于包含数十亿参数的大语言模型(LLMs),这在资源受限的环境中部署面临挑战。通过剪枝进行模型压缩提供了一种有前景的解决方案,但现有的剪枝方法对所有参数一视同仁,未能区分通用语义表示与领域特定模式,导致剪枝决策不够优化。为此,我们提出了GAPrune,一个剪枝框架,通过同时考虑领域重要性和保留通用语言基础来解决这一挑战。我们的方法利用费舍尔信息衡量重要性,并通过通用领域梯度对齐评估参数行为,然后结合这些信号使用我们提出的领域对齐重要性(DAI)评分。较低的DAI分数表明该参数对领域任务的重要性较低,或在领域与通用目标之间产生冲突。在FinMTEB和ChemTEB两个领域基准上的实验表明,GAPrune在50%稀疏度的一次性剪枝中,性能保持在密集模型的2.5%以内,同时优于所有基线。经过100步的重新训练,GAPrune在FinMTEB上实现了+4.51%的提升,在ChemTEB上实现了+1.73%的提升,证明我们的剪枝策略不仅保留了还增强了领域特定能力。我们的研究结果表明,基于原则的剪枝策略能够实现模型压缩和增强的领域专业化,为研究社区提供了一种新的开发途径。
随着大型语言模型(LLMs)与外部工具的交互日益频繁,工具使用的奖励建模已成为一个关键但尚未充分探索的领域。现有的奖励模型主要基于自然语言输出进行训练,难以有效评估基于工具的推理与执行。为量化这一差距,我们引入了FC-RewardBench,这是首个旨在系统评估奖励模型在工具调用场景下性能的基准。我们的分析表明,当前的奖励模型往往遗漏了有效工具使用的关键信号,凸显了领域特定建模的必要性。为此,我们提出了一种基于结果的奖励模型训练框架,利用从宽松许可、开放权重的LLMs中合成的数据进行训练。我们训练了参数规模从1.7B到14B不等的模型,并在七个跨领域基准上进行了评估。这些模型在通用基线模型上持续表现出色,下游任务性能平均提升高达25%,并通过奖励引导的过滤实现了数据高效微调。
大型语言模型(LLMs)在情感智能(EI)和长上下文理解方面取得了显著进展。然而,现有的基准测试往往忽视了长上下文场景中EI的某些方面,尤其是在现实、实用的交互环境中,这些交互通常冗长、多样且常常带有噪声。为了向这种现实环境迈进,我们提出了LongEmotion,一个专为长上下文EI任务设计的基准测试。它涵盖了一系列多样化的任务,包括情感分类、情感检测、情感问答、情感对话、情感总结和情感表达。这些任务的平均输入长度达到8,777个标记,其中情感表达任务需要长文本生成。为了在现实约束下提升性能,我们引入了检索增强生成(RAG)和协作情感建模(CoEM),并将它们与标准的基于提示的方法进行了比较。与传统方法不同,我们的RAG方法同时利用对话上下文和大型语言模型本身作为检索源,避免了对外部知识库的依赖。CoEM方法通过将任务分解为五个阶段,进一步提升了性能,整合了检索增强和有限知识注入。实验结果表明,RAG和CoEM在大多数长上下文任务中均能持续提升与EI相关的性能,推动LLMs向更实用和现实世界的EI应用迈进。此外,我们在GPT系列上进行了对比案例研究实验,展示了不同模型在EI方面的差异。代码可在GitHub上获取,项目页面也提供了详细信息。