每日精选AI研究论文及翻译
近期视频生成技术虽在运动真实性方面取得了显著进展,却常忽视角色驱动的叙事能力,而这对于自动化电影与动画生成至关重要。我们提出了“对话角色”这一更为现实的任务,旨在直接从语音和文本生成角色对话动画。与仅关注面部的“对话头部”不同,“对话角色”致力于生成一个或多个角色的完整肖像,超越面部区域。本文中,我们首次提出MoCha,专为生成对话角色而设计。为确保视频与语音的精确同步,我们引入了一种语音-视频窗口注意力机制,有效对齐语音与视频标记。针对大规模语音标注视频数据集稀缺的问题,我们提出了一种联合训练策略,同时利用语音标注和文本标注的视频数据,显著提升了跨多样角色动作的泛化能力。此外,我们设计了带有角色标签的结构化提示模板,首次实现了基于回合制对话的多角色交流,使AI生成的角色能够进行上下文感知的对话,保持电影般的连贯性。通过广泛的定性与定量评估,包括人类偏好研究和基准对比,MoCha在AI生成电影叙事领域树立了新标杆,展现出卓越的真实感、表现力、可控性和泛化能力。
本文深入探讨了复杂视觉文本生成(CVTG)任务,该任务专注于在视觉图像的不同区域内生成分布式的精细文本内容。在CVTG中,图像生成模型常出现视觉文本扭曲、模糊或缺失的问题。为应对这些挑战,我们提出了TextCrafter,一种创新的多视觉文本渲染方法。TextCrafter采用渐进策略,将复杂视觉文本分解为独立组件,同时确保文本内容与其视觉载体之间的精准对齐。此外,该方法引入了令牌聚焦增强机制,以在生成过程中提升视觉文本的显著性。TextCrafter有效解决了CVTG任务中的关键难题,如文本混淆、遗漏和模糊。我们还推出了一个全新的基准数据集CVTG-2K,专门用于严格评估生成模型在CVTG任务上的表现。大量实验证明,我们的方法超越了当前最先进的技术。
我们推出Open-Reasoner-Zero,这是首个专注于可扩展性、简洁性和易用性的大规模推理导向强化学习训练的开源实现。通过大量实验,我们证明了一种极简方法——即使用GAE(λ=1,γ=1)的普通PPO算法和直接的基于规则的奖励机制,无需任何KL正则化,便足以同时提升响应长度和基准测试性能,这与DeepSeek-R1-Zero中观察到的现象相似。采用与DeepSeek-R1-Zero-Qwen-32B相同的基础模型,我们的实现在AIME2024、MATH500及GPQA Diamond基准测试中均取得了更优性能,同时展现出显著的效率优势——相比DeepSeek-R1-Zero流程,仅需十分之一的训练步数。秉承开源精神,我们公开了源代码、参数设置、训练数据及不同规模的模型权重。
随着预训练时代对计算规模(数据和参数)的热情逐渐消退,测试时扩展(Test-Time Scaling, TTS),亦称“测试时计算”,已崭露头角,成为研究热点。近期研究表明,TTS能进一步激发大型语言模型(LLMs)的解题潜能,不仅在数学与编程等专项推理任务上取得重大突破,也在开放式问答等通用任务中表现卓越。然而,尽管该领域近期研究激增,仍亟需一份系统性综述以深化理解。为此,我们提出一个统一的多维度框架,围绕TTS研究的四大核心维度构建:扩展什么、如何扩展、何处扩展及扩展效果。基于此分类体系,我们广泛回顾了方法、应用场景及评估方面,并呈现了一种有序分解,凸显了各项技术在更广阔TTS图景中的独特功能角色。通过这一分析,我们提炼了迄今为止TTS的主要发展轨迹,并提供了实际部署的实用指南。此外,我们识别了若干开放挑战,并对未来方向提出了洞见,包括进一步扩展、澄清技术功能本质、泛化至更多任务及更多归因分析。
大型推理模型(LRMs)通过学习推理显著提升了大型语言模型(LLMs)的推理能力,在复杂任务解决中展现出优异性能。然而,其深思熟虑的推理过程导致了令牌使用、内存消耗及推理时间上的低效。因此,本综述专门针对LRMs的高效推理方法进行了回顾,着重于在保持推理质量的同时缓解令牌低效问题。首先,我们引入了一种分类法,将近期方法归纳为两大类:(a) 显式紧凑的思维链(CoT),它在保留显式推理结构的同时减少令牌使用;(b) 隐式潜在CoT,它将推理步骤编码于隐藏表示而非显式令牌中。同时,我们探讨了这些方法的优缺点。随后,我们从性能与效率两个维度对现有方法进行了实证分析。此外,我们提出了该领域面临的开放挑战,包括以人为中心的可控推理、推理可解释性与效率之间的权衡、确保高效推理的安全性,以及高效推理的广泛应用。另外,我们强调了通过模型融合、新架构设计及代理路由器等技术提升LRMs推理效率的关键见解。我们希望这项工作能成为一份宝贵的指南,助力研究人员在这一充满活力的领域中克服挑战。
合成多样且物理合理的人-场景交互(HSI)对于计算机动画和具身人工智能都至关重要。尽管已取得令人鼓舞的进展,但现有方法主要集中于开发独立的控制器,每个控制器专精于特定的交互任务。这极大地限制了处理多种需要整合多项技能的复杂HSI任务的能力,例如在携带物品的同时坐下。为解决这一问题,我们提出了TokenHSI,一个基于Transformer的统一策略,能够实现多技能统一与灵活适应。其核心洞见是将人形机器人的本体感知建模为独立的共享令牌,并通过掩码机制与不同的任务令牌相结合。这种统一策略促进了技能间的有效知识共享,从而推动了多任务训练。此外,我们的策略架构支持可变长度输入,使得已学技能能够灵活适应新场景。通过训练额外的任务令牌生成器,我们不仅能调整交互目标的几何形态,还能协调多项技能以应对复杂任务。实验表明,我们的方法在多种HSI任务中显著提升了通用性、适应性和可扩展性。网站:https://liangpan99.github.io/TokenHSI/
训练视觉-语言模型(VLMs)通常需要大规模、高质量的图文对,但收集或合成此类数据成本高昂。相比之下,文本数据丰富且廉价,这引发了一个问题:能否仅从文本中合成高质量的多模态训练数据?为解决这一问题,我们提出了一个跨集成的三阶段多模态数据合成框架,该框架生成了两个数据集:Unicorn-1.2M和Unicorn-471K-Instruction。在第一阶段:多样化描述数据合成中,我们通过利用大型语言模型(LLMs)扩展稀疏的描述种子,构建了120万条语义多样化的高质量描述。在第二阶段:指令微调数据生成中,我们进一步将47.1万条描述处理为多轮指令微调任务,以支持复杂推理。最后,在第三阶段:模态表示转换中,这些文本描述表示被转化为视觉表示,从而生成多样化的合成图像表示。这一三阶段过程使我们能够构建用于预训练的Unicorn-1.2M和用于指令微调的Unicorn-471K-Instruction,而无需依赖真实图像。通过在保持数据质量和多样性的同时消除对真实图像的依赖,我们的框架为VLMs训练提供了一种经济高效且可扩展的解决方案。代码可在https://github.com/Yu-xm/Unicorn.git获取。
在复杂开放世界环境中运行的具身智能体,其行动前的推理与潜在结果的想象(即世界模型)至关重要。然而,先前的研究要么仅在端到端智能体中融入其中一种能力,要么将多个专门模型集成到智能体系统中,这限制了策略的学习效率和泛化能力。因此,本文首次尝试在端到端的通用策略中协同推理与想象,称之为RIG。为了以端到端方式训练RIG,我们构建了一个数据管道,逐步整合并丰富从现有智能体收集的轨迹中的想象与推理内容。推理与下一帧图像生成的联合学习,显式地建模了推理、行动与环境动态之间的内在关联,从而相较于以往工作,展现出超过17倍的样本效率提升和更好的泛化能力。在推理阶段,RIG首先推理下一步行动,生成潜在动作,随后预测动作结果,这为智能体提供了在采取实际行动前基于想象进行审视和自我纠正的机会。实验结果表明,推理与想象的协同不仅增强了通用策略的鲁棒性、泛化能力和互操作性,还实现了测试时的扩展,从而提升了整体性能。
带有可验证奖励的强化学习(RLVR)在数学推理和编程任务中已展现出显著成效,这些任务通常具备结构清晰的参考答案。然而,其在更广泛领域的适用性仍有待深入探索。本研究致力于将RLVR扩展至医学、化学、心理学及经济学等多元化领域。我们观察到,在存在客观参考答案的情况下,不同大型语言模型(LLMs)在二元判断上表现出高度一致性,这挑战了大规模标注训练领域特定奖励模型的必要性。针对处理非结构化参考答案时二元奖励的局限性,我们进一步将基于模型的软评分融入RLVR,以提升其灵活性。实验表明,蒸馏生成的奖励模型能有效充当跨领域验证器,为强化学习提供可靠的奖励信号,而无需依赖领域特定的标注。通过采用多种强化学习算法,基于我们的奖励模型对7B基础模型进行微调,我们获得的策略在自由形式答案设置下,大幅超越了如Qwen2.5-72B-Instruct和DeepSeek-R1-Distill-Qwen-32B等顶尖开源对齐LLMs,跨越多个领域。这一成果不仅增强了RLVR的鲁棒性和可扩展性,也凸显了其在现实世界应用中面对噪声或弱标签时的巨大潜力。
基于文本提示或图像条件的视频生成与编辑技术已取得显著进展。然而,仅通过文本精确控制全局布局与几何细节,以及通过图像实现运动控制与局部修改,仍面临挑战。本文旨在实现基于草图的空间与运动控制视频生成,并支持对真实或合成视频的细粒度编辑。基于DiT视频生成模型,我们提出了一种内存高效的控制结构,包含草图控制块,用于预测跳过的DiT块的残差特征。草图可绘制于一个或两个关键帧(任意时间点)上,便于交互。为了将这种时间上稀疏的草图条件传播至所有帧,我们提出了一种帧间注意力机制,用于分析关键帧与每帧视频之间的关系。针对基于草图的视频编辑,我们设计了一个额外的视频插入模块,确保新编辑内容与原始视频的空间特征及动态运动之间的一致性。在推理过程中,我们采用潜在融合技术,以精确保留未编辑区域。大量实验证明,我们的SketchVideo在可控视频生成与编辑方面表现出色。
推理增强型大语言模型(LLMs)在生成最终答案前,会显式地生成中间推理步骤,从而在复杂问题解决中表现卓越。本文中,我们展示了这一新兴生成框架为更精细地控制模型行为提供了独特机遇。我们提出了“思维干预”这一新范式,旨在通过策略性地插入或修改特定思维标记,显式引导LLMs的内部推理过程。我们在多项任务上进行了全面评估,包括IFEval上的指令遵循、SEP上的指令层级理解,以及XSTest和SORRY-Bench上的安全对齐。结果表明,思维干预显著超越了基线提示方法,在指令遵循场景中实现了高达6.7%的准确率提升,在指令层级推理上提升了15.4%,并在使用开源DeepSeek R1模型处理不安全提示时,拒绝率提高了40.0%。总体而言,我们的工作为控制推理型LLMs开辟了一条充满前景的新研究路径。
我们提出了一种创新方法,用于生成复杂输出,显著提升了文本到SQL任务的准确性。该方法通过利用执行结果,从多个候选中筛选出语义最一致的查询,使得规模更小、成本效益更高的模型能够超越计算密集型的推理方法,如o1、o3-mini和DeepSeek R1,同时将推理成本降低多达30倍。该方法能够无缝集成到现有模型中,为实现最先进的SQL生成提供了一条实用且可扩展的路径。
获得一个能够在几秒内从文本提示生成高质量三维网格的模型极具吸引力。尽管近期研究尝试将预训练的文本到图像扩散模型(如Stable Diffusion, SD)改造为三维表示生成器(例如Triplane),但由于缺乏足够的高质量三维训练数据,这些方法往往生成效果欠佳。为克服数据短缺问题,我们提出了一种新颖的训练方案——渐进式渲染蒸馏(Progressive Rendering Distillation, PRD),通过蒸馏多视角扩散模型并调整SD为原生三维生成器,无需依赖三维真实数据。在每次训练迭代中,PRD利用U-Net从随机噪声逐步去噪若干步,并在每一步将去噪后的潜在空间解码为三维输出。结合SD,多视角扩散模型(包括MVDream和RichDreamer)通过分数蒸馏将文本一致的纹理和几何信息融入三维输出。由于PRD支持无三维真实数据的训练,我们能够轻松扩展训练数据规模,并提升对具有创意概念的挑战性文本提示的生成质量。同时,PRD能在仅几步内加速生成模型的推理速度。借助PRD,我们训练了一个Triplane生成器,命名为TriplaneTurbo,它仅增加了2.5%的可训练参数来适配SD进行Triplane生成。TriplaneTurbo在效率和质量上均优于以往的文本到三维生成器,具体而言,它能在1.2秒内生成高质量三维网格,并对挑战性文本输入展现出良好的泛化能力。代码已公开于https://github.com/theEricMa/TriplaneTurbo。
电信诈骗检测面临重大挑战,主要源于缺乏高质量的多模态训练数据,这些数据需将音频信号与推理导向的文本分析相结合。为填补这一空白,我们推出了TeleAntiFraud-28k,这是首个专为自动化电信诈骗分析设计的开源音频-文本慢思考数据集。我们的数据集通过三种策略构建:(1) 使用自动语音识别(ASR)转录的通话记录(原始音频已匿名化),通过文本到语音(TTS)模型再生,确保现实世界一致性,生成隐私保护的文本真实样本;(2) 基于大语言模型(LLM)的自指令采样对真实ASR输出进行语义增强,以扩大场景覆盖范围;(3) 多智能体对抗合成,通过预定义的通信场景和诈骗类型模拟新兴诈骗手法。生成的数据集包含28,511对经过严格处理的语音-文本对,并附有详细的诈骗推理标注。数据集划分为三个任务:场景分类、诈骗检测、诈骗类型分类。此外,我们构建了TeleAntiFraud-Bench,一个标准化的评估基准,包含从数据集中按比例抽取的实例,以促进对电信诈骗检测任务模型性能的系统测试。我们还贡献了一个基于混合真实/合成数据训练的生产优化监督微调(SFT)模型,同时开源了数据处理框架,以支持社区驱动的数据集扩展。本工作为多模态反欺诈研究建立了基础框架,同时解决了数据隐私和场景多样性方面的关键挑战。项目将在https://github.com/JimmyMa99/TeleAntiFraud 发布。
动作模型对于使自主代理能够执行复杂任务至关重要。然而,由于代理环境的多样性和代理数据的复杂性,训练大规模动作模型仍然具有挑战性。尽管关注度日益增加,现有基础设施对可扩展的、针对代理的微调支持有限。我们推出了ActionStudio,一个轻量级且可扩展的数据和训练框架,专为大规模动作模型设计。ActionStudio通过标准化格式统一了异构的代理轨迹,支持包括LoRA、全量微调和分布式设置在内的多种训练范式,并集成了强大的预处理和验证工具。我们在公开和实际行业基准上验证了其有效性,展示了卓越的性能和实际可扩展性。我们在https://github.com/SalesforceAIResearch/xLAM开源了代码和数据,以促进社区研究。
近年来,大型语言模型(LLMs)在各类人工智能问题上展现了卓越的能力。然而,即便在提供了详细规划任务定义的情况下,它们仍难以可靠地进行规划。尽管通过思维链提示、微调及显式“推理”等方式尝试提升其规划能力,生成的计划往往仍存在错误,且通常无法推广至更大规模的任务。本文展示了如何利用LLMs生成正确的计划,即便是面对规模不断增大的分布外任务。针对特定规划领域,我们要求LLM生成若干领域相关的启发式函数,以Python代码形式呈现,在贪婪最佳优先搜索框架下对一组训练任务进行评估,并选择其中最优者。由此产生的LLM生成启发式函数,在解决未见过的测试任务上,远超经典规划领域中的最先进领域无关启发式方法,甚至能与领域相关规划中最强的学习算法相媲美。这一发现尤为引人注目,因为我们的概念验证实现基于未经优化的Python规划器,而对比基线均建立在高度优化的C++代码之上。在某些领域,LLM生成的启发式函数扩展的状态数少于基线方法,表明它们不仅计算效率高,有时甚至比最先进的启发式函数更具信息量。总体而言,我们的研究结果表明,通过采样一组规划启发式函数程序,可以显著提升LLMs的规划能力。
本研究聚焦于开放领域的4D虚拟化身生成,旨在从任意风格的肖像图像中创建4D虚拟化身。我们选择参数化三平面作为中间4D表示,并提出了一种结合生成对抗网络(GANs)与扩散模型的实用训练范式。这一设计源于我们观察到4D GANs在无监督条件下能有效连接图像与三平面,但在处理多样化数据分布时往往面临挑战。一个强大的2D扩散先验模型应运而生,协助GAN将其专业知识跨领域迁移。这两者的协同作用促成了多领域图像-三平面数据集的构建,进而推动了一个通用4D虚拟化身生成器的发展。大量实验表明,我们的模型AvatarArtist能够生成高质量的4D虚拟化身,并对多种源图像域展现出极强的鲁棒性。代码、数据及模型将公开,以促进未来研究。
DUSt3R的最新进展,借助Transformer网络架构及大规模3D数据集上的直接监督,实现了静态场景下密集点云与相机参数的稳健估计。相比之下,现有4D数据集的规模与多样性有限,成为训练高度泛化4D模型的主要瓶颈。这一限制促使传统4D方法在可扩展的动态视频数据上微调3D模型,并引入光流和深度等额外几何先验。本研究中,我们另辟蹊径,提出了Easi3R,一种简单高效的免训练4D重建方法。我们的方法在推理过程中应用注意力适应,省去了从头预训练或网络微调的需求。我们发现,DUSt3R中的注意力层天然编码了相机与物体运动的丰富信息。通过细致解耦这些注意力图,我们实现了精确的动态区域分割、相机姿态估计及4D密集点云图重建。在真实世界动态视频上的广泛实验表明,我们的轻量级注意力适应方法显著超越了以往基于大量动态数据集训练或微调的最先进方法。我们的代码已公开,供研究使用,访问地址为https://easi3r.github.io/。
在三维内容创作领域,通过AI模型实现最优网格拓扑结构一直是3D艺术家们的追求。先前的方法,如MeshGPT,已探索了通过网格自回归技术生成可直接使用的3D物体。尽管这些方法能产生视觉效果令人印象深刻的结果,但其在自回归过程中依赖逐令牌预测的方式导致了几个显著限制,包括生成速度极慢和网格面数不可控。本文中,我们提出了MeshCraft,一个高效且可控的网格生成新框架,它利用连续空间扩散来生成离散的三角面。具体而言,MeshCraft包含两个核心组件:1)一个基于Transformer的变分自编码器(VAE),它将原始网格编码为连续的面级别令牌,并将其解码回原始网格;2)一个基于流的扩散Transformer,该Transformer以面数为条件,能够生成具有预设面数的高质量3D网格。通过使用扩散模型同时生成整个网格拓扑,MeshCraft在显著快于自回归方法的速度下实现了高保真网格生成。具体来说,MeshCraft能在仅3.2秒内生成一个800面的网格(比现有基线快35倍)。大量实验表明,在ShapeNet数据集上的定性和定量评估中,MeshCraft均优于最先进的技术,并在Objaverse数据集上展现了卓越性能。此外,它能无缝集成现有的条件引导策略,展示了其减轻艺术家在网格创建中耗时手工工作的潜力。
大多数3D物体生成器注重美学质量,却常忽视实际应用中的物理约束。其中一项关键约束是3D物体应具备自支撑性,即在重力作用下保持平衡。以往生成稳定3D物体的方法依赖于可微分物理模拟器在测试时优化几何形状,这种方法不仅速度慢、稳定性差,还容易陷入局部最优。受生成模型与外部反馈对齐研究的启发,我们提出了直接模拟优化(DSO)框架,利用(非可微分的)模拟器反馈,直接提升3D生成器输出稳定物体的概率。我们构建了一个包含3D物体及其通过物理模拟器获得的稳定性评分的数据集。随后,我们可以使用稳定性评分作为对齐指标,通过直接偏好优化(DPO)或我们新引入的直接奖励优化(DRO)目标,对3D生成器进行微调,无需成对偏好即可对齐扩散模型。实验表明,采用DPO或DRO目标微调的前馈生成器,在生成稳定物体方面,比测试时优化方法更快且效果更佳。值得注意的是,DSO框架即便在没有真实3D物体训练数据的情况下也能工作,允许3D生成器通过自动收集自身输出的模拟反馈实现自我提升。
多模态大语言模型(MLLMs)的兴起旨在应对视觉问答(VQA)领域的挑战,并引发了对这些模型进行客观评估的新研究热点。现有评估方法因设计视觉图像问答对所需的大量人力投入而受限,这本质上制约了评估的规模和范围。尽管自动化的MLLM-as-judge方法尝试通过自动评估减少人力负担,但往往引入了偏差。为解决这些问题,我们提出了一种无监督同行评审的MLLM评估框架。该框架仅利用图像数据,使模型能自动生成问题并对其他模型的答案进行同行评审,有效减轻了对人力的依赖。此外,我们引入了视觉语言评分系统以缓解偏差问题,该系统聚焦于三个方面:(i) 回答的正确性;(ii) 视觉理解与推理能力;(iii) 图像与文本的相关性。实验结果显示,UPME在MMstar数据集上与人评估的皮尔逊相关系数达到0.944,在ScienceQA数据集上为0.814,表明我们的框架与人工设计的基准及人类内在偏好高度一致。
大型语言模型的数学问题解决能力已成为研究焦点,利用自生成推理路径作为精炼和增强这些模型的一种有前景的方法正受到越来越多的关注。这些路径捕捉了逐步的逻辑过程,同时仅需正确答案作为监督。自训练方法在推理任务中已被证明有效,同时消除了对外部模型和人工标注的需求。然而,如何优化利用自生成数据进行模型训练仍是一个开放挑战。在本研究中,我们提出了基于熵的自适应加权自训练方法(EAST),这是一种旨在自训练过程中优先处理不确定性数据的自适应加权策略。具体而言,EAST采用了一个带有可调参数的映射函数,该参数控制加权的锐度,为模型表现出更大不确定性的数据分配更高权重。这种方法引导模型专注于更具信息量和挑战性的示例,从而提升其推理能力。我们在GSM8K和MATH基准上评估了我们的方法。实证结果表明,尽管基础方法在MATH上几乎未带来改进(0%),EAST相较于骨干模型实现了约1%的提升。在GSM8K上,EAST相比基础方法进一步获得了1-2%的性能提升。
近期,大规模视觉-语言模型(VLMs)的兴起催生了多种评估此类模型的不同基准。然而,我们注意到,现有的大多数评估方法存在一个共同问题:它们要么要求模型从预设的答案中选择,牺牲了开放性;要么依赖评判模型来评估回答,导致评估结果主观且不可靠。此外,我们发现针对韩语的VLMs评估基准较为匮乏,而这类基准作为独立于常见英语基准的评估指标是必要的,因为生成式语言模型的表现会因使用语言的不同而存在显著差异。为此,我们提出了KOFFVQA,一个面向韩语的通用型自由形式视觉问答基准,专门用于评估VLMs。该基准包含275道精心设计的问题,每道问题均配有一张图片及涵盖VLM性能10个不同方面的评分标准。通过预先设定的评分规则,评判模型能够对每个回答进行评分,从而解决了评估不可靠的问题。通过以客观方式定义评估标准,即使是小型开源模型也能在我们的基准上可靠地评估其他模型。除了在基准上评估了大量现有VLMs外,我们还通过实验验证了使用预先设定评分标准进行评估的方法比现有方法更为可靠。我们的评估代码已发布于https://github.com/maum-ai/KOFFVQA。
在过去的二十年里,进化多目标优化(EMO)取得了显著进展。然而,随着问题规模和复杂性的增加,传统EMO算法因并行性和可扩展性不足而面临显著的性能限制。尽管大多数研究集中于通过算法设计来应对这些挑战,但硬件加速方面却鲜有关注,这导致EMO算法与GPU等先进计算设备之间存在着明显的鸿沟。为弥合这一差距,我们提出通过张量化方法在GPU上并行化EMO算法。通过采用张量化,EMO算法的数据结构和操作被转化为简洁的张量表示,从而无缝实现GPU计算的自动利用。我们通过将这一方法应用于三种代表性EMO算法——NSGA-III、MOEA/D和HypE,展示了其有效性。为全面评估我们的方法,我们引入了一个基于GPU加速物理引擎的多目标机器人控制基准测试。实验结果表明,与基于CPU的版本相比,张量化后的EMO算法实现了高达1113倍的加速,同时保持了解决方案的质量,并能有效将种群规模扩展至数十万。此外,张量化EMO算法高效处理了复杂的多目标机器人控制任务,生成了具有多样化行为的高质量解决方案。源代码可在https://github.com/EMI-Group/evomo获取。
预训练视频大语言模型(Video LLMs)展现出卓越的推理能力,然而将这些模型适应于涉及额外模态或数据类型(如音频或3D信息)的新任务仍具挑战性。本文中,我们提出了PAVE,一个灵活的框架,用于将预训练的视频大语言模型适配到带有辅助信号的下游任务,例如音频、3D线索或多视角视频。PAVE引入了轻量级的适配器,称为“补丁”,它们为基础模型添加少量参数和操作,而无需改变其架构或预训练权重。通过这种方式,PAVE能有效调整预训练基础模型,以支持多样化的下游任务,包括视听问答、3D推理、多视角视频识别以及高帧率视频理解。在这些任务中,PAVE显著提升了基础模型的性能,超越了特定任务的最先进模型,同时仅带来约0.1%的额外FLOPs和参数成本。此外,PAVE支持多任务学习,并能很好地泛化到不同的视频大语言模型。我们的代码可在https://github.com/dragonlzm/PAVE获取。
参数高效微调(PEFT)方法近期因大规模预训练模型的广泛普及而备受关注。这些方法能够以最小的计算成本快速适应下游任务。然而,诸如LoRA等流行的微调方法在超参数选择或长时间训练方案方面表现出有限的鲁棒性,阻碍了其开箱即用的最优性能。相比之下,ETHER等有界方法虽提供了更高的鲁棒性,但仅限于极低秩的适应和固定强度的变换,从而降低了其适应表达能力。在本研究中,我们提出了一种新型微调方法——解耦低秩适应(DeLoRA),该方法通过归一化和缩放可学习的低秩矩阵,有效界定了变换的距离,从而将角度学习与适应强度解耦,在不影响性能的前提下增强了鲁棒性。通过在主题驱动图像生成、自然语言理解和指令调优等任务上的评估,我们展示了DeLoRA在性能上匹配或超越了其他PEFT方法,同时展现出更强的鲁棒性。代码已发布于https://github.com/ExplainableML/DeLoRA。
伴随言语的手势在非语言交流中扮演着至关重要的角色。本文中,我们引入了一个新的框架,用于在自然场景下理解伴随言语的手势。具体而言,我们提出了三项新任务及基准,以评估模型理解手势-文本-语音关联的能力:(一)基于手势的检索,(二)手势词汇定位,以及(三)利用手势进行主动说话者检测。我们提出了一种新方法,通过学习语音-文本-视频-手势的三模态表示来解决这些任务。通过结合全局短语对比损失和局部手势-词汇耦合损失,我们证明了可以从自然场景的视频中以弱监督方式学习到强有力的手势表示。在所有三项任务中,我们学习到的表示均超越了包括大型视觉-语言模型(VLMs)在内的先前方法。进一步分析表明,语音和文本模态捕捉到了不同的手势相关信号,这凸显了学习共享三模态嵌入空间的优势。数据集、模型及代码可在以下网址获取:https://www.robots.ox.ac.uk/~vgg/research/jegal