每日精选AI研究论文及翻译
现代参数高效微调(PEFT)方法,如低秩适应(LoRA),降低了定制大型语言模型(LLMs)的成本,但仍需为每个下游数据集进行单独的优化训练。我们提出了拖放式LLMs(\textit{DnD}),一种基于提示的参数生成器,通过将少量未标注的任务提示直接映射到LoRA权重更新,从而消除了逐任务训练的需求。一个轻量级文本编码器将每批提示提炼为条件嵌入,随后通过级联的超卷积解码器转换为完整的LoRA矩阵集。一旦在多样化的提示-检查点对集合中完成训练,DnD能在数秒内生成任务特定参数,带来以下优势:i) 相比全量微调,开销降低高达12,000倍;ii) 在未见过的常识推理、数学、编程及多模态基准测试中,平均性能提升高达30%,超越最强的训练LoRAs;iii) 尽管从未接触目标数据或标签,仍展现出强大的跨领域泛化能力。我们的结果表明,基于提示的参数生成是快速定制LLMs的可行替代方案,相较于基于梯度的适应方法。项目详情请访问https://jerryliang24.github.io/DnD{https://jerryliang24.github.io/DnD}。
检索增强生成(RAG)系统已革新了信息检索与问答领域,然而传统的基于文本的分块方法在处理复杂文档结构、跨页表格、嵌入图表及页面间上下文依赖时面临挑战。我们提出了一种新颖的多模态文档分块方法,该方法利用大型多模态模型(LMMs)批量处理PDF文档,同时保持语义连贯性和结构完整性。我们的方法通过可配置的页面批次处理文档,并保留跨批次上下文,从而准确处理跨页表格、嵌入视觉元素及程序性内容。我们在精心挑选的PDF文档数据集上,结合手工设计的查询进行评估,展示了分块质量及下游RAG性能的提升。相较于传统的朴素RAG系统,我们的视觉引导方法实现了更高的准确性,定性分析表明其在文档结构和语义连贯性保护方面表现更优。
在视觉生成领域,注意力机制的二次方复杂度导致了高昂的内存和计算成本,尤其是在高分辨率图像或多帧视频生成所需的较长令牌序列场景下。为应对这一挑战,先前研究已探索了诸如稀疏化和量化等技术。然而,这些技术在低密度和减少位宽条件下面临显著困难。通过系统分析,我们发现核心难题源于视觉注意力模式的分散性和不规则性。因此,我们提出了一种替代策略:*重组*注意力模式以缓解这些挑战。受视觉特征提取局部聚合特性的启发,我们设计了一种新颖的**模式感知令牌重排序(PARO)**技术,该技术将多样化的注意力模式统一为硬件友好的块状模式。这种统一显著简化和提升了稀疏化与量化的效果。我们评估了各种设计选择在性能与效率之间的权衡,并最终确定了一种针对统一模式量身定制的方法论。我们的方法,**PAROAttention**,在显著降低密度(约20%-30%)和位宽(**INT8/INT4**)的同时,实现了视频和图像生成的无损指标,与全精度(FP)基线几乎一致的结果,并取得了**1.9倍**至**2.7倍**的端到端延迟加速。
基于扩散模型和可控视频生成技术的最新进展,已实现了高质量且时序连贯的视频合成,为沉浸式互动游戏体验奠定了基础。然而,现有方法在动态性、通用性、长期一致性及效率方面存在局限,制约了多样化游戏视频的创作能力。为填补这些空白,我们推出了Hunyuan-GameCraft,一个专为游戏环境中高动态互动视频生成设计的新颖框架。为实现细粒度动作控制,我们将标准键盘鼠标输入统一至共享的摄像机表示空间,促进各类摄像机与移动操作间的平滑过渡。随后,我们提出了一种混合历史条件训练策略,该策略在自回归扩展视频序列的同时,保留了游戏场景信息。此外,为提升推理效率与可玩性,我们通过模型蒸馏技术降低计算开销,同时保持长时间序列的一致性,使其适用于复杂互动环境中的实时部署。该模型在包含超过100款AAA游戏、总计超百万条游戏录像的大规模数据集上训练,确保了广泛覆盖与多样性,并在精心标注的合成数据集上微调,以增强精确度与控制力。精选的游戏场景数据显著提升了视觉保真度、真实感及动作可控性。大量实验证明,Hunyuan-GameCraft在互动游戏视频生成的逼真度与可玩性上显著超越现有模型,推动了该领域的进步。
在动态环境中协调多个具身智能体仍然是人工智能领域的核心挑战,这既需要基于感知的推理能力,也需要可扩展的协作策略。尽管近期研究已利用大语言模型(LLMs)进行多智能体规划,但仅有少数工作开始探索视觉语言模型(VLMs)在视觉推理中的应用。然而,这些基于VLM的方法在支持多样化具身形态方面仍存在局限。本研究中,我们提出了VIKI-Bench,这是首个专为具身多智能体协作设计的层次化基准测试,包含三个结构化层级:智能体激活、任务规划与轨迹感知。VIKI-Bench集成了多样化的机器人具身形态、多视角视觉观察以及结构化监督信号,以评估基于视觉输入的推理能力。为展示VIKI-Bench的实用性,我们提出了VIKI-R,一个两阶段框架:首先利用链式思维标注的示范微调预训练的视觉语言模型(VLM),随后在多级奖励信号下进行强化学习。大量实验表明,VIKI-R在所有任务层级上均显著超越基线方法。此外,我们还发现强化学习能够促进异构智能体间组合式协作模式的形成。VIKI-Bench与VIKI-R共同为推进具身AI系统中多智能体、视觉驱动的协作提供了一个统一的测试平台与方法论。
当前最先进的文本转语音(TTS)系统在单语环境中已实现高度自然度,但在合成具有正确多语言口音(尤其是印度语言)及上下文相关情感的语音方面,仍因现有框架中的文化细微差异而面临挑战。本文提出了一种新型TTS架构,该架构集成了口音保留与多尺度情感建模,特别针对印地语和印度英语口音进行了优化。我们的方法扩展了Parler-TTS模型,通过引入一种语言特定的音素对齐混合编码-解码架构,以及基于母语者语料库训练的文化敏感情感嵌入层,并结合动态口音代码切换与残差向量量化技术。定量测试显示,口音准确率提升了23.7%(单词错误率从15.4%降至11.8%),且母语听众的情感识别准确率达到85.3%,超越了METTS和VECL-TTS基线。该系统的创新之处在于能够实时混合代码——生成如“Namaste,让我们谈谈<印地语短语>”这样的语句,在保持情感一致性的同时实现无缝口音转换。200名用户的主观评价显示,文化正确性的平均意见得分(MOS)为4.2/5,显著优于现有多语言系统(p<0.01)。本研究通过展示可扩展的口音-情感解耦,使跨语言合成更为可行,直接应用于南亚教育科技及无障碍软件领域。
三维全景合成是一项前景广阔但极具挑战性的任务,它要求生成的环视内容具备高质量且多样化的视觉外观与几何结构。现有方法通过利用预训练的二维基础模型中的丰富图像先验,来缓解三维全景数据稀缺的问题,然而三维全景与二维单视图之间的不兼容性限制了这些方法的效能。在本研究中,我们证明了通过对二维基础模型中的操作符应用多平面同步技术,能够将其能力无缝扩展至全向领域。基于这一设计,我们进一步提出了DreamCube,一个用于三维全景生成的多平面RGB-D扩散模型,该模型最大限度地复用二维基础模型的先验知识,以实现多样化的外观与精确的几何结构,同时保持多视角一致性。大量实验验证了我们的方法在全景图像生成、全景深度估计及三维场景生成中的有效性。
在本报告中,我们推出了Hunyuan3D 2.5,这是一套强大的三维扩散模型套件,旨在生成高保真且细节丰富的纹理化三维资产。Hunyuan3D 2.5沿用了其前代版本Hunyuan3D 2.0的两阶段流程,同时在形状与纹理生成方面均实现了显著进步。在形状生成方面,我们引入了一种新的形状基础模型——LATTICE,该模型通过扩展高质量数据集、增大模型规模及计算资源进行训练。我们的最大模型参数达到100亿,能够生成轮廓清晰、细节丰富的三维形状,并确保网格表面干净平滑,显著缩小了生成模型与手工制作三维形状之间的差距。在纹理生成方面,我们基于Hunyuan3D 2.0的绘画模型,通过一种新颖的多视角架构,升级了基于物理的渲染(PBR)技术。广泛的评估表明,Hunyuan3D 2.5在形状生成及端到端纹理生成方面均大幅超越了以往的方法。
视觉语言模型(VLMs)在多模态理解方面表现出色,然而其仅依赖文本的解码方式迫使它们将视觉推理过程语言化,这在需要视觉想象力的任务上限制了性能。近期研究尝试训练VLMs生成显式图像,但繁重的图像生成预训练往往削弱了其推理能力。受人类通过心理意象——即内部构建与操控视觉线索——进行推理的启发,我们探索了VLMs是否能在不生成显式图像的情况下,通过交错的多模态轨迹进行推理。为此,我们提出了名为“幻象”(Mirage)的机器心理意象框架,该框架通过在普通文本之外增加潜在视觉标记来增强VLM的解码能力。具体而言,当模型选择“视觉思考”时,它会将其隐藏状态重构为下一标记,从而在不生成像素级图像的情况下延续多模态轨迹。我们首先通过从真实图像嵌入中蒸馏来监督潜在标记,随后转向仅文本监督,使潜在轨迹紧密贴合任务目标。后续的强化学习阶段进一步提升了多模态推理能力。多样化的基准测试表明,Mirage在不生成显式图像的情况下,解锁了更强大的多模态推理能力。
统一图像理解与生成已成为多模态人工智能领域的一个极具前景的研究范式。尽管近期取得了一定进展,但此类统一模型的最优架构设计仍是一个开放性问题。在本研究中,我们首先分析了针对理解与生成任务的特化专家模型以及现有统一模型的模态对齐行为。我们的分析揭示了一个关键发现:理解任务受益于网络深度方向上逐步增强的模态对齐,这有助于构建语义信息以实现更好的理解;相比之下,生成任务呈现出不同的趋势:模态对齐在浅层增加,但在深层减少以恢复空间细节。这些不同的对齐模式在完全共享的Transformer骨干网络中产生了根本性冲突,其中统一的表征流通常会导致两项任务的性能折衷。基于这一发现,我们提出了UniFork,一种新颖的Y形架构,它在浅层共享跨任务表征学习,同时在深层采用任务特定分支以避免任务干扰。这一设计有效地平衡了共享学习与任务专业化。通过大量消融实验,我们证明了UniFork在性能上始终优于传统的完全共享Transformer架构,并达到或超越了任务特定模型的水平。
3D AI生成内容(AIGC)是一个充满激情的领域,它极大地加速了游戏、电影和设计中3D模型的创建。尽管已有多个突破性模型彻底改变了3D生成技术,但由于收集、处理和训练3D模型所涉及的复杂性,该领域目前仍主要面向研究人员、开发者和设计师。为应对这些挑战,本教程以Hunyuan3D 2.1为例进行案例研究。本教程提供了全面的、循序渐进的指导,涵盖3D数据处理、3D生成模型训练以及使用Hunyuan3D 2.1评估模型性能的全过程。Hunyuan3D 2.1是一个用于生成高分辨率、带纹理3D资产的先进系统,其核心由两部分组成:用于形状生成的Hunyuan3D-DiT和用于纹理合成的Hunyuan3D-Paint。我们将深入探讨整个工作流程,包括数据准备、模型架构、训练策略、评估指标及部署应用。通过本教程的学习,您将掌握微调或开发适用于游戏、虚拟现实及工业设计应用的强大3D生成模型所需的知识。
现代多模态大语言模型(MLLMs)能够对长达一小时的视频进行推理,但其键值(KV)缓存随时间的推移线性增长——迅速超出手机、增强现实眼镜和边缘机器人的固定内存容量。现有的压缩方案要么假设整个视频和用户查询可离线获取,要么必须先构建完整的缓存,因此内存仍随流媒体长度扩展。InfiniPot-V是首个无需训练、与查询无关的框架,它为流媒体视频理解实施了一个严格的、与长度无关的内存上限。在视频编码过程中,它监控缓存,一旦达到用户设定的阈值,便执行轻量级压缩步骤,包括:(i)通过时间轴冗余(TaR)度量移除时间上冗余的令牌,以及(ii)通过值范数(VaN)排序保留语义上重要的令牌。在四个开源MLLM及四个长视频和两个流媒体视频基准测试中,InfiniPot-V将GPU峰值内存削减高达94%,维持实时生成,并匹配或超越完整缓存的准确性——即便在多轮对话中也是如此。通过无需重新训练或查询知识即可消除KV缓存瓶颈,InfiniPot-V为设备端流媒体视频助手缩小了差距。
视觉-语言-动作(VLA)模型相较于传统机器人模仿学习的一大优势在于,它们能够利用大规模视觉-语言模型(VLMs)的广泛泛化能力,生成多功能的“通用型”机器人策略。然而,当前对VLA模型的评估仍显不足。传统的模仿学习基准因缺乏语言指令而不适用。新兴的包含语言指令的VLA基准测试往往任务有限,且未深入探究VLM预训练对下游机器人策略泛化能力的实际贡献。同时,大量研究依赖于不同机构独立设计的真实机器人实验平台,这为研究的可复现性和可访问性设置了障碍。为填补这一空白,我们引入了一套统一的探测任务集,包含10个子类别下的50个基于模拟的任务,涵盖语言指令、视觉和物体操作。我们系统地评估了多种最先进的VLA架构在此任务集上的表现,以理解其泛化能力。结果显示,尽管VLM骨干赋予VLA模型强大的感知理解和高层次规划能力,我们称之为“良好意图”,但这并不总能转化为精确的运动执行:面对分布外观察时,策略常展现出连贯的意图,却在动作执行上失误。此外,针对动作数据的微调可能会削弱原始VLM的通用推理能力。我们公开了任务集和评估代码,旨在为未来的VLA研究提供标准化基准,并推动弥合感知与动作之间差距的研究。更多信息,包括源代码,请访问https://ai4ce.github.io/INT-ACT/。
理想的交通模拟器应能复现自动驾驶系统在部署过程中所经历的真实长期点对点行程。现有模型和基准主要关注场景中初始智能体的闭环运动模拟,这在长期模拟中存在明显不足:随着自车进入新区域,智能体会不断进出场景。为此,我们提出了InfGen,一个统一的下一令牌预测模型,它能够交替执行闭环运动模拟与场景生成。InfGen可自动在闭环运动模拟与场景生成模式间切换,从而实现稳定的长期推演模拟。在短期(9秒)交通模拟中,InfGen达到了业界领先水平;而在长期(30秒)模拟中,其表现显著优于所有其他方法。InfGen的代码与模型将在https://orangesodahub.github.io/InfGen 发布。
结合预训练专家模型为可扩展的多模态推理提供了巨大潜力,但由于输入模态的日益多样性和任务复杂性的增加,构建统一框架仍面临挑战。例如,医疗诊断需要对结构化临床表格进行精确推理,而金融预测则依赖于解读基于图表的数据以做出明智预测。为应对这一挑战,我们提出了MEXA,一个无需训练的框架,它通过模态和任务感知的方式聚合多个专家模型,从而在多样且不同的领域中实现有效的多模态推理。MEXA根据输入模态和任务特定的推理需求(即技能)动态选择专家模型。每个专家模型专精于某一模态任务对,生成可解释的文本推理输出。随后,MEXA利用大型推理模型(LRM)对这些输出进行聚合和推理,以产生最终答案。这种模块化设计允许在无需额外训练开销的情况下,跨多样领域进行灵活且透明的多模态推理。我们在包括视频推理、音频推理、3D理解和医疗问答在内的多种多模态基准上广泛评估了我们的方法。MEXA在强大多模态基线模型上持续展现出性能提升,凸显了我们在多样化多模态推理任务中专家驱动选择和聚合的有效性及广泛适用性。
在现实场景中,如政治观点摘要生成,确保无偏见的摘要输出仍是大型语言模型(LLMs)的关键应用之一。然而,现有的评估框架依赖传统指标来衡量覆盖率、忠实度等关键属性,却未验证这些指标的适用性,且改进摘要生成方法的研究尚处于起步阶段。我们通过以下两点填补了这一空白:(1)确立衡量观点摘要质量的可靠指标,(2)探索超越零样本推理的LLM方法效能。具体而言,我们构建了一个基于人工标注的测试集以评估指标可靠性,结果显示传统指标表现逊色于基于语言模型的评价指标,后者展现出强大的评估能力。利用这些指标,我们发现基于重排序的方法取得了显著效果,而结合合成生成数据与重排序标注数据进行偏好调优,则进一步提升了性能。我们的研究成果旨在为观点摘要方法的可靠评估与开发贡献力量。
生成模型输出的水印技术已成为追踪其来源的一种颇具前景的方法。尽管自回归图像生成模型及其潜在的滥用风险引起了广泛关注,但此前尚未有研究尝试在令牌级别对其输出进行水印处理。在本研究中,我们首次将语言模型水印技术适配于这一场景,提出了一种创新方法。我们识别出一个关键挑战:缺乏反向循环一致性(RCC),即重新令牌化生成的图像令牌会显著改变令牌序列,从而实质上抹去了水印。为解决此问题,并增强我们的方法对常见图像变换、神经压缩及移除攻击的鲁棒性,我们引入了(i)一种定制化的令牌化-去令牌化微调流程,以提升RCC,以及(ii)一个互补的水印同步层。实验结果表明,我们的方法能够实现可靠且鲁棒的水印检测,并提供了理论依据的p值支持。
语言模型逆向工程旨在仅通过语言模型的输出来恢复隐藏的提示。这一能力对语言模型部署的安全性和问责制具有重要影响,例如从受API保护的语言模型的系统消息中泄露私人信息。我们提出了一种新方法——基于对数概率序列的提示逆向工程(PILS),该方法通过从模型在多个生成步骤中的下一个词概率中提取线索来恢复隐藏提示。我们的方法基于一个关键洞察:语言模型的向量输出占据了一个低维子空间。这使得我们能够使用线性映射无损地压缩多个生成步骤中的完整下一个词概率分布,从而利用更多输出信息进行逆向工程。与之前最先进的方法相比,我们的方法在恢复隐藏提示方面取得了巨大提升,在测试集上实现了2至3.5倍的精确恢复率提升,其中一个案例的恢复率从17%提高到了60%。我们的方法还表现出令人惊讶的良好泛化行为;例如,在16个生成步骤上训练的逆向器,当我们在测试时将步骤数增加到32时,提示恢复率提高了5到27个百分点。此外,我们展示了我们的方法在更具挑战性的恢复隐藏系统消息任务上的强大性能。我们还分析了逐字重复在提示恢复中的作用,并提出了一种新的基于logit的逆向器跨家族模型迁移方法。我们的研究结果表明,下一个词概率是比之前已知的更为脆弱的逆向攻击面。