每日精选AI研究论文及翻译
Yume致力于利用图像、文本或视频构建一个互动、逼真且动态的世界,支持通过外围设备或神经信号进行探索与控制。在本报告中,我们展示了\method的预览版本,该版本能够从输入图像中生成动态世界,并允许通过键盘操作进行探索。为实现这一高保真且互动的视频世界生成,我们引入了一个精心设计的框架,该框架包含四个主要组件:相机运动量化、视频生成架构、高级采样器及模型加速。首先,我们对相机运动进行量化,以确保训练稳定性及键盘输入的友好交互。随后,我们介绍了带有记忆模块的Masked Video Diffusion Transformer(MVDT),用于以自回归方式实现无限视频生成。接着,采样器中引入了无需训练的抗伪影机制(AAM)和基于随机微分方程的时间旅行采样(TTS-SDE),以提升视觉质量并实现更精确的控制。此外,我们通过对抗性蒸馏与缓存机制的协同优化来研究模型加速。我们使用高质量的世界探索数据集\sekai来训练\method,其在多样场景与应用中取得了显著成果。所有数据、代码库及模型权重均可在https://github.com/stdstu12/YUME获取。Yume将每月更新,以实现其最初目标。项目页面:https://stdstu12.github.io/YUME-Project/。
在多模态大语言模型(MLLMs)中实现类人感知与推理能力,仍是人工智能领域的一项核心挑战。尽管近期研究主要集中于提升MLLMs的推理能力,但一个根本性问题始终存在:多模态大语言模型能否真正像人类一样感知世界?本文从推理转向感知,不再专门构建推理基准,而是引入了图灵视觉测试(TET),这是一项以感知为导向的挑战性基准,包含四项诊断任务,用于评估MLLMs在处理人类直觉上易于理解的合成图像时的表现。我们的研究发现,在人类看来轻而易举的感知任务上,当前最先进的MLLMs却遭遇了灾难性的失败。无论是上下文学习还是针对以往基准有效的语言主干训练,均未能提升模型在我们任务上的表现,而视觉模块的微调则能迅速适应,这表明我们的基准对视觉模块的泛化能力提出了挑战,而非针对语言主干的知识与推理能力——这正是当前MLLMs与人类感知之间的一大差距。本版本中,我们发布了TET任务的一个代表性子集,未来工作将引入更多样化的任务与方法,以增强视觉泛化能力。
对于非专业人士而言,设计高质量的演示文稿幻灯片颇具挑战,这源于在众多设计选项中做出选择的复杂性。尽管众多自动化工具能够提供布局与配色方案的建议,但它们往往缺乏对自身输出进行优化的能力,而这在实际工作流程中至关重要。我们提出了DesignLab,它将设计过程分解为两个角色:设计评审者,负责识别设计相关问题;以及设计贡献者,负责修正这些问题。这种分解形成了一个迭代循环,评审者持续发现问题,贡献者则不断修正,使得草稿在每次迭代中得以进一步打磨,最终达到原本难以企及的质量水平。我们针对这两个角色对大型语言模型进行了微调,并通过引入受控扰动来模拟中间草稿,使设计评审者学会识别设计错误,贡献者学会如何修正。实验结果表明,DesignLab通过拥抱设计的迭代本质,能够生成更为精致、专业的幻灯片,其表现优于现有的设计生成方法,包括一款商业工具。
可验证奖励强化学习(RLVR)已成为提升大语言模型(LLMs)推理能力的重要范式。现有研究主要集中于数学解题、编程任务或逻辑推理等单一推理领域。然而,现实世界的推理场景本质上需要多种认知技能的综合运用。尽管如此,这些推理技能在强化学习下的相互作用仍鲜为人知。为填补这一空白,我们在RLVR框架内对多领域推理进行了系统性研究,特别聚焦于三大主要领域:数学推理、代码生成和逻辑谜题解决。本研究包含四个关键部分:(1)借助GRPO算法和Qwen-2.5-7B模型家族,我们全面评估了模型在单领域数据集训练下的领域内提升及跨领域泛化能力。(2)同时,我们探讨了跨领域联合训练中出现的复杂交互,包括相互促进与冲突。(3)为深入理解监督微调(SFT)对强化学习的影响,我们还分析并比较了基础模型与指令模型在相同RL配置下的性能差异。(4)此外,我们深入探究了RL训练的关键细节,系统性地探索了课程学习策略、奖励设计变化及语言特定因素的影响。通过大量实验,我们的结果为领域间交互的动态机制提供了重要洞见,揭示了影响专业化和通用化推理性能的关键因素。这些发现为优化RL方法以培养LLMs全面、多领域的推理能力提供了宝贵指导。
稀疏体素表示技术的最新进展显著提升了三维内容生成的质量,实现了具有精细几何结构的高分辨率建模。然而,现有框架因其两阶段扩散流程中注意力机制的二次方复杂度而面临严重的计算效率问题。在本研究中,我们提出了Ultra3D,一种高效的三维生成框架,它大幅加速了稀疏体素建模过程,同时不牺牲生成质量。我们的方法利用紧凑的VecSet表示,在第一阶段高效生成粗略物体布局,减少了令牌数量并加速了体素坐标预测。为了在第二阶段细化每个体素的潜在特征,我们引入了部件注意力(Part Attention),这是一种几何感知的局部注意力机制,它将注意力计算限制在语义一致的部件区域内。这一设计在保持结构连续性的同时,避免了不必要的全局注意力计算,在潜在特征生成上实现了高达6.7倍的加速。为了支持这一机制,我们构建了一个可扩展的部件标注流程,将原始网格转换为带有部件标签的稀疏体素。大量实验证明,Ultra3D支持1024分辨率的高分辨率三维生成,并在视觉保真度和用户偏好方面均达到了业界领先水平。
作为检索增强中更为自主和适应性的范式,代理搜索正在推动智能搜索系统的发展。然而,现有的评估框架未能很好地与代理搜索的目标保持一致。首先,当前基准测试中常用的复杂查询往往偏离了真实的用户搜索场景。其次,先前的方法在提取端到端评估的基准真相时容易引入噪声,导致细粒度层面的评估失真。第三,大多数现有框架仅关注最终答案的质量,忽视了代理搜索固有迭代过程的评估。为解决这些局限,我们提出了RAVine——一个面向代理大语言模型搜索的现实对齐评估框架。RAVine针对更能反映用户意图的多点查询和长答案,并引入了一种可归因的基准真相构建策略,以提高细粒度评估的准确性。此外,RAVine在整个迭代过程中考察模型与搜索工具的交互,并考虑效率因素。我们使用RAVine对一系列模型进行了基准测试,并得出若干见解,希望能推动代理搜索系统的发展。代码和数据集可在https://github.com/SwordFaith/RAVine获取。
现有基于非正式语言(如人类语言)的大型语言模型(LLMs)在强化学习(RL)训练中面临一个重大挑战:其验证过程,作为提供关键训练信号的手段,既不可靠也不具备可扩展性。实际上,主流的大型专有模型几乎无法生成可验证的程序。一个前景广阔但尚未充分探索的替代方案是基于形式语言的推理。将LLMs建立在严格的形式系统基础上,使生成模型在形式语言空间(如Dafny)中运作,能够自动且数学可证明地验证其推理过程与结果。这一能力对于实现大规模、可靠的软件形式验证至关重要。通常,人们会利用人工标注的思维链及其他人类先验知识来引导LLMs的推理与编码能力。然而,为监督复杂编程任务提供此类先验知识变得极其耗时,难以接受。在本研究中,我们系统性地探索了如何以形式语言Dafny为主要实验环境,减少对人类先验的依赖。我们的流程主要依赖于引入一个自动且可扩展的数据整理流程,并结合形式语言验证器的反馈进行精心设计的RL。我们提出了DafnyComp,一个包含自动形式化规范的组合形式程序基准,用于规范推理。通过监督微调(SFT)阶段,即便是小型模型(如0.5B)也能生成语法正确且可验证的Dafny代码,超越了专有模型。结合正则化的RL进一步提升了性能,在跨域任务上展现出更强的泛化能力,并在具有挑战性的DafnyComp基准测试中超越了所有强基线。
大型语言模型(LLMs)在精心设计的提示下表现最佳,然而提示工程仍然依赖手动操作,缺乏一致性,且对非专家用户不够友好。我们推出了Promptomatix,一个自动提示优化框架,能够将自然语言任务描述转化为高质量提示,无需手动调整或领域专业知识。Promptomatix支持基于轻量级元提示的优化器和DSPy驱动的编译器,其模块化设计便于未来扩展至更先进的框架。该系统通过分析用户意图、生成合成训练数据、选择提示策略,并利用成本感知目标优化提示。在五大任务类别上的评估显示,Promptomatix相较于现有库实现了竞争性或更优的性能,同时减少了提示长度和计算开销,使提示优化更具可扩展性和效率。
高质量的三维资产在计算机图形学和三维视觉的多种应用中至关重要,但由于高昂的获取成本,这类资源依然稀缺。为解决这一短缺问题,我们推出了Elevate3D,这是一个创新框架,旨在将易于获取的低质量三维资产转化为更高品质。Elevate3D的核心是HFS-SDEdit,一种专为纹理增强设计的方法,它显著提升了纹理质量,同时修复了退化问题,保持了外观与几何结构的一致性。此外,Elevate3D采用逐视图操作的方式,交替进行纹理与几何优化。与以往大多忽视几何优化的方法不同,我们的框架通过运用最先进的单目几何预测器,利用经HFS-SDEdit优化的图像中的几何线索,确保了细节丰富且精确的几何结构,使其与增强后的纹理无缝对齐。Elevate3D在三维模型优化方面超越了近期竞争对手,达到了业界领先的质量水平,有效缓解了高质量开源三维资产的匮乏状况。
视频扩散模型的快速发展一直受限于时间建模中的根本性挑战,尤其是传统标量时间步变量强加的帧演化严格同步问题。尽管任务特定适应和自回归模型试图解决这些难题,但它们仍受制于计算效率低下、灾难性遗忘或应用范围狭窄等局限。本研究提出Pusa,一种革命性的范式,它通过向量化时间步适应(VTA)技术,在统一的视频扩散框架内实现了精细的时间控制。此外,VTA是一种无损适应方法,意味着它完全保留了基础模型的能力。通过在SOTA Wan2.1-T2V-14B模型上应用VTA进行微调,我们实现了前所未有的效率——以leq 1/200的训练成本(\500对比\geq 100,000)和leq 1/2500的数据集规模(4K对比geq 10M样本),超越了Wan-I2V-14B的性能。Pusa不仅为图像到视频(I2V)生成设立了新标准,达到了VBench-I2V总分87.32%(对比Wan-I2V-14B的86.86%),还解锁了多项零样本多任务能力,如起始-结束帧控制及视频扩展——所有这些都无需任务特定训练。同时,Pusa仍能执行文本到视频生成。机制分析表明,我们的方法在保留基础模型生成先验的同时,精准注入了时间动态,避免了向量化时间步固有的组合爆炸问题。本工作为下一代视频合成建立了一个可扩展、高效且多功能的范式,为研究和产业界普及高保真视频生成铺平了道路。代码已开源,详见https://github.com/Yaofang-Liu/Pusa-VidGen。
文本到图像扩散模型(DMs)在图像生成领域取得了显著成就。然而,由于这些模型可能无意间记忆并复制训练数据,引发了关于数据隐私和知识产权的担忧。近期的缓解措施主要集中在识别并剪除触发复制的权重上,其假设是记忆行为可以被局部化。我们的研究评估了这些基于剪枝方法的鲁棒性。我们证明,即便在剪枝之后,对输入提示的文本嵌入进行细微调整也足以重新触发数据复制,这揭示了这些防御措施的脆弱性。此外,我们通过展示复制可以从文本嵌入空间的不同位置触发,并在模型中遵循不同路径,挑战了记忆局部性的基本假设。我们的发现表明,现有的缓解策略尚不充分,并强调了需要真正移除记忆内容的方法,而非仅仅试图抑制其检索。作为这一方向的第一步,我们引入了一种新颖的对抗性微调方法,该方法迭代搜索复制触发器并更新模型以增强鲁棒性。通过研究,我们为理解文本到图像DMs中的记忆本质提供了新见解,并为构建更可信、合规的生成式AI奠定了基础。