每日精选AI研究论文及翻译
最近视频扩散模型的进展展示了在模拟真实世界动态和保持三维一致性方面的异常能力。这一进展激发了我们对这些模型潜力的探究,以确保跨不同视角的动态一致性,这对于虚拟拍摄等应用而言是一项极具吸引力的特性。与现有方法侧重于为4D重建生成单个对象的多视图生成不同,我们的兴趣在于从任意视角生成开放世界视频,融入六自由度摄像机姿势。为实现这一目标,我们提出了一个即插即用模块,用于增强预训练的文本到视频模型,实现多摄像机视频生成,确保在不同视角下内容的一致性。具体而言,我们引入了一个多视图同步模块,以保持这些视角下的外观和几何一致性。鉴于高质量训练数据的稀缺性,我们设计了一种混合训练方案,利用多摄像机图像和单目视频来补充虚幻引擎渲染的多摄像机视频。此外,我们的方法还支持引人入胜的扩展,例如从新视角重新渲染视频。我们还发布了一个名为SynCamVideo-Dataset的多视图同步视频数据集。项目页面:https://jianhongbai.github.io/SynCamMaster/。
最近在文本到图像(T2I)生成方面取得了显著进展,成功地从文本中生成高质量图像。然而,现有的T2I模型在涉及多个对象和复杂关系的组合图像生成中表现出性能下降。我们将这一问题归因于现有图像-文本配对数据集的局限,这些数据集缺乏精确的对象间关系注释,仅具备提示。为解决这一问题,我们构建了LAION-SG,一个大规模数据集,具有高质量的场景图(SG)结构注释,精确描述多个对象的属性和关系,有效地表征复杂场景中的语义结构。基于LAION-SG,我们训练了一个新的基础模型SDXL-SG,将结构注释信息纳入生成过程中。大量实验证明,在我们的LAION-SG上训练的先进模型在复杂场景生成方面显著提升,超过现有数据集上的模型。我们还引入了CompSG-Bench,一个基准测试,评估模型在组合图像生成上的表现,为该领域建立了新的标准。
视觉语言模型最近取得了显著进展,在多项任务上展现出卓越性能,例如光学字符识别和复杂图表分析。借鉴这一趋势,我们介绍了一个新的视觉语言模型,POINTS1.5,旨在在各种实际应用中表现出色。POINTS1.5是POINTS1.0的升级版本,融入了几项关键创新:i)我们用支持本地动态高分辨率的NaViT风格视觉编码器取代了原始的具有固定图像分辨率的CLIP视觉编码器。这使得POINTS1.5能够处理任何分辨率的图像,而无需将其分割成瓦片。ii)我们为POINTS1.5添加了双语支持,显著增强了其在中文方面的能力。由于视觉语言模型的开源中文数据集稀缺,我们从互联网收集了大量图像,并使用手动和自动方法相结合的方式对其进行了注释。iii)我们提出了一套严格的过滤方法,用于视觉指导调整数据集。我们全面评估了所有这些过滤方法,并选择了最有效的方法来获取最终的视觉指导调整集。由于这些创新,POINTS1.5在各种实际应用中明显优于POINTS1.0,并表现出强大的性能。值得注意的是,POINTS1.5-7B仅在少于40亿标记的情况下进行训练,并在拥有少于100亿参数的模型中在OpenCompass排行榜上名列第一。
可控人物图像生成旨在生成一个人物图像,其受到参考图像的限制,从而精确控制人物的外观或姿势。然而,先前的方法通常会扭曲参考图像中的细粒度纹理细节,尽管达到了较高的整体图像质量。我们将这些扭曲归因于对参考图像中相应区域关注不足。为了解决这个问题,我们因此提出了在注意力中学习流场(Leffa),它明确地指导目标查询在训练期间在注意力层中关注正确的参考关键。具体而言,它是通过在基于扩散的基线内的注意力图之上的正则化损失来实现的。我们的大量实验表明,Leffa 在控制外观(虚拟试穿)和姿势(姿势转移)方面实现了最先进的性能,显著减少了细粒度细节失真,同时保持了高图像质量。此外,我们展示了我们的损失是与模型无关的,并且可以用来改善其他扩散模型的性能。
BrowserGym生态系统解决了对Web代理进行高效评估和基准测试的日益增长的需求,特别是那些利用自动化和大型语言模型(LLMs)进行Web交互任务的代理。许多现有的基准测试存在碎片化和评估方法不一致的问题,这使得难以进行可靠的比较和可重复的结果。BrowserGym旨在通过提供一个统一的类健身房环境,具有明确定义的观测和动作空间,促进跨不同基准测试的标准化评估。结合AgentLab,一个辅助框架,用于代理的创建、测试和分析,BrowserGym提供了整合新基准测试的灵活性,同时确保一致的评估和全面的实验管理。这种标准化方法旨在减少开发Web代理的时间和复杂性,支持更可靠的比较,并促进对代理行为的深入分析,可能导致更具适应性和能力的代理,最终加速LLM驱动的自动化创新。作为支持证据,我们进行了第一次大规模、多基准测试的Web代理实验,并比较了6种最先进的LLMs在BrowserGym当前所有基准测试中的表现。除其他发现外,我们的结果突出显示了OpenAI和Anthropic的最新模型之间存在很大差异,Claude-3.5-Sonnet在几乎所有基准测试中处于领先地位,只有在与视觉相关的任务中,GPT-4o才更为优越。尽管取得了这些进展,我们的结果强调,构建稳健高效的Web代理仍然是一个重大挑战,这是由于现实世界Web环境的固有复杂性和当前模型的局限性所致。
尽管最近的基础视频生成器能够产生视觉丰富的输出,但仍然存在外观漂移问题,即物体逐渐退化或在帧之间不一致地改变,破坏了视觉连贯性。我们假设这是因为在特征级别上缺乏明确的空间跟踪监督。我们提出了Track4Gen,这是一个具有空间感知能力的视频生成器,它将视频扩散损失与跨帧点跟踪相结合,为扩散特征提供增强的空间监督。Track4Gen通过对现有视频生成架构进行最小的更改,将视频生成和点跟踪任务合并到一个网络中。利用稳定视频扩散作为基础,Track4Gen表明将视频生成和点跟踪统一起来是可能的,而这些通常被视为独立任务。我们进行了广泛的评估,结果显示Track4Gen有效减少了外观漂移,实现了时间稳定和视觉连贯的视频生成。项目页面:hyeonho99.github.io/track4gen
风格控制在视频生成模型中已经很受欢迎。现有方法通常生成与给定风格相去甚远的视频,导致内容泄漏,并且难以将一个视频转换为所需风格。我们的第一个观察是风格提取阶段很重要,而现有方法强调全局风格却忽略了局部纹理。为了在保持风格的同时引入纹理特征并防止内容泄漏,我们基于提示-补丁相似性过滤与内容相关的补丁,同时保留风格补丁;对于全局风格提取,我们通过模型幻觉生成一对风格数据集,以促进对比学习,从而极大地增强了绝对风格一致性。此外,为了弥补图像到视频的差距,我们在静态视频上训练了一个轻量级运动适配器,隐式增强了风格化程度,并使我们在图像上训练的模型能够无缝地应用于视频。得益于这些努力,我们的方法StyleMaster 不仅在风格相似度和时间上的连贯性方面取得了显著改进,而且可以轻松推广到视频风格转移,使用了灰瓦控制网络。大量实验和可视化展示表明,StyleMaster 明显优于竞争对手,有效生成与文本内容一致且与参考图像风格紧密匹配的高质量风格化视频。我们的项目页面位于 https://zixuan-ye.github.io/stylemaster。
通过利用来自大型多视角数据集的先验知识,广义前馈高斯模型在稀疏视图3D重建方面取得了显著进展。然而,由于高斯数量有限,这些模型通常难以表示高频细节。尽管在每个场景的3D高斯点阵(3D-GS)优化中使用的致密化策略可以应用于前馈模型,但可能不太适用于广义场景。在本文中,我们提出了生成致密化,这是一种高效且通用的方法,用于致密化由前馈模型生成的高斯。与3D-GS致密化策略不同,后者通过迭代地分裂和克隆原始高斯参数,我们的方法通过在单个前向传递中上采样来自前馈模型的特征表示,并生成它们对应的精细高斯,利用嵌入的先验知识来增强泛化能力。在对象级和场景级重建任务上的实验结果表明,我们的方法胜过具有相似或更小模型尺寸的最先进方法,在表示细节方面取得显著改进。
本文介绍了StreamChat,这是一种新颖的方法,通过流式视频内容增强大型多模态模型(LMMs)的交互能力。在流式交互场景中,现有方法仅依赖于在提出问题时可用的视觉信息,导致模型在不知晓流式视频后续变化的情况下产生显著延迟。StreamChat通过创新地在每个解码步骤更新视觉上下文来解决这一限制,确保模型在整个解码过程中利用最新的视频内容。此外,我们引入了一种灵活高效的基于交叉注意力的架构,用于处理动态流式输入,同时保持流式交互的推理效率。此外,我们构建了一个新的密集指令数据集,以促进流式交互模型的训练,配以一个并行的3D-RoPE机制,编码视觉和文本标记的相对时间信息。实验结果表明,StreamChat在已建立的图像和视频基准测试中取得了竞争性表现,并在流式交互场景中表现出比最先进的视频LMM更优越的能力。
使用预训练的文本到图像(T2I)扩散/流模型编辑真实图像通常涉及将图像反转为其相应的噪声图。然而,仅靠反转通常无法获得令人满意的结果,因此许多方法还会介入采样过程。这些方法可以实现改进的结果,但在不同模型架构之间并不是无缝转移的。在这里,我们介绍了FlowEdit,这是一种基于文本的编辑方法,适用于预训练的T2I流模型,它无需反转、无需优化,并且与模型无关。我们的方法构建了一个常微分方程(ODE),直接映射源分布和目标分布(对应源文本提示和目标文本提示),并实现比反转方法更低的传输成本。这导致了最先进的结果,我们以稳定扩散3和FLUX为例进行说明。代码和示例可在项目网页上找到。
3D空间推理是分析和解释3D空间中物体的位置、方向和空间关系的能力。这使得模型能够全面理解3D场景,从而扩展了它们在自主导航、机器人技术和增强/虚拟现实等领域的适用性。虽然大型多模态模型(LMMs)在图像和视频理解任务的各个领域取得了显著进展,但它们在多样化自然图像上执行3D空间推理的能力却鲜为人知。在这项工作中,我们提出了第一个全面的3D空间推理基准,3DSRBench,包含了12种问题类型的2,772个手动注释的视觉问答对。我们通过平衡数据分布并采用一种新颖的FlipEval策略,对3D空间推理能力进行了强大而彻底的评估。为了进一步研究相机3D视角对3D空间推理的鲁棒性,我们的3DSRBench包括了两个子集,其中包含了关于具有常见和不常见视角的成对图像的3D空间推理问题。我们对各种开源和专有LMMs进行基准测试,揭示了它们在3D感知的各个方面(如高度、方向、位置和多物体推理)以及在具有不常见相机视角的图像上性能下降的限制。我们的3DSRBench提供了有关具有强大3D推理能力的LMMs未来发展的宝贵发现和见解。我们的项目页面和数据集可在https://3dsrbench.github.io上获得。
在文本生成动作领域,Bert类型的Masked Models(MoMask,MMM)目前产生比GPT类型的自回归模型(T2M-GPT)更高质量的输出。然而,这些Bert类型模型通常缺乏视频游戏和多媒体环境中所需的流式输出能力,这是GPT类型模型固有的特性。此外,它们在超出分布生成方面表现较弱。为了超越BERT类型模型的质量,同时利用GPT类型结构,而不添加使数据扩展复杂化的额外细化模型,我们提出了一种新颖的架构,Mogo(Motion Only Generate Once),通过训练单个Transformer模型生成高质量逼真的3D人体动作。Mogo仅由两个主要组件组成:1)RVQ-VAE,一种分层残差向量量化变分自编码器,将连续运动序列以高精度离散化;2)分层因果Transformer,负责以自回归方式生成基础运动序列,同时推断不同层次之间的残差。实验结果表明,Mogo可以生成长达260帧(13秒)的连续和循环运动序列,超过了现有数据集如HumanML3D的196帧(10秒)长度限制。在HumanML3D测试集上,Mogo实现了0.079的FID分数,优于GPT类型模型T2M-GPT(FID = 0.116)、AttT2M(FID = 0.112)和BERT类型模型MMM(FID = 0.080)。此外,我们的模型在超出分布生成方面实现了最佳的定量性能。
我们探索了一种新颖的视频创作体验,即演示视频生成。给定一个演示视频和来自不同场景的上下文图像,我们生成一个物理上合理的视频,从上下文图像自然延续,并执行演示中的动作概念。为实现这一能力,我们提出了delta-Diffusion,这是一种自监督训练方法,通过有条件的未标记视频未来帧预测进行学习。与大多数现有的基于显式信号的视频生成控制不同,我们采用隐式潜在控制形式,以满足一般视频所需的最大灵活性和表现力。通过利用具有顶部外观瓶颈设计的视频基础模型,我们从演示视频中提取动作潜在因素,用于在生成过程中进行条件设置,最小程度地泄漏外观信息。实证结果表明,delta-Diffusion在人类偏好和大规模机器评估方面优于相关基线,并展示了朝着交互式世界模拟的潜力。可在https://delta-diffusion.github.io/ 上查看生成的视频样本。
大型语言模型以捕捉现实世界知识而闻名,使其在许多下游任务中表现出色。尽管近年来取得了进展,这些模型仍然容易出现常见的幻觉,导致它们生成不需要且事实不准确的文本。在这项工作中,我们提出了一种新颖的校准方法,可用于对抗幻觉。我们向模型的词汇表中添加了一个特殊的[IDK](“我不知道”)标记,并引入了一个将概率质量转移到[IDK]标记以修正错误预测的客观函数。这种方法使模型能够明确地表达其输出中的不确定性。我们评估了我们提出的方法在多个模型架构和事实性下游任务中的表现。我们发现,使用我们的方法训练的模型能够在以前容易出错的地方表达不确定性,同时只会略微损失编码知识。我们进一步对我们方法的多种变体进行了广泛的消融研究,并对我们方法的精确率-召回率权衡进行了详细分析。
随着大型语言模型(LLMs)规模的增加,将这些模型调整到特定任务或领域时会导致显著的计算开销和内存使用量。为了缓解这些挑战,人们提出了各种参数高效微调(PEFT)方法,通过训练一小组参数来进行模型权重的任务特定更新。在PEFT方法中,LoRA以其简单性和高效性脱颖而出,激发了一系列变体的发展。然而,LoRA及其后继者忽视了与目标任务无关或无用的知识,对模型性能造成不利影响,导致次优性。为了解决这一局限性,我们引入了基于知识感知奇异值调整(KaSA)的PEFT方法,利用奇异值分解(SVD)和知识感知奇异值来动态激活与当前任务相关的知识。我们在涵盖自然语言理解(NLU)、生成(NLG)、遵循指令和常识推理等任务的一系列LLMs上进行了大量实验。实验结果表明,KaSA在16个基准测试和4个合成数据集上始终优于FFT和其他14种流行的PEFT基准方法,突显了我们方法的有效性和适应性。我们的方法源代码可在https://github.com/juyongjiang/KaSA 上获取。
基于文本驱动的风格转移旨在将参考图像的风格与文本提示描述的内容合并。最近文本到图像模型的进展提高了风格转换的微妙程度,然而仍然存在重大挑战,特别是过度拟合参考风格、限制风格控制以及与文本内容不匹配。在本文中,我们提出了三种互补策略来解决这些问题。首先,我们引入了一种跨模态自适应实例归一化(AdaIN)机制,以更好地整合风格和文本特征,增强对齐。其次,我们开发了一种基于风格的无分类器引导(SCFG)方法,可以有选择性地控制风格元素,减少无关影响。最后,在早期生成阶段我们引入了一个教师模型,以稳定空间布局并减少伪影。我们的广泛评估表明,在风格转移质量和与文本提示的对齐方面取得了显著改进。此外,我们的方法可以集成到现有的风格转移框架中而无需微调。
在体验式人工智能中,为训练稳健的语言引导代理生成高质量数据一直是一个长期挑战。本文介绍了一种自我优化数据飞轮(SRDF),通过两个模型——指令生成器和导航器之间的协作,迭代地优化数据池,生成高质量且大规模的导航指令-轨迹对,而无需人为干预。具体而言,SRDF首先使用基础生成器创建初始数据池,用于训练基础导航器,然后将训练过的导航器应用于筛选数据池。这样产生了更高保真度的数据,用于训练更好的生成器,进而生成更高质量的数据,用于训练下一轮的导航器。这种飞轮建立了一个数据自我优化的过程,为大规模语言引导导航学习提供了持续改进且高效的数据集。我们的实验表明,在经过数轮飞轮迭代后,导航器在经典的R2R测试集上将性能边界从70%提升至78%的SPL,首次超越了人类表现(76%)。同时,这一过程产生了一个优越的生成器,其SPICE值从23.5提升至26.2,优于所有先前的VLN指令生成方法。最后,我们通过增加环境和指令多样性展示了我们方法的可扩展性,以及我们预训练导航器在各种下游导航任务中的泛化能力,各方面均大幅超越了现有方法。
图像翻译(IT)在各个领域具有巨大潜力,可以将图像中的文本内容翻译成各种语言。然而,现有数据集往往存在规模、多样性和质量方面的限制,制约了IT模型的开发和评估。为解决这一问题,我们引入了MIT-10M,这是一个大规模的多语言图像翻译平行语料库,包含超过1000万个图像文本对,源自真实数据,经过了大量数据清洗和多语言翻译验证。它包含了三种尺寸的84万张图像,28个类别任务,三个难度级别以及14种语言的图像文本对,这在现有数据集的基础上有了显著改进。我们进行了大量实验,评估和训练模型在MIT-10M上的表现。实验结果明确表明,我们的数据集在评估模型在现实世界中处理具有挑战性和复杂性的图像翻译任务时具有更高的适应性。此外,通过MIT-10M微调的模型性能相比基准模型提高了三倍,进一步证实了其优越性。