每日精选AI研究论文及翻译
自然语言经常难以准确地将位置和属性信息与多个实例关联起来,这限制了当前基于文本的视觉生成模型仅能处理包含少数主要实例的简单构图。为了解决这一局限性,本研究通过引入区域实例控制来增强扩散模型,其中每个实例由一个边界框和一个自由形式的标题配对控制。该领域的先前方法通常依赖于隐式位置编码或显式注意力蒙版来分离感兴趣的区域(ROIs),从而导致要么注入不准确的坐标,要么计算开销巨大。受目标检测中的ROI-Align启发,我们引入了一个称为ROI-Unpool的互补操作。ROI-Align和ROI-Unpool共同实现了对高分辨率特征图上明确、高效和准确的ROI操作。基于ROI-Unpool,我们提出了ROICtrl,这是一个适配器,可用于预训练的扩散模型,实现精确的区域实例控制。ROICtrl与社区微调的扩散模型兼容,也与现有的基于空间的附加组件(如ControlNet、T2I-Adapter)和基于嵌入的附加组件(如IP-Adapter、ED-LoRA)兼容,将它们的应用扩展到多实例生成。实验证明,ROICtrl在区域实例控制方面表现出优越性能,同时显著降低了计算成本。
许多真实世界用户查询(例如“如何制作蛋炒饭?”)可以从能够生成带有文本步骤和相应图像的响应系统中受益,类似于烹饪书。设计用于生成交错文本和图像的模型在确保这些模态内部和之间的一致性方面面临挑战。为了解决这些挑战,我们提出了ISG,一个用于交错文本和图像生成的全面评估框架。ISG利用场景图结构来捕捉文本和图像块之间的关系,评估响应的四个粒度级别:整体、结构、块级和图像特定。这种多层次评估允许对一致性、连贯性和准确性进行微妙评估,并提供可解释的问答反馈。结合ISG,我们引入了一个基准,ISG-Bench,涵盖了8个类别和21个子类别的1,150个样本。这个基准数据集包括复杂的语言-视觉依赖关系和黄金答案,有效评估模型在视觉中心任务上的表现,如风格转移,这是当前模型面临挑战的领域。使用ISG-Bench,我们展示了最近的统一视觉-语言模型在生成交错内容方面表现不佳。尽管组合方法将独立的语言和图像模型结合在一起在整体水平上比统一模型提高了111%,但它们在块和图像级别的表现仍然不理想。为了促进未来的工作,我们开发了ISG-Agent,一个基线代理,采用“计划-执行-优化”流水线来调用工具,实现了122%的性能提升。
保持身份的文本到视频(IPT2V)生成旨在创建具有一致人类身份的高保真度视频。这是视频生成中的重要任务,但对生成模型仍然是一个未解决的问题。本文在两个文献中尚未解决的方向上推动了IPT2V的技术前沿:(1)一个无需繁琐逐案微调的无调谐流程,以及(2)一个频率感知启发式保持身份的DiT控制方案。我们提出了ConsisID,一个无调谐DiT控制的可控IPT2V模型,以保持生成视频中的人类身份一致。受扩散变压器频率分析的先前发现启发,它在频率域中使用身份控制信号,其中面部特征可以分解为低频全局特征和高频固有特征。首先,从低频角度出发,我们引入了一个全局面部提取器,将参考图像和面部关键点编码为潜在空间,生成富含低频信息的特征。然后,将这些特征集成到网络的浅层中,以缓解与DiT相关的训练挑战。其次,从高频角度出发,我们设计了一个局部面部提取器,捕获高频细节并将其注入变压器块,增强模型保持细粒度特征的能力。我们提出了一种分层训练策略,利用频率信息进行身份保持,将普通的预训练视频生成模型转化为IPT2V模型。大量实验证明,我们的频率感知启发式方案为基于DiT的模型提供了最佳控制解决方案。由于这一方案,我们的ConsisID生成了高质量、保持身份的视频,朝着更有效的IPT2V迈出了一大步。
从文本提示生成高保真度的3D内容仍然是计算机视觉中的一个重要挑战,原因在于现有数据集的规模、多样性和注释深度有限。为了解决这个问题,我们引入了MARVEL-40M+,这是一个包含4000万文本注释的庞大数据集,涵盖了来自七个主要3D数据集的超过890万个3D资产。我们的贡献在于引入了一种新颖的多阶段注释流程,该流程整合了开源预训练的多视图VLMs和LLMs,自动生成从详细(150-200个词)到简洁语义标签(10-20个词)的多层描述。这种结构既支持细粒度的3D重建,又支持快速原型设计。此外,我们将源数据集中的人类元数据纳入我们的注释流程中,以在注释中添加领域特定信息,并减少VLM的幻觉。此外,我们开发了MARVEL-FX3D,一个两阶段的文本到3D流程。我们使用我们的注释对Stable Diffusion进行微调,并使用预训练的图像到3D网络在15秒内生成3D纹理网格。广泛的评估表明,MARVEL-40M+在注释质量和语言多样性方面明显优于现有数据集,GPT-4的胜率为72.41%,人类评估者的胜率为73.40%。
我们提出了CAT4D,一种从单目视频创建4D(动态3D)场景的方法。CAT4D利用在多种数据集上训练的多视角视频扩散模型,实现在任意指定摄像机姿势和时间戳下的新颖视角合成。结合一种新颖的采样方法,该模型可以将单目视频转换为多视角视频,通过优化可变形的3D高斯表示实现稳健的4D重建。我们展示了在新颖视角合成和动态场景重建基准上的竞争性表现,并突出了从真实或生成的视频生成4D场景的创造性能力。请查看我们的项目页面以获取结果和交互式演示:cat-4d.github.io。
图形用户界面(GUI)长期以来一直是人机交互的核心,提供了直观且视觉驱动的方式来访问和与数字系统交互。LLM的出现,特别是多模态模型,开启了GUI自动化的新时代。它们在自然语言理解、代码生成和视觉处理方面展现了卓越的能力。这为一代新型LLM大脑GUI代理铺平了道路,能够解释复杂的GUI元素,并根据自然语言指令自主执行动作。这些代理代表了一种范式转变,使用户能够通过简单的对话命令执行复杂的多步任务。它们的应用涵盖了网页导航、移动应用程序交互和桌面自动化,提供了一种变革性的用户体验,彻底改变了个人与软件的互动方式。这一新兴领域正在迅速发展,无论是在研究还是工业界都取得了重大进展。 为了系统地理解这一趋势,本文提出了LLM大脑GUI代理的综合调查,探讨了它们的历史演变、核心组件和先进技术。我们探讨了诸如现有GUI代理框架、为训练专门的GUI代理收集和利用数据、为GUI任务开发大型动作模型以及评估指标和基准的研究问题,以评估它们的有效性。此外,我们还研究了由这些代理驱动的新兴应用。通过详细分析,本调查确定了关键的研究空白,并概述了未来该领域的发展路线。通过整合基础知识和最新发展,本研究旨在指导研究人员和从业者克服挑战,释放LLM大脑GUI代理的全部潜力。
最近在辐射场重建方面取得的进展,如3D高斯飞溅(3DGS),通过用高斯基元的组合表示场景,实现了高质量的新视角合成和快速渲染。然而,3D高斯存在一些限制用于场景重建。在不显著增加高斯数量的情况下准确捕捉硬边缘是具有挑战性的,这会导致较大的内存占用。此外,它们难以表示平坦表面,因为它们在空间中扩散。没有手工制作的正则化器,它们往往会在实际表面周围不规则地分散。为了规避这些问题,我们引入了一种名为3D凸飞溅(3DCS)的新方法,它利用3D光滑凸体作为基元,从多视图图像中建模几何意义的辐射场。光滑凸形状比高斯更灵活,可以更好地表示具有硬边缘和密集体积的3D场景,使用更少的基元。借助我们高效的基于CUDA的光栅化器,3DCS在Mip-NeRF360、坦克与庙宇和深度混合等基准测试中比3DGS表现出更优异的性能。具体而言,我们的方法在PSNR上提高了高达0.81,在LPIPS上提高了0.026,同时保持高渲染速度并减少所需基元的数量。我们的结果突显了3D凸飞溅成为高质量场景重建和新视角合成的新标准的潜力。项目页面:convexsplatting.github.io。
文本到图像扩散模型产生令人印象深刻的结果,但对于希望精细控制的艺术家来说,这些工具令人沮丧。例如,一个常见的用例是在新颖环境中创建特定实例的图像,即“保持身份生成”。这种情境,以及许多其他任务(例如,重新照明),是图像+文本条件生成模型的自然选择。然而,目前缺乏高质量的配对数据来直接训练这样的模型。我们提出了扩散自蒸馏,这是一种利用预训练的文本到图像模型为文本条件的图像到图像任务生成自己数据集的方法。我们首先利用文本到图像扩散模型的上下文生成能力创建图像网格,并借助视觉语言模型的帮助筛选出一个大型配对数据集。然后,我们通过使用筛选后的配对数据集对文本到图像模型进行微调,将其转变为文本+图像到图像模型。我们证明,扩散自蒸馏在一系列保持身份生成任务中优于现有的零次调优方法,并且在不需要测试时优化的情况下,与每个实例调优技术竞争力相当。
最近,扩散模型作为一种强大的生成技术,用于机器人策略学习,能够建模多模式动作分布。利用其端到端自动驾驶的能力是一个有前途的方向。然而,在机器人扩散策略中存在大量去噪步骤,以及交通场景更加动态、开放的特性,这给实时速度下生成多样化驾驶动作带来了重大挑战。为了解决这些挑战,我们提出了一种新颖的截断扩散策略,该策略结合了先验的多模式锚点,并截断了扩散进程,使模型能够从锚定的高斯分布学习去噪到多模式驾驶动作分布。此外,我们设计了一种高效的级联扩散解码器,以增强与条件场景上下文的交互。所提出的模型DiffusionDrive相比于基本扩散策略,去噪步骤减少了10倍,在仅两步中提供了更优异的多样性和质量。在面向规划的NAVSIM数据集上,使用对齐的ResNet-34骨干网络,DiffusionDrive在没有花哨技巧的情况下达到了88.1 PDMS,创造了新纪录,同时在NVIDIA 4090上以每秒45帧的实时速度运行。在具有挑战性的场景上的定性结果进一步证实了DiffusionDrive能够稳健地生成多样化且合理的驾驶动作。代码和模型将在https://github.com/hustvl/DiffusionDrive 上提供。
现代创意产业中,3D角色至关重要,但使它们具有动画性往往需要大量手动工作,如绑定和蒙皮。现有的自动绑定工具存在一些限制,包括需要手动注释、刚性骨架拓扑结构以及在不同形状和姿势之间的有限泛化能力。另一种方法是生成可动画化的化身,预先绑定到一个带有骨骼模板的网格上。然而,这种方法通常缺乏灵活性,通常仅限于逼真的人体形状。为了解决这些问题,我们提出了Make-It-Animatable,这是一种新颖的数据驱动方法,可以使任何3D人形模型在不到一秒的时间内准备好进行角色动画,无论其形状和姿势如何。我们的统一框架生成高质量的混合权重、骨骼和姿势变换。通过结合基于粒子的形状自动编码器,我们的方法支持各种3D表示,包括网格和3D高斯斑点。此外,我们采用粗到细的表示和结构感知建模策略,以确保对具有非标准骨架结构的角色的准确性和鲁棒性。我们进行了大量实验证明我们框架的有效性。与现有方法相比,我们的方法在质量和速度上都取得了显著改进。
在图像生成领域迅速发展中,视觉自回归(VAR)建模因其创新的下一级别预测方法而受到广泛关注。这一范式在效率、可扩展性和零样本泛化方面带来了显著改进。然而,VAR固有的由粗到细的特性引入了一个较长的标记序列,导致了内存消耗和计算冗余的增加。为解决这些瓶颈,我们提出了协作解码(CoDe),这是一种针对VAR框架量身定制的新型高效解码策略。CoDe基于两个关键观察结果:在较大尺度上参数需求大幅降低,以及不同尺度间存在独特的生成模式。基于这些见解,我们将多尺度推理过程划分为大模型和小模型之间的无缝协作。大模型充当“起草者”,专门负责在较小尺度生成低频内容,而小模型充当“完善者”,仅专注于在较大尺度预测高频细节。这种协作方式在保持图像质量几乎不受影响的同时实现了显著的效率提升:CoDe实现了1.7倍的加速,将内存使用量减少约50%,并将图像质量从FID从1.95略微增加至1.98。当进一步减少起草步骤时,CoDe可以实现令人印象深刻的2.9倍加速比,达到在单个NVIDIA 4090 GPU上以256x256分辨率生成41张图像/秒,同时保持出色的FID为2.27。代码可在https://github.com/czg1225/CoDe上找到。
个性化图像生成需要文本到图像生成模型,这些模型捕捉参考主题的核心特征,以便在不同上下文中实现可控生成。现有方法面临挑战,因为训练要求复杂、推断成本高、灵活性有限,或者以上述问题的组合。在本文中,我们介绍了DreamCache,这是一种可扩展的方法,用于高效且高质量的个性化图像生成。通过缓存少量来自部分层和预训练扩散去噪器的单个时间步的参考图像特征,DreamCache通过轻量级、经过训练的调节适配器实现对生成图像特征的动态调制。DreamCache实现了最先进的图像和文本对齐,利用数量级更少的额外参数,并且比现有模型更具计算效率和多功能性。
人体姿势在数字时代起着至关重要的作用。尽管最近的研究在理解和生成人体姿势方面取得了令人瞩目的进展,但它们通常仅支持单一控制信号模态,并且在孤立环境中运行,限制了它们在现实场景中的应用。本文提出了UniPose,这是一个利用大型语言模型(LLMs)来理解、生成和编辑人体姿势的框架,涵盖图像、文本和3D SMPL姿势等多种模态。具体而言,我们应用姿势分词器将3D姿势转换为离散的姿势标记,实现与统一词汇表中的LLM的无缝集成。为进一步增强对细粒度姿势感知能力,我们为UniPose提供了一组视觉编码器,其中包括一个特定于姿势的视觉编码器。受益于统一的学习策略,UniPose有效地在不同的与姿势相关的任务之间传递知识,适应未知任务,并展现出扩展的能力。这项工作是构建姿势理解、生成和编辑通用框架的首次尝试。广泛的实验突显了UniPose在各种与姿势相关任务中具有竞争力甚至优越的表现。
感知和理解是计算机视觉的两大支柱。虽然多模态大型语言模型(MLLM)展示了出色的视觉理解能力,但它们可能缺乏准确的感知能力,例如,当前最先进的模型 Qwen2-VL 仅在 COCO 数据集上实现了 43.9 的召回率,限制了许多需要结合感知和理解的任务。在这项工作中,我们旨在从模型设计和数据开发的角度弥合这一感知差距。我们首先介绍了 ChatRex,这是一个具有解耦感知设计的 MLLM。我们不是让LLM直接预测框坐标,而是将来自通用提议网络的输出框输入LLM,使其输出相应的框索引以表示其检测结果,将回归任务转变为LLM更熟练处理的检索型任务。从数据角度来看,我们构建了一个完全自动化的数据引擎,并构建了 Rexverse-2M 数据集,具有多个粒度以支持感知和理解的联合训练。经过标准的两阶段训练,ChatRex展示了强大的感知能力,同时保持了多模态理解性能。这两种能力的结合同时解锁了许多有吸引力的应用,展示了感知和理解在MLLM中的互补作用。代码可在 https://github.com/IDEA-Research/ChatRex 获取。
为视频生成音效通常需要创作艺术性音效,这些音效与现实来源有明显不同,并需要在声音设计中灵活控制。为解决这一问题,我们引入了MultiFoley,这是一个专为视频引导声音生成而设计的模型,通过文本、音频和视频支持多模态调节。给定一个无声视频和一个文本提示,MultiFoley允许用户创建清晰的声音(例如,滑板车轮旋转时没有风声)或更异想天开的声音(例如,让狮子的吼声听起来像猫的喵喵声)。MultiFoley还允许用户从声音效果(SFX)库或部分视频中选择参考音频进行调节。我们模型的一个关键创新之处在于它在互联网视频数据集和专业SFX录音上进行联合训练,实现了高质量、全频带(48kHz)音频生成。通过自动评估和人类研究,我们展示了MultiFoley成功地生成了同步高质量声音,跨越各种条件输入,并且优于现有方法。请查看我们的项目页面以获取视频结果:https://ificl.github.io/MultiFoley/
在这项工作中,我们引入了一个名为omega的单一参数,用于有效地控制基于扩散的合成中的粒度。该参数被整合到扩散模型反向过程的去噪步骤中。我们的方法在推理过程中不需要模型重新训练、架构修改或额外的计算开销,但能够精确控制生成输出中的细节级别。此外,可以应用具有不同omega值的空间掩模或去噪时间表,实现区域特定或时间步特定的粒度控制。通过从控制信号或参考图像中获取的图像组成的先验知识,进一步促进了为特定对象上的粒度控制创建精确omega掩模。为突出该参数在控制微妙细节变化中的作用,该技术被命名为Omegance,结合了"omega"和"nuance"。我们的方法在各种图像和视频合成任务中展现出令人印象深刻的性能,并可适应先进的扩散模型。代码可在https://github.com/itsmag11/Omegance 上找到。
推测解码(SD)已成为加速大型语言模型推理速度的重要技术。传统的SD方法采用固定的草稿长度,忽略了跨任务的标记生成难度。因此,在本文中,我们解决了这一问题,并引入了SVIP - 一种针对推测解码系统的基于困难感知的动态草稿长度策略。基于草稿标记接受率的理论下限及其推理时间近似,SVIP根据每个草稿标记分布的熵自适应地确定草稿序列的长度。对主流SD基准和框架的实验结果表明,SVIP的性能优越,相比基线SD方法在SpecBench上实现了高达20\%的墙时加速,并在长篇生成长达8K标记的MT-Bench上实现了60\%的加速。此外,SVIP完全无需训练,与任何生成草稿标记的自回归SD方法兼容。实验结果还表明,SVIP在GliDe & CaPE和EAGLE-2的基础上持续提升墙时性能。
最近关于视频大型语言模型(VideoLLM)的研究主要集中在模型架构和训练数据集上,而用户与模型之间的交互格式则鲜有探讨。在现有研究中,用户通常通过将整个视频和一个查询作为输入与VideoLLMs进行交互,随后模型生成响应。这种交互格式限制了VideoLLMs在诸如直播理解等场景中的应用,其中视频不会结束且需要实时响应,同时也导致在需要定位视频片段的时间敏感任务上表现不佳。本文着重于视频文本二重奏交互格式。这种交互格式的特点是视频的连续播放,用户和模型都可以在视频播放过程中的任何位置插入文本消息。当文本消息结束时,视频继续播放,类似于二位表演者的对唱。我们构建了MMDuetIT,一个旨在使VideoLLMs适应视频文本二重奏交互格式的视频文本训练数据集。我们还引入了多答案基于视频的问答(MAGQA)任务,以评估VideoLLMs的实时响应能力。在MMDuetIT上训练后,MMDuet表明采用视频文本二重奏交互格式使模型在各种时间敏感任务中取得了显著改进(YouCook2密集视频字幕的76% CIDEr,QVHighlights亮点检测的90% mAP和Charades-STA时间视频定位的25% [email protected]),并且还使VideoLLMs能够在视频播放时实时回复。代码、数据和演示可在以下链接找到:https://github.com/yellow-binary-tree/MMDuet。
在脑部磁共振成像中识别关键的病理特征对于胶质瘤患者的长期生存至关重要。然而,手动分割耗时且需要专家干预,容易受到人为错误的影响。因此,已经投入了大量研究来开发能够准确分割3D多模态脑部磁共振扫描中肿瘤的机器学习方法。尽管取得了进展,但最先进的模型通常受到其训练数据的限制,引发了对其在应用于可能引入分布转移的不同人群时可靠性的担忧。这种转移可能源自较低质量的磁共振成像技术(例如在撒哈拉以南非洲)或患者人口统计数据的变化(例如儿童)。BraTS-2024挑战提供了一个平台来解决这些问题。本研究介绍了我们在BraTS-2024 SSA和儿科肿瘤任务中使用MedNeXt、全面模型集成和彻底后处理进行肿瘤分割的方法论。我们的方法在未见过的验证集上表现出色,BraTS-2024 SSA数据集上的平均Dice相似系数(DSC)为0.896,BraTS儿科肿瘤数据集上的平均DSC为0.830。此外,我们的方法在BraTS-2024 SSA数据集上的平均Hausdorff距离(HD95)为14.682,在BraTS儿科数据集上的平均HD95为37.508。我们的GitHub存储库可以在以下链接中访问:项目存储库:https://github.com/python-arch/BioMbz-Optimizing-Brain-Tumor-Segmentation-with-MedNeXt-BraTS-2024-SSA-and-Pediatrics
盲目的全能图像恢复模型旨在从输入中受损的图像中恢复高质量图像,而这些模型需要在训练阶段定义所有可能的退化类型,同时对未知的退化类型的泛化能力有限,这限制了它们在复杂情况下的实际应用。在本文中,我们提出了一种简单但有效的自适应盲目全能恢复(ABAIR)模型,可以处理多种退化,对未知的退化类型具有良好的泛化能力,并通过训练少量参数有效地整合新的退化类型。首先,我们在大量自然图像数据集上训练基准模型,这些图像带有多种合成退化,并增加了一个分割头来估计每个像素的退化类型,从而产生一个强大的骨干网络,能够泛化到各种退化。其次,我们通过独立的低秩适配器将基准模型调整到不同的图像恢复任务。第三,我们学习通过灵活轻量的退化估计器来自适应地组合适配器以适用于多样的图像。我们的模型在处理特定失真方面非常强大,同时在适应复杂任务方面非常灵活,不仅在五项和三项IR设置上远远优于现有技术,而且在对未知退化和复合失真的泛化方面也有所改进。
大型语言模型(LLMs)如GPT-3、PaLM和Llama的快速发展显著改变了自然语言处理,展示了在理解和生成语言方面的显著能力。然而,这些模型在需要复杂推理的任务中通常表现不佳,特别是在数学问题解决方面,部分原因是由于缺乏用于训练复杂推理能力所需的大规模、高质量、领域特定的数据集。为了解决这一限制,我们引入了基于模板的数据生成(TDG)方法,这是一种利用LLMs(GPT-4)自动生成参数化元模板的新方法,然后用于合成大量高质量问题和解决方案。利用TDG,我们创建了TemplateMath Part I: TemplateGSM数据集,包括超过700万个合成生成的小学数学问题,每个问题都附带基于代码和自然语言的解决方案,有潜力生成更多问题。该数据集缓解了大规模数学数据集的稀缺问题,并为在数学推理中预训练、微调和评估LLMs提供了宝贵资源。我们的方法不仅能够生成几乎无限的数据,还通过使用GPT-4进行元模板生成,将数据增强提升到一个新水平,确保多样化和高质量的问题结构。TemplateMath Part I: TemplateGSM数据集可在https://huggingface.co/datasets/math-ai/TemplateGSM公开获取。代码可在https://github.com/iiis-ai/TemplateMath获取。
最近扩散模型的进展使生成图像编辑变得更加可访问,实现了创意编辑,但也引发了伦理关切,特别是涉及对人像进行恶意编辑,威胁隐私和身份安全的问题。现有的保护方法主要依赖于对抗性扰动来抵消编辑,但往往无法应对多样化的编辑请求。我们提出了一种名为FaceLock的新颖人像保护方法,通过优化对抗性扰动来破坏或显著改变生物特征信息,使编辑输出在生物特征上不可识别。FaceLock将人脸识别和视觉感知整合到扰动优化中,以提供对各种编辑尝试的强大保护。我们还指出了常用评估指标中的缺陷,并揭示了它们如何被操纵,强调了对保护的可靠评估的必要性。实验证明,FaceLock在防御恶意编辑方面优于基线,并且对净化技术具有稳健性。消融研究证实了其稳定性以及在基于扩散的编辑算法中的广泛适用性。我们的工作推动了生物特征防御的发展,并为图像编辑中的隐私保护实践奠定了基础。代码可在以下链接获取:https://github.com/taco-group/FaceLock。