每日精选AI研究论文及翻译
最近在多模态大型语言模型(MLLMs)方面取得了显著进展,然而,这些通用领域的MLLMs通常在理解和有效与用户界面(UI)屏幕交互方面表现不佳。在本文中,我们提出了Ferret-UI,这是一种专为增强对移动UI屏幕理解而定制的新型MLLM,具备指代、基准和推理能力。鉴于UI屏幕通常呈现更长的纵横比,并包含比自然图像更小的感兴趣对象(例如图标、文本),我们在Ferret上增加了“任意分辨率”功能,以放大细节并利用增强的视觉特征。具体而言,根据原始纵横比将每个屏幕分为2个子图像(即,纵向分割适用于纵向屏幕,横向分割适用于横向屏幕)。在发送到LLMs之前,这两个子图像分别进行编码。我们从广泛的基本UI任务中精心收集训练样本,例如图标识别、查找文本和小部件列表。这些样本经过格式化,附带区域注释以便于精确指代和基准。为增强模型的推理能力,我们进一步编制了一个包含详细描述、感知/交互对话和功能推断等高级任务的数据集。在经过精心筛选的数据集上训练后,Ferret-UI展现出对UI屏幕的出色理解能力和执行开放式指令的能力。为了评估模型,我们建立了一个全面的基准,涵盖了所有前述任务。Ferret-UI不仅在大多数开源UI MLLMs方面表现优异,而且在所有基本UI任务上均超过了GPT-4V。
最近在文本到视频生成(T2V)领域取得了显著进展,成功地从文本描述中合成了高质量的通用视频。T2V中一个被大多数人忽视的问题是现有模型未能充分编码现实世界的物理知识,因此生成的视频往往运动有限且变化不足。本文提出了MagicTime,一种变形延时视频生成模型,从延时视频中学习现实世界的物理知识,并实现变形生成。首先,我们设计了一个MagicAdapter方案来解耦空间和时间训练,从变形视频中编码更多的物理知识,并转换预训练的T2V模型以生成变形视频。其次,我们引入了一种动态帧提取策略,以适应变形延时视频,这些视频具有更广泛的变化范围,并涵盖戏剧性的物体变形过程,因此体现了比通用视频更多的物理知识。最后,我们引入了一个Magic文本编码器来改善对变形视频提示的理解。此外,我们创建了一个名为ChronoMagic的延时视频文本数据集,专门策划用于释放变形视频生成能力。大量实验证明了MagicTime在生成高质量和动态变形视频方面的优越性和有效性,表明延时视频生成是通向构建物理世界变形模拟器的一个有前途的途径。
在个人内容的有效编辑中扮演着关键角色,使个人能够表达创意,在视觉故事中编织引人入胜的叙事,并提升视觉内容的整体质量和影响力。因此,在这项工作中,我们介绍了SwapAnything,这是一个新颖的框架,可以用参考给出的个性化概念替换图像中的任何对象,同时保持上下文不变。与现有的个性化主题替换方法相比,SwapAnything具有三个独特优势:(1) 对任意对象和部分进行精确控制,而不是主要主题,(2) 更忠实地保留上下文像素,(3) 更好地将个性化概念适应于图像。首先,我们提出了有针对性的变量交换,通过对潜在特征图进行区域控制,并交换掩码变量以忠实地保留上下文并进行初始语义概念交换。然后,我们引入外观适应,以在图像生成过程中将语义概念无缝地调整到原始图像中,包括目标位置、形状、风格和内容。人类和自动评估的广泛结果显示,我们的方法在个性化交换方面显著优于基线方法。此外,SwapAnything展示了其在单个对象、多个对象、部分对象和跨领域交换任务中的精确和忠实交换能力。SwapAnything在基于文本的交换以及超越交换的任务,如对象插入,也取得了出色的性能。
最近扩散式生成图像编辑的进展引发了一场深刻的革命,重塑了图像外推和修复任务的格局。尽管取得了这些进展,但该领域仍然面临固有挑战,包括:i) 质量较差;ii) 一致性差;iii) 不足的指令遵循;iv) 生成效率亚优。为了解决这些障碍,我们提出了ByteEdit,这是一个创新的反馈学习框架,经过精心设计,旨在提升、遵循和加速生成图像编辑任务。ByteEdit 无缝集成了专注于提升美学和图像文本对齐的图像奖励模型,同时引入了一个针对促进输出一致性的密集像素级奖励模型。此外,我们提出了一种开创性的对抗性和渐进式反馈学习策略,以加快模型的推断速度。通过广泛的大规模用户评估,我们展示了ByteEdit 在生成质量和一致性方面均超越了领先的生成图像编辑产品,包括 Adobe、Canva 和美图。与基准模型相比,ByteEdit-Outpainting 在质量和一致性方面分别提升了 388% 和 135%。实验证明,我们的加速模型在质量和一致性方面保持了出色的性能结果。
扩散模型已经彻底改变了图像生成领域,导致高质量模型和多样化下游应用的大量涌现。然而,尽管取得了重大进展,当前竞争性解决方案仍然存在几个限制,包括视觉质量较差、缺乏审美吸引力以及推理效率低下,而且目前尚无全面解决方案。为了解决这些挑战,我们提出了UniFL,这是一个利用反馈学习全面增强扩散模型的统一框架。UniFL以其通用、有效和可泛化的特点脱颖而出,适用于各种扩散模型,如SD1.5和SDXL。值得注意的是,UniFL包含三个关键组成部分:感知反馈学习,用于增强视觉质量;解耦反馈学习,用于提高审美吸引力;对抗反馈学习,用于优化推理速度。深入实验和广泛用户研究验证了我们提出的方法在提升生成模型质量和加速方面的卓越性能。例如,UniFL在生成质量方面比ImageReward高出17%的用户偏好,并且在4步推理中的性能超过了LCM和SDXL Turbo分别为57%和20%。此外,我们已经验证了我们的方法在包括Lora、ControlNet和AnimateDiff在内的下游任务中的有效性。
在视频中恢复密集且长距离的像素运动是一个具有挑战性的问题。部分困难源于三维到二维投影过程,导致二维运动领域出现遮挡和不连续性。虽然二维运动可能很复杂,但我们认为潜在的三维运动通常是简单且低维的。在这项工作中,我们提出通过估计三维空间中的点轨迹来缓解图像投影引起的问题。我们的方法名为空间追踪器,通过单目深度估计器将二维像素提升到三维,使用三平面表示高效地表示每帧的三维内容,并利用变换器执行迭代更新来估计三维轨迹。在三维中进行跟踪使我们能够利用尽可能刚性(ARAP)约束,同时学习将像素聚类到不同刚性部分的刚性嵌入。广泛的评估显示,我们的方法在质量和数量上都取得了最先进的跟踪性能,特别是在诸如平面外旋转等具有挑战性的场景中。
利用细节和控制生成更高分辨率的以人为中心的场景仍然是现有文本到图像扩散模型面临的挑战。这一挑战源自有限的训练图像尺寸、文本编码器容量(有限令牌)以及生成涉及多个人的复杂场景的固有困难。虽然当前方法尝试解决仅限于训练尺寸的限制,但通常会产生带有严重伪影的以人为中心的场景。我们提出了BeyondScene,这是一个新颖的框架,克服了先前的限制,利用现有预训练的扩散模型生成精美的更高分辨率(超过8K)的以人为中心的场景,具有出色的文本-图像对应性和自然性。BeyondScene采用分阶段和分层的方法,首先生成一个详细的基础图像,专注于实例创建中关键要素,用于多个人和扩散模型令牌限制之外的详细描述,然后将基础图像无缝转换为超出训练图像尺寸的输出,并通过我们提出的实例感知分层扩大过程,该过程包括我们提出的高频注入前向扩散和自适应联合扩散,融合了文本和实例感知的细节。BeyondScene在与详细文本描述和自然性的对应方面超越了现有方法,为超越预训练扩散模型容量的更高分辨率以人为中心的场景创建提供了可能,而无需昂贵的重新训练。项目页面:https://janeyeon.github.io/beyond-scene。
随着大型语言模型(LLMs)的成功,最近将视觉模型整合到LLMs中构建视觉-语言基础模型引起了更多关注。然而,现有基于LLMs的大型多模态模型(例如Video-LLaMA,VideoChat)只能处理有限数量的帧以进行短视频理解。在本研究中,我们主要专注于设计一种高效且有效的模型,用于长期视频理解。与大多数现有工作一样,我们提出通过在线方式处理视频,并将过去的视频信息存储在内存库中。这使得我们的模型可以参考历史视频内容进行长期分析,而不会超出LLMs的上下文长度限制或GPU内存限制。我们的内存库可以轻松集成到当前的多模态LLMs中,具有即插即用的特点。我们在各种视频理解任务上进行了大量实验,如长视频理解、视频问答和视频字幕生成,我们的模型在多个数据集上均取得了最先进的性能。代码可在https://boheumd.github.io/MA-LMM/找到。
在许多应用中,建模和渲染逼真化身是至关重要的。然而,现有的从视觉观察中构建3D化身的方法往往难以重建穿着衣物的人类。我们引入了PhysAvatar,这是一个结合了逆渲染和逆物理的新颖框架,可以自动估计人类的形状和外观,以及他们衣物的物理参数,通过多视角视频数据。为此,我们采用了基于网格对齐的4D高斯技术进行时空网格跟踪,以及基于物理的逆渲染器来估计内在材料属性。PhysAvatar集成了一个物理模拟器,以原则性的方式使用基于梯度的优化来估计服装的物理参数。这些新颖的能力使PhysAvatar能够在训练数据中未见的运动和光照条件下,为穿着宽松衣物的化身创建高质量的新视角渲染。这标志着使用基于物理的逆渲染和物理学的数字人类建模迈出了重要的一步。我们的项目网站位于:https://qingqing-zhao.github.io/PhysAvatar
在快速发展的生成模型领域中,高效且高保真度的文本到图像扩散系统的开发代表着一个重要的前沿。本研究介绍了YaART,这是一个新颖的生产级文本到图像级联扩散模型,利用人类反馈强化学习(RLHF)来对齐人类偏好。在YaART的开发过程中,我们特别关注模型和训练数据集大小的选择,这些方面之前并未系统地针对文本到图像级联扩散模型进行研究。特别是,我们全面分析了这些选择如何影响训练过程的效率以及生成图像的质量,这在实践中非常重要。此外,我们证明了在高质量图像较小数据集上训练的模型可以成功地与在较大数据集上训练的模型竞争,建立了一个更高效的扩散模型训练场景。从质量的角度来看,YaART在许多现有的最先进模型中一直是用户一致偏好的选择。
本文介绍了MoMA:一种开放词汇、无需训练的个性化图像模型,具有灵活的零样本能力。随着基础文本到图像模型的快速发展,对强大的图像到图像翻译的需求不断增长。为了满足这一需求,MoMA专注于以主题驱动的个性化图像生成。利用开源的多模态大型语言模型(MLLM),我们训练MoMA扮演双重角色,既是特征提取器又是生成器。这种方法有效地将参考图像和文本提示信息相结合,产生有价值的图像特征,促进图像扩散模型。为了更好地利用生成的特征,我们进一步引入了一种新颖的自注意力快捷方式,将图像特征有效地传输到图像扩散模型,提高生成图像中目标对象的相似性。显著地,作为一个无需调整的即插即用模块,我们的模型仅需要一张参考图像,就能在生成的图像中表现出高细节保真度、增强的身份保留和提示忠实度,胜过现有方法。我们的工作是开源的,从而为这些进展提供了普遍访问。
我们提出了Diffusion-KTO,这是一种新颖的方法,用于通过将对齐目标定义为最大化期望人类效用来对齐文本到图像扩散模型。由于这一目标适用于每一代独立地,Diffusion-KTO不需要收集昂贵的成对偏好数据,也不需要训练复杂的奖励模型。相反,我们的目标需要简单的每个图像的二进制反馈信号,例如喜欢或不喜欢,这些信号是丰富可获得的。经过Diffusion-KTO的微调后,文本到图像扩散模型在人类判断和自动评估指标(如PickScore和ImageReward)方面表现优越,超过了现有技术,包括监督微调和Diffusion-DPO。总的来说,Diffusion-KTO释放了利用易获得的每个图像二进制信号的潜力,并扩大了将文本到图像扩散模型与人类偏好对齐的适用性。
Transformer已经在计算机视觉和自然语言处理(NLP)领域推动了进展。然而,巨大的计算复杂性限制了它们在长上下文任务中的应用,比如高分辨率图像生成。本文介绍了一系列从NLP中使用的RWKV模型改编而来的架构,针对应用于图像生成任务的扩散模型进行了必要的修改,称为Diffusion-RWKV。与具有Transformer的扩散类似,我们的模型旨在高效处理序列中的patchnified输入,并具有额外条件,同时能够有效地扩展,适应大规模参数和广泛数据集。其独特优势在于降低了空间聚合复杂性,使其在处理高分辨率图像时异常擅长,从而消除了窗口化或组缓存操作的必要性。对有条件和无条件图像生成任务的实验结果表明,Diffusion-RWKV在FID和IS指标上表现与现有的基于CNN或Transformer的扩散模型相媲美甚至超越,同时显著减少了总计算FLOP使用量。
最近扩散模型的进展展示了在基于文本提示的情况下编辑2D图像方面的显著熟练度。然而,将这些技术扩展到编辑神经辐射场(NeRF)中的场景是复杂的,因为编辑单个2D帧可能导致多个视图之间的不一致性。我们的关键见解是,NeRF场景的几何形状可以作为整合这些2D编辑的桥梁。利用这种几何形状,我们使用一个深度条件的ControlNet来增强每个2D图像修改的连贯性。此外,我们引入了一种修补方法,利用NeRF场景的深度信息将2D编辑分布到不同的图像中,确保对错误和重采样挑战具有鲁棒性。我们的结果显示,这种方法比现有的主流基于文本的NeRF场景编辑方法实现了更一致、栩栩如生和详细的编辑。
长视频问答是一个具有挑战性的任务,涉及识别短期活动并推理其细粒度关系。最先进的视频大型语言模型(vLLMs)因其在新任务上展现出的新兴能力而被认为是一种可行的解决方案。然而,尽管在数百万短短几秒钟的视频上进行了训练,vLLMs 无法理解几分钟长的视频并准确回答有关其的问题。为了解决这一局限性,我们提出了一种轻量级和自监督的方法,即关键帧条件长视频-LLM(Koala),它引入了可学习的时空查询,以使预训练的 vLLMs 能够泛化到更长的视频。我们的方法引入了两个新的分词器,这些分词器以从稀疏视频关键帧计算的视觉标记为条件,用于理解短视频和长视频片段。我们在 HowTo100M 上训练了我们提出的方法,并在零样本长视频理解基准测试中展示了其有效性,在所有任务中的绝对准确度上超过最先进的大型模型 3 - 6%。令人惊讶的是,我们还凭经验证明,我们的方法不仅帮助预训练的 vLLM 理解长视频,还提高了其在短期动作识别上的准确性。