每日精选AI研究论文及翻译
生成式人工智能在近年来取得了快速进展,在多模态理解和代码生成方面实现了前所未有的能力。这可以实现一种新的前端开发范式,其中多模态语言模型可以直接将视觉设计转换为代码实现。在这项工作中,我们将其形式化为一个Design2Code任务,并进行全面的基准测试。具体而言,我们手动策划了一个由484个多样化的现实世界网页构成的基准测试集,并开发了一组自动评估指标,以评估当前多模态语言模型生成代码实现的能力,这些代码实现可以直接呈现为给定参考网页,输入为屏幕截图。我们还结合全面的人工评估来补充自动评估指标。我们开发了一套多模态提示方法,并展示了它们在GPT-4V和Gemini Pro Vision上的有效性。我们进一步微调了一个开源的Design2Code-18B模型,成功匹配了Gemini Pro Vision的性能。人工评估和自动指标显示,与其他模型相比,GPT-4V在这项任务中表现最佳。此外,注释者认为GPT-4V生成的网页在视觉外观和内容方面可以替代原始参考网页的情况占49%;也许令人惊讶的是,在64%的情况下,GPT-4V生成的网页被认为比原始参考网页更好。我们的细分指标显示,开源模型在从输入网页中召回视觉元素和生成正确布局设计方面大多落后,而文本内容和着色等方面可以通过适当的微调大幅改善。
扩散模型通过将数据从噪声中反向转换而创建数据,已成为处理高维感知数据(如图像和视频)的强大生成建模技术。矫正流是一种最近提出的生成模型形式,它将数据和噪声直接连接在一条直线上。尽管具有更好的理论性质和概念上的简单性,但它尚未被明确确立为标准实践。在这项工作中,我们改进了现有的噪声采样技术,用于训练矫正流模型,通过将其偏向感知相关尺度。通过大规模研究,我们展示了这种方法相对于已建立的扩散公式在高分辨率文本到图像合成中的卓越性能。此外,我们提出了一种新颖的基于变压器的架构,用于文本到图像生成,该架构使用两种模态的独立权重,并实现了图像和文本标记之间信息的双向流动,提高了文本理解、排版和人类偏好评分。我们证明了这种架构遵循可预测的缩放趋势,并将较低的验证损失与通过各种指标和人类评估衡量的改进的文本到图像合成相关联。我们的最大模型胜过了最先进的模型,并将公开提供我们的实验数据、代码和模型权重。
基于图像的虚拟试穿(VTON)旨在生成一个穿着商店服装的目标人物图像,是一项具有挑战性的图像合成任务,不仅要求穿着的人物具有高保真度,还要完整保留服装细节。为了解决这个问题,我们提出了一种名为Outfitting over Try-on Diffusion(OOTDiffusion)的方法,利用预训练的潜在扩散模型的能力,并设计了一种新颖的网络架构,用于实现逼真且可控的虚拟试穿。在没有显式变形过程的情况下,我们提出了一种Outfitting UNet来学习服装细节特征,并通过我们提出的Outfitting Fusion将它们与目标人体融合在扩散模型的去噪过程中。为了进一步增强Outfitting UNet的可控性,我们在训练过程中引入了Outfitting Dropout,这使我们能够通过无分类器指导来调整服装特征的强度。我们在VITON-HD和Dress Code数据集上进行了全面实验,结果表明OOTDiffusion能够高效生成任意人物和服装图像的高质量穿着图像,其在保真度和可控性方面优于其他VTON方法,显示了虚拟试穿领域的令人印象深刻的突破。我们的源代码可在https://github.com/levihsu/OOTDiffusion 获取。
多模型的发展标志着机器理解视频迈出了重要的一步。这些模型已经显示出在分析短视频剪辑方面很有前景。然而,当涉及到像电影这样的更长格式时,它们经常表现不佳。主要障碍在于缺乏高质量、多样化的视频数据以及收集或标注此类数据所需的大量工作。面对这些挑战,我们提出了MovieLLM,这是一个旨在为长视频创建合成高质量数据的新颖框架。该框架利用了GPT-4和文本到图像模型的强大能力,生成详细的剧本和相应的视觉效果。我们的方法突出表现在其灵活性和可扩展性上,使其成为传统数据收集方法的优越选择。我们广泛的实验证实,由MovieLLM生成的数据显著提高了多模型在理解复杂视频叙事方面的性能,克服了现有数据集在稀缺性和偏见方面的局限性。
最近,基于优秀的文本到图像生成技术,视频生成取得了显著的快速发展。在这项工作中,我们提出了一个名为AtomoVideo的图像到视频生成的高保真框架。通过多粒度图像注入,我们实现了生成视频与给定图像更高的保真度。此外,由于高质量的数据集和训练策略,我们在保持优越的时间一致性和稳定性的同时实现了更大的运动强度。我们的架构灵活地扩展到视频帧预测任务,通过迭代生成实现长序列预测。此外,由于适配器训练的设计,我们的方法可以很好地与现有的个性化模型和可控模块结合。通过定量和定性评估,AtomoVideo相对于流行方法取得了优越的结果,更多示例可在我们的项目网站上找到:https://atomo-video.github.io/。
大型语言模型(LLMs)面临巨大挑战,因为常用Transformer架构的计算和内存需求过高。虽然状态空间模型(SSM)是一种新型基础网络架构,具有较低的计算复杂度,但它们的性能尚未完全能与Transformers相媲美。本文介绍了DenseSSM,一种增强SSM中隐藏信息流动的新方法。通过有选择地将浅层隐藏状态集成到更深层,DenseSSM保留了对最终输出至关重要的细粒度信息。增强了密集连接的DenseSSM仍保持了训练的并行性和推理效率。该方法可广泛应用于各种SSM类型,如RetNet和Mamba。在相似的模型大小下,DenseSSM取得了显著的改进,例如DenseRetNet在公共基准测试中比原始RetNet提高了高达5%的准确性。
近期,多模态大型语言模型(MLLMs)取得了显著进展。然而,在准确识别和理解高分辨率图像中的复杂细节方面仍存在挑战。尽管这一领域对于健壮的MLLMs的发展至关重要,但仍未得到充分调查。为了解决这一挑战,我们的工作引入了InfiMM-HD,这是一种专门设计用于处理不同分辨率图像且计算开销较低的新型架构。这一创新有助于将MLLMs扩展到更高分辨率的能力。InfiMM-HD结合了交叉注意力模块和视觉窗口,以降低计算成本。通过将这种架构设计与四阶段训练流程相结合,我们的模型有效且经济地实现了改进的视觉感知。实证研究强调了InfiMM-HD的健壮性和有效性,为相关领域的探索开辟了新途径。代码和模型可在https://huggingface.co/Infi-MM/infimm-hd找到。
最近在文本到图像模型(例如,稳定扩散)和相应的个性化技术(例如,DreamBooth和LoRA)方面取得了进展,使个人能够生成高质量且富有想象力的图像。然而,在生成分辨率超出其训练领域的图像时,它们经常受到限制。为了克服这一限制,我们提出了分辨率适配器(ResAdapter),这是一种专为扩散模型设计的领域一致适配器,可生成具有无限制分辨率和宽高比的图像。与处理静态分辨率图像并进行复杂后处理操作的其他多分辨率生成方法不同,ResAdapter直接生成具有动态分辨率的图像。特别是,在深入了解纯分辨率先验之后,ResAdapter在通用数据集上训练,使用个性化扩散模型生成无分辨率限制的图像,同时保留其原始风格领域。全面的实验表明,ResAdapter仅需0.5M即可处理任意扩散模型的灵活分辨率图像。更广泛的实验表明,ResAdapter与其他模块(例如ControlNet、IP-Adapter和LCM-LoRA)兼容,可用于跨广泛分辨率范围生成图像,并可集成到其他多分辨率模型(例如ElasticDiffusion)中,以高效生成更高分辨率的图像。项目链接为https://res-adapter.github.io。
本技术报告介绍了TripoSR,一种利用变压器架构进行快速前向3D生成的3D重建模型,能够从单个图像中在0.5秒内生成3D网格。在LRM网络架构的基础上,TripoSR整合了数据处理、模型设计和训练技术方面的重大改进。对公共数据集的评估显示,与其他开源替代方案相比,TripoSR在定量和定性上表现出卓越的性能。TripoSR采用MIT许可证发布,旨在为研究人员、开发人员和创意人员提供最新的3D生成AI技术进展。
语言提供了一种将复杂概念分解为易于理解部分的方式。最近在机器人模仿学习领域的研究中,使用了以语言为条件的策略,根据视觉观察和语言规定的高级任务来预测动作。这些方法利用自然语言的结构在多任务数据集中在语义上相似的任务之间共享数据(例如,“拿可乐罐”和“摘苹果”)。然而,随着任务在语义上变得更加多样化(例如,“拿可乐罐”和“倒杯子”),任务之间的数据共享变得更加困难,因此学习将高级任务映射到动作需要更多的示范数据。为了搭建任务和动作之间的桥梁,我们的洞察力在于教会机器人动作的语言,用更精细的短语描述低级运动,比如“向前移动手臂”。将这些语言运动预测作为任务和动作之间的中间步骤,迫使策略学习跨看似不同的任务之间共享的低级运动结构。此外,一个以语言运动为条件的策略在执行过程中可以通过人为指定的语言运动进行轻松校正。这为能够从语言中的人为干预中学习的灵活策略打开了新的范式。我们的方法RT-H利用语言运动构建了一个动作层次结构:首先学习预测语言运动,然后基于此和高级任务预测动作,在所有阶段使用视觉上下文。我们展示了RT-H利用这种语言-动作层次结构学习出更加强健和灵活的策略,有效地利用多任务数据集。我们展示了这些策略不仅可以响应语言干预,还可以从这些干预中学习,并且胜过从远程操作干预中学习的方法。我们的网站和视频可在https://rt-hierarchy.github.io找到。
受最近文本引导的2D内容创作成功的启发,3D资产生成正受到大量关注。现有的文本到3D方法使用预训练的文本到图像扩散模型来解决优化问题,或者在合成数据上对其进行微调,通常导致没有背景的非照片般逼真的3D对象。在本文中,我们提出了一种方法,利用预训练的文本到图像模型作为先验,并学习从真实世界数据中通过单个去噪过程生成多视角图像。具体而言,我们建议将3D体积渲染和跨帧注意力层整合到现有U-Net网络的每个块中,以改进文本到图像模型。此外,我们设计了一个自回归生成过程,可以在任何视角呈现更具3D一致性的图像。我们在真实世界的对象数据集上训练我们的模型,并展示其生成具有各种高质量形状和纹理的实例,并置于真实环境中。与现有方法相比,我们的方法生成的结果一致,并具有良好的视觉质量(FID减少30%,KID减少37%)。
图像到视频(I2V)生成任务在开放域中始终面临保持高保真度的困难。传统的图像动画技术主要专注于特定领域,如人脸或人体姿势,这使得它们难以推广到开放域。基于扩散模型的几种最近的I2V框架可以为开放域图像生成动态内容,但无法保持保真度。我们发现低保真度的两个主要因素是图像细节的丢失和去噪过程中的噪声预测偏差。因此,我们提出了一种有效的方法,可应用于主流视频扩散模型。该方法通过补充更精确的图像信息和噪声校正来实现高保真度。具体而言,对于给定的图像,我们的方法首先向输入图像潜在部分添加噪声以保留更多细节,然后通过适当的校正去除噪声潜在部分,以减轻噪声预测偏差。我们的方法无需调整即可直接使用。实验结果表明了我们方法在提高生成视频保真度方面的有效性。有关更多图像到视频生成结果,请参阅项目网站:https://noise-rectification.github.io。
在机器人技术中,用两只多指手操纵物体一直是一个长期存在的挑战,这归因于许多操纵任务的接触丰富性质以及协调高维度双手系统固有的复杂性。在这项工作中,我们考虑了用两只手扭转各种瓶子状物体的盖子的问题,并展示了使用深度强化学习在模拟中训练的策略可以有效地转移到现实世界。通过对物理建模、实时感知和奖励设计的新颖工程洞见,该策略展示了跨多样未见物体集的泛化能力,展示了动态和灵巧的行为。我们的研究结果是深度强化学习结合模拟到真实转移仍然是解决前所未有复杂性操纵问题的一种有前途的方法的有力证据。
从多视角视频构建动态场景的逼真自由视点视频(FVV)仍然是一项具有挑战性的工作。尽管当前神经渲染技术取得了显著进展,但这些方法通常需要完整的视频序列进行离线训练,并且无法实时渲染。为了解决这些限制,我们引入了3DGStream,这是一种专为实现实时流式传输真实世界动态场景的方法。我们的方法实现了在12秒内快速的即时逐帧重建,并以200 FPS的实时渲染速度。具体来说,我们利用3D高斯(3DG)来表示场景。我们不采用直接针对每帧优化3DG的朴素方法,而是采用紧凑的神经变换缓存(NTC)来建模3DG的平移和旋转,显著减少了每个FVV帧所需的训练时间和存储空间。此外,我们提出了一种自适应的3DG添加策略来处理动态场景中出现的新物体。实验证明,与最先进的方法相比,3DGStream在渲染速度、图像质量、训练时间和模型存储方面实现了竞争性能。