每日精选AI研究论文及翻译
我们介绍了SUPIR(Scaling-UP Image Restoration),这是一种突破性的图像恢复方法,利用生成先验和模型扩展的能力。利用多模态技术和先进的生成先验,SUPIR标志着智能和逼真图像恢复方面的重大进展。作为SUPIR内的一个关键推动因素,模型扩展显著增强了其能力,并展示了图像恢复的新潜力。我们收集了一个包含2000万高分辨率、高质量图像的数据集用于模型训练,每个图像都附带描述性文本注释。SUPIR具有根据文本提示恢复图像的能力,拓宽了其应用范围和潜力。此外,我们引入了负质量提示以进一步提高感知质量。我们还开发了一种恢复引导抽样方法,以抑制生成式恢复中遇到的保真度问题。实验表明了SUPIR出色的恢复效果以及通过文本提示操纵恢复的新能力。
无记号语言模型直接从原始字节中学习,消除了子词记号化的偏见。然而,基于字节的操作会导致序列显著变长,并且标准的自回归Transformer在这种情况下扩展性较差。我们尝试了MambaByte,这是Mamba状态空间模型的无记号适应版本,它在字节序列上进行自回归训练。我们的实验表明,与其他字节级模型相比,MambaByte具有较高的计算效率。我们还发现,MambaByte在与最先进的子词Transformer相比具有竞争力,甚至表现更好。此外,由于长度的线性扩展,MambaByte在推理速度上比Transformer更有优势。我们的研究结果确立了MambaByte在实现无记号语言建模方面的可行性。
在过去的一年中,多模态大型语言模型(MM-LLMs)取得了实质性进展,通过成本效益的训练策略,扩展了现成的LLMs以支持多模态输入或输出。由此产生的模型不仅保留了LLMs固有的推理和决策能力,还赋予了多样的多模态任务。在本文中,我们提供了一份全面的调查,旨在促进对MM-LLMs的进一步研究。具体而言,我们首先概述了模型架构和训练流程的一般设计公式。随后,我们简要介绍了26个现有的MM-LLMs,每个都以其特定的公式为特征。此外,我们回顾了MM-LLMs在主流基准测试上的表现,并总结了关键的训练配方,以增强MM-LLMs的效力。最后,我们探讨了MM-LLMs的有前途的方向,同时还维护一个实时跟踪网站,以追踪该领域的最新发展。我们希望这份调查有助于推动MM-LLMs领域的持续发展。
大型语言模型(LLMs)的进步引领着一个新时代的到来,标志着在现实世界中开发自主应用程序的发展,推动了先进基于网络的代理程序的创新。现有的网络代理通常只处理一种输入模态,并且仅在简化的网络模拟器或静态网络快照中进行评估,极大地限制了它们在真实场景中的适用性。为了弥合这一差距,我们引入了WebVoyager,这是一个创新的大型多模态模型(LMM)驱动的网络代理,可以通过与真实网站的交互来完整地执行用户指令。此外,我们提出了一种新的网络代理评估协议,以解决开放式网络代理任务的自动评估挑战,利用了GPT-4V强大的多模态理解能力。我们通过收集来自15个广泛使用的网站的真实任务来评估我们的代理,创建了一个新的基准。我们展示了WebVoyager实现了55.7%的任务成功率,明显超过了GPT-4(所有工具)和WebVoyager(仅文本)设置的表现,突显了WebVoyager在实际应用中的卓越能力。我们发现,我们提出的自动评估与人类判断达成了85.3%的一致性,为在真实世界环境中进一步发展网络代理铺平了道路。
最近的文本到图像生成模型展示了在生成图像方面取得的令人难以置信的成功,这些图像忠实地遵循输入提示。然而,使用词语来描述所需概念的要求对生成概念的外观控制有限。在这项工作中,我们通过提出一种方法来赋予现有文本到图像扩散模型个性化能力来解决这一不足。我们提出了一种新颖的架构(BootPIG),允许用户提供对象的参考图像,以引导生成图像中概念的外观。 所提出的BootPIG架构对预训练的文本到图像扩散模型进行了最小修改,并利用一个独立的UNet模型来引导生成朝向期望的外观。我们引入了一种训练过程,使我们能够利用从预训练文本到图像模型、LLM聊天代理和图像分割模型生成的数据来在BootPIG架构中引导个性化能力的启动。与需要数天预训练的现有方法相比,BootPIG架构可以在大约1小时内训练。在DreamBooth数据集上的实验表明,BootPIG在超越现有零样本方法的同时,与测试时微调方法相当。通过用户研究,我们验证了BootPIG生成相对于现有方法的偏好,无论是在保持忠实于参考对象外观还是与文本提示对齐方面。
大型语言模型推动了自然语言处理的最新技术。然而,它们主要设计用于英语或有限的语言集,导致在处理低资源语言时效果不佳。为了弥合这一差距,我们引入了MaLA-500,这是一个新颖的大型语言模型,旨在涵盖534种语言的广泛范围。为了训练MaLA-500,我们采用了词汇扩展并在LLaMA 2上持续预训练,使用Glot500-c。我们在SIB-200上的实验表明,MaLA-500实现了最先进的上下文学习结果。我们在https://huggingface.co/MaLA-LM发布了MaLA-500。
预训练大型语言模型被认为是极其资源密集且经常低效的,未充分利用训练文本序列中所包含的信息。在本文中,我们提出了SpacTor,一种新的训练过程,包括(1)结合了跨度损坏(SC)和标记替换检测(RTD)的混合目标,以及(2)一个两阶段课程,通过初始tau次迭代优化混合目标,然后过渡到标准的SC损失。我们通过实验证明,混合目标的有效性与两阶段预训练时间表相关,并对为何如此进行了广泛分析。在我们对编码器-解码器架构(T5)在各种自然语言处理任务上的实验中,SpacTor-T5在保持与标准SC预训练相同的下游性能的同时,实现了预训练迭代次数减少50%和总FLOPs减少40%。或者,在相同的计算预算下,我们发现SpacTor导致了明显改善的下游基准性能。
最近,文本到3D方法已经实现了使用文本描述生成高保真度的3D内容。然而,生成的对象是随机的,缺乏细粒度控制。草图提供了一种廉价的方法来引入这种细粒度控制。然而,由于草图的抽象性和歧义性,要从这些草图中实现灵活控制是具有挑战性的。在本文中,我们提出了一个多视角草图引导的文本到3D生成框架(即Sketch2NeRF),以增加草图控制到3D生成中。具体来说,我们的方法利用预训练的2D扩散模型(例如,稳定扩散和控制网络)来监督由神经辐射场(NeRF)表示的3D场景的优化。我们提出了一种新颖的同步生成和重建方法,以有效优化NeRF。在实验中,我们收集了两种多视角草图数据集来评估所提出的方法。我们证明了我们的方法能够合成具有细粒度草图控制的3D一致内容,同时对文本提示高保真。广泛的结果显示,我们的方法在草图相似性和文本对齐方面实现了最先进的性能。
现有的文本到图像扩散模型主要是根据文本提示生成图像。然而,文本描述的简洁性在忠实合成具有复杂细节的图像方面存在挑战,比如特定实体或场景。本文提出了UNIMO-G,这是一个简单的多模态条件扩散框架,它在多模态提示上运行,其中包含交错的文本和视觉输入,展示了对文本驱动和主题驱动图像生成的统一能力。UNIMO-G包括两个核心组件:用于编码多模态提示的多模态大语言模型(MLLM),以及用于基于编码的多模态输入生成图像的条件去噪扩散网络。我们采用两阶段训练策略有效地训练该框架:首先在大规模文本-图像对上进行预训练,以发展条件图像生成能力,然后通过多模态提示进行指导微调,以实现统一的图像生成能力。采用了经过精心设计的数据处理流程,涉及语言基础和图像分割,用于构建多模态提示。UNIMO-G在文本到图像生成和零样本主题驱动合成方面表现出色,并且在生成涉及多个图像实体的复杂多模态提示时非常有效。
最近人工智能领域的进展导致了大型多模态模型(LMMs)的发展,这些模型能够处理涉及文本和图像内容联合推理的复杂任务(例如,在公共场所中导航地图)。本文介绍了ConTextual,这是一个新颖的基准测试,包含专门设计用于评估LMMs执行具有上下文敏感性的文本丰富的视觉推理能力的指令。ConTextual强调多样的现实场景(例如,时间阅读、导航、购物等),要求对文本和视觉元素之间的互动有更深入的理解。我们的研究结果显示,最佳表现的LMM,GPT-4V(ision),与人类能力之间存在30.8%的显著性能差距,这是通过人类评估得出的结果,表明在上下文敏感的文本丰富的视觉推理方面仍有很大的改进空间。值得注意的是,虽然GPT-4V在抽象类别如模因和引语解释方面表现出色,但其整体表现仍落后于人类。除了人类评估,我们还使用GPT-4进行自动评估指标,揭示了类似的性能差距趋势。我们还对不同的视觉背景进行了细致的评估,并提供了定性分析,为LMM设计的未来进展提供了坚实的框架。
大规模文本到图像生成模型取得了令人瞩目的进展,展示了它们合成各种高质量图像的能力。然而,将这些模型调整用于艺术图像编辑面临两个重要挑战。首先,用户很难精心制作详细描述输入图像视觉元素的文本提示。其次,流行的模型在影响特定区域的修改时,经常会破坏整体艺术风格,使得实现连贯和美学统一的艺术作品变得复杂。为了克服这些障碍,我们构建了基于扩散模型的创新统一框架CreativeSynth,该框架具有协调多模态输入和在艺术图像生成领域多任务处理的能力。通过将多模态特征与定制的注意力机制相结合,CreativeSynth促进了将现实世界语义内容通过反演和实时风格转移导入艺术领域。这使得能够精确操纵图像风格和内容,同时保持原始模型参数的完整性。严格的定性和定量评估凸显了CreativeSynth在提升艺术图像保真度方面的优势,并保留了它们固有的美学本质。通过弥合生成模型和艺术精湛之间的鸿沟,CreativeSynth成为了一个定制的数字调色板。