每日精选AI研究论文及翻译
在这项工作中,我们讨论了构建高性能多模态大型语言模型(MLLMs)。具体来说,我们研究了各种架构组件和数据选择的重要性。通过对图像编码器、视觉语言连接器以及各种预训练数据进行仔细全面的消融实验,我们确定了几个关键的设计教训。例如,我们证明了在大规模多模态预训练中,使用精心混合的图像标题、交错的图像文本以及仅文本数据对于在多个基准测试中实现最先进的少样本结果至关重要,相较于其他已发表的预训练结果。此外,我们展示了图像编码器与图像分辨率以及图像标记数量的重要影响,而视觉语言连接器的设计相对重要性较低。通过扩大所提出的方法,我们构建了MM1,一个多模态模型系列,拥有高达30B参数,包括密集模型和专家混合变体,这些模型在预训练指标上处于最先进水平,并在一系列已建立的多模态基准测试上经过监督微调后取得了竞争性能。由于大规模预训练,MM1具有诸如增强的上下文学习和多图像推理等吸引人的特性,实现了少样本思维链式提示。
在写作和交谈时,人们有时会停下来思考。尽管以推理为重点的作品通常将推理框定为回答问题或完成任务的方法,但推理几乎隐含在所有书面文本中。例如,这适用于证明中未明确说明的步骤,或者支撑对话的心智理论。在《自学推理者》(STaR,Zelikman等,2022)中,通过从少样本示例中推断出导致正确答案的原因,学习有用的思考。这是一个高度受限的设置--理想情况下,语言模型可以学会推断任意文本中未明示的原因。我们提出了Quiet-STaR,这是STaR的推广,其中语言模型学会在每个标记处生成原因,以解释未来的文本,从而提高其预测能力。我们解决了关键挑战,包括:1)生成延续的计算成本,2)LM最初不知道如何生成或使用内部思想,以及3)需要预测超出单个下一个标记。为了解决这些问题,我们提出了一种逐标记并行抽样算法,使用可学习的标记来指示思想的开始和结束,并采用了扩展的教师强制技术。令人鼓舞的是,生成的原因不成比例地帮助模型预测困难的标记,并提高LM直接回答困难问题的能力。特别是,在将LM持续预训练于一组互联网文本语料库后,我们发现在GSM8K(5.9%到10.9%)和CommonsenseQA(36.3%到47.2%)上实现了零样本改进,并观察到自然文本中困难标记的困惑度改进。至关重要的是,这些改进不需要在这些任务上进行微调。Quiet-STaR标志着LM能够以更一般和可扩展的方式学会推理的一步。
在Web开发中使用视觉-语言模型(VLMs)提出了一种有前途的策略,可以提高效率并解决无代码解决方案的障碍:通过提供 UI 的截图或草图,VLM 可以生成代码来复制它,例如用 HTML 这样的语言。尽管在各种任务上VLMs取得了进展,但将截图转换为相应的HTML的具体挑战却鲜有探讨。我们认为这主要是因为缺乏一个合适的、高质量的数据集。本文介绍了WebSight,这是一个由200万对HTML代码和它们对应的截图组成的合成数据集。我们在我们的数据集上对基础VLM进行微调,并展示了将网页截图转换为功能性HTML代码的能力。为了加速这一领域的研究,我们开源了WebSight。
本文提出了一种简单而有效的框架,名为GiT,仅使用基本的ViT即可同时应用于各种视觉任务。受到多层Transformer架构(例如GPT)在大型语言模型(LLMs)中被广泛使用的普适性的启发,我们致力于拓展其范围,以作为强大的视觉基础模型(VFM)。然而,与语言建模不同,视觉任务通常需要特定的模块,例如用于检测的边界框头和用于分割的像素解码器,这极大地阻碍了在视觉领域应用强大的多层Transformer。为了解决这个问题,我们设计了一个通用的语言接口,赋予成功的自回归解码能力,以巧妙地统一各种视觉任务,从图像级理解(例如字幕),到稀疏感知(例如检测),再到密集预测(例如分割)。基于上述设计,整个模型仅由ViT组成,没有任何特定的添加,提供了显著的架构简化。GiT是一个多任务视觉模型,跨越五个代表性基准进行联合训练,无需特定任务的微调。有趣的是,我们的GiT在通用性能方面建立了一个新的基准,并促进了跨任务的相互增强,导致与孤立训练相比的显著改进。这反映了在LLMs中观察到的类似影响。通过对27个数据集进行进一步丰富的训练,GiT在各种任务上实现了强大的零样本结果。由于其简单的设计,这种范式有望缩小视觉和语言之间的架构差距。代码和模型将在https://github.com/Haiyang-W/GiT 上提供。
扩散模型在文本到图像合成中取得的巨大成功,使其成为图像生成和编辑下一代终端用户应用的有前景的候选者。先前的研究侧重于通过减少推理时间或增加用户互动性来改善扩散模型的可用性,例如允许新的、细粒度的控制,如基于区域的文本提示。然而,我们在实证研究中发现,整合这两个方面的工作并不容易,从而限制了扩散模型的潜力。为了解决这种不兼容性,我们提出了StreamMultiDiffusion,这是第一个实时基于区域的文本到图像生成框架。通过稳定快速推理技术,并将模型重构为一个新提出的多提示流批处理架构,我们实现了比现有解决方案快10倍的全景生成速度,并在单个RTX 2080 Ti GPU上实现了1.57 FPS的基于区域的文本到图像合成生成速度。我们的解决方案开创了一个名为语义调色板的交互式图像生成新范式,可以实时从给定的多个手绘区域生成高质量图像,编码规定的语义含义(例如,鹰、女孩)。我们的代码和演示应用程序可在https://github.com/ironjr/StreamMultiDiffusion 上找到。
我们介绍Emu Video Edit(EVE),这是一个在视频编辑领域取得了新的技术突破的模型,而且无需依赖任何监督式视频编辑数据。为了开发EVE,我们分别训练了一个图像编辑适配器和一个视频生成适配器,并将两者附加到同一个文本到图像模型上。然后,为了使适配器朝向视频编辑方向对齐,我们引入了一种新的无监督蒸馏过程,即分解扩散蒸馏。该过程可以同时从一个或多个教师那里蒸馏知识,而无需任何监督数据。我们利用这个过程来教导EVE编辑视频,通过联合蒸馏知识来(i)精确编辑来自图像编辑适配器的每个单独帧,以及(ii)确保通过视频生成适配器编辑的帧之间的时间一致性。最后,为了展示我们的方法在释放其他能力方面的潜力,我们对适配器的额外组合进行了调整。
有效的注意力模块在基于Transformer的大型语言模型(LLMs)的成功中发挥了关键作用,但这些注意力模块的二次时间和内存复杂性在处理长序列时也带来了挑战。解决长序列问题的一个潜在方案是利用分布式集群来并行计算注意力模块跨多个设备(例如,GPU)。然而,采用分布式方法不可避免地会引入额外的内存开销以存储本地注意力结果,并产生额外的通信成本以将本地结果聚合为全局结果。在本文中,我们提出了一个名为“BurstAttention”的分布式注意力框架,以优化全局集群和本地设备级别的内存访问和通信操作。在我们的实验中,我们将BurstAttention与其他竞争性的分布式注意力解决方案进行了比较,用于处理长序列。在不同长度设置下的实验结果表明,与这些竞争性基线相比,BurstAttention在处理长序列时提供了显著优势,减少了40%的通信开销,并在在8个A100上训练32K序列长度时实现了2倍加速。
当代文本到图像生成模型面临着视觉文本渲染的基本挑战,核心问题在于文本编码器的不足。为实现准确的文本渲染,我们确定了文本编码器的两个关键要求:字符感知和与字形的对齐。我们的解决方案涉及打造一系列定制文本编码器,Glyph-ByT5,通过微调具有字符感知能力的ByT5编码器,利用精心策划的配对字形-文本数据集。我们提出了一种有效的方法,将Glyph-ByT5与SDXL相结合,从而创建了用于设计图像生成的Glyph-SDXL模型。这显著提高了文本渲染的准确性,将其从不到20%提升至接近90%在我们的设计图像基准上。值得注意的是,Glyph-SDXL现在具有了文本段落渲染的能力,实现了对包含数十到数百个字符的自动多行布局的高拼写准确性。最后,通过对Glyph-SDXL进行微调,使用一小组高质量的照片级图像,展示了在开放域真实图像中的场景文本渲染能力显著提升。这些引人注目的结果旨在鼓励进一步探索,设计用于各种具有挑战性任务的定制文本编码器。
大型视觉语言模型已经实现了细粒度对象感知,但图像分辨率的限制仍然是超越特定任务专家在复杂和密集场景中表现的重要障碍。这种限制进一步限制了模型在诸如GUI代理、计数等领域实现细微的视觉和语言引用的潜力。为了解决这个问题,我们引入了一个统一的高分辨率通用模型,Griffon v2,实现了灵活的对象引用,可通过视觉和文本提示。为了有效地提高图像分辨率,我们设计了一个简单且轻量级的下采样投影器,以克服大型语言模型中输入令牌的限制。这种设计固有地保留了完整的上下文和细节,并显著提高了多模态感知能力,特别是对于小对象。基于此,我们进一步为模型配备了通过即插即用的视觉标记器实现视觉-语言共指能力。它实现了与灵活目标图像、自由形式文本甚至坐标的用户友好交互。实验证明,Griffon v2可以通过视觉和文本引用定位任何感兴趣的对象,在REC、短语定位和REG任务上实现了最先进的性能,并在对象检测和对象计数方面胜过专家模型。数据、代码和模型将在https://github.com/jefferyZhan/Griffon 上发布。
理解视频是计算机视觉研究中的基本方向之一,人们付出了大量努力来探索各种架构,如RNN、3D CNN和Transformers。新提出的状态空间模型架构,例如Mamba,展现出将其在长序列建模成功延伸到视频建模的有希望特征。为了评估Mamba在视频理解领域是否可以成为Transformers的可行替代方案,在这项工作中,我们进行了一系列全面的研究,探究Mamba在建模视频中可以扮演的不同角色,同时调查Mamba可能展现出优势的各种任务。我们将Mamba分为四种建模视频的角色,推导出由14个模型/模块组成的Video Mamba Suite,并在12个视频理解任务上对其进行评估。我们广泛的实验揭示了Mamba在仅视频和视频-语言任务上的巨大潜力,同时展示了有希望的效率-性能折衷。我们希望这项工作能为未来关于视频理解的研究提供宝贵的数据点和见解。代码公开:https://github.com/OpenGVLab/video-mamba-suite。
最近的视觉-语言-动作(VLA)模型依赖于2D输入,缺乏与更广泛的3D物理世界的整合。此外,它们通过学习从感知到动作的直接映射来执行动作预测,忽略了世界的广泛动态以及动作与动态之间的关系。相比之下,人类拥有描绘未来场景想象以相应规划行动的世界模型。为此,我们提出了3D-VLA,通过引入一系列新的具身基础模型,无缝地将3D感知、推理和动作通过生成式世界模型进行连接。具体而言,3D-VLA建立在基于3D的大型语言模型(LLM)之上,并引入一组交互标记以与具身环境进行互动。此外,为了向模型注入生成能力,我们训练了一系列具身扩散模型,并将它们与LLM对齐,用于预测目标图像和点云。为了训练我们的3D-VLA,我们通过从现有机器人数据集中提取大量3D相关信息来策划了一个大规模的3D具身指令数据集。我们在保留数据集上的实验表明,3D-VLA显著改善了具身环境中的推理、多模态生成和规划能力,展示了它在实际应用中的潜力。
文本向视觉组件的演变促进了人们日常生活的便利,例如从文本生成图像、视频以及识别图像中所需元素。先前涉及多模态能力的计算机视觉模型主要集中在基于明确定义对象的图像检测和分类上。大型语言模型(LLMs)引入了从自然语言到视觉对象的转换,为文本上下文提供了视觉布局。OpenAI GPT-4已成为LLMs的巅峰,而计算机视觉(CV)领域拥有大量最先进的模型和算法,将2D图像转换为它们的3D表示。然而,算法与问题之间的不匹配可能导致不良结果。针对这一挑战,我们提出了一个统一的VisionGPT-3D框架,以整合最先进的视觉模型,从而促进面向视觉的人工智能的发展。VisionGPT-3D提供了一个多功能多模态框架,建立在多模态基础模型的优势之上。它无缝集成了各种最先进的视觉模型,并实现了自动选择最先进的视觉模型,确定与2D深度图分析相对应的适当3D网格创建算法,根据文本提示等多样的多模态输入生成最佳结果。 关键词:VisionGPT-3D,3D视觉理解,多模态代理
最近,人工智能领域的研究人员对语言和视觉如何结合产生了极大兴趣,这促使了多模态模型的发展,旨在无缝整合文本和视觉信息。多模态模型是大型语言模型(LLMs)的延伸,展现出在处理各种任务方面的显著能力,从图像字幕生成和视觉问答(VQA)到视觉定位。虽然这些模型展示了显著进展,但在准确解释图像并回答问题方面仍存在挑战,这在现实场景中很常见。本文介绍了一种增强现有模型多模态能力的新方法。针对当前视觉语言模型(VLMs)和多模态大型语言模型(MLLMs)存在的局限性,我们提出的Veagle模型融合了一种独特的机制,灵感来自先前作品的成功和见解。Veagle利用动态机制将编码的视觉信息直接投影到语言模型中。这种动态方法可以更细致地理解视觉环境中的复杂细节。为验证Veagle的有效性,我们在基准数据集上进行了全面实验,重点关注视觉问答和图像理解等任务。我们的结果显示,在性能方面有5-6%的改进,Veagle在很大程度上胜过现有模型。这些结果突显了该模型超越传统基准的多功能性和适用性。
最近对状态空间模型的研究取得了显著进展,尤其是Mamba模型,在长序列建模方面展现出了重要的进展,如语言理解任务。然而,它们在视觉任务中的应用并未明显超越传统的卷积神经网络(CNNs)和视觉Transformer(ViTs)的性能。本文认为增强Vision Mamba(ViM)的关键在于优化序列建模的扫描方向。传统的ViM方法将空间标记展平,忽视了保留局部2D依赖性,从而延长了相邻标记之间的距离。我们引入了一种新颖的局部扫描策略,将图像分成不同窗口,有效捕获局部依赖性同时保持全局视角。此外,我们意识到在不同网络层之间扫描模式的偏好各不相同,因此提出了一种动态方法,独立搜索每个层的最佳扫描选择,从而显著提高性能。在普通模型和分层模型上进行的大量实验凸显了我们方法在有效捕获图像表示方面的优越性。例如,我们的模型在ImageNet上的性能比Vim-Ti高出3.1%,且计算量相同为1.5G FLOPs。代码可在以下链接找到:https://github.com/hunto/LocalMamba。