每日精选AI研究论文及翻译
尽管视频感知能力迅速整合到大型多模态模型(LMMs)中,但驱动其视频理解的基本机制仍知之甚少。因此,在该领域许多设计决策都缺乏适当的理由或分析。训练和评估这类模型的高计算成本,再加上有限的开放研究,阻碍了视频-LMMs的发展。为了解决这一问题,我们提出了一项全面研究,有助于揭示在LMMs中有效推动视频理解的因素。 我们首先对与视频-LMM研究相关的高计算需求的主要贡献因素进行了批判性审视,并发现了“缩放一致性”,即在较小的模型和数据集上(达到临界大小)做出的设计和训练决策有效地转移到更大的模型上。利用这些见解,我们探讨了视频-LMMs的许多视频特定方面,包括视频采样、架构、数据组成、训练计划等。例如,我们证明了训练过程中的fps采样远比均匀帧采样更可取,以及哪些视觉编码器最适合视频表示。 在这些发现的指导下,我们介绍了Apollo,这是一系列最先进的LMMs,能够在不同模型尺寸上实现卓越性能。我们的模型能够高效感知长达一小时的视频,其中Apollo-3B在LongVideoBench上表现出色,超过大多数现有的7B模型,达到55.1。与7B LMMs相比,Apollo-7B在MLVU上达到了70.9,在Video-MME上达到了63.3,处于行业领先地位。
理解、导航和探索3D物理真实世界长期以来一直是人工智能发展中的核心挑战。在这项工作中,我们朝着这个目标迈出了一步,引入了名为GenEx的系统,能够规划复杂的体验式世界探索,其指导思想是通过生成想象力形成关于周围环境的先验(期望)。GenEx能够从单个RGB图像生成整个3D一致的想象环境,并通过全景视频流将其栩栩如生地展现出来。利用从虚幻引擎策划的可扩展3D世界数据,我们的生成模型根植于物理世界。它能够轻松捕捉连续的360度环境,为人工智能代理提供一个无边界的景观供其探索和互动。GenEx实现了高质量的世界生成,在长轨迹上具有强大的循环一致性,并展示了强大的3D能力,如一致性和主动3D映射。借助对世界的生成想象力,由GPT辅助的代理能够执行复杂的体验式任务,包括无目标探索和目标驱动导航。这些代理利用对物理世界未见部分的预测期望来优化其信念,基于潜在决策模拟不同结果,并做出更明智的选择。总之,我们证明了GenEx为推动具有想象空间的体验式人工智能提供了一个变革性平台,并为将这些能力扩展到真实世界探索带来了潜力。
大型语言模型(LLMs)取得了显著成功,并扩展到多模态领域,在图像理解和生成方面表现出色。最近努力开发统一的多模态大型语言模型(MLLMs),将这些能力整合在一起,取得了令人鼓舞的成果。然而,现有方法通常涉及模型架构或训练流程中的复杂设计,增加了模型训练和扩展的难度。在本文中,我们提出了SynerGen-VL,一个简单而强大的无编码器MLLM,能够进行图像理解和生成。为了解决现有无编码器统一MLLM中存在的挑战,我们引入了标记折叠机制和基于视觉专家的渐进对齐预训练策略,有效支持高分辨率图像理解,同时降低训练复杂性。在大规模混合图像文本数据上进行训练,采用统一的下一个标记预测目标,SynerGen-VL实现或超越了现有无编码器统一MLLM的性能,参数规模相当或更小,并缩小了与特定任务最先进模型之间的差距,突显了未来统一MLLM的前景。我们将发布代码和模型。
随着人工智能的不断发展,对超越基于语言的辅助系统并朝向能够执行真实世界动作的智能代理的需求日益增长。这种演进需要从擅长生成文本响应的传统大型语言模型(LLMs)转向大型行动模型(LAMs),后者旨在在动态环境中生成和执行动作。借助代理系统的支持,LAMs有潜力将人工智能从被动的语言理解转变为主动的任务完成,标志着朝着人工通用智能的进展迈出了重要的一步。 在本文中,我们提出了一个全面的框架,用于开发LAMs,提供了一个从构思到部署的系统化方法。我们首先概述LAMs,突出它们的独特特征,并阐明它们与LLMs的区别。以基于Windows OS的代理为案例研究,我们详细介绍了LAM开发的关键阶段,包括数据收集、模型训练、环境集成、基础和评估。这种通用的工作流程可以作为在各种应用领域创建功能性LAMs的蓝图。最后,我们指出了LAMs目前的局限性,并讨论了未来研究和工业部署的方向,强调了在实现LAMs在实际应用中的全部潜力时面临的挑战和机遇。 本文中使用的数据收集过程的代码可在以下网址公开获取:https://github.com/microsoft/UFO/tree/main/dataflow,并可在https://microsoft.github.io/UFO/dataflow/overview/找到详尽的文档。
本文介绍了BiMediX2,这是一个双语(阿拉伯语-英语)的生物医学专家大型多模态模型(LMM),具有统一的架构,集成了文本和视觉模态,实现了先进的图像理解和医学应用。BiMediX2利用了Llama3.1架构,并整合了文本和视觉功能,以促进在英语和阿拉伯语中的无缝交互,支持基于文本的输入和涉及医学图像的多轮对话。该模型在一个包含160万个样本的广泛双语医疗保健数据集上进行训练,涵盖了各种医学互动的文本和图像模态,混合了阿拉伯语和英语。我们还提出了第一个基于双语GPT-4o的医学LMM基准,名为BiMed-MBench。BiMediX2在基于文本和基于图像的任务上进行基准测试,在几个医学基准测试中取得了最先进的性能。它在医学LLM评估基准测试中胜过了最近的最先进模型。我们的模型还在多模态医学评估中设立了新的基准,英语评估提高了超过9%,阿拉伯语评估提高了超过20%。此外,在UPHILL事实准确性评估中,它超过了GPT-4约9%,在各种医学视觉问答、报告生成和报告摘要任务中表现出色。项目页面包括源代码和训练模型,可在https://github.com/mbzuai-oryx/BiMediX2 上找到。
视觉扩散模型取得了显著进展,但通常由于缺乏高分辨率数据和受限的计算资源,它们在训练时受到分辨率限制,从而影响了它们生成高保真图像或视频的能力。最近的研究探索了无需调整的策略,展示了预训练模型在展示未开发潜力的高分辨率视觉生成方面的能力。然而,这些方法仍然容易产生质量低劣、带有重复模式的视觉内容。关键障碍在于当模型生成超出其训练分辨率的视觉内容时,高频信息的增加是不可避免的,导致累积误差产生的不良重复模式。为了解决这一挑战,我们提出了FreeScale,这是一种无需调整的推理范式,通过尺度融合实现更高分辨率的视觉生成。具体而言,FreeScale从不同感知尺度处理信息,然后通过提取所需的频率分量进行融合。大量实验证实了我们的范式在扩展图像和视频模型的高分辨率视觉生成能力方面的优越性。值得注意的是,与先前表现最佳的方法相比,FreeScale首次实现了生成8k分辨率图像。
我们探讨了在向量量化生成模型中使用残差向量量化(RVQ)实现高保真度生成的方法。这种量化技术通过使用更深入的标记保持了更高的数据保真度。然而,在生成模型中增加标记数量会导致推理速度变慢。为此,我们引入了ResGen,这是一种基于RVQ的高效离散扩散模型,可以生成高保真度样本而不影响采样速度。我们的关键思想是直接预测集体标记的向量嵌入,而不是单个标记。此外,我们证明了我们提出的标记屏蔽和多标记预测方法可以在一个基于离散扩散过程和变分推断的原则性概率框架内加以表述。我们验证了所提出方法在两个具有挑战性的任务上的有效性和泛化能力,涵盖不同模态:在ImageNet 256x256上的有条件图像生成和零样本文本转语音合成。实验结果表明,ResGen在这两个任务中均优于自回归对应方法,在不影响采样速度的情况下提供了更优异的性能。此外,随着RVQ深度的增加,我们的生成模型在生成保真度或采样速度方面均优于相同规模的基准模型。项目页面位于https://resgen-genai.github.io。
近年来,文本到视频生成技术迅速发展,取得了显著成果。训练通常依赖于视频-字幕配对数据,这在提升生成性能方面起着至关重要的作用。然而,当前的视频字幕往往存在细节不足、虚构和运动描述不精确等问题,影响了生成视频的保真度和一致性。在这项工作中,我们提出了一种新颖的实例感知结构化字幕框架,称为InstanceCap,首次实现了实例级和细粒度视频字幕。基于这一方案,我们设计了一个辅助模型集群,将原始视频转换为实例以增强实例保真度。视频实例进一步用于将密集提示精炼为结构化短语,实现简洁而精确的描述。此外,我们策划了一个包含2.2万个实例视频的InstanceVid数据集用于训练,并提出了一个针对InstanceCap结构量身定制的增强流程用于推断。实验结果表明,我们提出的InstanceCap明显优于先前的模型,在确保字幕和视频之间高度保真的同时减少了虚构现象。
本文介绍了一种无需调参的方法,用于对象插入和主体驱动生成。该任务涉及将给定多个视角的对象合成到由图像或文本指定的场景中。现有方法难以完全满足任务的挑战性目标:(i) 将对象与场景无缝合成,具有逼真的姿势和光照,并且(ii) 保留对象的身份。我们假设要实现这些目标需要大规模监督,但手动收集足够的数据成本太高。本文的关键观察是,许多大规模生产的对象在大型未标记数据集的多个图像中反复出现,处于不同的场景、姿势和光照条件下。我们利用这一观察结果通过检索相同对象的多种视角集合来创建大规模监督。这个强大的配对数据集使我们能够训练一个直接的文本到图像扩散架构,将对象和场景描述映射到合成图像。我们将我们的方法ObjectMate与最先进的对象插入和主体驱动生成方法进行比较,使用单个或多个参考。实证结果显示,ObjectMate实现了更好的身份保留和更逼真的合成。与许多其他多参考方法不同,ObjectMate不需要在测试时进行缓慢的调参。
尽管具有蒸馏的矫正流(ReFlows)提供了一种快速取样的有前途的方法,但其快速反演将图像转换回结构化噪音以进行恢复和随后的编辑问题尚未解决。本文介绍了FireFlow,这是一种简单而有效的零样本方法,它继承了基于ReFlow的模型(如FLUX)在生成方面的惊人能力,同时将其能力扩展到准确的反演和编辑中,需要8个步骤。我们首先证明,一个精心设计的数值求解器对于ReFlow反演至关重要,可以实现准确的反演和重建,具有二阶求解器的精度,同时保持一阶欧拉方法的实际效率。与最先进的ReFlow反演和编辑技术相比,该求解器实现了3倍的运行时加速,同时在无需训练的模式下提供更小的重建误差和更优秀的编辑结果。代码可在https://github.com/HolmesShuan/FireFlow{此URL}找到。
长上下文LLMs已经实现了许多下游应用,但也带来了与计算和内存效率相关的重大挑战。为了解决这些挑战,针对长上下文推理的优化已经被开发出来,主要集中在KV缓存周围。然而,现有的基准测试通常在单个请求中进行评估,忽略了KV缓存在真实世界使用中的完整生命周期。这种疏忽尤为关键,因为KV缓存重用已被广泛应用于LLMs推理框架,如vLLM和SGLang,以及LLM提供者,包括OpenAI、Microsoft、Google和Anthropic。为了弥补这一空白,我们引入了SCBench(SharedContextBench),这是一个全面评估长上下文方法的基准测试,从KV缓存为中心的角度出发:1)KV缓存生成,2)KV缓存压缩,3)KV缓存检索,4)KV缓存加载。具体而言,SCBench使用具有共享上下文的测试示例,涵盖12个任务,具有两种共享上下文模式,涵盖四类长上下文能力:字符串检索、语义检索、全局信息和多任务。通过SCBench,我们对包括门控线性RNNs、Mamba-Attention混合体以及稀疏注意力、KV缓存丢弃、量化、检索、加载和提示压缩等高效方法在内的八类长上下文解决方案进行了广泛的KV缓存中心分析。评估是在8个长上下文LLMs上进行的。我们的研究结果表明,次O(n)内存方法在多轮场景中表现不佳,而具有O(n)内存和次O(n^2)预填充计算的稀疏编码表现稳健。动态稀疏性比静态模式产生更具表现力的KV缓存,而混合架构中的层级稀疏性可减少内存使用并具有较强的性能。此外,我们在长生成场景中确定了注意力分布转移问题。https://aka.ms/SCBench.
文本到视频生成增强了内容创作,但计算密集度很高:扩散变压器(DiTs)的计算成本随像素数量呈二次增长。这使得生成分钟级视频的成本极高,限制了大多数现有模型只能生成10-20秒长度的视频。我们提出了一个线性复杂度的文本到视频生成(LinGen)框架,其成本随像素数量线性增长。LinGen首次实现了在单个GPU上生成高分辨率的分钟级视频,而无需牺牲质量。它用一个线性复杂度的名为MATE的模块替换了计算主导和二次复杂度的自注意力块。MATE由MA分支和TE分支组成,MA分支针对短到长范围的相关性,结合了一个双向的Mamba2块和我们的标记重排方法Rotary Major Scan,以及为长视频生成开发的Review Tokens。TE分支是一个新颖的TEmporal Swin Attention块,专注于相邻标记和中程标记之间的时间相关性。MATE模块解决了Mamba的邻近保留问题,并显著提高了生成视频的一致性。实验结果表明,LinGen在视频质量方面优于DiT(胜率达75.6%),同时减少了高达15倍(11.5倍)的FLOPs(延迟)。此外,自动指标和人类评估均表明,我们的LinGen-4B在视频质量上与最先进的模型(相对于Gen-3、LumaLabs和Kling,胜率分别为50.5%、52.1%、49.1%)可媲美。这为生成小时级电影和实时交互式视频生成铺平了道路。我们在项目网站提供了68秒视频生成结果和更多示例:https://lineargen.github.io/。
矫正流模型已成为图像生成中的主流方法,展示出在高质量图像合成方面的令人印象深刻的能力。然而,尽管在视觉生成方面表现出效果,矫正流模型经常在图像的解耦编辑方面遇到困难。这种限制阻碍了进行精确的、属性特定修改的能力,而不影响图像的其他方面。在本文中,我们介绍了FluxSpace,这是一种领域无关的图像编辑方法,利用一个能够控制由矫正流变换器生成的图像的语义的表示空间。通过利用矫正流模型中变换器块学到的表示,我们提出了一组语义可解释的表示,使得从细粒度图像编辑到艺术创作等各种图像编辑任务成为可能。这项工作提供了一种可扩展且有效的图像编辑方法,以及其解耦能力。
多模态音乐生成旨在从多种输入模态(包括文本、视频和图像)中产生音乐。现有方法使用一个共同的嵌入空间进行多模态融合。尽管它们在其他模态中有效,但在多模态音乐生成中的应用面临着数据稀缺、跨模态对齐不足和可控性有限的挑战。本文通过使用文本和音乐的显式桥梁来解决这些问题。我们引入了一种名为视觉音乐桥梁(VMB)的新方法。具体来说,多模态音乐描述模型将视觉输入转换为详细的文本描述以提供文本桥梁;双轨音乐检索模块结合广泛和有针对性的检索策略以提供音乐桥梁并实现用户控制。最后,我们设计了一个明确条件的音乐生成框架,基于这两个桥梁生成音乐。我们在视频到音乐、图像到音乐、文本到音乐和可控音乐生成任务上进行实验,以及可控性实验。结果表明,与先前方法相比,VMB显著提高了音乐质量、模态和定制对齐。VMB为可解释和富有表现力的多模态音乐生成设定了新的标准,可应用于各种多媒体领域。演示和代码可在https://github.com/wbs2788/VMB 上找到。
大型语言模型(LLMs)的有效性与提示的设计密切相关,因此优化提示对于增强它们在各种任务中的性能至关重要。许多现有的自动化提示工程方法仅依赖于文本反馈,根据大型、计算昂贵的LLMs识别的推理错误来完善提示。不幸的是,较小的模型难以生成高质量的反馈,导致完全依赖大型LLMs的判断。此外,这些方法未能利用更直接和更精细的信息,如梯度,因为它们纯粹在文本空间中运行。为此,我们引入了GReaTer,一种新颖的提示优化技术,直接将梯度信息与特定任务的推理结合起来。通过利用任务损失梯度,GReaTer使开源、轻量级语言模型自我优化提示成为可能,而无需昂贵的闭源LLMs。这使得高性能提示优化成为可能,而无需依赖庞大的LLMs,缩小了较小模型与通常需要进行提示优化的复杂推理之间的差距。对包括BBH、GSM8k和FOLIO在内的各种推理任务进行了广泛评估,结果显示GReaTer始终优于以往最先进的提示优化方法,甚至优于依赖强大LLMs的方法。此外,经过GReaTer优化的提示经常表现出更好的可转移性,并且在某些情况下,将任务性能提升到与大型语言模型实现的水平相当甚至超过,突显了梯度引导的提示优化在推理过程中的有效性。GReaTer的代码可在https://github.com/psunlpgroup/GreaTer找到。
我们介绍了SmolTulu-1.7b-Instruct,本报告中称为SmolTulu-DPO-1130,这是一个经过指导调整的语言模型,它调整了AllenAI的Tulu 3后训练流程,以增强Huggingface的SmolLM2-1.7B基础模型。通过使用一个拥有1.35亿参数的模型进行全面的实证分析,我们证明了学习率和批量大小之间的关系在不同任务下显著影响模型性能。我们的发现揭示了一个明显的分歧:像ARC和GSM8K这样的推理任务受益于较高的学习率与批量大小比率,而像HellaSwag和IFEval这样的模式识别任务则表现出较低比率时的最佳性能。这些见解指导了SmolTulu的开发,该模型在指令遵循方面实现了在小于20亿参数模型中的最新性能,IFEval得分为67.7%(Delta11%),在GSM8K上的数学推理得分为51.6%(Delta3.4%),另一个版本在ARC上得分为57.1%(Delta5.4%)。我们发布了我们的模型、训练配方和消融研究,以促进进一步研究高效模型对齐,表明优化动态的精心调整可以帮助弥合小型和大型语言模型之间的能力差距。
尽管在广泛的机器人数据集上预训练的大型视觉-语言-动作(VLA)模型为机器人学习提供了有前途的通用策略,但它们仍然在交互式机器人技术中的时空动态方面遇到困难,使其在处理复杂任务(如操作)时效果不佳。在这项工作中,我们引入了视觉追踪提示,这是一种简单而有效的方法,通过将状态-动作轨迹在视觉上进行编码,以促进VLA模型对动作预测的时空意识。我们通过在我们自己收集的15万个机器人操作轨迹数据集上使用视觉追踪提示对OpenVLA进行微调,开发了一种新的TraceVLA模型。在SimplerEnv的137个配置和物理WidowX机器人上的4个任务中对TraceVLA的评估表明,其表现达到了最先进水平,在SimplerEnv上比OpenVLA高出10%,在真实机器人任务上高出3.5倍,并且在不同具象和场景中表现出强大的泛化能力。为了进一步验证我们方法的有效性和普适性,我们提出了基于4B Phi-3-Vision的紧凑型VLA模型,该模型在Open-X-Embodiment上预训练,并在我们的数据集上进行微调,与7B的OpenVLA基线相媲美,同时显著提高了推理效率。
深度神经网络(DNNs)在医学影像中提高乳腺癌诊断的潜力巨大。然而,这些模型极易受到对抗攻击的影响——微小、难以察觉的变化可能会误导分类器——这引发了对其可靠性和安全性的重要关注。传统攻击依赖于固定范数的扰动,与人类感知不一致。相比之下,基于扩散的攻击需要预先训练的模型,在这些模型不可用时需要大量数据,限制了在数据稀缺场景中的实际应用。然而,在医学影像领域,由于数据集的有限可用性,这通常是不可行的。借鉴最近在可学习提示方面的进展,我们提出了Prompt2Perturb(P2P),这是一种新颖的语言引导攻击方法,能够生成由文本说明驱动的有意义的攻击示例。在提示学习阶段,我们的方法利用文本编码器内的可学习提示创建微妙但有影响力的扰动,这些扰动保持难以察觉,同时引导模型朝向目标结果。与当前基于提示学习的方法相比,我们的P2P通过直接更新文本嵌入而脱颖而出,避免了需要重新训练扩散模型的必要性。此外,我们利用了一个发现,即仅优化早期的反向扩散步骤可以提高效率,同时确保生成的对抗示例包含微妙的噪音,从而在不引入明显伪影的情况下保持超声图像质量。我们展示了我们的方法在FID和LPIPS上优于三个乳腺超声数据集中的最先进攻击技术。此外,生成的图像在外观上更加自然,比现有的对抗攻击更加有效。我们的代码将公开提供,网址为https://github.com/yasamin-med/P2P。