每日精选AI研究论文及翻译
最近视觉-语言模型的进展通过增加视觉标记的长度来提高性能,使其比文本标记长得多,并显著提高了计算成本。然而,我们观察到由流行的视觉编码器(如CLIP和SigLIP)生成的视觉标记包含显著的冗余。为了解决这个问题,我们引入了VisionZip,这是一种简单而有效的方法,它选择一组信息丰富的标记输入到语言模型中,减少了视觉标记的冗余,提高了效率,同时保持了模型性能。所提出的VisionZip 可广泛应用于图像和视频理解任务,并且非常适用于真实场景中的多轮对话,在这些场景中,先前的方法往往表现不佳。实验结果显示,VisionZip 在几乎所有设置下的性能至少比先前的最先进方法提高了5%。此外,我们的方法显著提高了模型推理速度,将预填充时间提高了8倍,并使LLaVA-Next 13B模型的推理速度比LLaVA-Next 7B模型更快,同时实现了更好的结果。此外,我们分析了这种冗余的原因,并鼓励社区专注于提取更好的视觉特征,而不仅仅是增加标记长度。我们的代码可在https://github.com/dvlab-research/VisionZip 找到。
我们介绍了一种新颖的三维生成方法,用于多功能且高质量的三维资产创建。其核心是统一的结构化潜在(SLAT)表示,允许解码为不同的输出格式,如辐射场、三维高斯和网格。通过将稀疏填充的三维网格与从强大的视觉基础模型中提取的密集多视图视觉特征相结合,全面捕捉结构(几何)和纹理(外观)信息,同时在解码过程中保持灵活性来实现这一目标。我们采用为SLAT量身定制的矫正流转换器作为我们的三维生成模型,并在一个包含50万多样对象的大型三维资产数据集上训练具有多达20亿参数的模型。我们的模型生成具有文本或图像条件的高质量结果,明显超越了现有方法,包括类似规模的最新方法。我们展示了灵活的输出格式选择和本地三维编辑功能,这是以前模型所没有提供的。代码、模型和数据将会发布。
图形用户界面(GUI)对人机交互至关重要,然而由于视觉环境的复杂性和多变性,自动化GUI任务仍然具有挑战性。现有方法通常依赖于GUI的文本表示,这在泛化、效率和可扩展性方面存在局限性。在本文中,我们介绍了Aguvis,这是一个统一的基于纯视觉的自主GUI代理框架,可跨越各种平台运行。我们的方法利用基于图像的观察,并将指令与自然语言中的视觉元素进行关联,并采用一致的动作空间以确保跨平台泛化。为了解决先前工作的局限性,我们在模型内部集成了明确的规划和推理,增强了其自主导航和与复杂数字环境交互的能力。我们构建了一个大规模的GUI代理轨迹数据集,融合了多模态推理和关联,并采用了一个两阶段的训练流程,首先专注于一般GUI关联,然后进行规划和推理。通过全面的实验,我们证明Aguvis在离线和实时在线场景中均超越了先前的最新方法,实现了我们所知的第一个完全自主的纯视觉GUI代理,能够独立执行任务,无需与外部闭源模型合作。我们已开源所有数据集、模型和训练方法,以促进未来研究,网址为https://aguvis-project.github.io/。
我们提出了Florence-VL,这是一系列新的多模态大型语言模型(MLLMs),其具有由Florence-2生成的丰富视觉表示。与广泛使用的通过对比学习训练的CLIP风格视觉Transformer不同,Florence-2能够捕捉不同层次和方面的视觉特征,更适用于适应多样化的下游任务。我们提出了一种新颖的特征融合架构和创新的训练方法,有效地将Florence-2的视觉特征整合到预训练的LLMs中,如Phi 3.5和LLama 3。特别地,我们提出了“深度-广度融合(DBFusion)”来融合从不同深度和多个提示下提取的视觉特征。我们的模型训练包括对整个模型进行端到端的预训练,然后对投影层和LLM进行微调,使用精心设计的多样化开源数据集,其中包括高质量的图像标题和指令调整对。我们对Florence-VL的视觉特征进行了定量分析和可视化,展示了其在视觉-语言对齐方面优于流行的视觉编码器的优势,其中丰富的深度和广度发挥着重要作用。Florence-VL在各种多模态和以视觉为中心的基准测试中均取得了显著的改进,涵盖了通用VQA、感知、幻觉、OCR、图表、知识密集型理解等。为了促进未来的研究,我们的模型和完整的训练方法已开源。 https://github.com/JiuhaiChen/Florence-VL
近年来,视觉语言模型(VLMs)在准确性方面取得了显著进展。然而,它们的效率却受到了较少关注。本文介绍了NVILA,这是一组旨在优化效率和准确性的开放式VLMs。在VILA的基础上,我们通过首先增加空间和时间分辨率,然后压缩视觉标记来改进其模型架构。这种“先扩展后压缩”的方法使NVILA能够高效处理高分辨率图像和长视频。我们还进行了系统性调查,以增强NVILA在整个生命周期中的效率,从训练和微调到部署。NVILA在广泛的图像和视频基准测试中与许多领先的开放式和专有VLMs的准确性相匹敌甚至超越。同时,它将训练成本降低了4.5倍,微调内存使用降低了3.4倍,预填充延迟降低了1.6-2.2倍,解码延迟降低了1.2-2.8倍。我们将很快提供我们的代码和模型以促进可重现性。
随着合成数据在语言模型(LM)后训练中的日益广泛应用,一个LM生成高质量数据的能力几乎与其直接解决问题的能力一样重要。尽管先前的研究侧重于开发有效的数据生成方法,但它们缺乏对不同LM作为数据生成器在统一设置中的系统比较。为填补这一空白,我们提出了AgoraBench,这是一个基准测试,提供了标准化的设置和指标来评估LM的数据生成能力。通过使用6个LM合成了126万个训练实例并训练了99个学生模型,我们揭示了关于LM数据生成能力的关键见解。首先,我们观察到LM表现出不同的优势。例如,GPT-4o擅长生成新问题,而Claude-3.5-Sonnet在增强现有问题方面表现更好。此外,我们的分析揭示了LM的数据生成能力不一定与其解决问题的能力相关。相反,数据质量的多个内在特征,包括响应质量、困惑度和指令难度,共同作为更好的指标。最后,我们证明了在输出格式和成本意识型模型选择方面的战略选择显著影响数据生成的有效性。
在闭环机器人系统中,自动检测和预防开放集故障至关重要。最近的研究往往难以同时在故障发生后以反应性方式识别意外故障并预防可预见的故障。为此,我们提出了“代码即监视器”(CaM),这是一种新颖的范式,利用视觉-语言模型(VLM)进行开放集反应性和主动性故障检测。我们方法的核心是将这两个任务形式化为一组统一的时空约束满足问题,并使用VLM生成的代码进行实时监视。为了增强监视的准确性和效率,我们进一步引入了抽象约束相关实体或其部分为紧凑几何元素的约束元素。这种方法提供了更大的普适性,简化了跟踪,并通过将这些元素作为视觉提示,促进了约束感知视觉编程。实验证明,与基准相比,CaM在三个模拟器和一个真实环境中实现了28.7%更高的成功率,并将执行时间在严重干扰下降低了31.8%。此外,CaM可以与开环控制策略集成,形成闭环系统,从而在拥挤场景和动态环境中实现长视距任务。
扩散模型在生成高质量图像方面表现出色。然而,当前的扩散模型在缺乏引导方法(如无分类器引导)的情况下很难生成可靠图像。引导方法是否真的必要呢?观察到通过扩散反演获得的噪声可以重建高质量图像而无需引导,我们将注意力集中在去噪流程的初始噪声上。通过将高斯噪声映射为“无引导噪声”,我们发现小幅低幅度低频分量显著增强了去噪过程,消除了对引导的需求,从而提高了推理吞吐量和内存利用率。在此基础上,我们提出了一种新方法,名为\ours,它用单一的初始噪声细化取代了引导方法。这种经过细化的噪声使得在同一扩散流程中无需引导即可生成高质量图像。我们的噪声细化模型利用高效的噪声空间学习,仅通过 5 万个文本-图像对就实现了快速收敛和强大性能。我们通过多种指标验证了其有效性,并分析了细化噪声如何消除对引导的需求。请查看我们的项目页面:https://cvlab-kaist.github.io/NoiseRefine/。
现有的多视图图像生成方法通常对预训练的文本到图像(T2I)模型进行侵入性修改,并需要进行完全微调,这导致(1)高计算成本,特别是在使用大型基础模型和高分辨率图像时,以及(2)由于优化困难和高质量3D数据稀缺而导致图像质量下降。在本文中,我们提出了第一个基于适配器的多视图图像生成解决方案,并引入了MV-Adapter,这是一个多功能即插即用适配器,可增强T2I模型及其衍生物,而无需改变原始网络结构或特征空间。通过更新更少的参数,MV-Adapter实现了高效训练,并保留了嵌入在预训练模型中的先验知识,从而减轻过拟合风险。为了有效地在适配器内部建模3D几何知识,我们引入了包括重复的自注意力层和并行注意力架构在内的创新设计,使适配器能够继承预训练模型的强大先验知识,以建模新颖的3D知识。此外,我们提出了一个统一的条件编码器,无缝集成摄像机参数和几何信息,促进了诸如基于文本和图像的3D生成和纹理化等应用。MV-Adapter在Stable Diffusion XL(SDXL)上实现了768分辨率的多视图生成,并展示了其适应性和多功能性。它还可以扩展到任意视图生成,实现更广泛的应用。我们展示了MV-Adapter为多视图图像生成设定了新的质量标准,并由于其高效性、适应性和多功能性而开辟了新的可能性。
最近基于扩散模型的基于服装的图像生成技术在文本和图像提示方面取得了令人印象深刻的进展。然而,现有方法缺乏对各种服饰组合的支持,并且在保留服装细节的同时保持对文本提示的忠实度方面存在困难,从而限制了它们在不同场景下的性能。本文专注于一个新任务,即多服装虚拟试衣,我们提出了一种名为AnyDressing的新方法,用于根据任意组合的服装和个性化文本提示对角色进行定制。AnyDressing包括两个主要网络,分别命名为GarmentsNet和DressingNet,分别用于提取详细的服装特征和生成定制图像。具体而言,我们在GarmentsNet中提出了一种高效且可扩展的模块,称为服装特定特征提取器,用于并行地对服装纹理进行编码。这种设计可以防止服装混淆,同时确保网络效率。与此同时,我们在DressingNet中设计了一种自适应Dressing-Attention机制和一种新颖的实例级服装定位学习策略,以准确地将多服装特征注入到它们对应的区域。这种方法有效地将多服装纹理线索整合到生成的图像中,并进一步增强了文本-图像的一致性。此外,我们引入了一种服装增强纹理学习策略,以改善服装的细粒度纹理细节。由于我们精心设计的优势,AnyDressing可以作为一个插件模块,轻松地与扩散模型的任何社区控制扩展集成,提高了合成图像的多样性和可控性。大量实验证明,AnyDressing取得了最先进的结果。
基于文本的对抗引导使用负面提示已经成为一种广泛采用的方法,以将输出特征远离不需要的概念。虽然有用,但仅使用文本进行对抗引导可能不足以捕捉复杂的视觉概念并避免不需要的视觉元素,如受版权保护的角色。在本文中,我们首次探索了在这个方向上使用另一种模态的方法,通过直接使用参考图像或批处理中的其他图像的视觉特征进行对抗引导。具体来说,我们引入了负面标记合并(NegToMe),这是一种简单但有效的无需训练的方法,它通过在反向扩散过程中有选择地推开匹配的语义特征(在参考和输出生成之间)来进行对抗引导。当与同一批处理中的其他图像一起使用时,我们观察到NegToMe显著增加了输出的多样性(种族、性别、视觉),而不会牺牲输出图像质量。同样,当与参考受版权保护的资产一起使用时,NegToMe有助于将与受版权内容的视觉相似性降低34.57%。NegToMe易于实现,只需几行代码,推理时间仅略高(<4%),并且适用于不原生支持单独负面提示使用的不同扩散架构,如Flux。代码可在https://negtome.github.io获得。
大型语言模型(LLMs)已成为人工智能领域的一个里程碑,随着模型规模的增加,它们的性能也会提升。然而,这种扩展给训练和推理效率带来了巨大挑战,尤其是在资源受限的环境中部署LLMs时,这种扩展趋势变得越来越不可持续。本文引入了“容量密度”概念作为评估不同规模LLMs质量的新度量标准,并描述了LLMs在有效性和效率方面的发展趋势。为了计算给定目标LLM的容量密度,我们首先引入一组参考模型,并制定一个缩放定律来预测这些参考模型的下游性能,基于它们的参数大小。然后,我们将目标LLM的有效参数大小定义为参考模型实现等效性能所需的参数大小,并将容量密度形式化为有效参数大小与目标LLM的实际参数大小之比。容量密度提供了评估模型有效性和效率的统一框架。我们对最近的开源基础LLMs进行进一步分析,揭示了一个经验定律(致密定律),即LLMs的容量密度随时间呈指数增长。具体而言,使用一些广泛使用的基准进行评估,LLMs的容量密度大约每三个月翻倍一次。这一定律为指导未来LLM的发展提供了新视角,强调提高容量密度以实现最佳结果并减少计算开销的重要性。
多语言数据集中的文化偏见对其作为全球基准的有效性构成重大挑战。这些偏见不仅源自语言,还来自解释问题所需的文化知识,降低了诸如MMLU之类的翻译数据集的实际效用。此外,翻译往往会引入可能扭曲目标语言问题意义或清晰度的人为因素。在多语言评估中的常见做法是依赖机器翻译的评估集,但仅仅翻译数据集是不足以解决这些挑战的。在这项工作中,我们追踪这两个问题对多语言评估和随后模型表现的影响。我们对最先进的开源和专有模型进行的大规模评估表明,在MMLU上取得进展在很大程度上取决于学习西方中心概念,其中28%的问题需要文化敏感知识。此外,对于需要地理知识的问题,令人惊讶的84.9%关注北美或欧洲地区。模型评估的排名会根据是在全部问题上评估还是在标记为文化敏感的子集上评估而改变,显示了在盲目依赖翻译MMLU时对模型排名的扭曲。我们发布了Global-MMLU,这是一个改进的MMLU,覆盖了42种语言的评估范围 -- 通过与获得补偿的专业和社区标注者合作验证翻译质量,同时严格评估原始数据集中存在的文化偏见,从而提高了整体质量。这个全面的Global-MMLU数据集还包括被标记为文化敏感和文化不可知的指定子集,以便进行更全面、完整的评估。
我们提出了Infinity,一种位运算视觉自回归建模技术,能够根据语言指令生成高分辨率、逼真的图像。Infinity在位元预测框架下重新定义了视觉自回归模型,采用无限词汇标记器和分类器以及位元自校正机制,显著提高了生成能力和细节。通过在理论上将标记器词汇量扩展到无限大,并同时扩展变压器的大小,我们的方法相对于基本的VAR大大释放了强大的扩展能力。Infinity创造了自回归文本到图像模型的新纪录,胜过了顶尖的扩散模型,如SD3-Medium和SDXL。值得注意的是,Infinity通过将GenEval基准分数从0.62提高到0.73,将ImageReward基准分数从0.87提高到0.96,取得了66%的胜率,超越了SD3-Medium。在没有额外优化的情况下,Infinity能够在0.8秒内生成高质量的1024x1024图像,比SD3-Medium快2.6倍,成为最快的文本到图像模型。模型和代码将会发布,以促进对Infinity在视觉生成和统一标记器建模方面的进一步探索。
我们介绍了HumanEdit,这是一个高质量、由人类奖励的数据集,专门设计用于指导图像编辑,通过开放式语言指令实现精确和多样化的图像操作。先前的大规模编辑数据集通常包含最少的人类反馈,导致数据集与人类偏好之间存在挑战。HumanEdit通过雇佣人类标注者构建数据对和管理员提供反馈来弥合这一差距。通过精心策划,HumanEdit包括5,751张图像,跨越四个阶段需要超过2,500小时的人力工作,确保在各种图像编辑任务中既准确又可靠。该数据集包括六种不同类型的编辑指令:动作、添加、计数、关系、移除和替换,涵盖了广泛的现实场景。数据集中的所有图像都附带蒙版,并且对于数据的一个子集,我们确保指令足够详细,以支持无蒙版编辑。此外,HumanEdit提供了全面的多样性和高分辨率1024乘1024的内容,来源于各个领域,为指导图像编辑数据集设定了一个新的多功能基准。为了推动未来研究并在图像编辑领域建立评估基准,我们在https://huggingface.co/datasets/BryanW/HumanEdit上发布了HumanEdit。
由于其最先进的性能和整合文本、图像和音频等多种数据模态以高准确性执行复杂任务的能力,多模态大型语言模型(MLLMs)变得日益重要。本文提供了个性化多模态大型语言模型的综合调查,重点关注它们的架构、训练方法和应用。我们提出了一个直观的分类法,用于对个性化MLLMs的个人化技术进行分类,并相应地讨论这些技术。此外,我们讨论了这些技术在适当时如何结合或调整,突出它们的优势和基本原理。我们还提供了现有研究中调查的个性化任务的简明总结,以及常用的评估指标。此外,我们总结了用于基准测试个性化MLLMs的数据集。最后,我们概述了关键的未解决挑战。本调查旨在为寻求理解和推动个性化多模态大型语言模型发展的研究人员和从业者提供宝贵资源。
理解大型语言模型(LLMs)的内部计算对于将它们与人类价值观对齐并防止产生有害行为,如生成有毒内容,至关重要。然而,机械解释性受到多义性的阻碍——即单个神经元响应多个不相关概念。虽然稀疏自编码器(SAEs)尝试通过稀疏字典学习来解开这些特征,但由于依赖事后重构损失,它们损害了LLM的性能。为了解决这个问题,我们引入了一种名为Mixture of Monosemantic Experts for Transformers(Monet)的架构,它将稀疏字典学习直接融入端到端的专家混合预训练中。我们的新颖专家分解方法使得每层专家数量可扩展至262,144个,而总参数与专家数量的平方根成比例。我们的分析表明专家之间的知识是相互排斥的,并展示了嵌入在各个专家中的参数化知识。此外,Monet允许在领域、语言和毒性缓解之间进行知识操作,而不会降低总体性能。我们追求透明的LLMs突显了通过扩展专家数量来增强机械解释性并直接切除内部知识以从根本上调整模型行为的潜力。源代码和预训练检查点可在https://github.com/dmis-lab/Monet 上获得。
我们介绍了OmniFlow,这是一种新颖的生成模型,专为文本到图像、文本到音频以及音频到图像等任意生成任务而设计。OmniFlow在文本到图像模型中使用的修正流(RF)框架上取得了进展,以处理多模态的联合分布。它在各种任务上均优于先前的任意生成模型,如文本到图像和文本到音频合成。我们的工作提供了三个关键贡献:首先,我们将RF扩展到多模态设置,并引入了一种新颖的引导机制,使用户能够灵活控制生成输出中不同模态之间的对齐。其次,我们提出了一种新颖的架构,扩展了Stable Diffusion 3的文本到图像MMDiT架构,实现了音频和文本的生成。这些扩展模块可以高效地单独进行预训练,并与基本文本到图像MMDiT合并以进行微调。最后,我们对大规模音频和文本生成的修正流变压器的设计选择进行了全面研究,为优化跨多种模态的性能提供了宝贵的见解。代码将在https://github.com/jacklishufan/OmniFlows 上提供。
作为一项全球受欢迎的运动,足球吸引了世界各地球迷的广泛兴趣。本文旨在开发一个全面的多模态足球视频理解框架。具体而言,本文在以下方面做出了贡献:(i) 我们介绍了迄今为止最大的多模态足球数据集SoccerReplay-1988,包括来自1,988场完整比赛的视频和详细注释,采用自动化注释流程;(ii) 我们提出了足球领域的首个视觉-语言基础模型MatchVision,利用足球视频中的时空信息,在各种下游任务中表现出色;(iii) 我们对事件分类、评论生成和多视角犯规识别进行了大量实验和消融研究。MatchVision在所有这些任务上展现出最先进的性能,远远优于现有模型,突显了我们提出的数据和模型的优越性。我们相信这项工作将为体育理解研究提供一个标准范式。
对比训练的视觉语言模型(VLMs)如CLIP已成为区分性视觉语言表示学习的事实标准方法。然而,这些模型在语言理解方面存在局限,通常表现出“词袋”行为。与此同时,将视觉编码器与LLMs结合的大型视觉语言模型(LVLMs)已被证明能够进行详细的视觉语言推理,但其自回归性质使其不太适用于区分性任务。 在这项工作中,我们提出结合“两全其美”的方法:一种新的LVLMs区分性微调训练方法,可实现强大的区分性和组合能力。本质上,我们的方法将生成式LVLM转换为区分式LVLM,释放其进行强大的图像-文本区分能力以及增强的语言理解能力。 我们的贡献包括:(1)精心设计的训练/优化框架,利用可变长度和粒度的图像-文本对训练模型,同时结合对比和下一个标记预测损失。这伴随着消融研究,证明了我们框架组件的必要性。 (2)使用软提示和LoRA适配器结合的参数高效适应方法。 (3)相比于类似规模的最新CLIP模型,包括标准图像-文本检索基准和组合性方面的显著改进。
近年来,大型语言模型(LLMs)取得了显著进展;然而,它们的出色性能仍然主要局限于主要世界语言,主要是英语。许多LLMs在多语言任务中仍然面临挑战,特别是在处理低资源语言时。为了解决这个问题,我们引入了Marco-LLM:大规模多语言训练用于跨语言增强LLM。我们已经为几种低资源语言收集了大量多语言数据,并使用Qwen2模型进行了广泛的持续预训练。这一努力产生了一个名为Marco-LLM的多语言LLM。通过对各种多语言基准进行全面评估,包括MMMLU、AGIEval、Belebele、Flores-200、XCOPA等,Marco-LLM在最先进的LLMs基础上展现出了显著的改进。此外,Marco-LLM在任意-任意机器翻译任务中取得了显著的提升,显示了我们多语言LLM的有效性。Marco-LLM是一款开创性的多语言LLM,旨在不仅在多语言任务中表现出色,包括低资源语言,而且在英语和其他主要语言中保持强劲表现,缩小高资源和低资源语言能力之间的性能差距。通过架起语言之间的桥梁,这一努力展示了我们致力于确保LLMs在各种语言中准确工作的决心。
最近视频扩散模型的进展为实现逼真的音频驱动对话视频生成开辟了新的潜力。然而,实现无缝音频唇部同步、保持长期身份一致性以及在生成的对话视频中产生自然、音频对齐的表情仍然是重大挑战。为了解决这些挑战,我们提出了一种记忆引导的情感感知扩散(MEMO)方法,这是一种端到端的音频驱动肖像动画方法,用于生成具有一致身份和富有表现力的对话视频。我们的方法围绕两个关键模块构建:(1)记忆引导的时间模块,通过开发记忆状态来存储来自更长过去上下文的信息,通过线性注意力引导时间建模,增强长期身份一致性和运动平滑度;以及(2)情感感知音频模块,用多模态注意力取代传统的交叉注意力,增强音频-视频交互,同时从音频中检测情绪,通过情感自适应层归一化改进面部表情。广泛的定量和定性结果表明,MEMO在各种图像和音频类型上生成更逼真的对话视频,优于现有方法在整体质量、音频唇部同步、身份一致性和表情-情感对齐方面的表现。
本文提出了ZipAR,一个无需训练、即插即用的并行解码框架,用于加速自回归(AR)视觉生成。动机源于观察到图像呈现局部结构,空间上相距较远的区域往往具有最小的相互依赖性。给定部分解码的视觉令牌集,除了在行维度上的原始下一个令牌预测方案外,可以并行解码列维度中空间相邻区域对应的令牌,实现“下一个集合预测”范式。通过在单个前向传递中同时解码多个令牌,生成图像所需的前向传递次数显著减少,从而大幅提高生成效率。实验证明,ZipAR可以在不需要任何额外重新训练的情况下,将在Emu3-Gen模型上的模型前向传递次数减少高达91%。
目前的大型语言模型主要基于仅解码结构的Transformer,具有很强的上下文学习(ICL)能力。人们普遍认为,其ICL能力的重要基础是感知头机制,这需要至少两层的注意力。为了更有效地实现模型感知的能力,我们重新审视了感知头机制,并提出了KV转移注意力。我们在理论上证明了KV转移注意力减少了模型对感知头机制深度和宽度的要求。我们的实验结果表明,KV转移注意力有助于学习感知头和语言建模,从玩具模型到具有超过10 B参数的预训练模型,导致更好的性能或更快的收敛。
我们提出了4Real-Video,一个用于生成4D视频的新颖框架,以视频帧的网格形式组织,具有时间和视点轴。在这个网格中,每一行包含共享相同时间步的帧,而每一列包含来自相同视点的帧。我们提出了一种新颖的双流架构。一个流在列上执行视点更新,另一个流在行上执行时间更新。在每个扩散变换层之后,一个同步层在两个令牌流之间交换信息。我们提出了同步层的两种实现,分别使用硬同步或软同步。这种前馈架构在三个方面改进了以前的工作:更高的推理速度,增强的视觉质量(通过FVD、CLIP和VideoScore衡量),以及改善的时间和视点一致性(通过VideoScore和Dust3R-Confidence衡量)。
尽管多模态大型语言模型(MLLMs)在各种任务上表现出色,但巨大的训练和推理成本阻碍了它们的进展。大部分计算来自于变压器解码器处理的庞大视觉标记数量。本文提出通过利用深度混合(MoD)机制构建高效MLLMs,其中每个变压器解码器层选择要处理的关键视觉标记,同时跳过冗余标记。然而,将MoD集成到MLLMs中并不是一件简单的事。为了解决训练和推理稳定性以及有限训练数据的挑战,我们使用两种新设计对MoD模块进行了调整:tanh门控权重归一化(TanhNorm)和对称标记重新加权(STRing)。此外,我们观察到视觉标记在更深层中存在更高的冗余性,因此设计了渐进比率衰减(PRD)策略,逐渐减少标记保留比例,采用了平移余弦调度。这一关键设计充分释放了MoD的潜力,显著提升了我们模型的效率和性能。为验证我们方法的有效性,我们在14个基准测试中对两个基准模型进行了大量实验。我们的模型p-MoD在推理过程中仅使用了基线模型的55.6% TFLOPs和53.8% KV缓存存储,并在训练过程中使用了77.7%的GPU小时,与基线模型的性能相匹敌甚至超越。
尽管视觉语言模型(VLMs)取得了显著进展,但目前缺乏有效方法来通过扩展推理时计算来提高响应质量。这种能力被认为是最近大型语言模型研究中自我改进模型的核心步骤之一。在本文中,我们提出了Vision Value Model(VisVM),它可以引导VLM推理时搜索,以生成具有更好视觉理解的响应。具体来说,VisVM不仅评估当前搜索步骤中生成的句子质量,还预测可能由当前步骤产生的后续句子的质量,从而提供长期价值。通过这种方式,VisVM可以引导VLM避免生成容易产生幻觉或细节不足的句子,从而产生更高质量的响应。实验结果表明,与贪婪解码和其他视觉奖励信号的搜索方法相比,VisVM引导的搜索显著提高了VLM生成具有更丰富视觉细节和更少幻觉的描述性标题的能力。此外,我们发现使用VisVM引导的标题对模型进行自训练可以改善VLM在各种多模态基准测试中的性能,表明了发展自我改进VLM的潜力。我们的价值模型和代码可在https://github.com/si0wang/VisVM 上获取。
近年来,深度神经网络在医学图像分割方面取得了令人瞩目的进展,然而异质模态和标注蒙版的稀缺限制了在未标注模态上开发分割模型。本文探讨了在医学应用中利用生成模型的新范式:可控合成未标注模态的数据,而无需注册数据对。具体来说,本文在以下方面做出了贡献:(i)我们收集和整理了一个大规模的放射学图像文本数据集MedGen-1M,包括模态标签、属性、区域和器官信息,以及一部分器官蒙版标注,以支持可控医学图像生成的研究;(ii)我们提出了一种基于扩散的数据引擎,称为MRGen,它能够根据文本提示和蒙版进行生成,合成缺乏蒙版标注的多样模态的MR图像,以训练未标注模态上的分割模型;(iii)我们在各种模态上进行了大量实验,表明我们的数据引擎能够有效合成训练样本,并将MRI分割扩展到未标注模态。
从文档图像中提取表格是一个具有挑战性的人工智能问题,许多内容领域的标记数据难以获取。现有的表格提取数据集通常侧重于科学表格,因为大量学术文章及其源代码是readily available。然而,在科学、金融和其他领域的表格之间存在显著的布局和排版差异。当前的数据集通常缺乏表格中包含的单词及其位置,而是依赖不可靠的OCR来提取这些特征,以训练现代机器学习模型进行自然语言处理任务。因此,需要一种更通用的获取标记数据的方法。我们提出SynFinTabs,一个大规模的合成金融表格标记数据集。我们希望我们生成这些合成表格的方法可以迁移到其他领域。为了展示我们的数据集在训练模型从表格图像中提取信息方面的有效性,我们创建了FinTabQA,一个基于抽取式问答任务训练的大型语言模型。我们使用真实世界的金融表格测试我们的模型,并将其与最先进的生成模型进行比较,并讨论结果。我们公开提供数据集、模型和数据集生成代码。
像Chatbot Arena这样的开放社区驱动平台,从网站访问者那里收集用户偏好数据,已经成为LLM性能最可信赖的公开基准之一。虽然现在已经成为标准,但要实施有效的防护措施来收集高质量的人类注释并不容易。本文演示了三种糟糕注释的来源,包括恶意和其他形式,可能会破坏开放排行榜的可靠性。特别地,我们表明,只有10%的低质量投票,来自漠不关心的(网站访问者没有适当激励给出正确投票)或敌对的(试图提升目标模型排名的不良行为者)注释者,就能够将模型在排行榜上的排名改变多达5个位置。最后,我们讨论确保高质量人类注释的开放挑战。
我们制定了任务缩放定律和模型阶梯,以预测预训练语言模型(LMs)在过度训练设置中的个别任务性能。标准的语言建模损失幂律不能准确地模拟任务性能。因此,我们利用两步预测方法:首先使用模型和数据大小来预测特定任务的损失,然后使用该任务损失来预测任务性能。我们训练了一组小规模的“阶梯”模型,收集数据点以拟合两个预测步骤的参数化函数,并为两个目标模型进行预测:一个训练了4T标记的7B模型和一个训练了5T标记的13B模型。训练阶梯模型仅耗费目标模型计算量的1%。在四个以排名分类格式编写的多项选择任务中,我们可以预测两个目标模型的准确性,误差不超过2个点。我们在另外四个任务上的预测误差较大(平均绝对误差为6.9),发现这些任务通常具有较高的任务指标方差。我们还发现,使用更少的计算资源训练更少的阶梯模型往往会导致预测结果恶化。最后,我们经验性地展示了我们的设计选择和两步方法在建立缩放定律方面表现出优越性能。