每日精选AI研究论文及翻译
随着语言模型的不断扩展,大型语言模型(LLMs)展现出在上下文学习(ICL)方面的新兴能力,使它们能够通过在上下文中添加少量上下文演示(ICDs)来解决语言任务。受到这些进展的启发,研究人员将这些技术扩展到具有ICL能力的大型多模态模型(LMMs)的开发中。然而,现有的LMMs面临一个关键问题:它们经常无法有效利用多模态演示中的视觉上下文,而是简单地遵循文本模式。这表明LMMs未能实现多模态演示和模型输出之间的有效对齐。为了解决这个问题,我们提出了符号演示直接优化偏好(SymDPO)。具体而言,SymDPO旨在打破传统范式,通过使用随机符号替换实例中的文本答案来构建多模态演示。这迫使模型仔细理解演示图像,并建立图像与符号之间的关系以正确回答问题。我们在多个基准测试中验证了这种方法的有效性,表明通过SymDPO,LMMs能够更有效地理解示例中的多模态上下文,并利用这一知识更好地回答问题。
尽管量化线性层已被广泛使用,但其在加速注意力过程中的应用仍然有限。SageAttention 利用 8 位矩阵乘法、16 位矩阵乘法与 16 位累加器以及精度增强方法,实现了比 FlashAttention2 更准确且速度提升 2 倍的内核。为进一步提高注意力计算效率并保持精度,我们提出了 SageAttention2,它利用明显更快的 4 位矩阵乘法(Matmul)以及额外的精度增强技术。首先,我们建议将矩阵(Q、K)量化为 INT4,并以 warp 级别的粒度量化矩阵(widetilde P、V)为 FP8。其次,我们提出一种平滑 Q 和 V 的方法,增强了 INT4 QK 和 FP8 PV 的注意力准确性。第三,我们分析了各时间步和层的量化准确性,然后提出了一种自适应量化方法,以确保各种模型上的端到端指标。SageAttention2 的每秒操作次数(OPS)在 RTX4090 上分别超过 FlashAttention2 和 xformers 大约 3 倍和 5 倍。全面的实验证实,我们的方法在各种模型上,包括大型语言处理、图像生成和视频生成模型中,几乎没有引起端到端指标的损失。代码可在 https://github.com/thu-ml/SageAttention 上找到。
视频生成已经取得了显著的进展,但评估这些模型仍然是一个挑战。视频生成的全面评估基准至关重要,原因有两点:1)现有的度量标准并不完全符合人类感知;2)理想的评估系统应提供见解,以指导未来视频生成的发展。为此,我们提出了VBench,一个全面的基准套件,将“视频生成质量”分解为具体、分层和解耦的维度,每个维度都有量身定制的提示和评估方法。VBench具有几个吸引人的特点:1)全面的维度:VBench包括视频生成中的16个维度(例如,主体身份不一致、动作平滑度、时间闪烁和空间关系等)。细粒度级别的评估度量揭示了各个模型的优势和劣势。2)与人类对齐:我们还提供了一个人类偏好注释数据集,以验证我们基准与人类感知的对齐性,分别针对每个评估维度。3)宝贵的见解:我们研究了当前模型在各种评估维度和各种内容类型上的能力。我们还调查了视频和图像生成模型之间的差距。4)多功能基准测试:VBench++支持评估文本到视频和图像到视频。我们引入了一个具有自适应宽高比的高质量图像套件,以实现在不同图像到视频生成设置下的公平评估。除了评估技术质量,VBench++还评估视频生成模型的可信度,提供了对模型性能更全面的视角。5)完全开源:我们完全开源了VBench++,并不断向我们的排行榜添加新的视频生成模型,推动视频生成领域的发展。
近来,具备先进视频分析能力的大型多模态模型(LMMs)日益受到重视。然而,大多数评估仍依赖于传统方法,如在VideoMME和LongVideoBench等基准测试中的多项选择问题,这些方法往往缺乏捕捉真实用户复杂需求所需的深度。为解决这一局限性,考虑到人工标注视频任务的成本高昂且速度缓慢,我们引入了VideoAutoArena,这是受LMSYS Chatbot Arena框架启发的竞技场式基准测试,旨在自动评估LMMs的视频分析能力。VideoAutoArena利用用户模拟生成开放式、自适应的问题,严格评估模型在视频理解方面的表现。该基准测试具备自动化、可扩展的评估框架,采用修改后的ELO评分系统,以公平、持续地比较多个LMMs。为验证我们的自动评判系统,我们构建了一个“黄金标准”,使用精心策划的人工标注子集,证明我们的竞技场与人类判断高度一致,同时保持可扩展性。此外,我们引入了一种基于错误驱动的演进策略,逐渐增加问题复杂度,推动模型处理更具挑战性的视频分析场景。实验结果表明,VideoAutoArena有效区分了最先进的LMMs,为模型的优势和改进方向提供了见解。为进一步简化我们的评估流程,我们推出了VideoAutoBench作为辅助基准测试,其中人工标注者标记了VideoAutoArena战斗中的获胜者。我们使用GPT-4o作为评委,将回答与这些经人工验证的答案进行比较。VideoAutoArena和VideoAutoBench共同提供了一种成本效益高、可扩展的框架,用于评估以用户为中心的视频分析中的LMMs。
Segment Anything Model 2(SAM 2)在目标分割任务中表现出色,但在视觉目标跟踪方面面临挑战,特别是在处理拥挤场景、快速移动或自遮挡物体时。此外,原始模型中的固定窗口记忆方法并未考虑选择用于调整图像特征的记忆质量,导致视频中的错误传播。本文介绍了SAMURAI,这是SAM 2的增强版本,专门设计用于视觉目标跟踪。通过将时间运动线索与提出的运动感知记忆选择机制相结合,SAMURAI有效地预测目标运动并优化掩模选择,实现了稳健、准确的跟踪,无需重新训练或微调。SAMURAI实时运行,并在各种基准数据集上展现出强大的零样本性能,表明其能够在无需微调的情况下进行泛化。在评估中,SAMURAI在成功率和精度方面取得了显著改进,LaSOT_{ext}上的AUC增益为7.1%,GOT-10k上的AO增益为3.5%。此外,与LaSOT上的完全监督方法相比,它在LaSOT上取得了竞争性结果,突显了其在复杂跟踪场景中的稳健性以及在动态环境中实际应用的潜力。代码和结果可在https://github.com/yangchris11/samurai获取。
扩大上下文窗口大小使大型语言模型(LLMs)能够处理更长的序列并处理更复杂的任务。旋转位置嵌入(RoPE)已成为事实上的标准,因为它具有有利于长上下文训练的相对位置编码特性。然而,我们观察到,使用BFloat16格式的RoPE会导致数值问题,使其偏离其预期的相对位置编码,特别是在长上下文场景中。这个问题源于BFloat16的有限精度,并随着上下文长度的增加而累积,其中第一个标记对这个问题有着显著的贡献。为了解决这个问题,我们开发了AnchorAttention,这是一种即插即用的注意力方法,可以缓解BFloat16引起的数值问题,改进长上下文能力,并加快训练速度。AnchorAttention减少了不必要的注意力计算,保持语义连贯性,并通过将第一个标记视为具有一致位置ID的共享锚点来提高计算效率,使其对训练上下文中的所有文档可见。对三种类型的LLMs进行的实验表明,AnchorAttention显著提高了长上下文性能,并将训练时间缩短了50\%以上,与标准的全注意力机制相比,同时保留了原始LLM在一般任务上的能力。我们的代码可在https://github.com/haonan3/AnchorContext找到。
语言代理已经展示出在自动化网络任务方面具有很大潜力,尽管它们目前的反应式方法与人类相比仍然表现不佳。通过整合先进的规划算法,特别是树搜索方法,可以增强这些代理的性能,但是直接在实时网站上实施树搜索会带来重大的安全风险和实际约束,因为会有不可逆转的行动,比如确认购买。在本文中,我们介绍了一种新颖的范式,通过模型为基础的规划来增强语言代理,开创了在复杂网络环境中将大型语言模型(LLMs)用作世界模型的创新用途。我们的方法,WebDreamer,建立在一个关键观点上,即LLMs本质上编码了关于网站结构和功能的全面知识。具体来说,WebDreamer利用LLMs来模拟每个候选动作的结果(例如,“如果我点击这个按钮会发生什么?”),然后评估这些想象出的结果以确定每一步的最佳动作。在具有在线交互的两个代表性网络代理基准测试--VisualWebArena和Mind2Web-live上的实证结果表明,WebDreamer相对于反应式基线取得了显著的改进。通过证实LLMs在网络环境中作为世界模型的可行性,这项工作为自动化网络交互的范式转变奠定了基础。更广泛地说,我们的发现为未来研究开辟了激动人心的新途径,包括1)专门为复杂、动态环境中的世界建模优化LLMs,以及2)基于模型的猜测性规划用于语言代理。
扩散模型在图像生成方面表现出色,但控制它们仍然是一个挑战。我们专注于风格条件的图像生成问题。尽管示例图像有效,但它们很繁琐:MidJourney的srefs(风格参考代码)通过用简短的数字代码表达特定图像风格来解决这个问题。由于易于分享并且允许使用图像进行风格控制,而无需发布源图像本身,这些代码已经在社交媒体上得到广泛采用。然而,用户无法从自己的图像生成srefs,也无法公开底层训练过程。我们提出了StyleCodes:一个开源和开放研究的风格编码器架构和训练过程,将图像风格表达为一个包含20个符号的base64代码。我们的实验表明,与传统的图像到风格技术相比,我们的编码结果在质量上几乎没有损失。
大型多模态模型(LMMs)的最新发展已经扩展了它们的能力,包括视频理解。具体来说,文本到视频(T2V)模型在质量、理解力和持续时间方面取得了显著进展,擅长根据简单的文本提示创建视频。然而,它们仍经常产生明显表明视频是由人工智能生成的幻觉内容。我们介绍了ViBe:一个大规模的从T2V模型产生的幻觉视频的文本到视频基准。我们确定了五种主要类型的幻觉:主体消失、数字变化、时间错形、遗漏错误和物理不协调。利用10个开源T2V模型,我们开发了第一个大规模的由人类注释为这五个类别的幻觉视频数据集,包括3,782个视频。ViBe为评估T2V模型的可靠性提供了独特资源,并为改善视频生成中的幻觉检测和缓解奠定了基础。我们建立了分类作为基准,并提出了各种集成分类器配置,其中TimeSFormer + CNN组合表现最佳,实现了0.345的准确率和0.342的F1分数。这一基准旨在推动开发出更准确地与输入提示对齐的强大T2V模型。
尽管规模定律为预测单一数据分布下的不同计算规模对训练损失的可靠方法提供了,但在改变数据分布时,我们对这些预测如何变化了解甚少。本文中,我们推导出一种策略,用于预测一种损失值从另一种损失值,并将其应用于跨不同预训练数据集的预测,以及从预训练数据到下游任务数据的预测。我们的预测能够在即使是比用于拟合曲线的最大 FLOP 预算大 20 倍的情况下也能很好地外推。更确切地说,我们发现当模型通过训练计算(训练对训练)配对时,在两个分别在两个不同数据集上训练的模型的训练损失之间,以及单个模型在任何下游分布上的训练损失和测试损失之间(训练对测试),以及两个在两个不同训练数据集上训练的模型的测试损失之间(测试对测试),存在简单的移位幂律关系。这些结果适用于差异很大的预训练数据集(有些完全由代码组成,而其他一些则没有任何代码),以及各种下游任务。最后,我们发现在某些情况下,这些移位幂律关系可以比外推单一数据集的规模定律产生更准确的预测。
文本到图像扩散生成模型可以生成高质量图像,但需要繁琐的提示工程。通过引入布局条件,可以改善可控性,然而现有方法缺乏布局编辑能力和对物体属性的精细控制。多层生成的概念有望解决这些限制,然而同时生成图像实例和场景构成限制了对物体属性的精细控制、在三维空间中的相对定位和场景操作能力。在这项工作中,我们提出了一种新颖的多阶段生成范式,旨在实现精细控制、灵活性和互动性。为了确保对实例属性的控制,我们设计了一种新颖的训练范式,以调整扩散模型,生成带有透明信息的独立场景组件作为RGBA图像。为了构建复杂图像,我们利用这些预生成的实例,并引入多层复合生成过程,平滑地将组件组装在逼真的场景中。我们的实验表明,我们的RGBA扩散模型能够生成多样且高质量的实例,并精确控制物体属性。通过多层合成,我们展示了我们的方法允许从高度复杂的提示构建和操作图像,对物体外观和位置具有精细控制,比竞争方法具有更高程度的控制。
放射学报告生成(RRG)的目标是基于放射影像自动生成关于疾病的连贯文本分析,从而减轻放射科医师的工作量。目前基于人工智能的RRG方法主要集中在修改编码器-解码器模型架构上。为了推进这些方法,本文引入了一种基于器官-区域信息驱动(ORID)的框架,可以有效整合多模态信息并减少来自无关器官的噪音影响。具体而言,基于LLaVA-Med,我们首先构建了一个与RRG相关的指导数据集,以提高器官-区域诊断描述能力,并得到LLaVA-Med-RRG。之后,我们提出了一个基于器官的跨模态融合模块,有效地结合了器官-区域诊断描述和放射影像的信息。为了进一步减少无关器官对放射学报告生成的影响,我们引入了一个器官重要性系数分析模块,利用图神经网络(GNN)来检查每个器官区域的跨模态信息之间的相互关系。通过广泛的实验和与各种评估指标的比较,我们提出的方法表现出优越的性能。