每日精选AI研究论文及翻译
与图像-文本对数据相比,交错语料库使视觉-语言模型(VLMs)能够更自然地理解世界,就像人类一样。然而,这些现有数据集是从网页抓取的,面临着知识密度低、图像-文本关系松散以及图像之间逻辑连贯性差等挑战。另一方面,互联网上有大量的教学视频(例如在线几何课程),被人类广泛用于学习基础学科,然而这些宝贵资源在VLM训练中仍未得到充分探索。本文介绍了一个高质量的多模态教科书语料库,为VLM预训练提供了更丰富的基础知识。它汇集了超过2.5年的教学视频,总计22,000课时。我们首先使用LLM提出的分类法系统地收集教学视频。然后,我们逐步从视频中提取和精炼视觉(关键帧)、音频(ASR)和文本知识(OCR),并按照时间顺序组织为一个基于图像-文本交错的语料库。与同类产品相比,我们以视频为中心的教科书提供了更连贯的上下文、更丰富的知识和更好的图像-文本对齐。实验证明了它在预训练性能方面的出色表现,特别是在科学问答和数学问题解决等知识和推理密集型任务中。此外,预训练于我们教科书的VLM表现出色的交错上下文意识,利用视觉和文本线索在少样本上下文中解决任务。我们的代码可在 \url{https://github.com/DAMO-NLP-SG/multimodal_textbook} 获取。
尽管视频生成取得了重大进展,但将特定对象插入视频仍然是一项具有挑战性的任务。困难在于同时保留参考对象的外观细节并准确建模连贯运动。本文提出了VideoAnydoor,这是一个零样本视频对象插入框架,具有高保真度细节保留和精确运动控制。从文本到视频模型开始,我们利用一个ID提取器注入全局身份,并利用一个框序列控制整体运动。为了保留详细外观并同时支持细粒度运动控制,我们设计了一个像素变形器。它以任意关键点的参考图像和相应的关键点轨迹作为输入。根据轨迹扭曲像素细节,并将扭曲的特征与扩散U-Net融合,从而提高细节保留并支持用户操纵运动轨迹。此外,我们提出了一种训练策略,涉及视频和静态图像,采用重新加权重构损失以增强插入质量。VideoAnydoor在现有方法上表现出显著优势,并自然支持各种下游应用(例如生成言语头像、视频虚拟试穿、多区域编辑)而无需任务特定的微调。
随着现有大型语言模型(LLMs)的代码推理能力不断增强,以及OpenAI o1和o3等推理模型的突破,迫切需要开发更具挑战性和全面性的基准,以有效测试它们复杂的竞赛级编码能力。现有的基准,如LiveCodeBench和USACO,存在私有测试用例不可用、不支持特殊评判和执行环境不匹配等问题。为填补这一空白,我们引入了CodeElo,这是一个标准化的竞赛级代码生成基准,首次有效解决了所有这些挑战。CodeElo基准主要基于官方CodeForces平台,并尽可能与该平台保持一致。我们整理了CodeForces最近六个月的比赛问题,包括比赛分级、问题难度评级和问题算法标签等详细信息。我们引入了独特的评判方法,其中问题直接提交到平台上,并开发了一个可靠的Elo评分计算系统,与平台保持一致,可与人类参与者相比但方差较低。通过在我们的CodeElo上进行测试,我们首次提供了30个现有流行的开源和3个专有LLMs的Elo评分。结果显示,o1-mini和QwQ-32B-Preview表现显著,分别获得了1578和1261的Elo评分,而其他模型即使在最简单的问题上也很困难,排在所有人类参与者中最低的20%。还进行了详细的分析实验,以提供有关算法性能和使用C++和Python的比较的见解,这可以为未来研究提供方向。
最近,视频大型语言模型(Video LLMs)在一般视频理解方面展现出了显著的能力。然而,它们主要侧重于整体理解,难以捕捉精细的空间和时间细节。此外,缺乏高质量的基于对象级别的视频指导数据和一个全面的基准进一步阻碍了它们的发展。为了解决这些挑战,我们引入了VideoRefer Suite,以增强Video LLM对更精细级别的空间-时间视频理解,即在整个视频中对任何对象进行感知和推理。特别是,我们全面发展了VideoRefer Suite 的三个关键方面:数据集、模型和基准。首先,我们引入了一个多智能体数据引擎,精心策划了一个大规模、高质量的基于对象级别的视频指导数据集,称为VideoRefer-700K。接下来,我们提出了VideoRefer 模型,该模型配备了多功能的空间-时间对象编码器,以捕捉精确的区域和序列表示。最后,我们精心创建了一个VideoRefer-Bench,全面评估Video LLM的空间-时间理解能力,跨多个方面进行评估。广泛的实验和分析表明,我们的VideoRefer 模型不仅在视频指代基准上取得了令人期待的性能,而且促进了一般视频理解能力。
我们介绍了LTX-Video,这是一种基于Transformer的潜在扩散模型,通过无缝集成Video-VAE和去噪Transformer的功能,采用了一种全面的方法来生成视频。与现有方法不同,现有方法将这些组件视为独立的,LTX-Video旨在优化它们的相互作用,以提高效率和质量。其核心是经过精心设计的Video-VAE,实现了高达1:192的压缩比,每个标记的空间时间降采样为32 x 32 x 8像素,通过将分块操作从Transformer的输入转移到VAE的输入来实现。在这种高度压缩的潜在空间中运行,使得Transformer能够高效执行全空间时间自注意力,这对于生成具有时间一致性的高分辨率视频至关重要。然而,高度压缩固有地限制了细节的表示。为了解决这个问题,我们的VAE解码器负责潜在到像素的转换和最终的去噪步骤,在像素空间直接生成清晰结果。这种方法保留了生成细节的能力,而不会产生单独上采样模块的运行时成本。我们的模型支持各种用例,包括文本到视频和图像到视频生成,两种功能同时训练。它实现了快于实时的生成,在Nvidia H100 GPU上仅需2秒即可在768x512分辨率下生成5秒24 fps视频,优于所有类似规模的现有模型。源代码和预训练模型已公开可用,为可访问和可扩展的视频生成设定了新的基准。
搭配Transformer架构的潜在扩散模型在生成高保真图像方面表现出色。然而,最近的研究揭示了这种两阶段设计中的优化困境:增加视觉标记器中每个标记特征维度可以提高重建质量,但需要更大的扩散模型和更多的训练迭代才能达到可比较的生成性能。因此,现有系统通常会接受次优解,要么因为标记器内信息丢失而产生视觉伪影,要么因为昂贵的计算成本而无法完全收敛。我们认为这一困境源于学习无约束高维潜在空间的固有困难。为了解决这个问题,我们提出在训练视觉标记器时将潜在空间与预训练的视觉基础模型对齐。我们提出的VA-VAE(视觉基础模型对齐变分自动编码器)显著扩展了潜在扩散模型的重建-生成边界,实现了高维潜在空间中扩散Transformer(DiT)更快的收敛。为了充分利用VA-VAE的潜力,我们构建了一个增强的DiT基线,采用改进的训练策略和架构设计,称为LightningDiT。这一集成系统在ImageNet 256x256生成上取得了最先进的性能,FID分数为1.35,同时展示了显著的训练效率,在仅64个时期内达到了2.11的FID分数——相比原始DiT,收敛速度提高了超过21倍。模型和代码可在以下链接找到:https://github.com/hustvl/LightningDiT。
随着在线平台上视觉媒体的兴起,图像内容安全已成为一个重要挑战。与此同时,在人工智能生成内容(AIGC)时代,许多图像生成模型能够生成包含色情或暴力内容的有害内容。因此,基于已建立的安全规则识别此类不安全图像变得至关重要。预训练的多模态大语言模型(MLLMs)在这方面具有潜力,因为它们具有强大的模式识别能力。现有方法通常使用人工标记的数据集对MLLMs进行微调,然而这带来了一系列缺点。首先,依赖人类标注者按照复杂详细的指南标记数据既昂贵又劳动密集。此外,安全判断系统的用户可能需要频繁更新安全规则,使得在基于人类标注的微调上更具挑战性。这引发了一个研究问题:我们能否通过在预定义的安全宪章(一组安全规则)中以零短训练方式查询MLLMs来检测不安全图像?我们的研究表明,简单地查询预训练的MLLMs并不能产生令人满意的结果。这种效果不佳源于诸如安全规则的主观性、冗长宪章的复杂性以及模型固有的偏见等因素。为了解决这些挑战,我们提出了一种基于MLLM的方法,包括客观化安全规则、评估规则与图像之间的相关性、基于去偏置的标记概率进行快速判断,使用逻辑上完整但简化的先决条件链进行安全规则,以及根据需要进行更深入的推理,采用级联的思维链过程。实验结果表明,我们的方法对于零短训练图像安全判断任务非常有效。
自我校正旨在使大型语言模型(LLMs)能够在没有外部反馈的情况下自我验证和自我完善其初始响应。然而,LLMs经常无法有效地自我验证和生成正确的反馈,进而导致自我校正的失败,特别是在复杂推理任务中。在本文中,我们提出了程序驱动的自我校正(ProgCo)。首先,程序驱动的验证(ProgVe)通过自动生成、自执行的验证伪程序实现复杂的验证逻辑和广泛的验证。然后,程序驱动的完善(ProgRe)从ProgVe接收反馈,在响应和验证程序上进行双重反思和完善,以减轻在复杂推理任务中错误反馈的误导。对三个指令遵循和数学基准的实验表明,ProgCo实现了有效的自我校正,并且在与真实程序工具结合时可以进一步提高性能。
近年来,受到大型语言模型(LLMs)领域的重大进展推动,AI代理变得日益普遍。移动GUI代理是AI代理的一个子集,旨在自主执行移动设备上的任务。虽然许多研究引入了代理、数据集和基准以推动移动GUI代理研究,但许多现有数据集侧重于静态帧评估,并未提供全面的平台来评估在真实世界中的任务表现。为了填补这一空白,我们提出了Android Agent Arena(A3),这是一个新颖的评估平台。与现有的真实世界系统不同,A3提供:(1)有意义且实用的任务,如实时在线信息检索和操作指导;(2)更大、更灵活的动作空间,使其与在任何数据集上训练的代理兼容;以及(3)自动化的基于业务级LLM的评估过程。A3包括21个广泛使用的通用第三方应用程序和201个代表常见用户场景的任务,为在真实世界情境中评估移动GUI代理提供了坚实基础,并为减少人力和编码专业知识提供了新的自主评估流程。该项目可在https://yuxiangchai.github.io/Android-Agent-Arena/ 上找到。
最近基础模型的进展增强了人工智能系统在自主工具使用和推理方面的能力。然而,它们在基于位置或地图的推理能力——通过优化导航、促进资源发现和简化物流而改善日常生活的能力——尚未得到系统研究。为了弥补这一差距,我们引入了MapEval,这是一个旨在评估具有地理空间推理的多样化和复杂地图用户查询的基准。MapEval包括三种任务类型(文本、基于API和视觉),需要通过地图工具收集世界信息,处理异构的地理空间背景(例如命名实体、旅行距离、用户评论或评分、图像)和组合推理,这些都是当前最先进的基础模型难以应对的挑战。MapEval包含了关于180个城市和54个国家的位置的700个独特的多项选择问题,评估基础模型处理空间关系、地图信息图表、旅行规划和导航挑战的能力。利用MapEval,我们对28个知名基础模型进行了全面评估。虽然没有单一模型在所有任务上表现优异,但Claude-3.5-Sonnet、GPT-4o和Gemini-1.5-Pro在整体上表现出色。然而,出现了明显的性能差距,特别是在MapEval中,Claude-3.5-Sonnet的代理比GPT-4o和Gemini-1.5-Pro分别高出16%和21%,与开源LLMs相比,差距甚至更加明显。我们的详细分析提供了对当前模型优势和劣势的见解,尽管所有模型在复杂地图图像和严格的地理空间推理方面仍然比人类表现差距超过20%。这一差距突显了MapEval在推进具有更强地理空间理解的通用基础模型方面的关键作用。
最近出现的大型语言模型(LLMs)已经通过视频大型语言模型(VideoLLMs)将复杂的推理能力引入视频领域。然而,VideoLLMs目前依赖单个视觉编码器进行所有视觉处理,这限制了可以传达给LLM的视觉信息的数量和类型。我们的方法,MERV,即视频的多编码器表示(Multi-Encoder Representation of Videos),相反利用多个冻结的视觉编码器来创建视频的统一表示,为VideoLLM提供全面的专业视觉知识集。从每个编码器中空间-时间地对齐特征使我们能够处理更广泛的开放式和多选视频理解问题,并胜过先前的最先进作品。在标准套件视频理解基准测试中,MERV的准确率比Video-LLaVA高出多达3.7%,同时还具有更好的Video-ChatGPT得分。我们还提高了SeViLA在零样本感知测试准确率上的表现,提高了2.2%。MERV引入了最少的额外参数,比等效的单编码器方法训练更快,同时并行化视觉处理。最后,我们提供定性证据表明MERV成功地从每个编码器中捕获领域知识。我们的结果为利用多个视觉编码器进行全面视频理解提供了有前途的方向。
当前的大型语言模型(LLMs)通常在类似代码生成这样的复杂推理任务中很难在第一次尝试时产生准确的响应。先前的研究通过生成多个候选解决方案并使用LLM生成的单元测试对其进行验证来解决这一挑战。单元测试的执行结果作为奖励信号,用于识别正确的解决方案。由于LLMs总是自信地犯错,这些单元测试并不可靠,从而降低了奖励信号的质量。受到将解决方案数量扩展以提高LLM性能的观察启发,我们探讨了扩展单元测试以增强奖励信号质量的影响。我们的先驱性实验揭示了单元测试数量与奖励信号质量之间的正相关关系,更具挑战性的问题中观察到了更大的益处。基于这些见解,我们提出了CodeRM-8B,这是一个轻量而有效的单元测试生成器,可以实现高效且高质量的单元测试扩展。此外,我们实现了一个动态扩展机制,根据问题难度调整单元测试数量,进一步提高了效率。实验结果表明,我们的方法显著提高了在三个基准测试上各种模型的性能(例如,Llama3-8B的增益为18.43%,GPT-4o-mini的增益为3.42%)。
将文本转图模型个性化,以生成特定主题的图像,跨不同场景和风格,是一个快速发展的领域。目前的方法常常在保持身份保留和与输入文本提示对齐之间保持平衡方面面临挑战。一些方法依赖于单个文本标记来表示一个主题,这限制了表现力,而其他方法则使用更丰富的表示,但会破坏模型的先验,降低提示对齐性。在这项工作中,我们引入了嵌套注意力,这是一种新颖的机制,将丰富而具有表现力的图像表示注入到模型现有的交叉注意力层中。我们的关键思想是生成查询相关的主题值,这些值来自学习为生成图像中的每个区域选择相关主题特征的嵌套注意力层。我们将这些嵌套层整合到基于编码器的个性化方法中,并展示它们在保持高身份保留的同时遵循输入文本提示。我们的方法是通用的,可以在各种领域进行训练。此外,它的先验保留使我们能够将来自不同领域的多个个性化主题组合在单个图像中。
视频恢复在从未知的退化中恢复时间一致的细节时,面临着保持保真度的非平凡挑战。尽管最近扩散式恢复取得了一些进展,但这些方法通常在生成能力和采样效率方面存在局限。在这项工作中,我们提出了SeedVR,这是一个旨在处理任意长度和分辨率的真实世界视频恢复的扩散变换器。SeedVR的核心设计在于移位窗口注意力,有助于对长视频序列进行有效的恢复。SeedVR进一步支持在空间和时间维度的边界附近使用可变大小的窗口,克服了传统窗口注意力的分辨率限制。SeedVR配备了当代实践,包括因果视频自动编码器、混合图像和视频训练以及渐进式训练,使其在合成和真实世界基准测试以及人工智能生成的视频上实现了高度竞争力的性能。大量实验证明了SeedVR在通用视频恢复方面优于现有方法。
像Google地图、Apple地图、OpenStreet地图这样的映射和导航服务对于访问各种基于位置的数据至关重要,但它们通常难以处理自然语言地理空间查询。最近大型语言模型(LLMs)的进展显示了在问答(QA)方面的潜力,但从地图服务中创建可靠的地理空间QA数据集仍具有挑战性。我们介绍了MapQaTor,这是一个简化地图为基础的QA数据集创建过程的网络应用程序。通过其即插即用的架构,MapQaTor可以与任何地图API轻松集成,允许用户以最小的设置收集和可视化来自不同来源的数据。通过缓存API响应,该平台确保了一致的地面真实性,增强了数据的可靠性,即使在现实世界信息不断发展的情况下也是如此。MapQaTor将数据检索、注释和可视化集中在一个平台内,为评估基于LLM的地理空间推理的当前状态提供了独特机会,同时推动其能力以改进地理空间理解。评估指标显示,与手动方法相比,MapQaTor至少可以加快注释过程30倍,突显了其开发地理空间资源(如复杂地图推理数据集)的潜力。该网站已上线,网址为:https://mapqator.github.io/,同时提供演示视频:https://youtu.be/7_aV9Wmhs6Q。
结构化状态空间模型(SSMs)已经成为变压器的替代方案。虽然SSMs经常被认为在捕捉长序列依赖性方面很有效,但我们严格证明它们固有地受到强烈的最近偏差的限制。我们的实证研究还揭示了这种偏差损害了模型回忆远程信息的能力并引入了鲁棒性问题。我们的扩展实验随后发现,SSMs中更深层的结构可以促进学习长上下文。然而,随后的理论分析揭示,随着SSMs的加深,它们表现出另一个不可避免的过度平滑的倾向,例如,标记表示变得越来越难以区分。最近偏差和过度平滑之间的这种基本困境阻碍了现有SSMs的可扩展性。受到我们理论发现的启发,我们提出在SSMs中极化状态转移矩阵的两个通道,将它们分别设为零和一,从而同时解决最近偏差和过度平滑问题。实验证明,我们的极化技术始终提高了长距离标记的联想回忆准确性,并使SSMs能够进一步受益于更深的架构。所有源代码均在https://github.com/VITA-Group/SSM-Bottleneck上发布。
扩散模型在生成高质量时间序列(TS)数据方面展现出了很有前景的能力。尽管最初取得了成功,现有研究主要集中在个体级别数据的真实性上,但较少关注保留整个数据集上的人群级别特性。这种人群级别特性包括每个维度的值分布以及不同维度之间某些功能依赖(例如交叉相关,CC)的分布。例如,在生成房屋能耗时间序列数据时,应该保留室外温度和厨房温度的值分布,以及它们之间的CC分布。保留这些TS人群级别特性对于保持数据集的统计洞察力、减轻模型偏差以及增强诸如TS预测等下游任务至关重要。然而,现有模型往往忽视了这一点。因此,现有模型生成的数据往往与原始数据存在分布偏移。我们提出了一种新的时间序列生成模型,名为Population-aware Diffusion for Time Series(PaD-TS),它更好地保留了人群级别特性。PaD-TS的关键创新包括1)明确纳入TS人群级别特性保留的新训练方法,以及2)更好地捕捉TS数据结构的新双通道编码器模型架构。在主要基准数据集上的实证结果显示,PaD-TS可以将真实数据和合成数据之间的平均CC分布偏移得分提高5.9倍,同时保持与个体级别真实性的最新模型相媲美的性能。
Transformer模型依赖于基于内容和基于位置的寻址机制来进行预测,但现有的位置编码技术常常削弱了基于位置的寻址的有效性。许多当前方法在注意力图中强加了刚性模式,限制了对长距离依赖关系的建模能力,并且难以适应不同任务。此外,大多数位置编码作为通用偏差进行学习,缺乏数据集中不同实例所需的专业化。为了解决这个问题,我们提出了一种新颖的框架,即上下文等变位置嵌入(TAPE),通过在各层中整合序列内容来增强位置嵌入。TAPE引入了动态的、上下文感知的位置编码,克服了传统固定模式的约束。通过强制置换和正交等变性,TAPE确保了位置编码在更新过程中的稳定性,提高了鲁棒性和适应性。我们的方法可以轻松集成到预训练的transformers中,提供参数高效的微调,且开销最小。大量实验证明,与现有的位置嵌入技术相比,TAPE在语言建模、算术推理和长文本检索任务中实现了更优越的性能。
人类行为理解对于多模态系统的发展至关重要。尽管最近的发展受到强大的大型语言模型(LLMs)驱动,旨在具有足够的通用性以涵盖广泛的类别,但它们经常忽视了对更具体能力的需求。在这项工作中,我们解决了更具挑战性的细粒度动作识别(FAR)任务,该任务侧重于在较短时间内提供详细的语义标签(例如,“带有1个转体的后空翻”)。鉴于注释细粒度标签的高成本以及对于微调LLMs所需的大量数据,我们提出采用半监督学习(SSL)。我们的框架SeFAR融合了几项创新设计来解决这些挑战。具体来说,为了捕获足够的视觉细节,我们构建了双层时间元素作为更有效的表示,基于此,我们设计了一种新的强大增强策略,用于教师-学生学习范式,通过引入适度的时间扰动。此外,为了处理教师模型对FAR的预测中存在的高不确定性,我们提出了自适应调节来稳定学习过程。实验证明,SeFAR在两个FAR数据集FineGym和FineDiving上实现了最先进的性能,涵盖了各种数据范围。它还在两个经典的粗粒度数据集UCF101和HMDB51上胜过其他半监督方法。进一步的分析和消融研究验证了我们设计的有效性。此外,我们展示了由SeFAR提取的特征可以极大地提升多模态基础模型理解细粒度和领域特定语义的能力。