每日精选AI研究论文及翻译
角色图像动画,从参考图像和目标姿势序列生成高质量视频,在近年来取得了显著进展。然而,大多数现有方法仅适用于人物形象,通常在游戏和娱乐等行业常用的类人角色上泛化能力不佳。我们的深入分析表明,这种限制归因于它们对运动建模不足,无法理解驱动视频的运动模式,因此会将姿势序列严格施加到目标角色上。因此,本文提出了一种基于LDM的通用动画框架Aniamte-X,适用于各种角色类型(统称为X),包括类人角色。为增强运动表征,我们引入了姿势指示器,通过隐式和显式方式从驱动视频中捕获全面的运动模式。前者利用驱动视频的CLIP视觉特征提取其运动要点,如整体运动模式和运动之间的时间关系,后者通过提前模拟可能在推理过程中出现的输入,加强了LDM的泛化能力。此外,我们引入了一个新的动画类人基准(A^2Bench)来评估Animate-X在通用和广泛适用的动画图像上的性能。大量实验证明了Animate-X相对于最先进方法的优越性和有效性。
随着人工智能生成内容的快速发展,未来的互联网可能会被合成数据淹没,使得区分真实可信的多模态数据变得越来越具有挑战性。因此,合成数据检测引起了广泛关注,大型多模态模型(LMMs)在这一任务中的表现引起了重要关注。LMMs能够为其真实性判断提供自然语言解释,增强了合成内容检测的可解释性。同时,区分真实数据和合成数据的任务有效地测试了LMMs的感知、知识和推理能力。为此,我们引入了LOKI,一个旨在评估LMMs跨多模态检测合成数据能力的新型基准。LOKI涵盖了视频、图像、3D、文本和音频多模态,包括26个子类别中精心策划的18,000个问题,具有明确的难度级别。该基准包括粗粒度判断和多项选择题,以及细粒度异常选择和解释任务,可进行对LMMs的全面分析。我们在LOKI上评估了22个开源LMMs和6个闭源模型,突出它们作为合成数据检测器的潜力,同时也揭示了LMM能力发展中的一些局限性。有关LOKI的更多信息,请访问https://opendatalab.github.io/LOKI/
交错的多模态理解和生成已成为多模态学习中的一个关键领域,使模型能够以任意顺序生成和解释图像和文本。尽管取得了显著进展,但对这一能力的评估仍然不足。现有基准存在数据规模、范围和评估深度方面的限制,而当前的评估指标往往成本高昂或存在偏见,在实际应用中缺乏可靠性。为解决这些挑战,我们引入了MMIE,这是一个用于评估大型视觉语言模型(LVLMs)中交错的多模态理解和生成的大规模知识密集型基准。MMIE包括2万个精心策划的多模态查询,涵盖3个类别、12个领域和102个子领域,包括数学、编码、物理、文学、健康和艺术。它支持交错的输入和输出,提供了多种选择和开放式问题格式的混合,以评估不同的能力。此外,我们提出了一个可靠的自动化评估指标,利用经过人工注释的数据和系统化评估标准微调的评分模型,旨在减少偏见并提高评估准确性。大量实验证明了我们的基准和指标在提供对交错LVLMs的全面评估方面的有效性。具体来说,我们评估了八个LVLMs,揭示即使是最佳模型也有显著改进空间,大多数只能取得中等结果。我们相信MMIE将推动交错LVLMs发展的进一步进步。我们在https://mmie-bench.github.io/ 上公开发布了我们的基准和代码。
为了有效应用检索增强生成(RAG)系统,遵循自然指令至关重要。尽管大语言模型(LLMs)近年来取得了进展,但在RAG领域评估和改进指令遵循(IF)对齐的研究仍然有限。为了解决这一问题,我们提出了VIF-RAG,这是用于RAG系统中指令遵循对齐的第一个自动化、可扩展和可验证的合成流水线。我们首先手工创建了一个最小集合的原子指令(<100),并制定组合规则来合成和验证种子集的复杂指令。然后,我们使用监督模型进行指令重写,同时生成代码以自动化验证指令质量,通过Python执行器。最后,我们将这些指令与广泛的RAG和通用数据样本集成,通过自动化流程扩展到一个高质量的VIF-RAG-QA数据集(>100k)。为了进一步弥合RAG系统中指令遵循自动评估的差距,我们引入了FollowRAG基准,其中包括约3K个测试样本,涵盖22个通用指令约束类别和四个知识密集型QA数据集。由于其健壮的流水线设计,FollowRAG可以无缝集成不同的RAG基准。利用FollowRAG和八个广泛使用的LLMs的IF和基础能力基准,我们展示了VIF-RAG显著提升了LLMs在广泛的通用指令约束范围内的性能,同时有效利用其在RAG场景中的能力。进一步的分析提供了实现RAG系统中IF对齐的实用见解。我们的代码和数据集已发布在https://FollowRAG.github.io。
我们提出了MEGA-Bench,这是一个评估套件,将多模态评估扩展到超过500个真实世界任务,以解决最终用户高度异质的日常使用情况。我们的目标是优化一组高质量数据样本,涵盖高度多样化和丰富的多模态任务集,同时实现成本效益和准确的模型评估。具体而言,我们收集了505个现实任务,涵盖了来自16位专家注释者的超过8,000个样本,以广泛覆盖多模态任务空间。我们没有将这些问题统一为标准的多选题(如MMMU、MMBench和MMT-Bench),而是采用了各种输出格式,如数字、短语、代码、\LaTeX、坐标、JSON、自由格式等。为了适应这些格式,我们开发了超过40个指标来评估这些任务。与现有基准不同,MEGA-Bench提供了跨多个维度(例如应用程序、输入类型、输出格式、技能)的细粒度能力报告,允许用户深入交互和可视化模型能力。我们在MEGA-Bench上评估了各种前沿的视觉-语言模型,以了解它们在这些维度上的能力。
最近大语言模型(LLMs)的进展在数学推理能力方面取得了重大突破。然而,现有的基准测试如GSM8K或MATH现在以高准确度解决(例如,OpenAI o1在MATH数据集上达到94.8%),表明它们对于真正挑战这些模型来说是不足的。为了弥合这一差距,我们提出了一个全面而具有挑战性的基准测试,专门设计用于评估LLMs在奥林匹克水平的数学推理能力。与现有的与奥林匹克相关的基准测试不同,我们的数据集专注于数学,并包括4428个具有严格人工标注的竞赛级问题的庞大集合。这些问题被精心分类为33多个子领域,并涵盖了超过10个不同的难度级别,使得能够全面评估模型在奥林匹克数学推理中的表现。此外,我们基于这一基准测试进行了深入分析。我们的实验结果显示,即使是最先进的模型,如OpenAI o1-mini和OpenAI o1-preview,也在高度具有挑战性的奥林匹克水平问题上遇到困难,准确率分别为60.54%和52.55%,突显了奥林匹克水平数学推理中的重大挑战。
生成模型将随机噪声转换为图像;它们的反演旨在将图像转换回结构化噪声以进行恢复和编辑。本文解决了两个关键任务:(i)反演和(ii)使用修正流模型(如Flux)的随机等效物对真实图像进行编辑。尽管扩散模型(DMs)最近在图像生成建模领域占据主导地位,但由于漂移和扩散中的非线性,它们的反演存在忠实性和可编辑性挑战。现有的最先进的DM反演方法依赖于训练额外参数或测试时优化潜变量;在实践中这两者都很昂贵。修正流(RFs)为扩散模型提供了一种有前途的替代方案,但它们的反演尚未得到充分探讨。我们提出使用通过线性二次调节器导出的动态最优控制来进行RF反演。我们证明所得到的矢量场等同于一个修正的随机微分方程。此外,我们扩展我们的框架以设计Flux的随机采样器。我们的反演方法在零样本反演和编辑方面表现出最先进的性能,优于以往在从笔画到图像合成和语义图像编辑方面的工作,并通过大规模人类评估确认用户偏好。
从网络爬取的数据上进行大规模多模态模型的训练,在为这些模型注入所需的世界知识以在多个下游任务上有效执行方面显示出了卓越的实用性。然而,从网络上抓取数据的一个缺点可能是潜在地牺牲了经常用来评估这些模型能力的基准。为了防止测试数据污染并真正测试这些基础模型的能力,我们提出了LiveXiv:一个基于科学ArXiv论文的可扩展的不断发展的实时基准。LiveXiv在任何给定的时间戳访问特定领域的手稿,并提议自动生成视觉问答对(VQA)。这是在没有任何人为干预的情况下完成的,利用手稿中的多模态内容,如图表和表格。此外,我们引入了一种高效的评估方法,通过仅评估部分模型来估计所有模型在不断发展的基准上的性能。这显著降低了整体评估成本。我们在我们的基准的第一个版本上对多个开放和专有的大型多模态模型(LMMs)进行基准测试,展示了其具有挑战性的特性,并展示了模型的真实能力,避免了污染。最后,为了高质量的承诺,我们收集并评估了一个经过手动验证的子集。通过将其整体结果与我们的自动注释进行比较,我们发现性能变化确实很小(<2.5%)。我们的数据集可以在线获取HuggingFace,并且我们的代码将在此处提供。
检索增强生成(RAG)是一种有效的技术,使大型语言模型(LLMs)能够利用外部知识源进行生成。然而,当前的RAG系统仅基于文本,导致无法利用布局和图像等在现实世界多模态文档中发挥关键作用的视觉信息。本文介绍了VisRAG,通过建立基于视觉-语言模型(VLM)的RAG流程来解决这一问题。在这个流程中,文档不是首先解析以获取文本,而是直接使用VLM作为图像进行嵌入,然后检索以增强VLM的生成。与传统基于文本的RAG相比,VisRAG最大化了原始文档中数据信息的保留和利用,消除了解析过程中引入的信息丢失。我们收集了开源和合成数据来训练VisRAG中的检索器,并探索了各种生成方法。实验表明,VisRAG在检索和生成阶段均优于传统RAG,在传统基于文本的RAG流程上实现了25-39%的端到端性能提升。进一步分析表明,VisRAG在利用训练数据方面效果显著,并具有强大的泛化能力,使其成为多模态文档上RAG的一个有前途的解决方案。我们的代码和数据可在https://github.com/openbmb/visrag 获取。
近年来,在图像到视频生成方面取得了显著突破。然而,生成帧的三维一致性和摄像头可控性仍未解决。最近的研究尝试将摄像头控制纳入生成过程中,但它们的结果通常仅限于简单的轨迹,或者缺乏能够从同一场景的多个不同摄像头路径生成一致视频的能力。为了解决这些限制,我们引入了Cavia,这是一个新颖的框架,用于摄像头可控的多视角视频生成,能够将输入图像转换为多个时空一致的视频。我们的框架将空间和时间注意力模块扩展为视图整合注意力模块,提高了视角和时间一致性。这种灵活的设计允许与多样化的策划数据源进行联合训练,包括场景级静态视频、物体级合成多视角动态视频和现实世界单眼动态视频。据我们所知,Cavia是第一个允许用户在获取物体运动的同时精确指定摄像头运动的框架。大量实验证明,Cavia在几何一致性和感知质量方面超越了最先进的方法。项目页面:https://ir1d.github.io/Cavia/
通常,LLM被训练用于回答用户问题或遵循类似于人类专家回答的指令。然而,在标准对齐框架中,它们缺乏在回答之前进行明确思考的基本能力。思考对于需要推理和规划的复杂问题至关重要,但可以应用于任何任务。我们提出了一种训练方法,为现有的LLM配备这种思考能力,以便进行一般指令遵循,而无需使用额外的人类数据。我们通过迭代搜索和优化过程实现了这一点,该过程探索可能的思考生成空间,使模型能够学会如何在没有直接监督的情况下思考。对于每个指令,思考候选项仅通过评估其响应的评判模型进行评分,然后通过偏好优化进行优化。我们展示了这一过程在AlpacaEval和Arena-Hard上取得了卓越表现,并显示了在非推理类别(如营销、健康和一般知识)以及更传统的推理和问题解决任务中思考的收益。
理解细粒度时间动态对于多模态视频理解和生成至关重要。由于缺乏细粒度时间标注,现有视频基准大多类似于静态图像基准,并且无法有效评估时间理解模型。在本文中,我们介绍了TemporalBench,这是一个专门用于评估视频中细粒度时间理解的新基准。TemporalBench 包括约10K 个视频问答对,源自约2K 个高质量人类注释,详细描述了视频剪辑中的时间动态。因此,我们的基准提供了一个独特的测试平台,用于评估各种时间理解和推理能力,如动作频率、运动幅度、事件顺序等。此外,它还可以评估各种任务,如视频问答和字幕生成,短视频和长视频理解,以及不同模型,如多模态视频嵌入模型和文本生成模型。结果显示,像 GPT-4o 这样的最先进模型在TemporalBench 上仅实现了38.5% 的问答准确率,显示出人类和人工智能在时间理解方面存在显著差距(约30%)。此外,我们注意到多选题问答存在一个关键缺陷,即LLMs 可以检测到负面字幕中微小变化,并找到中心化描述作为其预测的线索,我们提出了多二元准确率(MBA)来纠正这种偏见。我们希望TemporalBench 能促进改进模型时间推理能力的研究。数据集和评估代码将提供。
监督微调(SFT)对齐大型语言模型(LLMs)与人类指令至关重要。在SFT期间的主要目标是从更大的数据池中选择一个小而具代表性的训练数据子集,使得使用该子集进行微调可以达到与甚至超过使用整个数据集获得的结果相媲美的效果。然而,大多数现有的数据选择技术是为小规模数据池设计的,无法满足现实世界SFT场景的需求。在本文中,我们复制了几种不依赖外部模型辅助的自评分方法,应用于两百万规模的数据集,并发现几乎所有方法在处理如此大规模数据池时都难以显著超越随机选择。此外,我们的比较表明,在SFT期间,数据选择中的多样性比简单关注高质量数据更为关键。我们还分析了几种当前方法的局限性,解释了它们在大规模数据集上表现不佳的原因以及为什么它们不适用于这种情境。最后,我们发现按标记长度筛选数据是改善结果的一种稳定高效的方法。特别是在训练长文本数据时,这种方法对于相对较弱的基础模型,如Llama3,非常有益。
最近大型语言模型(LLM)驱动的聊天助手系统已经集成了记忆组件来追踪用户-助手聊天历史,从而实现更准确和个性化的回复。然而,它们在持续互动中的长期记忆能力仍未得到充分探讨。本文介绍了LongMemEval,一个旨在评估聊天助手的五个核心长期记忆能力的综合基准:信息提取、多会话推理、时间推理、知识更新和弃权。通过500个精心策划的问题嵌入自由可扩展的用户-助手聊天历史中,LongMemEval对现有长期记忆系统提出了重大挑战,商用聊天助手和长上下文LLM在跨持续互动中记忆信息时显示了30%的准确率下降。然后,我们提出了一个统一框架,将长期记忆设计分解为索引、检索和阅读阶段的四个设计选择。基于关键实验见解,我们提出了几种记忆设计,包括会话分解以优化价值粒度、事实增强的关键扩展以增强索引结构,以及时间感知的查询扩展以细化搜索范围。实验结果表明,这些优化极大地提高了LongMemEval上的记忆召回和下游问题回答。总体而言,我们的研究为提升基于LLM的聊天助手的长期记忆能力提供了宝贵资源和指导,为实现更个性化和可靠的对话AI铺平了道路。
大规模视觉语言模型(VLMs)的出现显著推动了多模态理解的发展,实现了更复杂和准确地整合视觉和文本信息,涵盖图像和视频字幕、视觉问答和跨模态检索等各种任务。尽管VLMs具有卓越的能力,研究人员仍然缺乏对其组合性的全面理解——即理解和生成已知视觉和文本组件的新组合的能力。先前的基准仅从对象、关系和属性的角度相对粗略地评估了组合性,却忽视了关于对象交互、计数和复杂组合的更深层推理。然而,组合性是促进VLMs在跨模态中进行连贯推理和理解的关键能力。为了解决这一局限性,我们提出了MMCOMPOSITION,这是一个新颖的人工标注基准,用于全面准确地评估VLMs的组合性。我们提出的基准可作为对先前工作的补充。通过MMCOMPOSITION,我们可以量化和探索主流VLMs的组合性。令人惊讶的是,我们发现GPT-4o的组合性不及最佳开源模型,并分析了潜在原因。我们的实验分析揭示了VLMs在细粒度组合感知和推理方面的局限性,并指出了VLM设计和训练的改进方向。资源可在以下链接找到:https://hanghuacs.github.io/MMComposition/
大型语言模型(LLMs)通过上下文学习展现出在多个任务上的显著性能。对于需要逐步思考的复杂推理任务,思维链(CoT)提示在与自一致性相结合时表现出令人印象深刻的结果。然而,一些任务对LLMs来说仍然特别难以解决。思维树(ToT)和思维图(GoT)作为替代方案出现,将复杂问题分解为子问题路径。在本文中,我们提出了问题树(ToP),这是ToT的简化版本,我们假设它可以更好地处理可以分解为相同子任务的复杂任务。我们的实证结果表明,我们的方法在复杂推理任务上的表现优于ToT和GoT,并且比CoT表现更好。本文所有代码均可在以下网址公开获取:https://github.com/ArmelRandy/tree-of-problems。
部署长上下文大型语言模型(LLMs)至关重要,但面临着重大的计算和内存挑战。在所有注意力头部中缓存所有关键和值(KV)状态会消耗大量内存。现有的KV缓存修剪方法要么损害LLMs的长上下文能力,要么仅提供有限的效率改进。在本文中,我们确定只有一小部分注意力头部,即检索头部,对处理长上下文至关重要,并需要对所有标记进行全注意力。相反,所有其他头部,主要关注最近的标记和注意力汇聚,即流头部,不需要全注意力。基于这一观点,我们引入了DuoAttention,这是一个框架,仅对检索头部应用完整的KV缓存,同时对流头部使用轻量级、固定长度的KV缓存,从而减少LLMs的解码和预填充内存和延迟,而不损害其长上下文能力。DuoAttention使用轻量级、基于优化的算法与合成数据准确识别检索头部。我们的方法显著减少了MHA模型长上下文推理内存高达2.55倍,GQA模型为1.67倍,同时将解码加速高达2.18倍和1.50倍,预填充加速高达1.73倍和1.63倍,相对于全注意力,准确性损失最小。值得注意的是,结合量化,DuoAttention使得在单个A100 GPU上能够对Llama-3-8B进行3.3百万上下文长度的解码。代码可在https://github.com/mit-han-lab/duo-attention找到。
长期以来,能够在各种环境中自主运行的人形机器人一直是机器人学家的目标。然而,人形机器人的自主操作能力在自主操作方面主要受限于一种特定场景,主要是由于获取通用技能的困难。最近在3D视觉运动策略方面的进展,如3D扩散策略(DP3),显示出将这些能力拓展到更广泛环境中的潜力。然而,3D视觉运动策略通常依赖于摄像头校准和点云分割,这对于在人形机器人等移动机器人上部署提出了挑战。在这项工作中,我们介绍了改进的3D扩散策略(iDP3),这是一种新颖的3D视觉运动策略,通过利用自我中心的3D视觉表示来消除这些约束。我们展示了iDP3使得一个全尺寸的人形机器人能够在各种真实场景中自主执行技能,仅使用在实验室中收集的数据。视频可在以下链接中查看:https://humanoid-manipulation.github.io
大型语言模型已经展示出与视觉模型集成甚至实现视频理解时的出色性能。然而,评估这些视频模型存在独特的挑战,为此已经提出了几个基准。在本文中,我们表明目前大多数使用的视频-语言基准可以在不需要太多时间推理的情况下解决。我们确定了现有数据集中的三个主要问题:(i) 单帧的静态信息通常足以解决任务;(ii) 问题和候选答案的文本过于具体,使模型能够在不依赖任何视觉输入的情况下正确回答;(iii) 仅凭世界知识就能回答许多问题,使基准成为对知识复制而非视觉推理的测试。此外,我们发现针对视频理解的开放式问答基准也存在类似问题,而使用大型语言模型进行的自动评估过程不可靠,因此不适合作为替代方案。作为解决方案,我们提出了TVBench,这是一个新颖的开源视频多项选择问答基准,并通过广泛评估表明它需要高水平的时间理解。令人惊讶的是,我们发现大多数最新的视频-语言模型在TVBench上的表现与随机表现类似,只有Gemini-Pro和Tarsier明显超过了这一基线。
我们采用机械解释性的新工具,探讨大型语言模型(LLMs)的内部结构是否与其训练语言的语言结构相对应。具体而言,我们探讨:(1)当两种语言采用相同的形态句法过程时,LLMs是否使用共享的内部电路来处理它们?(2)当两种语言需要不同的形态句法过程时,LLMs是否使用不同的内部电路来处理它们?通过分析英语和中文的多语言和单语言模型,我们研究了涉及两个任务的内部电路。我们发现证据表明,模型使用相同的电路来处理相同的句法过程,而不受其发生语言的影响,即使是完全独立训练的单语模型也是如此。此外,我们展示了多语言模型在需要处理某些语言特有的语言过程(例如,形态标记)时会使用特定于语言的组件(注意力头和前馈网络)。综合而言,我们的结果为了解LLMs在同时建模多种语言时如何权衡利用共同结构和保留语言差异提供了新的见解。
LayerNorm 是现代大型语言模型(LLMs)中的关键组件,用于稳定训练并确保平滑优化。然而,它在机械解释性、异常特征抑制、信号传播的忠实性,以及私人推理的计算和通信复杂性方面带来了重大挑战。本研究探讨了无归一化解码器的LLMs中理想的激活函数。与基于Transformer的模型对GELU的传统偏好相反,我们的实证发现展示了一种相反的趋势——在无LayerNorm模型中,ReLU明显优于GELU,导致 perplexity 提高了 8.2%。我们发现了GELU存在的一个关键问题,即早期层面经历了信息过载,导致注意力头的表征能力被低估。这突显了像GELU这样的更平滑的激活函数不适合于无LayerNorm的架构,而ReLU的几何特性——在输入空间中的专业化和类内选择性——导致了改进的学习动态和更好的信息保留在没有LayerNorm的情况下。这项研究为优化Transformer架构提供了关键见解,其中LayerNorm引入了重大挑战。
我们介绍了Latent Action Pretraining for general Action models (LAPA),这是一种无监督的方法,用于预训练Vision-Language-Action (VLA)模型,而无需地面真实机器人动作标签。现有的Vision-Language-Action模型通常需要在预训练期间由人类远程操作员收集的动作标签,这显著限制了可能的数据来源和规模。在这项工作中,我们提出了一种方法,可以从没有机器人动作标签的互联网规模视频中学习。我们首先训练一个动作量化模型,利用基于VQ-VAE的目标来学习图像帧之间的离散潜在动作,然后预训练一个潜在的VLA模型,以从观察和任务描述中预测这些潜在动作,最后在小规模机器人操作数据上微调VLA,将潜在动作映射到机器人动作。实验结果表明,我们的方法明显优于现有的从大规模视频中训练机器人操作策略的技术。此外,它在需要语言条件、泛化到未见对象以及语义泛化到未见指令的真实世界操作任务上,也优于使用机器人动作标签训练的最先进VLA模型。仅在人类操作视频上训练也表现出积极的迁移效果,为利用网络规模数据进行机器人基础模型打开了潜力。