每日精选AI研究论文及翻译
大型语言模型(LLMs)在推理任务上表现出色。它们利用自回归标记生成来构建推理轨迹,从而实现连贯的思维链的发展。在这项工作中,我们探讨了个别标记对推理任务最终结果的影响。我们确定了导致LLMs推理轨迹错误的“关键标记”的存在。具体而言,我们发现当LLMs被迫解码其他标记而不是关键标记时,它们往往会产生积极的结果。受到这一观察的启发,我们提出了一种新方法 - cDPO - 旨在在对齐过程中自动识别和进行关键标记的标记级奖励。具体而言,我们开发了一种对比估计方法来自动识别关键标记。通过比较积极和消极模型的生成可能性,实现了这一点。为了实现这一点,我们分别在各种推理轨迹上对积极和消极模型进行微调,因此,它们能够识别导致错误结果的错误轨迹中的关键标记。此外,为了在对齐过程中进一步将模型与关键标记信息对齐,我们将传统的DPO算法扩展到标记级DPO,并利用上述积极和消极模型的差异可能性作为标记级DPO学习的重要权重。在GSM8K和MATH500基准测试上进行的实验结果,使用两种广泛使用的模型Llama-3(8B和70B)和deepseek-math(7B),展示了所提出的cDPO方法的有效性。
当前的视频生成模型擅长生成短视频片段,但在创建多镜头、类似电影的视频方面仍存在困难。现有模型在大规模数据和丰富计算资源支持下训练,很自然地无法保持跨多个镜头的逻辑故事情节和视觉一致性,因为它们通常是以单镜头目标进行训练的。为此,我们提出了一种名为“思维视频生成器”(VGoT)的协作式、无需训练的架构,专门用于多镜头视频生成。VGoT 设计时考虑了三个目标,具体如下。多镜头视频生成:我们将视频生成过程分为一个结构化的模块化序列,包括(1)剧本生成,将简短故事转化为每个镜头的详细提示;(2)关键帧生成,负责创建与角色刻画相符的视觉一致的关键帧;以及(3)镜头级视频生成,将剧本和关键帧的信息转化为镜头;(4)平滑机制,确保一致的多镜头输出。合理的叙事设计:受电影剧本写作启发,我们的提示生成方法涵盖了五个关键领域,确保整个视频中的逻辑一致性、角色发展和叙事流畅性。跨镜头一致性:我们通过利用跨镜头的保持身份(IP)嵌入来确保时间和身份的一致性,这些嵌入是从叙事中自动生成的。此外,我们还融入了跨镜头平滑机制,该机制整合了一个重置边界,有效地结合了相邻镜头的潜在特征,实现平滑过渡,并在整个视频中保持视觉连贯性。我们的实验证明,VGoT在生成高质量、连贯的多镜头视频方面超越了现有的视频生成方法。
促进大型语言模型(LLMs)之间有效协作是发展能够解决复杂问题的自主系统的关键一步。虽然LLMs通常用作单模型生成器,人类会对其输出进行评审和改进,但联合训练协作模型的潜力仍然大部分未被探索。尽管在多智体通信和辩论环境中取得了一些有希望的结果,但在训练模型共同处理任务方面进展甚微。本文提出了在推理问题上迈出的“多智体LLM训练”(MALT)的第一步。我们的方法采用了一个顺序多智体设置,其中异构LLMs被分配专门角色:一个生成器、一个验证器和一个改进模型,它们迭代地解决问题。我们提出了基于轨迹扩展的合成数据生成过程和一个基于联合结果驱动的信用分配策略。这使得我们的后训练设置能够利用积极和消极轨迹来自主改进每个模型的专业能力,作为一个联合顺序系统的一部分。我们在MATH、GSM8k和CQA上评估了我们的方法,其中在Llama 3.1 8B模型上的MALT相对改进分别为14.14%、7.12%和9.40%。这展示了在数学和常识推理问题性能上多智体合作能力的早期进展。总的来说,我们的工作为围绕多智体LLM训练方法的研究提供了一个具体方向。
与其对应的结果奖励模型(ORMs)不同,评估整个响应的过程奖励模型(PRM)逐步评分推理轨迹,提供更密集和更精细的奖励。然而,训练PRM需要在每个中间步骤上注释的标签,这对手动和自动数据收集都带来了重大挑战。本文旨在解决这一挑战。从理论和实证两方面,我们展示了可以在没有额外成本的情况下获得隐式PRM,只需简单地在更便宜的响应级别标签上训练ORM。唯一的假设是将结果奖励参数化为策略和参考模型的对数似然比,这可以进行优化,而不受损失目标具体选择的影响。在实验中,我们使用各种目标实例化我们的隐式PRM,并在MATH上评估其性能。我们展示了我们的隐式PRM在使用不到1/38的训练数据的情况下优于基于强MCTS的基线\'a la Math-Shepherd。其性能可以通过多数投票进一步提高。我们进一步发现,增加指令和响应的规模有利于我们的隐式PRM,而后者带来更大的收益。特别地,我们发现,当使用交叉熵(CE)损失实例化时,我们的隐式PRM更具数据效率,并且即使仅使用每个指令一个响应进行训练,也可以持续改进生成模型,这种设置在数据极度稀缺和不平衡的情况下仍然有效。此外,指令应与下游任务相关,而响应的多样性并不会带来收益。令人惊讶的是,训练额外的Math-Shepherd步骤标签对我们仅在结果数据上训练的隐式PRM没有带来进一步改进。我们希望我们的工作能鼓励重新思考PRM训练方法,并有助于使训练PRM更易于访问。
大型语言模型(LLMs)已经实现了多模态LLMs的创建,这些模型展现出对视觉数据(如图像和视频)的强大理解能力。然而,这些模型通常依赖于来自视觉编码器的大量视觉标记,导致高计算需求,限制了它们在资源受限环境和长上下文任务中的适用性。在这项工作中,我们提出了一种面向多模态LLMs的无需训练的自适应推理方法,可以适应广泛的效率要求,并最小化性能下降。我们的方法包括a)在LLMs之前基于嵌入相似性进行迭代标记合并,以及b)基于多模态重要性在LLMs层内逐渐修剪标记。通过极简设计,我们的方法可应用于视频和图像LLMs。对多样的视频和图像基准进行的大量实验表明,我们的方法显著减少了计算负载(例如,FLOPs减少了7倍),同时保持了视频和图像LLMs的性能。此外,在类似的计算成本下,我们的方法在长视频理解方面胜过了最先进的方法(例如,在MLVU上+4.6)。此外,我们的深入分析提供了关于标记冗余和LLM层行为的见解,为未来设计高效多模态LLMs的研究提供了指导。我们的代码将在https://github.com/LaVi-Lab/AIM 上提供。
最近,多模态大型语言模型(MLLMs),如GPT-4o、Gemini 1.5 Pro和Reka Core,已经扩展了它们的能力,包括视觉和音频模态。虽然这些模型在各种音频-视觉应用中展现出令人印象深刻的性能,但我们提出的DeafTest揭示了MLLMs经常在人类认为微不足道的简单任务上遇到困难:1)确定两个声音中哪个更大声,2)确定两个声音中哪个音调更高。受到这些观察的启发,我们引入了AV-Odyssey Bench,这是一个全面的音频-视觉基准,旨在评估这些MLLMs是否真正理解音频-视觉信息。该基准包含了4,555个精心设计的问题,每个问题都融合了文本、视觉和音频组件。为了成功推断答案,模型必须有效地利用来自视觉和音频输入的线索。为了确保对MLLM响应的精确和客观评估,我们将问题设计为多项选择题,消除了人工评估或LLM辅助评估的需要。我们对一系列闭源和开源模型进行基准测试,并总结观察结果。通过揭示当前模型的局限性,我们旨在为未来数据集收集和模型开发提供有用的见解。
检索增强生成(RAG)通过整合外部知识来增强大型语言模型(LLMs),以减少幻觉并整合最新信息,无需重新训练。作为RAG的重要组成部分,外部知识库通常通过使用光学字符识别(OCR)从非结构化PDF文档中提取结构化数据来构建。然而,由于OCR的不完美预测和结构化数据固有的非均匀表示,知识库不可避免地包含各种OCR噪声。本文介绍了OHRBench,这是第一个用于了解OCR对RAG系统级联影响的基准。OHRBench包括来自六个真实RAG应用领域的350个精心挑选的非结构化PDF文档,以及从文档中的多模态元素中导出的问答,挑战了用于RAG的现有OCR解决方案。为了更好地理解OCR对RAG系统的影响,我们确定了两种主要类型的OCR噪声:语义噪声和格式噪声,并应用扰动生成一组具有不同程度的每种OCR噪声的结构化数据。利用OHRBench,我们首先对当前OCR解决方案进行全面评估,并揭示没有一种适合为RAG系统构建高质量知识库。然后,我们系统地评估了这两种噪声类型的影响,并展示了RAG系统的脆弱性。此外,我们讨论了在RAG系统中使用视觉语言模型(VLMs)而无需OCR的潜力。代码:https://github.com/opendatalab/OHR-Bench
在大型语言模型(LLMs)问世后,自然语言生成(NLG)任务的表现出现了显著改进,包括文本摘要和机器翻译。然而,LLMs 仍然会生成包含幻觉的输出,即不基于事实信息的内容。因此,开发评估LLMs真实性的方法变得迫在眉睫。 事实上,最近出现了用于真实性评估的资源。尽管具有挑战性,但这些资源面临以下一种或多种限制:(i)它们专为特定任务或领域量身定制;(ii)它们规模有限,从而阻碍了新真实性评估器的训练;(iii)它们设计用于更简单的验证任务,如声明验证。 为解决这些问题,我们介绍了LLM-Oasis,据我们所知,这是目前最大的用于训练端到端真实性评估器的资源。LLM-Oasis是通过从维基百科中提取声明,伪造其中的一部分声明,并生成一对事实和非事实文本构建的。然后,我们依赖人类标注者来验证我们数据集的质量,并创建一个用于基准测试真实性评估系统的黄金标准测试集。 我们的实验表明,LLM-Oasis对于最先进的LLMs构成了重大挑战,其中GPT-4o在我们提出的端到端真实性评估任务中达到了高达60%的准确率,突显了它在推动未来领域研究方面的潜力。
运动控制对于生成富有表现力和引人入胜的视频内容至关重要;然而,大多数现有的视频生成模型主要依赖文本提示进行控制,这些模型难以捕捉动态动作和时间组合的微妙之处。为此,我们训练了一个视频生成模型,其条件是时空稀疏或密集的运动轨迹。与先前的运动条件工作相比,这种灵活的表示可以编码任意数量的轨迹、特定于对象或全局场景运动,以及时间上的稀疏运动;由于其灵活性,我们将这种条件称为运动提示。虽然用户可以直接指定稀疏轨迹,但我们还展示了如何将高级用户请求转化为详细的、半密集的运动提示,这个过程我们称之为运动提示扩展。我们通过各种应用展示了我们方法的多功能性,包括摄像机和物体运动控制,与图像的“互动”,运动转移和图像编辑。我们的结果展示了出现的行为,如逼真的物理效果,表明了运动提示探索视频模型和与未来生成世界模型互动的潜力。最后,我们进行了定量评估,进行了人类研究,并展示了强大的性能。视频结果可在我们的网页上找到:https://motion-prompting.github.io/
我们介绍了一种新颖的框架 OmniCreator,能够在一个地方进行文本提示统一的(图像+视频)生成和编辑。OmniCreator以自监督方式获得生成和通用编辑能力,以原始文本-视频对作为条件,同时利用同一视频作为去噪目标,学习视频和文本之间的语义对应关系。在推断过程中,当提供文本提示和视频时,OmniCreator能够生成符合两者的目标,实现一种无约束的通用编辑效果,与现有主要关注某些编辑类型或依赖额外控制(例如结构条件、注意特征或DDIM反演)的编辑工作形成对比。另一方面,当仅提供文本提示时,OmniCreator变为生成型,通过学习到的语义对应关系生成高质量视频。重要的是,我们发现相同的能力也适用于图像,使OmniCreator成为一个真正统一的框架。此外,由于缺乏现有生成视频编辑基准,我们介绍了 OmniBench-99 数据集,旨在全面评估生成视频编辑模型的性能。大量实验证明,OmniCreator在所有其他模型上表现出显著优势。
对3D视觉-语言模型(3D-VLMs)的研究越来越受到关注,这对于在3D场景中开发具有实体性的人工智能至关重要,例如视觉导航和实体问题回答。由于视觉特征的高密度,尤其是在大型3D场景中,准确定位任务相关的视觉信息具有挑战性。现有研究尝试对所有对象进行分割,并将它们的特征视为场景表示。然而,这些任务无关的对象特征包含大量冗余信息,缺少任务相关区域的细节。为了解决这些问题,我们提出了LSceneLLM,这是一个自适应框架,通过利用LLM对不同任务的视觉偏好,自动识别任务相关区域,然后使用即插即用的场景放大器模块来捕获关注区域的细粒度细节。具体来说,密集的标记选择器检查LLM的注意力图,以识别指令输入的视觉偏好,然后放大关注区域的细节。利用自适应自注意力模块融合粗粒度和选择的细粒度视觉信息。为了全面评估3D-VLMs对大场景的理解能力,我们进一步引入了一个跨房间理解基准XR-Scene,其中包含一系列大场景理解任务,包括XR-QA、XR-实体规划和XR-SceneCaption。实验表明,我们的方法在大场景理解和现有场景理解基准上均优于现有方法。将我们的场景放大器模块引入现有的3D-VLMs也带来了显著改进。
由于其可扩展性和紧凑性,视觉分词器引起了广泛关注;先前的研究依赖于老式 GAN-based 超参数、带有偏见的比较以及对扩展行为缺乏全面分析。为了解决这些问题,我们引入了分组球面量化(GSQ),采用球形码书初始化和查找正则化来限制码书潜在到球面表面。我们对图像分词器训练策略的实证分析表明,GSQ-GAN 在更少的训练迭代次数内实现了优越的重建质量,为扩展研究奠定了坚实基础。在此基础上,我们系统地研究了 GSQ 的扩展行为,特别是在潜在维度、码书大小和压缩比方面,以及它们对模型性能的影响。我们的研究结果揭示了在高和低空间压缩水平下的不同行为,突显了在表示高维潜在空间方面的挑战。我们展示了GSQ可以将高维潜在重构为紧凑的低维空间,从而实现了具有改进质量的高效扩展。因此,GSQ-GAN 实现了 16 倍下采样,重建 FID(rFID)为 0.50。
参考图像分割(RIS)是一项高级的视觉-语言任务,涉及根据自由形式文本描述识别和分割图像中的对象。虽然先前的研究侧重于对齐视觉和语言特征,但探索数据增强等训练技术仍未得到充分开发。在这项工作中,我们探讨了用于RIS的有效数据增强,并提出了一种名为蒙版参考图像分割(MaskRIS)的新型训练框架。我们观察到传统的图像增强对RIS效果不佳,导致性能下降,而简单的随机蒙版显著提升了RIS的性能。MaskRIS使用图像和文本蒙版,然后采用扭曲感知上下文学习(DCL)来充分利用蒙版策略的优势。这种方法可以提高模型对遮挡、不完整信息和各种语言复杂性的鲁棒性,从而显著提高性能。实验证明,MaskRIS可以轻松应用于各种RIS模型,在完全监督和弱监督设置中均优于现有方法。最后,MaskRIS在RefCOCO、RefCOCO+和RefCOCOg数据集上实现了新的最先进性能。代码可在https://github.com/naver-ai/maskris找到。
AI 技术正迅速从研究走向生产。随着生成文本、图像和视频的基础模型(FMs)的普及,基于人工智能的系统正变得越来越复杂。与传统基于人工智能的软件相比,采用 FMs 或基于 GenAI 的系统更难设计,因为它们的规模和多功能性。这使得有必要记录最佳实践,即软件工程中的设计模式,这些设计模式可以在 GenAI 应用中通用。我们的第一个贡献是将任务分解和检索增强生成(RAG)两种技术正式化为基于 GenAI 系统的设计模式。我们讨论它们在软件质量属性方面的权衡,并评论替代方法。我们建议 AI 从业者不仅从科学角度考虑这些技术,还要从灵活性、可维护性、安全性和保密性等所需工程特性的角度考虑。作为第二个贡献,我们描述了我们在工业领域应用任务分解和 RAG 来构建复杂的面向企业用户的真实世界 GenAI 应用的经验:工作流生成。生成工作流的任务包括使用系统环境中的数据生成具体计划,以用户需求为输入。由于这两种模式影响整个 AI 开发周期,我们解释了它们对数据集创建、模型训练、模型评估和部署阶段的影响。
AIPC概念越来越受欢迎,越来越多的混合CPU将在客户设备上运行AI模型。然而,当前的AI推理框架忽视了混合CPU的不平衡硬件能力,导致推理性能较低。为解决这一问题,我们引入了一种针对混合CPU的动态并行方法,通过在并行工作开始之前平衡每个混合CPU核心的工作负载,显著提高了LLM推理性能。这种方法使得神经速度在两个混合英特尔CPU上实现了超过90%(平均值)的内存带宽利用率。
视频重点检测和时刻检索(HD/MR)在视频分析中至关重要。最近的联合预测变压器模型经常忽略了它们之间的跨任务动态以及视频文本对齐和细化。此外,大多数模型通常使用有限的单向注意机制,导致集成表示薄弱,难以捕捉视频和文本模态之间的相互依赖关系,性能不佳。尽管大语言模型和视觉语言模型(LLM/LVLMs)在各个领域已经备受关注,但它们在这一领域的应用仍相对未被充分探索。在这里,我们提出了VideoLights,这是一个新颖的HD/MR框架,通过以下方式解决了这些限制:(i)具有对齐损失的卷积投影和特征细化模块,以实现更好的视频文本特征对齐,(ii)双向跨模态融合网络,用于强耦合的查询感知剪辑表示,以及(iii)通过相关性增强两个任务的单向联合任务反馈机制。此外,(iv)我们引入了硬正/负损失,用于自适应错误惩罚和改进学习,以及(v)利用像BLIP-2这样的LVLMs进行增强的多模态特征集成和智能预训练,使用从LVLMs生成的合成数据。在QVHighlights、TVSum和Charades-STA基准测试上进行的全面实验表明了最先进的性能。代码和模型可在https://github.com/dpaul06/VideoLights 获取。