每日精选AI研究论文及翻译
视觉编码器通常生成大量视觉标记,提供了信息丰富的表征,但显著增加了计算需求。这引发了一个问题:所有生成的标记是否同等重要,或者是否可以舍弃其中一部分以降低计算成本而不影响质量。本文中,我们引入了一种基于“低价值特征可从高价值特征中重建”理念的新方法,用于确定特征效用。我们通过将自编码器与Gumbel-Softmax选择机制相结合来实现这一概念,该机制能够识别并仅保留最具信息量的视觉标记。为验证我们的方法,我们比较了LLaVA-NeXT模型在使用我们方法筛选的特征与随机选择特征时的表现。我们发现,在基于OCR的任务中,超过50%的视觉上下文可以被移除而仅有微小的性能损失,而随机丢弃相同比例的特征则显著影响模型能力。此外,在通用领域任务中,即使随机保留仅30%的标记,也能达到与使用完整视觉标记集相当的性能。我们的研究结果揭示了一个有前景的方向,即实现自适应且高效的多模态剪枝,从而在不牺牲性能的前提下促进可扩展且低开销的推理。
多模态科学问题(MSPs)涉及需要整合文本与图表等多种模态的复杂议题,在人工智能领域构成了重大挑战。尽管在解决传统科学问题方面已取得进展,MSPs仍面临两大主要问题:科学问题解决过程中多模态综合推理的挑战,以及缺乏反思与再思考能力。为应对这些问题,我们提出了一种基于大七人格特质与苏格拉底引导的多智能体框架(MAPS)。该框架利用七个独特智能体,通过反馈机制与苏格拉底方法指导MSPs的解决。针对第一个问题,我们设计了一种渐进式的四智能体解决策略,每个智能体专注于问题解决过程中的特定阶段。对于第二个问题,我们引入了一个受苏格拉底提问启发的批评者智能体,它激发批判性思维并促进自主学习。我们在EMMA、奥林匹克及MathVista数据集上进行了广泛实验,在所有任务中均取得了超越当前SOTA模型15.84%的显著成果。同时,附加的分析性实验也验证了模型的进步及其泛化能力。
在自然语言处理领域,高效处理长文本一直是持续追求的目标。随着长文档、对话及其他文本数据数量的不断增长,开发能够有效且高效处理和分析大规模输入的长上下文语言模型(Long Context Language Models, LCLMs)显得尤为重要。本文全面综述了大型语言模型在长上下文建模方面的最新进展。我们的综述围绕三个关键方面展开:如何获得高效且有效的LCLMs、如何高效训练与部署LCLMs,以及如何全面评估与分析LCLMs。针对第一方面,我们探讨了面向长上下文处理的数据策略、架构设计及工作流程方法。在第二方面,我们详细剖析了LCLM训练与推理所需的基础设施。第三方面,我们介绍了长上下文理解与长文本生成的评估范式,以及LCLMs的行为分析与机制可解释性。除上述三个核心方面外,我们还深入探讨了现有LCLMs已部署的多样化应用场景,并勾勒了未来发展的光明方向。本综述旨在为长上下文大语言模型的研究文献提供最新回顾,期望成为研究人员与工程师的宝贵资源。相关的GitHub仓库,汇集了最新论文与代码库,可通过以下链接访问: https://github.com/LCLM-Horizon/A-Comprehensive-Survey-For-Long-Context-Language-Modeling{\color[RGB]{175,36,67}{LCLM-Horizon}}。
大型语言模型的基本问答模式涉及输入提示并接收响应,而提示的质量直接影响响应的有效性。自动提示优化(APO)旨在摆脱手动设计提示时的认知偏差,探索更广阔的提示设计空间。然而,现有APO方法存在固定模板灵活性不足及提示空间搜索效率低下等关键问题。为此,我们提出了一种融合苏格拉底引导的多智能体框架(MARS),该框架利用多智能体融合技术进行自动规划,实现逐步持续优化与评估。具体而言,MARS包含七个功能各异的智能体,它们自主运用规划器设计优化路径,确保灵活性。同时,采用教师-批评家-学生的苏格拉底对话模式,在有效搜索的同时迭代优化提示。我们在多个数据集上进行了广泛实验以验证方法的有效性,并通过附加分析实验评估模型的进步性及可解释性。
设计高效的具身多智能体系统对于解决跨领域的复杂现实任务至关重要。鉴于具身多智能体系统的复杂性,现有方法难以自动生成此类系统所需的安全高效训练数据。为此,我们提出了具身多智能体系统的组合约束概念,以应对具身智能体间协作带来的挑战。我们设计了针对不同类型约束的多样化接口,实现了与物理世界的无缝交互。借助组合约束及专门设计的接口,我们开发了一个面向具身多智能体系统的自动化数据收集框架,并推出了首个具身多智能体操作基准——RoboFactory。基于RoboFactory基准,我们调整并评估了模仿学习方法,分析了其在不同难度智能体任务中的表现。此外,我们还探索了多智能体模仿学习的架构与训练策略,旨在构建安全高效的具身多智能体系统。
由于创意写作任务并无唯一正确答案,执行此类任务的大型语言模型(LLMs)应能生成多样且有效的输出。然而,LLM的后训练往往侧重于提升生成质量,却忽视了促进输出多样性。因此,在创意写作生成中,我们探索了旨在同时提升输出多样性与质量的后训练方法。我们的核心思想是将“偏差”——即同一提示下训练样本与所有其他样本间的差异程度——纳入训练目标,以促进从罕见高质量实例中学习。通过将我们的方法应用于直接偏好优化(DPO)和几率比偏好优化(ORPO),我们证明了在最小化质量下降的同时,能够提升训练模型的输出多样性。我们拥有80亿参数的最佳模型,其输出多样性可与人类创建的数据集相媲美,同时输出质量接近我们所考察的最佳指令调优模型——GPT-4o和DeepSeek-R1。我们进一步通过人类评估、消融实验以及与现有多样化方法DivPO的对比,验证了我们的方法。
自回归视觉生成模型通常依赖于分词器将图像压缩为可顺序预测的标记。在标记表示中存在一个根本性的困境:离散标记能够通过标准的交叉熵损失进行直接建模,但会遭受信息丢失和分词器训练不稳定的问题;连续标记能更好地保留视觉细节,但需要复杂的分布建模,使生成流程变得复杂。本文提出TokenBridge,通过保持连续标记的强大表示能力,同时保留离散标记的建模简洁性,来弥合这一差距。为此,我们通过训练后量化将离散化过程与分词器训练解耦,直接从连续表示中获取离散标记。具体而言,我们引入了一种维度量化策略,独立地对每个特征维度进行离散化,并搭配一个轻量级的自回归预测机制,有效建模由此产生的大规模标记空间。大量实验表明,我们的方法在使用标准分类预测的同时,实现了与连续方法相当的重建和生成质量。这项工作表明,融合离散与连续范式能够有效结合两者的优势,为通过简单的自回归建模实现高质量视觉生成提供了有前景的方向。项目页面:https://yuqingwang1029.github.io/TokenBridge。
逼真的3D全身对话式虚拟人在增强现实(AR)领域展现出巨大潜力,其应用范围涵盖电商直播至全息通信。尽管3D高斯溅射(3DGS)技术在创建栩栩如生的虚拟人方面取得了进展,现有方法在全身对话任务中对面部表情和身体动作的精细控制上仍面临挑战。此外,这些方法往往缺乏足够的细节,且无法在移动设备上实时运行。我们提出了TaoAvatar,一个基于3DGS的高保真、轻量级全身对话式虚拟人,能够响应多种信号驱动。我们的方法首先构建了一个个性化的着装人体参数化模板,将高斯分布绑定以呈现外观。随后,我们预训练了一个基于StyleUnet的网络,以处理复杂的姿态依赖非刚性变形,该网络虽能捕捉高频外观细节,但对移动设备而言计算资源消耗过大。为解决这一问题,我们采用蒸馏技术将非刚性变形“烘焙”进一个轻量级的基于MLP的网络中,并开发了混合形状以补偿细节损失。大量实验表明,TaoAvatar在保持90 FPS于如Apple Vision Pro等高清晰度立体设备上的同时,实现了实时跨设备运行,并达到了业界领先的渲染质量。
DeepSeek-R1的最新进展表明,通过使用可验证奖励的强化学习(RL),大型语言模型(LLMs)能够实现复杂的推理能力,包括自我验证和自我修正等高级行为,并显著提升了在诸如AIME等挑战性任务上的表现。受这些发现的启发,我们的研究探讨了是否能够成功将类似的推理能力整合到大型视觉语言模型(LVLMs)中,并评估它们对多模态推理任务的影响。我们采用了一种方法,迭代地利用轻量级训练数据的监督微调(SFT)和强化学习(RL)来进一步提升模型的泛化能力。最初,通过使用来自多样化视觉数据集的高质量图像描述生成推理步骤,从纯文本的R1模型中提炼出推理能力。随后,迭代的RL训练进一步增强了推理技能,每一轮RL改进后的模型都会为下一轮生成更精细的SFT数据集。这一迭代过程最终产生了OpenVLThinker,一个在MathVista、MathVerse和MathVision等挑战性基准测试中持续展现出改进推理性能的LVLM,证明了我们策略在实现稳健视觉语言推理方面的潜力。代码、模型和数据均存放于https://github.com/yihedeng9/OpenVLThinker。
尽管文本到视频生成领域已取得显著进展,但在视频生成研究中,实现对细粒度时空属性的精确灵活控制仍是一个重大未解难题。为应对这些局限,我们提出了VCtrl(亦称PP-VCtrl),一个旨在统一方式下对预训练视频扩散模型实现细粒度控制的新颖框架。VCtrl通过一个可泛化的条件模块,将用户指定的多样化控制信号——如Canny边缘、分割掩码及人体关键点——整合进预训练视频扩散模型中,该模块能够在不改动底层生成器的情况下,统一编码多种类型的辅助信号。此外,我们设计了一套统一的控制信号编码流程及稀疏残差连接机制,以高效融入控制表示。全面的实验与人类评估表明,VCtrl有效提升了可控性与生成质量。源代码及预训练模型已公开,并采用PaddlePaddle框架实现,访问地址为http://github.com/PaddlePaddle/PaddleMIX/tree/develop/ppdiffusers/examples/ppvctrl。
尽管多模态大语言模型(MLLMs)在多种任务中展现出卓越性能,但在视觉数学问题解决方面,尤其是在准确感知和解读图表方面,尚未充分展现其潜力。受人类典型解题过程的启发,我们假设从图表中提取有意义信息的感知能力至关重要,因为它直接影响后续的推理过程。为验证这一假设,我们开发了FlowVerse,一个全面基准测试,将解题过程中使用的所有信息分为四个组成部分,并组合成六个问题版本进行评估。我们在FlowVerse上的初步结果显示,现有的MLLMs在从图表中提取关键信息和推理属性,以及基于这些视觉输入进行复杂推理时,存在显著局限。为此,我们提出了MathFlow,一个模块化的问题解决流程,将感知与推理解耦为独立阶段,从而分别优化。鉴于当前MLLMs在感知方面的局限,我们训练了MathFlow-P-7B作为专门的感知模型。实验结果表明,当MathFlow-P-7B与各种闭源和开源的推理模型集成时,带来了显著的性能提升。这证明了MathFlow流程的有效性及其与多种推理框架的兼容性。FlowVerse基准测试和代码可在https://github.com/MathFlow-zju/MathFlow获取。
在仅拥有少量主体图像甚至单张图像的情况下,个性化图像生成与编辑尤为困难。一种常见的个性化方法是概念学习,它能够相对快速地将主体整合到现有模型中,但当主体图像数量较少时,生成图像的质量往往会迅速下降。通过预训练编码器可以提升质量,但训练过程限制了生成范围于训练分布之内,且耗时较长。如何在不进行训练的情况下,仅凭单张图像实现个性化图像生成与编辑,仍是一个未解的难题。本文提出SISO,一种基于与输入主体图像相似度优化的新型免训练方法。具体而言,SISO迭代生成图像,并根据与给定主体图像的相似度损失优化模型,直至达到满意的相似度水平,从而实现对任何图像生成器的即插即用优化。我们在图像编辑和图像生成两项任务中,利用多样化的个人主体数据集对SISO进行了评估,结果显示其在图像质量、主体保真度及背景保留方面均显著优于现有方法。
在文本到视频(T2V)生成领域,精确评估文本提示与生成视频之间的语义对齐仍是一大挑战。现有的文本-视频对齐度量方法,如CLIPScore,仅能提供粗粒度的评分,缺乏细粒度的对齐细节,难以与人类偏好保持一致。为克服这一局限,我们提出了ETVA,一种通过细粒度问题生成与回答来评估文本-视频对齐的新方法。首先,一个多智能体系统将提示解析为语义场景图,进而生成原子问题。随后,我们设计了一个知识增强的多阶段推理框架用于问题回答,其中辅助大语言模型(LLM)先检索相关常识知识(如物理定律),接着视频LLM通过多阶段推理机制回答生成的问题。大量实验表明,ETVA的斯皮尔曼相关系数达到58.47,与人类判断的相关性远高于现有度量方法的31.0。我们还构建了一个专门用于文本-视频对齐评估的综合基准,包含2千个多样化的提示和跨越10个类别的1万2千个原子问题。通过对15个现有文本-视频模型的系统评估,我们识别了它们的关键能力与局限,为下一代T2V生成铺平了道路。
本文提出了一种名为\textsc{FastCuRL}的简洁高效课程强化学习方法,该方法结合了上下文窗口扩展策略,旨在加速R1类推理模型的强化学习训练效率,并提升其在处理具有长链思维推理的复杂任务时的表现,特别是在一个15亿参数的语言模型上。\textsc{FastCuRL}包含两个主要步骤:基于长度的训练数据分割和上下文窗口扩展训练。具体而言,前者首先根据输入提示的长度将原始训练数据划分为三个不同级别,随后后者利用分段训练数据集,通过逐步增加上下文窗口长度来训练推理模型。实验结果表明,\textsc{FastCuRL}-1.5B-Preview在仅使用50%训练步骤的情况下,在包括MATH 500、AIME 2024、AMC 2023、Minerva Math和OlympiadBench在内的五个数据集上均超越了DeepScaleR-1.5B-Preview。此外,FastCuRL-1.5B-Preview的所有训练阶段仅需使用配备8个GPU的单一节点即可完成。
本文介绍了MapBench——首个专为人类可读、基于像素的户外地图导航设计的数据集,该数据集源自复杂的路径规划场景。MapBench包含来自100张多样化地图的超过1600个像素空间地图路径规划问题。在MapBench中,大型视觉语言模型(LVLMs)根据地图图像及包含起点与终点地标的查询生成基于语言的导航指令。针对每张地图,MapBench提供了地图空间场景图(MSSG)作为索引数据结构,用于在自然语言与评估LVLM生成结果之间进行转换。我们展示了MapBench对当前最先进的LVLMs构成了显著挑战,无论是零样本提示还是采用思维链(CoT)增强的推理框架,后者将地图导航分解为一系列认知过程。我们对开源与闭源LVLMs的评估均凸显了MapBench带来的巨大难度,揭示了它们在空间推理与结构化决策能力上的关键局限。我们已在https://github.com/taco-group/MapBench上公开所有代码与数据集。
大规模视觉语言模型(LVLMs)在融合视觉理解与语言生成方面取得了显著进展。然而,尽管成果斐然,LVLMs的训练数据仍面临长尾(LT)问题,即数据分布极度不均衡。以往研究多聚焦于传统视觉语言模型架构,如CLIP或ViT,以及特定任务如识别与分类。然而,对于LVLM(例如LLaVA)及更广泛任务(如视觉问答与视觉推理)的探索仍显不足。本文首先深入剖析了LVLMs中的长尾问题,并识别出两大核心成因:头部概念的过度代表与尾部概念的欠代表。基于上述观察,我们提出了一种自适应数据精炼框架(ADR),该框架包含两个阶段:数据再平衡(DR)与数据合成(DS)。在DR阶段,我们依据实体分布自适应地调整冗余数据;而在DS阶段,则利用去噪扩散概率模型(DDPMs)及稀缺图像来补充欠代表部分。通过对十一个基准的全面评估,我们提出的ADR有效缓解了训练数据中的长尾问题,在未增加训练数据量的情况下,相对提升了LLaVA 1.5的平均性能达4.36%。
视频大语言模型(ViLLMs)在通用视频理解方面表现出色,例如识别交谈、进食等活动,但在身份感知理解方面存在局限,如“威尔逊正在接受化疗”或“汤姆正在与莎拉讨论”,这限制了其在智能医疗和智能家居环境中的应用。为克服这一局限,我们提出了PVChat,一种一次性学习框架,这是首个能够基于单个视频实现主体感知问答(QA)的个性化ViLLM。我们的方法在合成增强的视频-QA数据集上优化了混合头(MoH)增强的ViLLM,采用了渐进式图像到视频学习策略。具体而言,我们引入了一个自动化增强流程,该流程合成保留身份的正样本,并从现有视频库中检索难负样本,生成包含存在性、外观、动作和位置查询四种QA类型的多样化训练数据集。为加强主体特定学习,我们提出了ReLU路由MoH注意力机制,并伴随两个新颖目标:(1) 通过指数距离缩放实现渐进学习的平滑邻近正则化,以及(2) 平衡注意力路由的头激活增强。最后,我们采用两阶段训练策略,从图像预训练过渡到视频微调,实现了从静态属性到动态表征的渐进学习过程。我们在涵盖医疗场景、电视剧、动画及现实世界片段的多数据集上评估了PVChat,证明其在仅学习单个视频后,在个性化特征理解方面相较于最先进的ViLLMs具有显著优势。
隐性偏见指的是影响感知、判断和行为的自动或自发的心理过程。以往研究大型语言模型(LLMs)中的“隐性偏见”时,往往与人类研究中的方法不同,主要关注模型输出而非模型处理过程。为了探究模型处理过程,我们提出了一种名为推理模型内隐联想测试(RM-IAT)的方法,用于研究推理模型中的类隐性偏见模式:这些LLMs通过逐步推理来解决复杂任务。运用此方法,我们发现,在处理关联不相容信息时,推理模型所需的标记数量多于处理关联相容信息。这些发现表明,AI系统在处理信息时存在与人类隐性偏见类似的模式。我们探讨了这些类隐性偏见模式在实际应用部署中的潜在影响。
近年来,图像生成领域取得了显著进展,特别是在使模型与人类普遍偏好对齐的微调方法方面。本文探讨了偏好数据在扩散模型训练过程中的关键作用,尤其是在Diffusion-DPO及其后续改进中的应用。我们研究了图像生成中人类普遍偏好的复杂性,强调了这些偏好的主观性以及偏好数据集中少数样本带来的挑战。通过初步实验,我们证实了少数样本的存在及其对模型性能的负面影响。我们提出了Adaptive-DPO——一种将少数样本感知指标融入DPO目标的新方法。该指标包括标注者内部置信度和标注者间稳定性,能够区分多数样本与少数样本。我们引入了一种Adaptive-DPO损失函数,从两个方面改进了DPO损失:增强模型对多数标签的学习,同时减轻少数样本的负面影响。实验表明,该方法在处理合成少数数据及真实世界偏好数据方面均表现出色,为图像生成任务中更有效的训练方法铺平了道路。
图像地理定位,传统上由AI模型预测图像的精确GPS坐标,是一项具有众多下游应用的挑战性任务。然而,用户无法利用该模型获取除GPS坐标之外的更多知识;模型缺乏对位置的理解以及与用户进行对话的能力。近期,随着大型多模态模型(LMMs)的巨大进展,无论是专有还是开源领域的研究者都尝试通过LMMs实现图像地理定位。然而,问题依然未解;在超越一般任务、针对更为专业的下游任务(如地理定位)时,LMMs表现欠佳。在本研究中,我们提出通过引入一个对话模型GAEA来解决这一问题,该模型能够根据用户需求提供图像位置的相关信息。目前尚不存在支持此类模型训练的大规模数据集。因此,我们构建了一个综合数据集GAEA,包含80万张图像及约160万对问答,这些数据通过利用OpenStreetMap(OSM)属性和地理上下文线索构建而成。为进行定量评估,我们提出了一个包含4千对图像-文本的多样化基准,用以评估模型在应对多种问题类型时的对话能力。我们考察了11个最先进的开源及专有LMMs,并证明GAEA显著优于最佳开源模型LLaVA-OneVision,提升幅度达25.69%,同时超越最佳专有模型GPT-4o,提升8.28%。我们的数据集、模型及代码均已公开。
近期,利用掩码进行3D人脸编辑的方法通过借助神经辐射场(NeRF)技术,已能生成高质量的编辑图像。尽管这些方法表现卓越,但由于依赖预训练的分割掩码,现有方法往往在用户控制方面受限。为了使用符合特定布局的掩码,需要大量训练数据,而收集此类数据颇具挑战。我们提出了FFaceNeRF,一种基于NeRF的人脸编辑技术,旨在克服因固定掩码布局带来的用户控制局限。该方法采用配备特征注入的几何适配器,有效操控几何属性。此外,我们引入了潜在混合技术以增强三平面表示,使得仅需少量样本即可完成训练。这加速了模型对期望掩码布局的适应,对于个性化医疗成像或创意人脸编辑等应用至关重要。对比评估显示,FFaceNeRF在灵活性、控制力及生成图像质量上均优于现有的基于掩码的人脸编辑方法,为未来定制化与高保真3D人脸编辑的发展铺平了道路。代码已发布于{https://kwanyun.github.io/FFaceNeRF_page/{项目页面}}。
广义少样本3D点云分割(GFS-PCS)旨在使模型能够利用少量支持样本适应新类别,同时保持对基础类别的分割能力。现有的GFS-PCS方法通过支持或查询特征的交互增强原型,但仍受限于少样本样本带来的稀疏知识。与此同时,3D视觉语言模型(3D VLMs)能够泛化至开放世界中的新类别,蕴含丰富但嘈杂的新类别知识。本研究中,我们提出了一种GFS-PCS框架,名为GFS-VL,它将3D VLMs提供的密集但带有噪声的伪标签与精确却稀疏的少样本样本相结合,以最大化两者的优势。具体而言,我们提出了一种基于原型引导的伪标签选择机制,用于过滤低质量区域,随后采用一种自适应填充策略,该策略结合了伪标签上下文与少样本样本的知识,以自适应地标注那些被过滤且未标记的区域。此外,我们设计了一种新颖的基础混合策略,将少样本样本嵌入训练场景中,保留关键上下文以提升新类别的学习效果。鉴于当前GFS-PCS基准测试中多样性的不足,我们还引入了两个包含多样化新类别的挑战性基准,用于全面的泛化能力评估。实验验证了我们的框架在不同模型和数据集上的有效性。我们的方法与基准测试为推进GFS-PCS在现实世界中的应用奠定了坚实基础。代码已发布于https://github.com/ZhaochongAn/GFS-VL。