每日精选AI研究论文及翻译
受DeepSeek-R1通过基于规则的强化学习(RL)成功激发推理能力的启发,我们推出了Video-R1,这是首次系统性地探索R1范式以激发多模态大语言模型(MLLMs)视频推理能力的尝试。然而,直接将GRPO算法的RL训练应用于视频推理面临两大挑战:一是缺乏对视频推理的时间建模,二是高质量视频推理数据的稀缺。为解决这些问题,我们首先提出了T-GRPO算法,该算法鼓励模型利用视频中的时间信息进行推理。此外,我们不仅依赖视频数据,还将高质量的图像推理数据纳入训练过程。我们构建了两个数据集:用于SFT冷启动的Video-R1-COT-165k和用于RL训练的Video-R1-260k,两者均包含图像和视频数据。实验结果表明,Video-R1在视频推理基准如VideoMMMU和VSI-Bench,以及包括MVBench和TempCompass等在内的通用视频基准上均取得了显著提升。值得注意的是,Video-R1-7B在视频空间推理基准VSI-bench上达到了35.8%的准确率,超越了商业专有模型GPT-4o。所有代码、模型和数据均已公开。
智能代理时代已然来临,这得益于大语言模型的革命性进展。具备目标导向行为和动态适应能力的大语言模型(LLM)代理,可能代表着通向人工通用智能的关键路径。本综述通过以方法论为中心的分类体系,系统解构了LLM代理系统,将架构基础、协作机制与进化路径紧密相连。我们通过揭示代理设计原则与其在复杂环境中涌现行为之间的根本联系,统一了分散的研究脉络。我们的工作提供了一个统一的架构视角,审视代理如何构建、如何协作以及如何随时间演化,同时涵盖了评估方法、工具应用、实际挑战及多样化的应用领域。通过梳理这一快速发展领域的最新进展,我们为研究人员提供了一个理解LLM代理的结构化分类体系,并指明了未来研究的有望方向。相关资源合集可在https://github.com/luo-junyu/Awesome-Agent-Papers获取。
近期发布的DeepSeek-R1通过基于规则的奖励强化学习(RL),展示了大型语言模型(LLMs)在推理能力上的突破。基于这一理念,我们首次探索了如何利用基于规则的RL增强多模态大语言模型(MLLMs)在图形用户界面(GUI)动作预测任务中的推理能力。为此,我们精心构建了一个小而高质量的数据集,包含136项具有挑战性的任务,涵盖了移动设备上的五种常见动作类型。我们还引入了一种统一的基于规则的动作奖励机制,使得模型能够通过基于策略的算法(如群体相对策略优化GRPO)进行优化。实验结果表明,我们提出的数据高效模型UI-R1-3B在领域内(ID)和领域外(OOD)任务上均取得了显著提升。具体而言,在ID基准测试AndroidControl上,动作类型准确率提升了15%,而定位准确率提高了10.3%,相较于基础模型(即Qwen2.5-VL-3B)。在OOD GUI定位基准测试ScreenSpot-Pro上,我们的模型超越了基础模型6.0%,并与通过监督微调(SFT)在76K数据上训练的大型模型(如OS-Atlas-7B)表现相当。这些成果凸显了基于规则的强化学习在推进GUI理解与控制方面的潜力,为该领域的未来研究铺平了道路。
近年来,大型推理模型的快速发展导致现有数学推理评估基准趋于饱和,凸显出对更具挑战性和严谨性评估框架的迫切需求。为填补这一空白,我们推出了OlymMATH,一个新颖的奥林匹克级别数学基准,旨在严格测试大语言模型(LLMs)的复杂推理能力。OlymMATH包含200道精心挑选的题目,每道题均经过人工验证,并提供中英文双语版本。这些题目系统地分为两个难度层级:(1)AIME级别题目(易),为数学推理评估建立基础;(2)显著更具挑战性的题目(难),旨在突破当前最先进模型的极限。在我们的基准中,这些问题涵盖四个核心数学领域,每道题均包含可验证的数值解,以实现客观、基于规则的评估。实证结果凸显了OlymMATH带来的重大挑战,包括DeepSeek-R1和OpenAI的o3-mini在内的最先进模型在难题子集上的准确率显著受限。此外,该基准促进了数学推理能力的全面双语评估——这一关键维度在主流数学推理基准中仍未被充分关注。我们在STILL项目发布了OlymMATH基准:https://github.com/RUCAIBox/Slow_Thinking_with_LLMs。
视频生成技术已取得显著进展,从生成不真实的输出,发展到能够制作出视觉上令人信服且时间连贯的视频。为了评估这些视频生成模型,诸如VBench等基准测试被开发出来,用以衡量其忠实度,包括单帧美学、时间一致性及基本提示遵循等因素。然而,这些方面主要代表了表面上的忠实度,即关注视频是否在视觉上令人信服,而非是否遵循现实世界原则。尽管近期模型在这些指标上表现越来越好,但在生成不仅视觉上合理而且本质上真实的视频方面仍面临挑战。为了通过视频生成实现真正的“世界模型”,下一个前沿在于内在忠实度,确保生成的视频遵循物理定律、常识推理、解剖学正确性及构图完整性。达到这一层次的真实感对于AI辅助电影制作和模拟世界建模等应用至关重要。为弥合这一差距,我们推出了VBench-2.0,这是一款旨在自动评估视频生成模型内在忠实度的新一代基准测试。VBench-2.0评估五个关键维度:人类逼真度、可控性、创造力、物理性和常识性,每个维度进一步细分为精细能力。我们的评估框架针对各维度量身定制,整合了如最先进的视觉语言模型(VLMs)和大型语言模型(LLMs)等通用工具,以及专为视频生成提出的异常检测方法等专业工具。我们进行了广泛的标注工作,以确保与人类判断的一致性。通过超越表面忠实度,追求内在忠实度,VBench-2.0旨在为下一代视频生成模型设定新的内在忠实度标准。
大型推理模型(LRMs)展现出卓越的推理能力,但主要依赖于参数化知识,限制了事实准确性。尽管近期研究为基于强化学习(RL)的LRMs配备了检索功能,它们仍存在过度思考及推理鲁棒性不足的问题,降低了在问答(QA)任务中的效能。为此,我们提出了ReaRAG,一种增强事实性的推理模型,它能在不过度迭代的情况下探索多样化查询。我们的解决方案包含一个新颖的数据构建框架,对推理链长度设定了上限。具体而言,我们首先利用LRM生成深思熟虑的思考,随后从预定义的动作空间(搜索与完成)中选择一个动作。对于搜索动作,查询会针对RAG引擎执行,其结果作为观察返回,以指导后续推理步骤。此过程迭代直至选择完成动作。得益于ReaRAG强大的推理能力,我们的方法在多跳QA任务上超越了现有基线。进一步分析凸显了其识别错误并优化推理轨迹的强反思能力。本研究在提升LRMs事实性的同时,有效整合了检索增强生成(RAG)中的稳健推理。
我们推出LeX-Art,这是一套全面的高质量文生图合成工具,系统性地弥合了提示表达力与文本渲染保真度之间的鸿沟。我们的方法遵循数据为中心的理念,基于Deepseek-R1构建了一个高质量的数据合成管道,精心打造了LeX-10K数据集,包含10,000张高分辨率、美学精炼的1024×1024图像。除了数据集构建,我们还开发了LeX-Enhancer,一个强大的提示增强模型,并训练了两个文生图模型——LeX-FLUX和LeX-Lumina,实现了业界领先的文本渲染性能。为了系统评估视觉文本生成,我们引入了LeX-Bench基准测试,评估保真度、美学及对齐度,并辅以成对归一化编辑距离(PNED),一种用于稳健文本准确性评估的新颖指标。实验显示显著改进,LeX-Lumina在CreateBench上实现了79.81%的PNED提升,而LeX-FLUX在色彩(+3.18%)、位置(+4.45%)和字体准确性(+3.81%)上均超越基线。我们的代码、模型、数据集及演示均公开可用。
实时交互式视频聊天肖像正日益被视为未来趋势,这尤其得益于文本和语音聊天技术取得的显著进展。然而,现有方法主要集中于实时生成头部动作,却难以同步生成与之匹配的身体运动。此外,实现对说话风格及面部表情细微变化的精细控制仍是一大挑战。为应对这些局限,我们提出了一种新颖的框架,用于生成风格化的实时肖像视频,从而支持从头部对话到上半身互动的富有表现力且灵活的视频聊天。我们的方法包含以下两个阶段:第一阶段采用高效的层次化运动扩散模型,该模型基于音频输入同时考虑显式和隐式运动表示,能够生成多样化的面部表情,并实现头部与身体动作的风格化控制及同步。第二阶段旨在生成包含上半身动作(如手势)的肖像视频。我们向生成器注入显式的手部控制信号,以产生更为细致的手部动作,并进一步进行面部优化,提升肖像视频的整体真实感与表现力。此外,我们的方法支持在4090 GPU上以最高512*768分辨率、最高30帧每秒的速度高效连续生成上半身肖像视频,确保实时交互式视频聊天的流畅性。实验结果表明,我们的方法能够生成具有丰富表现力和自然上半身动作的肖像视频。
我们推出Lumina-Image 2.0,这是一个先进的文本到图像生成框架,相较于前作Lumina-Next取得了显著进展。Lumina-Image 2.0基于两大核心原则构建:(1) 统一性——采用统一架构(Unified Next-DiT),将文本与图像标记视为联合序列处理,促进了跨模态的自然交互,并支持任务的无缝扩展。此外,鉴于高质量描述器能提供语义高度对齐的文本-图像训练对,我们引入了专为文本到图像生成任务设计的统一描述系统——Unified Captioner (UniCap)。UniCap擅长生成全面且准确的描述,加速模型收敛并增强对提示的遵循度。(2) 效率——为提升模型效率,我们开发了多阶段渐进式训练策略,并引入了不影响图像质量的推理加速技术。在学术基准和公开文本到图像平台上的广泛评估表明,Lumina-Image 2.0即使仅拥有26亿参数,也能展现出强劲性能,凸显了其可扩展性和设计效率。我们已在https://github.com/Alpha-VLLM/Lumina-Image-2.0公开了训练细节、代码及模型。
近期,深度思维模型在数学和编程任务上展现出了卓越的推理能力。然而,在需要通过图像与动作交替轨迹与环境持续交互的具身领域,其有效性仍待深入探索。我们提出了“具身推理者”模型,该模型将o1风格的推理扩展至交互式具身搜索任务。与主要依赖逻辑演绎的数学推理不同,具身场景要求空间理解、时序推理以及基于交互历史的持续自我反思。为应对这些挑战,我们合成了9.3k条连贯的“观察-思考-行动”轨迹,包含64k张交互图像和90k种多样化的思维过程(分析、空间推理、反思、规划与验证)。我们开发了一个三阶段训练流程,通过模仿学习、基于拒绝采样的自我探索以及反思调优的自我修正,逐步提升模型能力。评估结果显示,我们的模型显著超越了先进的视觉推理模型,例如,它分别以+9%、+24%和+13%的优势超过了OpenAI的o1、o3-mini和Claude-3.7。分析表明,我们的模型在复杂长程任务中展现出更少的重复搜索和逻辑不一致性,具有明显优势。在真实环境中的测试也证实了我们的优越性,同时展现了更少的重复搜索和逻辑不一致情况。
大型语言模型(LLMs)在辅助科学研究方面已展现出潜力,然而,由于缺乏专门的基准测试,其发现高质量研究假设的能力尚未得到检验。为填补这一空白,我们首次引入了一个大规模基准,用于评估LLMs在科学发现中近乎完备的子任务集:灵感检索、假设构建与假设排序。我们开发了一个自动化框架,该框架从涵盖12个学科的科学论文中提取关键要素——研究问题、背景调查、灵感及假设,并通过专家验证确保了其准确性。为防止数据污染,我们仅聚焦于2024年发表的论文,确保与LLM预训练数据的重叠最小化。评估结果显示,LLMs在灵感检索这一分布外任务上表现优异,表明其能够挖掘新颖的知识关联。这使LLMs定位为“研究假设矿场”,能够通过大规模生成创新假设,在最少人工干预下推动自动化科学发现。
音频大语言模型(AudioLLMs)已获得广泛关注,并在对话、音频理解及自动语音识别(ASR)等音频任务上显著提升了性能。尽管取得了这些进展,但在金融场景中评估AudioLLMs的基准仍属空白,而诸如财报电话会议和CEO演讲等音频数据,是金融分析与投资决策的关键资源。本文中,我们推出了FinAudio,这是首个旨在评估AudioLLMs在金融领域能力的基准。我们首先根据金融领域的独特性质定义了三大任务:1)短金融音频的ASR,2)长金融音频的ASR,以及3)长金融音频的摘要生成。随后,我们分别精选了两个短音频和两个长音频数据集,并开发了一个全新的金融音频摘要数据集,共同构成了FinAudio基准。接着,我们在FinAudio上评估了七种主流AudioLLMs。评估结果揭示了现有AudioLLMs在金融领域的局限性,并为改进AudioLLMs提供了洞见。所有数据集与代码将予以公开。
我们探索了如何通过利用计算机图形管线生成的合成视频来提升视频生成模型的物理真实感。这些渲染视频遵循现实世界的物理规律,如保持三维一致性,为改进视频生成模型提供了宝贵的资源。为了充分发挥这一潜力,我们提出了一种解决方案,既精心筛选并整合合成数据,又引入了一种方法,将合成数据的物理真实感迁移至模型中,从而显著减少不期望的伪影。通过在三个强调物理一致性的代表性任务上的实验,我们验证了该方法在提升物理真实感方面的有效性。尽管我们的模型尚未深入理解物理规律,但我们的工作首次通过实证表明,合成视频能够增强视频合成中的物理真实感。项目网站:https://kevinz8866.github.io/simulation/
扩散模型在生成质量上表现出色,但由于次优的步长离散化,其采样过程计算密集。现有研究主要集中于优化去噪方向,而本文则着眼于步长调度的原则性设计。我们提出了最优步长蒸馏法,这是一个动态规划框架,通过从参考轨迹中提炼知识来提取理论上的最优调度方案。通过将步长优化重新表述为递归误差最小化问题,我们的方法利用最优子结构特性,确保了全局离散化边界。关键在于,所提炼的调度方案在架构、ODE求解器和噪声调度方案上均展现出强大的鲁棒性。实验表明,文本到图像生成速度提升了10倍,同时在GenEval基准上保持了99.4%的性能。我们的代码已发布于https://github.com/bebebe666/OptimalSteps。
近期,视频生成领域取得了显著进展,尤其是在扩散模型快速发展的推动下。然而,其在物理认知方面的不足逐渐引起广泛关注——生成内容常违背基本物理定律,陷入“视觉逼真但物理荒谬”的困境。研究者们日益认识到物理保真度在视频生成中的重要性,并尝试将运动表征及物理知识等启发式物理认知融入生成系统,以模拟现实世界的动态场景。鉴于该领域缺乏系统性综述,本文旨在通过全面总结架构设计及其应用来填补这一空白。具体而言,我们从认知科学的角度探讨并梳理了视频生成中物理认知的演进过程,同时提出了一个三层分类体系:1)面向生成的基础图式感知,2)面向生成的物理知识被动认知,3)面向世界模拟的主动认知,涵盖了最新方法、经典范式及基准测试。随后,我们强调了该领域固有的关键挑战,并勾勒出未来研究的潜在路径,为学术界与工业界的讨论前沿贡献力量。通过结构化回顾与跨学科分析,本综述旨在为开发可解释、可控且物理一致的视频生成范式提供方向性指导,从而推动生成模型从“视觉模仿”阶段迈向“类人物理理解”的新阶段。
开放词汇语义分割模型通过将视觉与文本关联,利用文本查询对未定义类别集合中的像素进行标注,从而在新数据集上展现出广泛适用性。然而,训练与测试领域间的显著差异会削弱其性能,需通过微调以提升实际应用效果。我们提出了语义库适应(SemLA),一种无需训练、在测试时进行领域适应的创新框架。SemLA利用基于CLIP嵌入索引的LoRA适配器库,根据目标域在嵌入空间中的邻近度动态融合最相关的适配器。此方法为每个特定输入构建定制模型,无需额外训练。我们的方法高效扩展,通过追踪适配器贡献增强可解释性,并天然保护数据隐私,特别适用于敏感场景。基于10个标准数据集构建的20领域基准上的全面实验表明,SemLA在不同设置下均展现出卓越的适应性和性能,为开放词汇语义分割的领域适应设立了新标杆。
能够跨多种模态进行理解和生成的多模态生成模型,目前主要由自回归(AR)方法主导,这些方法从左到右或从上到下顺序处理标记。这些模型联合处理图像、文本、视频和音频,用于图像描述、问答和图像生成等多种任务。在本研究中,我们探索离散扩散模型作为文本与图像联合领域的统一生成框架,基于其在文本生成领域的最新成功。离散扩散模型相较于AR模型具有多项优势,包括在生成样本的质量与多样性之间更好的控制能力、跨文本和图像领域的联合多模态修复能力,以及通过引导实现更强的生成可控性。利用这些优势,我们提出了首个统一多模态离散扩散(UniDisc)模型,该模型能够联合理解和生成文本与图像,适用于多种下游任务。我们将UniDisc与多模态AR模型进行比较,进行了规模分析,并证明UniDisc在性能、推理计算效率、增强的可控性、可编辑性、修复能力以及推理时间与生成质量之间的灵活权衡方面均优于后者。代码及更多可视化内容请访问https://unidisc.github.io。
本文介绍了ZJUKLAB团队为SemEval-2025任务4提交的方案:从大型语言模型中去除敏感内容。该任务旨在有选择性地从大型语言模型中抹除敏感知识,避免过度遗忘与遗忘不足的问题。我们提出了一种利用模型融合(特别是TIES-Merging)的遗忘系统,将两个专门化模型结合,生成一个更为均衡的遗忘后模型。我们的系统取得了优异成绩,在26支参赛队伍中位列第二,任务综合得分为0.944,整体综合得分为0.487。本文还进行了局部实验,并对遗忘过程进行了全面分析,包括性能轨迹、损失动态及权重视角的考察,辅以多项补充实验,以深入理解我们方法的有效性。此外,我们分析了方法及评估指标的不足,强调仅依赖MIA分数和基于ROUGE的指标不足以全面评估遗忘的成功与否。最后,我们强调未来研究需要更全面的评估方法,并重新思考遗忘目标。代码已发布于https://github.com/zjunlp/unlearn/tree/main/semeval25。
近期,二维及多模态模型通过大规模数据集上的训练取得了显著成功。然而,将这些成果扩展到实现与复杂三维/四维场景的自由交互及高级语义操作仍面临挑战。这一难题主要源于缺乏大规模、标注完整的三维/四维或多视角数据集,这些数据集对于开放词汇和基于提示的分割、语言引导编辑以及视觉问答(VQA)等可泛化的视觉与语言任务至关重要。本文中,我们提出了Feature4X,一个通用框架,旨在仅利用单目视频输入(广泛存在于用户生成内容中),将任何二维视觉基础模型的功能扩展至四维领域。Feature4X中的“X”象征其多功能性,通过可适应、模型条件化的四维特征场蒸馏,支持执行任何任务。我们框架的核心在于一种动态优化策略,它将多种模型能力统一于单一表示之中。此外,据我们所知,Feature4X是首个利用高斯溅射技术将视频基础模型(如SAM2、InternVideo2)的特征蒸馏并提升为显式四维特征场的方法。我们的实验展示了在LLM反馈循环支持下,跨所有时间步长的新视角任意分割、几何与外观场景编辑以及自由形式VQA。这些进展通过为可扩展、具备上下文和时空感知能力的系统奠定基础,拓宽了代理式AI应用的范围,使其能够沉浸式地动态交互四维场景。
导致故障的输入在诊断和分析软件缺陷中扮演着关键角色。缺陷报告通常包含这些输入,开发者会从中提取以辅助调试。由于缺陷报告以自然语言撰写,先前的研究已利用多种自然语言处理(NLP)技术实现自动化输入提取。随着大语言模型(LLMs)的出现,一个重要研究问题随之而来:生成式LLMs从缺陷报告中提取导致故障的输入效果如何?本文提出LLPut技术,旨在通过实验评估三种开源生成式LLMs——LLaMA、Qwen和Qwen-Coder——在从缺陷报告中提取相关输入方面的性能。我们基于包含206份缺陷报告的数据集进行了实验评估,以衡量这些模型的准确性和有效性。我们的研究结果为生成式LLMs在自动化缺陷诊断中的能力与局限提供了深入见解。
在视频预测中,时间一致性至关重要,它确保了输出结果的连贯性并避免了伪影。传统方法,如时间注意力机制和三维卷积,可能在处理显著物体运动时表现欠佳,且难以捕捉动态场景中的长程时间依赖关系。为弥补这一不足,我们提出了Tracktention层,这是一种新颖的架构组件,它通过点轨迹(即跨帧对应点的序列)显式地整合运动信息。通过融入这些运动线索,Tracktention层增强了时间对齐能力,有效处理复杂的物体运动,保持特征表示在时间上的一致性。我们的方法计算效率高,能够以最小的改动无缝集成到现有模型(如视觉Transformer)中,可将仅处理图像的模型升级为先进的视频处理模型,有时甚至超越专为视频预测设计的原生模型。我们在视频深度预测和视频着色任务中验证了这一点,与基线模型相比,配备Tracktention层的模型在时间一致性上展现出显著提升。
文本引导的图像编辑旨在根据自然语言指令修改图像的特定区域,同时保持整体结构和背景的真实性。现有方法利用从扩散模型生成的交叉注意力图导出的掩码来识别需要修改的目标区域。然而,由于交叉注意力机制侧重于语义相关性,它们在保持图像完整性方面存在困难。因此,这些方法往往缺乏空间一致性,导致编辑伪影和失真。在本研究中,我们针对这些局限性提出了LOCATEdit,它通过基于图的方法增强交叉注意力图,利用自注意力导出的补丁关系来保持图像区域间平滑、连贯的注意力,确保修改仅限于指定对象,同时保留周围结构。该方法在PIE-Bench上始终显著优于现有基线,展示了其在各种编辑任务中的先进性能和有效性。代码可在https://github.com/LOCATEdit/LOCATEdit/ 获取。