每日精选AI研究论文及翻译
通用光度立体(PS)技术旨在无需依赖特定光照模型的情况下,从任意光照条件下的物体中恢复高质量的表面法线。尽管近期出现了如SDM-UniPS和Uni MS-PS等进展,但仍存在两大根本性挑战:1)变化光照与表面法线特征之间的深度耦合,其中观察到的亮度模糊性使得难以判断亮度变化是源于光照改变还是表面朝向;2)复杂表面上高频几何细节的保留,其中精细的几何结构会产生自阴影、相互反射及微妙的法线变化,这些是传统特征处理操作难以准确捕捉的。
在本研究中,我们推出了OmniGen2,这是一款多功能且开源的生成模型,旨在为多样化的生成任务提供统一解决方案,涵盖文本到图像生成、图像编辑及上下文生成等领域。与OmniGen v1不同,OmniGen2针对文本和图像模态设计了两种独立的解码路径,采用非共享参数和解耦的图像分词器。这一设计使得OmniGen2能够在无需重新适配VAE输入的情况下,基于现有的多模态理解模型进行构建,从而保留了原有的文本生成能力。为了支持OmniGen2的训练,我们开发了全面的数据构建流程,包括图像编辑和上下文生成数据的处理。此外,我们特别为图像生成任务引入了一种反思机制,并基于OmniGen2精心策划了一个专门的反思数据集。尽管参数规模相对适中,OmniGen2在多项任务基准测试中均取得了具有竞争力的成绩,包括文本到图像生成和图像编辑。为了进一步评估上下文生成(亦称主题驱动任务),我们引入了一个名为OmniContext的新基准。在一致性方面,OmniGen2在开源模型中达到了最先进的性能。我们将发布我们的模型、训练代码、数据集及数据构建流程,以支持该领域的未来研究。项目页面:https://vectorspacelab.github.io/OmniGen2;GitHub链接:https://github.com/VectorSpaceLab/OmniGen2。
大语言模型(LLMs)的超长文本生成是一个广受需求的应用场景,但由于其最大生成长度限制以及随着序列增长而出现的整体质量下降,这仍然是一个重大挑战。以往的方法,如LongWriter,通常依赖于“教学”策略,即对合成的长文本输出进行监督微调(SFT)。然而,这一策略严重依赖于合成的SFT数据,这些数据不仅构建困难且成本高昂,还常常缺乏连贯性和一致性,显得过于人工化且结构单一。在本研究中,我们提出了一种基于激励的方法,完全从零开始,不依赖任何标注或合成数据,而是利用强化学习(RL)来促进LLMs发展出超长高质量文本生成的能力。我们从基础模型出发,类似于R1-Zero,进行RL训练,引导其在写作过程中进行有助于规划和优化的推理。为此,我们采用了专门的奖励模型,以引导LLM在长度控制、写作质量和结构格式化方面取得进步。实验评估表明,基于Qwen2.5-32B训练的LongWriter-Zero模型在长文本写作任务上持续超越传统的SFT方法,在WritingBench和Arena-Write的所有指标上均达到了最先进的水平,甚至超越了DeepSeek R1和Qwen3-235B等100B+模型。我们已在https://huggingface.co/THU-KEG/LongWriter-Zero-32B开源了我们的数据和模型检查点。
基于可验证奖励的强化学习(RLVR)在提升大语言模型(LLMs)的推理能力方面展现出显著潜力。然而,其成功目前主要局限于数学和代码领域。这一主要限制源于对领域特定验证器的严重依赖,导致了极高的复杂性和有限的可扩展性。为解决这一挑战,我们的关键观察是:LLM生成正确自由形式答案的内在概率直接反映了其对推理奖励的自我评估(即推理过程导向正确答案的程度)。基于这一洞见,我们提出了RLPR,一个无需验证器的简单框架,将RLVR推广至更广泛的通用领域。RLPR利用LLM自身对参考答案的token概率分数作为奖励信号,并在训练过程中最大化预期奖励。我们发现,解决这一噪声概率奖励的高方差问题对于其有效性至关重要,因此提出了概率到奖励的转换方法和稳定化技术,以确保从LLM内在概率中获取精确且稳定的奖励。在四个通用领域基准和三个数学基准上的全面实验表明,RLPR持续提升了基于Gemma、Llama和Qwen模型的推理能力。值得注意的是,RLPR在TheoremQA上比同期VeriFree高出7.6分,在Minerva上高出7.5分,甚至在七个基准上平均超越依赖验证器模型的General-Reasoner方法1.6分。
动态新视角合成旨在从任意视角生成移动主体的逼真视图。这一任务在依赖单目视频时尤为困难,因为从运动中分离结构是一个不适定问题,且监督信息稀缺。我们提出了视频扩散感知重建(ViDAR),这是一种新颖的四维重建框架,它利用个性化扩散模型来合成伪多视角监督信号,用于训练高斯溅射表示。通过以场景特定特征为条件,ViDAR在恢复精细外观细节的同时,减轻了由单目模糊性引入的伪影。为了解决基于扩散的监督在时空上的不一致性,我们提出了一种扩散感知损失函数和相机姿态优化策略,使合成视图与底层场景几何对齐。在具有极端视角变化的挑战性基准DyCheck上的实验表明,ViDAR在视觉质量和几何一致性方面均优于所有最先进的基线方法。我们进一步强调了ViDAR在动态区域上相对于基线的显著改进,并提供了一个新的基准来比较在重建场景中运动丰富部分时的性能表现。项目页面:https://vidar-4d.github.io
过程奖励模型(PRMs)近期崭露头角,成为监督大型语言模型(LLMs)中间推理步骤的强大框架。以往的PRMs主要基于模型最终输出响应进行训练,难以稳健评估中间思维轨迹,尤其是在前沿推理模型如Deepseek-R1生成的轨迹-响应输出这一新兴场景中。本研究中,我们提出了ReasonFlux-PRM,一种专为评估轨迹-响应型推理痕迹而设计的新型轨迹感知PRM。ReasonFlux-PRM融合了步骤级与轨迹级监督,实现了与结构化思维链数据对齐的细粒度奖励分配。我们调整ReasonFlux-PRM,使其支持离线和在线环境下的奖励监督,包括:(i) 为下游小模型的监督微调筛选高质量模型蒸馏数据,(ii) 在强化学习过程中为策略优化提供密集过程级奖励,以及(iii) 实现奖励引导的Best-of-N测试时扩展。在AIME、MATH500和GPQA-Diamond等具有挑战性的下游基准测试中,实证结果表明,ReasonFlux-PRM-7B在数据选择质量上优于强PRMs(如Qwen2.5-Math-PRM-72B)及人工筛选基线。此外,我们衍生的ReasonFlux-PRM-7B带来了持续的性能提升,在监督微调中平均增益12.1%,在强化学习中提升4.5%,在测试时扩展中增加6.3%。我们还发布了高效的ReasonFlux-PRM-1.5B,适用于资源受限应用及边缘部署。项目地址:https://github.com/Gen-Verse/ReasonFlux
近年来,主体到视频生成领域取得了显著进展。然而,现有模型在忠实遵循文本指令方面仍面临重大挑战。这一局限,通常被称为复制粘贴问题,源于广泛使用的配对训练范式。该方法通过从与目标视频相同的场景中采样参考图像,本质上将主体身份与背景和上下文属性纠缠在一起。为解决这一问题,我们引入了Phantom-Data,首个通用跨配对主体到视频一致性数据集,包含跨多样类别约一百万对身份一致的样本。我们的数据集通过三阶段流程构建:(1) 通用且输入对齐的主体检测模块,(2) 从超过5300万视频和30亿图像中进行大规模跨上下文主体检索,以及(3) 先验引导的身份验证,以确保在上下文变化下的视觉一致性。全面实验表明,使用Phantom-Data进行训练显著提升了提示对齐和视觉质量,同时保持了与配对基线相当的身份一致性。
近年来,自主智能体(Agentic AI)已成为日益热门的研究领域。然而,我们认为当前智能体研究实践缺乏标准化和科学严谨性,导致难以对各类方法进行公平比较。因此,不同智能体框架中的设计选择如何影响其有效性仍不明确,衡量其进展也颇具挑战。在本研究中,我们基于GAIA基准和BrowseComp开展了一项系统的实证研究,以公平且严谨的方式探讨关键智能体组件中流行设计选择的影响。我们发现,由于缺乏标准评估协议,即便是开源的前期工作也难以复现,且随机运行间存在显著差异。为此,我们引入了一种更为稳健的评估协议,以稳定比较结果。我们的研究揭示了哪些组件和设计对高效智能体至关重要,而哪些尽管看似合理却属冗余。基于这些发现,我们构建并开源了OAgents,这一新型基础智能体框架在开源项目中实现了顶尖性能。OAgents为各类智能体组件提供了模块化设计,旨在推动自主智能体领域的未来研究。
本文提出了一种多模态框架,旨在通过共享的离散语义表示统一视觉理解与生成。其核心是文本对齐分词器(TA-Tok),它利用从大型语言模型(LLM)词汇表中投影出的文本对齐码本,将图像转换为离散标记。通过将视觉与文本整合到一个扩展词汇的统一空间中,我们的多模态LLM——Tar,实现了跨模态的输入与输出,无需特定模态的设计。此外,我们提出了尺度自适应编码与解码,以平衡效率与视觉细节,并配备生成式反分词器以产生高保真视觉输出。为满足多样化解码需求,我们采用了两类互补的反分词器:快速自回归模型和基于扩散的模型。为加强模态融合,我们探索了先进的预训练任务,展示了在视觉理解与生成两方面的提升。跨基准测试的实验表明,Tar在匹配或超越现有多模态LLM方法的同时,实现了更快的收敛速度和更高的训练效率。代码、模型及数据可在https://tar.csuhan.com获取。
我们提出了一种新颖的记忆机制,用于构建能够交互式探索环境的视频生成器。以往类似成果的实现方式主要有两种:一是通过逐步重建场景的三维几何结构并外推二维视图,但这种方法会迅速累积误差;二是采用上下文窗口较短的视频生成器,然而这类方法难以长期保持场景的一致性。为克服这些局限,我们引入了基于表面元索引的视图记忆机制(VMem),该机制通过将过去观察到的视图基于其记录的三维表面元素(surfels)进行几何索引来存储。VMem能够在生成新视图时高效检索最相关的历史视图。通过仅聚焦于这些相关视图,我们的方法以远低于使用所有历史视图作为上下文计算成本的代价,实现了对想象环境的一致性探索。我们在具有挑战性的长期场景合成基准上评估了该方法,结果表明在维持场景一致性和相机控制方面,我们的方法相较于现有技术展现出了更优的性能。
我们提出了一种名为DIP的新型无监督后训练方法,旨在增强大规模预训练视觉编码器中的密集图像表示,以支持上下文场景理解。与以往依赖复杂自蒸馏架构的方法不同,我们的方法受元学习原理启发,通过模拟下游上下文场景的伪任务来训练视觉编码器。为了实现对未标注数据的后训练,我们提出了一种自动生成上下文任务的机制,该机制结合了预训练的扩散模型和视觉编码器本身。DIP方法简洁、无需监督且计算高效,在单块A100 GPU上耗时不足9小时。通过伪上下文任务学习密集表示,它在多种下游现实世界上下文场景理解任务中展现出强劲性能,不仅超越了初始视觉编码器,也优于先前的方法,为提升密集表示提供了一种实用且高效的解决方案。代码已发布于:https://github.com/sirkosophia/DIP。
我们推出RealPlay,这是一款基于神经网络的真实世界游戏引擎,能够根据用户控制信号生成交互式视频。与以往专注于游戏风格视觉效果的研究不同,RealPlay旨在生成逼真且时间上连贯的视频序列,使其酷似真实世界的影像。它运行于一个交互循环中:用户观察生成的场景,发出控制指令,随后获得一段简短的视频片段作为响应。为实现如此真实且响应迅速的生成效果,我们攻克了多项关键挑战,包括低延迟反馈的迭代式片段预测、跨迭代的时间一致性以及精确的控制响应。RealPlay的训练结合了标注的游戏数据与未标注的真实世界视频,无需真实世界动作注释。值得注意的是,我们观察到了两种形式的泛化能力:(1) 控制迁移——RealPlay能有效将虚拟场景中的控制信号映射到真实世界情境;(2) 实体迁移——尽管训练标签仅来源于赛车游戏,RealPlay却能泛化至控制包括自行车和行人在内的多种真实世界实体,超越了仅对车辆的控制。项目页面请访问:https://wenqsun.github.io/RealPlay/
用户画像对于推荐系统至关重要,它将原始的用户交互数据转化为简洁且结构化的表示,从而驱动个性化推荐。传统的基于嵌入的画像方法缺乏可解释性和适应性,而近期大语言模型(LLMs)的进展使得基于文本的画像在语义上更为丰富且透明。然而,现有方法往往遵循固定格式,限制了其捕捉用户行为多样性的能力。本文提出LettinGo,一种生成多样化且自适应用户画像的新框架。通过利用LLMs的表达能力并结合下游推荐任务的直接反馈,我们的方法避免了监督微调(SFT)带来的严格限制。相反,我们采用直接偏好优化(DPO)来使画像生成器与任务特定性能对齐,确保画像保持适应性和有效性。LettinGo分三个阶段运行:(1)通过多个LLMs探索多样化的用户画像,(2)基于其在推荐系统中的影响评估画像质量,(3)利用任务性能衍生的成对偏好数据对齐画像生成。实验结果表明,我们的框架显著提升了推荐准确性、灵活性和上下文感知能力。这项工作将画像生成作为下一代推荐系统的关键创新加以推进。
多模态大语言模型(MLLMs)已在通用任务上展现出强大的推理能力,然而其在医疗领域的应用仍处于初期阶段。构建思维链(CoT)训练数据对于增强医疗MLLMs的推理能力至关重要。然而,现有方法在提供全面框架以搜索和评估针对关键诊断的有效推理路径方面存在不足。为应对这一挑战,我们提出了导师-实习生协作搜索(MICS),一种新颖的推理路径搜索方案,用于生成严谨且有效的医疗CoT数据。MICS首先利用导师模型逐步初始化推理,随后提示每位实习生模型沿着这些起始路径继续思考,最终根据多位实习生模型的整体推理表现选择最优推理路径。推理表现由MICS评分决定,该评分评估生成推理路径的质量。最终,我们构建了MMRP,一个按难度分级的多任务医疗推理数据集,以及Chiron-o1,一个通过课程学习策略设计的新医疗MLLM,具备强大的视觉问答和泛化推理能力。大量实验证明,使用MICS构建的CoT数据集训练的Chiron-o1,在一系列医疗视觉问答和推理基准测试中达到了最先进的性能。代码可在GitHub - manglu097/Chiron-o1: 增强MLLMs中的逐步与可验证医疗推理获取。
我们提出了首个能够通过前馈架构计算每一时间步视频帧和3D高斯粒子4D时空网格的框架。该架构包含两个主要组件:4D视频模型和4D重建模型。在第一部分中,我们分析了当前执行空间与时间注意力机制的4D视频扩散架构,这些架构或采用顺序处理,或在双流设计中并行处理。我们指出了现有方法的局限性,并引入了一种新颖的融合架构,该架构在单层内同时执行空间与时间注意力。我们方法的关键在于一种稀疏注意力模式,其中token仅关注同一帧内、同一时间戳下或同一视角下的其他token。在第二部分中,我们通过引入高斯头、相机token替换算法以及额外的动态层和训练,对现有3D重建算法进行了扩展。总体而言,我们在4D生成领域确立了新的技术标杆,显著提升了视觉质量和重建能力。
评估生成式3D模型仍面临挑战,主要源于自动化指标与人类对质量感知之间的不一致。现有基准测试依赖于忽视3D结构的图像指标或无法捕捉感知吸引力和实际应用价值的几何度量。为填补这一空白,我们推出了3D Arena,一个开放平台,通过大规模收集人类偏好,采用成对比较的方式,评估图像到3D生成模型。 自2024年6月上线以来,该平台已从8,096名用户中收集了123,243票,覆盖19个最先进的模型,建立了生成式3D领域最大规模的人类偏好评估。我们贡献了包含100个评估提示的iso3d数据集,并通过统计欺诈检测实现了99.75%的用户真实性控制。基于ELO的排名系统提供了可靠的模型评估,使该平台成为公认的评估资源。 通过分析这些偏好数据,我们揭示了人类偏好的模式。研究发现,视觉呈现特征受到青睐,高斯溅射输出相较于网格模型获得了16.6的ELO优势,而有纹理模型相较于无纹理模型则获得了144.1的ELO优势。我们提出了改进评估方法的建议,包括多标准评估、任务导向评估及格式感知比较。平台的社区参与度确立了3D Arena作为该领域基准的地位,同时推动了生成式3D中以人为中心评估的理解。
专家混合(MoE)架构已成为扩展大型语言模型(LLMs)同时保持推理效率的强大范式。然而,其巨大的内存需求使得在资源受限的环境中进行微调或部署变得极其昂贵。为解决这一挑战,我们引入了SlimMoE,一种多阶段压缩框架,用于将大型MoE模型转化为更小、更高效的变体,而无需承担从头训练的高昂成本。我们的方法通过精简专家并通过中间阶段转移知识,系统地减少参数数量,有效缓解了一次性剪枝方法中常见的性能下降问题。利用该框架,我们仅使用400B tokens(不到原始模型训练数据的10%)将Phi 3.5-MoE(总计41.9B/激活6.6B参数)压缩为Phi-mini-MoE(总计7.6B/激活2.4B参数)和Phi-tiny-MoE(总计3.8B/激活1.1B参数)。这些压缩模型可在单GPU(Phi-mini-MoE使用A100,Phi-tiny-MoE使用A6000)上进行微调,非常适合学术和资源有限的环境。实验表明,这些压缩模型在相似规模下表现优异,并与更大模型保持竞争力。例如,Phi-mini-MoE仅使用2/3的激活参数便达到或超越了Phi-3-mini的性能,并在显著降低延迟的情况下,获得了与Llama 3.1 8B相当的MMLU分数。我们的研究证明,结构化剪枝结合分阶段蒸馏为创建高质量、紧凑的MoE模型提供了有效途径,推动了MoE架构的广泛应用。我们已将模型公开发布于https://huggingface.co/microsoft/Phi-mini-MoE-instruct 和 https://huggingface.co/microsoft/Phi-tiny-MoE-instruct。
本文提出了FinCoT,一种结构化的思维链(CoT)提示方法,该方法融入了领域专家金融推理的洞见,以指导大型语言模型的推理轨迹。我们研究发现,在金融自然语言处理(FinNLP)中存在三种主要的提示风格:(1)标准提示——零样本提示;(2)非结构化CoT——无明确推理结构的CoT提示,如使用标签;(3)结构化CoT提示——带有明确指令或示例的CoT提示,这些指令或示例定义了结构化的推理步骤。以往,FinNLP主要侧重于使用标准或非结构化CoT提示进行提示工程。然而,结构化CoT提示在先前工作中受到的关注有限。此外,结构化CoT提示中的推理结构设计往往基于非领域专家的启发式方法。在本研究中,我们探讨了FinNLP中的每种提示方法。我们评估了三种主要提示风格及FinCoT在涵盖十个金融领域的CFA式问题上的表现。我们观察到,FinCoT将性能从63.2%提升至80.5%,Qwen-2.5-7B-Instruct从69.7%提升至74.2%,同时相比结构化CoT提示减少了八倍的生成令牌数。我们的研究结果表明,与领域对齐的结构化提示不仅提升了性能、降低了推理成本,还生成了更具可解释性且与专家推理轨迹一致的结果。
在复杂动态的长视频中编辑光照对于多种下游任务具有重要价值,包括视觉内容创作与操控,以及通过模拟到现实(sim2real)和现实到现实(real2real)转换来扩展具身AI的数据规模。然而,现有的视频重光照技术大多局限于肖像视频,或面临时间一致性和计算效率的瓶颈。本文提出TC-Light,一种以两阶段后优化机制为特征的新颖范式。该方法首先利用膨胀视频重光照模型对视频进行初步重光照处理,第一阶段优化外观嵌入以对齐全局光照,随后在第二阶段优化提出的规范视频表示——唯一视频张量(UVT),以对齐细粒度纹理和光照。为了全面评估性能,我们还建立了一个长且高度动态的视频基准。大量实验表明,我们的方法能够实现物理上可信的重光照结果,具有卓越的时间一致性和较低的计算成本。代码和视频演示可在https://dekuliutesla.github.io/tclight/获取。
DeepSeek-R1通过其基于规则的奖励机制,成功提升了大型语言模型(LLM)的推理能力。尽管这是一个“完美”的奖励系统,能有效防止奖励滥用,但此类奖励函数往往具有离散性。我们的实验观察表明,离散奖励可能导致梯度异常、优化不稳定及收敛缓慢。为解决这一问题,我们提出了ReDit(奖励抖动)方法,通过添加简单的随机噪声对离散奖励信号进行抖动处理。借助这种扰动后的奖励,学习过程中持续提供探索性梯度,从而实现更平滑的梯度更新并加速收敛。引入的噪声还在平坦奖励区域引入随机性,激励模型探索新策略,逃离局部最优。跨多种任务的实验验证了ReDit的有效性和效率。平均而言,ReDit仅需约10%的训练步数即可达到与标准GRPO相当的性能,且在训练时长相近时,仍展现出4%的性能提升。可视化结果证实了ReDit在显著缓解梯度问题方面的作用。此外,理论分析进一步验证了这些优势。
近期,生成式人工智能(GenAI)应用从纯云端环境向终端用户设备的转移,在资源管理、系统效率和用户体验方面引入了新的挑战。本文提出了ConsumerBench,一个全面的基准测试框架,旨在评估在终端用户设备上运行的GenAI模型的系统效率和响应时间。与现有假设模型独占专用GPU的基准测试不同,ConsumerBench模拟了在受限硬件上并发执行的多应用真实场景。此外,ConsumerBench支持定制化工作流,这些工作流模拟了需要多个应用协同完成的复杂任务。ConsumerBench既捕捉了应用层面的指标,如延迟和服务水平目标(SLO)达成率,也记录了系统层面的指标,如CPU/GPU利用率和内存带宽。通过大量实验,ConsumerBench揭示了资源共享中的低效、贪婪分配下的不公平调度以及静态模型服务器配置的性能陷阱。本文还为模型开发者和系统设计者提供了实用洞见,强调了针对消费级GPU架构定制内核的优势,以及实施SLO感知调度策略的价值。
奖励模型(RMs)是通过人类反馈对齐大型语言模型(LLMs)的基础,但它们常常面临奖励欺骗的问题。这些模型容易抓住表面或虚假的特征,如回答长度或格式,误将这些从训练数据相关性中学到的线索当作质量(如事实性、相关性)的真正因果驱动因素。这是因为标准训练目标难以区分这些因素,导致奖励模型脆弱且策略失准。我们提出了Crome(因果鲁棒奖励建模),这是一个基于明确因果模型的新框架,旨在缓解奖励欺骗。Crome在训练中采用以下合成定向增强:(1) 因果增强,即沿特定因果属性差异的配对,以单独强化对每个因果属性的敏感性;(2) 中性增强,即主要在虚假属性上变化的平局标签配对,以增强对虚假属性的不变性。值得注意的是,我们的增强是在无需了解虚假因素的情况下生成的,仅通过沿因果准则进行答案干预,这些准则通过查询一个预言机LLM确定。实证表明,Crome在RewardBench上显著优于标准基线,平均准确率提升高达5.4%,在特定类别中分别取得13.2%和7.2%的增益。Crome的鲁棒性进一步体现在Best-of-N推理设置中,随着N的增加,在包括流行的RewardBench(涵盖聊天、聊天-困难、安全性和推理任务)、专注于安全性的WildGuardTest以及专门针对推理的GSM8k在内的多个基准测试中,均获得了一致的性能提升。
本研究探讨了激活语言模型(LLMs)中的潜在子空间是否能引导科学代码生成偏向特定编程语言。首先,对五个因果LLMs在科学编码提示上的表现进行了评估,以量化其在四种编程语言间的基线偏好。采用静态神经元归因方法,即扰动C++或CPP标记的最高激活MLP权重,发现该方法脆弱且在不同提示风格和模型规模间泛化能力有限。为克服这些局限,开发了一种梯度优化的自适应激活引导框架(G-ACT):将每个提示的激活差异聚类为少量引导方向,并在线训练和优化轻量级的逐层探针以选择合适的引导向量。在LLaMA-3.2 3B模型中,此方法通过将探针分类准确率平均提升15%,并在早期层(0-6)使探针分类准确率相比标准ACT框架提高61.5%,可靠地引导生成偏向CPP语言。对于LLaMA-3.3 70B模型,尽管注意力头信号更为分散,但在关键层进行定向注入仍能改善语言选择。虽然逐层探测引入了适度的推理开销,但通过仅引导部分层,该方法保持实用性并确保了模型行为的可复现性。这些结果展示了一种可扩展、可解释且高效的概念级控制机制,适用于实际代理系统。
从人类指令生成多视角图像对于3D内容创作至关重要。主要挑战在于保持多视角间的一致性,并在多样化条件下有效合成形状与纹理。本文提出多视角自回归(MV-AR)方法,利用自回归模型逐步从任意提示生成一致的多视角图像。首先,AR模型的下一个标记预测能力显著提升了其在促进渐进式多视角合成中的效能。当生成间隔较大的视角时,MV-AR能够利用其所有先前视角提取有效的参考信息。随后,我们提出一个统一模型,通过架构设计与训练策略适应多种提示。为应对多重条件,我们引入了针对文本、相机姿态、图像和形状的条件注入模块。为同时处理多模态条件,采用了渐进式训练策略。该策略首先以文本到多视角(t2mv)模型为基线,通过随机丢弃与组合条件,推动全面X到多视角(X2mv)模型的发展。最后,为缓解高质量数据有限导致的过拟合问题,我们提出了“视图洗牌”数据增强技术,从而显著扩展了训练数据量级。实验验证了MV-AR的性能与多功能性,它在一系列条件下持续生成一致的多视角图像,并与领先的基于扩散的多视角图像生成模型表现相当。代码与模型将发布于https://github.com/MILab-PKU/MVAR。
稀疏自编码器(SAEs)作为一种有前景的解决方案,正被用于将大规模语言模型的表示分解为可解释的特征。然而,Paulo与Belrose(2025年)指出,不同初始化种子间存在不稳定性,Heap等人(2025年)则发现SAEs可能无法捕捉模型内部特征。这些问题很可能源于在外部数据集上训练SAEs——这些数据集或采集自网络,或由另一模型生成——其中可能包含超出模型泛化能力的分布外(OOD)数据。这会导致SAEs产生我们称之为“虚假特征”的幻觉特征,错误反映模型内部激活。为解决这些问题,我们提出了FaithfulSAE方法,该方法在模型自身合成的数据集上训练SAEs。通过使用FaithfulSAEs,我们证明在较少OOD的指令数据集上训练SAEs能使其在不同种子间更加稳定。值得注意的是,在SAE探测任务中,FaithfulSAEs表现优于基于网络数据集训练的SAEs,并在7个模型中的5个展现出更低的虚假特征比率。总体而言,我们的方法消除了对外部数据集的依赖,通过更好地捕捉模型内部特征推进了可解释性研究,同时强调了SAE训练数据集常被忽视的重要性。
大型语言模型(LLMs)在需要长上下文的应用中日益普及,但随着上下文增长,键值(KV)缓存往往成为GPU上的内存瓶颈。为解决这一问题,我们提出了可交换向量量化(CommVQ),以显著降低长上下文LLM推理中的内存使用。我们首先引入了一种带有轻量级编码器和码本的加法量化方法,用于压缩KV缓存,该缓存可通过简单的矩阵乘法解码。为进一步降低解码过程中的计算成本,我们设计了与旋转位置嵌入(RoPE)可交换的码本,并使用期望最大化(EM)算法进行训练。这使得解码能够高效地集成到自注意力机制中。我们的方法通过加法量化实现了高精度,并通过RoPE可交换码本实现了低开销。在长上下文基准测试和GSM8K上的实验表明,我们的方法在使用2位量化时将FP16 KV缓存大小减少了87.5%,同时优于最先进的KV缓存量化方法。值得注意的是,它实现了1位KV缓存量化,且精度损失最小,使得LLaMA-3.1 8B模型能够在单个RTX 4090 GPU上运行128K的上下文长度。源代码可在以下网址获取:https://github.com/UMass-Embodied-AGI/CommVQ。
尽管大型语言模型(LLMs)展现出令人瞩目的能力,但经过对齐的模型往往生成缺乏多样性的输出。是什么驱动了这种生成稳定性?我们通过模型输出分布中的概率集中现象来探究这一现象。为了量化这种集中程度,我们引入了分支因子(Branching Factor, BF)——一种在生成过程中衡量有效后续步骤数量的、与具体token无关的指标。我们的实证分析揭示了两项关键发现:(1)随着生成的进行,BF通常会降低,这表明LLMs在生成过程中变得更加可预测。(2)对齐调优从一开始就显著锐化了模型的输出分布,使BF相对于基础模型降低了近一个数量级(例如,从12降至1.2)。这一显著降低有助于解释为何对齐模型往往对解码策略不那么敏感。基于这一洞察,我们发现这种稳定性对复杂推理有着出人意料的影响。例如,经过对齐的思维链(Chain-of-Thought, CoT)模型(如DeepSeek蒸馏模型)就利用了这一点;通过生成更长的推理链,它们将生成过程推向后期更为确定(BF更低)的阶段,从而产生更稳定的输出。我们假设,对齐调优并未从根本上改变模型的行为,而是引导其朝向风格化token(如“当然”),这些token解锁了基础模型中已然存在的低熵轨迹。这一观点得到了提示实验的支持,实验表明,用此类token提示基础模型同样能降低BF。综合来看,我们的研究确立了BF作为理解和控制LLM输出的强大诊断工具——阐明了对齐如何减少变异性、CoT如何促进稳定生成,以及如何引导基础模型远离多样性。
检测AI生成的代码、深度伪造及其他合成内容正成为一项新兴的研究挑战。随着大型语言模型(LLMs)生成的代码日益普遍,识别每个样本背后的具体模型变得愈发重要。本文首次系统性地研究了针对C程序的LLM作者归属问题。我们发布了CodeT5-Authorship,一种新颖的模型,它仅采用原始CodeT5编码器-解码器架构中的编码器层,舍弃解码器以专注于分类任务。模型编码器的输出(首个标记)经过一个包含GELU激活和dropout的双层分类头处理,生成可能作者的概率分布。为评估我们的方法,我们引入了LLM-AuthorBench,这是一个包含32,000个可编译C程序的基准测试集,这些程序由八种顶尖LLM在多样化任务中生成。我们将我们的模型与七种传统机器学习分类器及八种微调后的Transformer模型进行了对比,包括BERT、RoBERTa、CodeBERT、ModernBERT、DistilBERT、DeBERTa-V3、Longformer以及LoRA微调的Qwen2-1.5B。在二分类任务中,我们的模型在区分如GPT-4.1与GPT-4o等紧密相关模型生成的C程序时,准确率高达97.56%;在五大领先LLM(Gemini 2.5 Flash、Claude 3.5 Haiku、GPT-4.1、Llama 3.3及DeepSeek-V3)间的多类归属任务中,准确率达到95.40%。为支持开放科学,我们已在GitHub上公开了CodeT5-Authorship架构、LLM-AuthorBench基准测试集及所有相关Google Colab脚本:https://github.com/LLMauthorbench/。
近期,多模态大语言模型(MLLMs)在视觉-语言基准任务上表现卓越,然而关于输入视觉质量如何影响其响应却知之甚少。图像感知质量的提升是否直接转化为MLLM更好的理解能力?我们首次系统性地研究了领先的MLLMs及一系列视觉-语言基准,对每张图像施加了可控的退化与风格转换。令人惊讶的是,我们发现了一个视觉质量悖论:当图像偏离人类感知的保真度时,模型、任务乃至单个实例的表现反而可能提升。现成的修复流程无法调和这些独特的偏好。为弥合这一差距,我们引入了视觉质量测试时调优(VQ-TTT)——一个轻量级的适应模块,它:(1)在冻结的视觉编码器前插入一个可学习的低秩核,以调节频率内容;(2)仅通过LoRA微调视觉编码器的浅层。VQ-TTT在单次前向传播中动态调整每张输入图像,使其与任务特定的模型偏好对齐。在评估的所有MLLMs和数据集上,VQ-TTT显著提升了平均准确率,且无需外部模型、缓存特征或额外训练数据。这些发现重新定义了MLLMs“更好”的视觉输入,并强调了在AI成为主要数据消费者的新时代,适应性的而非普遍“干净”的图像的重要性。
我们能否通过扩展四维预训练来学习通用的时空表征,从而从某些时刻的少量视角重建物体,实现任意时刻任意视角的渲染?我们给出了肯定的答案——4D-LRM,这是首个大规模四维重建模型,它能够处理无约束视角和时间戳的输入,并渲染出任意新颖的视角-时间组合。与以往基于优化、几何或生成的四维方法不同,这些方法在效率、泛化能力或保真度方面存在局限,而4D-LRM学习了一种统一的时空表征,直接从跨时间的姿态图像标记中预测每像素的四维高斯基元,理论上支持无限帧率下的快速高质量渲染。我们的结果表明,扩展时空预训练能够实现精确且高效的四维重建。4D-LRM不仅能够泛化到新物体,还能在时间上进行插值,并处理多样化的相机设置。在单块A100 GPU上,它仅需一次前向传播,不到1.5秒即可重建24帧序列。
医疗视觉问答旨在通过使模型能够基于医学图像回答自然语言问题,从而支持临床决策。尽管多模态学习的最新进展显著提升了性能,但现有方法仍存在答案可靠性有限和可解释性差的问题,这影响了临床医生和患者对模型生成答案的理解与信任。为解决这一问题,本研究首先提出了一个“视觉基础思维”(ThinkVG)数据集,其中答案生成被分解为中间推理步骤,这些步骤明确地锚定了医学图像中的相关视觉区域,从而提供了细粒度的可解释性。此外,我们引入了一种新颖的可验证奖励机制,用于强化学习以指导后期训练,提高模型推理过程与其最终答案之间的一致性。值得注意的是,我们的方法仅使用八分之一的训练数据就实现了可比的性能,证明了该方案的高效性和有效性。该数据集可在https://huggingface.co/datasets/BoKelvin/GEMeX-ThinkVG获取。
近期音乐基础模型的进展提升了音频表征学习能力,然而其在多样音乐传统中的有效性仍显不足。为此,我们推出了CultureMERT-95M,一个多文化适应性的基础模型,旨在增强跨文化音乐表征学习与理解。为实现这一目标,我们提出了一种两阶段持续预训练策略,该策略结合了学习率重新升温与衰减机制,即便在有限计算资源下也能实现稳定适应。通过在包含希腊、土耳其及印度音乐传统的650小时多文化数据混合集上进行训练,该模型在多样非西方音乐自动标注任务中的ROC-AUC和AP平均提升了4.9%,超越了先前的最先进水平,同时在西式基准测试上几乎未出现遗忘现象。我们进一步探讨了任务算术法,这是一种在权重空间中融合单一文化适应模型的多文化适应替代方法。任务算术法在非西方自动标注任务上表现与我们的多文化训练模型相当,且在西式数据集上无性能退化。跨文化评估显示,单一文化模型在不同音乐传统间的迁移效果参差不齐,而多文化适应模型则实现了最佳整体性能。为支持世界音乐表征学习研究,我们公开了CultureMERT-95M与CultureMERT-TA-95M,以促进更具文化意识的音乐基础模型的发展。
大型语言模型(LLMs)已取得显著进展,但其部署过程中暴露了关键脆弱性,尤其是针对绕过安全机制的越狱攻击。护栏——作为监控和控制LLM交互的外部防御机制——已成为一种颇具前景的解决方案。然而,当前LLM护栏领域呈现碎片化状态,缺乏统一的分类体系和全面的评估框架。在本系统知识梳理(SoK)论文中,我们首次对LLM的越狱护栏进行了全面分析。我们提出了一种新颖的多维度分类法,从六个关键维度对护栏进行分类,并引入了一个安全-效率-实用性的评估框架,以衡量其实际效果。通过广泛的分析与实验,我们识别了现有护栏方法的优势与局限,探讨了它们在不同攻击类型中的普适性,并为优化防御组合提供了洞见。我们的工作为未来研究与开发奠定了结构化基础,旨在引导稳健LLM护栏的原则性进步与部署。代码已发布于https://github.com/xunguangwang/SoK4JailbreakGuardrails。
故事可视化已成为一项热门任务,其目标是通过多幅画面生成视觉场景来描绘叙事。在此情境下,核心挑战在于保持视觉一致性,尤其是角色和物体在故事中的持续存在与演变方式。尽管扩散模型近期取得了进展,现有方法往往难以保留关键角色特征,导致叙事不连贯。本研究中,我们提出了一种协作式多智能体框架,该框架能自主识别、修正并优化跨多幅故事可视化画面中的不一致性。这些智能体在迭代循环中运作,支持细粒度的、画面级别的更新,而无需重新生成整个序列。我们的框架具有模型无关性,可灵活整合多种扩散模型,包括如Flux这样的整流流变换器以及如Stable Diffusion这样的潜在扩散模型。定量与定性实验表明,我们的方法在多幅画面一致性方面超越了先前的方法。
近期,多模态大语言模型(MLLMs)在生成个性化图像描述方面常显乏力,即便是在高质量标注数据上训练后。本研究中,我们发现这一局限在现有的基于后训练方法的MLLM个性化策略中依然存在。具体而言,尽管通过监督微调(SFT)利用大规模标注数据进行后调优,这些模型在实际场景中,如多概念图像描述任务中,仍难以生成忠实于图像的描述。然而,获取此类复杂场景下的大规模高质量标注既昂贵又困难。针对SFT以数据为中心的特性,我们提出了一种基于强化学习(RL)的后训练框架。据我们所知,这是首个采用RL方法对MLLMs进行后训练以实现个性化图像描述的研究。我们的方法显著提升了MLLMs的视觉识别与个性化生成能力,并在多概念图像描述这一挑战性任务中,持续超越现有的基于SFT的基线模型。
近期,大型语言模型(LLMs)的突破性进展显著推动了自然语言处理领域的发展,然而其计算与内存需求,尤其是在长上下文推理场景下,仍构成重大挑战。为此,我们提出了TPTT(将预训练Transformer转化为泰坦)这一创新框架,旨在通过高效的线性化注意力机制与先进的内存管理策略,增强预训练Transformer模型的性能。TPTT采用了诸如“记忆作为门控”(MaG)和混合线性化注意力(LiZA)等技术,并完全兼容Hugging Face Transformers库,使得任何因果LLM都能通过参数高效微调(LoRA)实现无缝适配,无需全面重训练。我们在MMLU基准测试中,对约10亿参数的模型验证了TPTT的有效性,观察到效率与准确率均有显著提升。例如,Titans-Llama-3.2-1B在精确匹配(EM)指标上较基线提升了20%。统计分析及与最新顶尖方法的对比,进一步证实了TPTT在实际应用中的可扩展性与鲁棒性。代码公开于https://github.com/fabienfrfr/tptt,Python包可在https://pypi.org/project/tptt/获取。
新生儿死亡仍是欠发达国家乃至部分发达国家面临的严峻现实。根据Macro Trades的数据,全球范围内每1000名新生儿中就有26.693名夭折。为降低这一数字,对高危婴儿的早期预测至关重要。此类预测为母婴提供充分照护创造了可能,从而避免婴儿早逝。在此背景下,机器学习被用于判断新生儿是否面临风险。为训练预测模型,研究采用了140万新生儿的历史数据。通过运用逻辑回归、K近邻、随机森林分类器、极端梯度提升(XGBoost)、卷积神经网络及长短期记忆网络(LSTM)等机器学习与深度学习技术,基于该数据集识别出预测新生儿死亡率最精确的模型。在机器学习算法中,XGBoost与随机森林分类器以94%的准确率表现最佳;而在深度学习模型中,LSTM以99%的准确率位居榜首。因此,采用LSTM似乎是判断是否需要为新生儿采取预防措施的最适宜方法。
尽管近期在利用大语言模型(LLMs)生成硬件RTL代码方面取得了进展,现有解决方案仍面临实际应用场景与真实世界RTL代码开发需求之间的显著差距。先前的方法要么聚焦于过于简化的硬件描述,要么依赖大量人工指导来处理复杂规格,这限制了其可扩展性和自动化潜力。本文中,我们通过提出一个名为Spec2RTL-Agent的LLM代理系统来弥合这一差距,该系统旨在直接处理复杂的规格文档并生成相应的RTL代码实现,推动基于LLM的RTL代码生成向更实际的应用场景迈进。为实现这一目标,Spec2RTL-Agent引入了一种新颖的多代理协作框架,集成了三大关键赋能模块:(1) 一个推理与理解模块,将规格转化为结构化的、分步实施的计划;(2) 一个渐进式编码与提示优化模块,通过多种表示形式迭代精炼代码,以提升RTL转换的正确性与可综合能力;(3) 一个自适应反思模块,在生成过程中识别并追踪错误来源,确保更稳健的代码生成流程。与直接从自然语言生成RTL不同,我们的系统策略性地生成可综合的C++代码,随后针对高层次综合(HLS)进行优化。这种代理驱动的精炼过程相比直接生成RTL的简单方法,确保了更高的正确性和兼容性。我们在三份规格文档上评估了Spec2RTL-Agent,结果显示其生成的RTL代码准确,且比现有方法减少了高达75%的人工干预。这凸显了其作为首个从非结构化规格到RTL生成的全自动化多代理系统的角色,显著降低了硬件设计中对人力的依赖。