每日精选AI研究论文及翻译
我们研究了一种自奖励推理的大语言模型(LLMs),该模型能够在推理过程中同时生成逐步推理步骤并评估其输出的正确性,而无需外部反馈。这种集成方法使得单个模型能够独立引导其推理过程,为模型部署提供了计算优势。我们特别关注自我校正这一代表性任务,其中模型能够自主检测其响应中的错误、修订输出,并决定何时终止迭代优化循环。为此,我们提出了一个两阶段的算法框架,仅利用自生成数据构建自奖励推理模型。在第一阶段,我们采用顺序拒绝采样法合成包含自奖励和自我校正机制的长链思维轨迹。通过对这些精选数据进行微调,模型能够学习自奖励和自我校正的模式。在第二阶段,我们通过基于规则的信号进行强化学习,进一步增强模型评估响应准确性和优化输出的能力。在Llama-3和Qwen-2.5上的实验表明,我们的方法超越了内在的自我校正能力,并达到了与依赖外部奖励模型的系统相当的性能。
推理是推动医学影像分析发展的关键前沿领域,其透明度和可信度在临床医生信任和监管审批中扮演着核心角色。尽管医学视觉语言模型(VLMs)在放射学任务中展现出潜力,但现有大多数VLMs仅生成最终答案,而未揭示其背后的推理过程。为填补这一空白,我们推出了MedVLM-R1,这是一种能够明确生成自然语言推理的医学VLM,旨在增强透明度和可信度。不同于依赖监督微调(SFT)——该方法常因过度拟合训练分布而无法促进真正的推理——MedVLM-R1采用强化学习框架,激励模型在不使用任何推理参考的情况下发现人类可理解的推理路径。尽管训练数据有限(600个视觉问答样本)且模型参数较少(20亿),MedVLM-R1在MRI、CT和X射线基准测试中的准确率从55.11%提升至78.22%,超越了基于百万级样本训练的大型模型。此外,在分布外任务下,它也展现了强大的领域泛化能力。通过将医学影像分析与显式推理相结合,MedVLM-R1标志着临床实践中迈向可信赖与可解释AI的关键一步。
在大型多模态模型(LMMs)中,非语言模态(如视觉表征)的感知能力通常无法与大型语言模型(LLMs)强大的推理能力相媲美,这限制了LMMs在复杂下游任务中的表现。近期,通过采用专家混合(MoE)机制替代视觉编码器,这一问题得到了缓解,该机制为多样化的下游任务提供了丰富、多层次且多样的表征。多模态MoE的性能很大程度上依赖于其路由器,该路由器根据每个输入重新加权并混合不同专家的表征。然而,我们发现端到端训练的路由器并不总是能为每个测试样本生成最优的路由权重。为弥补这一差距,我们提出了一种新颖且高效的方法——“测试时重路由”(R2-T2),该方法通过在测试样本的邻域内将路由权重向量向正确预测样本的向量方向移动,实现局部优化。我们提出了三种具有不同优化目标和邻域搜索空间的R2-T2策略。R2-T2在不训练任何基础模型参数的情况下,持续且显著地提升了当前最先进LMMs在多样化任务挑战性基准测试中的表现。
LongRoPE2 是一种创新方法,旨在将预训练大型语言模型(LLMs)的有效上下文窗口扩展至目标长度,同时保持其在原有较短上下文窗口上的性能。这一目标通过三项主要贡献实现:(1)提出一个假设,即现有方法中观察到的持续分布外(OOD)问题源于高维RoPE训练不足;(2)开发了一种高效的RoPE重缩放算法,采用“针驱动”困惑度引导的进化搜索,以解决训练不足的问题;(3)引入混合上下文窗口训练策略,通过微调模型权重,使其适应长上下文序列的重缩放RoPE,同时利用原始RoPE保持短上下文性能。在LLaMA3-8B和Phi3-mini-3.8B模型上进行的广泛基准测试验证了该假设,并证明了LongRoPE2的有效性。值得注意的是,LongRoPE2仅使用10B个token,就将LLaMA3-8B的有效上下文长度扩展至128K,同时保留了超过98.5%的短上下文性能,这一数据量仅为Meta方法的1/80,而后者未能达到目标有效上下文长度。代码将在https://github.com/microsoft/LongRoPE 提供。
近期在架构设计、预训练和微调方面的创新,显著提升了如LLaMA和DeepSeek等大型自回归语言模型的上下文学习与推理能力。相比之下,尽管BERT和RoBERTa等编码器为众多下游自然语言处理应用奠定了基础,却未能取得同等程度的进展。为弥合这一差距,我们推出了NeoBERT,这一新一代编码器通过整合架构、现代数据及优化预训练方法中的尖端技术,重新定义了双向模型的潜力。NeoBERT设计上注重无缝集成:它可作为现有基础模型的即插即用替代品,采用最佳深度与宽度比例,并利用长达4,096个标记的扩展上下文长度。尽管其参数规模仅为2.5亿,却在庞大的MTEB基准测试中取得了领先成绩,在相同微调条件下超越了BERT大模型、RoBERTa大模型、NomicBERT及ModernBERT。此外,我们深入评估了各项改进对GLUE的影响,并为MTEB设计了一套统一的微调与评估框架。我们公开了所有代码、数据、检查点及训练脚本,以加速研究进展与实际应用部署。
视觉生成与理解之间的表征差异,在将这两种能力整合到单一框架中时构成了关键障碍。为弥合这一鸿沟,我们提出了UniTok,一种离散视觉标记器,它既能编码细粒度细节以支持生成任务,又能捕捉高层语义以促进理解任务。尽管近期研究表明,这些目标可能在训练过程中引发损失冲突,但我们揭示出,其根本瓶颈在于离散标记的表示能力受限。为此,我们引入了多码本量化技术,通过将向量量化分解为多个独立的子码本,从而扩展潜在特征空间,同时避免了因码本过大导致的训练不稳定性。我们的方法显著提升了统一离散标记器的性能上限,使其能够媲美甚至超越领域特定的连续标记器。例如,UniTok在ImageNet数据集上取得了令人瞩目的rFID值0.38(对比SD-VAE的0.87)和零样本准确率78.6%(对比CLIP的76.2%)。我们的代码已公开于https://github.com/FoundationVision/UniTok。
在先进的文本到图像生成领域,正涌现出一系列统一框架,这些框架将诸如CLIP和T5等强大的文本编码器与扩散变换器(Diffusion Transformer)骨干网络相结合。尽管已有研究尝试通过附加条件(如边缘检测图和深度图)来控制输出图像,但一个能够实现任意文本-图像交错控制的综合框架仍然缺失。这一不足在尝试将多个图像的概念或视觉元素融合至生成过程中尤为明显。为弥补这一空白,我们进行了初步实验,结果表明大型多模态模型(LMMs)提供了一个有效的共享表示空间,其中图像与文本能够良好对齐,作为外部扩散模型的条件。基于这一发现,我们提出了Dream Engine,一个高效且统一的框架,专为图像生成模型中的任意文本-图像交错控制而设计。在SD3.5等强大的文本到图像模型基础上,我们通过整合如QwenVL等多功能多模态信息编码器,替换了原有的仅文本编码器。我们的方法采用两阶段训练范式,包括联合文本-图像对齐和多模态交错指令微调。实验证明,这一训练方法行之有效,在GenEval基准测试中获得了0.69的综合评分,与SD3.5和FLUX等顶尖文本到图像模型的性能相当。
许多具有挑战性的推理任务不仅需要快速、直觉性的反应,更依赖于一种更为审慎、多步骤的解决方式。近期在大规模语言模型(LLMs)上的进展,标志着从“系统1”式的快速反应向“系统2”式的反思与纠错问题解决模式的重要转变。然而,当前的基准测试过分依赖最终答案的准确性,忽视了模型在推理过程中的中间步骤,从而无法全面评估模型在推理过程中反思与修正错误的能力。为填补这一空白,我们推出了FINEREASON,一个逻辑谜题基准,旨在对LLMs的推理能力进行细粒度评估。每个谜题均可分解为原子步骤,这为严格验证中间步骤的正确性提供了理想条件。在此基础上,我们引入了两项任务:状态检查与状态转移,以全面评估模型如何评估当前情境并规划下一步行动。为支持更广泛的研究,我们还提供了一个谜题训练集,旨在提升模型在一般数学任务上的表现。实验表明,经过我们状态检查与转移数据训练的模型,在GSM8K数学推理任务上的性能提升了高达5.1%。
大型语言模型(LLMs)在软件工程领域展现了卓越的性能,但在适应持续演进的代码知识方面仍面临挑战,尤其是针对第三方库API的频繁更新。这一局限源于静态预训练数据集,常导致生成不可执行的代码或实现安全性及效率欠佳。为此,本文提出了CODESYNC,一个用于识别过时代码模式并从Python第三方库中实时收集代码知识更新的数据引擎。基于CODESYNC,我们开发了CODESYNCBENCH,这是一个全面评估LLMs保持与代码进化同步能力的基准测试,涵盖了来自六个Python库的220个API的真实世界更新。我们的基准测试提供了跨三个评估任务的3,300个测试案例,以及一个包含2,200个训练样本的更新感知指令调优数据集。对14个顶尖LLMs的广泛实验表明,即便在先进知识更新方法(如DPO、ORPO和SimPO)的支持下,它们仍难以应对动态代码进化。我们相信,我们的基准测试能为未来开发更有效的实时代码知识更新方法奠定坚实基础。实验代码与数据集已公开于:https://github.com/Lucky-voyage/Code-Sync。
尽管现代扩散变换器展现出卓越的性能,但其在推理阶段面临巨大的资源需求挑战,这源于每个去噪步骤所需的固定且庞大的计算量。在本文中,我们重新审视了传统上为每次去噪迭代分配固定计算预算的静态范式,转而提出了一种动态策略。我们这一简单且样本高效的框架,使得预训练的扩散变换器模型能够转化为灵活版本——称为FlexiDiT——使其能够在不同的计算预算下处理输入。我们展示了单个灵活模型如何在生成图像时不降低质量,同时相较于静态模型,在类别条件及文本条件图像生成任务中减少超过40%的浮点运算需求。我们的方法具有通用性,且不受输入和条件模式的限制。我们还展示了如何将这一方法轻松扩展至视频生成领域,其中FlexiDiT模型在保持性能不变的前提下,生成样本所需计算量最多可减少75%。
我们提出了Mobius,一种直接从文本描述生成无缝循环视频的新方法,无需任何用户标注,从而为多媒体展示创造新的视觉素材。我们的方法重新利用了预训练的视频潜在扩散模型,通过文本提示生成循环视频,而无需进行额外训练。在推理过程中,我们首先通过连接视频的起始和结束噪声构建一个潜在循环。鉴于视频扩散模型的上下文能够保持时间一致性,我们在每一步中逐步将首帧潜在特征移至末尾,进行多帧潜在去噪。因此,尽管每一步的去噪上下文有所不同,但在整个推理过程中仍能保持一致性。此外,我们方法中的潜在循环长度可任意设定,这扩展了潜在特征平移方法的应用范围,使其能够生成超出视频扩散模型上下文限制的无缝循环视频。与以往的动态影像不同,所提出的方法无需依赖图像作为外观,这通常会限制生成结果的动作。相反,我们的方法能够产生更具动态感的运动效果和更优的视觉质量。我们通过多项实验和对比验证了所提出方法的有效性,展示了其在不同场景下的优异表现。所有代码将公开提供。
自回归(AR)建模以其下一个标记预测范式而闻名,支撑着最先进的语言和视觉生成模型。传统上,“标记”被视为最小的预测单元,通常是语言中的离散符号或视觉中的量化补丁。然而,对于二维图像结构的最佳标记定义仍然是一个悬而未决的问题。此外,AR模型存在曝光偏差问题,即在训练过程中的教师强制导致推理时的误差累积。在本文中,我们提出了xAR,这是一个推广的AR框架,将标记的概念扩展为一个实体X,可以代表一个单独的补丁标记、一个单元(相邻补丁的k乘k分组)、一个子样本(远距离补丁的非局部分组)、一个尺度(粗到细的分辨率),甚至是整个图像。此外,我们将离散标记分类重新制定为连续实体回归,利用每个AR步骤中的流匹配方法。这种方法使训练依赖于嘈杂实体而不是地面真实标记,从而实现了有效减轻曝光偏差的嘈杂上下文学习。因此,xAR提供了两个关键优势:(1)它实现了灵活的预测单元,捕捉不同的上下文粒度和空间结构,(2)通过避免对教师强制的依赖,减轻了曝光偏差。在ImageNet-256生成基准测试中,我们的基础模型xAR-B(172M)在实现20倍更快推理的同时,胜过了DiT-XL/SiT-XL(675M)。同时,xAR-H以1.24的FID创造了新的最先进水平,在不依赖视觉基础模块(例如DINOv2)或高级引导间隔抽样的情况下,运行速度比以前表现最佳的模型快2.2倍。
构建关节物体是计算机视觉领域的一项关键挑战。现有方法往往难以有效整合不同物体状态间的信息,限制了部件网格重建和部件动态建模的准确性,尤其对于复杂的多部件关节物体而言。我们提出了ArtGS,一种新颖的方法,利用3D高斯作为灵活且高效的表示来解决这些问题。我们的方法结合了规范高斯与从粗到细的初始化和更新策略,以对齐不同物体状态下的关节部件信息,并采用了一种受蒙皮启发的部件动态建模模块,以提升部件网格重建和关节学习的效果。在合成和真实世界数据集上的大量实验,包括针对复杂多部件物体的新基准测试,均表明ArtGS在联合参数估计和部件网格重建方面达到了最先进的性能。我们的方法显著提高了重建质量和效率,特别是对于多部件关节物体。此外,我们还提供了对设计选择的全面分析,验证了每个组件的有效性,并指出了未来改进的潜在方向。
基于近端策略优化(PPO)的人类反馈强化学习(RLHF)对于使大型语言模型(LLMs)与人类偏好对齐至关重要。该方法需要联合训练一个行动者和评论者,并依赖一个预训练且固定的奖励模型进行指导。由于行动者与评论者之间的相互依赖,这一方法增加了计算复杂性和不稳定性。此外,在LLM任务中,PPO无法获取真实的环境奖励,限制了其适应性。在此情况下,预训练一个价值模型或奖励模型变得等效,因为两者均提供了固定的监督信号,而无需新的真实反馈。为解决这些问题,我们提出了解耦价值策略优化(DVPO),这是一个精简的框架,用预训练的全局价值模型(GVM)替代了传统的奖励建模。GVM基于策略轨迹进行条件化,并预测令牌级别的未来回报估计。通过将价值模型与策略训练解耦(通过冻结的GVM驱动的RL目标),DVPO消除了行动者与评论者间的相互依赖,相比传统RLHF,减少了40%的GPU内存使用和35%的训练时间。跨基准测试的实验表明,DVPO在性能上超越了高效的RLHF方法(如DPO),并与最先进的PPO方法持平。
基于大型语言模型的自主AI代理能够在社会各领域创造不可否认的价值,但它们也面临着来自对手的安全威胁,这些威胁亟待防护措施,因为信任与安全问题随之而来。考虑到多轮越狱攻击和欺骗性对齐等主要高级攻击手段,这些攻击无法通过监督训练期间使用的静态防护措施来缓解,这凸显了现实世界鲁棒性研究的关键优先级。在动态多代理系统中结合静态防护措施仍无法有效防御此类攻击。我们旨在通过开发新的评估框架来增强基于LLM的代理的安全性,该框架能够识别并应对威胁,确保安全操作部署。我们的工作采用三种检测方法:通过反向图灵测试识别恶意代理,通过多代理模拟分析欺骗性对齐,并通过工具介导的对抗场景测试GEMINI 1.5 Pro、llama-3.3-70B和deepseek r1模型,开发反越狱系统。检测能力强大,如GEMINI 1.5 Pro的准确率达到94%,但在长时间攻击下系统仍存在持续漏洞,随着提示长度增加,攻击成功率(ASR)上升,多样性指标在预测中失效,同时暴露出多个复杂系统缺陷。研究结果表明,有必要采用基于代理自身主动监控的灵活安全系统,并结合系统管理员的适应性干预,因为当前模型可能产生漏洞,导致系统不可靠且易受攻击。因此,在我们的工作中,我们尝试应对此类情况,并提出一个综合框架以应对这些安全问题。
主流问题解决框架主要依赖商用模型,导致高成本和隐私隐患。现有问题解决训练方法普遍存在泛化能力差的问题,且未能充分利用开源开发资源。我们提出了面向子任务的强化微调(SoRFT),这是一种新颖的训练方法,旨在提升大语言模型(LLMs)的问题解决能力。该方法将问题解决分解为结构化子任务:文件定位、函数定位、行定位及代码编辑生成。SoRFT包含两个训练阶段:(1)基于拒绝采样的监督微调,即在微调LLM前,使用真实数据过滤链式思维(CoT)数据;(2)基于规则的强化学习,利用近端策略优化(PPO)算法并结合真实数据奖励机制。我们在SWE-Bench Verified和SWE-Bench Lite数据集上评估了SoRFT训练后的模型,在开源模型中实现了最先进的(SOTA)性能(例如,SoRFT-Qwen-7B在SWE-Bench Verified上解决了21.4%的问题)。实验结果表明,SoRFT显著提升了问题解决性能,增强了模型泛化能力,并为商用模型提供了一种成本效益高的替代方案。
尽管近期在推理增强的大型语言模型(LLMs)如DeepSeek-R1方面取得了突破,将推理时推理融入机器翻译(MT)——人类译者自然采用结构化、多层次思维链(CoTs)的领域——仍待深入探索。现有方法要么为特定MT子任务(如文学翻译)设计固定的CoT,要么依赖于合成与人类思维不一致的CoTs及易引发灾难性遗忘的监督微调(SFT),这限制了它们适应多样化翻译场景的能力。本文介绍了R1-Translator(R1-T1),一种通过强化学习(RL)结合包含六种常见模式的人类对齐CoTs,实现通用MT推理时推理的新框架。我们的方法开创了三大创新:(1)将基于推理的翻译扩展至MT子任务之外,涵盖六种语言及多样任务(如法律/医疗领域适应、习语解析);(2)形式化六种专家策划的CoT模板,这些模板反映了如上下文感知的意译及回译等混合人类策略;(3)通过带有KL约束奖励的RL,实现自我进化的CoT发现及抗遗忘适应。实验结果显示,在Flores-101测试集上,21种语言及80个翻译方向上的翻译性能稳步提升,特别是在训练中未见的15种语言上,相较于单纯的SFT,其通用多语言能力得以保持。
在大型语言模型(LLMs)中,某些神经元可以存储在预训练期间学到的不同知识片段。虽然知识通常表现为关系和实体的组合,但目前尚不清楚是否有些神经元专注于关系本身 -- 而与任何实体无关。我们假设这样的神经元可以检测输入文本中的关系,并指导涉及这种关系的生成。为了研究这一点,我们使用基于统计的方法在选择的一组关系上研究了Llama-2系列。我们的实验证明了关系特定神经元的存在。我们测量了有选择性地停用与关系r特定的候选神经元对LLM处理以下内容的能力的影响:(1)其关系为r的事实和(2)其关系为不同关系r'(r不等于r')的事实。关于它们对编码关系信息的能力,我们提供了关于关系特定神经元的以下三个属性的证据。 (i)神经元累积性。与r相关的神经元具有累积效应,因此停用其中更大一部分会导致r中更多事实的退化。 (ii)神经元多功能性。神经元可以跨多个密切相关和不太相关的关系共享。一些关系神经元可以跨语言传递。 (iii)神经元干扰。停用特定于一个关系的神经元可以提高LLM对其他关系事实的生成性能。我们将在以下网址公开我们的代码:https://github.com/cisnlp/relation-specific-neurons。
最近的智能体框架和推理时算法经常在复杂规划问题上遇到困难,这是由于验证生成的计划或推理以及单个任务中实例的不同复杂性的限制。许多现有方法针对这些任务要么执行任务级验证而不考虑约束,要么应用推理时算法而不适应实例级复杂性。为了解决这些限制,我们提出了PlanGEN,这是一个模型无关且易于扩展的智能体框架,具有三个关键组件:约束、验证和选择智能体。具体而言,我们的方法提出了约束引导的迭代验证,以提升推理时算法(Best of N、Tree-of-Thought 和 REBASE)的性能。在PlanGEN框架中,选择智能体根据实例复杂性优化算法选择,确保更好地适应复杂规划问题。实验结果表明,在多个基准测试中,我们相比最强基线取得了显著改进,实现了NATURAL PLAN(相似8%提升)、OlympiadBench(相似4%提升)、DocFinQA(相似7%提升)和GPQA(相似1%提升)的最新成果。我们的关键发现突显了约束引导的迭代验证改善了推理时算法,并且自适应选择进一步提升了在复杂规划和推理问题上的性能。
一致性训练(Consistency Training, CT)作为扩散模型的一种有前景的替代方案,近期在图像生成任务中展现出竞争力。然而,非蒸馏一致性训练常面临高方差与不稳定性问题,其训练动态的分析与改进成为研究热点。本研究提出了一种基于流匹配(Flow Matching)框架的新型CT训练方法。我们的核心贡献在于,受变分自编码器(VAE)架构启发,设计了一种训练噪声耦合机制。通过训练一个作为编码器架构实现的数据依赖噪声发射模型,我们的方法能够间接学习噪声到数据映射的几何结构,而这一映射在经典CT中是由前向过程的选择固定的。跨多个图像数据集的实证结果显示,该方法在生成性能上取得显著提升,我们的模型在CIFAR-10上超越了基线,达到了非蒸馏CT的最优FID(Frechet Inception Distance)值,并在ImageNet 64×64分辨率下,以两步生成的方式实现了与当前最优水平相当的FID。相关代码已公开于https://github.com/sony/vct。
从单目视频中渲染动态场景是一项关键但极具挑战性的任务。最近提出的可变形高斯溅射技术已成为表示现实世界动态场景的强有力解决方案。然而,该方法往往会产生大量冗余的高斯分布,试图在多个时间步长上拟合每一帧训练视图,从而导致渲染速度变慢。此外,静态区域中高斯分布的属性是时间不变的,因此无需对每个高斯分布进行建模,否则可能导致静态区域出现抖动。实际上,动态场景渲染速度的主要瓶颈在于高斯分布的数量。为此,我们提出了高效动态高斯溅射(EDGS),通过稀疏的时间变化属性建模来表示动态场景。我们的方法采用稀疏锚点网格表示来构建动态场景,并通过经典核表示计算密集高斯分布的运动流。此外,我们提出了一种无监督策略,以高效地过滤掉与静态区域对应的锚点。仅将与可变形物体相关的锚点输入到多层感知机(MLPs)中,以查询时间变化的属性。在两个真实世界数据集上的实验表明,与之前最先进的方法相比,我们的EDGS在显著提升渲染速度的同时,还保持了卓越的渲染质量。