每日精选AI研究论文及翻译
我们提出了QeRL,一种面向大语言模型(LLMs)的量化增强型强化学习框架。尽管强化学习(RL)对LLMs的推理能力至关重要,但其资源消耗巨大,需要大量GPU内存和较长的推演周期。QeRL通过结合NVFP4量化技术与低秩适应(LoRA),有效加速了RL的推演阶段,同时降低了内存开销。除了效率提升外,我们的研究发现,量化噪声增加了策略熵,增强了探索能力,使RL过程中能发现更优策略。为进一步优化探索,QeRL引入了自适应量化噪声(AQN)机制,在训练过程中动态调整噪声。实验表明,QeRL在推演阶段实现了超过1.5倍的加速。此外,这是首个能够在单块H100 80GB GPU上对32B LLM进行RL训练,并实现RL训练整体加速的框架。与16位LoRA和QLoRA相比,QeRL不仅实现了更快的奖励增长和更高的最终准确率,还在7B模型上,在数学基准测试如GSM8K(90.8%)和MATH 500(77.4%)中,与全参数微调性能相当。这些成果确立了QeRL作为LLMs中高效且有效的RL训练框架的地位。
潜变量生成建模,即通过预训练的自编码器将像素映射到扩散过程的潜在空间中,已成为扩散变换器(DiT)的标准策略;然而,自编码器组件几乎未有进展。多数DiT仍依赖原始的VAE编码器,这带来了几项局限:过时的骨干网络损害了架构的简洁性,低维潜在空间限制了信息容量,以及纯粹基于重建的训练导致表征能力不足,最终影响了生成质量。在本研究中,我们探索用预训练的表征编码器(如DINO、SigLIP、MAE)配合训练的解码器替换VAE,构建了我们称之为表征自编码器(RAE)的模型。这些模型不仅提供高质量的重建结果和语义丰富的潜在空间,还支持可扩展的基于变换器的架构。鉴于这些潜在空间通常为高维,一个关键挑战是如何使扩散变换器在其中高效运作。我们分析了这一难题的根源,提出了理论驱动的解决方案,并通过实验验证了其有效性。我们的方法在不依赖辅助表征对齐损失的情况下实现了更快的收敛。采用配备轻量级、宽DDT头的DiT变体,我们在ImageNet上取得了显著的图像生成成果:256x256分辨率下无引导的FID为1.51,256x256和512x512分辨率下有引导的FID均为1.13。RAE展现出明显优势,应成为扩散变换器训练的新基准。
自回归(AR)模型仍是自然语言生成的基准方法,但由于其严格的顺序解码特性,仍面临高延迟问题。近期受扩散模型启发的LlaDA和Dream等方法通过并行生成缓解了这一问题,但它们存在两个核心局限:信息丢失,即每一步中未确定词元的预测分布被丢弃;以及过早决策,即在缺乏全局协调的情况下做出局部决定。我们提出了潜在精炼解码(LRD),这是一个包含潜在精炼和预测反馈循环的两阶段框架。第一阶段将掩码位置保持为预测词元与掩码嵌入的分布混合,使模型能够建立更为全局一致的信念。第二阶段逐步确定置信度高的词元,同时保留不确定词元以进行迭代反馈。KL散度动态为收敛和早停提供了原则性且可靠的准则。在编码(HumanEval +6.3,MBPP +2.6)和推理(GSM8K +2.9,MATH500 +3.8)任务上的实验表明,LRD在提升准确率的同时,实现了高达10.6倍的加速,使其成为并行序列生成的一个强大且多功能的替代方案。
近期,多模态大语言模型(MLLMs)在视频理解领域展现出显著潜力。然而,现有基准测试未能全面评估跨音频与视觉模态的协同推理能力,往往忽视其中一种模态或以逻辑不一致的方式整合两者。为填补这一空白,我们推出了OmniVideoBench,这是一个大规模且精心设计的基准测试,专门用于评估协同的视听理解能力,特别强调模态互补性与逻辑一致性。具体而言,OmniVideoBench包含1000个高质量问答对,每个问答对均附有逐步推理轨迹,源自628段时长从几秒到30分钟不等的多样化视频,并经过人工验证以确保完全正确与唯一性。此外,OmniVideoBench涵盖了13种精心设计的问题类型,包括时序推理、空间定位、计数、因果推断、摘要等,从而捕捉视频理解的核心挑战。在OmniVideoBench上对多个MLLMs的评估显示,模型表现与人类推理之间存在显著差距,开源模型明显落后于闭源模型,这凸显了真正视听推理的内在难度。我们将发布OmniVideoBench,以促进具备更强且更通用推理能力的MLLMs的发展。
可验证奖励的强化学习(RLVR)近期崭露头角,成为提升大型语言模型(LLMs)推理能力的一个有前景的框架。然而,采用二元验证优化的策略容易忽视推理轨迹中潜在的宝贵探索。鉴于黄金过程奖励模型(PRMs)的高昂标注成本,近期研究尝试利用辅助信号对过程令牌进行奖励塑造,涉及从logit空间收集的熵和似然度。本研究中,我们提出了一种新颖视角,通过源自潜在空间的流奖励来塑造RLVR,并提出了RLFR方法。在该方法中,模型的潜在流场既可由离策略高质量数据构建,也可由在策略拒绝采样数据构建,策略潜在在其中的速度偏差被量化作为奖励信号。RLFR首次证明,一个完善的流场可以作为收集奖励信号的可靠环境,凸显了表达性潜在空间的巨大未开发潜力。此外,RLFR能够压缩任何离策略专家数据作为构成奖励信号的参考,并展示了利用隐藏状态中压缩的高效上下文依赖,而非单个令牌级别的指称来理解上下文。在语言和多模态推理基准上的实验验证了流奖励的可靠性,为利用辅助信号进行奖励塑造提供了一个有前景的范式。
尽管可验证奖励的强化学习(RLVR)已显著提升了大型视觉语言模型(LVLMs)的推理能力,但现有的大多数多模态推理方法却忽视了视觉感知在RLVR优化过程中的关键作用。本文首次从令牌感知这一新颖视角出发,对多模态RLVR进行了开创性探索,其中令牌感知衡量了每个生成令牌对视觉的依赖程度。通过对思维链(CoT)过程的细致分析,我们揭示了两大关键发现:首先,在一条轨迹中,令牌感知呈稀疏分布,仅有少数令牌对视觉依赖度高,用于基于视觉的推理;其次,不同轨迹在整体视觉依赖性上表现出显著差异。基于这些观察,我们提出了视觉感知策略优化(VPPO),这是一种新颖的策略梯度算法,它明确利用令牌感知来精炼学习信号。具体而言,VPPO通过双重机制实现这一点:它根据轨迹的整体视觉依赖性重新加权其优势,并仅对感知上关键的令牌进行策略更新。在一套包含八个感知与推理基准的全面测试中,VPPO相较于领先的开源RL调优模型展现了显著优势,其有效性在7B和32B模型规模上均得到了一致验证。我们的研究不仅为分析多模态RLVR建立了一个新的令牌级感知视角,还提出了一种新颖且有效的优化策略,显著增强了LVLMs的多模态推理能力。
通用SVG建模因数据集碎片化、方法跨任务迁移性有限以及处理结构复杂性的难度而面临挑战。为此,我们利用多模态大语言模型(MLLMs)强大的迁移与泛化能力,实现了SVG理解、编辑与生成的统一建模。我们推出了InternSVG系列,一个集数据、基准与模型于一体的套件。其核心是SAgoge,为SVG任务构建的最大且最全面的多模态数据集,涵盖静态图形与动态动画,包括图标、长序列插图、科学图表及动态动画,支持不同难度级别的任务,并提供了比以往数据集更深层次的属性结构。基于此资源,我们引入了SArena,一个配套的基准测试,拥有全面的任务定义和标准化评估,与SAgoge覆盖的领域及难度谱系相匹配。在此基础上,我们提出了InternSVG,一个统一的MLLM,专为SVG理解、编辑与生成设计,采用SVG特定特殊标记、基于子词的嵌入初始化,以及从简短静态SVG逐步过渡到长序列插图和复杂动画的两阶段训练策略。这一统一框架促进了正向迁移,提升了整体性能。在SArena及先前基准上的实验证实,InternSVG取得了显著提升,持续超越领先的开源与专有模型。
近期,代理强化学习(agentic RL)的出现表明,强化学习同样能有效提升大语言模型(LLMs)的代理推理能力,然而其关键设计原则与最佳实践仍不明确。在本研究中,我们从数据、算法及推理模式三个核心视角出发,进行了全面而系统的探索,以揭示强化学习在代理推理中的应用奥秘。我们提炼出以下关键洞见:(一)以真实端到端工具使用轨迹替代拼接的合成轨迹,能显著强化监督微调(SFT)的初始化效果;高多样性且模型感知的数据集支持探索,并大幅提升强化学习性能。(二)探索友好型技术对代理强化学习至关重要,如采用更高的奖励裁剪、过长的奖励塑形及保持适当的策略熵,均能提高训练效率。(三)采用深思熟虑的策略,减少工具调用次数,相较于频繁调用工具或冗长的自我推理,能提升工具使用效率及最终准确率。综合这些简单实践,我们一致性地增强了代理推理能力与训练效率,在挑战性基准测试中,即便使用较小模型也取得了强劲成果,为未来代理强化学习研究奠定了实用基准。除上述实证洞见外,我们还贡献了一个高质量的、真实端到端代理SFT数据集及一个高质量的强化学习数据集,并在包括AIME2024/AIME2025、GPQA-Diamond及LiveCodeBench-v6在内的四个挑战性基准上,验证了我们的洞见在提升LLMs代理推理能力方面的有效性。遵循我们的方法,4B规模的模型也能在代理推理性能上超越32B规模的模型。代码与模型详见:https://github.com/Gen-Verse/Open-AgentRL。
在本研究中,我们提出了DiT360,一个基于DiT的框架,通过混合训练透视与全景数据来实现全景图像生成。针对生成质量中几何保真度与照片级真实感的问题,我们将其主要原因归结于缺乏大规模、高质量的真实世界全景数据,这一以数据为中心的观点与以往专注于模型设计的方法有所不同。DiT360核心包含多个关键模块,用于域间转换与域内增强,这些模块分别应用于VAE前的图像层面与VAE后的token层面。在图像层面,我们通过透视图像引导与全景细化引入跨域知识,以此提升感知质量,同时规范多样性与照片级真实感。在token层面,混合监督被应用于多个模块,包括用于边界连续性的循环填充、增强旋转鲁棒性的偏航损失以及提高畸变意识的立方体损失。在文本到全景、图像修复及扩展任务上的大量实验表明,我们的方法在十一项量化指标上均实现了更优的边界一致性与图像保真度。代码已公开于https://github.com/Insta360-Research-Team/DiT360。
视听视频字幕生成旨在创建语义丰富的描述,同时确保视觉与听觉事件在时间上的精确对齐,从而提升视频理解与生成的效果。本文介绍了AVoCaDO,一款由音频与视觉模态间时序编排驱动的强大视听视频字幕生成器。我们提出了一种两阶段的后训练流程:(1)AVoCaDO SFT,该阶段在新构建的包含107K条高质量、时间对齐的视听字幕数据集上对模型进行微调;(2)AVoCaDO GRPO,此阶段利用定制化的奖励函数,在规范字幕长度并减少崩溃的同时,进一步增强时序一致性和对话准确性。实验结果表明,AVoCaDO在四项视听视频字幕生成基准测试中显著超越了现有的开源模型,并且在仅视觉设置下的VDC和DREAM-1K基准测试中也展现了竞争力。
高效利用大语言模型(LLMs)解决现实世界问题,日益依赖于其与动态网络环境交互及自主获取外部信息的能力。尽管近期如Search-R1和WebDancer等研究在解决网络任务上展现了强劲性能,但它们严重依赖额外工具将交互式网络环境转化为静态文本内容,这与人类浏览行为形成鲜明对比,后者涉及滚动、点击、输入等多种浏览器交互。本文提出BrowserAgent,一种更具交互性的代理,通过模拟人类浏览器操作解决复杂任务。BrowserAgent直接通过Playwright对原始网页执行一系列预定义的浏览器操作。我们采用两阶段训练(监督微调(SFT)与拒绝微调(RFT))来提升模型的泛化能力。尽管训练数据远少于Search-R1,BrowserAgent在不同开放问答任务上取得了更具竞争力的结果。此外,我们引入显式记忆机制,跨步骤存储关键结论,进一步增强模型在长程任务中的推理能力。值得注意的是,BrowserAgent-7B在多跳问答任务如HotpotQA、2Wiki和Bamboogle上,相比Search-R1实现了约20%的提升。这些结果表明,BrowserAgent可作为更先进框架,支持更具交互性和可扩展性的网络代理。
大型语言模型(LLM)代理在复杂多轮工具使用任务中展现出巨大潜力,但其发展常受限于高质量训练数据的极度匮乏。基于合成数据的监督微调(SFT)易导致过拟合,而标准的强化学习(RL)则面临关键的冷启动问题和训练不稳定性。为应对这些挑战,我们引入了环境调优(Environment Tuning),这是一种新颖的训练范式,使代理能够直接从问题实例中学习复杂行为,而无需依赖预先收集的专家轨迹。环境调优通过结构化课程、提供纠正反馈的可操作环境增强以及细粒度进度奖励来协调这一学习过程,确保稳定且高效的探索。仅使用伯克利函数调用排行榜(BFCL)基准中的400个问题实例,我们的方法不仅在与强基线的分布内性能对比中表现出竞争力,还展示了卓越的分布外泛化能力,克服了基于SFT方法常见的性能崩溃问题。我们的工作标志着从静态轨迹的监督微调向基于环境的动态探索的范式转变,为训练更鲁棒且数据高效的代理开辟了新途径。
近期,智能工作流技术的进步已实现了诸如专业文档生成等任务的自动化。然而,这些技术主要关注文本质量,忽视了视觉结构和风格,而这两者对于提升文档的可读性和吸引力至关重要。这一差距主要源于缺乏合适的奖励模型来引导智能工作流生成具有更强结构和风格质量的文档。为此,我们提出了DocReward,一个基于文档结构和风格进行评估的文档奖励模型。我们构建了一个跨领域的文档对数据集DocPair,包含117K对文档,涵盖32个领域和267种文档类型,每对文档内容相同但结构和风格各异,分别代表高专业度和低专业度。这使得模型能够全面且独立于文本质量地评估专业度。DocReward采用Bradley-Terry损失函数进行训练,对文档进行评分,并对与标注排序相矛盾的预测进行惩罚。为了评估奖励模型的性能,我们创建了一个测试数据集,其中包含由受过良好教育的人类评估者排名的文档组。值得注意的是,DocReward在准确率上分别比GPT-4o和GPT-5高出30.6和19.4个百分点,显示出其相对于基线的优越性。在文档生成的外部评估中,DocReward以60.8%的显著更高胜率,相较于GPT-5的37.7%胜率,证明了其在引导生成代理生产更符合人类偏好的文档方面的实用性。
尽管大语言模型(LLM)代理能够规划多步骤任务,但在执行任何行动之前,在规划阶段进行干预通常是防止危害的最安全方式,因为某些风险一旦实施可能导致严重后果。然而,现有的防护措施大多在事后执行,难以扩展,且在计划层面缺乏可控的监督空间。为应对这一挑战,我们指出了当前研究中的三个关键缺口:数据缺口、模型缺口和评估缺口。为填补数据缺口,我们引入了AuraGen,一个可控引擎,它能够(i)合成良性轨迹,(ii)注入难度校准的类别标记风险,以及(iii)通过自动化奖励模型过滤输出,为执行前安全生成大量可靠语料库。针对守护模型缺口,我们提出了基础防护Safiron,它结合了跨规划适配器与紧凑的守护模型。适配器统一了不同输入格式,而Safiron则标记风险案例、分配风险类型并生成理由;通过广泛探索的数据配方进行两阶段训练,Safiron实现了跨环境的稳健迁移。为弥补评估缺口,我们发布了Pre-Exec Bench,一个覆盖多样化工具和分支轨迹的现实基准,它在人类验证的场景中测量检测、细粒度分类、解释及跨规划泛化能力。大量实验表明,所提出的防护措施在Pre-Exec Bench上相较于强基线持续取得优势,而消融实验进一步提炼出可操作的最佳实践,为更安全的代理系统提供了实用模板。
近年来,大型语言模型(LLMs)与智能代理的研究重心已逐渐从展示新颖能力转向复杂推理与应对高难度任务。然而,现有评估主要集中于数学/编程竞赛或通用任务,而现有的多领域学术基准缺乏足够的推理深度,导致该领域缺乏针对高级推理的严格基准。为填补这一空白,我们推出了Acadreason基准,旨在评估LLMs与智能代理在获取和推理学术知识方面的能力。该基准包含50个由专家标注的学术问题,涵盖计算机科学、经济学、法学、数学和哲学五大高推理领域。所有问题均源自近年顶级出版物,并经过严格的标注与质量控制,确保其既具挑战性又可解答。我们对超过10种主流LLMs与智能代理进行了系统评估。结果显示,大多数LLMs得分低于20分,即便是最先进的GPT-5也仅获得16分。虽然智能代理得分较高,但无一超过40分。这揭示了LLMs与智能代理在超智能学术研究任务中的现有能力差距,并凸显了Acadreason基准的挑战性。
通过Lean等可验证语言解决数学问题,已对数学和计算机科学领域产生了深远影响。当前最先进的模型通常依赖于昂贵的在线强化学习(RL)或专家迭代进行训练。然而,这些方法依赖于固定的问题集,导致训练效率低下,并限制了模型处理复杂问题的能力。为克服这些局限,我们提出了GAR:生成对抗强化学习,这是一个全面的RL训练框架,它在一个对抗循环中联合训练问题生成器与求解器。GAR引入了一种隐式的课程学习机制,使任务难度与证明者能力的发展相匹配,从而提升了训练效率,并增强了证明高级定理的能力。实验表明,经过GAR训练后,Goedel-Prover-V2-8B和DeepSeek-Prover-V2-7B在MiniF2F-Test基准测试中的pass@32平均相对提升了4.20%,而DeepSeek-Prover-V2在ProofNet-Test上的pass@32从22.58%提高至25.81%。除了形式化证明,GAR还为可验证环境下问题生成与求解的协同进化确立了一种通用的RL范式。
数学推理是衡量大型语言模型(LLMs)智能水平的核心指标。然而,现有LLMs在鲁棒性和泛化能力上存在明显不足。本文将这些缺陷归因于虚假推理,即模型仅依据表面特征生成答案。为应对这一挑战,我们提出了AdaR框架,旨在实现自适应推理,使模型基于问题解决逻辑来产生答案。AdaR通过变换变量值合成逻辑等价的查询,并利用RLVR(强化学习与验证反馈)在这些数据上训练模型,以抑制虚假逻辑,同时促进自适应逻辑的运用。为提高数据质量,我们从原始查询中提取问题解决逻辑,通过代码执行生成相应答案,并进行合理性检验。实验结果表明,AdaR显著提升了模型的鲁棒性和泛化能力,在数学推理任务上取得实质性进步,同时保持了较高的数据效率。分析显示,数据合成与RLVR协同作用,共同促进了LLMs的自适应推理能力。后续分析进一步揭示了关键因素的影响机制及在指导LLMs中的应用价值。本项目已开源,访问地址为:https://github.com/LaiZhejian/AdaR。
通用会计准则(GAAP)的复杂性以及可扩展商业报告语言(XBRL)申报文件的层级结构,使得财务审计的自动化与验证日益困难。尽管大型语言模型(LLMs)在非结构化文本理解方面展现了强大能力,但其在处理结构化、相互依赖且基于分类标准的财务文档时的推理能力仍很大程度上未被探索。为填补这一空白,我们推出了FinAuditing,这是首个面向财务审计任务评估LLMs的、与分类标准对齐、结构感知的多文档基准。FinAuditing基于符合美国GAAP的XBRL申报文件构建,定义了三个互补的子任务:FinSM用于语义一致性,FinRE用于关系一致性,FinMR用于数值一致性,每个子任务针对结构化审计推理的不同方面。我们进一步提出了一个统一的评估框架,整合了检索、分类和推理指标,覆盖这些子任务。在13个最先进的LLMs上进行的广泛零样本实验表明,当前模型在语义、关系和数学维度上的表现参差不齐,当推理涉及层级多文档结构时,准确率下降高达60-90%。我们的研究揭示了现代LLMs在基于分类标准的财务推理中的系统性局限,并确立了FinAuditing作为开发可信、结构感知且符合监管要求的财务智能系统的基础。该基准数据集可在Hugging Face获取。
尽管大量研究致力于利用视觉-语言模型(VLMs)开发具身推理能力,或将先进的VLMs整合进视觉-语言-动作(VLA)模型以实现端到端的机器人控制,但鲜有研究直接解决上游基于VLM的推理与下游VLA策略学习之间的关键鸿沟。在本研究中,我们迈出了将具身推理与VLA策略学习相融合的第一步,引入了Vlaser——一种具备协同具身推理能力的视觉-语言-动作模型,该模型作为基础视觉-语言模型,旨在为具身智能体整合高层推理与低层控制。依托于高质量的Vlaser-6M数据集,Vlaser在一系列具身推理基准测试中——包括空间推理、具身基础、具身问答及任务规划——均达到了业界领先水平。此外,我们系统性地探讨了不同VLM初始化对监督式VLA微调的影响,为缓解互联网规模预训练数据与具身特定策略学习数据之间的领域偏移提供了新颖见解。基于这些洞见,我们的方法在WidowX基准测试中取得了领先成果,并在Google Robot基准测试中展现了竞争力。
统一多模态模型融合了大型语言模型的推理能力与图像理解及生成能力,展现出高级多模态智能的巨大潜力。然而,当前领域仍缺乏一个严谨的以推理为中心的基准,来系统评估理解与生成之间的对齐关系,以及它们在复杂视觉任务中的泛化潜力。为此,我们推出了GIR-Bench,一个从三个互补角度全面评估统一模型的基准。首先,我们探究理解与生成的一致性(GIR-Bench-UGC),即模型能否在理解和生成任务中一致地运用相同知识。其次,我们考察模型是否能够执行以推理为中心的文本到图像生成,这要求应用逻辑约束和隐含知识来生成忠实于内容的视觉表达(GIR-Bench-T2I)。第三,我们评估模型在处理多步推理编辑任务中的表现(GIR-Bench-Edit)。针对每个子集,我们精心设计了适应各自任务的评估流程,这不仅实现了细粒度且可解释的评估,还有效缓解了当前流行的MLLM-as-a-Judge范式可能带来的偏差。通过对多种统一模型及仅生成系统的广泛消融实验发现:尽管统一模型在处理推理驱动的视觉任务上更为出色,但它们在理解与生成之间仍存在持续的差距。GIR-Bench的数据与代码已公开于https://hkust-longgroup.github.io/GIR-Bench{https://hkust-longgroup.github.io/GIR-Bench}。
近期,文本到视频(T2V)模型在真实世界几何与物理定律的视觉模拟方面展现了强大能力,暗示其作为隐式世界模型的潜力。受此启发,我们探索了利用视频生成先验从给定4D场景中进行视点规划的可行性,因为视频本身伴随着动态场景与自然视点。为此,我们提出了一种两阶段范式,以兼容的方式调整预训练T2V模型用于视点预测。首先,我们通过一个自适应学习分支将4D场景表示注入预训练T2V模型中,其中4D场景是视点无关的,而条件生成的视频则视觉上嵌入了视点。接着,我们将视点提取表述为一个混合条件引导的相机外参去噪过程。具体而言,在预训练T2V模型上进一步引入了一个相机外参扩散分支,以生成的视频和4D场景作为输入。实验结果表明,我们提出的方法优于现有竞争者,消融研究验证了关键技术设计的有效性。在某种程度上,这项工作证明了视频生成模型在现实世界4D交互中的潜力。
扩散大语言模型(dLLMs)因其能够并行解码多个标记,正逐渐成为自回归模型的高效替代方案。然而,通过强化学习(RL)将dLLMs与人类偏好或任务特定奖励对齐具有挑战性,因为其难以处理的似然度阻碍了标准策略梯度方法的直接应用。尽管先前的工作采用了如证据下界(ELBO)等替代方案,但这些单边近似可能会引入显著的策略梯度偏差。为解决这一问题,我们提出了夹逼策略梯度(SPG),它同时利用真实似然度的上界和下界。实验表明,SPG显著优于基于ELBO或一步估计的基线方法。具体而言,在GSM8K、MATH500、Countdown和Sudoku任务中,SPG相较于最先进的RL方法分别提升了3.6%、2.6%、18.4%和27.0%的准确率。
大型视觉语言模型(LVLMs)通过将视觉编码器(VE)与大规模语言模型相结合,已在多种任务中取得了显著成功。然而,LVLMs仍面临诸如物体幻觉(即生成输入图像中不存在物体的描述)等关键挑战。本文认为,视觉编码器内部的不确定视觉标记是导致物体幻觉的关键因素。我们的统计分析发现,具有高认知不确定性的视觉标记与幻觉现象之间存在正相关关系。此外,我们从理论和实证两方面证明,在早期视觉编码器层中,那些在微小对抗扰动下表现出较大表示偏差的视觉标记,往往指示着高认知不确定性。基于这些发现,我们提出了一种简单而有效的策略,仅通过修改视觉编码器来缓解物体幻觉。该方法包括一种利用对抗扰动高效识别不确定视觉标记的代理方法,以及一种在视觉编码器中间层的自注意力过程中屏蔽这些不确定视觉标记的技术,从而抑制它们对视觉编码的影响,进而减轻幻觉现象。大量实验表明,我们的方法显著减少了LVLMs中的物体幻觉,并能与其他现有技术协同工作。
近期,大型语言模型(LLMs)与视觉语言模型(VLMs)在数学推理方面取得了显著进展,但在处理需要视觉辅助的问题时,如绘制辅助线或函数图像以求解问题,仍面临关键瓶颈。大多数LLMs和VLMs仅限于纯文本推理链,而能够生成交错文本与图像的多模态统一模型,则缺乏此类任务所需的精确性和可控性。为此,我们提出了CodePlot-CoT,一种代码驱动的“思维链”范式,用于数学中的“图像思维”。该方法利用VLM生成文本推理及可执行的绘图代码,随后将这些代码渲染成图像作为“视觉思维”,以解决数学问题。为实现这一目标,我们首先构建了Math-VR,这是首个大规模、双语数学视觉推理问题数据集及基准,包含178K样本。其次,为创建高质量训练数据,我们开发了一种先进的图像到代码转换器,专门用于将复杂数学图形解析为代码。最后,利用这些训练数据,我们训练了CodePlot-CoT模型以解决数学问题。实验结果显示,该模型在我们的新基准上较基础模型提升了高达21%,充分验证了我们提出的代码驱动推理范式的有效性。我们的工作为多模态数学推理开辟了新方向,并为社区提供了首个大规模数据集、全面基准及针对此类问题的强大方法。为促进未来研究,我们在https://github.com/HKU-MMLab/Math-VR-CodePlot-CoT公开了数据集、代码及预训练模型。
大型语言模型(LLM)代理已展现出卓越的推理能力。然而,现有的多代理框架往往依赖固定角色或集中控制,限制了在长期推理中的可扩展性和适应性。我们引入了SwarmSys,一个受群体智能启发的分布式多代理推理闭环框架。在SwarmSys中,协调通过三个专门角色——探索者、工作者和验证者——之间的迭代互动自然涌现,这些角色持续循环于探索、利用和验证之中。为实现可扩展且自适应的协作,我们整合了自适应代理与事件档案、基于嵌入的概率匹配以及一种受信息素启发的强化机制,支持动态任务分配与无需全局监督的自组织收敛。在符号推理、研究综合及科学编程任务中,SwarmSys均显著超越基线模型,提升了准确性与推理稳定性。这些发现表明,受群体启发的协调机制为可扩展、鲁棒且自适应的多代理推理提供了一个有前景的范式,暗示协调扩展或可与模型扩展并驾齐驱,共同推动LLM智能的发展。
我们提出了稳定视频无限生成模型(Stable Video Infinity, SVI),该模型能够生成具有高时间一致性、合理场景转换及可控流媒体叙事线索的无限长度视频。尽管现有的长视频生成方法尝试通过手工设计的防漂移策略(如改进的噪声调度器、帧锚定)来缓解累积误差,但它们仍局限于单一提示的外推,生成场景单一且动作重复的视频。我们发现,根本挑战不仅在于误差累积,更在于训练假设(接触干净数据)与测试时自回归现实(基于自生成、易出错输出进行条件化)之间的关键差异。为弥合这一假设差距,SVI引入了误差回收微调(Error-Recycling Fine-Tuning),这是一种新型高效训练方法,它将扩散变换器(DiT)自生成的误差回收为监督提示,从而激励DiT主动识别并纠正自身错误。这一目标通过闭环回收、自回归学习误差注入反馈实现,具体包括:(i) 注入DiT历史误差干预干净输入,模拟流匹配中的误差累积轨迹;(ii) 通过一步双向积分高效近似预测,并利用残差计算误差;(iii) 在离散时间步上动态将误差存入回放记忆库,供新输入时重采样。SVI能够在不增加推理成本的情况下,将视频从秒级扩展至无限时长,同时保持与多种条件(如音频、骨架和文本流)的兼容性。我们在三个基准测试上评估了SVI,涵盖一致性、创造性和条件化设置,全面验证了其多功能性及业界领先地位。
机器人学习的可扩展性从根本上受到现实世界数据收集的高成本和大量人力投入的限制。尽管模拟数据提供了一种可扩展的替代方案,但由于视觉外观、物理属性及物体交互方面的显著差异,其往往难以泛化到现实世界。为解决这一问题,我们提出了RoboSimGS,一种创新的Real2Sim2Real框架,该框架将多视角现实世界图像转化为可扩展、高保真且支持物理交互的模拟环境,专为机器人操作设计。我们的方法采用混合表示重建场景:3D高斯溅射(3DGS)捕捉环境的逼真外观,而交互对象的网格基元则确保了精确的物理模拟。尤为关键的是,我们率先利用多模态大语言模型(MLLM)来自动生成物理上合理、可关节化的资产。MLLM通过分析视觉数据,不仅推断出物体的物理属性(如密度、刚度),还能识别复杂的运动学结构(如铰链、滑轨)。我们证明,完全基于RoboSimGS生成数据训练的策略,在多种现实世界操作任务中实现了成功的零样本模拟到现实迁移。此外,RoboSimGS的数据显著提升了当前最先进方法的性能与泛化能力。我们的结果验证了RoboSimGS作为弥合模拟与现实差距的强大且可扩展解决方案的有效性。
近期基于Transformer的三维人体网格恢复(HMR)模型虽取得了显著性能,但常因深层Transformer架构及冗余token导致高计算成本与复杂性。本文提出了两种专为HMR设计的合并策略:误差约束层合并(ECLM)与掩码引导Token合并(Mask-ToMe)。ECLM选择性合并对平均关节位置误差(MPJPE)影响最小的Transformer层,而Mask-ToMe则专注于合并对最终预测贡献甚微的背景token。为进一步应对合并可能带来的性能下降,我们引入了一种基于扩散的解码器,该解码器融合了时序上下文,并利用从大规模运动捕捉数据集中学习到的姿态先验。跨多个基准的实验表明,我们的方法在略微提升基线性能的同时,实现了最高2.3倍的加速。
尽管大型语言模型(LLMs)在算法代码生成方面表现出色,但在前端开发领域却面临挑战,因为其正确性需通过渲染像素和交互效果来评判。我们提出了ReLook,一个基于视觉的强化学习框架,赋予智能体能力,通过调用多模态大语言模型(MLLM)作为工具,实现一个稳健的生成-诊断-优化闭环。在训练过程中,智能体利用MLLM作为视觉评判者——通过截图给代码打分——以及提供可操作的、基于视觉的反馈来源;对于无效渲染实施严格的零奖励规则,确保渲染可行性并防止奖励滥用。为避免行为崩溃,我们引入了强制优化策略,即严格的接受准则,仅采纳改进的修订,确保轨迹单调优化。在推理阶段,我们解耦评判机制,运行轻量级、无评判者的自我编辑循环,保持与基础解码相当的延迟,同时保留大部分性能提升。在三个广泛使用的基准测试中,ReLook在基于视觉的前端代码生成任务上持续超越强基线,凸显了智能体感知、视觉奖励及训练推理解耦的优势。
语言模型(LM)微调的一种范式依赖于创建大规模训练数据集,其假设是数据的高数量与多样性将使模型在训练后能够泛化到新任务。然而,实践中,收集大量数据集效率低下,且训练成本高昂;更糟的是,无法保证最终模型能处理复杂场景或实现更好的泛化。此外,现有技术很少评估训练样本是否提供了新信息,或与模型已掌握的知识重复,导致不必要的开销。本研究中,我们探索了一种新的测试时自我改进方法,旨在动态创建更有效且泛化能力更强的智能语言模型。所提出的算法可概括为三个步骤:(i) 首先识别模型难以处理的样本(自我认知),(ii) 然后从检测到的不确定样本中生成类似示例(自我数据增强),(iii) 在测试时微调中使用这些新生成的样本(自我改进)。我们研究了该方法的两种变体:测试时自我改进(TT-SI),即同一模型从其自身不确定案例中生成额外训练样本并从中学习;以及测试时蒸馏(TT-D),即由更强模型为不确定案例生成类似样本,使学生模型能够通过蒸馏监督进行适应。跨不同智能体基准的实证评估表明,TT-SI在所有基准上平均提升了+5.48%的绝对准确率,且仅使用了68倍少的训练样本,超越了其他标准学习方法。我们的发现凸显了TT-SI的潜力,展示了测试时自我改进算法作为一种新范式,在构建更具自我进化能力的智能体方面的广阔前景。
语言模型在通过常规的监督微调(SFT)对与训练集(如MATH)相似的数据进行训练时,往往表现出极少甚至没有改进(即“饱和”)。我们引入了一种新的微调策略——STAT,利用更强的大型语言模型(LLM)的元认知能力作为教师来训练学生模型。教师利用任务数据集创建完成任务所需的技能列表,并为每个数据点标注其所需技能(Didolkar等,2024)。通过监控学生的回答,教师为学生创建一个缺失技能档案,追踪他们在回答中未能应用每项技能的频率。我们运用这一理念,通过以下两种方式之一构建修改后的训练集。在STAT-Sel中,教师使用现有的训练示例集,但根据缺失技能档案自适应地重新加权。在STAT-Syn中,教师合成涉及缺失技能的额外示例。在Llama和Qwen模型上的大量实验中,我们的方法在MATH上实现了高达7.5%的提升,而SFT仅带来有限的增益。此外,STAT在分布外基准测试(如AIME24/25、AMC23等)上的表现平均提升了4.6%。关键的是,我们发现STAT与通过GRPO进行的强化学习(RL)具有互补性(Shao等,2024):在模型通过STAT解决技能差距后,GRPO继续带来进一步的提升。我们得出结论,针对技能的适应性训练应能广泛改进当前的训练流程。我们的代码可在以下网址获取:https://github.com/princeton-pli/STAT。
我们应如何评估语言模型防御机制的鲁棒性?当前针对越狱攻击和提示注入的防御措施(分别旨在防止攻击者获取有害知识或远程触发恶意行为),通常要么基于一组静态的有害攻击字符串进行测试,要么针对未考虑防御机制设计的计算能力较弱的优化方法进行评估。我们认为,这种评估方式存在缺陷。 相反,我们应当评估防御机制在面对适应性攻击者时的表现,这些攻击者会明确调整其攻击策略以对抗防御设计,并投入大量资源优化其攻击目标。通过系统性地调整和扩展通用优化技术——梯度下降、强化学习、随机搜索以及人类引导的探索——我们成功绕过了12种基于多种技术的最新防御机制,对大多数防御的攻击成功率超过90%;尤为关键的是,这些防御机制最初报告的攻击成功率近乎为零。我们坚信,未来的防御研究工作必须考虑更强大的攻击,如我们所描述的这些,才能做出可靠且令人信服的鲁棒性声明。
对比人类与模型的表现,为理解嵌入模型的优势与局限提供了宝贵的视角,揭示了它们在捕捉语义和细微差别上的成功与失败之处。然而,此类对比鲜少进行,因为人类在嵌入任务上的表现难以量化。为填补这一空白,我们推出了HUME:文本嵌入的人类评估框架。尽管如MTEB等框架提供了广泛的模型评估,它们却缺乏对人类表现的可靠估计,限制了模型得分的可解释性。我们测量了人类在16个MTEB数据集上的表现,这些数据集涵盖了重排序、分类、聚类及跨语言多样性的高资源与低资源语言的语义文本相似性任务。人类平均表现达到77.6%,而最佳嵌入模型为80.1%,但差异显著:模型在某些数据集上接近天花板表现,而在其他数据集上则表现挣扎,暗示了数据集存在的问题并揭示了低资源语言中的不足。我们提供了人类表现的基线、任务难度模式的洞见,以及一个可扩展的评估框架,这不仅使模型评估更具意义,还指导了模型与基准测试的开发。我们的代码、数据集及排行榜公开于https://github.com/embeddings-benchmark/mteb。
大型推理模型(LRMs)通过生成详细的思维链(CoT)解释,在复杂推理任务中取得了令人瞩目的表现。然而,这些响应往往过于冗长,包含冗余的推理步骤,不仅增加了推理成本,还降低了实用性。在保持准确性的同时控制生成推理的长度,仍是一个待解决的挑战。通过系统的实证分析,我们发现不同LRMs在不同推理阶段的模型熵与响应长度之间存在一致的正相关关系:思考阶段表现出较高的熵,反映了较长响应的探索性行为,而最终答案阶段则显示出较低的熵,表明解决方案更具确定性。这一观察表明,不同推理阶段的熵可以作为平衡简洁性与性能的控制手段。基于这一洞见,本文引入了阶段熵感知奖励(PEAR),一种将阶段依赖性熵纳入奖励设计的机制。PEAR不再统一对待所有标记,而是在思考阶段惩罚过高的熵,在最终答案阶段允许适度的探索,从而鼓励模型生成既简洁又保留足够灵活性以正确解决任务的推理轨迹。这使得无需依赖明确的长度目标或严格的截断规则,即可实现响应长度的自适应控制。在四个基准测试上的广泛实验表明,PEAR在保持模型规模间竞争力的准确性的同时,持续减少了响应长度。此外,PEAR在训练分布之外也展现出强大的分布外(OOD)鲁棒性。我们的代码已公开于:https://github.com/iNLP-Lab/PEAR。
当AI助手记住Sarah是一位身兼两份工作的单亲母亲时,它对其压力的理解是否会与面对一位富裕高管时有所不同?随着个性化AI系统日益融入长期用户记忆,理解这种记忆如何塑造情感推理变得至关重要。我们通过评估15个大型语言模型(LLMs)在人类验证的情感智力测试上的表现,探究了用户记忆如何影响LLMs的情感智能。研究发现,相同情境搭配不同用户档案时,会产生系统性的情感解读差异。在已验证的独立于用户的情感场景及多样化的用户档案中,多个高性能LLMs显现出系统性偏见,即优势群体档案获得了更准确的情感解读。此外,LLMs在情感理解与支持性建议任务中,跨人口统计因素表现出显著差异,这表明个性化机制可能将社会等级嵌入模型的情感推理之中。这些结果凸显了记忆增强型AI面临的一个关键挑战:旨在实现个性化的系统可能无意中强化了社会不平等。
视频扩散模型中的直观物理理解在构建通用且物理可信的世界模拟器中起着至关重要的作用,然而,由于在生成过程中难以将物理正确性与视觉表现分离,准确评估这种能力仍是一项挑战。为此,我们提出了LikePhys,一种无需训练的方法,通过在精心策划的有效-无效视频对数据集上,利用去噪目标作为基于ELBO的似然替代,来评估视频扩散模型中的直观物理理解能力。通过在涵盖四个物理领域的十二种场景构建的基准测试中验证,我们的评估指标——可信度偏好误差(PPE)显示出与人类偏好的高度一致性,超越了现有最先进的评估基线。随后,我们系统地对当前视频扩散模型的直观物理理解能力进行了基准测试。我们的研究进一步分析了模型设计和推理设置如何影响直观物理理解,并揭示了跨物理定律的领域特定能力差异。实证结果表明,尽管现有模型在处理复杂和混沌动力学方面存在困难,但随着模型容量和推理设置的扩展,物理理解能力呈现出明显的提升趋势。
生成真实且可控的3D人体化身是一项长期存在的挑战,尤其是在涵盖广泛属性范围时,如种族、年龄、服装风格及细致的体型特征。为训练生成模型而采集和标注大规模人体数据集成本高昂,且在规模和多样性上受限。本文探讨的核心问题是:能否通过提炼现有基础模型,生成理论上无限、标注丰富的3D人体数据?我们提出了InfiniHuman框架,该框架协同提炼这些模型,以最低成本生成标注丰富的人体数据,并具备理论上无限的扩展性。我们开发了InfiniHumanData,一个全自动流程,利用视觉-语言和图像生成模型创建大规模多模态数据集。用户研究表明,我们自动生成的身份与扫描渲染结果难以区分。InfiniHumanData包含111,000个身份,覆盖前所未有的多样性。每个身份均附有多粒度文本描述、多视角RGB图像、详细服装图像及SMPL体型参数。基于此数据集,我们提出了InfiniHumanGen,一个基于扩散的生成流程,可根据文本、体型和服装资源进行条件生成。InfiniHumanGen实现了快速、真实且精确可控的化身生成。大量实验证明,在视觉质量、生成速度及可控性方面,该方法显著优于现有最先进技术。我们的方法通过实用且经济的解决方案,实现了高质量、细粒度控制的化身生成,规模理论上无限。我们将公开自动数据生成流程、全面的InfiniHumanData数据集及InfiniHumanGen模型,访问地址为https://yuxuan-xue.com/infini-human。
生成模型构成了现代机器学习的核心支柱,支撑着文本、视觉及多模态应用中的尖端系统。尽管最大似然估计传统上作为主导的训练范式,但近期研究揭示了其局限性,特别是在泛化能力和对灾难性遗忘的易感性方面,相较于强化学习技术(如策略梯度方法)而言。然而,这些方法依赖于显式的奖励信号,而实践中往往难以获取,这留下了一个根本性问题:当仅能访问高质量数据集时,如何对齐生成模型。在本研究中,我们通过双层优化框架应对这一挑战,其中奖励函数被视为外层优化问题的变量,而策略梯度目标则定义内层。随后,我们在一个可处理的环境下对这一优化问题进行了理论分析,并提取了洞见,正如我们所展示的,这些洞见可推广至表格分类和基于模型的强化学习等应用。我们已在https://github.com/abenechehab/nll_to_po 发布了代码。
预训练视觉基础模型(VFMs)通过丰富的视觉表征推动了机器人学习的发展,然而单个VFM通常在特定领域表现出色,限制了其在跨任务中的通用性。将多个VFM蒸馏为统一的策略表示可以缓解这一局限,但往往导致任务特定的特征选择缺乏灵活性,并且需要昂贵的全面重新训练以融入机器人领域知识。我们提出了VER,一种用于机器人学习的视觉专家Transformer。在预训练阶段,VER将多个VFM蒸馏为一个视觉专家库。随后,它仅微调一个轻量级路由网络(参数少于0.4%),以从预训练库中动态选择与任务相关的专家,用于下游机器人任务。我们进一步引入了基于课程Top-K退火的逐块专家路由,以提高动态专家选择的灵活性和精确度。此外,VER支持参数高效的微调,以实现可扩展的专家利用和自适应的机器人领域知识整合。在17项多样化的机器人任务和多种策略头中,VER实现了最先进的性能。我们发现,VER减少了任务无关区域(如背景)中的大范数异常值,并聚焦于任务关键区域。可视化效果和代码可在https://yixiaowang7.github.io/ver_page/查看。
高质量预训练数据是大型语言模型(LLMs)的“化石燃料”,然而对于前沿模型而言,其储备正日益枯竭。本文提出RePro,一种新颖的网络数据回收方法,通过强化学习训练一个相对较小的语言模型,以生成既有效又忠实于原意的预训练数据重述。具体而言,我们设计了一项质量奖励和三项忠实度奖励,优化语言模型重述器,将原始数据转化为高质量的重述,同时保持其核心语义与结构。实验中,我们训练了一个40亿参数的重述器,回收了来自DCLM-RefinedWeb的720亿个标记。在4亿和14亿参数模型上的预训练结果显示,RePro在22项下游任务中,相较于仅使用原始数据的基线,实现了4.7%至14.0%的相对准确率提升。RePro还超越了当前最先进的网络数据回收方法ReWire——该方法利用700亿参数的重述器进行提示生成——以及数据量扩大四倍的原始数据基线。不同回收数据量的实验表明,RePro将原始数据效率提高了2至3倍。个体与分布分析验证,与基于提示的方法相比,RePro保留了更多关键信息,并更忠实地反映了原始数据的特征。综合这些结果,RePro为高效且可控地利用LLM预训练的“化石燃料”提供了一条有效路径。我们在https://github.com/cxcscmu/RePro开源了代码、重述器及回收数据。
有机反应机制是指反应物通过一系列基本步骤形成中间体和产物的过程,对于理解化学反应活性及设计新分子和反应至关重要。尽管大型语言模型(LLMs)在诸如合成设计等化学任务中展现出潜力,但其是否真正具备化学推理能力——即生成有效中间体、保持化学一致性以及遵循逻辑连贯的多步路径——尚不明确。为此,我们引入了oMeBench,这是首个大规模、专家策划的有机化学机制推理基准,包含超过10,000个带有中间体、类型标签和难度评级的注释机制步骤。此外,为了更精确评估LLM能力并实现细粒度评分,我们提出了oMeS,一个结合步骤逻辑与化学相似性的动态评估框架。我们分析了当前顶尖LLMs的表现,结果显示,尽管现有模型展现出一定的化学直觉,但在正确且一致的多步推理上仍存在困难。值得注意的是,我们发现,采用提示策略并在我们提出的数据集上微调专业模型,其性能较领先的闭源模型提升了50%。我们期待oMeBench能为推动AI系统实现真正的化学推理奠定坚实基础。
尽管文本到图像(T2I)模型能够合成高质量图像,但在面对新颖或分布外(OOD)实体时,由于固有的知识截止点,其性能显著下降。我们引入了“世界到图像”这一创新框架,通过赋予T2I生成以代理驱动的世界知识,弥合了这一差距。我们设计了一个代理,动态搜索网络以检索基础模型未知概念的图像。随后,利用这些信息进行多模态提示优化,引导强大的生成骨干网络实现精确合成。尤为关键的是,我们的评估超越了传统指标,采用LLMGrader和ImageReward等现代评估方法,以衡量真实的语义保真度。实验表明,“世界到图像”在语义对齐和视觉美感上均大幅超越现有最先进方法,在我们精心策划的NICE基准测试中,准确率相对于提示提升了+8.1%。该框架在不到三次迭代中高效达成这些成果,为T2I系统更好地反映瞬息万变的现实世界铺平了道路。我们的演示代码可在此处获取:https://github.com/mhson-kyle/World-To-Image。
诸如ChatGPT和Alexa+等现代对话系统,依赖于预先定义的策略来指定元数据、响应风格及工具使用规则。随着这些基于大语言模型(LLM)的系统扩展以支持多样化的商业和用户查询,这些通常以上下文提示形式实现的策略正变得愈发复杂冗长,导致忠实遵循变得困难,并带来高昂的固定计算成本。随着多模态智能体的兴起,规范视觉和多模态行为的策略至关重要,但相关研究仍显不足。先前的提示压缩工作主要集中于缩短任务模板和示例,而现有的策略对齐研究则仅聚焦于基于文本的安全规则。我们提出了多模态策略内化(MPI)这一新任务,旨在将推理密集型的多模态策略内化至模型参数中,从而在不包含策略的情况下实现更强的策略遵循能力。MPI带来了独特的数据与算法挑战。我们构建了两个数据集,涵盖合成与真实世界的决策制定及工具使用任务,并提出了TriMPI,一个三阶段训练框架。TriMPI首先通过持续预训练注入策略知识,随后进行监督微调,最后应用PolicyRollout——一种GRPO风格的强化学习扩展,它通过策略感知的响应增强探索,实现有根据的探索。TriMPI在端到端准确性、泛化能力及抗遗忘性方面取得了显著提升。作为多模态策略内化的首项工作,我们提供了数据集、训练方案及全面评估,以促进未来研究。项目页面:https://mikewangwzhl.github.io/TriMPI。
通用大型语言模型(LLMs)在推理方面表现出色,但专为翻译优化的模型在处理推理任务时却显不足。为解决这一问题,我们提出了一种新颖的翻译增强方案,该方案始于指令模型,并仅在平行数据上实施层次选择性调优。遵循这一流程,我们推出了Qwen3-XPlus模型,该模型在高资源和低资源语言的翻译性能上均展现出显著提升,在如斯瓦希里语等低资源语言中实现了超过15的spBLEU和40以上的xComET得分。值得注意的是,仅使用小型平行数据集进行训练,Qwen3-XPlus在7项多语言任务上平均提升了1分以上,同时在15个主流推理数据集上保持了与Qwen3指令模型相当的水平。这项工作为多语言增强提供了一条前景广阔的路径,显著降低了复杂度,并提升了更广泛语言的可及性。代码与模型均已公开。
深度研究的核心在于知识挖掘,即从海量非结构化文本中提取结构化信息以响应用户指令。大型语言模型(LLMs)在解读此类指令方面表现出色,但大规模部署成本高昂;而传统的分类器和提取器管道虽保持高效,却脆弱且难以泛化至新任务。我们引入Falconer,一个协作框架,它将LLMs的代理推理与轻量级代理模型相结合,实现可扩展的知识挖掘。在Falconer中,LLMs充当规划者,将用户指令分解为可执行的管道,并作为标注者,生成监督数据以训练小型代理。该框架将分类与提取统一为两个原子操作——获取标签和获取跨度,使得单一指令跟随模型能够替代多个特定任务组件。为评估Falconer孵化的代理模型与人类及大型模型提供的标注之间的一致性,我们构建了涵盖规划和端到端执行的新基准。实验表明,Falconer在指令跟随准确性上紧追最先进的LLMs,同时将推理成本降低高达90%,并加速大规模知识挖掘超过20倍,为深度研究提供了高效且可扩展的基础。
创意生成是指合成新颖、出人意料且具有价值的样本,这些样本虽反映用户意图,却无法预先构想。此任务旨在拓展人类想象力,探索存在于熟悉领域之间未知空间中的视觉概念。尽管文本到图像的扩散模型在渲染与用户提示高度匹配的逼真场景方面表现出色,但在生成真正新颖内容方面仍面临挑战。现有提升生成创造力的方法要么依赖于图像特征的插值,这限制了探索范围于预定义类别之内;要么需要耗时流程,如嵌入优化或模型微调。我们提出了一种无需训练、在推理阶段即可应用的“视觉语言模型引导的自适应负提示”方法,旨在促进创意图像生成的同时,确保生成对象的有效性。该方法利用视觉语言模型(VLM)分析生成过程中的中间输出,并自适应地引导其远离常规视觉概念,从而激发新颖且令人惊讶的输出。我们通过新颖性和有效性两个维度评估创造力,采用CLIP嵌入空间中的统计指标。大量实验表明,该方法在创意新颖性上持续提升,且计算开销微乎其微。此外,与现有主要生成单一对象的方法不同,我们的方法扩展至复杂场景,如生成一组连贯的创意对象,并在复杂的组合提示中保持创意。该方法无缝集成于现有扩散流程中,为超越文本描述限制的创意输出提供了一条实用路径。
上下文学习使大型模型能够通过少量示例适应新任务,但在分子设计领域表现有限。现有数据库如ChEMBL包含数百万生物测定中的分子属性,然而每种属性的标注数据仍显匮乏。为应对这一局限,我们提出了基于示例条件的扩散模型(DemoDiff),其通过少量分子-评分示例而非文本描述来定义任务上下文。这些示例引导去噪Transformer生成与目标属性相符的分子。为实现可扩展的预训练,我们开发了一种新的分子标记器,采用节点对编码在基元层面表示分子,所需节点数减少至原来的5.5分之一。我们整合了涵盖药物与材料的数百万上下文任务数据集,并在此上预训练了一个拥有7亿参数的模型。在六大类别的33项设计任务中,DemoDiff与规模大100至1000倍的语言模型表现相当或更优,平均排名达到3.63,而领域特定方法的平均排名在5.25至10.20之间。这些成果确立了DemoDiff作为分子设计基础模型的地位。我们的代码已发布于https://github.com/liugangcode/DemoDiff。
近年来,尽管诸如QwenVL、InternVL、GPT-4o、Gemini和Claude Sonnet等基于云的多模态大语言模型(MLLMs)凭借高达数千亿参数的庞大规模展现了卓越性能,但它们远远超出了手机等边缘设备在内存、功耗及计算能力上的限制。本文介绍了AndesVL,一套基于Qwen3大语言模型及多种视觉编码器、参数规模从0.6B到4B不等的移动端MLLM系列。我们全面概述了AndesVL的模型架构、训练流程及训练数据,该系列在广泛的开放基准测试中,包括富文本图像理解、推理与数学、多图像理解、通用视觉问答(VQA)、幻觉缓解、多语言理解以及图形用户界面(GUI)相关任务等领域,与同规模的最先进模型相比,均达到了顶尖水平。此外,我们还引入了一种1+N低秩适配(LoRA)策略。
大型视觉语言模型(LVLMs)的典型后训练范式包括监督微调(SFT)和基于可验证奖励的强化学习(RLVR)。SFT借助外部指导注入新知识,而RLVR则利用内部强化提升推理能力和整体性能。然而,我们的分析表明,SFT往往导致次优表现,而RLVR在处理超出模型内部知识库的任务时存在困难。为应对这些局限,我们提出了ViSurf(视觉监督与强化微调),一种统一的后训练范式,将SFT和RLVR的优势整合于单一阶段。我们通过分析SFT和RLVR目标的推导,确立了ViSurf目标,为这两种范式提供了统一视角。ViSurf的核心在于将真实标签注入RLVR的探索过程中,从而同时提供外部监督和内部强化。此外,我们引入了三种新颖的奖励控制策略,以稳定并优化训练过程。在多个多样化基准上的广泛实验验证了ViSurf的有效性,其表现优于单独的SFT、RLVR以及两阶段的SFT→RLVR。深入分析进一步支持了这些发现,证实了ViSurf的推导与设计原则。
指令引导的视频编辑已成为一个快速发展的研究方向,它不仅为直观的内容转换提供了新机遇,同时也对系统性评估提出了重大挑战。现有的视频编辑基准测试无法充分支持指令引导视频编辑的评估,且存在源数据多样性不足、任务覆盖范围狭窄以及评估指标不完整等问题。为解决上述局限,我们推出了IVEBench,这是一个专为指令引导视频编辑评估设计的现代基准测试套件。IVEBench包含一个由600个高质量源视频组成的多样化数据库,涵盖七个语义维度,视频长度从32帧到1,024帧不等。此外,它还包含了8大类编辑任务,细分为35个子类别,其提示词通过大型语言模型生成并经过专家评审优化。尤为关键的是,IVEBench建立了一个三维评估协议,涵盖视频质量、指令遵循度和视频保真度,整合了传统指标与基于多模态大型语言模型的评估方法。大量实验验证了IVEBench在基准测试最新指令引导视频编辑方法中的有效性,展示了其提供全面且与人类评价一致评估结果的能力。
地面激光扫描(TLS)点云的精确语义分割受限于昂贵的手动标注成本。我们提出了一种半自动化、不确定性感知的流程,该流程集成了球面投影、特征增强、集成学习和定向标注,以减少标注工作量,同时保持高精度。我们的方法将三维点投影到二维球面网格上,通过多源特征丰富像素信息,并训练一组分割网络以生成伪标签和不确定性图,后者用于指导模糊区域的标注。二维输出被反投影回三维空间,生成密集标注的点云,并辅以三层可视化套件(二维特征图、三维着色点云和紧凑虚拟球体)以实现快速分类和审阅指导。利用这一流程,我们构建了Mangrove3D,一个针对红树林的语义分割TLS数据集。我们进一步评估了数据效率和特征重要性,以解决两个关键问题:(1)需要多少标注数据,(2)哪些特征最为重要。结果表明,性能在约12次标注扫描后趋于饱和,几何特征贡献最大,紧凑的九通道堆叠几乎捕捉了所有判别力,平均交并比(mIoU)稳定在约0.76。最后,通过在ForestSemantic和Semantic3D上的跨数据集测试,我们验证了特征增强策略的泛化能力。 我们的贡献包括:(i)一个稳健的、不确定性感知的TLS标注流程及可视化工具;(ii)Mangrove3D数据集;以及(iii)关于数据效率和特征重要性的实证指导,从而为生态监测及其他领域实现可扩展、高质量的TLS点云分割提供了可能。数据集和处理脚本已公开于https://fz-rit.github.io/through-the-lidars-eye/。
在模型构建方面的改进,包括加强的安全防护措施,使得大型语言模型(LLMs)逐渐能够通过标准的安全检测。然而,LLMs在对话中有时仍会不经意地表现出有害行为,如表达种族主义观点。为了系统地分析这一问题,我们引入了CoBia,一套轻量级的对抗攻击工具,使我们能够细化LLMs在对话中偏离规范或伦理行为的条件范围。CoBia构建了一个对话场景,其中模型对某一社会群体发表了带有偏见的言论。随后,我们评估模型是否能够从这一人为制造的偏见声明中恢复,并拒绝带有偏见的后续问题。我们针对11个开源及专有的LLMs,评估了其输出在六个与个人安全及公平待遇相关的社会人口类别(即性别、种族、宗教、国籍、性取向及其他)上的表现。我们的评估基于已建立的LLM偏见指标,并将结果与人类判断进行对比,以界定LLMs的可靠性与一致性。结果表明,精心构建的对话能可靠地揭示偏见放大现象,且LLMs在对话中往往无法拒绝带有偏见的后续问题。这种压力测试凸显了通过互动可以揭示的深层次偏见。代码及相关资源可在https://github.com/nafisenik/CoBia获取。
大型推理模型(LRMs)在复杂推理任务中表现出色,但传统上是在静态的“冻结世界”环境中进行评估的:模型响应被假定为瞬时完成,且请求的上下文在响应期间被认为是不变的。尽管这一假设在短期任务中普遍成立,但在现代推理任务(如辅助编程)中,“冻结世界”假设便不再适用,因为模型可能需要数小时来思考问题,且从模型开始思考到最终输出期间,代码可能发生显著变化。在本研究中,我们挑战了冻结世界假设,并在两种现实的动态场景下评估了LRM的鲁棒性:中断测试,即在有限预算下检验模型部分输出的质量;动态上下文测试,即检验模型对实时变化的适应能力。在需要长篇推理的数学和编程基准测试中,静态评估一致性地高估了鲁棒性:即便是在静态设置下达到高准确率的最先进LRMs,在遭遇中断或面对变化上下文时也可能不可预测地失败,当更新在推理过程后期引入时,性能下降幅度可达60%。我们的分析进一步揭示了几种新的失败模式,包括推理泄露,即模型在中断时将推理过程融入最终答案;恐慌,即在时间压力下模型完全放弃推理并返回错误答案;以及自我怀疑,即在整合更新信息时性能下降。
本文首次开展大规模研究,探讨由大型语言模型(LLMs)生成的JavaScript代码是否能够揭示其来源模型,从而实现可靠的作品归属识别与模型指纹提取。随着AI生成代码的迅速崛起,归属识别在检测漏洞、标记恶意内容及确保责任追究方面发挥着关键作用。尽管AI与人类检测通常将AI视为单一类别,但我们发现,即便在同一家族或参数规模下的模型中,各个LLM也留下了独特的风格特征。为此,我们引入了LLM-NodeJS数据集,包含来自20个大型语言模型的50,000个Node.js后端程序,每个程序有四种变体,共生成250,000个独特的JavaScript样本,并提供了两种额外表示形式(JSIR和AST),以支持多样化的研究应用。利用此数据集,我们对比了传统机器学习分类器与微调后的Transformer编码器,并推出了CodeT5-JSA,一种基于770M参数CodeT5模型定制的架构,移除了其解码器并修改了分类头。该架构在五类归属识别任务中达到95.8%的准确率,十类为94.6%,二十类为88.5%,超越了BERT、CodeBERT和Longformer等其他测试模型。我们证明,分类器能够捕捉程序数据流和结构中更深层次的风格规律,而非依赖表面特征。因此,即便在代码混淆、注释删除及深度转换后,归属识别依然有效。为支持开放科学与可重复性研究,我们已在GitHub上发布LLM-NodeJS数据集、Google Colab训练脚本及所有相关材料:https://github.com/LLM-NodeJS-dataset。
全切片图像的诊断是一个互动、多阶段的过程,涉及放大倍率的调整和视野间的移动。尽管近期的病理学基础模型表现强劲,但实际应用中仍缺乏能够决定下一步检查哪个区域、调整放大倍率并提供可解释诊断的智能代理系统。阻碍在于数据:专家观察行为是隐性的、基于经验的,并未记录于教科书或网络,因此在大规模语言模型训练中缺失了可扩展且与临床对齐的监督。我们引入了AI会话记录器,它与标准WSI查看器协同工作,无干扰地记录常规导航,并将查看日志转化为标准化的行为指令(在特定放大倍率下检查或窥视)及边界框。通过轻量级的人机交互审查,将AI草拟的推理转化为Pathology-CoT数据集,这是一种成对的“看哪里”和“为何重要”的监督形式,其标注时间大约降低了六倍。利用这些行为数据,我们构建了Pathologist-o3,一个两阶段代理,首先提出感兴趣区域,随后进行行为引导的推理。在胃肠道淋巴结转移检测任务中,它达到了84.5%的精确率、100.0%的召回率和75.4%的准确率,超越了当前最先进的OpenAI o3模型,并在不同骨干网络上展现出良好的泛化能力。据我们所知,这是病理学领域首批基于行为的智能代理系统之一。通过将日常查看日志转化为可扩展、专家验证的监督,我们的框架使智能病理学变得可行,并为构建与人类对齐、可升级的临床AI开辟了道路。
大型语言模型(LLMs)能够准确回答“爱因斯坦何时出生?”这样的问题,但在撰写关于爱因斯坦生平的文本时却无法提供相同的日期,这揭示了模型在处理不同复杂度任务时访问事实知识的基本不一致性。尽管模型在事实问答基准测试中展现出令人印象深刻的准确性,但简单查询与复杂查询之间的可靠性差距仍未被充分理解,这削弱了其可信度。在本研究中,我们引入了短长形式对齐的事实问答评估框架(SLAQ),该框架通过对比LLMs对同一事实问题在(a)孤立提问(短形式)与(b)融入复杂查询(长形式)下的回答,进行受控评估。通过对16个LLMs在600个查询上的分析,我们发现模型对相应短长查询的回答存在系统性不对齐现象。进一步,我们揭示了位置依赖的准确性损失及动量效应,即连续正确或错误的回答会形成自我强化的模式。通过机制分析,我们发现对齐的事实会激活模型内部的重叠区域,且基于机制相似性的指标能以高达78%的准确率预测短长回答的对齐情况。我们的工作确立了查询复杂度上的事实一致性作为LLMs可信度的重要方面,并对当前评估实践提出了挑战,这些实践隐含地假设模型在简单事实查询上的良好表现意味着其在更复杂的知识寻求任务中同样可靠。
视频插帧技术能够在两幅图像帧之间创建流畅自然的过渡,使其成为视频编辑和长视频合成不可或缺的工具。现有研究在该领域尚无法生成大规模、复杂或精细的运动。特别是,它们难以适应用户意图的多样性,通常缺乏对中间帧细节的精细控制,导致与创意构思不符。为填补这些空白,我们提出了MultiCOIN,一个支持多模态控制的视频插帧框架,包括深度过渡与分层、运动轨迹、文本提示以及用于运动定位的目标区域,同时在灵活性、易用性和精细视频插值的精确度之间实现了平衡。为此,我们采用扩散变换器(DiT)架构作为视频生成模型,因其在生成高质量长视频方面已展现出卓越能力。为确保DiT与我们的多模态控制兼容,我们将所有运动控制映射为一种通用的、用户友好的基于点的稀疏表示,作为视频/噪声输入。此外,考虑到不同控制方式在粒度和影响力上的多样性,我们将内容控制与运动控制分离为两个分支,在引导去噪过程前分别编码所需特征,从而形成两个生成器:一个负责运动,另一个负责内容。最后,我们提出了一种分阶段训练策略,确保模型能够平稳学习多模态控制。大量定性与定量实验表明,多模态控制能够实现更加动态、可定制且上下文准确的视觉叙事。