每日精选AI研究论文及翻译
文本到SQL(Text-to-SQL)旨在将自然语言查询转换为SQL语句,这一技术极具实用性,因为它使得任何人都能轻松地从数据库中检索所需信息。近期,众多现有方法借助大型语言模型(LLMs)来解决这一问题,充分利用其在理解用户查询及生成相应SQL代码方面的强大能力。然而,LLMs中的参数化知识可能不足以覆盖所有多样且领域特定的查询,这些查询往往需要基于多种数据库模式进行落地,这导致生成的SQL语句时常不够准确。为解决此问题,我们提出构建一个作为知识基础源的文本到SQL知识库,从中检索并生成针对给定查询所需的知识。特别地,与现有方法要么手动标注知识、要么仅为每个查询生成少量知识不同,我们的知识库全面而综合,其构建基于所有可用问题及其关联数据库模式与相关知识点的结合,并可复用于来自不同数据集和领域的未见数据库。我们在多个文本到SQL数据集上验证了我们的方法,同时考虑了数据库重叠与非重叠的场景,结果表明,该方法显著超越了相关基线。
指令跟随(IF)是大型语言模型(LLMs)的一项关键能力。然而,处理包含多重约束的复杂指令仍具挑战性。以往的方法通常根据满足约束的数量来选择偏好对,这引入了噪声,即选中的示例可能未能遵循某些约束,而被拒绝的示例在某些方面可能优于选中的示例。为应对多重偏好对齐的挑战,我们提出了一种简单而有效的方法——反向偏好优化(RPO)。该方法通过动态反转指令中的约束来减少偏好对中的噪声,确保选中的响应完美无缺,从而减轻了广泛采样和筛选以收集完美响应的负担。此外,反转还扩大了选中与被拒绝响应之间的差距,从而明确了优化方向,使其对噪声更具鲁棒性。我们在两个多轮IF基准测试Sysbench和Multi-IF上评估了RPO,相较于DPO基线,在Llama-3.1 8B模型上分别平均提升了4.6和2.5分。此外,RPO在不同模型规模(8B至70B参数)上均表现出良好的扩展性,其中70B参数的RPO模型超越了GPT-4o。
本文旨在解决在利用大型语言模型(LLMs)进行推理时,强化学习(RL)扩展过程中的一个主要障碍——策略熵的崩溃现象。这一现象在未进行熵干预的大量RL实验中普遍存在,表现为策略熵在训练初期急剧下降,随之而来的是探索能力的减弱与策略性能的饱和。实践中,我们建立了熵H与下游性能R之间的转换方程R=-a*e^H+b。这一经验法则强烈表明,策略性能是以策略熵为代价换取的,因此受限于熵的耗尽,且其上限完全可预测为H=0时,R=-a+b。我们的发现强调了在RL计算扩展过程中,为持续探索而进行熵管理的必要性。为此,我们从理论与实证两方面探讨了熵动态。理论推导指出,策略熵的变化由动作概率与对数几率变化之间的协方差驱动,该协方差在使用类似策略梯度算法时与其优势成正比。实证研究显示,协方差项与熵差异值精确匹配,支持了理论结论。此外,协方差项在整个训练过程中大多保持正值,进一步解释了为何策略熵会单调下降。通过理解熵动态背后的机制,我们提出了通过限制高协方差标记的更新来控制熵的方法。具体而言,我们提出了两种简单而有效的技术:Clip-Cov和KL-Cov,分别对高协方差标记进行裁剪和施加KL惩罚。实验表明,这些方法促进了探索,帮助策略逃离熵崩溃,从而实现了更好的下游性能。
基于大语言模型(LLM)的代理在日益广泛的软件工程(SWE)任务中展现出显著潜力。然而,推动这一领域发展面临两大关键挑战。首先,高质量的训练数据稀缺,尤其是那些反映真实世界SWE场景的数据,在这些场景中,代理需与开发环境互动、执行代码并根据其行动结果调整行为。现有数据集要么局限于一次性代码生成,要么仅包含少量手动整理的交互任务集合,缺乏规模与多样性。其次,缺乏新鲜的交互式SWE任务影响了快速迭代模型的评估,因为静态基准测试因污染问题迅速过时。为应对这些局限,我们引入了一种新颖、自动化且可扩展的流程,持续从多样化的GitHub仓库中提取真实世界的交互式SWE任务。利用这一流程,我们构建了SWE-rebench,一个包含超过21,000个基于Python的交互式SWE任务的公开数据集,适用于大规模强化学习SWE代理。此外,我们运用SWE-rebench方法论持续收集的新任务,建立了一个无污染的代理软件工程基准测试。我们比较了不同LLM在此基准测试与SWE-bench Verified上的表现,结果显示某些语言模型的性能可能因污染问题而被高估。
大型语言模型(LLMs)在展现卓越推理能力的同时,也伴随着显著的推理开销,这给实际部署带来了巨大挑战。尽管蒸馏后的小型语言模型(SLMs)大幅提升了效率,但其性能却因无法遵循LLMs的推理路径而受到影响。幸运的是,我们发现,LLMs与SLMs之间真正导致推理路径分歧的仅是少数关键token,大多数生成的token要么完全相同,要么仅存在中性差异,如缩写或表达上的细微变化。基于这一洞察,我们提出了**罗马之路(R2R)**,一种神经token路由方法,它仅在处理这些关键的、路径分歧的token时选择性调用LLMs,而将大部分token生成任务交由SLM完成。我们还开发了一个自动数据生成管道,用于识别分歧token并生成token级别的路由标签,以训练轻量级路由器。我们将R2R应用于DeepSeek家族的R1-1.5B与R1-32B模型,并在数学、编程和问答等挑战性基准上进行了评估。在平均激活参数量为5.6B的情况下,R2R以1.6倍的优势超越了R1-7B的平均准确率,甚至优于R1-14B模型。与R1-32B相比,它在保持相当性能的同时,实现了2.8倍的实时加速,推动了测试时扩展效率的帕累托前沿。我们的代码已发布于https://github.com/thu-nics/R2R。
DeepSeek-R1的成功凸显了强化学习(RL)在提升大语言模型(LLMs)推理能力中的重要作用。在本研究中,我们推出了Skywork-OR1,一种针对长链思维(CoT)模型的有效且可扩展的RL实现方案。基于DeepSeek-R1-Distill模型系列,我们的RL方法取得了显著的性能提升,在AIME24、AIME25和LiveCodeBench测试集上,32B模型的平均准确率从57.8%提升至72.8%(+15.0%),7B模型则从43.6%提升至57.5%(+13.9%)。Skywork-OR1-32B模型在AIME24和AIME25基准测试中超越了DeepSeek-R1和Qwen3-32B,同时在LiveCodeBench上取得了与之相当的成绩。Skywork-OR1-7B和Skywork-OR1-Math-7B模型在同等规模模型中展现了具有竞争力的推理能力。我们对训练流程的核心组件进行了全面的消融研究,以验证其有效性。此外,我们深入探讨了熵崩溃现象,识别了影响熵动态的关键因素,并证明缓解过早的熵崩溃对于提升测试性能至关重要。为支持社区研究,我们全面开源了模型权重、训练代码及训练数据集。
推理视觉语言模型(VLMs)在复杂多模态任务中展现出优异性能。然而,这些模型仍面临显著挑战:对推理错误极为敏感,需要大量标注数据或精确验证器,且在特定领域之外的泛化能力不足。为应对这些局限,我们探索了自我校正作为增强推理VLMs的策略。我们首先深入分析了推理VLMs的自我校正能力,并识别出关键差距。基于研究发现,我们提出了Sherlock,一个自我校正与自我提升的训练框架。Sherlock引入了轨迹级自我校正目标、基于视觉扰动的偏好数据构建方法,以及动态beta值用于偏好调优。模型仅需使用20k随机采样的标注数据获得自我校正能力后,便能在无外部监督的情况下持续自我提升。基于Llama3.2-Vision-11B模型构建的Sherlock在八个基准测试中取得了显著成果,直接生成的平均准确率达到64.1,自我校正后提升至65.4。它超越了LLaVA-CoT(63.2)、Mulberry(63.9)和LlamaV-o1(63.4),同时使用的标注数据量不到20%。
提升多模态大语言模型(MLLMs)在训练后阶段的表现,通常依赖于监督微调(SFT)或强化学习(RL)。然而,这些监督方法需要昂贵且手动标注的多模态数据——这一资源最终难以持续。尽管近期研究探索了无监督的训练后优化,但其方法复杂且迭代困难。在本研究中,我们首次探讨了使用GRPO这一稳定且可扩展的在线RL算法,以实现无需外部监督的持续自我改进。我们提出了MM-UPT,一个简单而有效的框架,用于MLLMs的无监督训练后优化。MM-UPT基于GRPO构建,用基于多数投票的自我奖励机制替代了传统的奖励信号。实验表明,MM-UPT显著提升了Qwen2.5-VL-7B的推理能力(例如,在MathVista上从66.3%提升至72.9%,在We-Math上从62.9%提升至68.7%),且仅使用了无标注的标准数据集。MM-UPT不仅超越了先前的无监督基线,甚至接近了监督GRPO的效果。此外,我们发现,仅由MLLM自身生成的合成问题也能进一步提升性能,这为可扩展的自我改进指明了一条有前景的路径。总体而言,MM-UPT为在缺乏外部监督的情况下,实现MLLMs的持续自主优化提供了新范式。我们的代码已发布于https://github.com/waltonfuture/MM-UPT。
现代单图像超分辨率(SISR)模型在训练时所针对的放大倍数下能够生成逼真的结果,但在要求其进行远超该范围的放大时却会失效。我们通过“链式缩放”(Chain-of-Zoom, CoZ)这一模型无关框架解决了这一可扩展性瓶颈,该框架将SISR分解为一系列自回归的中间尺度状态,并辅以多尺度感知提示。CoZ重复利用一个骨干SR模型,将条件概率分解为可处理的子问题,从而在不进行额外训练的情况下实现极端分辨率。由于在高倍放大下视觉线索会减弱,我们在每次缩放步骤中加入了由视觉语言模型(VLM)生成的多尺度感知文本提示。提示提取器本身通过广义奖励策略优化(GRPO)与一个评判VLM进行微调,使文本指导更符合人类偏好。实验表明,一个标准的4倍扩散SR模型在CoZ框架下实现了超过256倍的放大,同时保持了高感知质量和保真度。项目页面:https://bryanswkim.github.io/chain-of-zoom/。
注意力机制的效率至关重要,因为其时间复杂度随序列长度呈二次方增长。SageAttention2通过量化加速注意力中的矩阵乘法(Matmul)来解决这一问题。为进一步提升SageAttention2的速度,我们提出利用FP8矩阵乘法并以FP16累加的更快指令。该指令比SageAttention2中使用的FP8矩阵乘法快2倍。实验表明,SageAttention2++在保持与SageAttention2相同注意力精度的同时,相比FlashAttention实现了3.9倍的加速。这意味着SageAttention2++能有效加速包括语言、图像和视频生成在内的多种模型,且端到端指标损失可忽略不计。代码将在https://github.com/thu-ml/SageAttention 提供。
近期,大型语言模型(LLMs)的进展展示了令人瞩目的链式思维推理能力,其中强化学习(RL)在这一进程中扮演了关键角色。尽管“顿悟时刻”模式——即模型通过反思实现自我修正——常被归因于RL带来的涌现特性,我们首先揭示,在多模态LLMs(MLLMs)中,这些模式在RL训练之前就已存在,但未必与推理性能的提升直接相关。基于这些发现,我们提出了一项全面研究,通过两阶段方法增强多模态推理能力:(1)以监督微调(SFT)作为冷启动,引入结构化的链式思维推理模式,随后(2)采用GRPO进行强化学习,以进一步精炼这些能力。我们的广泛实验表明,这种组合方法在多项具有挑战性的多模态推理基准测试中,持续超越仅使用SFT或仅RL的方法。最终模型在开源MLLMs中,无论是3B还是7B规模,均达到了顶尖水平,其中7B模型相较于基础模型有显著提升(例如,MathVista上从66.3%提升至73.4%,We-Math上从62.9%提升至70.4%),而3B模型的表现亦能与多个7B模型相媲美。总体而言,本研究为构建先进的多模态推理模型提供了实用指导。我们的代码已发布于https://github.com/waltonfuture/RL-with-Cold-Start。
我们提出了RenderFormer,一种神经渲染管线,它能够直接从基于三角形的场景表示中渲染出包含完整全局光照效果的图像,且无需针对每个场景进行训练或微调。不同于传统的以物理为中心的渲染方法,我们将渲染过程建模为一个序列到序列的转换任务,即将代表带有反射属性的三角形序列转换为代表像素小块的输出序列。RenderFormer采用两阶段管线:第一阶段为视角无关阶段,负责建模三角形间的光传输;第二阶段为视角相关阶段,在视角无关阶段生成的三角形序列指导下,将代表光线束的标记转换为相应的像素值。这两个阶段均基于Transformer架构构建,并在最小先验约束下进行学习。我们在形状和光传输复杂度各异的场景上对RenderFormer进行了展示与评估。
下一令牌预测作为基础学习任务,使大型语言模型(LLMs)具备了推理能力。然而,当目标是为多模态语言模型(MLLMs)赋予处理视频输入的时间推理能力时,应选择何种学习任务?现有的视频问答任务往往依赖于人工标注或更强大的MLLMs,而视频描述则倾向于将时间推理与空间信息交织在一起。为填补这一空白,我们提出了下一事件预测(NEP),这是一种利用未来视频片段作为丰富自监督信号以促进时间推理的学习任务。我们将每段视频分割为过去帧和未来帧:MLLM以过去帧为输入,预测从未来帧中提取的事件摘要,从而激励模型进行时间推理以完成任务。为支持此任务,我们构建了V1-33K数据集,包含33,000个自动提取的视频片段,覆盖多样化的现实场景。我们进一步探索了一系列视频指令调优策略,研究它们对时间推理的影响。为评估进展,我们引入了FutureBench,用于评估预测未见未来事件的一致性。实验验证了NEP作为一种可扩展且有效的训练范式,能够促进MLLMs中的时间推理能力。
深度研究系统代表了一类新兴的智能信息检索方法,能够针对复杂查询生成全面且论据充分的报告。然而,现有的大多数框架依赖于动态的商业搜索API,这不仅带来了成本问题,还引发了可复现性和透明度方面的挑战。为解决这些局限,我们推出了DeepResearchGym,一个开源沙盒环境,它结合了可复现的搜索API与严格的评估协议,用于深度研究系统的基准测试。该API通过最先进的密集检索器与基于DiskANN的近似最近邻搜索技术,对大规模公共网络语料库——ClueWeb22和FineWeb进行索引。它在保证跨运行文档排名稳定的同时,实现了比主流商业API更低的延迟,并免费供研究使用。为了评估深度研究系统的输出,我们扩展了Researchy Questions基准,通过LLM-as-a-judge评估引入自动化指标,以衡量系统输出与用户信息需求的契合度、检索的忠实度以及报告质量。实验结果表明,集成DeepResearchGym的系统性能与使用商业API的系统相当,且在不同评估指标下性能排名保持一致。一项人工评估研究进一步证实,我们的自动化协议与人类偏好相符,验证了该框架在支持深度研究系统受控评估方面的能力。我们的代码与API文档可在https://www.deepresearchgym.ai获取。
企业搜索系统常因语义不匹配和术语重叠而难以检索到准确的领域特定信息,这些问题会降低下游应用(如知识管理、客户支持和检索增强生成代理)的性能。为应对这一挑战,我们提出了一种专为领域特定企业数据设计的可扩展硬负样本挖掘框架。该方法动态选择语义上具有挑战性但上下文无关的文档,以增强已部署的重排序模型。 我们的方法整合了多种嵌入模型,执行降维,并独特地选择硬负样本,确保计算效率和语义精确性。在我们专有的企业语料库(云服务领域)上的评估显示,相较于最先进的基线和其他负采样技术,MRR@3提升了15%,MRR@10提升了19%。在公开的领域特定数据集(FiQA、Climate Fever、TechQA)上的进一步验证证实了该方法的通用性和实际应用准备度。
本研究提出了一种名为Few Shot Domain Adapting Graph (FS-DAG)的可扩展且高效的模型架构,专为少样本场景下的视觉丰富文档理解(VRDU)而设计。FS-DAG在模块化框架内结合了领域特定及语言/视觉特定的骨干网络,能够以最少的数据适应多种文档类型。该模型对实际应用中的挑战具有鲁棒性,如处理OCR错误、拼写错误及领域迁移等问题,这些在现实部署中至关重要。FS-DAG在参数少于9000万的情况下仍表现出色,特别适合计算资源有限的信息抽取(IE)任务等复杂实际应用。通过广泛的信息抽取任务实验,我们展示了FS-DAG在收敛速度和性能上相较于现有最先进方法的显著提升。此外,本研究还强调了在开发更小、更高效且不牺牲性能的模型方面所取得的持续进展。代码地址:https://github.com/oracle-samples/fs-dag
大型语言模型(LLMs)已展现出卓越的通用能力,但提升诸如推理等技能通常需要大量计算资源,并可能削弱其泛化能力。尽管参数高效微调(PEFT)方法提供了一种更为资源节约的替代方案,但由于架构依赖性,它们通常需要针对每个LLM主干进行重新训练。为应对这些挑战,本文提出通用推理器(UniR)——一个轻量级、可组合、即插即用的单一推理模块,能够与任何冻结的LLM结合,赋予其专业推理能力。具体而言,UniR将奖励分解为一个独立的推理模块,该模块利用预定义奖励进行独立训练,有效将轨迹级信号转化为令牌级指导。训练完成后,UniR可在推理时与任何冻结的LLM结合,只需将其输出逻辑与LLM主干的逻辑相加即可。这种加法结构自然支持模块化组合:针对不同任务训练的多个UniR模块可通过逻辑求和联合应用,实现通过组合进行复杂推理。在数学推理和机器翻译任务上的实验结果表明,UniR显著优于使用Llama3.2模型的现有基线微调方法。此外,UniR展现了强大的弱到强泛化能力:在较小模型上训练的推理模块能有效指导更大规模的LLMs。这使得UniR成为在不损害LLM核心能力的前提下,增强其推理能力的成本效益高、适应性强且稳健的解决方案。代码已开源,地址为https://github.com/hangeol/UniR。
应对复杂的现实世界问题,需要深入的信息检索与多步推理。近期,以深度研究为代表的智能体系统进展,凸显了自主多步研究的潜力。本研究提出了一种从数据中心化和训练阶段视角构建端到端智能信息检索代理的统一范式。我们的方法包含四个关键阶段:(1) 浏览数据构建,(2) 轨迹采样,(3) 用于有效冷启动的监督微调,以及 (4) 强化学习以提升泛化能力。我们在基于ReAct的网页代理WebDancer中实现了这一框架。在GAIA和WebWalkerQA这两个具有挑战性的信息检索基准测试中,WebDancer展现了强劲的性能,取得了显著成果,验证了我们训练范式的有效性。对智能体训练的进一步分析,为开发更强大的智能体模型提供了宝贵的洞见和系统化的可行路径。代码与演示将发布于https://github.com/Alibaba-NLP/WebAgent。
高质量的多语言训练数据对于有效预训练大型语言模型(LLMs)至关重要。然而,合适的开源多语言数据集的可用性仍然有限。现有的顶尖数据集大多依赖于启发式过滤方法,这既限制了它们的跨语言迁移能力,也制约了其扩展性。在此,我们引入了JQL,一种系统化的方法,能够高效地大规模筛选出多样且高质量的多语言数据,同时显著降低计算需求。JQL将LLMs的标注能力提炼为基于预训练多语言嵌入的轻量级标注器。这些模型展现出强大的多语言和跨语言性能,即使对于训练过程中未见过的语言和文字体系也是如此。在35种语言上的实证评估表明,由此产生的标注流程显著超越了当前如Fineweb2等启发式过滤方法。JQL显著提升了下游模型训练的质量,并提高了数据保留率。我们的研究为多语言数据筛选提供了实用的见解和宝贵的资源,提升了多语言数据集开发的标准。
自回归语言模型(LMs)一次生成一个词元,而人类的推理则基于更高层次的抽象——句子、命题和概念。这种对比引发了一个核心问题:LMs能否同样学会在结构化的语义单元而非原始词元序列上进行推理?在本研究中,我们探讨了预训练LMs是否能够通过其已学习的表征被提升至此类抽象推理空间。我们提出了一种框架,该框架通过自回归预测下一句的连续嵌入,将预训练的词元级LM适配到句子空间操作。我们探索了两种受经典表示学习启发的嵌入范式:1)语义嵌入,通过自编码学习以保留表层意义;2)上下文嵌入,通过下一句预测训练以编码预期结构。我们在两种推理机制下评估这两种嵌入:离散化推理,在重新编码前将每个预测嵌入解码为文本;以及连续推理,完全在嵌入空间中进行推理以提高效率。在数学、逻辑、常识和规划四个领域中,连续推理下的上下文嵌入与思维链(CoT)相比表现出竞争力,同时平均减少了一半的推理时浮点运算次数(FLOPs)。我们还展示了可扩展性和模块化适应的早期迹象。最后,为了可视化潜在轨迹,我们引入了SentenceLens,一种将中间模型状态解码为可解释句子的诊断工具。综合来看,我们的结果表明,预训练LMs能够在潜在嵌入空间内有效过渡到抽象、结构化的推理。
近期,文本到图像扩散模型(如Stable Diffusion)的蓬勃发展,激发了将其应用于360度全景图生成的研究。先前的工作已证明,在预训练的扩散模型上采用传统的低秩适应技术生成全景图像是可行的。然而,透视图像与全景图像之间显著的领域差异,引发了关于支撑这一实证成功背后机制的疑问。我们提出并验证了一个假设:在针对全景数据进行微调时,可训练组件展现出独特的行为,这种适应隐藏了利用预训练扩散模型内先验知识的某种内在机制。我们的分析揭示了两点关键发现:1)注意力模块中的查询和键矩阵负责的是全景与透视域之间可共享的通用信息,因此与全景生成关联较小;2)值矩阵和输出权重矩阵则专注于将预训练知识适配至全景域,在全景生成微调过程中扮演着更为关键的角色。我们通过引入一个名为UniPano的简洁框架,实证验证了这些洞见,旨在为未来研究树立一个优雅的基准。UniPano不仅超越了现有方法,而且相较于先前的双分支方案,显著降低了内存占用与训练时间,使其能够高效扩展至更高分辨率的端到端全景生成。相关代码即将发布。
人类创新的一个显著特征在于重组过程——通过整合现有机制与概念的元素来创造原创性思想。在本研究中,我们自动挖掘科学文献,构建了CHIMERA:一个大规模的重组实例知识库(KB)。CHIMERA可用于大规模实证探索科学家如何重组概念并从不同领域汲取灵感,或用于训练监督机器学习模型,使其学会预测新的跨领域创造性方向。为构建此知识库,我们提出了一项新颖的信息抽取任务,即从科学论文摘要中提取重组实例,收集了数百篇高质量人工标注摘要的语料库,并利用其训练了一个基于大语言模型(LLM)的抽取模型。该模型应用于人工智能领域的大量论文,生成了包含超过28,000个重组实例的知识库。我们通过分析CHIMERA,探索了人工智能各子领域中重组的特性。最后,我们利用该知识库训练了一个科学假设生成模型,该模型预测的新重组方向被现实世界的研究者认为具有启发性。我们的数据与代码已公开于https://github.cs.huji.ac.il/tomhope-lab/CHIMERA。
在不确定性下实现稳健路径规划是现实物流的核心,然而大多数基准测试都基于静态、理想化的设定。我们推出了SVRPBench,这是首个捕捉城市规模车辆路径规划中高保真随机动态的开放基准。该基准涵盖超过500个实例,最多涉及1000名客户,模拟了真实的配送条件:随时间变化的交通拥堵、对数正态分布的延误、概率性事故,以及基于实证的住宅与商业客户时间窗口。我们的流程生成了多样且约束丰富的场景,包括多仓库和多车辆配置。基准测试显示,如POMO和AM等最先进的强化学习求解器在分布偏移下性能下降超过20%,而经典方法和元启发式算法则保持稳健。为促进可重复研究,我们公开了数据集和评估套件。SVRPBench向社区发起挑战,旨在设计出能够超越合成假设、适应现实世界不确定性的求解器。
大型语言模型(LLMs)在面对相同提示时,通常为所有用户生成相同或相似的响应,这在用户脆弱性差异显著的高风险应用中带来了严重的安全隐患。现有的安全评估主要依赖于与上下文无关的指标——如事实准确性、偏见或毒性——忽视了同一响应可能因用户背景或状况不同而带来截然不同的风险。我们引入了个性化安全概念以填补这一空白,并提出了PENGUIN——一个包含14,000个场景的基准测试,覆盖七个敏感领域,同时具备上下文丰富与上下文无关的变体。通过对六个领先LLMs的评估,我们发现个性化用户信息使安全评分显著提升了43.2%,证实了在安全对齐中个性化策略的有效性。然而,并非所有上下文属性对安全提升的贡献均等。为此,我们开发了RAISE——一个无需训练、两阶段的代理框架,它策略性地获取用户特定背景。RAISE在六个基础LLMs上最高提升了31.6%的安全评分,同时保持了极低的交互成本,平均仅需2.7次用户查询。我们的研究结果强调了在安全关键领域选择性信息收集的重要性,并提供了一个无需模型重新训练即可实现LLM响应个性化的实用方案。此工作为适应个体用户上下文而非假设统一危害标准的安全研究奠定了基础。
在Transformer架构中,通过将输入分割为固定长度的片段,形成了源自原始数据的离散单元——token。每个token随后被映射为一个嵌入向量,从而在保留输入核心信息的同时,支持并行注意力计算。鉴于Transformer自注意力机制具有二次方的计算复杂度,token缩减主要被用作一种效率优化策略。这在单模态视觉和语言领域尤为突出,有助于平衡计算成本、内存占用和推理延迟。尽管已有这些进展,本文主张,在大规模生成模型时代,token缩减应超越其传统的效率导向角色。我们将其定位为生成建模中的一项基本原则,对模型架构及更广泛的应用产生关键影响。具体而言,我们提出,在视觉、语言及多模态系统中,token缩减能够:(i)促进更深层次的多模态融合与对齐,(ii)缓解“过度思考”和幻觉现象,(iii)在长输入序列中保持连贯性,(iv)增强训练稳定性等。我们重新定义了token缩减,使其不再仅是一项效率措施。借此,我们勾勒出未来发展的广阔前景,包括算法设计、基于强化学习的token缩减指导、面向上下文学习的token优化,以及更广泛的机器学习和科学领域。我们强调,token缩减有潜力推动新型模型架构和学习策略的发展,从而提升模型的鲁棒性、增强可解释性,并更好地与生成建模的目标保持一致。
随着大型语言模型(LLMs)越来越多地参与到人机交互中,评估其心智理论(Theory of Mind, ToM)能力——尤其是追踪动态心理状态的能力——变得至关重要。尽管现有基准测试评估了基本的ToM能力,但它们主要关注心理状态的静态快照,忽视了现实世界社交互动中特有的时间演变。我们提出了DynToM,这是一个专门设计用于评估LLMs理解和追踪跨关联场景中心理状态时间进程的新基准。通过一个系统化的四步框架,我们生成了包含1,100个社交情境、5,500个场景和78,100个问题的数据集,每个问题都经过真实性和质量的验证。我们对十种最先进的LLMs进行的全面评估显示,它们的平均表现比人类低44.7%,在追踪和推理心理状态变化时表现显著下降。这一性能差距凸显了当前LLMs在模拟人类心理状态动态特性方面的根本性局限。
我们提出“生成式图像思维”这一创新范式,从根本上改变了大型多模态模型(LMMs)进行视觉推理的方式,使其能够通过自发生成中间视觉思维步骤,在文本与视觉模态间实现原生跨模态思考。当前LMMs的视觉推理局限于处理用户提供的固定图像或仅通过基于文本的链式思维(CoT)进行推理。生成式图像思维解锁了认知能力的新维度,模型能够主动构建中间视觉思维,批判自身的视觉假设,并将其作为推理过程的有机组成部分进行优化。我们通过两种互补机制展示了该方法的有效性:(1)带有中间视觉子目标的视觉生成,模型将复杂视觉任务分解为可管理的组件,逐步生成并整合;(2)带有自我批判的视觉生成,模型首先生成初步视觉假设,通过文本推理分析其不足,并基于自我批判生成优化后的输出。在视觉生成基准测试中,我们的方法相较于基线模型取得了显著提升,在处理复杂多对象场景时实现了高达50%(从38%提升至57%)的相对改进。从探索新型蛋白质结构的生物化学家、迭代空间设计的建筑师,到重建犯罪现场的刑侦分析师,以及构思战术配合的篮球运动员,我们的方法使AI模型能够参与那种体现人类创造性、分析性和战略性思维的视觉想象与迭代优化过程。我们在https://github.com/GAIR-NLP/thinking-with-generated-images发布了开源工具包。
本文探讨了利用强化学习(RL)增强大型语言模型(LLM)代理推理能力的方法。具体而言,我们聚焦于多轮工具使用场景,这类场景可自然建模为马尔可夫决策过程(MDPs)。现有方法通常在赌博机设置下通过轨迹级优势估计来训练多轮LLM代理,但在跨多个决策步骤的轮次级信用分配上存在困难,限制了其在多轮推理任务上的表现。为解决这一问题,我们引入了一种细粒度的轮次级优势估计策略,以实现多轮代理交互中更精确的信用分配。该策略具有通用性,可融入多种RL算法,如群体相对偏好优化(GRPO)。通过在GRPO实现的多轮推理和基于搜索的工具使用任务上的实验评估,我们验证了MDP框架及轮次级信用分配在提升LLM代理于复杂决策环境中多轮推理能力方面的有效性。我们的方法在工具执行上实现了100%的成功率,在精确答案匹配上达到了50%的准确率,显著优于基线方法,后者未能成功调用工具且仅实现了20-30%的精确匹配准确率。
大型语言模型(LLMs)通过测试时扩展方法展现了卓越的推理能力,尤其是在使用从更强大的大型推理模型(LRMs)中提炼出的思维链(CoT)数据进行微调时。然而,这些推理链往往包含冗长的元素,模仿了人类解决问题的过程,可分为渐进推理(核心解决方案的发展路径)和功能性元素(验证过程、替代解决方案方法及错误修正)。尽管渐进推理至关重要,但功能性元素显著增加了测试时推理的计算负担。我们引入了PIR(基于困惑度的重要性精炼),这是一个原则性框架,它根据每个推理步骤对答案预测置信度的影响来定量评估其重要性。PIR系统地识别并选择性修剪仅低重要性的功能性步骤,同时保留渐进推理组件,从而创建优化的训练数据,既保持了核心解决路径的完整性,又减少了冗余。在PIR优化数据上微调的模型展现出更优的测试时扩展特性,生成更简洁的推理链,同时在具有挑战性的推理基准测试(AIME、AMC和GPQA Diamond)中实现了准确率的提升(+0.9%至+6.6%),并显著减少了令牌使用量(-3%至-41%)。我们的方法在不同模型规模、数据源和令牌预算下均表现出强大的泛化能力,为在测试时扩展效率、响应时间和计算效率作为宝贵约束的场景中部署具备推理能力的LLMs提供了实用解决方案。
有效检索、推理和理解视觉丰富信息仍然是RAG方法面临的挑战。传统的基于文本的方法无法处理与视觉相关的信息。另一方面,当前的基于视觉的RAG方法往往受限于固定的流程,并且由于模型基础能力激活不足,常常难以进行有效推理。鉴于强化学习(RL)已被证明对模型推理有益,我们引入了VRAG-RL,这是一个专为跨视觉丰富信息的复杂推理而设计的新型RL框架。在该框架中,视觉语言模型(VLMs)与搜索引擎交互,借助视觉感知标记自主采样单轮或多轮推理轨迹,并基于这些样本进行持续优化。我们的方法凸显了RL在RAG领域的关键局限:(i)先前的多模态RAG方法往往仅将图像融入上下文,导致推理标记分配不足,忽视了视觉特有的感知;(ii)当模型与搜索引擎交互时,其查询往往因无法清晰表达需求而未能检索到相关信息,从而导致性能欠佳。为应对这些挑战,我们定义了一个针对视觉丰富输入量身定制的动作空间,包括裁剪和缩放等动作,使模型能够从粗到细的角度收集信息。此外,为弥合用户原始查询与检索器之间的差距,我们采用了一种简单而有效的奖励机制,将查询重写和检索性能与基于模型的奖励相结合。我们的VRAG-RL通过专门设计的RL策略优化VLMs以执行RAG任务,使模型与现实应用场景对齐。代码可在https://github.com/Alibaba-NLP/VRAG{https://github.com/Alibaba-NLP/VRAG}获取。
近期在视频扩散模型(VDMs)中的三维相机控制方法通常通过根据标注的相机轨迹从估计的点云渲染来创建锚定视频,以此作为结构化先验来引导扩散模型。然而,点云估计中的固有误差往往导致锚定视频不准确。此外,对大量相机轨迹标注的需求进一步增加了资源消耗。为解决这些限制,我们提出了EPiC,一种高效且精确的相机控制学习框架,能够自动构建高质量的锚定视频,无需昂贵的相机轨迹标注。具体而言,我们基于首帧可见性对源视频进行掩码处理,从而为训练创建高精度的锚定视频。这种方法确保了高度对齐,消除了对相机轨迹标注的需求,因此可以轻松应用于任何野外视频,生成图像到视频(I2V)的训练对。此外,我们引入了Anchor-ControlNet,一个轻量级的条件模块,它将锚定视频在可见区域的引导集成到预训练的VDMs中,其参数量不到主干模型的1%。通过结合提出的锚定视频数据和ControlNet模块,EPiC实现了高效训练,显著减少了参数量、训练步骤和数据需求,且无需对扩散模型主干进行通常用于缓解渲染错位的修改。尽管我们的方法是在基于掩码的锚定视频上训练的,但在推理时能够稳健地泛化到使用点云制作的锚定视频,从而实现精确的三维感知相机控制。EPiC在RealEstate10K和MiraData数据集上的I2V相机控制任务中达到了最先进的性能,定量和定性均展示了精确且稳健的相机控制能力。值得注意的是,EPiC在视频到视频场景中也表现出强大的零样本泛化能力。
图像重描述技术被广泛应用于生成高质量的多模态任务训练数据集。现有的重描述方法通常依赖于强大的多模态大语言模型(MLLMs)来增强文本描述,但往往因幻觉和细粒度细节缺失导致不准确和不完整。为解决这些局限,我们提出了RICO,一种通过视觉重构优化描述的新框架。具体而言,我们利用文本到图像模型将描述重构为参考图像,并提示MLLM识别原始图像与重构图像间的差异,以此精炼描述。这一过程迭代进行,逐步推动生成更为忠实且全面的描述。为减轻迭代过程带来的额外计算成本,我们引入了RICO-Flash,它通过学习使用DPO生成类似RICO的描述。大量实验表明,我们的方法显著提升了描述的准确性和完整性,在CapsBench和CompreCap上均以约10%的优势超越了多数基线。代码已发布于https://github.com/wangyuchi369/RICO。
传统的RLHF(基于人类反馈的强化学习)通过粗糙的标量奖励优化语言模型,这些奖励掩盖了成功或失败的细粒度原因,导致学习过程缓慢且不透明。近期研究通过提示或反思,用文本批评增强RL,虽提升了可解释性,但模型参数未作调整。我们提出了Text2Grad,一种将自由形式文本反馈转化为跨度级别梯度的强化学习范式。在接收到人类(或程序化)批评后,Text2Grad将每条反馈短语与相关令牌跨度对齐,将这些对齐转换为可微分的奖励信号,并执行梯度更新,直接修正模型策略中的问题部分。这实现了基于反馈的精确调整,而非全局性的微调。Text2Grad通过三个组件实现:(1) 一个高质量的反馈标注流程,将批评与令牌跨度配对;(2) 一个细粒度奖励模型,在生成解释性批评的同时预测答案的跨度级别奖励;(3) 一个跨度级别策略优化器,反向传播自然语言梯度。在摘要生成、代码生成和问答任务中,Text2Grad均超越了标量奖励RL和仅提示的基线方法,不仅提高了任务指标,还提供了更丰富的可解释性。我们的结果表明,将自然语言反馈转化为梯度,是进行细粒度策略优化的强大信号。本方法的代码已发布于https://github.com/microsoft/Text2Grad。
视觉语言模型(VLMs)通常将中等规模的视觉编码器与大型语言模型(LLM)配对,例如Llama-70B,这使得解码器成为训练过程中的主要计算负担。为降低成本,一种潜在的有效策略是首先使用小型语言模型训练视觉编码器,然后再将其迁移至大型模型。我们构建了小型“代理模型”,这些模型通过直接继承目标大型LLM的浅层,共享相同的嵌入空间和表示语言。在代理模型上训练的视觉编码器随后可直接迁移至更大的模型,这一过程我们称之为零次嫁接——当直接接入完整尺寸的目标LLM时,嫁接后的组合不仅超越了编码器-代理模型对,在某些基准测试中,其表现甚至与使用目标LLM进行完整解码器训练相当。此外,当采用Llama-70B作为解码器时,我们的代理训练方法将整体VLM训练成本降低了约45%。
从文本提示生成高质量、多层透明图像能够开启创意控制的新境界,使用户能够像编辑大语言模型(LLM)的文本输出一样轻松地编辑每一层。然而,由于缺乏大规模、高质量的多层透明数据集,多层生成模型的发展落后于传统的文本到图像模型。本文通过以下方式应对这一根本性挑战:(i) 发布首个开放的超高保真PrismLayers(PrismLayersPro)数据集,包含20万(2万)张带有精确alpha遮罩的多层透明图像;(ii) 引入一种无需训练的合成流程,利用现成的扩散模型按需生成此类数据;(iii) 推出一个强大的开源多层生成模型ART+,其美学表现与现代文本到图像生成模型相媲美。关键技术贡献包括:LayerFLUX,擅长生成带有精确alpha遮罩的高质量单层透明图像;以及MultiLayerFLUX,它根据人工标注的语义布局将多个LayerFLUX输出组合成完整图像。为确保更高品质,我们实施了严格的过滤阶段以去除伪影和语义不匹配,随后进行人工筛选。在我们的合成PrismLayersPro上微调最先进的ART模型,得到了ART+,在60%的头对头用户研究比较中优于原版ART,甚至与FLUX.1-[dev]模型生成的图像视觉质量相当。我们预计,本工作将为多层透明图像生成任务奠定坚实的数据集基础,推动需要精确、可编辑且视觉吸引力强的分层图像的研究与应用。
可信的验证器对于可验证奖励的强化学习(RLVR)的成功至关重要,这是诸如DeepSeek-R1等众多大型推理模型背后的核心方法论。在数学推理等复杂领域中,基于规则的验证器已在先前的研究中被广泛采用,以训练强大的推理模型。然而,这些验证器的可靠性及其对RL训练过程的影响仍鲜为人知。在本研究中,我们以数学推理为例,对多种验证器在静态评估和RL训练场景中进行了全面分析。首先,我们发现当前开源的基于规则的验证器往往无法识别多个常用数学数据集中以不同格式呈现的等价答案,导致不可忽视的假阴性率。这一局限对RL训练性能产生不利影响,并随着策略模型的增强而愈发显著。随后,我们探讨了基于模型的验证器作为解决这些局限的潜在方案。尽管静态评估显示基于模型的验证器实现了显著更高的验证准确率,但进一步的分析和RL训练结果表明,它们极易受到攻击,即错误地将响应中的某些模式分类为正确(即假阳性)。这种脆弱性在策略模型优化过程中被利用,导致奖励被人为夸大。我们的研究结果凸显了基于规则和基于模型的验证器各自固有的独特风险,旨在为开发更稳健的强化学习奖励系统提供有价值的见解。
蛋白质预测任务的多样性传统上要求使用专门的模型,这阻碍了开发广泛适用且计算高效的蛋白质语言模型(PLMs)。在本研究中,我们提出了Prot2Token,一个统一的框架,通过将广泛的蛋白质相关预测——从序列级属性、残基特定特征到复杂的蛋白质间相互作用——转化为标准化的下一令牌预测格式,从而克服了这些挑战。Prot2Token的核心在于采用了一个自回归解码器,该解码器以预训练蛋白质编码器的嵌入为条件,并通过可学习的任务令牌进行指导,以执行多样化的预测。这种架构独特地促进了多任务学习,使单一模型能够高效掌握众多任务。我们在一系列基准测试中进行了广泛的实验验证,展示了Prot2Token在不同类型蛋白质预测任务中的强大预测能力。关键成果包括显著的加速(例如,相较于AlphaFold2与MSA的近1000倍)以及性能往往匹配或超越专门方法。此外,我们引入了一种辅助的自监督解码器预训练方法,以提升空间敏感任务的表现。因此,Prot2Token为蛋白质建模提供了一个多功能、高通量的范式,有望加速生物学发现和新疗法的开发。代码可在https://github.com/mahdip72/prot2token 获取。
漫画,即日本连环画,是一种高度多模态的叙事形式,它以复杂的方式融合了图像与文字。训练大型多模态模型(LMMs)以人类般的水平理解此类叙事,有助于漫画创作者反思并精炼其故事。为此,我们引入了两个用于多模态漫画理解的基准:MangaOCR,专注于页面内文本识别;以及MangaVQA,一个新颖的基准,旨在通过视觉问答评估上下文理解能力。MangaVQA包含526个高质量、手工构建的问题-答案对,确保在多样化的叙事和视觉场景中进行可靠评估。基于这些基准,我们开发了MangaLMM,这是一个专为漫画优化的模型,从开源LMM Qwen2.5-VL微调而来,能够同时处理上述两项任务。通过广泛的实验,包括与GPT-4o和Gemini 2.5等专有模型的对比,我们评估了LMMs对漫画的理解程度。我们的基准和模型为在漫画这一富含叙事的领域中评估和推进LMMs提供了全面的基础。
文本到图像(T2I)扩散模型在生成建模领域取得了显著进展;然而,它们在推理速度与图像质量之间面临权衡,这为高效部署带来了挑战。现有的蒸馏T2I模型能够在较少的采样步骤下生成高保真图像,但往往在多样性和质量上表现欠佳,尤其是一步式模型。通过我们的分析,我们观察到UNet编码器中存在冗余计算。我们的研究发现,对于T2I扩散模型,解码器更擅长捕捉更丰富且更明确的语义信息,而编码器则可以在不同时间步的解码器之间有效共享。基于这些观察,我们首次为学生模型UNet架构引入了时间无关的统一编码器TiUE,这是一种无循环的图像生成方法,用于蒸馏T2I扩散模型。采用一次性方案,TiUE在多个解码器时间步之间共享编码器特征,实现了并行采样并显著降低了推理时间复杂性。此外,我们引入了一个KL散度项来正则化噪声预测,从而增强了生成图像的感知真实性和多样性。实验结果表明,TiUE在包括LCM、SD-Turbo和SwiftBrushv2在内的最先进方法中表现优异,在保持计算效率的同时,生成了更多样且更真实的结果。
生成式AI模型常常会学习并重现其训练语料库中存在的错误信息。本立场文件提出,类似于生物免疫中通过可控接触减毒病原体来建立免疫力的机制,AI模型应在小规模、隔离的明确标注错误信息集上进行微调,以此作为对抗虚假信息的“疫苗”。这些精心挑选的错误样本在微调过程中定期注入,增强模型识别和拒绝误导性主张的能力,同时保持对真实输入的准确性。一项示范性案例研究表明,经过免疫处理的模型生成的错误信息显著少于基线模型。据我们所知,这是首个将经过事实核查的错误信息本身作为监督式疫苗的训练框架,而非依赖输入扰动或通用的人类反馈信号,以增强模型对未来虚假信息的抵抗力。我们还概述了确保错误数据安全使用的伦理保障和治理控制措施。模型免疫为将AI系统与事实性对齐提供了一种前瞻性范式。
在保持多视角一致性的同时,即时地对3D场景进行风格化处理,并忠实于风格图像,仍然是一个重大挑战。当前最先进的3D风格化方法通常需要在测试时进行计算密集型的优化,以将艺术特征转移到预训练的3D表示中,且往往需要密集的带姿态输入图像。相比之下,我们利用前馈重建模型的最新进展,展示了一种新颖的方法,能够在不到一秒的时间内,使用未定位的稀疏视角场景图像和任意风格图像,实现直接的3D风格化。为了解决重建与风格化之间固有的解耦问题,我们引入了一种分支架构,将结构建模与外观着色分离,有效防止风格迁移扭曲底层的3D场景结构。此外,我们采用了一种身份损失,通过新颖视图合成任务来促进风格化模型的预训练。这一策略还使我们的模型在微调以适应风格化的同时,保留了原有的重建能力。通过使用领域内和领域外数据集的全面评估,我们证明了该方法能够生成高质量的3D风格化内容,实现风格与场景外观的卓越融合,同时在多视角一致性和效率方面也优于现有方法。
高效的数据筛选对于现代大规模语言模型(LLMs)的训练至关重要。本文提出了影响力蒸馏(Influence Distillation),一种新颖且数学上严谨的数据筛选框架,该框架利用二阶信息为训练样本赋予最优权重。通过蒸馏每个样本对目标分布的影响力,我们的方法分配了模型特定的权重,用于选择LLM微调的训练数据,引导其在目标领域上实现强劲性能。我们为梯度下降和Adam优化器推导了这些最优权重。为确保可扩展性并降低计算成本,我们提出了一种基于地标样本的近似方法:精确计算一小部分“地标”样本的影响力,然后高效地传播至所有其他样本以确定其权重。我们通过在Tulu V2数据集上进行指令微调,针对包括GSM8k、SQuAD和MMLU在内的多种任务,对Llama和Qwen系列中的多个模型应用影响力蒸馏进行了验证。实验结果表明,影响力蒸馏不仅匹配甚至超越了现有最佳性能,同时实现了高达3.5倍的筛选速度提升。
视觉语言模型(VLMs)在视觉推理任务中展现出了卓越的性能。然而,地理定位任务提出了独特的挑战,需要从图像中提取多粒度视觉线索,并将其与外部世界知识相结合进行系统性推理。当前的地理定位方法往往缺乏稳健的推理机制和可解释性,限制了其有效性。为解决这些局限,我们提出了地理推理增强套件(GRE Suite),这是一个新颖的框架,通过结构化推理链增强VLMs,以实现准确且可解释的位置推断。GRE Suite在三个关键维度上系统性地开发:数据集、模型和基准。首先,我们引入了GRE30K,一个高质量的地理定位推理数据集,旨在促进细粒度的视觉和上下文分析。接着,我们提出了GRE模型,该模型采用多阶段推理策略,逐步推断场景属性、局部细节和语义特征,从而以更高的精度缩小潜在的地理区域。最后,我们构建了地理推理评估基准(GREval-Bench),这是一个全面的评估框架,用于评估VLMs在多样化的城市、自然和地标场景中的表现,衡量从粗粒度(如国家、大陆)到细粒度(如城市、街道)的定位性能。实验结果表明,GRE在所有粒度的地理定位任务中均显著优于现有方法,凸显了推理增强型VLMs在复杂地理推断中的有效性。代码和数据将在https://github.com/Thorin215/GRE发布。
生成式视频模型的爆炸性增长,加大了对AI生成内容可靠版权保护的需求。尽管隐形生成水印在图像合成中广受欢迎,但在视频生成领域仍鲜有探索。为填补这一空白,我们提出了Safe-Sora,这是首个将图形水印直接嵌入视频生成过程的框架。受水印性能与水印和载体内容视觉相似度密切相关的启发,我们引入了一种从粗到细的层次化自适应匹配机制。具体而言,水印图像被分割成多个区块,每个区块被分配到视觉上最相似的视频帧,并进一步定位到最佳空间区域以实现无缝嵌入。为了实现水印区块在视频帧间的时空融合,我们开发了一种基于3D小波变换增强的Mamba架构,采用新颖的时空局部扫描策略,有效建模了水印嵌入与检索过程中的长程依赖关系。据我们所知,这是首次将状态空间模型应用于水印技术,为高效且鲁棒的水印保护开辟了新途径。大量实验表明,Safe-Sora在视频质量、水印保真度和鲁棒性方面均达到了业界领先水平,这主要归功于我们的创新方案。我们将在论文发表后公开代码。
强化学习(RL)在机器人领域推动了显著进展,但其复杂性和漫长的训练时间仍是主要瓶颈。本报告介绍了FastTD3,一种简单、快速且高效的RL算法,它显著加快了在HumanoidBench、IsaacLab和MuJoCo Playground等流行套件中的人形机器人训练速度。我们的方法极为简洁:通过并行模拟、大批量更新、分布式的评价器以及精心调优的超参数,训练一个离策略的TD3智能体。FastTD3在单个A100 GPU上不到3小时即可解决一系列HumanoidBench任务,同时保持训练过程中的稳定性。我们还提供了FastTD3的轻量级、易于使用的实现,以加速机器人领域的RL研究。
大型语言模型(LLMs)的微调显著提升了其指令遵循能力,然而推动这些改进的底层计算机制仍鲜为人知。本研究系统性地探讨了微调如何重构LLM的计算,通过分离并分析指令特定的稀疏组件——即密集模型中的神经元以及混合专家(MoE)架构中的神经元与专家——来揭示这一过程。特别地,我们引入了HexaInst,一个精心策划且平衡的指令数据集,涵盖六个不同类别,并提出了SPARCOM这一新颖的分析框架,包含三大核心贡献:(1) 识别这些稀疏组件的方法,(2) 评估其功能通用性与独特性,以及(3) 系统比较它们的变化。通过实验,我们验证了这些组件在指令执行中的功能通用性、独特性及其关键作用。通过阐明微调引发的适应与稀疏计算基础之间的关系,本研究为可信赖的LLM社区深入理解LLM如何内化指令遵循行为提供了更深刻的洞见。
智能辅导系统与大型语言模型相结合,为满足学生多样化需求并促进自我效能学习提供了一种极具前景的途径。尽管大型语言模型具备电气工程基础知识的良好储备,但在处理关于电路的具体问题时仍显不足。本文介绍了AITEE,一个基于代理的电气工程辅导系统,旨在伴随学生学习全过程,提供个性化支持,并推动自主学习。AITEE通过适配的电路重建过程,支持手绘与数字电路,实现了与学生的自然交互。我们新颖的基于图的相似度度量方法,通过检索增强生成策略从讲义材料中识别相关上下文,而并行的Spice仿真则进一步提升了解决方案方法的应用准确性。系统采用苏格拉底式对话,通过引导性问题培养学习者自主性。实验评估表明,AITEE在领域特定知识应用上显著优于基线方法,即使是中等规模的大型语言模型也展现出可接受的性能。我们的成果凸显了代理型辅导系统在电气工程教育中提供可扩展、个性化且高效学习环境的巨大潜力。
视觉语言模型(VLMs)在多模态任务中取得了显著进展。然而,在处理长上下文场景,尤其是长视频时,其性能往往下降。尽管旋转位置编码(RoPE)已在大型语言模型(LLMs)的长度泛化中广泛应用,但将基础RoPE扩展以捕捉视频中复杂的时空依赖关系仍是一个未解难题。现有方法通常通过分配RoPE中的不同频率来编码三维位置信息,但这些分配策略主要依赖启发式方法,缺乏深入的理论分析。本文首先研究了不同分配策略如何影响VLMs的长上下文能力。我们的分析表明,当前的多模态RoPE无法在长上下文中可靠地捕捉语义相似性。为解决这一问题,我们提出了HoPE,一种混合位置编码,旨在提升VLMs的长上下文能力。HoPE引入了一种混合频率分配策略,以实现任意长上下文下的可靠语义建模,以及一种动态时间缩放机制,以促进跨多样上下文长度的鲁棒学习和灵活推理。在四个视频基准测试上的广泛实验,涉及长视频理解和检索任务,均显示HoPE持续优于现有方法,验证了其有效性。代码已发布于https://github.com/hrlics/HoPE。
开源机器学习(ML)资源(如模型和数据集)的快速增长加速了信息检索(IR)研究。然而,现有平台如Hugging Face并未明确利用结构化表示,这限制了高级查询和分析,例如追踪模型演变和推荐相关数据集。为填补这一空白,我们构建了HuggingKG,这是首个基于Hugging Face社区构建的大规模知识图谱,用于ML资源管理。HuggingKG拥有260万个节点和620万条边,捕捉了领域特定的关系及丰富的文本属性。在此基础上,我们进一步推出了HuggingBench,一个包含三个新颖测试集合的多任务基准,用于资源推荐、分类和追踪等IR任务。实验揭示了HuggingKG及其衍生任务的独特特性。这两项资源均已公开,有望推动开源资源共享与管理领域的研究进展。
理解高级视觉皮层中的功能表征是计算神经科学中的一个基本问题。尽管在大规模数据集上预训练的人工神经网络与人类神经反应表现出显著的表示对齐,但学习视觉皮层的图像可计算模型依赖于个体级别的大规模功能磁共振成像(fMRI)数据集。昂贵、耗时且往往不切实际的数据采集需求限制了编码器对新受试者和刺激的泛化能力。BraInCoRL利用上下文学习,通过少量示例预测体素级神经反应,无需针对新受试者和刺激进行额外微调。我们采用了一种能够灵活适应不同数量上下文图像刺激的Transformer架构,学习跨多个受试者的归纳偏置。在训练过程中,我们明确优化模型以进行上下文学习。通过联合条件化图像特征和体素激活,我们的模型学会了直接生成性能更优的高级视觉皮层体素级模型。我们证明,在低数据量情况下,当评估完全新颖的图像时,BraInCoRL始终优于现有的体素级编码器设计,同时展现出强大的测试时扩展行为。该模型还能泛化到一个全新的视觉fMRI数据集,该数据集使用了不同的受试者和fMRI数据采集参数。此外,BraInCoRL通过关注语义相关的刺激,促进了高级视觉皮层神经信号更好的可解释性。最后,我们展示了我们的框架能够实现从自然语言查询到体素选择性的可解释映射。
尽管大型语言模型(LLMs)在简体中文和繁体中文中的能力已得到研究,但尚不清楚LLMs在这两种书面中文变体提示下是否表现出不同的性能。这一理解至关重要,因为LLM响应质量的差异可能会忽视简体与繁体中文背后不同的文化背景,从而延续代表性伤害,并加剧在教育或招聘等LLM辅助决策领域中的下游伤害。为了探究潜在的LLM性能差异,我们设计了两项反映现实场景的基准任务:区域术语选择(提示LLM为描述的事物命名,该事物在中国大陆和台湾有不同的称呼)和区域姓名选择(提示LLM从简体与繁体中文的姓名列表中选择雇佣对象)。针对这两项任务,我们审计了11个领先的商业LLM服务和开源模型的表现——涵盖主要训练于英语、简体中文或繁体中文的模型。我们的分析表明,LLM响应中的偏见既依赖于任务也依赖于提示语言:在区域术语选择任务中,大多数LLM过度倾向于简体中文的响应,而在区域姓名选择任务中,它们却出人意料地偏爱繁体中文姓名。我们发现,这些差异可能源于训练数据表示、书写字符偏好以及简体与繁体中文分词方式的不同。这些发现强调了进一步分析LLM偏见的必要性;为此,我们提供了一个开源基准数据集,以促进未来LLM在中文变体间行为的可重复评估(https://github.com/brucelyu17/SC-TC-Bench)。
物体朝向理解是视觉感知中的一项基础性挑战,对于机器人操作和增强现实等应用至关重要。现有的视觉-语言基准测试未能有效隔离这一能力,往往将其与位置关系和整体场景理解混为一谈。我们提出了DORI(判别性朝向推理智能),这是一个全面的基准测试,将物体朝向感知确立为主要评估目标。DORI评估了朝向理解的四个维度:正面对齐、旋转变换、相对方向关系以及标准朝向理解。通过精心设计的任务,涵盖11个数据集中的67个物体类别,跨越合成与真实场景,DORI深入探讨了多模态系统如何理解物体朝向。我们对15种最先进的视觉-语言模型进行评估,揭示了关键局限:即使在粗粒度任务上,最佳模型的准确率也仅为54.2%,而在细粒度朝向判断上降至33.0%,且当任务需要参考系转换或复合旋转时,性能进一步下降。这些发现表明,亟需专门的朝向表示机制,因为模型在精确角度估计、跨视角追踪朝向变化以及理解复合旋转方面表现出系统性不足,暗示了其内部三维空间表示的局限性。作为首个专为多模态系统中的朝向意识设计的诊断框架,DORI为提升机器人控制、三维场景重建以及在物理环境中的人机交互提供了启示。DORI数据访问地址:https://huggingface.co/datasets/appledora/DORI-Benchmark
视频时序理解对于多模态大语言模型(MLLMs)推理视频中的事件至关重要。尽管在通用视频理解领域取得了最新进展,当前的MLLMs在细粒度时序推理方面仍面临挑战。虽然近期已有研究探索利用强化学习(RL)来解决这一问题,但现有的RL方法在效果上仍显不足。本研究中,我们提出了MUSEG,一种新颖的基于RL的方法,通过引入时间戳感知的多片段定位来增强时序理解能力。MUSEG使MLLMs能够将查询与多个相关视频片段对齐,从而促进更全面的时序推理。为了促进有效学习,我们设计了一种定制的RL训练方案,采用分阶段奖励逐步引导模型实现时序定位推理。在时序定位和时间敏感视频问答任务上的大量实验表明,MUSEG显著优于现有方法,并在多样化的时序理解场景中展现出良好的泛化能力。访问我们的项目:https://github.com/THUNLP-MT/MUSEG。
大型语言模型(LLMs)在预训练过程中常会习得一些在下游部署中不期望存在的知识,例如敏感信息或受版权保护的内容。现有的知识移除方法依赖于微调、训练低秩适配器或事实级别编辑,但这些方法要么过于粗略,要么过于浅显,或效果不佳。在本研究中,我们提出了PISCES(参数内精确抑制概念擦除),这是一种新颖的框架,通过直接编辑参数空间中编码特定概念的方向,来精确地从模型参数中擦除整个概念。PISCES利用解耦模型将多层感知器(MLP)向量分解为可解释的特征,通过自动化可解释性技术识别与目标概念相关的特征,并将它们从模型参数中移除。在Gemma 2和Llama 3.1模型上针对多种概念的实验表明,PISCES在擦除效果上较领先的擦除方法取得了适度提升,将目标概念的准确率降低至最低7.7%,同时显著提高了擦除的精确性(提升高达31%)和鲁棒性(提升高达38%)。总体而言,这些结果表明,基于特征的参数内编辑为语言模型中的概念知识移除提供了一种更为精确和可靠的方法。
语言-图像预训练在二维医学影像中已展现出卓越性能,但在CT和MRI等三维模态上的应用仍受限,主要由于体数据的高计算需求,这成为在大规模、未经筛选的临床研究上进行训练的重大障碍。本研究提出了一种可扩展的三维医学影像预训练框架——层次化注意力语言-图像预训练(HLIP)。HLIP借鉴了放射学数据自然层次结构(切片、扫描、研究)的灵感,采用轻量级层次化注意力机制。该机制展现出强大的泛化能力,例如在CT-RATE上预训练后,在Rad-ChestCT基准测试中宏AUC提升了4.3%。此外,HLIP的计算效率使其能够直接在未经筛选的数据集上进行训练。通过对220,000名患者、3.13百万次脑部MRI扫描及240,000名患者、1.44百万次头部CT扫描的训练,HLIP实现了最先进的性能,如在公开可用的脑部MRI基准Pub-Brain-5上平衡准确率提升了32.4%;在头部CT基准RSNA和CQ500上,宏AUC分别提升了1.4%和6.9%。这些结果表明,利用HLIP直接在未经筛选的临床数据集上进行预训练,是三维医学影像语言-图像预训练的一个可扩展且有效的方向。代码已发布于https://github.com/Zch0414/hlip。
从文本中理解和推断因果关系是人类认知的核心要素,也是推动大语言模型(LLMs)向通用人工智能迈进的关键。现有研究主要集中于从合成生成的文本中提取简单的、明确提及的因果关系,这未能反映现实世界任务的复杂性。本文探讨了LLMs是否能够从现实世界的文本中推断因果关系。我们构建了一个源自真实学术文献的基准测试集,该测试集涵盖了不同长度、关系复杂性(不同明确程度、事件数量及因果关系)以及领域和子领域的多样化文本。据我们所知,这是首个针对此任务的现实世界数据集。基于我们提出的基准测试集,对当前最先进的LLMs进行实验评估,结果显示面临显著挑战,表现最佳的模型平均F1得分仅为0.477。分析揭示了常见问题:难以处理隐含信息、区分相关因果因素与上下文细节,以及连接分散在长篇幅文本中的因果相关信息。通过系统性地描述这些不足,我们的基准测试集为推进LLM因果推理的进一步研究提供了有针对性的洞见。
测试时缩放(TTS)技术,通过在推理过程中动态分配计算资源,为提升大语言模型的推理能力提供了一条前景广阔的途径。尽管现有的TTS方法表现良好,但它们往往依赖于冗长的解码路径或需要生成大量样本,这增加了令牌使用量和推理延迟。我们观察到一个令人惊讶的现象:在推理任务中,较短的推理轨迹比长的更有可能正确。受此启发,我们提出了首次完成搜索(FFS),这是一种无需训练的并行解码策略,它启动n个独立样本,并在任一完成时立即返回。我们将FFS与简单解码、束搜索、多数投票和预算强制等方法一同评估,应用于四个推理模型(DeepSeek-R1、R1-Distill-Qwen-32B、QwQ-32B和Phi-4-Reasoning-Plus)及四个数据集(AIME24、AIME25-I、AIME25-II和GPQA Diamond)。在DeepSeek-R1上,FFS在AIME数据集上达到了82.23%的准确率,较DeepSeek-R1独立准确率提升了15%,几乎与OpenAI的o4-mini性能持平。我们的理论分析解释了为何在最短轨迹处停止更可能得到正确答案,并识别了早期停止可能次优的条件。FFS的优雅与简洁证明了,简单的TTS策略在推理时也能表现出色,揭示了简单方法在推理时刻尚未开发的潜力。
尽管大规模视觉-语言模型(VLMs)在多种多模态任务中展现了卓越的性能,其在人类智商测试上的真实推理能力仍待深入探索。为推进VLMs流体智能的研究,我们引入了**IQBench**,这是一个旨在通过标准化视觉智商测试评估VLMs的新基准。我们着重评估VLMs的推理能力,认为这比最终预测的准确性更为重要。**我们的基准以视觉为核心,最大程度减少对不必要文本内容的依赖**,从而鼓励模型主要从图像信息中得出答案,而非依赖已学习的文本知识。为此,我们手动收集并标注了500道视觉智商题目,以**防止训练过程中无意的数据泄露**。与以往工作主要关注最终答案准确性不同,我们通过评估模型的解释及其解题模式,结合最终预测的准确性和人类评估,来衡量模型的推理能力。实验结果显示,不同任务间存在显著的性能差异,其中`o4-mini`、`gemini-2.5-flash`和`claude-3.7-sonnet`分别以0.615、0.578和0.548的平均准确率位居前列。然而,所有模型在3D空间和字谜推理任务上均表现不佳,凸显了当前VLMs在通用推理能力上的重大局限。在推理得分方面,`o4-mini`、`gemini-2.5-flash`和`claude-3.7-sonnet`分别以0.696、0.586和0.516的平均分领先。这些结果揭示了模型推理过程与最终答案之间的不一致性,强调了在评估最终预测之外,推理准确性同样重要。