每日精选AI研究论文及翻译
数据准备旨在对原始数据集进行去噪处理、揭示跨数据集关联并从中提取有价值洞见,这对各类以数据为中心的应用至关重要。在三大驱动力推动下——(i)对应用就绪数据(如用于分析、可视化、决策)需求的增长,(ii)日益强大的大语言模型技术,以及(iii)支持灵活智能体构建的基础设施涌现(如基于Databricks Unity Catalog)——采用大语言模型增强的数据准备方法正迅速成为变革性且可能主导的新范式。本文通过梳理数百篇近期文献,对这一演进中的领域进行系统性综述,重点关注大语言模型技术如何为多样化下游任务进行数据准备。首先,我们阐释了从基于规则的模型专用流水线,向提示驱动、情境感知的智能体化工作流程的根本性范式转变。接着提出以任务为核心的分类体系,将领域划分为三大核心任务:数据清洗(如标准化、错误处理、缺失值填补)、数据集成(如实体匹配、模式匹配)与数据增强(如数据标注、画像分析)。针对每类任务,我们综述代表性技术,并着重分析其优势(如提升泛化能力、语义理解能力)与局限(如大语言模型扩展的过高成本、先进智能体中仍存在的幻觉问题、前沿方法与薄弱评估之间的脱节)。此外,我们系统梳理了常用数据集与评估指标(实证部分)。最后,探讨了开放研究挑战,并勾勒出前瞻性发展路线图,重点强调可扩展的大语言模型-数据系统、可靠智能体工作流程的规范化设计以及鲁棒的评估协议。
近年来,大语言模型(LLM)能力的前沿已从单轮代码生成转向智能体式软件工程——这一范式要求模型能自主导航、编辑和测试复杂代码库。虽然训练后增强方法已成为代码智能体的主流方案,但**智能体中期训练**(即在模拟真实智能体工作流程的大规模数据上进行中期训练)虽比单纯依赖昂贵的强化学习更具可扩展性,能更有效地培养基础智能体行为,却因资源需求巨大而尚未得到充分探索。实现有效智能体中期训练的核心挑战在于静态训练数据与真实开发中动态、富含反馈环境之间的分布失配。为此,我们系统性研究了智能体中期训练,建立了适用于大规模智能体开发的数据合成原则与训练方法。我们方法的核心在于**智能体原生数据**——包含两种互补轨迹的监督数据:**上下文原生轨迹**完整保留智能体经历的信息流,提供广泛覆盖度和多样性;**环境原生轨迹**采集自可执行代码库,其观测结果源自实际工具调用和测试执行,确保交互深度与真实性。我们在`SWE-Bench Verified`上验证模型的智能体能力。实验表明,在采用对齐基座模型与智能体框架的两种训练后设置下,我们的方法以不足半数中期训练词元(731亿)优于此前开源的软件工程中期训练方案`Kimi-Dev`。除相对优势外,我们性能最佳的320亿和720亿参数模型分别达到**56.1%** 和**58.5%** 的问题解决率,这一表现...
近期视频生成技术的突破性进展已能通过简单文本提示合成出令人惊叹的视觉内容。然而,这些模型在根据对话等高层概念生成长篇连贯叙事时仍显乏力,暴露出创意构想与影视化呈现之间的"语义鸿沟"。为弥合这一鸿沟,我们提出了一种新颖的端到端智能体框架,实现从对话到电影级视频的生成。该框架的核心是剧本生成智能体(ScripterAgent),该模型经训练可将粗略对话转化为细粒度、可执行的电影脚本。为此我们构建了ScriptBench——一个通过专家指导流程标注、具有丰富多模态语境的大型基准数据集。生成的脚本随后指导导演智能体(DirectorAgent),该组件采用跨场景连续生成策略协调最先进的视频模型,确保长时序叙事连贯性。我们通过AI驱动的评审智能体(CriticAgent)和新型视觉-脚本对齐(VSA)指标进行综合评估,结果表明该框架显著提升了所有测试视频模型的脚本忠实度与时序保真度。此外,分析揭示了当前顶尖模型在视觉奇观与严格脚本遵循之间存在关键权衡,为自动化电影制作的未来发展提供了重要启示。
尽管合成数据在提升文本领域的科学推理能力方面已见成效,多模态推理仍受限于生成科学严谨图像的困难。现有文生图模型常产生视觉合理但科学错误的输出,导致视觉与逻辑的持续偏离,限制了其在下游推理中的价值。基于新一代文生图模型的最新进展,我们系统研究了科学图像合成的生成范式、评估方法及下游应用。我们同时分析了基于像素的直接生成与程序化合成方法,并提出ImgCoder——一个遵循显式"理解-规划-编码"工作流程的逻辑驱动框架,以提升结构精度。为严格评估科学正确性,我们推出SciGenBench评估体系,从信息效用与逻辑有效性两个维度评估生成图像。实验揭示了像素级模型的系统性缺陷,并凸显了表达能力与精度之间的根本性权衡。最后,我们证明基于严格验证的合成科学图像对大型多模态模型进行微调,能获得稳定的推理提升,其扩展趋势与文本领域具有相似性,这验证了高保真科学合成作为解锁海量多模态推理能力的可行路径。
模型能否学会突破自身的学习瓶颈?在初始成功率较低、训练信号匮乏的数据集上,微调大型推理模型的强化学习方法往往会陷入停滞。我们探究了一个根本性问题:预训练大语言模型能否利用潜在知识,为其无法解决的难题自动生成课程?为此,我们设计了SOAR框架:一种通过元强化学习挖掘教学信号的自改进框架。该框架中,模型的教师副本为学生副本生成合成问题,并根据其在少量难题子集上的进步获得奖励。关键在于,SOAR将课程设计锚定于可量化的学生进展,而非内在的代理奖励。我们在数学基准中最难子集(初始成功率0/128)上的研究揭示了三大核心发现:首先,通过激活预训练模型生成有效阶梯式问题的潜在能力,可实现双层级元强化学习,从而在稀疏二元奖励环境下开启学习进程;其次,基于实际进展的奖励机制优于先前LLM自我对弈中使用的内在奖励方案,能可靠避免后者常见的不稳定性和多样性崩溃问题;最后,对生成问题的分析表明,结构质量与问题表述的清晰度对学习进展的影响比解题正确性更为关键。我们的研究结果表明,生成有效阶梯式问题的能力并不以预先具备解决难题的能力为前提,这为无需额外标注数据即可突破推理瓶颈开辟了理论路径。
标准注意力机制的二次复杂度在长上下文场景下对大型语言模型(LLMS)构成了显著的可扩展性瓶颈。虽然混合注意力策略通过在同一模型中结合稀疏与全注意力提供了可行方案,但这些方法通常采用静态计算比例(即固定稀疏与全注意力占比),无法在推理过程中适应下游任务对稀疏性的差异化敏感度。为此,我们提出弹性注意力机制,使模型能够根据输入动态调整整体稀疏度。该方法通过在预训练模型中集成轻量级注意力路由器,动态分配各注意力头至不同计算模式。仅需在8xA800 GPU上训练12小时,我们的方法即可使模型同时实现强劲性能与高效推理。在三个长上下文基准测试中针对主流LLMS开展的实验验证了本方法的优越性。
当前图像生成领域正分化为两大技术路径:基于离散标记的自回归模型与利用连续隐空间的扩散模型。这种由VQ-VAE与VAE技术路线差异引发的分野,阻碍了统一建模与公平基准评估。有限标量化方法虽在理论上搭建了桥梁,但原始FSQ存在根本缺陷:其等间隔量化机制易导致激活值塌缩,迫使模型在重建保真度与信息效率间进行权衡。本研究通过将原始FSQ中的激活函数替换为分布匹配映射以强制均匀先验,成功破解了这一困境。该策略被命名为iFSQ,仅需单行代码修改即可数学保证最优的量化箱利用率与重建精度。基于iFSQ构建受控实验基准,我们获得两项关键发现:(1)离散与连续表示的最优平衡点约为每维度4比特;(2)在相同重建约束下,自回归模型呈现快速初始收敛特性,而扩散模型则展现出更优的性能上限,表明严格序列排序可能制约生成质量的理论极限。最后,我们通过将表示对齐技术适配至自回归模型拓展研究边界,构建出LlamaGen-REPA模型。代码已开源:https://github.com/Tencent-Hunyuan/iFSQ
当前视频生成模型在处理复杂物理动态时仍面临挑战,常难以实现真实的物理效果。现有方法通常借助外部验证器或对增强数据进行额外训练来解决这一问题,但这些方案计算成本高昂,且在捕捉细粒度运动方面仍存在局限。本研究提出自优化视频采样方法,该简易技术利用在大规模数据集上预训练的视频生成器作为自身的优化器。通过将生成器解读为去噪自编码器,我们实现了无需外部验证器或额外训练的推理阶段迭代式内循环优化。我们进一步引入基于不确定性的优化策略,通过自一致性选择性地优化特定区域,从而避免过度优化导致的伪影问题。在顶尖视频生成模型上的实验表明,该方法在运动连贯性和物理一致性方面实现显著提升,相比默认采样器和基于引导的采样器,获得了超过70%的人类偏好度。
尽管智能体评估已转向长周期任务,但现有基准仍主要关注局部、步骤层面的推理,而非需要真正规划能力的全局约束优化(如时间和预算限制)。同时,当前基于大语言模型的规划基准未能充分体现现实场景中典型的信息主动获取与细粒度局部约束特性。为此,我们推出DeepPlanning——面向实际长周期智能体规划的挑战性基准。该基准包含多日旅行规划与多商品购物任务,要求智能体具备主动信息获取、局部约束推理及全局约束优化能力。在DeepPlanning上的评估表明,即使顶尖的智能体大语言模型也难以应对这些问题,凸显了可靠显式推理模式与并行工具使用对实现更优效果-效率权衡的重要性。错误分析进一步为提升智能体大语言模型的长周期规划能力指明了可行方向。我们已开源代码与数据以支持后续研究。
空间视觉感知是自动驾驶、机器人操控等现实应用中的基础需求,其核心在于与三维环境的交互。虽然采用RGB-D相机获取像素级对齐的度量深度是最可行的方案,但硬件限制与复杂成像条件(尤其在镜面或弱纹理表面场景下)往往形成阻碍。本研究提出,深度传感器的测量误差可视为一种"掩蔽"信号,其本质反映了潜在的几何歧义性。基于此,我们开发了LingBot-Depth深度补全模型:该模型通过掩蔽深度建模利用视觉上下文优化深度图,并集成自动化数据构建流程以实现可扩展训练。令人鼓舞的是,我们的模型在深度精度与像素覆盖率方面均优于顶级RGB-D相机。多项下游任务实验表明,LingBot-Depth能够生成跨RGB与深度模态的对齐隐式表征。我们已向空间感知研究社区开源代码、模型权重及300万组RGB-深度数据(含200万真实数据与100万模拟数据)。
本报告介绍VibeVoice-ASR——一个基于VibeVoice构建的通用语音理解框架,旨在解决长音频(如会议、播客)处理中持续存在的语境碎片化和多说话人复杂性挑战,这些挑战在短语音识别技术取得长足进步后依然存在。与传统依赖音频分块的流水线方法不同,VibeVoice-ASR支持对长达60分钟的音频进行单次处理,将自动语音识别、说话人日志和时间戳标注统一为端到端的生成任务。该系统支持50多种语言,无需显式设置语言参数,并能原生处理语句内及跨语句的语码转换。此外,我们引入了基于提示的上下文注入机制,允许用户提供定制化上下文,显著提升了领域专有术语的识别准确度和多音字消歧能力。
随着智能眼镜等全天候可穿戴设备的普及,始终在线的人工智能个人助手对情境理解提出了更高要求——这种理解需突破短暂孤立事件的局限,涵盖连续纵向的第一人称视角视频流。实现这一愿景需要长周期视频理解技术的进步,即系统必须能解读并回溯跨越数日甚至数周的视听信息。现有方法(包括大语言模型和检索增强生成技术)受限于上下文窗口的约束,难以对超长视频流进行组合式多跳推理。本研究通过EGAgent这一以实体场景图为核心的增强型智能体框架应对上述挑战:该图结构可动态表征人物、场景、物体及其随时间演化的关联关系。我们的系统为规划智能体配备了结构化图检索推理工具及混合视听搜索能力,从而实现细粒度、跨模态且时序连贯的推理。在EgoLifeQA和Video-MME(Long)数据集上的实验表明,本方法在复杂长周期视频理解任务中达到EgoLifeQA最高性能(57.5%),并在Video-MME(Long)上取得具有竞争力的表现(74.1%)。
通用嵌入模型在文本检索中表现出色,但在表格检索场景中仍存在不足——高度结构化的内容会导致语义压缩及查询-表格失配问题。近期基于大语言模型的检索增强方法通过生成合成查询缓解了这一局限,但这些方法往往依赖启发式局部表格选择策略,且鲜少将合成查询作为监督信号来优化嵌入模型。我们提出CGPT训练框架,通过大语言模型生成的监督信号提升表格检索性能。该框架首先采用K均值聚类对表格实例分组,并通过跨簇采样构建语义多样化的局部表格以扩展语义覆盖范围;随后利用大语言模型为这些局部表格生成合成查询,通过困难负例对比微调策略优化嵌入模型。在四个公开基准数据集上的实验表明,CGPT在检索效果上持续超越现有基线方法(包括QGpT),平均R@1指标提升16.54%。在统一多领域语料设置下,CGPT进一步展现出强大的跨领域泛化能力,即使采用更小规模的大语言模型生成合成查询仍能保持有效性。这些结果表明:语义引导的局部表格构建与大语言模型生成的监督信号相结合,可为大规模表格检索提供高效可扩展的解决方案。代码已开源于https://github.com/yumeow0122/CGPT。
现实世界的感知与交互本质上是多模态的,不仅包含语言模态,还涵盖视觉与语音模态,这推动了支持多模态输入与输出的"全能型"MLLMs的发展。尽管已涌现出一系列全能MLLMs,但现有系统大多仍需依赖额外专家组件实现多模态生成,限制了统一训练与推理的简洁性。自回归建模凭借单一令牌流、单一下一令牌目标和单一解码器,在文本领域构成了优雅且可扩展的基础框架。受此启发,我们提出AR-Omni——一种在自回归范式下实现任意模态间转换的统一模型,无需任何专家解码器。该模型通过单一Transformer解码器支持自回归文本与图像生成,以及流式语音生成。我们进一步解决了统一自回归建模中的三个实际问题:通过任务感知的损失重加权应对模态不平衡问题,通过轻量级令牌级感知对齐损失提升图像令牌的视觉保真度,以及通过有限状态解码机制平衡稳定性与创造性。实验表明,AR-Omni在保持实时性的同时实现了三模态的高质量生成,其语音生成的实时因子达到0.88。
时间序列数据在现实场景中无处不在,对从能源管理到交通控制等关键应用至关重要。因此,具备时间序列推理能力已成为通用模型解决实际问题的核心技能。然而现有通用模型基准测试中明显缺失这一维度。为填补这一空白,我们推出TSRBench——一个全面的多模态基准测试平台,旨在系统检验时间序列推理的全方位能力。TSRBench具有以下特点:i) 涵盖14个领域的4125个多样化问题,划分为感知、推理、预测和决策四大维度;ii) 通过4个维度下的15项任务评估核心推理能力(如数值推理)。通过大规模实验,我们在TSRBench上评估了30余个领先的专有及开源大语言模型、视觉语言模型和时序大语言模型。研究发现:i) 缩放定律在感知与推理维度成立,但在预测维度失效;ii) 强推理能力不能保证准确的上下文感知预测,表明语义理解与数值预测存在解耦现象;iii) 尽管时间序列的文本与视觉表征具有互补性,现有多模态模型仍无法有效融合二者实现协同增益。TSRBench提供的标准化评估平台不仅揭示了现有挑战,更为推进通用模型发展提供了宝贵洞见。代码与数据集详见https://tsrbench.github.io/。
大规模视频生成模型已展现出涌现的物理连贯性,使其具备成为世界模型的潜力。然而,当代"无状态"视频架构与经典以状态为核心的世界模型理论之间仍存在隔阂。本研究通过提出以"状态构建"和"动态建模"为双支柱的新分类法弥合这一鸿沟:将状态构建划分为隐式范式(上下文管理)与显式范式(潜在压缩),同时从知识整合和架构重构两个维度解析动态建模。此外,我们主张评估体系应从视觉保真度转向功能基准测试,重点考察物理持续性与因果推理能力。最后提出两大关键前沿方向:通过数据驱动记忆与压缩保真度提升持续性,借助潜在因子解耦与推理先验融合推进因果建模。通过突破这些挑战,该领域有望从生成视觉合理的视频演进为构建鲁棒的通用世界模拟器。
视频生成是构建世界模型的技术基石,而多模态上下文推理能力则是衡量模型性能的关键标准。为此,我们推出SkyReels-V3条件视频生成模型,该模型基于扩散Transformer构建的统一多模态上下文学习框架,在单一架构中支持三大核心生成范式:参考图像到视频合成、视频到视频扩展及音频引导视频生成。(一)参考图像到视频模型通过跨帧配对、图像编辑与语义重写的全流程数据优化方案,有效消除复制粘贴伪影,实现强主体一致性、时序连贯性与叙事逻辑性的高保真视频生成。训练阶段采用图像-视频混合策略与多分辨率联合优化,全面提升模型在多场景下的泛化性与鲁棒性。(二)视频扩展模型融合时空一致性建模与大规模视频理解能力,既可实现无缝单镜头延续,又能基于专业影视语法完成智能多镜头切换。(三)数字人模型通过首尾帧插值训练与关键帧推理范式重构,支持分钟级音频驱动视频生成,在保障视觉质量的同时优化音画同步效果。 大量实验表明,SkyReels-V3在视觉质量、指令跟随能力和专项指标等关键维度达到业界领先或接近最优水平,性能逼近闭源商业系统。项目地址:https://github.com/SkyworkAI/SkyReels-V3。
表格检索是从大规模语料库中根据自然语言查询返回最相关表格的任务。然而,非结构化文本与结构化表格之间的结构和语义差异使得嵌入对齐尤为困难。近期方法如QGpT尝试通过生成合成查询来丰富表格语义,但仍依赖于粗糙的局部表格采样和简单融合策略,限制了语义多样性并阻碍有效的查询-表格对齐。我们提出STAR(语义表格表示)框架,该轻量级框架通过语义聚类和加权融合提升表格语义表示能力。STAR首先采用表头感知K均值聚类对语义相似的行进行分组,并选择代表性中心实例构建多样化的局部表格;随后生成针对特定聚类的合成查询,全面覆盖表格的语义空间;最后通过加权融合策略整合表格与查询嵌入,实现细粒度语义对齐。该设计使STAR能够从结构化和文本化来源中捕获互补信息,提升表格表示的表达能力。在五个基准数据集上的实验表明,STAR在所有数据集上的召回率均持续优于QGpT,验证了语义聚类与自适应加权融合对构建鲁棒表格表示的有效性。代码已开源:https://github.com/adsl135789/STAR。
通用型大语言模型智能体通常在有限环境集上进行后训练,却被部署到更广泛的未知领域。本研究针对测试领域未知情况下的智能体后训练挑战展开探究,重点分析了强化学习环境特性与建模选择对跨领域性能的影响机制。首先,我们识别出与跨领域泛化能力强相关的两个环境维度:(一)状态信息丰富度,即智能体需从状态中处理的信息量;(二)规划复杂度,通过基础策略下的目标可达性与轨迹长度进行估算。值得注意的是,领域真实性与文本相似度并非主要因素——例如简单网格世界Sokoban在SciWorld中的泛化效果反而优于更接近现实的ALFWorld。基于这些发现,我们进一步证明仅提升状态信息丰富度即可有效增强跨领域鲁棒性,并提出一种低开销、普适性的随机化技术:在状态中添加少量与目标无关的干扰特征,在不改变任务本质的前提下增强状态丰富度。除环境特性外,我们还检验了多种建模选择:(a)监督微调热身或训练中插入虽能防止强化学习过程中的灾难性遗忘,但会削弱对未参与训练数据混合领域的泛化能力;(b)在强化学习中启用逐步推理机制虽不总能提升领域内性能,但对保持泛化能力具有关键作用。
通过采用多教师蒸馏技术,聚合视觉骨干网络能够构建统一的学生模型,该模型不仅保留还提升了多位教师的独特能力。本技术报告介绍了C-RADIO模型家族的最新版本C-RADIOv4,该版本基于AM-RADIO/RADIOv2.5的设计架构,在保持相同计算复杂度的前提下显著提升了关键下游任务的性能。我们发布了-SO400M(4.12亿参数)和-H(6.31亿参数)两种模型变体,二者均采用更新的教师模型集合进行训练:SigLIP2、DINOv3和SAM3。除了在核心指标上的提升以及通过模仿SAM3获得的新能力外,C-RADIOv4模型家族进一步优化了任意分辨率支持功能,重新引入ViTDet选项以实现高分辨率下的极致效率提升,并配备了宽松的开源许可协议。
深度搜索智能体旨在解答需要跨多文档推理的复杂问题,能显著加速信息检索过程。由于此类任务涉及冗长复杂的探索路径,人工标注成本极高。我们提出一种智能流程,可针对给定语料库和目标难度级别自动生成高质量、难度可控的深度搜索问答对。该流程SAGE包含两个组件:提出问答对的数据生成器,以及尝试解答生成问题并为数据生成器提供执行反馈的搜索智能体。二者通过多轮交互迭代优化问答对,直至满足目标难度要求。内在评估表明,SAGE生成的问题需要多样化推理策略,同时显著提升生成数据的准确性与难度。外在评估显示,使用合成数据训练的深度搜索智能体在主流基准测试中实现了最高23%的相对性能提升。补充实验证明,基于本数据训练的智能体能在推理时从固定语料检索无缝切换至谷歌搜索,且无需额外训练。
现有许多视觉-语言-动作模型将图像块展平为一维标记序列,削弱了精确操作所需的二维空间线索。我们提出IVRA——一种轻量级、无需训练的方法,通过利用模型内置视觉编码器中已有的亲和度提示来增强空间理解能力,无需任何外部编码器或重新训练。IVRA选择性地将这些亲和度信号注入到包含实例级特征的语言模型层中。这种推理时干预能在保持所有模型参数固定的同时,重新校准视觉标记的交互关系并更好地保留几何结构。我们在涵盖二维与三维操作的仿真基准(VIMA和LIBERO)及多种真实机器人任务中,通过对不同VLA架构(LLaRA、OpenVLA和FLOWER)的应用验证了IVRA的通用性。在二维VIMA任务中,IVRA在低数据场景下较基线LLaRA平均成功率提升4.2%;在三维LIBERO任务中,对OpenVLA和FLOWER基线模型均带来持续增益,即使在基线准确率接近饱和时仍能提升(96.3%至97.1%)。所有代码与模型将公开发布,可视化结果详见:jongwoopark7978.github.io/IVRA
传统智能体系统在开放环境中常表现不佳,这类环境的任务分布持续漂移且外部监督稀缺。系统对静态工具集或离线训练的依赖难以适应动态变化,导致能力边界僵化且不可知。为此,我们提出原位自进化范式。该方法将序列化任务交互视为连续经验流,使系统能在缺乏真值标签的情况下,将短期执行反馈提炼为长期可复用的能力。在此框架下,我们将工具进化确定为能力扩展的关键路径——其可提供可验证的二元反馈信号。基于此,我们开发了云雀智能体系统,通过迭代式工具合成、优化与复用来应对新兴挑战。为提升进化效率,我们进一步提出并行批量进化策略。在零起点设置下对五个异构基准的实证评估表明,该系统较私有基线实现显著性能提升。补充性的热启动实验也证实,系统积累的通用知识可无缝迁移至新领域。最后,我们提出监测进化收敛性的新指标,其功能类似于传统优化中的训练损失函数。我们开源了代码库、系统轨迹及进化工具,以推动韧性自进化智能体的研究发展。
大型语言模型的对齐旨在使模型输出符合人类偏好,而个性化对齐则进一步使模型适配个体用户需求。这依赖于能够捕捉用户特定偏好并自动提供个性化反馈的奖励模型。然而,开发此类模型面临两大挑战:个体用户反馈数据的稀缺性以及模型对新用户的高效适应需求。我们认为解决这些约束需要实现从拟合数据学习用户偏好到学习偏好适应过程的范式转变。为此,我们提出元奖励建模方法,将个性化奖励建模重构为元学习问题。具体而言,我们将每个用户的奖励模型表示为基奖励函数的加权组合,并采用模型无关元学习框架优化权重参数的初始化,以支持有限反馈下的快速适应。为确保鲁棒性,我们提出鲁棒个性化目标,在元优化过程中更关注难以学习的用户群体。基于个性化偏好数据集的广泛实验表明,该方法能有效提升小样本个性化性能,增强用户鲁棒性,并持续超越基线模型。
尽管大型语言模型在科研工作流程中的应用日益广泛,但针对学术交流与同行评审关键环节——论文反驳的自动化支持研究仍处于探索不足的状态。现有方法通常依赖现成的大型语言模型或简单流水线,这些方案在长上下文理解方面存在不足,且难以生成具有针对性、说服力的回应。本文提出DRPG框架,该智能体驱动的学术反驳生成系统通过四个步骤运作:将审稿意见分解为原子化问题、从论文中检索相关证据、规划反驳策略、据此生成回应。值得注意的是,DRPG中的规划器在识别最优反驳方向时准确率超过98%。在顶级会议数据上的实验表明,DRPG显著优于现有反驳流程,仅使用80亿参数模型即实现超越人类平均水平的性能。我们的分析进一步验证了规划器设计的有效性及其在提供多视角可解释建议方面的价值。实验还表明DRPG在更复杂的多轮交互场景中表现优异。这些成果凸显了该框架在生成高质量反驳内容、支撑学术讨论规模化发展方面的潜力。项目代码已开源:https://github.com/ulab-uiuc/DRPG-RebuttalAgent。
全球离散扩散语言模型最引人瞩目的特性之一在于其全局双向上下文建模能力。然而现有基于分块的扩散研究往往引入自回归先验,这种做法虽能带来一定优势,却可能导致模型在宏观层面丧失全局连贯性。为在保留半自回归范式优势的同时重建全局上下文理解能力,我们提出"扩散中的扩散"框架——一种"先草稿后优化"的范式,旨在克服分块扩散模型固有的不可逆性与短视问题。该框架首先通过小尺度分块扩散快速生成文本草稿,继而利用具有更大双向感受野的全局双向扩散进行精细化重构。我们采用置信度快照重掩码技术识别最需修正的关键词元,并通过混合尺度训练拓展分块扩散模型的全局建模能力。实验结果表明,我们的方法在OpenWebText数据集上为离散扩散模型树立了新标杆:仅需基线模型26%的微调预算,便将生成困惑度从25.7降至21.9,显著缩小了与自回归模型的性能差距。
语码转换在全球多语种人群中普遍存在,但现有基准测试难以准确反映其日常交流的复杂性。我们推出PingPong——一个涵盖五种语言组合变体(部分为三语)的自然多方言语码转换对话基准。该数据集由2至4人参与的人工编写对话构成,呈现真实的多线程对话结构,其中应答常指向对话中较早的节点。我们证明该数据在信息长度、发言主导权和应答跨度等方面比机器生成数据更具自然性与结构多样性,且变化维度更丰富。基于这些对话,我们定义了三个下游任务:问答系统、对话摘要和主题分类。在PingPong上对多种前沿语言模型的评估表明,现有模型对语码转换输入的处理能力仍显不足,这凸显了开发能应对现实世界多语交流复杂性的更强健自然语言处理系统的迫切需求。
准确转录并区分儿童与成人对话的说话人角色,对于发展心理学和临床研究至关重要。然而人工标注耗时费力且难以规模化。现有自动化系统通常采用级联式说话人日志与语音识别流程,易导致错误传播。本文提出一种统一的端到端框架,通过扩展Whisper编码器-解码器架构,实现对语音识别和儿童-成人说话人角色区分的联合建模。该方案整合了四大核心要素:(一)采用序列化输出训练机制,同步生成说话人标签及起止时间戳;(二)引入轻量级帧级别日志头模块,增强编码器表征的说话人区分能力;(三)通过日志引导的静音抑制技术提升时间标注精度;(四)设计基于状态机的强制解码流程,确保输出结构合法性。在两个数据集上的综合评估表明,相较于两种级联基线模型,本方法在Whisper-small和Whisper-large模型上均实现持续显著提升,不仅获得更低的多说话人词错误率,更在说话人日志准确率方面展现竞争优势。这些发现凸显了所提出的联合建模框架在规模化生成可靠儿童-成人对话说话人标注文本方面的有效性与实用价值。相关代码及模型权重已开源。
专家混合模型通常会在显式负载均衡约束下进行预训练,以确保统计上均衡的专家路由。然而我们发现,即使训练良好的MoE模型仍会呈现显著的路由不均衡现象。这种行为具有天然合理性——甚至可视为理想状态——因为不均衡路由能使模型将领域知识集中存储在部分专家中。专家并行技术旨在通过将专家分布到多个设备来实现MoE模型扩展,但其较少讨论的前提是路由均衡。在极端不均衡情况下,EP会将过量令牌集中到少数专家,导致训练后阶段或推理过程中过载设备出现计算和内存瓶颈(此时显式负载均衡往往难以实施)。我们提出最小负载专家并行算法,这种新型EP算法能动态地将过载设备的超额令牌及相关专家参数重路由至闲置设备。该方法在遵守内存约束的前提下,确保所有设备在最小集体延迟内完成计算负载。在不同规模模型测试中,LLEP相较标准EP实现了最高5倍加速和4倍峰值内存使用降低,其中gpt-oss-120b的训练后处理速度提升约1.9倍。我们通过理论分析和包含消融实验的实证评估验证该方法,这些结果揭示了关键权衡关系,并建立了针对特定硬件进行超参数调优的理论框架以实现最优性能。
高效键值(KV)缓存管理对大语言模型(LLM)的实际部署至关重要,然而现有压缩技术往往需要在性能损失与计算开销之间进行权衡。我们提出一种基于门控的KV缓存淘汰新方法,适用于冻结权重的LLM,能以可忽略的计算成本实现高压缩比。该方法通过轻量化的汇聚注意力门控模块识别并保留关键KV对,并无缝集成至预填充和解码阶段。所提出的门控训练算法仅依赖LLM的前向传播,避免了昂贵的反向传播过程,同时通过任务无关的重建目标实现强大的任务泛化能力。在Qwen2.5-1M、Qwen3和Gemma3系列模型上的大量实验表明,本方法在淘汰高达70% KV缓存的同时仍能保持近无损性能。该结果在长文本理解、代码解析和数学推理等多样化任务中表现一致,证明了方法的普适性。
大型语言模型正日益朝着深度推理方向优化,将复杂任务的准确执行置于通用对话能力之上。本研究探讨这种对计算能力的专注是否会造成"隧道视野",导致在危急情境下忽视安全考量。我们推出MortalMATH基准测试,包含150个场景:用户在描述逐渐危及生命的紧急情况(如中风症状、自由落体)时请求代数帮助。研究发现存在显著的行为分化:通用模型(如Llama-3.1)能成功拒绝数学请求以处理危险情境;而专用推理模型(如Qwen-3-32b和GPT-5-nano)往往完全忽略紧急情况,在用户描述濒死状态时仍保持超过95%的任务完成率。更严重的是,推理所需的计算时间会造成危险延迟:在提供任何潜在帮助前可能长达15秒。这些结果表明,训练模型执着追求正确答案的做法,可能会无意中削弱安全部署所需的生存本能。
设计用户界面(UI)是产品发布、作品集构建或项目个性化过程中的关键环节,但缺乏设计专业知识的终端用户往往难以准确表达设计意图并信赖设计决策。现有的示例型工具要么支持广泛探索(易导致选择过载和设计偏离),要么仅允许基于单一案例调整(存在设计固化的风险)。我们推出UI Remix交互系统,该系统通过示例驱动的工作流支持移动端UI设计。基于多模态检索增强生成(MMRAG)技术,UI Remix支持在全局(完整界面)和局部(组件)层级进行迭代式搜索、选择与适配。为增强可信度,系统提供评分、下载量、开发者信息等来源透明度提示。在24名终端用户的实证研究中,UI Remix显著提升了参与者实现设计目标的能力,促进了有效迭代,并鼓励了对替代设计的探索。参与者反馈来源透明度提示增强了他们适配示例的信心。本研究为AI辅助的示例驱动系统指明了新方向,使终端用户能以更强控制力、更高信任度和更开放心态进行设计探索。
注意力矩阵是Transformer研究的核心要素,支撑着包括可解释性、可视化、调控与蒸馏在内的广泛应用。然而现有分析多聚焦于单个注意力头或单层结构,未能反映模型的全局行为。虽然前人研究通过求平均和矩阵乘法扩展了多头注意力公式,或引入了归一化与前馈网络等组件,但仍缺乏能够完整表征所有Transformer模块的统一框架。为此我们提出TensorLens——一种创新性数学表达,将整个Transformer表示为通过高阶注意力交互张量实现的输入依赖型线性算子。该张量联合编码了注意力机制、前馈网络、激活函数、归一化操作和残差连接,为模型计算提供了理论自洽且表达力强的线性表征。TensorLens具有坚实的理论基础,实证验证表明其产生的表征优于现有注意力聚合方法。实验证明该注意力张量可作为开发可解释性与模型理解工具的强大基础。代码已作为补充材料附上。
基于大语言模型的搜索代理正日益广泛应用于多步骤信息检索任务,然而信息检索领域对代理式搜索会话的展开方式及检索证据的运用机制仍缺乏实证研究。本文通过对DeepResearchGym(一个供外部代理客户端访问的开源搜索API)收集的1444万次搜索请求(397万个会话)进行大规模日志分析,系统性地揭示了代理搜索的行为特征。我们采用基于LLM的标注方法对日志进行会话划分、会话级意图识别及分步查询重构标注,并提出上下文驱动术语采纳率(CTAR)指标来量化新引入查询词项与既往检索证据的关联程度。分析发现三个显著行为模式:首先,超90%的多轮会话不超过十步操作,89%的步骤间隔在一分钟以内;其次,不同意图的会话呈现差异化特征——事实查询类会话重复率较高且随时间递增,而需推理的会话则保持更广泛的探索范围;第三,代理存在跨步骤证据复用现象,平均54%的新增查询词项出现在累积证据上下文中,且早期步骤的贡献超越最近一次检索结果。这些发现表明,代理搜索可能受益于重复感知的早停机制、意图自适应的检索预算分配以及显式跨步上下文追踪。我们计划发布匿名化日志以支持后续研究。
强化学习(RL)在主动流动控制(AFC)领域已展现出良好前景,但由于现有研究采用异构的观测与执行方案、数值模拟设置及评估标准,该领域的进展仍难以客观衡量。当前AFC基准测试虽尝试解决这些问题,但高度依赖外部计算流体动力学(CFD)求解器,缺乏完全可微性,且对三维场景与多智能体支持有限。为突破这些局限,我们推出首个独立、完全可微的AFC强化学习基准套件FluidGym。该套件完全基于PyTorch构建于GPU加速的PICT求解器之上,运行于单一Python栈,无需外部CFD软件,并提供标准化评估流程。我们通过PPO和SAC算法呈现基线结果,并将所有环境、数据集及训练模型作为公共资源开源。FluidGym实现了控制方法的系统化对比,为基于学习的流动控制研究建立了可扩展基础,项目地址:https://github.com/safe-autonomous-systems/fluidgym。
随着多模态大语言模型(MLLMs)处理复杂多图像指令的推理能力不断增强,这一进步可能引发新的安全风险。我们通过构建首个专注于多图像推理安全性的基准测试MIR-SafetyBench来研究该问题,该基准包含涵盖9类多图像关系的2,676个测试实例。针对19个MLLMs的大规模评估揭示了一个令人担忧的趋势:具备更先进多图像推理能力的模型在MIR-SafetyBench上反而表现出更高的脆弱性。除攻击成功率外,我们发现许多被标记为安全的回复流于表面,往往源于模型误解或采用回避性、模棱两可的回应。进一步观察表明,不安全生成内容的注意力熵值平均低于安全生成。这一内部特征提示潜在风险:模型可能过度聚焦于任务解决而忽视安全约束。相关代码与数据已开源:https://github.com/thu-coai/MIR-SafetyBench。
视觉标记压缩技术被广泛用于提升大规模视觉语言模型的推理效率,使其能够部署在延迟敏感和资源受限的场景中。然而现有研究主要关注效率与性能,视觉标记压缩的安全隐患尚未得到充分探索。本研究首次揭示视觉标记压缩会显著削弱LVLMs的鲁棒性:在未压缩条件下表现稳健的模型,一旦启用压缩就会变得极为脆弱。这种脆弱性具有状态特异性——故障模式仅在压缩环境下出现,关闭压缩后完全消失,使其具有极强的隐蔽性和诊断难度。通过分析压缩流程的关键环节,我们发现标记重要性排序的不稳定性是鲁棒性下降的主因。微小且难以察觉的扰动就可能导致标记排序显著改变,致使压缩机制误丢弃任务关键信息,最终引发模型失效。基于此发现,我们提出压缩感知攻击方法,系统性地研究和利用该漏洞。CAA直接针对标记选择机制,可专门在压缩推理环境下诱发故障。我们进一步将该方法拓展至更符合实际的黑盒场景,提出迁移CAA方案,该方案无需获取目标模型或压缩配置信息。在防御方案评估中,现有方法仅能提供有限保护。跨模型、数据集和压缩方法的广泛实验表明,视觉标记压缩会显著破坏模型鲁棒性,揭示出此前被忽视的效率与安全性的权衡关系。
在医疗、法律及科学发现等高风险领域,大型语言模型的可靠性常因幻觉问题而受到影响。这些错误通常源于两类诱因:数据驱动型幻觉与推理驱动型幻觉。然而现有检测方法往往仅针对单一诱因,且依赖任务特定的启发式规则,限制了其在复杂场景中的泛化能力。为突破这些局限,我们提出"幻觉风险边界"理论框架,将幻觉风险形式化分解为数据驱动与推理驱动两个组成部分,分别对应训练阶段的分布失配与推理阶段的不稳定性,从而为分析幻觉产生与演化机制提供理论基石。基于此,我们进一步提出HalluGuard检测方法——通过神经正切核诱导的几何结构与表征空间,构建能同步识别两类幻觉的NTK评分体系。我们在10个多样化基准测试、11个竞争性基线模型及9个主流LLM架构上的实验表明,HalluGuard在检测多类型LLM幻觉任务中持续取得最先进性能。
混合智能体(MoA)通过分层协作提升大语言模型性能,但其密集拓扑结构会推高成本与延迟。现有方法采用LLM评判器筛选响应,但仍需所有模型先完成推理再进行评判,无法有效削减成本。这些方法还缺乏模型选择标准,且难以应对大规模模型池场景——全量推理成本高昂且可能超出上下文限制。为此,我们提出RouteMoA:一种具备动态路由的高效混合智能体框架。该框架采用轻量级评分器通过查询语句预测粗粒度性能,在无需推理的情况下将候选模型缩小至高潜力子集进行初筛;随后通过混合评判器基于现有模型输出进行轻量级自评估与交叉评估,实现无需额外推理的后验校正;最终通过平衡性能、成本与延迟的模型排序机制完成模型选择。RouteMoA在不同任务规模与模型池容量下均优于传统MoA,在大规模模型池中实现成本降低89.8%,延迟减少63.6%。
纹理化三维形变旨在生成两个三维资产之间平滑合理的过渡,既保持结构连贯性又保留细粒度外观。该能力不仅对推进三维生成研究至关重要,在动画制作、模型编辑和数字内容创作等实际应用中也具有重要价值。现有方法要么直接操作几何体,导致仅能实现纯形状形变而忽略纹理;要么将二维插值策略简单扩展至三维,常引发语义模糊、结构错位和纹理模糊等问题。这些挑战凸显了在过渡过程中同时保持几何一致性、纹理对齐和鲁棒性的必要性。为此,我们提出Interp3D——一种无需训练的新型纹理化三维形变框架。该框架利用生成先验并采用渐进式对齐原则,确保几何保真度与纹理连贯性。Interp3D从条件空间的语义对齐插值出发,通过SLAT(结构化潜空间)引导的结构插值强化结构一致性,最终通过细粒度纹理融合实现外观细节迁移。为进行全面评估,我们构建了具有分级难度系数的专用数据集Interp3DData,并从保真度、过渡平滑度和合理性三个维度评估生成结果。定量指标与人工评估均表明,我们所提方法较以往技术具有显著优势。源代码已发布于https://github.com/xiaolul2/Interp3D。