每日精选AI研究论文及翻译
从原始数据源到分析师级别的深度研究报告,自主数据科学长期以来一直是一项挑战,而随着强大大型语言模型(LLMs)的出现,这一目标正变得可行。近期基于工作流的数据代理在特定数据任务上展现出良好效果,但由于依赖预定义工作流,它们在实现完全自主数据科学方面仍存在根本性局限。本文介绍DeepAnalyze-8B,首个专为自主数据科学设计的代理型LLM,能够自动完成从数据源到分析师级深度研究报告的端到端流程。为应对高复杂度数据科学任务,我们提出了一种基于课程学习的代理训练范式,模拟人类数据科学家的学习轨迹,使LLM能够在真实环境中逐步掌握并整合多种能力。我们还引入了一种数据驱动的轨迹合成框架,用于构建高质量训练数据。通过代理训练,DeepAnalyze学会了执行广泛的数据任务,包括数据问答、专业分析任务以及开放式数据研究。实验表明,仅拥有8B参数的DeepAnalyze在性能上超越了基于最先进专有LLM构建的先前工作流代理。DeepAnalyze的模型、代码及训练数据均已开源,为自主数据科学的发展铺平了道路。
近期,图像编辑技术取得了显著进展。现代编辑模型已能依据复杂指令对原始内容进行操控。然而,在完成编辑指令之外,伴随的物理效应是生成真实感的关键。例如,移除一个物体时,其阴影、反射及与周围物体的互动也应一并消除。遗憾的是,现有模型和基准测试主要聚焦于指令完成度,却忽视了这些物理效应。那么,当前我们距离实现物理真实的图像编辑还有多远?为解答这一问题,我们推出了PICABench,它系统性地评估了大多数常见编辑操作(如添加、移除、属性更改等)在八个子维度(涵盖光学、力学及状态转换)上的物理真实感。此外,我们提出了PICAEval,一种可靠的评估协议,它采用VLM作为评判者,结合逐案例、区域级的人工标注与提问。在基准测试之外,我们还探索了通过从视频中学习物理规律的有效解决方案,并构建了训练数据集PICA-100K。在评估了多数主流模型后,我们发现物理真实感仍是一个充满探索空间的挑战性问题。我们期望我们的基准测试及提出的解决方案能为未来工作奠定基础,推动从简单内容编辑向物理一致性真实感的转变。
大型语言模型(LLMs)在处理文档理解、代码分析及多步推理等任务时,日益依赖于长上下文建模。然而,将上下文窗口扩展至百万令牌级别会带来难以承受的计算与内存成本,限制了长上下文LLMs的实际应用。本研究另辟蹊径,采用视觉上下文扩展策略应对这一挑战。不同于传统的基于令牌序列的扩展方法,我们提出了Glyph框架,该框架将长文本渲染为图像,并利用视觉-语言模型(VLMs)进行处理。此方法在保留语义信息的同时,大幅压缩了文本输入,并进一步设计了一种基于LLM的遗传搜索算法,以识别在准确性与压缩率之间达到最佳平衡的视觉渲染配置。通过大量实验,我们验证了该方法在多种长上下文基准测试中,实现了3至4倍的令牌压缩,同时保持了与Qwen3-8B等领先LLMs相当的准确性。这种压缩还带来了约4倍的预填充与解码速度提升,以及约2倍的SFT训练加速。此外,在极端压缩条件下,具备128K上下文的VLM能够扩展至处理百万令牌级别的文本任务。同时,渲染后的文本数据对现实世界的多模态任务,如文档理解,也大有裨益。我们的代码与模型已发布于https://github.com/thu-coai/Glyph。
视觉语言模型(VLMs)的发展因公共数据集碎片化、不一致且受污染而受阻。我们推出FineVision,这是一个精心收集、整理并统一整合的包含2400万样本的语料库——同类中规模最大的开放资源。通过半自动化、人机协作的流程,我们将200多个来源统一为185个子集:自动化负责批量导入与模式映射,而审核人员则检查映射并抽样验证输出,确保注释的忠实采用、格式的恰当与多样性以及安全性;发现问题则触发针对性修复与重新运行。该工作流还实施了严格的源内与跨源去重,并针对66个公共基准进行了去污染处理。FineVision还涵盖了代理/GUI任务,采用统一动作空间;审核人员验证模式并检查部分轨迹样本,以确保执行的真实性。在广泛的评估套件中,基于FineVision训练的模型持续超越现有开放混合数据集训练的模型,凸显了规模效应、数据清洁度以及人机协同平衡自动化的优势。我们发布该语料库及整理工具,以加速以数据为中心的VLM研究。
在多模态语言模型(MLLM)研究中,一个主流假设认为其性能主要继承自大规模参数和卓越能力的LLM主干。这一观点导致了对视觉编码器理解的空白,而视觉编码器决定了MLLM如何感知图像。近期,MLLM训练范式从监督微调(SFT)向强化学习(RL)的转变,放大了这一忽视——即对这类训练如何重塑视觉编码器及MLLM本身的分析严重不足。针对此问题,我们首先探究了训练策略对MLLM的影响,发现RL在强视觉相关的VQA基准测试中明显优于SFT。受此启发,我们通过一系列多样且深入的实验,从ImageNet分类与分割到梯度可视化,对MLLM的视觉编码器进行了关键却鲜有探索的分析。我们的结果表明,MLLM的训练后策略(即SFT或RL)不仅导致下游任务结果显著不同,还从根本上重塑了MLLM的底层视觉表征。具体而言,我们研究的关键发现是,与SFT相比,RL能生成更强且定位更精确的视觉表征,从而提升了MLLM视觉编码器的能力。随后,我们将这些发现提炼为构建强大MLLM视觉编码器的简单方案——偏好指导视觉优化(PIVOT)。当PIVOT训练的视觉编码器集成到MLLM中时,尽管所需计算成本不到标准视觉预训练的1%,其表现却超越了更大规模、训练更充分的同类模型。这一结果为推进MLLM视觉主干的发展开辟了一条高效且有效的路径。项目页面详见https://june-page.github.io/pivot/。
大型语言模型(LLMs)在复杂推理任务中展现了显著进展,这主要得益于推理时扩展(TTS)范式,该范式在推理过程中分配额外的计算资源。其中,外部TTS(尤其是最佳N选一策略)通过从多个独立生成的推理轨迹中进行选择,实现了可扩展的性能提升。然而,这种方法面临两大关键限制:(i)部署过程奖励模型带来的高计算开销,(ii)未能充分利用LLM的内在潜在表征。我们提出了TrajSelector,一个高效且有效的最佳N选一框架,它利用采样LLM中的隐藏状态进行过程级评分。一个轻量级验证器(仅含0.6B参数)评估每一步推理轨迹的质量,随后汇总这些分数以确定最优推理轨迹。我们的框架采用完全数据驱动、端到端的训练方案,消除了对大量步骤级标注的依赖。在五个基准测试上的实验结果表明,TrajSelector带来了持续的性能提升。在最佳32选一设置下,其准确率比多数投票高出4.61%,并超越现有过程奖励模型4.31%至12.21%,同时保持了更低的推理成本。
检索增强生成(Retrieval-Augmented Generation, RAG)作为一种增强大型语言模型(LLMs)效能的强大范式,通过从外部语料库中检索相关文档来实现。然而,现有的RAG系统主要聚焦于单模态文本文档,在现实场景中,当查询与文档均可能包含混合模态(如文本与图像)时,往往表现不足。本文针对通用检索增强生成(Universal Retrieval-Augmented Generation, URAG)的挑战展开研究,该挑战涉及检索并推理混合模态信息以提升视觉-语言生成能力。为此,我们提出了Nyx,一个专为URAG场景设计的统一混合模态到混合模态检索器。为缓解现实混合模态数据稀缺的问题,我们引入了一个四阶段自动化生成与过滤流程,利用网络文档构建了NyxQA数据集,该数据集包含多样化的混合模态问答对,更贴近现实世界的信息需求。基于这一高质量数据集,我们为Nyx采用了两阶段训练框架:首先在NyxQA及多种开源检索数据集上进行预训练,随后利用下游视觉-语言模型(VLMs)的反馈进行监督微调,以确保检索输出与生成偏好对齐。实验结果表明,Nyx不仅在标准纯文本RAG基准测试中表现优异,在更为通用且现实的URAG设置下也表现突出,显著提升了视觉-语言任务中的生成质量。
大型语言模型在推理任务上已展现出卓越性能,能够解决竞赛级别的编程与数学难题。然而,其扩展性受限于人工标注数据集及大规模、高难度编程问题训练数据的匮乏。现有的竞赛编程数据集仅包含数千至数万道题目。以往合成数据生成方法多依赖于扩充现有指令数据集或从人工标注数据中筛选难题。本文提出QueST框架,创新性地结合难度感知图采样与难度感知拒绝微调技术,直接优化专用生成器以创造高难度编程问题。经训练的生成器在创造有益于下游性能的难题方面,甚至超越了GPT-4o的能力。我们利用QueST生成大规模合成编程问题,进而从具备长链思维推理能力的强教师模型中进行知识蒸馏,或对较小模型进行强化学习,两种场景均验证了其有效性。蒸馏实验显示显著性能提升:在QueST生成的10万道难题上微调Qwen3-8B-base后,其在LiveCodeBench上的表现超越了原版Qwen3-8B;额外加入11.2万例(即2.8万道人工编写问题配以多个合成解答)后,我们的8B模型性能与规模大得多的DeepSeek-R1-671B相当。这些发现表明,通过QueST生成复杂问题,为推进大型语言模型在竞赛编程与推理领域的前沿提供了一条有效且可扩展的路径。
集成大型语言模型(LLMs)作为一种有前景的方法,通过利用各模型的互补优势来超越单一模型的性能,已引起广泛关注。特别是,通过聚合模型的下一个词元概率分布来选择下一个词元,在多种任务中已被证明是有效的。然而,尽管在短答案生成中取得了成功,其在长文本生成中的应用仍待深入探索。本文指出,在长文本生成中采用现有集成方法时,需谨慎选择集成位置,因为标准做法——即对每个词元进行集成——往往会导致性能下降。我们识别出决定这些位置的两个关键因素:模型间的词元化不匹配以及它们在下个词元概率分布上的共识。基于此,我们提出了SAFE(稳定且快速的大型语言模型集成框架),该框架通过综合考虑这些因素进行选择性集成。为进一步提升稳定性,我们引入了一种概率锐化策略,将分散在代表同一单词的多个子词词元上的概率整合到单一代表性词元中。我们在包括MATH500和BBH在内的多样化基准测试上的实验表明,SAFE在准确性和效率上均优于现有方法,即使仅集成不到1%的词元也能实现性能提升。
尽管基础模型已在多个领域展现出潜力,天文学领域仍缺乏一个统一的框架来对其高度多样化的数据模态进行联合建模。本文介绍了AION-1,一个面向天文学的大规模多模态基础模型家族。AION-1采用两阶段架构整合了异质成像、光谱和标量数据:首先进行模态特定的标记化处理,随后基于Transformer对跨模态标记序列进行掩码建模。该模型在五大天文巡天项目上进行了预训练,包括Legacy Survey、Hyper Suprime-Cam (HSC)、Sloan Digital Sky Survey (SDSS)、Dark Energy Spectroscopic Instrument (DESI)和Gaia,涵盖了超过2亿颗恒星、星系和类星体的观测数据。仅使用一个冻结的编码器,AION-1在广泛的下游任务中取得了优异成果,包括星系与恒星属性估计、星系形态分类、基于相似性的检索、星系图像分割以及光谱超分辨率。我们发布了参数规模从3亿到31亿不等的AION-1模型变体。超越天文学范畴,AION-1为多模态科学基础模型提供了一个可扩展的蓝图,能够无缝整合带有噪声、特定于仪器的观测数据。所有代码、标记器、预训练权重及轻量级评估套件均以开源许可证形式发布。
尽管通过搜索实现的推理时扩展已彻底改变了大型语言模型,但将这些成果转化到图像生成领域却面临重重困难。近期尝试将搜索策略应用于连续扩散模型的效果有限,简单的随机采样往往表现最佳。我们证明,视觉自回归模型的离散、序列特性使其在图像生成中能够有效进行搜索。研究表明,束搜索显著提升了文本到图像的生成质量,使一个20亿参数的自回归模型在各项基准测试中超越了120亿参数的扩散模型。系统性的消融实验显示,这一优势源于离散的标记空间,它允许早期剪枝和计算重用,而我们的验证器分析则揭示了速度与推理能力之间的权衡。这些发现表明,在视觉生成的推理时优化中,模型架构而不仅仅是规模,起着至关重要的作用。
诚实对齐——大型语言模型(LLMs)识别其知识边界并表达校准后置信度的能力——对于可信部署至关重要。现有方法要么依赖于无需训练的置信度估计(如标记概率、自一致性),要么依赖于带有正确性标注的训练校准。尽管有效,但通过训练校准实现普遍诚实对齐需要昂贵的大规模标注。为支持高效标注训练,我们提出了启发后校准(EliCal)这一两阶段框架,首先利用低成本的自一致性监督启发内部置信度,随后使用少量正确性标注对此置信度进行校准。为支持大规模研究,我们发布了HonestyBench基准,涵盖十个自由形式问答数据集,包含56万训练实例和7万评估实例,均标注了正确性和自一致性信号。实验表明,EliCal仅需1千个正确性标注(全监督的0.18%)即可实现接近最优的对齐,并在未见过的MMLU任务上展现出优于仅校准基线的对齐性能,为LLMs的普遍诚实对齐提供了可扩展的解决方案。
基于指令的图像编辑已取得显著进展;然而,仅通过监督微调训练的模型往往过度拟合标注模式,限制了其在训练分布之外探索和泛化的能力。为此,我们提出了Edit-R1,一种基于策略优化的新型后训练框架,专为指令驱动的图像编辑设计。具体而言,我们采用扩散负感知微调(DiffusionNFT),这是一种与流匹配前向过程一致的无似然策略优化方法,从而支持使用高阶采样器并实现更高效的训练。另一个关键挑战在于缺乏统一的奖励模型,这源于编辑指令和任务的多样性。为弥合这一差距,我们利用多模态大语言模型(MLLM)作为无需训练的统一奖励模型,通过其输出逻辑提供细粒度反馈。此外,我们精心设计了一种低方差群体过滤机制,以减少MLLM评分噪声并稳定优化过程。采用此框架训练的UniWorld-V2,在ImgEdit和GEdit-Bench基准测试中分别取得了4.49和7.83的分数,达到了业界领先水平。重要的是,我们的框架具有模型无关性,当应用于如Qwen-Image-Edit和FLUX-Kontext等多样化基础模型时,均带来了显著的性能提升,展现了其广泛的适用性。代码和模型已公开于https://github.com/PKU-YuanGroup/UniWorld-V2。
近期,无需训练的注意力控制方法取得了显著进展,为现有生成模型提供了灵活高效的文本引导编辑能力。然而,当前方法在实现强大编辑效果的同时,难以保持与源内容的一致性。这一局限在多轮编辑和视频编辑中尤为突出,视觉误差会随时间累积。此外,现有方法大多强制全局一致性,限制了在保留其他属性的同时修改特定属性(如纹理)的能力,从而阻碍了细粒度编辑。最近,从U-Net到MM-DiT的架构转变带来了生成性能的显著提升,并引入了一种新颖的文本与视觉模态融合机制。这些进展为解决以往方法未能克服的挑战铺平了道路。通过对MM-DiT的深入分析,我们识别出其注意力机制的三个关键洞见。基于这些发现,我们提出了ConsistEdit,一种专为MM-DiT设计的新型注意力控制方法。ConsistEdit融合了仅视觉注意力控制、掩码引导的预注意力融合以及对查询、键和值令牌的差异化处理,以生成一致且与提示对齐的编辑结果。大量实验表明,ConsistEdit在广泛的图像和视频编辑任务中均达到了最先进的性能,包括结构一致和不一致的场景。与以往方法不同,它首次实现了在所有推理步骤和注意力层上的无手工编辑,显著增强了可靠性和一致性,从而支持稳健的多轮和多区域编辑。此外,它还支持结构一致性的渐进调整,实现了更精细的控制。
复制人工智能研究对于大型语言模型(LLM)代理而言是一项关键却充满挑战的任务。现有方法往往难以生成可执行代码,主要归因于背景知识的不足以及检索增强生成(RAG)方法的局限性,后者未能捕捉到参考文献中隐含的技术细节。此外,先前的方法常常忽视了宝贵的实现层面代码信号,并缺乏支持多粒度检索与重用的结构化知识表示。为应对这些挑战,我们提出了可执行知识图谱(xKG),这是一个模块化且可插拔的知识库,能自动整合从科学文献中提取的技术见解、代码片段及领域特定知识。当xKG被集成到采用两种不同LLM的三种代理框架中时,在PaperBench上展现了显著的性能提升(使用o3-mini时提升10.9%),证明了其作为自动化AI研究复制的通用且可扩展解决方案的有效性。代码将在https://github.com/zjunlp/xKG 发布。
长链式思维推理已成为大型语言模型高级推理的基石。尽管近期的验证-优化框架已使专有模型能够解决奥林匹克级别的难题,但其有效性依赖于强大且可靠的验证与修正能力,而这些能力在开放权重的小规模模型中仍显脆弱。本研究证明,即使在处理困难任务时仅具备较弱的验证与优化能力,通过我们提出的概率范式——深度自进化推理(DSER),此类模型的推理极限仍可被显著拓展。我们将迭代推理概念化为马尔可夫链,其中每一步代表解空间中的随机转移。核心洞见在于,只要改进的概率略微超过退化的概率,收敛至正确解便得到保证。通过并行运行多个长时程的自进化过程,DSER放大了这些微小的积极趋势,使模型能够渐进地逼近正确答案。实证中,我们将DSER应用于DeepSeek-R1-0528-Qwen3-8B模型。在极具挑战性的AIME 2024-2025基准测试上,DSER解决了9个先前无法解决的问题中的5个,并提升了整体性能,使这一紧凑模型通过多数投票超越了其6000亿参数教师的单轮准确率。除了在测试时扩展的即时效用外,DSER框架还用于诊断当前开放权重推理器的根本局限。通过清晰界定其在自我验证、优化及稳定性方面的不足,我们的研究为开发具备强大内在自进化能力的下一代模型确立了明确的研究议程。
预训练时间序列模型已实现了仅需推理的预测系统,无需针对特定任务进行训练即可生成准确预测。然而,现有方法主要集中于单变量预测,限制了其在现实世界场景中的适用性,这些场景中多变量数据和协变量起着至关重要的作用。我们提出了Chronos-2,一种能够以零样本方式处理单变量、多变量及协变量信息预测任务的预训练模型。Chronos-2采用了一种群体注意力机制,通过高效地在组内多个时间序列间共享信息,促进了上下文学习(ICL),这些组可能代表相关序列集、多变量序列的不同变量,或预测任务中的目标与协变量。这些通用能力是通过在合成数据集上训练实现的,这些数据集在单变量序列上施加了多样化的多变量结构。Chronos-2在三个综合基准测试中展现了最先进的性能:fev-bench、GIFT-Eval和Chronos Benchmark II。在强调多变量和协变量信息预测的fev-bench上,Chronos-2的通用ICL能力带来了相较于现有模型的显著提升。在涉及协变量的任务中,它始终以较大优势超越基线模型。能源和零售领域的案例研究进一步凸显了其实用优势。Chronos-2的上下文学习能力确立了其作为通用预测模型的地位,可直接应用于现实世界的预测流程中。
智能体AI的快速发展标志着人工智能进入了一个新阶段,大型语言模型(LLMs)不再仅仅是响应,而是能够行动、推理和适应。本综述追溯了构建智能体AI的范式转变:从基于流水线的系统——其中规划、工具使用和记忆由外部逻辑编排,到新兴的模型原生范式——这些能力被内化于模型参数之中。我们首先将强化学习(RL)定位为实现这一范式转变的算法引擎。通过将学习从模仿静态数据重新定义为结果驱动的探索,RL支撑了跨语言、视觉和具身领域的LLM + RL + 任务的统一解决方案。在此基础上,本综述系统回顾了每种能力——规划、工具使用和记忆——如何从外部脚本模块演变为端到端学习的行为。此外,它还探讨了这一范式转变如何重塑了主要的智能体应用,特别是强调长期推理的深度研究智能体和强调具身交互的GUI智能体。最后,我们讨论了智能体能力的持续内化,如多智能体协作和反思,以及未来智能体AI中系统和模型层角色的演变。这些发展共同勾勒出模型原生智能体AI作为一个集成学习和交互框架的清晰轨迹,标志着从构建应用智能的系统向开发通过经验增长智能的模型的转变。
Meta旗下的Codec Avatars实验室推出了Embody 3D,这是一个多模态数据集,包含了来自439名参与者在多摄像头采集阶段收集的500小时个人3D运动数据,总计超过5400万帧的3D运动追踪。该数据集涵盖了广泛的单人运动数据,包括指定动作、手势和移动;以及多人的行为和对话数据,如讨论、不同情绪状态下的对话、协作活动,以及在类似公寓空间中的共同生活场景。我们提供了包括手部追踪和身体形态在内的人体运动追踪数据、文本注释,以及每位参与者的独立音频轨道。
近期,图像生成领域取得了显著进展,这些进展往往由诸如GPT-4o Image Gen等专有系统推动,不断引入新功能,重塑用户与这些模型的互动方式。然而,现有的基准测试往往滞后,未能捕捉到这些新兴应用场景,导致社区对进展的认知与正式评估之间出现脱节。为解决这一问题,我们提出了ECHO框架,该框架直接从模型实际使用证据中构建基准测试:即展示新颖提示和用户定性判断的社交媒体帖子。将此框架应用于GPT-4o Image Gen,我们构建了一个包含超过31,000条提示的数据集,这些提示均从相关帖子中精选而来。我们的分析表明,ECHO(1)发现了现有基准测试中缺失的创意与复杂任务,如跨语言重新渲染产品标签或生成指定金额的收据,(2)更清晰地区分了最先进模型与其他替代方案,以及(3)汇集了社区反馈,我们利用这些反馈来指导模型质量指标的设计(例如,测量观察到的颜色、身份和结构变化)。我们的网站地址为https://echo-bench.github.io。
代理强化学习(RL)训练大型语言模型在推理过程中自主调用工具,其中搜索是最常见的应用场景。这些模型在多步推理任务中表现出色,但其安全性特性尚未得到充分理解。本研究表明,经过RL训练的搜索模型继承了指令微调中的拒绝机制,通常通过将有害请求转化为安全查询来规避风险。然而,这种安全性是脆弱的。两种简单的攻击方法——一种强制模型以搜索开始响应(搜索攻击),另一种鼓励模型反复搜索(多重搜索攻击)——会引发一连串的有害搜索和回答。在涵盖两个模型系列(Qwen、Llama)及本地与网络搜索的实验中,这些攻击使拒绝率最多降低了60.0%,回答安全性降低了82.5%,搜索查询安全性降低了82.4%。攻击之所以成功,是因为它们在模型生成继承的拒绝标记之前,诱使模型生成了有害的、反映请求的搜索查询。这揭示了当前RL训练的一个核心弱点:它奖励生成有效查询的持续行为,却未考虑这些查询的有害性。因此,RL搜索模型存在用户易于利用的漏洞,亟需开发以安全为导向的代理RL流程,优化安全搜索。
用于计算机操作的多模态代理完全依赖于原始操作(点击、输入、滚动),这些操作需要精确的视觉定位和冗长的执行链,导致级联故障和性能瓶颈。尽管其他代理利用丰富的编程接口(API、MCP服务器、工具),但计算机操作代理(CUAs)仍然与这些能力隔绝。我们提出了UltraCUA,这是一个基础模型,通过混合操作——无缝整合图形用户界面(GUI)原始操作与高级编程工具调用——来弥合这一差距。为实现这一目标,我们的方法包含四个关键组成部分:(1)一个自动化流程,从软件文档、开源仓库和代码生成中扩展编程工具;(2)一个合成数据引擎,生成超过17,000个可验证任务,覆盖现实世界的计算机操作场景;(3)大规模高质量混合操作轨迹收集,包含低级GUI操作和高级编程工具调用;(4)两阶段训练流程,结合监督微调与在线强化学习,实现低级与高级操作之间的策略性切换。通过我们的7B和32B模型进行的实验显示,相较于最先进的代理,UltraCUA模型在OSWorld上实现了平均22%的相对提升,同时步骤执行速度提高了11%。在WindowsAgentArena上的跨域评估中,我们的模型达到了21.7%的成功率,优于基于Windows数据训练的基线模型。混合操作机制被证明至关重要,在保持执行效率的同时减少了错误传播。
随着信息呈指数级增长,企业面临着将非结构化数据转化为连贯、可操作洞察的日益增长的压力。尽管自主代理展现出潜力,但它们往往难以应对领域特定的细微差别、意图对齐以及企业集成。我们提出了企业深度研究(EDR),这是一个多代理系统,集成了(1)用于自适应查询分解的主规划代理,(2)四个专业搜索代理(通用、学术、GitHub、LinkedIn),(3)一个基于MCP的可扩展工具生态系统,支持NL2SQL、文件分析及企业工作流,(4)一个用于数据驱动洞察的可视化代理,以及(5)一个检测知识缺口并更新研究方向的反思机制,该机制可选地结合人类在环的指导。这些组件实现了自动化报告生成、实时流处理和无缝企业部署,已在内部数据集上得到验证。在包括DeepResearch Bench和DeepConsult在内的开放式基准测试中,EDR在无需任何人工干预的情况下超越了最先进的代理系统。我们发布了EDR框架及基准轨迹,以推动多代理推理应用的研究。 代码位于 https://github.com/SalesforceAIResearch/enterprise-deep-research, 数据集位于 https://huggingface.co/datasets/Salesforce/EDR-200。
基于知识的视觉问答(KB-VQA)要求视觉语言模型(VLMs)将视觉理解与外部知识检索相结合。尽管检索增强生成(RAG)通过结合知识库查询在这一任务中取得了显著进展,但在多模态查询的质量和检索结果的相关性方面仍存在挑战。为克服这些难题,我们提出了一种新颖的三阶段方法,称为Wiki-PRF,包括处理、检索和过滤阶段。处理阶段动态调用视觉工具以提取精确的多模态信息用于检索;检索阶段整合视觉与文本特征,实现多模态知识检索;过滤阶段则对检索结果进行相关性筛选与聚焦。为此,我们引入了一种视觉语言模型,该模型通过强化学习方式,以答案准确性和格式一致性作为奖励信号进行训练,从而增强模型的推理能力、精准查询的工具调用能力以及对无关内容的过滤能力。在基准数据集(E-VQA和InfoSeek)上的实验表明,该方法在答案质量上实现了显著提升(分别提高了36.0和42.8),达到了当前最优性能。代码已发布于https://github.com/cqu-student/Wiki-PRF。
大型语言模型(LLMs),如OpenAI-o1与DeepSeek-R1,已展现出卓越的推理能力。为进一步提升LLM性能,近期诸如深度研究等代理系统,将网络交互融入LLM推理过程,以降低不确定性并减少潜在错误。然而,现有研究多聚焦于推理效能,常忽视代理系统的效率问题。本研究通过一项全面的实证分析,揭示了网络交互型代理系统中的效率瓶颈。我们将端到端延迟分解为两大主要部分:LLM API延迟与网络环境延迟。通过对15种模型及5家供应商的广泛实证研究,我们发现基于API的代理系统存在高度变异性。特别地,网络环境延迟在基于网络的代理系统中可占总延迟的53.7%。为优化延迟,我们提出了SpecCache,一个结合了推测执行的缓存框架,旨在减少网络环境开销。在两项标准基准测试上的大量评估表明,相较于随机缓存策略,我们的方法将缓存命中率提升至最高58倍,同时将网络环境开销降低至最多3.2倍,且未损害代理系统的性能。
视觉-语言模型(VLMs)在单轮基准测试中展现了卓越的能力,然而实际应用往往需要更为复杂的多轮对话。现有的多轮对话数据集(如MMDU、ConvBench)仅部分捕捉了用户所遇对话场景的广度和深度。本研究中,我们推出了MultiVerse,一个新颖的多轮对话基准测试,包含647个对话——每个对话平均四轮——源自12个流行的VLM评估基准。MultiVerse涵盖484项任务和484个互动目标,主题广泛,从事实知识与感知到数学和编程等高级推理任务。为促进全面评估,我们提出了一种基于清单的评估方法,利用GPT-4o作为自动评估器,衡量包括感知准确性、语言清晰度和事实正确性在内的37个关键方面的表现。我们在MultiVerse上评估了18个VLMs,发现即便是最强大的模型(如GPT-4o)在复杂的多轮对话中也仅能达到50%的成功率,凸显了该数据集的挑战性。值得注意的是,我们发现为较小或较弱的模型提供完整的对话上下文能显著提升其表现,强调了上下文学习的重要性。我们相信MultiVerse是评估VLMs多轮互动能力的理想平台。
近期,大型推理模型(LRMs)的进展使其在数学和编程等复杂任务上展现出卓越性能,这得益于生成长链思维(CoT)轨迹的能力。本文中,我们识别并系统分析了一种关键漏洞,称之为“推理分心”,即LRMs被恶意嵌入提示中的无关但复杂的任务所干扰,偏离其主要目标。通过对多种模型和基准的全面研究,我们发现即使是当前最先进的LRMs也极易受此影响,注入的干扰因素可使任务准确率下降高达60%。进一步揭示,某些对齐技术会加剧这一弱点,模型可能表现出隐性顺从,在推理过程中遵循隐藏的对抗性指令,同时在最终输出中将其掩盖。为应对这些风险,我们提出了一种基于训练的防御策略,结合监督微调(SFT)和强化学习(RL)在合成对抗数据上进行训练,在面对挑战性干扰攻击时,将鲁棒性提升超过50个百分点。我们的研究确立了“推理分心”作为对LRM可靠性的一种独特且紧迫的威胁,并为构建更安全、更可信的推理系统提供了实用步骤。
微调专用生成式评估器已成为满足训练和测试期间可扩展评估需求的热门范式。然而,近期研究主要集中于应用新方法(如强化学习,RL)来训练评估器,而避开了大规模数据驱动的发展。在本研究中,我们聚焦于数据扩展,精心策划了包含250万样本的数据集,涵盖五项独特的评估任务(成对比较、步骤级评估、无参考与有参考验证,以及单一评分)及多个专注于推理评估的领域。利用这些数据,我们采用简单的迭代拒绝采样监督微调(SFT)方法,训练了基础自动推理评估器(FARE)系列,包括8B和20B(其中3.6B为活跃参数)参数的评估器。FARE-8B挑战了更大规模的专用RL训练评估器,而FARE-20B则为开源评估器树立了新标杆,超越了70B+的专用评估器。除了静态基准测试外,我们还在实际任务中评估了FARE:作为推理时重排序器,FARE-20B在MATH任务上达到了近乎预言机的性能。作为RL训练中的验证器,FARE相较于字符串匹配验证器,将下游RL训练模型的性能提升了高达14.1%。当以FARE为起点进行持续微调时,FARE-Code在评估测试用例质量上,比gpt-oss-20B高出65%。
若你拥有一款鲸语至英语的AI翻译器,该如何验证其是否有效?是否需要与动物互动,或是依赖于诸如温度等具象的观测数据?我们提供的理论与概念验证实验证据表明,对于足够复杂的语言,互动乃至观察或许并非必需。人们或许仅凭翻译器的英文输出就能对其作出评估,这为安全性、伦理考量及成本控制带来了潜在优势。这是无参考译文情况下机器翻译质量评估(MTQE)的一个实例。核心挑战在于识别“幻觉”,即那些看似流畅合理实则错误的翻译。我们建议采用逐段翻译结合经典的NLP随机排列测试来评估翻译器。其思路是将动物交流逐句翻译,并评估翻译结果在顺序上比随机排列时更合理的频率。在数据稀缺的人类语言及构造语言上进行的概念验证实验,展示了这一评估方法的潜在效用。这些人类语言实验仅用于在数据稀缺条件下验证我们的无参考指标。研究发现,该指标与基于参考译文的标准评估高度相关,而参考译文在我们的实验中是可获取的。我们还进行了理论分析,表明在学习翻译的初期阶段,互动可能既非必要也非高效。
本研究系统探讨了针对卫星土地利用分类的定制卷积神经网络架构,在不依赖预训练模型的情况下,在EuroSAT数据集上实现了97.23%的测试准确率。通过三个逐步迭代的架构设计(基线模型:94.30%,CBAM增强模型:95.98%,以及平衡多任务注意力模型:97.23%),我们识别并解决了卫星图像分类中的特定失效模式。我们的主要贡献是提出了一种新颖的平衡多任务注意力机制,该机制将用于空间特征提取的坐标注意力与用于光谱特征提取的压缩激励模块相结合,并通过可学习的融合参数进行统一。实验结果表明,该可学习参数自主收敛至约0.57的α值,表明空间和光谱模态在卫星图像中具有近乎同等的重要性。我们采用渐进式DropBlock正则化(按网络深度从5%到20%)和类别平衡损失加权来解决过拟合和混淆模式不平衡问题。最终的12层架构实现了Cohen's Kappa系数0.9692,所有类别的准确率均超过94.46%,展示了置信度校准,正确与错误预测之间的差距达到24.25%。我们的方法在无需外部数据的情况下,达到了与微调ResNet-50(98.57%)仅相差1.34%的性能,验证了系统化架构设计在特定领域应用中的有效性。完整的代码、训练模型和评估脚本均已公开。
设计高效的智能体系统需要在动态且不确定的环境中无缝组合和集成智能体、工具及模型。现有方法大多依赖静态的语义检索技术来发现工具或智能体。然而,由于能力描述的不完整和检索方法的局限性,现有组件的有效复用与组合仍面临挑战。组件选择的问题在于决策未基于能力、成本和实时效用。为解决这些难题,我们引入了一种受背包问题启发的结构化、自动化智能体系统组合框架。该框架使组合智能体能够系统性地识别、选择并组装最优的智能体组件集合,同时兼顾性能、预算限制和兼容性。通过动态测试候选组件并实时建模其效用,我们的方法简化了智能体系统的组装过程,促进了资源的可扩展复用。使用Claude 3.5 Sonnet在五个基准数据集上的实证评估表明,基于在线背包的组合器始终位于帕累托前沿,与基线相比,在显著降低组件成本的同时实现了更高的成功率。在单智能体设置中,在线背包组合器的成功率相比检索基线提升了高达31.6%。在多智能体系统中,当从包含100多个智能体的库中选择时,在线背包组合器将成功率从37%提升至87%。这一显著的性能差距证实了我们的方法在不同领域和预算约束下的强大适应性。
利用外观对象的不同表现形式(如图像或文本)将外观迁移至3D资产,因其在游戏、增强现实及数字内容创作等行业的广泛应用而备受关注。然而,当输入与外观对象间的几何结构差异显著时,现有最先进的方法仍显不足。直接应用3D生成模型看似直观,但我们证明这最终难以产生令人满意的结果。相反,我们提出了一种受通用引导启发的原则性方法。给定一个基于图像或文本预训练的整流流模型,我们的免训练方法通过定期添加引导与采样过程互动。这种引导可建模为可微损失函数,我们尝试了两种不同类型的引导,包括针对外观的部分感知损失和自相似性损失。实验表明,我们的方法成功地将纹理和几何细节迁移至输入3D资产,在质量和数量上均超越基线方法。同时,我们指出传统评估指标因无法聚焦局部细节及在缺乏真实数据情况下比较不同输入,而不适用于此任务。因此,我们采用基于GPT的系统客观排序输出,以评估外观迁移质量,确保评估的稳健性和人性化,这一点在我们的用户研究中得到进一步证实。除展示场景外,我们的方法具有通用性,可扩展至不同类型的扩散模型和引导函数。
在复杂的推理任务中实现有效的人机协作,要求用户不仅接收输出,更要理解并参与模型的思考过程。然而,诸如思维链(CoT)等方法生成的单一文本阻碍了这一目标,因为现有界面缺乏实时语音化表达和强大的用户打断功能。我们提出了AsyncVoice Agent系统,其异步架构将流式大语言模型后端与对话式语音前端解耦。这一设计使得叙述与推理能够并行运行,使用户能够随时打断、查询并引导模型的推理过程。客观基准测试表明,与单一基线相比,该方法将交互延迟降低了600倍以上,同时确保了高保真度和具有竞争力的任务准确性。通过与模型思维过程建立双向对话,AsyncVoice Agent为构建更高效、可引导且可信赖的高风险任务人机系统提供了新范式。
大型语言模型在真实性与恭维奉承之间形成了一种内在的结构性权衡,这种权衡源于奖励优化过程中将帮助性与礼貌顺从混为一谈。这种潜在的偏见,被称为谄媚性,表现为对用户认同的偏好而非基于原则的推理。我们引入了Beacon,一个单轮强制选择基准测试,它能够在独立于对话上下文的情况下隔离这种偏见,从而精确测量事实准确性与顺从偏见之间的张力。对十二个最先进模型的评估显示,谄媚性可分解为稳定的语言和情感子偏见,每个子偏见都随模型能力的提升而增强。我们进一步提出了提示层面和激活层面的干预措施,这些措施能在相反方向上调节这些偏见,揭示了对齐内部几何结构作为真实性与社会合规判断之间动态流形的特性。Beacon将谄媚性重新定义为一种可测量的规范性泛化错误,为研究和缓解大规模生成系统中的对齐漂移提供了可复现的基础。
测试时扩展(TTS)已在数学和编程等任务中提升了推理模型(RMs)的表现,但其在机器翻译(MT)领域的有效性仍待深入探究。本文探讨了增加推理时计算量是否能提升翻译质量。我们评估了12个RMs在涵盖多个领域的多样化MT基准测试中的表现,考察了三种场景:直接翻译、强制推理外推以及后期编辑。研究发现,对于通用型RMs而言,TTS在直接翻译上带来的益处有限且不稳定,性能很快达到瓶颈。然而,通过领域特定的微调,TTS的效用得以释放,这种微调使模型的推理过程与任务需求对齐,从而带来直至最优自定推理深度的一致改进。我们还发现,强制模型超越其自然停止点进行推理会持续降低翻译质量。相比之下,TTS在后期编辑场景中表现出色,可靠地将自我修正转化为有益过程。这些结果表明,在MT中,推理时计算的价值不在于用通用模型增强单次翻译,而在于多步骤自我修正工作流等针对性应用,以及与任务专用模型的结合使用。
随着人工智能系统的不断进步,我们越来越多地依赖它们来与我们共同决策或为我们做出决策。为了确保这些决策与人类价值观相一致,我们不仅需要理解它们做出了什么决策,还要了解它们是如何得出这些决策的。推理语言模型不仅提供最终答案,还展示(部分透明的)中间思考轨迹,这为我们研究AI的程序性推理提供了及时的契机。与数学和编程问题通常有客观正确答案不同,道德困境是聚焦过程评估的绝佳试验场,因为它们允许多种可辩护的结论。为此,我们提出了MoReBench:包含1000个道德场景,每个场景都配有一套专家认为在推理这些场景时必须包含(或避免)的评分标准。MoReBench涵盖了超过2.3万条标准,包括识别道德考量、权衡利弊以及提供可操作的建议,以覆盖AI在辅助人类道德决策及自主做出道德决策时的各种情况。此外,我们还精心编制了MoReBench-Theory:150个示例,用于测试AI是否能在规范伦理学的五大主要框架下进行推理。我们的研究结果表明,规模定律及现有的数学、编程和科学推理任务基准无法有效预测模型执行道德推理的能力。模型还表现出对特定道德框架(如边沁的行为功利主义和康德的义务论)的偏好,这可能是流行训练范式的副作用。这些基准共同推动了以过程为中心的推理评估,朝着更安全、更透明的AI迈进。