每日精选AI研究论文及翻译
AI编程助手在科研工作中应用日益广泛,但其端到端的自主研究能力仍难以验证。我们提出了ResearchClawBench,这是一个横跨10个科学领域、包含40项任务的自主科学研究评估基准。每项任务都基于已发表论文,提供相关文献和原始数据,并在评估过程中隐藏目标论文。专家设计的多模态评分标准将目标科学成果分解为分项加权指标,既支持对目标论文级别的再发现评估,也为新发现留有空间。我们通过统一协议评估了七个自主研究智能体,并借助轻量级ResearchHarness评估了十七个原生大语言模型。当前系统距离可靠的再发现仍有显著差距:表现最强的自主智能体Claude Code平均得分为21.5,ResearchHarness中最优的大语言模型Claude-Opus-4.7平均得分为20.7,而前沿大语言模型均值仅为26.5。错误分析表明,失败主要集中在实验方案不匹配、证据不匹配以及科学核心缺失三个方面。ResearchClawBench为衡量自主科学研究进展提供了可复现的评估基准。
视觉语言模型(VLM)在许多任务中表现出色,但当关键信息无法直接观测时,它们仍难以应对空间推理问题。许多此类问题需要想象性感知:从不可见的视角推断可能观察到的内容、追踪穿过遮挡空间的路径,或将局部观测整合为连贯的空间表征。我们提出想象感知标记(Imaginative Perception Tokens, IPT),这是一种中间感知表征,能够外化VLM在替代空间配置下可能感知到的信息,同时保持与观测输入的一致性。 为研究这一能力,我们设计了三个任务:视角推理(Perspective Taking, PET)、路径追踪(Path Tracing, PT)和多视角计数(Multiview Counting, MVC),并构建了约2万个包含真实想象、答案和评估基准的样本数据集。以统一VLM BAGEL作为骨干模型,IPT监督持续提升了空间推理能力,其效果通常优于基于文本的思维链训练,甚至无需在推理时生成图像。在MVC任务中,IPT将准确率提升了3.4%,并在PT任务中与强大的闭源模型达到竞争性表现。此外,我们发现将IPT与仅标签监督结合能带来额外增益,而基于文本的思维链则可能显著降低性能,这表明当空间计算被迫通过语言进行时会出现模态不匹配。总体而言,IPT为推理未观测的空间结构提供了一种原则性的监督信号,既能提升泛化能力,又能生成可解释的中间表征。
大语言模型在各类下游任务中展现出令人瞩目的零样本能力。然而,它们在作为开箱即用的嵌入模型时仍存在不足,导致在大规模文本嵌入基准测试中性能欠佳。本文识别了造成这一缺陷的潜在原因。我们的动机源于一个意外发现:当文本嵌入被投影到词汇空间时,往往会偏向高频但信息量低的词元。我们认为,这种对高频词元的过度表达抑制了模型捕捉细微语义的能力。为解决这一问题,我们提出了EmbedFilter——一种简单的线性变换,旨在直接优化从大语言模型中提取的文本嵌入。具体而言,我们发现大语言模型中的去嵌入矩阵编码了一个潜在空间,该空间正积极将这些高频词元写入嵌入空间。通过过滤掉这一子空间,EmbedFilter抑制了高频词元的影响,从而增强语义表示。作为一项引人注目的副产品,这还实现了内在的降维,降低了索引存储并加速了检索,同时完全保留了优化后的嵌入质量。我们在多个大语言模型骨干上的实验表明,即使嵌入维度显著降低,配备EmbedFilter的大语言模型仍能实现更优的零样本下游性能。我们希望这些发现能为基于大语言模型的表示机制提供更深入的理解,并启发更原则性的设计以改进文本嵌入训练。我们的代码已开源在https://github.com/CentreChen/EmbFilter。
评估大语言模型调解员仍然具有挑战性,因为调解是一个实时演进的轨迹,受到争议方情绪、意图和情境变化的塑造。现有测试平台依赖于少数专家撰写的领域,主要变化在于策略姿态,并对每一轮对话针对每个话题进行评分,从而引入与主题无关的噪声。我们提出SoCRATES,一个用于在真实、多领域测试平台中评估主动型大语言模型调解员的基准测试。它通过一个跨八个领域的智能体流水线,从真实冲突中构建场景,探测五个社会认知适应维度(策略姿态、各方构成、历史长度、情绪反应性和文化身份),并通过一个主题局部评估器,仅对推进某一话题的轮次进行评分。该评估器与人类专家的一致性达到0.82,是每轮基线的两倍以上。在对八个前沿大语言模型的基准测试中,我们发现,即使在最强大的调解员手中,在多样且逼真的测试平台下,也只能弥合约三分之一的未调解共识差距,且表现因社会认知维度而异,这表明进展的关键在于针对不同条件的社会适应能力。
基因组基础模型的进展评估面临困难,原因是基准测试碎片化、评估协议不兼容以及任务特定报告方式。因此,模型在优越性或通用性方面的宣称往往难以直接比较。我们提出了GENEB,这是一个大规模诊断性基准,采用统一的基于探针的评估协议(包含少样本场景),对40个基因组基础模型的冻结表示进行评估,涵盖13个功能类别的100项任务。GENEB能够在模型规模、架构、分词策略和预训练数据方面进行受控比较,同时明确揭示任务层面的权衡关系。我们的分析表明,聚合排行榜并不稳定:模型排名在不同任务类别间差异显著,规模带来的收益有限且不一致,而架构和预训练数据对齐的作用常常超过参数数量。这些结果凸显了当前评估实践的局限性,并将GENEB定位为基因组机器学习中进行原则性比较和类别感知模型选择的参考框架。
我们提出了MMAEA(大规模多任务音频编辑基准),作为首个专为通用指令式音频编辑设计的综合性评估测试平台。在智能创作趋势的推动下,交互式编辑已从视觉领域(以图像领域的Nano-banana 2和视频领域的Gemini-Omni等模型为先驱)快速扩展到音频领域。然而,当前的评估基础设施严重滞后,仍然高度碎片化,局限于特定子领域或基础操作。与现有基准范围有限不同,MMAE覆盖了广泛的实际场景,包含7种不同的音频模态,包括声音、语音、音乐及其混合。此外,我们建立了一个全面的分类体系,涵盖6个任务复杂度层级(从基础修改到多跳推理和多轮编辑)、2个粒度层级以及8种不同的操作类型。通过人机协同精心策划,MMAE包含2000个高保真样本,并配备了一套开创性的基于评分标准的评估框架。通过将自由形式任务分解为17741个可验证标准,这种稳健的评分范式能够对指令遵循和上下文一致性进行精确的多维评估。我们对主流模型的广泛评估表明,当前系统远未实现可靠的编辑。值得注意的是,精确匹配率(EMR)持续低于5%,在复杂的混合模态任务中甚至降至绝对的0%,暴露出精确执行和结构鲁棒性的关键瓶颈。我们希望MMAE能够成为智能创作社区未来进步的催化剂,提供清晰的诊断路线图,并为下一代音频编辑系统建立标准化、持久的评估范式。
尽管交互式世界建模是一个关键的前沿领域,但在实际场景所需的多样化可控性方面仍探索不足。为弥补这一差距,我们提出AnchorWorld框架,通过增强交互完整性和灵活的世界定制机制推动自我中心模拟的发展。首先,我们以3D人体运动作为主要交互模态。为补充自我中心视角中视野外或被截断的身体部位,我们引入了一种辅助训练监督方法,该方法整合了与智能体第一人称感知系统解耦的外源视角。这使得模型能够观察智能体相对于环境的全身位置,从而促进人-世界交互更稳健的空间 grounding。此外,我们提出了一种简单而有效的机制来实现自演化世界的定制。该机制通过在统一的世界坐标系中定义锚点视图,并结合描述局部场景动态演化的文本描述来实现。实验结果表明,AnchorWorld显著优于最先进的基线模型,消融研究验证了我们关键设计的有效性。值得注意的是,我们的定制方案展现出令人满意的时空几何一致性,并严格遵循预设的演化动力学。
通用机器人智能常被理解为一种策略扩展问题:收集更多机器人示范数据,训练更大规模的视觉-语言-动作(VLA)模型,从而期待更广泛的泛化能力。本文立场认为,这一框架并不完整。核心瓶颈不仅在于策略学习,更在于缺乏将现实中丰富的非结构化行为数据转化为具身机器人监督信号的机制。人类动作、互联网视频、仿真推演及交互式示范中蕴含了大量关于任务、目标、接触、失败及物理约束的信息,然而,由于这些数据缺乏特定于机器人的动作标签、任务语义及奖励结构,大多数信息无法被机器人策略直接利用。我们识别出下一代机器人技术所缺失的四个组件:用于自动标注非结构化行为的数据接口、将人类动作重映射至机器人动作的具身接口、基于物理的3D推理世界模型接口、以及从视频及语言推断任务进程与成败的奖励接口。我们综述了机器人基础模型、跨具身数据集、从视频学习、世界模型及奖励建模等领域的最新进展,并提出一项研究议程:构建不仅能从机器人示范中学习,更能从更广泛的物理世界中学习的机器人系统。
物体插入旨在将参考对象无缝合成到背景图像的指定区域中。最近的扩散方法虽然实现了高视觉质量,但将插入简化为二维修复任务,无法对对象的三维姿态进行显式控制,从而限制了其实用性。我们提出DIRECT(参考组合与目标集成的分解注入框架),这是一种将交互式姿态操作与高保真二维图像合成相结合的新颖框架,可实现姿态可控的物体插入。该方法将插入条件分解为三个互补组件:从参考对象捕获视觉细节的外观引导、基于用户调整的三维代理生成的几何引导,以及来自目标背景的上下文引导。通过独立路径注入这些条件,DIRECT避免了特征纠缠,同时保留了参考外观、遵循用户指定的姿态,并使对象适应目标场景。我们还引入了一条自动数据构建流水线,以提高训练数据的多样性和质量。实验表明,DIRECT在几何可控性和视觉质量方面均优于先前方法。
自我进化智能体需要在部署后适应环境,但现有方法假设存在可用的学习循环,例如精心整理的技能、成功轨迹或验证信号。而在真实的开放世界部署中,这些可能均不提供,仅给出一个任务提示。本文研究开放世界自我进化问题,其中智能体必须从头构建自己的技能和验证信号,利用开放世界资源但无需目标任务监督。我们提出OpenSkill框架,该框架引导这一循环:从文档、代码仓库及网络中获取基础知识和验证锚点,将其综合为可迁移技能,并基于这些锚点而非目标答案构建虚拟任务,从而在自我构建的虚拟任务中完善技能。因此,开放世界既提供了待学习的知识,也提供了一个独立于监督的练习环境,而目标任务监督仅保留用于最终评估。在三个基准测试和两个目标智能体上,OpenSkill在满足无监督约束的同时取得了最佳自动通过率。分析表明,其技能可在不同模型间迁移而无需针对特定模型进行调整,并且其自建的验证器与真实结果保持一致,尽管从未访问过这些结果。
现有基准测试在评估大语言模型的工具集成推理能力时,均基于理想化的“顺境路径”,严重忽视了现实中的工具故障。为此,我们提出ToolMaze——一个面向工具集成推理智能体动态路径发现与错误恢复的基准测试。为区分系统性重规划与盲目试错,ToolMaze采用二维设计:基于有向无环图的拓扑复杂度,以及工具扰动(显式/隐式、瞬时/永久)的2×2分类体系。评估结果表明,所有模型在面临扰动时性能均有所下降,其中隐式语义故障场景下的降幅最为显著。受系统性过度信任受损输出的驱动,此类场景下的扰动恢复率骤降约37%,而复杂拓扑结构则使智能体陷入无效试错循环。关键的是,智能体的容错能力随模型规模提升的速度比基本任务执行慢3.66倍,凸显动态重规划是模型扩展或提示工程无法解决的特殊瓶颈。数据和代码已开源至https://github.com/Zhudongsheng75/ToolMaze。
视频理解正被多模态大语言模型(MLLMs)快速重塑,研究焦点已从短视频片段转向长视频、多模态及知识密集型视频场景。这些场景要求模型在有限计算资源下处理稀疏证据、长程依赖、多模态对齐并实现可靠推理。本文以人类视角审视基于LLM的视频理解,围绕三大功能能力组织:观看、记忆与推理。该视角并非将视频任务视为孤立基准,而是为分析视频MLLM如何获取证据、保持上下文并生成基于事实的输出提供统一框架。我们提出一种形式化描述,将视频理解系统表征为感知表征、记忆状态、推理轨迹与最终预测。基于此形式化描述,我们识别出时空感知、高效长视频处理、记忆建模、流式理解及忠实推理等挑战。代表性方法按其视频MLLM系统中的角色进行组织:观看涵盖细粒度、全方位、音视频融合及高效感知;记忆包括离线与流式记忆;推理则涵盖纯文本推理与基于视频的思维。进一步考察了自我中心视角、体育、教学、医疗及叙事视频等应用领域,并覆盖了跨任务类型、监督格式、模态及能力维度的训练数据集与评估基准。最后,我们概述了可扩展、具记忆意识且基于证据的视频智能所面临的开放问题与未来方向。相关工作将持续追踪于 https://github.com/marinero4972/Awesome-HumanView-VideoUnderstanding。
持久性AI助手(例如OpenClaw)会在长期交互中积累大量相互关联的记忆。随着记忆不断增长,这些记忆可能相互强化、在不同情境下产生分歧,甚至直接冲突,使正确辅助取决于记忆关系而非孤立回忆。现有长期记忆基准测试很少探究代理在下游任务中如何保留并利用此类关系。为填补这一空白,我们提出SubtleMemory——一个用于长期运行AI代理中细粒度关系记忆辨别的基准测试。SubtleMemory构建了关系控制的潜在语义构件,其变体可体现互补性、细微差别或矛盾关系,并将其嵌入逼真的用户-代理交互历史中,要求代理在后续查询与指令中恢复分布式关系结构。该基准测试包含基于10段长历史的1,522个评估实例,依托1,090组关系控制记忆变体集,涵盖用户相关及用户无关的查询。通过评估六套独立记忆系统、两个带有原生记忆模块的Claw型代理,以及三个带有插件记忆模块的Claw型代理,我们发现当前系统在细粒度关系记忆辨别方面仍显薄弱。我们进一步引入诊断协议,揭示其在记忆保留、检索及下游推理阶段的不同能力画像。
我们介绍了UnpredictaBench,这是一项评估大型语言模型(LLMs)捕捉真实潜在分布能力的测试。随着LLMs越来越多地被用作其他实体的替代品(例如,在经济模拟中替代人类),许多模型倾向于坍缩到单一合理答案,导致无法捕捉真实系统的不可预测性。近期在提升输出多样性方面的工作对此场景并不足够:模拟需要的是与目标分布校准的样本,而不仅仅是多样化的输出。UnpredictaBench提炼了该问题的一个简化但基础版本:从个体目标分布中抽取结果,包括经典统计分布、随机程序诱导的分布,以及描述随机过程的自然语言场景。我们引入了448个这样的问题,并配合KS@N这一通用评估指标,该指标通过Kolmogorov-Smirnov统计检验量化模型输出近似黑盒目标分布的程度。这表示在样本量为N时,我们未能拒绝模型样本与真实样本差异的比率,更大的N意味着更高难度。在测试开放与专有模型时,我们发现分布能力存在巨大差异。例如,当模型生成样本量为100时(KS@100,我们的标准指标),得分范围从接近0到超过20%。没有模型能在KS@100上达到40%以上,表明分布采样作为一种能力仍有显著提升空间。尽管增加推理步骤可以略微提升分数,但我们发现没有立即可行的解决方案。UnpredictaBench表明,即使简单的分布模拟仍然具有挑战性,这使其成为将LLMs用作复杂系统替代品的必要第一步。
因果图为揭示机制提供了高级语言。近期研究利用大型语言模型(LLMs)来恢复外部世界过程的因果图。然而,本文转而使用因果图对LLM推理本身进行建模,为利益相关者提供关于模型如何感知和组织高层概念以产生预测的透明视图。我们提出了一种构建此类图的四阶段方法。给定目标LLM和一组文本示例,我们的方法能够发现具有类别区分性且人类可解释的概念,并将每个输入映射到LLM感知的概念状态。随后,我们引入了一种受MCMC启发的反事实增强过程,通过反事实链扩展稀疏的观测数据。这使得基于σ-CG的稳定因果发现成为可能,并生成信息丰富且可解释的图。我们将该方法应用于三个LLM,涵盖疾病诊断、情感分析和LLM作为裁判的分类任务。我们评估了所学图的预测保真度和结构稳定性,以及受MCMC启发的增强过程的收敛性和下游效用。结果表明,所发现的因果图捕捉到了与LLM推理一致的有意义依赖关系。综上所述,本文为LLM的概念级可解释性奠定了基础。
尽管视觉-语言模型(VLMs)展现出强大的视觉推理能力,但其空间推理能力很大程度上仍局限于观测图像和面向文本的思维链。当仅有有限的自我中心观测可用时,它们往往难以推断未观察到的布局、保持跨视角一致性以及从替代视角进行推理。在这项工作中,我们将该问题视为想象性思考,即VLM在推理过程中通过与世界模拟器交互来主动获取想象出的视觉证据。我们提出Astra,一个赋予VLM以动作条件视觉想象能力的代理式空间推理框架。具体而言,Astra将经过强化学习训练的VLM策略Astra-VL与基于Bagel的世界模拟器Astra-WM相结合,后者能够从上下文图像和自然语言相机运动生成新视角观测。为了提供可靠的想象证据,Astra-WM通过视角一致性调优进行训练,以提升跨视角的姿态和内容一致性。在强化学习阶段,我们提出了一种世界模拟器在环的两阶段强化学习课程,以稳定工具使用探索,并提升模型仅在想象观测优于直接回答时调用模拟器的能力。实验表明,世界模拟器和代理策略均不可或缺:在MMSI-Bench上,Astra-WM将经模拟器增强的Gemini-3-Flash从45.1提升至49.5;而Astra-VL则将Qwen3-VL主干在MMSI-Bench上从29.8提升至38.8,在MindCube上从36.8提升至42.7。这些结果表明,想象观测能够提供有用的空间证据,但有效的世界模型增强推理需要学习何时、何处以及如何想象。
在本研究中,我们致力于扩展SHARP——这一流行的逼真视图合成方法,实现从传统透视相机到广角、鱼眼及全景球面等连续相机系统的通用单目渲染。为突破SHARP基于针孔模型的假设,我们的核心思想是将各类图像统一对齐到一个全景隐空间。为此,我们提出UniSHARP,在特征空间和高斯空间中进行隐式对齐。具体而言,高斯基元沿着射线和径向距离排布,形成基于射线的通用表示;同时,从UniK3D启发编码器中提取的2D语义特征与3D空间特征被联合解码,以生成完整的高斯点云。为全面评估该方法,我们构建了一个覆盖多场景、多成像系统的基准数据集,并根据视场角进行分层,以实现对通用单目渲染任务的细粒度评估。在提出的基准上进行的广泛实验表明,UniSHARP表现出色,大幅优于其他方法。项目页面见:https://insta360-research-team.github.io/Unisharp-website/
我们认为,高质量的运动数据能够在训练初期引导跟踪策略走向更优的优化轨迹。本文提出了LIMMT(少即是多:运动跟踪)框架。据我们所知,这是首个以数据为中心的基于物理的人形运动跟踪研究。我们不仅剔除低质量及错误片段,更从物理可行性、多样性和复杂性三个维度定义运动数据质量。实验表明,即使仅用不到3%的AMASS数据训练,其跟踪性能也优于使用完整数据集的效果。此外,我们对网络来源的动作捕捉数据进行了数据清洗。大量实验与分析验证了本框架的有效性。
我们介绍dots.tts,一个20亿参数的连续自回归文本转语音(TTS)基础模型,在连续潜在空间中建模语音。与现有连续自回归模型相比,我们的关键创新体现在三个方面。首先,我们通过多目标训练AudioVAE,构建了一个语义结构清晰且利于预测的连续语音空间。其次,在流匹配头部中采用全历史条件约束,以保持长程一致性并减少生成过程中的漂移。第三,对流匹配头部应用无奖励的自我纠正后训练,进一步提升鲁棒性和声学质量。在大规模多语言语料库上训练后,dots.tts在Seed-TTS-Eval上取得最佳平均性能,在zh/en/zh-hard测试集上的词错误率(WER)分别为0.94%/1.30%/6.60%,相似度分数(SIM)分别为81.0/77.1/79.5。在其他基准测试中,dots.tts也持续展现出开源领域的最优性能,具备强大的生成稳定性、声音克隆能力和情感表现力。为实现高效推理,我们进一步应用了CFG感知的MeanFlow蒸馏,使输出流和双流模式下的首包延迟分别低至85毫秒和54毫秒。为促进可重复研究和实际部署,我们在Apache 2.0许可下发布了训练与推理代码,以及预训练、后训练和MeanFlow蒸馏后的模型检查点。
图像到视频扩散模型利用输入图像生成视觉上惊艳的内容,但常产生违反物理规律的运动。我们发现了一个令人惊讶的现象:同一模型的2步生成往往比50步输出具有更好的物理一致性。通过频谱分析,我们将其归因于去噪过程中的相位侵蚀——相位从第2步到第50步显著下降(约下降18%),而幅度保持相对稳定。基于这一发现,我们提出了PhaseLock,一种无需训练的框架,可在整个去噪轨迹中保留少步推理的有效运动先验。PhaseLock不依赖全步推理来保证物理一致性,而是仅从2步中提取运动先验,并通过潜在增量引导(Latent Delta Guidance)将其施加到高保真生成上。该方法有效缓解了相位退化,在多种模型上将物理一致性平均提升6.2分,同时基本保持视觉保真度,且开销极小(1.06倍时间,1.02倍内存),减少了对昂贵外部引导方法(约5倍时间)的依赖。
人类是构建和改进AI的瓶颈。无论是模型本身,还是包裹模型的智能体,都依赖人类编写、调优和修正。让AI能够自主改进自身的长期目标仍未实现。两条主要独立的研究路线试图突破这一瓶颈。构架更新学派让元智能体重写特定任务智能体的支架(包括工具、提示词、重试逻辑和搜索流程),同时保持模型权重固定。测试时训练学派则使用手工设计的强化学习流水线,在任务反馈的基础上更新模型自身的权重,同时保持支架固定。这两条路线彼此孤立运作。我们提出SIA,一种自我改进循环:其中语言模型智能体(反馈智能体)同时更新特定任务智能体的支架和权重。我们在三个对比领域进行评估:中文法律罪名分类、底层GPU内核优化和单细胞RNA降噪。在所有三个基准测试中,联合使用两种杠杆的效果均优于仅更新支架。与初始基线相比,在LawBench上提升56.6%,GPU内核运行时间减少91.9%,降噪性能提升502%。支架更新使模型具备智能体能力,塑造其搜索和行动方式;而权重更新则建立起任何提示词或支架都无法灌输的领域直觉。
科学论文推荐通常被评估为对固定候选集的静态排序,然而真实的科研阅读过程是每日进行的纵向演变,其中兴趣会发生变化,反馈不断积累。我们提出PaperFlow框架,将其组织为三个耦合阶段:用户画像构建(Profiling)——从异构冷启动证据中构建并维护结构化的、可检查的学术画像;推荐(Recommending)——在固定展示预算下,通过多信号聚合对每个特定日期的论文流进行排序;以及适应(Adapting)——从语义不同的反馈信号中更新用户状态,并建模跨天的兴趣漂移。我们进一步定义了一个纵向的用户-天基准,该基准在共享的时间信息边界内固定了用户、日期、候选池、可见输入以及隐藏的模拟相关性标签。该基准包含24个模拟科研用户、50个每日论文流、1,200个用户-天片段、20,727篇独立论文以及497,448条片段-论文记录。此外,我们指定了一种盲人评估协议,以验证自动指标与专家判断之间的一致性。与五个科学推荐基线的实验表明,PaperFlow在基于神谕的排序上表现最强,与模拟阅读选择的行为对齐度最高,并且获得了最佳的盲人评估分数。
LLM驱动的软件工程代理已成为评估现实语言模型能力的核心测试平台,但其训练仍受限于高质量软件工程任务的可用性。现有的合成数据方法通常通过固定的代码变异或缺陷注入流程来创建任务,导致生成的数据分布与代理自身的缺陷及训练进程关联甚微。为此,我们提出Socratic-SWE——一种闭环自我进化框架,通过复用代理的历史求解轨迹作为训练信号源。该框架并非仅将轨迹视为奖励计算的依据,而是将其蒸馏为结构化代理技能,用以总结重复性失败模式与有效修复策略。这些技能进而指导从真实代码仓库中生成针对性修复任务。候选任务需通过基于执行的验证,并采用求解器梯度对齐奖励进行评分,从而确保保留的任务兼具可验证性与对求解器改进的有效性。更新后的求解器生成新轨迹,使任务课程可在多轮迭代中自适应调整。在SWE-bench Verified、SWE-bench Lite、SWE-bench Pro及Terminal-Bench 2.0基准测试中,Socratic-SWE在相同计算预算下持续优于自我进化基线方法,经过三次迭代后SWE-bench Verified得分达到50.40%。这一结果表明,求解轨迹可作为自我进化型软件工程代理的可扩展基础。
LLM代理系统被期望在需要不同执行范式的异构任务场景中运行,这对固定代理系统提出了挑战,并促使在孤立组件更新之外进行系统级的元适应。尽管现有工作已对外部框架进行适配或对底层推理策略进行训练,但全系统的适应性仍未得到充分表征。结构与执行之间的适应空间很少被明确化,外部框架与内部推理器之间的兼容性也未得到协同优化。为此,我们提出HarnessForge——一个用于演进LLM代理系统的元自适应框架。HarnessForge将代理系统形式化为"框架-策略"对,定义了稳定的适应空间,将框架层的执行结构与策略层的推理行为分离。随后,它通过故障引导的框架剪裁和框架条件化的策略对齐,实现框架与策略的协同进化。在涵盖不同领域的五个基准实验表明,HarnessForge持续提升了Qwen3-4B和Qwen3-8B骨干模型的表现,优于仅优化框架或仅优化策略的基线方法,相比最强基线获得了最高12.0%的性能提升,并实现了优越的 rollout-效率权衡,证明了框架与策略的协同进化是有效的,且框架与推理策略之间的可执行兼容性对于代理系统的适应至关重要。代码已开源:https://github.com/mingju-c/HarnessForge
尽管视觉语言模型(VLM)取得了快速进展,但该领域仍缺乏能够严格诊断其真实推理能力并衡量其向类人多模态智能有意义的进展的基准测试。现有大多数评估聚焦于零散或脱节的任务,掩盖了关键的认知缺陷,且对针对性改进提供的洞察有限。为填补这一空白,我们引入BloomBench——作为Almieyar基准系列的一部分,这是首个基于人类认知基础的双语(英语-阿拉伯语)多模态VLM基准。该基准以布鲁姆认知分类学为基础,通过精心设计的图像-问题-答案任务,系统评估六个认知层次(记忆、理解、应用、分析、评价、创造)。借助半自动化流水线构建,并通过分层混合质量保障协议验证,确保了可扩展性、文化包容性和语言忠实度。利用该框架,我们对最先进的VLM进行了全面研究,以诊断其认知特征。分析揭示出明显的认知不对称性:尽管最先进模型在语义理解方面达到较高性能上限,但在事实回忆和创造性综合方面却显著困难。这表明当前通用的多模态能力掩盖了特定认知层面的深层局限。此外,我们的研究还突出了阿拉伯语与英语之间的关键性能差距,暴露了当前跨语言多模态推理的局限性。这些发现为开发更具认知一致性和包容性的VLM奠定了基础。该基准框架及数据集可在以下网址获取:https://github.com/qcri/Almieyar-Oryx-BloomBench。
视觉-语言模型(VLMs)正越来越多地被部署于具身环境中,在此类场景下,它们需要输出数值结果,例如动作幅度和空间坐标。尽管这些数值看似具有意义,但其是否真正根植于空间感知仍不明确。为此,本研究通过SpaceNum这一统一框架重新审视空间数值理解问题,该框架涵盖两种互补设定:空间探索中作为动态变化的数值,以及空间推理中作为静态布局的数值。我们构建了Num2Space和Space2Num两项双向任务,以评估VLM在视觉侧空间结构与语言侧数值表征之间的映射能力。我们系统性地探究了当前VLM是否真正理解空间情境中的数值含义。在动态变化与静态布局两种设定中,我们发现模型普遍未能将数值扎根于空间意义,其表现常接近于随机猜测。通过错误分析、推理轨迹分析及受控干预实验,我们揭示当前VLM严重依赖浅层空间线索,难以建立稳定的坐标感知表征,且无法从视觉观测中抽象出结构化的空间布局。进一步研究表明,显式推理仅带来边际提升,而模型微调可部分改善空间数值理解能力,并迁移至外部空间推理基准。
尽管3D场景理解取得了进展,但现有3D大规模多模态模型仍局限于离线场景,需要完整的场景观测或预定义的视频片段。本文提出一种在线3D视觉语言模型,能够从流式视频中实现实时空间理解。我们的方法基于大语言模型的下一词预测目标,采用自回归流式控制建模来学习何时响应,并引入轻量级视觉-空间特征融合模块,逐步将时间对齐的几何先验注入视觉流中。为缓解长上下文解码开销,我们提出即插即用的几何自适应体素压缩模块,实现高效视觉标记压缩。针对流式3D语言数据稀缺问题,进一步开发可扩展的数据生成流水线,构建了超过100万个在线时空3D问答对,并建立了涵盖29个任务的综合基准。大量实验表明,本方法在在线与离线的3D空间理解、推理和定位任务中均显著优于商业模型与开源模型。项目主页:https://stream3d-vlm.github.io/
3D视觉技术正快速演进,其驱动力源自日益多元化的数据表征、学习范式与建模策略。然而,该领域仍因表征体系与基准测试的碎片化而难以构建关于效率、保真度及可扩展性的统一视角。本文提出一种以数据为中心的3D视觉分类体系,将几何表征、数据集、学习框架与应用场景整合在同一概念图谱中。我们首先剖析3D数据的主要结构表征——点云、网格、体素与3D高斯体——及其采集流程。继而探讨数据集设计、基准构建与监督范式如何推动近期进展,涵盖2D监督的3D学习、隐式神经表征与4D世界建模。通过这种整合性视角,我们厘清表征体系、学习范式与下游任务(如重建、生成与视频建模)之间的关联,为平衡效率与保真度、构建多模态几何基元的新兴趋势提供统合性认知。
面向搜索智能体的检索技术仍沿袭自非智能体信息检索:检索器对语料库进行排序,智能体则读取少量返回文档。近期直接语料库交互(DCI)研究表明,智能体可通过grep和文件读取等shell工具直接操作原始语料库。但无界交互难以扩展:任何宽泛的shell命令都需扫描整个语料库,且随着语料库增长,延迟性能急剧恶化。我们认为,面向智能体搜索的检索作用不仅是筛选适合大语言模型上下文窗口的文档,更是构建一个交互空间:语料库中一个带关联工具可供智能体探索的有界子集。这一观点带来两个设计启示:该空间需要由检索提供边界,且空间内的对象需经交互化处理。作为概念验证,我们提出RISE(检索交互空间):采用BM25构建交互空间,同时在索引阶段对文档进行shell式导航处理。在BrowseComp-Plus数据集上,RISE配合gpt-5.4-mini达到78%的准确率,与纯shell的DCI基线持平,而每次查询成本降低约四分之三。当语料库规模达100万文档时,RISE-BM25配合gpt-5.4-mini达到81%准确率,而DCI配合gpt-5.4-nano则因100次实验中出现33次挂钟超时失效,准确率下降至60%。
在生成模型中,基于置信度的损失加权通常会被避免,因为当模型自信地犯错时,它会加速误差累积;然而,在监督扩散训练中,这一直觉不再成立。我们引入了Eisbach对数障碍(Eisbach log-barrier),这是一种基于DiT输出空间能量分布熵导出的无参数权重:高熵会抑制梯度,而低熵则保留梯度。将其应用于MusicCaps上对Stable Audio 3 Medium模型的LoRA微调后,意外地发现,与未加权训练相比,该方法产生了更强的主题发展、更清晰的声学区分以及更高的纹理多样性——这与模式坍塌恰恰相反。之所以有效,是因为在监督扩散中,梯度方向被锁定为与真实标签一致,因此置信度仅缩放步长;同时,时间熵会降低平坦样本的权重,同时保留高对比度的样本。其结果是,一个完全基于前向传播而自发涌现的在线、自参照数据课程,并附有已分析的噪声层动态与可检验的预测。
语言模型可利用可验证奖励,在多种推理任务上实现性能提升。然而,无论是参数化方法(如RLVR)还是非参数化方法(如提示优化),通常都需要数百个训练样本和数千次模型展开,这使得它们在最佳情况下成本高昂,在最差情况下难以处理。为应对这一挑战,我们提出了对比反思(CORE),一种非参数学习算法,该算法通过比较过去的推理轨迹来生成洞察:即简短的自然语言描述,描述推理策略和约束,捕捉成功与失败问题尝试之间的差异。在四个推理任务上,我们证明CORE比参数化方法(GRPO)和非参数化方法(GEPA、情景RAG和MemRL)能实现更快的提升,同时使用更少的模型展开。在固定展开预算下,仅使用五个训练样本,我们进一步展示CORE也能达到与各基线相当或更高的性能提升。最后,我们强调CORE在上下文效率方面也显著优于非参数基线,需要更少的提示词元,同时将学习到的知识存储为紧凑、可解释的自然语言洞察。因此,我们的结果表明,将成功与失败推理轨迹之间的对比提炼为抽象且有用的洞察,相比于权重更新、提示优化或直接复用存储的推理轨迹,能为模型自我改进提供更高效、更可解释的路径。
针对特定任务或领域定制LLM(大语言模型)判据时,通常需要同时优化多个评估标准下的提示词。文本梯度方法虽能自动优化单一判据标准,但其生成的是自然语言形式的反馈而非数值向量。因此,多任务学习中的冲突消解工具(如PCGrad、MGDA)无法适用于多目标文本梯度场景。我们通过控制损失函数、梯度生成器及优化器LLM共享跨任务信息的程度,测试了文本梯度优化器的五种分解模式。在10种配置中的6种里,优化后的提示词从未优于初始版本。当梯度生成器LLM同时处理多个判据时,梯度特异性下降59%(从9.0降至3.7)。此外,将逐任务指令简单合并为单一提示词会导致斯皮尔曼相关系数下降5.3%。这些结果揭示了两种可分离的失效模式:优化阶段的梯度稀释与推理阶段的指令干扰,共同限制了基于文本反馈的多目标判据定制的设计空间。
推理模型已取得快速进展,但主流的基于可验证奖励的强化学习(RLVR)方法仍局限于狭窄的范式:生成大量响应,并用单个比特的奖励信号(仅指示最终答案是否正确)对每个响应进行反馈。然而,许多场景提供了丰富的反馈信息,包括执行轨迹、工具输出、专家修正以及模型自我评估。本文研究如何利用这些反馈,提出经典模仿学习算法DAgger的一种分布变体。在该变体中,学习者可局部访问当前策略所遍历状态上的专家分布,进而得到一个简单的前向交叉熵目标函数,该函数允许使用黑盒专家,其序列级梯度通过传播未来专家-学生的不一致性到早期决策,实现丰富的信用分配。我们证明,先前基于反向KL散度或詹森-香农散度的自蒸馏强化学习方法无法保证策略的单调改进:即使专家的奖励更高,这些更新也可能增加不良动作的概率。相比之下,我们证明前向交叉熵可实现策略的单调改进,并在遗憾界上具有保障。此外,我们的目标函数优化了教师加权成功似然的一个下界,从而提升了Pass@N指标。实验结果表明,我们的方法DistIL在科学推理、编程和求解困难数学问题等多个领域均优于RLVR及基于自蒸馏的强化学习基线。
推理模型生成的思维链轨迹冗长,不仅蒸馏成本高昂,还容易导致学生模型输出冗余内容。本研究探索在知识蒸馏前对这些轨迹进行事后压缩。两个教师模型(Qwen3.5-397B-A17B 和 gpt-oss-120B)各生成约28.3万条正确轨迹,而后由两个指令微调模型将其压缩至原始字符长度的8.6%-21.0%。通过包含48次主网格实验及七组Qwen教师模型截断消融实验的系统评估显示:压缩轨迹可将训练令牌数降至原始文本的12%-30%,训练速度提升2.0-7.6倍,推理输出长度缩短3-19倍(其中gpt-oss教师模型的缩短幅度相对较小)。然而在各类模型规模和教师条件下,原始轨迹始终保持着最高的下游任务准确率。通过长度匹配的原始轨迹截断消融实验表明,压缩效果并非单纯受益于更小的令牌预算:模型压缩后的轨迹通常优于或持平于简单截断(尤其对较小规模的学生模型),同时保持更短的推理输出。总体而言,推理轨迹压缩呈现准确率与效率的权衡关系而非免费改进:学生模型在保留原始轨迹准确率高达96%的同时,可获得最高18倍的每令牌效率提升;在0.8B参数规模下采用LoRA方法时,压缩轨迹虽能缩小与原始轨迹的准确率差距,但始终未能超越后者。
智能体语言模型系统交替使用两种结构不同的步骤类型:结构化工具调用(短、确定性、低困惑度)与开放式规划/推理步骤(长、复杂、高困惑度)。尽管存在这种异质性,当前推理系统对每个步骤应用相同的计算量。我们提出 LayerRoute,一种轻量级适配器,能够基于每个输入学习选择性跳过 Transformer 模块。LayerRoute 为 Qwen2.5-0.5B-Instruct 中的每个 Transformer 模块(共24层)添加:(1) 一个逐层路由器(约897个参数,Linear(896,1)),通过直通估计器输出硬二值门控;(2) 注意力投影 Q/K/V/O 上的 LoRA 适配器(秩为8,约108万个参数)。骨干网络权重保持冻结。在智能体数据(Hermes、Glaive、GSM8K、Turing)上进行单次端到端训练,并加入门控正则化项,迫使系统发现每个输入类型中哪些模块可跳过。经过3000步训练(在A100 40GB上耗时6.4分钟),LayerRoute 实现12.91%的跳过差异:工具调用跳过15.25%的FLOPs,而规划步骤仅跳过2.34%,仅使用110万个可训练参数(占494M骨干网络的0.22%)。由于LoRA适配,模型质量相较于基线模型有所提升,工具调用和规划步骤的困惑度差值分别为-1.29和-1.30。
大型语言模型(LLMs)近期被用作舆论模拟的合成代理,为成本高昂且速度缓慢的人类调查提供了一种有前景的替代方案。尽管具有可扩展性,当前基于LLM的模拟方法未能捕捉社会多样性,导致群体间差异扁平化,且不同人口群体的回答过度同质。我们将这一局限识别为LLM隐藏表示中的“多样性坍缩”现象——不同社会身份在逐层处理中逐渐变得难以区分。基于此观察,我们提出参数化社会身份注入(PSII),这是一个通用框架,能够直接将人口统计属性和价值取向的显式参数化表示注入LLM的中间隐藏状态。与基于提示的人物设定不同,PSII在表示层面实现了细粒度且可控的身份调制。在多项开源LLM上基于世界价值观调查的广泛实验表明,PSII显著提升了分布保真度和多样性,不仅降低了与真实世界调查数据的KL散度,还增强了整体多样性。该工作为LLM代理的表示层面控制提供了新见解,推动了可扩展、具有多样性意识的舆论模拟发展。
自动语音识别(ASR)是人机交互的核心组成部分,也是基于大语言模型的智能助手与智能体日益重要的前端。然而,当前大多数ASR系统仍遵循单遍处理范式,这与人类交流方式存在显著差异——在人类交流中,误解通过迭代式澄清与修正得以解决。这种失配导致一旦发生关键语义错误便难以纠正。与此同时,词错误率(WER)或字符错误率(CER)等词元级指标也无法充分反映这一问题。针对这些局限,我们将交互式ASR形式化为多轮修正任务,并提出闭环框架Agentic ASR——该框架将单遍ASR前端与语义纠正、意图路由及基于推理的编辑相结合。我们进一步引入基于大语言模型的语义评估指标:句子级语义错误率(S²ER),并配套开发了可扩展且可复现的交互仿真系统。在多语言、命名实体密集及语码转换基准测试上的实验表明,迭代交互能够持续降低语义错误,且S²ER指标的提升幅度远超传统词元级指标。人机对齐实验与消融研究进一步验证了语义评判器的可靠性及所提框架的稳健性。代码已开源:https://interactiveasr.github.io/,在线演示地址:https://i-asr.sjtuxlance.com/
蒸馏攻击为模型提供者带来了一种部署权衡:使模型更有用的输出,也可能使其更容易被模仿。我们通过一个受限效用的教师模型与自适应学生模型之间的极小极大博弈来研究这一权衡。该框架产生了可操作的单边响应规则:一种自适应评估规则,学生在此规则下对高价值样本进行重新加权;以及一种教师端防御模板,可抑制对蒸馏最有用的输出。通过一个廉价的价值代理指标,我们推导出专家乘积(Product-of-Experts,PoE)——一种简单的仅需前向传播的防御方法,在生成过程中将教师模型与代理学生模型相结合。实验表明,自适应评估揭示出被动的评估与自适应评估之间存在巨大差距:在最先进的防御方法上,自适应学生模型在GSM8K和MATH数据集上恢复的能力远超被动评估所显示的水平。在这种更强的评估下,昂贵防御方法与PoE之间明显的鲁棒性差距显著缩小,而PoE仍保持低廉的成本,并生成更高质量的推理链。总体而言,我们的结果表明,强力蒸馏仍难以阻止,且反蒸馏进展应依据自适应学生而非被动学生进行评判。我们的代码已开源:https://github.com/ysfalh/distillation-game。
我们提出了StreamForce,一个流式视频生成框架,能够通过连续力输入实现物理基础控制。不同于以往需要为不同力类型训练独立模型、假设固定力或依赖非因果处理的视频模型,StreamForce是一个因果统一模型,能够即时且连贯地响应局部和全局的时变力。为此,我们设计了一种统一的力表示作为控制信号,并开发了一套力可控视频生成的蒸馏流程。该模型结合了自回归效率与力响应能力,维持稳定的光度与动态真实感。StreamForce在单GPU上可达每秒16.6帧,在力控制一致性与运动真实感方面均达到最优性能。项目网站:https://neu-vi.github.io/StreamForce/
针对密集检索中的硬负样本源选择,通常仅在微调和下游评估完成后才能确定。我们提出ECI_sem——有效对比信息(ECI)的一种语义残差变体,该方法利用冻结的目标编码器嵌入对候选负样本源进行排序。ECI_sem无需训练,但并非无标签:每个评分样本需包含一个查询、一个标注正样本和一个显式候选负样本。ECI_sem通过目标一致性、语义局部性、词汇残差性以及基于对数行列式的多样性目标函数,构建加权残差信息矩阵。在MS MARCO负样本源上,族内ECI_sem在非混合源中将大语言模型(LLM)负样本排至最高,在混合源中将Dense+LLM组合排至最高,这与DistilBERT、E5-base和Contriever在BEIR迁移任务中取得的最优聚合结果一致。控制消融实验表明,该对齐效果依赖于目标编码器族的使用;而附加消融实验则显示,该方法在样本规模、温度参数、分词器及IDF语料库扰动下均保持稳定。理论层面给出了损失函数缩减的局部线性化关联,而实证研究则将下游评估作为最终检验标准。
开发者在日常软件工作流中越来越多地使用诸如ChatGPT、Copilot和Claude等AI工具,但以往的研究往往孤立评估大语言模型的输出,而非考察开发者在实际项目中如何调整这些输出。我们分析了35,361条明确提及AI使用的GitHub代码注释及其关联代码块。首先对500条独特注释及代码块进行开放式编码,构建AI辅助开发活动的分类体系;随后使用两个基于大语言模型的分类器对完整数据集进行标注,并采用Dawid-Skene期望最大化方法聚合预测结果。此外,我们分析了12,996条后续提交信息,探究AI辅助代码在引入后的演变过程,并考察了2022年12月至2026年3月期间的时间趋势。研究结果表明,开发者主要将大语言模型用于代码实现,其次是代码增强、调试、文档编写和测试。后续提交频繁涉及重构与清理、功能集成与扩展以及缺陷修复,表明开发者在适配AI辅助代码时持续进行人工监督。随时间推移,引用AI的注释从直接代码生成转向知识与概念支持以及代码增强。这些发现表明,AI工具不仅作为代码生成辅助手段嵌入开发流程,更成为协作支持机制——其输出结果由开发者持续进行精炼、扩展与修正。
深度神经网络的鲁棒性对于安全关键型部署至关重要,然而现有评估方法往往依赖于特定攻击且缺乏可解释性。我们提出了一种基于Fisher信息矩阵(FIM)谱范数的、原则性的、与攻击无关的鲁棒性度量方法,该方法能够量化模型输出分布对输入扰动的最大敏感性。在理论上,我们证明了FIM等于输入雅可比矩阵的方差,并推导了常见架构(包括VGG、ResNet、DenseNet和Transformer)的闭式谱界,首次提供了理论上的鲁棒性排序。为了实现可扩展的评估,我们开发了高效的算法(包括幂迭代和基于Hutchinson的估计),支持白盒和黑盒两种设置。在CIFAR、ImageNet和医学图像等多个数据集以及多种架构上的大量实验表明,我们的度量与对抗脆弱性之间存在强相关性。该框架作为对抗攻击评估的补充性可解释诊断工具,能够揭示架构敏感性并指导更鲁棒模型的设计。代码开放于:https://github.com/franz-chang/SRP/。
我们研究自回归模型(ARLM)向扩散语言模型(DLM)的转化过程。现有工作并非从头预训练,而是将ARLM中的因果注意力替换为双向注意力,随后用DLM目标训练得到的模型。然而,这些方法面临两种分布偏移:其一,从下一词元预测目标转向DLM目标时,会丢弃ARLM在训练中习得的知识;其二,标准DLM存在训练-推理不匹配问题,因为其训练损失定义在随机遮蔽序列上,而非推理阶段基于置信度解码所遭遇的轨迹。为解决上述挑战,我们提出基于策略的扩散语言模型(OPDLM),该模型采用基于策略的蒸馏(OPD)实现ARLM到DLM的转化。具体而言,OPDLM通过自策略蒸馏进行训练:学生模型(采用双向注意力的ARLM)生成自身轨迹,教师模型(原始冻结的ARLM)通过在这些轨迹上提供目标logits来蒸馏知识。由于直接采用基于策略的训练方式,OPDLM消除了DLM中的训练-推理不匹配问题,同时通过从原始模型进行蒸馏增强了ARLM知识的保留。实验结果表明,OPDLM仅需15倍至7000倍更少的训练词元,即可在广泛任务中展现强劲性能。OPDLM避免了DLM预训练的高昂成本,并将DLM转化定位为ARLM的一种后期训练形式。
离散视觉-语言-动作(VLA)模型通常将动作生成建模为在离散动作空间上的下一个token预测,即每个token的生成基于先前上下文进行自回归条件计算。尽管有效,但该范式推理延迟高,且在很大程度上忽略了动作轨迹中固有的时间结构。近期研究引入并行解码以提升效率、实现更快的推理,但缺乏对token依赖关系的显式建模。我们提出TBD-VLA——一种基于离散token的VLA框架,通过引入块扩散实现时间动作生成。我们将动作序列划分为时间块,在每个块内进行掩蔽离散扩散,同时保持块间的自回归生成。该设计统一了时间自回归与并行动作解码,在实现强时间一致性的同时提升了推理速度。此外,显式的时间建模使得动作块(例如实时分块)能够通过时间补全实现异步执行。TBD-VLA在模拟和真实世界的操控任务中均显著优于先前的VLA方法,为构建快速、具备时间感知能力的离散VLA模型提供了可扩展的路径。项目网页:https://tbd-vla.github.io/
在实际应用中,模型需要在不同场景下都能稳定可靠地运行。然而,现有许多多模态基准测试虽然拓展了任务类型,却未能捕捉处理开放式视觉输入所需的视觉多样性。我们提出WorldBench——一个具有挑战性且视觉多样化的推理基准,用于评估多模态大语言模型(MLLMs)。我们构建了一个涵盖多个领域(如生物)的数千个视觉概念的分类体系。在该分类体系指导下,我们从搜索引擎和现有数据集中广泛收集图像,以全面表征视觉世界。通过结构化试错法,我们人工设计了前沿多模态大语言模型难以回答的挑战性问题。在定量评估和人工评估中,WorldBench的视觉多样性超越了所有现有的多样性基准。对15个多模态大语言模型在WorldBench上的评估揭示了它们在视觉理解上的弱点:即使是表现最强的模型,准确率也仅为64.0%,而部分模型的性能仅略高于随机水平。我们希望本研究能凸显视觉多样性在构建多模态基准测试中的重要性。
自主搜索系统通过迭代与检索模型交互来回答复杂查询。尽管取得了显著进展,但优化检索模型以适应自主搜索仍颇具挑战,往往需要大量联合训练或黄金标准标注,这限制了其实际应用。我们提出Critic-R框架,该框架在推理和训练阶段明确地构建了推理智能体与检索模型之间的反馈闭环。Critic-R引入了一个评判模型,该模型在获取检索到的证据后,评估智能体的内省推理轨迹,以判断当前检索到的上下文是否足以支撑下一步推理。Critic-R包含两种互补机制:Critic-R-Zero是一种推理时查询优化循环,通过迭代重写查询和检索指令;Critic-Embed则是一种检索模型优化方法,利用成功与失败的优化轨迹作为自动监督信号,无需人工相关性标注。我们在HotpotQA、2WikiMultihopQA、MuSiQue和Bamboogle数据集上对Critic-R进行了评估。结果表明,Critic-R显著提升了检索质量和下游答案准确率。
高效推理对于长上下文语言模型至关重要,其中注意力计算和键值缓存访问占据了主要成本。近期研究 RAT+ 引入了一种递归增强注意力骨干结构,可在推理时实现灵活的扩张注意力。本文探究了这种指数衰减记忆能否进一步改进现有的查询感知稀疏推理方法。通过 Quest、MoBA 和 SnapKV 等代表性方法,我们证明了在八个"大海捞针"任务中,RAT+ 在不同稀疏预算下均能持续提升标准注意力的准确性。我们不仅在 RAT+ 论文已发布的检查点上验证了这些改进,还在 OLMo2-7B 模型上进行了验证——该模型使用新增的记忆模块继续预训练了 100 亿词元。最后,我们提出了两个假设来解释该记忆模块为何有益于查询感知稀疏推理,并设计了针对性实验加以验证。
和谐是一种紧凑的符号层,数学音高关系、声学协和与音乐惯例在此交汇。本报告将和弦符号序列视为一种可解释、可控制的时间序列,用于流派局部的和声建模,而非音乐的完整表征。从冻结的流行爵士音乐Transformer检查点出发,我评估了微小的适配接口能在多大程度上将该模型扩展到十一个目标流派:布鲁斯、波萨诺瓦、巴赫众赞歌、乡村、电子、民谣、放克、福音、嘻哈、节奏蓝调/灵魂乐和摇滚。主要评估比较了LoRA、IA3、BitFit、前缀微调与全参数微调在11个流派和3个随机种子下的表现,构成完整的165单元格网格。所有五种方法在保留和弦预测上均优于冻结基线,宏观增益在+2.89至+3.61个点之间;LoRA和IA3得分最高,但经Holm和Benjamini-Hochberg校正的Wilcoxon检验并未支持决定性优胜者。一项匹配数据量的控制实验进一步凸显了这一点:当流派被子采样至共同语料库大小时,IA3仍保持领先,但LoRA在全数据下的优势消失,降至末位,表明其微小差距部分源于数据驱动。控制令牌基线同样强劲,且错误流派适配器往往优于冻结基线,这表明大部分效果源自对可复用和声基底的轻量级条件化,而非某一特定适配器家族。额外的诊断分析(秩扫描、错误流派旋转、基线检查点消融、仅和弦流派分类、生成输出统计、真实歌曲评估和重复性分析)支持一个有限的结论:和弦符号适配可靠地改进了流派局部的和声预测,但仅凭和弦符号本身无法承载完整的流派身份。因此,本报告避免涉及感知流派真实性或完整音乐质量的断言,后者需要受控的听众或音乐家评估。