每日精选AI研究论文及翻译
在实际视频问答场景中,视频往往仅提供局部视觉线索,而可验证答案广泛分布于开放网络;模型因此需要协同执行跨帧线索提取、迭代检索和基于多步推理的验证。为弥合这一差距,我们构建了首个视频深度研究基准VideoDR。该基准聚焦视频条件化的开放域视频问答,要求进行跨帧视觉锚点提取、交互式网络检索,以及对视频-网络联合证据的多步推理;通过严格的人工标注与质量控制,我们获得了涵盖六个语义领域的高质量视频深度研究样本。我们分别在流程式与智能体式两种范式下评估了多个闭源与开源多模态大语言模型,结果表明智能体式并非始终优于流程式:其优势取决于模型在长检索链中保持初始视频锚点的能力。进一步分析指出目标漂移与长程一致性是核心瓶颈。总体而言,VideoDR为研究开放网络环境下的视频智能体提供了系统性基准,并揭示了下一代视频深度研究智能体面临的关键挑战。
人类在掌握语言之前便已发展出核心视觉能力,而当代多模态大语言模型(MLLMs)仍严重依赖语言先验来弥补其脆弱的视觉理解能力。我们发现一个重要事实:最先进的MLLMs在人类(甚至三岁幼童)能轻松解决的基础视觉任务上持续失败。为系统探究这一差距,我们推出BabyVision基准测试,旨在评估MLLMs独立于语言知识的核心视觉能力。该基准涵盖四大关键类别下的22个子类共388项任务,实证结果与人类评估表明,主流MLLMs表现显著低于人类基线——Gemini3-Pro-Preview得分49.7,落后于六岁儿童水平,与成人94.1的平均分差距悬殊。这些结果揭示:尽管当前MLLMs在知识密集型评估中表现优异,其仍缺乏基础视觉原语能力。BabyVision的进展标志着向人类水平视觉感知与推理能力迈出的一步。我们还通过提出BabyVision-Gen与自动评估工具包探索生成模型解决视觉推理的路径。代码与基准数据已发布于https://github.com/UniPat-AI/BabyVision 以供复现。
我们提出并行协同推理(PaCoRe),这一训练与推理框架旨在突破当代语言模型的核心局限:无法在固定上下文窗口下将测试时计算量(TTC)显著扩展至超越顺序推理的范畴。PaCoRe通过多轮消息传递架构驱动的海量并行探索来实现TTC扩展,突破了传统顺序推理范式。每轮推理会启动大量并行推理轨迹,将其发现压缩为上下文受限的消息,并通过综合这些消息指导下一轮推理并最终生成答案。该模型通过基于结果的大规模端到端强化学习训练,掌握了PaCoRe所需的信息整合能力,能够将有效TTC扩展至数百万token量级而不突破上下文限制。该方法在多个领域实现显著提升,尤其在数学推理方面超越前沿系统:一个80亿参数的模型在HMMT 2025上达到94.5%的准确率,通过将有效TTC扩展至约两百万token,超越了GPT-5的93.2%表现。我们开源了模型检查点、训练数据及完整推理流水线,以加速后续研究。
尽管Transformer架构在众多领域占据主导地位,但其二次自注意力复杂度阻碍了其在大规模应用中的使用。线性注意力提供了一种高效替代方案,但直接应用往往会导致性能下降,现有修正方法通常通过引入额外模块(如深度可分离卷积)重新带来计算开销,违背了初衷。本文发现这些方法存在一个关键失效模式:全局上下文坍缩,即模型丧失表征多样性。为此,我们提出多头线性注意力(MHLA),通过在词元维度上划分注意力头进行计算来保持这种多样性。我们证明MHLA在维持线性复杂度的同时,能够恢复softmax注意力的大部分表达能力,并在多个领域验证其有效性:在相同时间复杂度下,ImageNet分类任务提升3.6%,自然语言处理任务提升6.3%,图像生成任务提升12.6%,视频生成任务提升41%。
竞技编程因其密集的推理需求和高逻辑复杂度,对代码大语言模型提出了巨大挑战。然而当前代码大模型仍严重依赖现实数据,这限制了其扩展性。本文探索了一种完全合成的方法:通过使用完全生成的任务、解决方案和测试用例来训练代码大模型,从而在不依赖现实数据的情况下增强代码推理能力。为此,我们基于特征合成技术提出名为SynthSmith的新型数据合成流程。该流程展现出生成多样化高难度任务的能力,同时提供经过验证的解决方案与测试用例,支持监督微调与强化学习两种训练模式。基于所提出的合成式SFT与RL数据集,我们推出了X-Coder模型系列——该7B参数模型在LiveCodeBench v5和v6上分别达到62.9 avg@8和55.8的通过率,显著超越DeepCoder-14B-Preview和AReal-boba2-14B。深入分析表明,缩放定律在我们的合成数据集上依然成立,并探索了哪些维度扩展更具效益。我们进一步通过详尽的消融实验揭示了以代码为中心的强化学习关键要素,并指出性能塑造的核心因素。本研究证明,扩展高质量合成数据并采用分阶段训练能显著推进代码推理能力,同时降低对现实编程数据的依赖。
近期推理模型与智能体AI系统的进展,使得系统对多样化外部信息的依赖日益加深。然而这种转变引入了本质上存在噪声的输入语境,而当前经过净化的基准测试未能捕捉这一现实。我们推出NoisyBench——一个综合性基准测试,通过在RAG、推理、对齐和工具使用四大类任务的11个数据集上系统评估模型对多种噪声的鲁棒性,包括随机文档、无关对话历史和困难负样本干扰项。评估表明,面对语境干扰项时,顶尖模型的性能会出现高达80%的灾难性下降。关键发现是:智能体工作流常因过度信任含噪工具输出而放大错误,且干扰项即便不带对抗意图也会触发突发性失准。我们发现提示工程、语境重构、监督微调和仅基于结果的强化学习均无法确保鲁棒性;相比之下,我们提出的"理性感知奖励机制"通过激励模型识别噪声中有用信息,显著增强了系统韧性。最后,我们揭示了测试时计算量增加反而导致噪声环境下性能下降的逆向缩放现象,并通过注意力可视化证明模型会过度关注干扰标记,这为构建下一代具备强推理能力的鲁棒智能体提供了重要洞见。
大型推理模型(LRMs)通过显式生成多步思维链实现了卓越性能,但这种能力会带来显著的推理延迟和计算成本。协同推理通过将任务选择性地分配给轻量级模型与大型模型,提供了一种前景广阔的解决方案,然而核心挑战依然存在:如何判断某个推理步骤需要大型模型的强大能力还是小型模型的高效特性。现有路由策略要么依赖局部词元概率,要么采用事后验证机制,都会引入显著的推理开销。本文提出一种新颖的步进式协作视角:推理步骤的难度可以通过其首个词元进行推断。受大型推理模型中“顿悟时刻”现象的启发,我们发现初始词元的信息熵能有效预测步骤难度。基于此洞见,我们提出了GlimpRouter——一种免训练的步进式协作框架。该框架使用轻量级模型仅生成每个推理步骤的第一个词元,当初始词元熵值超过阈值时才将步骤路由至大型模型。在多基准测试上的实验表明,我们的方法在保持精度的同时显著降低了推理延迟。例如在AIME25基准上,GlimpRouter相比独立大型模型在精度提升10.7%的同时,推理延迟降低了25.9%。这些结果表明:基于思维掠影而非完整步骤评估的计算分配机制,是实现高效推理的简单而有效的路径。
尽管视觉语言模型(VLMs)显著推动了计算机使用智能体(CUAs)的发展,但现有框架在长流程任务的鲁棒性和新领域泛化能力方面仍存在不足。这些局限源于对历史视觉上下文管理的精细化控制缺失,以及缺乏视觉感知的教程检索机制。为弥补这些缺陷,我们提出了OS-Symphony整体框架,其核心协调器整合了两大创新:一是采用里程碑驱动长期记忆的反思记忆智能体,通过轨迹级自我修正有效缓解长流程任务中的视觉上下文丢失问题;二是配备多模态搜索器的多功能工具智能体,基于SeeAct范式在浏览器沙箱中合成实时视觉对齐教程,从而解决未知场景下的保真度问题。实验结果表明,OS-Symphony在不同模型规模下均实现显著性能提升,在三大在线基准测试中创下新纪录,尤其在OSWorld上达到65.84%的优异表现。
扩散语言模型(DLM)通过迭代优化的并行解码机制,为语言建模提供了前景广阔的替代方案。然而,现有DLM大多依赖硬二元掩码和离散词元分配机制,这既阻碍了早期决策的修正,也未能充分利用中间概率表示。本文提出EvoToken-DLM这一创新性扩散语言建模方法,通过动态演化的软词元分布替代硬二元掩码。该模型实现了从掩码状态到离散输出的渐进式转换,支持可修正的解码过程。为有效支撑这种演化机制,我们引入连续轨迹监督技术,使训练目标与迭代概率更新保持对齐。在多基准测试上的广泛实验表明,EvoToken-DLM持续实现卓越性能,显著优于现有的扩散模型和掩码DLM基线方法。项目页面:https://aim-uofa.github.io/EvoTokenDLM。
交互式与自主人工智能系统的迅猛发展标志着我们正步入智能体时代。在软件工程、计算机操作等复杂智能体任务上开展训练与评估,不仅需要高效的模型计算能力,更依赖于能够协调海量智能体-环境交互的精密基础设施。然而,目前尚无开源基础设施能有效支撑此类复杂智能体任务的大规模训练与评估。为应对这一挑战,我们推出MegaFlow——一个支持智能体-环境工作负载高效调度、资源分配与细粒度任务管理的大规模分布式编排系统。MegaFlow将智能体训练基础设施抽象为三个通过统一接口交互的独立服务(模型服务、智能体服务与环境服务),实现了不同智能体-环境配置下的独立扩展与灵活资源分配。在实际部署中,该系统成功协调了数万个并发智能体任务,在保持系统高稳定性的同时实现了资源利用效率最大化。通过赋能大规模智能体训练,MegaFlow填补了新兴智能体AI领域的关键基础设施空白。
随着基于大语言模型的智能体日益广泛地应用于长期交互场景,累积记忆对于实现个性化服务和保持风格一致性至关重要。然而,现有系统大多采用"全有或全无"的记忆使用策略:完整引入相关历史信息会导致"记忆锚定"现象,使智能体受困于过往交互;而完全排除记忆则会造成信息利用不足和重要交互历史的丢失。我们研究发现,智能体对记忆的依赖程度可被建模为一种显式且用户可调控的维度。我们首先提出了记忆依赖度的行为度量指标,用以量化历史交互对当前输出的影响程度。继而提出可调控记忆智能体框架SteeM,该框架允许用户动态调节记忆依赖程度——从促进创新的"全新启动"模式,到严格遵循交互历史的"高保真"模式。多场景实验表明,我们的方法在个性化人机协作中能够持续超越传统提示法和刚性记忆掩码策略,实现更精细有效的控制。
随着高质量数据日益稀缺,无数据自进化已成为一种前景广阔的研究范式。该方法使大语言模型能够自主生成并解决复杂问题,从而提升其推理能力。然而在多轮搜索智能体中,由于问题多样性受限以及多步推理与工具调用需消耗大量算力,无数据自进化面临挑战。本研究提出Dr. Zero框架,使搜索智能体在无需训练数据的情况下实现高效自进化。我们设计了自进化反馈循环机制:提议者生成多样化问题来训练基于同源基础模型的求解器,随着求解器能力提升,会激励提议者生成难度递增且可解的任务,从而形成双向精进的自动化课程。为提升训练效率,我们提出跳步分组相对策略优化(HRPO),通过聚类结构相似问题构建组级基线,有效降低评估单个查询难度与可解性时的采样开销。HRPO在不影响性能稳定性的前提下,显著减少了求解器训练的算力需求。大量实验表明,无数据训练的Dr. Zero在性能上媲美甚至超越全监督搜索智能体,证实复杂推理与搜索能力可仅通过自进化机制涌现。
作为世界模型的一种形式,视频生成模型已成为人工智能领域最令人兴奋的前沿技术之一,它通过建模复杂场景的时间演化,使智能体获得预测未来的能力。在自动驾驶领域,这一愿景催生了驾驶世界模型:这类生成式模拟器能预测自车与其他交通参与者的未来状态,实现可扩展的仿真、边缘场景的安全测试以及丰富的合成数据生成。然而尽管研究活动快速增长,该领域仍缺乏严谨的基准来衡量进展并指导重点方向。现有评估存在局限:通用视频指标忽略了安全关键的成像因素;轨迹合理性鲜少被量化;时间与智能体层面的连贯性被忽视;基于自车条件的可控性也未受重视。此外,当前数据集难以覆盖现实应用所需的多样化条件。 为弥补这些不足,我们推出首个面向生成式驾驶世界模型的综合基准——DrivingGen。该基准整合了从驾驶数据集和互联网规模视频源精选的多样化评估数据集,涵盖不同天气、昼夜时段、地理区域和复杂驾驶场景,并配备一套创新指标,从视觉真实感、轨迹合理性、时间连贯性和可控性四个维度进行联合评估。通过对14个前沿模型的测试,我们发现明显的性能权衡:通用模型视觉效果更佳但违背物理规律,而驾驶专用模型能真实还原运动轨迹却落后于视觉质量。DrivingGen通过提供统一评估框架,助力开发可靠、可控、可部署的驾驶世界模型,为可扩展仿真、路径规划及数据驱动决策提供支撑。
潜在扩散模型(LDMs)通过操作压缩的潜在空间生成高质量图像,该空间通常经由变分自编码器(VAEs)等图像标记器获得。为构建适用于生成的VAE,近期研究探索将视觉基础模型(VFMs)作为VAE的表征对齐目标,这与LDMs常用策略相呼应。尽管此举带来一定性能提升,但对VAE和LDM使用相同对齐目标忽略了两者根本不同的表征需求。我们主张:LDMs受益于保留高层语义概念的潜在表征,而VAE则应擅长语义解耦,能以结构化方式编码属性级信息。为此,我们提出语义解耦VAE(Send-VAE),通过将VAE潜在空间与预训练VFMs的语义层次对齐,显式优化其解耦表征学习能力。该方法采用非线性映射网络转换VAE潜在变量,使其与VFMs对齐,从而弥合属性级解耦与高层语义间的鸿沟,为VAE学习提供有效引导。我们通过属性预测任务的线性探针评估语义解耦效果,发现其与生成性能提升高度相关。最终,基于Send-VAE训练流式变换器SiTs的实验表明:该方法显著加速训练进程,在ImageNet 256×256数据集上使用/不使用无分类器引导时,分别达到1.21和1.75的最新FID指标。
大型语言模型(LLMs)可通过采用工具集成推理(TIR)范式突破其参数知识限制。然而,现有基于LLM的智能体训练框架往往侧重于答案准确性,忽视了对行为模式的针对性对齐,导致智能体在执行TIR任务时频繁出现冗余调用工具、工具调用不足等低效行为。如何在校正错误行为模式的同时探索有效轨迹,仍是亟待解决的问题。本文提出ET-Agent训练框架,通过自我演进数据飞轮与行为校正训练双重视角的协同作用,校准智能体的工具使用行为。具体而言,我们引入自我演进的数据飞轮生成增强数据,用于微调LLM以提升其探索能力。基于此,我们构建了双阶段行为校正训练框架,旨在渐进式地将错误行为模式校准至最优状态。深入的实验证实了该框架在正确性、效率、推理简洁性和工具执行准确性等多维度的优越性。ET-Agent框架为TIR领域研究提供了实践指导,代码详见https://github.com/asilverlight/ET-Agent。
当前视觉语言基准测试主要采用结构规整、提示明确的问答形式。然而真实用户提问往往具有非正式性和信息不完整的特征。用户会自然省略大量背景信息,依赖图像传递语境。我们推出HAERAE-Vision基准数据集,从韩国网络社区8.6万条候选问题中筛选出653个真实视觉问题(留存率0.76%),每个问题均配有显式重写版本,共形成1,306组查询变体。在对39个视觉语言模型的评估中发现,即便是最先进的模型(GPT-5、Gemini 2.5 Pro)在原始查询上的准确率也不足50%。关键的是,仅通过查询显式化处理就能带来8至22个百分点的性能提升,其中较小模型获益最大。研究进一步表明,即使结合网络搜索,信息不完整查询的表现仍不及未经搜索的显式查询,这揭示出现有检索技术无法弥补用户隐含的信息缺口。我们的发现证实,视觉语言模型面临的困难很大程度上源于自然查询的信息缺失而非模型能力不足,这凸显出基准测试与实际应用之间存在关键差距。
尽管思维链赋能大型视觉语言模型进行多步推理,但显式文本推理存在信息带宽瓶颈——连续的视觉细节在离散化分词过程中被丢弃。近期潜在推理方法试图解决这一挑战,却常因僵化的自回归目标陷入过早语义坍缩。本文提出Laser新范式,通过动态窗口对齐学习重构视觉推理过程。该方法摒弃逐点预测的强制约束,将潜在状态与未来语义的动态有效窗口对齐。这种机制构建了"先见林后见树"的认知层级:模型在聚焦局部细节前能保持全局特征的概率叠加态。关键在于,Laser通过可解码轨迹保持可解释性,同时借助自优化叠加实现无约束学习的稳定化。在6个基准测试上的大量实验表明,Laser在潜在推理方法中实现最先进性能,较强势基线Monet平均提升5.03%。值得注意的是,该模型以极高效率达成这些提升,推理标记数减少超97%,并展现出对分布外领域的强大泛化能力。
旅行规划是一项复杂的决策过程,需要综合多维度信息以构建行程方案。然而现有方法面临三大挑战:(1)在保持高召回率的同时筛选候选兴趣点;(2)单一路径推理模式限制了可行解空间的探索能力;(3)硬约束与软约束的同步优化仍是重大难题。为此,我们提出TourPlanner——一个集成了多路径推理与约束门控强化学习的综合框架。具体而言,首先通过个性化召回与空间优化工作流构建空间感知的候选兴趣点集;随后提出竞争共识思维链的多路径推理范式,增强对可行解空间的探索能力;为进一步优化方案,在强化学习阶段引入基于S型函数的门控机制,实现硬约束达标后对软约束满足度的动态优先处理。在旅行规划基准测试上的实验结果表明,TourPlanner在可行性与用户偏好契合度方面均显著超越现有方法,达到业界最优性能。
随着大语言模型从静态对话接口演变为自主通用智能体,有效的记忆机制对于保障长期行为一致性至关重要。然而现有基准主要关注日常对话或任务导向型对话,未能涵盖智能体需持续追踪动态目标的**"长期项目导向型"**交互场景。 为填补这一空白,我们推出首个基于真实项目场景的基准**RealMem**。该基准涵盖11类场景下的2000余组跨会话对话,采用自然用户查询进行评估。我们提出融合项目基础构建、多智能体对话生成、记忆与进度管理的综合流程,以模拟记忆的动态演进过程。 实验表明,现有记忆系统在管理现实项目中固有的长期项目状态与动态上下文依赖关系时面临重大挑战。代码与数据集已发布于[https://github.com/AvatarMemory/RealMemBench](https://github.com/AvatarMemory/RealMemBench)。
我们推出OpenTinker——一个围绕算法设计、执行与智能体-环境交互分离原则构建的大语言模型智能体强化学习基础设施。该框架摒弃了传统的端到端强化学习流水线,将智能体学习系统解耦为具有明确定义抽象边界的轻量级可组合模块。用户只需定义智能体、环境及交互协议,而推理与训练任务则交由托管执行运行时处理。OpenTinker创新性地引入中央调度器,可在共享资源上统一管理基于LoRA和全参数的强化学习、监督微调及推理等任务。我们进一步探讨了将框架扩展至多智能体训练的设计原则,并通过一系列强化学习应用案例,验证了该框架在实际智能体学习场景中的有效性。
现代信息系统常涉及多种类型的项目,如文本查询、图像、视频片段或音频片段。这促使全模态嵌入模型的发展,旨在将异构模态映射到共享空间以实现直接比较。然而当前大多数全模态嵌入仍严重依赖预训练视觉语言模型(VLM)主干网络中的隐式对齐机制。实践中这会引发三个常见问题:(i)相似度对数具有模态依赖性锐度,导致评分尺度不一致;(ii)混合模态批次产生不平衡的难负样本分布,使得批内负样本随时间推移效率降低,大量负样本迅速变得无关紧要且梯度贡献微弱;(iii)跨模态嵌入呈现不匹配的一阶和二阶统计量,导致排序稳定性下降。为解决这些问题,我们提出e5-omni——一种轻量级显式对齐方案,可将现有VLM适配为鲁棒的全模态嵌入模型。该方案融合三个核心组件:(1)模态感知温度校准以实现相似度尺度对齐;(2)带去偏控制的负样本课程学习,聚焦混淆性负样本同时减弱假负样本影响;(3)协方差正则化的批白化处理,以优化共享嵌入空间中的跨模态几何匹配。在MMEB-V2和AudioCaps数据集上的实验表明,该方法在强双模态与全模态基线上持续提升性能,且该方案能良好迁移至其他VLM主干网络。模型检查点已发布于https://huggingface.co/Haon-Chen/e5-omni-7B。
当前大型语言模型(LLM)的记忆机制主要依赖静态检索增强生成(RAG),这种方法往往导致检索内容碎片化,难以捕捉复杂推理所需的结构化依赖关系。对于自主智能体而言,这类被动扁平的架构缺乏对长期交互动态关联特性进行建模所需的认知组织能力。为此,我们提出结构化情景事件记忆(SEEM)——一种融合关系性事实图谱记忆层与叙事推进动态情景记忆层的层次化框架。该框架基于认知框架理论,通过精确溯源指针将交互流转化为结构化情景事件框架(EEF)。此外,我们引入智能关联融合机制与反向溯源扩展(RPE)技术,从碎片化证据中重构连贯的叙事语境。在LoCoMo和LongMemEval基准测试上的实验表明,SEEM显著优于基线模型,使智能体能够保持卓越的叙事连贯性与逻辑一致性。
人类主要通过概念(如“狗”)来理解世界,这些抽象的心理表征构建了感知、推理和学习的过程。然而,大型语言模型在持续预训练过程中如何获取、保持及遗忘此类概念,目前仍缺乏深入理解。本研究探索了单个概念的习得与遗忘规律,以及多概念间通过干扰与协同产生的相互作用。我们将这些行为动态与模型内部的"概念回路"(即与特定概念相关的计算子图)相关联,并引入图度量指标来刻画回路结构。分析表明:(1)概念回路能为概念学习与遗忘提供具有统计显著性的有效信号;(2)在持续预训练中,概念回路呈现阶段性时序变化,早期增强后逐渐衰减并趋于稳定;(3)学习增益越大的概念在后续训练中往往表现出更强的遗忘效应;(4)语义相近概念比弱相关概念产生更显著的干扰;(5)概念知识具有异质性迁移能力,部分概念能显著促进其他概念的学习。这些发现从回路层面揭示了概念学习的动态特征,为设计更具可解释性与鲁棒性的概念感知训练策略提供了理论依据。
大型语言模型(LLMs)能够生成出人意料精准的自我不确定性评估。然而,这种表达出的置信度在多大程度上与模型的推理、知识或决策机制相关联仍不明确。为验证这一问题,我们提出RiskEval评估框架,旨在检验模型是否会根据不同的错误惩罚调整其弃答策略。通过对多个前沿模型的测试,我们发现了关键脱节现象:模型在表述语言置信度时不具备成本意识,在高惩罚条件下进行参与或弃答决策时也缺乏策略响应性。即使极端惩罚使得频繁弃答成为数学上的最优策略,模型几乎从不选择弃答,导致效用崩溃。这表明,仅靠校准化的语言置信度评分可能不足以构建可信赖且可解释的AI系统,因为现有模型缺乏将不确定性信号转化为最优风险敏感决策的策略能动性。
在人工智能创新加速发展的当下,突破性成果背后的智力过程——研究者如何识别研究空白、整合前人工作并产生洞见——仍鲜为人知。科学推理结构化数据的缺失,阻碍了对AI研究智能体的系统性分析与开发。我们推出首个捕捉高质量AI研究背后智力合成过程的Sci-Reasoning数据集:通过社区验证的质量信号与LLM加速、人工校验的流程,追溯NeurIPS、ICML和ICLR(2023-2025)口头报告与焦点论文的关键前驱研究,以结构化形式阐明具体推理链条。分析揭示了15种独特思维模式,其中三种主导策略占比52.7%:空白驱动重构(24.2%)、跨领域融合(18.0%)与表征转换(10.5%)。最具创新性的方法往往融合多种模式:空白驱动重构+表征转换、跨领域融合+表征转换、空白驱动重构+跨领域融合。该数据集支持科学进步的量化研究,并为培养新一代AI研究智能体提供了结构化推理轨迹。
随着ChatGPT、Copilot、Claude和Gemini等大语言模型(LLMs)逐渐融入软件开发工作流,开发者在代码注释中留下的AI参与痕迹日益增多。其中部分注释不仅明确提及生成式AI的使用,还坦承存在技术缺陷。通过分析从公开Python和JavaScript的GitHub代码库(2022年11月至2025年7月)中提取的6,540条涉及LLM的代码注释,我们发现其中81条同时自陈存在技术债务(SATD)。开发者最常提及推迟测试、适配不完整以及对AI生成代码理解有限等问题,这表明AI辅助不仅影响技术债务的产生时机,也改变了其形成原因。我们提出"生成式AI引发的自认技术债务"(GIST)这一概念框架,用以描述开发者在使用AI生成代码时,明确表达对其行为或正确性存在不确定性的重复性现象。
伏笔与照应作为普遍存在的叙事手段,要求作者在故事前期埋下承诺,并通过具体可观测的结果予以兑现。然而尽管故事生成技术取得进展,大语言模型仍难以建立这种长程叙事依赖关系,即便在具备必要语境的情况下,也常常让"契科夫的枪"哑火。现有评估方法大多忽视这种结构性缺陷,更关注表面连贯性而非叙事设定的逻辑完成度。本文提出编码化伏笔-照应生成框架,通过照应实现的全新视角重构叙事质量评估体系。针对大语言模型难以直观把握伏笔事件"触发机制"的问题,本框架将叙事连续性转化为可执行的因果谓词集合。通过从BookSum语料库中挖掘并编码"伏笔-触发-照应"三元组,我们提供的结构化监督机制能确保伏笔承诺不仅被提及,更能在时间和逻辑层面得到兑现。实验表明,该框架在照应准确度与叙事一致性上显著优于标准提示基线。我们的研究证明,显式编码叙事机制对于推动大语言模型从表层流畅性迈向真正的叙事能力具有关键意义。
大型语言模型(LLM)可通过仅修改少量可训练参数的参数高效微调(PEFT)方法适配新任务,这类方法通常采用低秩更新策略。本研究从量子信息视角切入,旨在揭示其有效性机理。该视角下,低秩参数化天然对应矩阵乘积态(MPS)的低维表示,从而可通过纠缠理论表征参数结构。据此我们提出并度量"人工纠缠"——即人工神经网络(特别是LLM)参数体系的纠缠熵。我们以LLaMA-1B/8B模型在Tulu3和OpenThoughts3数据集上的训练为实验场景,对比研究了代表性PEFT方法LoRA与全参数微调(FFT),发现:(i)LoRA中查询与价值投影矩阵更新呈现具有中心抑制特征的体积律内部人工纠缠(称为"纠缠谷"),该现象对超参数敏感且与FFT模式存在显著差异;(ii)注意力矩阵中表征符号关联的外部人工纠缠遵循带对数修正的面积律,且对LoRA超参数及训练步数保持稳健。借鉴黑洞物理中的"无毛定理",我们提出尽管LoRA与FFT会形成不同的内部纠缠特征,但这种差异不会体现在注意力输出中,这种"无毛"特性可能是低秩更新有效的内在原因。我们进一步基于随机矩阵理论提供理论支撑,并将分析拓展至MPS适配型PEFT方法,发现其具有定性相似的行为规律。
图形用户界面(GUI)是人机交互的核心,但自动化复杂GUI任务仍是自主智能体面临的主要挑战,这主要源于缺乏可扩展的高质量训练数据。虽然人类操作记录提供了丰富的数据源,但这些数据通常冗长、非结构化且缺乏标注,导致智能体难以有效学习。为此,我们推出ShowUI-Aloha系统——一个将桌面环境中非结构化的野生人类屏幕录像转化为结构化可执行任务的完整流程。该框架包含四个核心组件:记录器负责采集屏幕视频及精确的用户交互(如鼠标点击、键盘输入和滚动操作);学习器通过语义解析原始交互行为与视觉上下文,将其转化为描述性自然语言标注;规划器读取解析后的演示数据,维护任务状态,并基于情境推理动态制定高层动作计划;执行器在操作系统层面忠实执行动作计划,通过安全检查与实时反馈实现精准点击、拖拽、文本输入及窗口操作。这些组件共同构成了采集和解析真实人类数据的可扩展解决方案,为构建能够通过观察人类操作即可高效学习的通用GUI智能体开辟了可行路径。
大型语言模型的后训练通常交替使用监督微调(SFT)与强化学习(RL)。这两种方法具有不同目标:SFT最小化模型输出与专家响应之间的交叉熵损失,而RL最大化源自人类偏好或基于规则的验证器的奖励信号。现代推理模型已广泛采用交替进行SFT与RL训练的做法。然而,这两种方法能否解耦尚缺乏理论解释。我们证明两种顺序的解耦均不可行:(1)SFT后接RL的耦合:在SFT最优性条件下,RL会增大SFT损失;(2)RL后接SFT的耦合:SFT会降低RL已实现的奖励。在Qwen3-0.6B上的实验证实了预测的性能退化,验证了在后训练过程中若要保持已有性能,SFT与RL不可分离。
系统日志对监控和诊断现代计算基础设施至关重要,但其规模与复杂性需要可靠高效的自动化解读。由于严重级别是系统日志消息中预定义的元数据,仅让模型对其进行分类的独立实用价值有限,难以揭示其底层日志解读能力。我们认为,将严重性分类作为探究运行时日志理解能力的基准测试,比作为最终任务更具参考价值。基于Linux生产服务器的真实journalctl数据,我们在零样本、少样本和检索增强生成(RAG)提示下评估了九款小型语言模型(SLM)和小型推理语言模型(SRLM)。结果呈现显著的分层现象:Qwen3-4B在RAG加持下以95.64%准确率居首,而Gemma3-1B从少样本提示的20.25%提升至RAG下的85.28%。值得注意的是,微型模型Qwen3-0.6B在无检索时表现薄弱,却仍达到88.12%的准确率。相反,包括Qwen3-1.7B和DeepSeek-R1-Distill-Qwen-1.5B在内的多款SRLM与RAG结合后性能大幅下降。效率测试进一步区分模型:多数Gemma和Llama变体单条日志推理耗时低于1.2秒,而Phi-4-Mini-Reasoning单条耗时超228秒却仅获不足10%的准确率。这些发现表明:(1)架构设计,(2)训练目标,(3)在严格输出约束下整合检索上下文的能力共同决定模型性能。通过聚焦可部署的小型模型,该基准测试符合数字孪生(DT)系统的实时需求,并证明严重性分类可作为评估模型能力与实时部署潜力的观察窗口,对根本原因分析(RCA)及更广泛的DT集成具有指导意义。
基于大规模原始音频预训练的生成式口语语言模型能够延续语音提示的内容,同时保持说话者与情感等属性,成为口语对话的基础模型。现有研究常采用"全局标记困惑度"进行评估,该方法直接将文本困惑度的计算方式套用于语音标记。然而,这种做法忽视了语音与文本模态的本质差异,可能导致语音特性被低估。本研究提出一系列基于似然估计和生成能力的评估方法,以替代简单的全局标记困惑度。实验表明,新评估方法能更真实地反映生成语音的感知质量,其与人工评定的平均意见得分(MOS)具有更强的相关性。在新指标评估下,口语语言模型的性能对比格局被重塑:最佳模型与人类表现上限之间的差距显著缩小。这些结果表明,采用合适的评估方法对准确衡量口语语言建模的发展至关重要。
设计一种能够高效、内在地处理任意长度序列数据的统一神经网络,是序列建模领域核心且具有挑战性的问题。Transformer架构中的二次复杂度与弱长度外推等设计限制其向长序列扩展的能力。本研究提出Gecko神经网络架构,该架构继承Mega和Megalodon的设计思想(采用带门控注意力的指数移动平均机制),并进一步引入多项技术组件以增强长程依赖捕捉能力,包括时间步衰减归一化、滑动分块注意力机制和自适应工作记忆。在70亿参数规模、2万亿训练标记量的控制性预训练实验中,Gecko相较于Llama2和Megalodon展现出更优的效能与长上下文扩展性:其训练损失降至1.68,显著优于Llama2-7B(1.75)和Megalodon-7B(1.70),接近Llama2-13B(1.67)的水平。值得注意的是,在不依赖任何上下文扩展技术的情况下,Gecko展现出内在的长上下文处理与检索能力,可稳定处理长达400万标记的序列,并能从超出其注意力窗口4倍长度的上下文中检索信息。代码地址:https://github.com/XuezheMax/gecko-llm
无人机正日益频繁地在人类活动密集区域执行包裹投递、交通监控、灾害响应和基础设施检测等任务。要确保此类人机共存环境下的安全可靠运行,必须实现从空中视角对人体姿态与行为的精准感知。这一特殊视点因图像分辨率低、拍摄角度陡峭及(自)遮挡等问题,对现有方法构成巨大挑战,特别是在需要实时模型的应用场景中。我们训练并部署了FlyPose——一种专用于航拍图像的轻量级自上而下人体姿态估计算法。通过多数据集联合训练,在Manipal-UAV、VisDrone、HIT-UAV及自建数据集的测试集上,人物检测平均精度提升6.8 mAP;在极具挑战性的UAV-Human数据集中,二维人体姿态估计精度提升16.3 mAP。FlyPose在Jetson Orin AGX开发套件上(含预处理)的推理延迟约为20毫秒,并已在四旋翼无人机飞行实验中完成机载部署。同时我们发布了FlyPose-104数据集,该小型但极具挑战性的航拍人体姿态数据集包含从困难航拍视角的手动标注:https://github.com/farooqhassaan/FlyPose。
确定性推理是经典软件中令人安心的理想范式:相同程序在相同输入下应始终产生相同输出。随着大语言模型进入实际部署,这一理想被全盘照搬到推理架构中。思维机器实验室的最新研究详细分析了LLM推理中的非确定性,展示了批次不变内核与确定性注意力机制如何确保比特级完全一致的输出,将确定性推理定位为可复现性和企业级可靠性的前提。 本文则持相反立场。我们认为对LLM而言,确定性推理实为桎梏:它扼杀不确定性建模能力,压制涌现能力,将推理压缩至单一脆弱路径,并通过隐藏尾部风险削弱安全对齐效果。LLM本质是实现输出的条件分布而非固定函数,将这些分布坍缩为单一标准完成看似可靠,却系统性掩盖了人工认知的核心特性。我们主张采用"随机混沌"范式,将分布变异性视为可测量、可控制的信号。 实证研究表明,确定性推理具有系统性误导。单样本确定性评估会同时低估模型能力与脆弱性,掩盖语义改写和噪声下的失败概率。与涌现能力相关的相变现象在贪心解码下消失;强制采用确定性主干会弱化多路径推理,降低准确率与诊断洞察力;确定性评估还通过隐藏仅在多样本评估中出现的罕见危险行为,低估安全风险。
尽管多模态大语言模型(MLLMs)在视觉理解方面取得了显著进展,但在处理人类手绘草图的无结构性和模糊性时仍面临挑战。这一局限在视觉评分这一尚未充分探索的任务中尤为突出——该任务要求模型不仅要解决问题,还需诊断手绘图表中的错误。此类诊断能力依赖于复杂的结构、语义及元认知推理。为弥补这一差距,我们推出了SketchJudge这一新型基准测试,专门用于评估MLLMs对手绘STEM图表的评分能力。SketchJudge涵盖几何、物理、图表和流程图四大领域,包含1,015份风格各异且具有典型错误类型的学生手绘作答。基于该基准的评估表明,即使先进MLLMs的表现也显著落后于人类,验证了本基准在揭示当前视觉-语言对齐机制面对符号化及噪声场景时的脆弱性方面的有效性。所有数据、代码及评估脚本已公开于https://github.com/yuhangsu82/SketchJudge。
多模态大语言模型(MLLM)虽展现出强大的通用能力,但在细粒度视觉分类(FGVC)任务上仍存在明显不足。FGVC作为核心感知任务,需要细微的视觉辨别能力,对众多现实应用至关重要。针对数学、编程等高难度任务,思维链(CoT)推理已成为提升性能的常用策略。然而多项前期研究表明,CoT反而会损害视觉感知任务的性能。这些研究虽从不同角度探讨了该问题,但尚未揭示CoT削弱感知性能的根本原因。我们通过零样本评估与多训练范式的系统化重检验,发现核心矛盾在于:CoT引发的性能下降主要受推理长度驱动,即文本推理越长,分类准确率持续降低。我们将此现象命名为“思维成本”。基于该发现,我们提出两项关键贡献:(1)\alg——面向多奖励优化的通用即插即用归一化方法,可平衡异构奖励信号;(2)ReFine-RFT框架——结合集成奖励与\alg机制,在约束推理长度的同时提供密集的准确性反馈。大量实验验证了我们发现的普适性及ReFine-RFT的有效性,该框架在FGVC基准测试中实现了最先进的性能。代码与模型已开源:https://github.com/jiezhu23/ReFine-RFT{项目链接}。
自洽性技术已成为提升大语言模型推理任务准确率的常用方法。该技术思路简明:生成多条推理路径后通过多数投票选择最常见答案。虽然这种方法能稳定提升准确率,但其增益是否真正反映推理质量的提升仍不明确。我们针对一个尚未被研究的基础问题展开探讨:推理规模扩展是否会提升推理忠实度? 我们在100道GSM8K数学推理题上对四种前沿模型(GPT-5.2、Claude Opus 4.5、Gemini-3-flash-preview和DeepSeek-v3.2)进行了全面实证研究。通过自助置信区间、配对比较的麦克尼马尔检验和科恩d值效应量进行量化分析,结果揭示了挑战自洽性常规认知的显著模型差异。 GPT-5.2呈现预期模式:当N=5时准确率从78%提升至90%,忠实度保持相对稳定(0.540→0.510)。Claude Opus 4.5则展现完全不同的趋势:准确率从78%降至74.3%,而忠实度在N=5时从0.270跃升至0.891。DeepSeek-v3.2因已达98%准确率出现天花板效应,忠实度仅小幅提升(0.440→0.541)。Gemini-3-flash准确率从81%增至86%,但忠实度微降(0.260→0.212)。 难题分析表明,GPT-5.2能解决82%的难题且仅破坏13%的简单题。相反地,Claude模型会破坏23%的简单题,这解释了其准确率下降的原因。这些发现对实践者具有重要意义:自洽性并非普遍有益,团队在部署前应针对具体模型进行测试。我们已公开代码,并为平衡这些权衡关系提供实践建议。
非组合式表达(如习语、谚语和隐喻)对神经机器翻译系统构成显著挑战,因为其含义无法仅从单个词汇推导得出。这类表达承载着丰富的文化内涵,兼具比喻义与字面义,导致准确翻译极为困难。鉴于现有模型在组合式文本翻译上表现良好,我们探索采用基于机器翻译质量评估模型的GRPO式微调方法,将其作为奖励函数来提升模型的习语翻译能力。通过中印习语数据集的实验发现:习语翻译能力提升约14个百分点,普通非习语翻译能力隐性提升约8个百分点,跨语言翻译能力(单语言训练,多语言评估)提升约6个百分点。本研究首次量化了非组合式表达的翻译差距,为开发具有更强跨文化比喻语言理解能力的大语言模型提供了新思路。
直接偏好优化(DPO)是一种基于原则、可扩展的RLHF替代方案,用于根据成对偏好对齐大语言模型,但其内部几何特征尚未得到充分表征,限制了模型审计、检查点比较和故障预测的能力。我们提出SPINAL(神经对齐层中的缩放律与偏好整合诊断法),通过逐层追踪局部结构变化,量化对齐过程如何重塑不同深度的表征。跨模型族实验表明,DPO会产生层间校准效应,该效应集中体现在最终解码块(通常为21-30层)——偏好梯度在此处对下一词元分布产生最直接影响。SPINAL将每个检查点编码为包含(层索引、收缩分数、传输分数)的深度轨迹。收缩分数表征层谱尾部的衰减速度(小微模态的消失速率),数值越高表明表征向更少有效方向的收缩越强;传输分数通过有界重叠度量相邻层间词元分布的偏移程度,数值越低表征在表示空间中的移动越短促平滑。对齐后的检查点呈现末层收缩强度跃升与传输平滑下降的特征,符合策略质量紧致化和稳定化的趋势,而未对齐模型则表现出高曲率、高熵值及几何不连贯的深度路径。总体而言,对齐具有几何局部性:末层编码了由偏好主导的修正量。SPINAL将这种局部性转化为实用审计信号,可量化对齐作用的集中位置、强度表征及其在训练过程中的失稳临界点。
空间智能指在三维环境中感知、推理并描述物体及其相互关系的能力,是具身感知与场景理解的基础。三维描述任务旨在用自然语言描述三维场景,但由于点云的稀疏性与不规则性,以及现有描述器在室内外等差异显著环境中的弱 grounding 能力和有限分布外泛化能力,该任务仍面临挑战。为此,我们提出通用化三维描述框架 3D CoCa v2,通过统一对比式视觉语言学习与三维描述生成,并引入不更新描述器参数的无参数测试时搜索机制提升鲁棒性。该框架基于冻结的 CLIP 语义先验、具备空间感知能力的几何编码器和多模态解码器,通过对比学习与描述生成联合优化,无需外部检测器或人工提案。推理时,测试时搜索生成多样化描述候选,并基于紧凑场景摘要进行奖励引导的选择。实验显示:在 ScanRefer 和 Nr3D 数据集上 CIDEr@0.5IoU 分别提升 1.50 和 1.61 分,在 TOD3Cap 的零样本分布外评估中 CIDEr@0.25 提升 3.8 分。代码将发布于 https://github.com/AIGeeksGroup/3DCoCav2。
在金融等高专业性、高风险的领域中,由于缺乏开放、高质量且领域特定的数据集,语言模型的评估仍面临重大挑战。现有通用基准测试虽覆盖广泛,但缺乏评估语言模型在现实金融推理能力所需的深度和领域保真度——这种能力既需要概念理解,又要求定量严谨性。为弥补这一空白,我们推出FinForge:一种通过专家指导的数据策管与基于语言模型的受控合成相结合的可扩展半自动化流程,用于构建金融领域专项评估基准。该流程融合了从权威金融源进行人工与程序化语料构建的方法,并利用Gemini 2.5 Flash实现结构化问题生成与验证。为验证其有效性,我们基于10万份经过验证的文档(总计1.43亿词元)构建的精选语料库,开发出包含11个金融子领域、超5000道人工验证问答对的FinForge-5k基准测试集。通过对主流开源与闭源模型的测试发现,金融推理能力存在显著差异,领先模型的准确率接近80%。这些结果印证了该框架在诊断现有模型局限、指导金融领域能力改进方面的价值。全部代码与数据已发布于https://github.com/gtfintechlab/FinForge。