每日精选AI研究论文及翻译
我们推出Being-H0.5——一个面向多样化机器人平台、具备强大跨具身泛化能力的基础视觉-语言-动作模型。针对现有VLA模型常受限于形态异构性与数据稀缺的挑战,我们提出以人类为中心的学习范式,将人类交互轨迹视为物理交互的通用"母语"。为此,我们发布迄今最大规模的具身预训练方案UniHand-2.0,整合超过3.5万小时跨30种异构机器人平台的多模态数据。该方案创新性地构建了统一动作空间,将异构机器人控制映射至语义对齐的槽位,使低资源机器人能够从人类数据与高资源平台中快速习得技能。基于此人类中心框架,我们设计了统一序列建模与多任务预训练范式,有效桥接人类示范与机器人执行。在架构层面,Being-H0.5采用混合Transformer设计,其新颖的流混合框架可将通用运动基元与特定具身专家解耦。最后,为保障跨具身策略在现实世界的稳定性,我们提出流形保持门控机制以增强感知偏移下的鲁棒性,并采用通用异步分块技术实现不同延迟与控制特性平台的标准化分块控制。实验表明,Being-H0.5在LIBERO(98.9%)和RoboCasa(53.9%)等仿真基准测试中达到最先进水平,同时在五种机器人平台上展现出强大的跨具身泛化能力。
问题解决作为一项复杂的软件工程任务,是现实开发中不可或缺的环节,现已成为人工智能领域极具挑战性的研究方向。SWE-bench等基准测试的建立表明,该任务对大型语言模型而言极具难度,这一发现显著加速了自主编程智能体的发展进程。本文系统性地综述了这一新兴领域:首先剖析数据构建流程,涵盖自动化采集与合成方法;继而全面解析技术路径,从包含模块化组件的免训练框架,到基于训练的技术(如监督微调与强化学习);随后探讨数据质量与智能体行为的关键分析,并结合实际应用场景展开论述;最后指出核心挑战并展望未来研究方向。为持续推动该领域发展,我们在https://github.com/DeepSoftwareAnalytics/Awesome-Issue-Resolution 维护开源资源库作为动态知识库。
近年来,将大型语言模型扩展为智能体系统的研究日益受到关注。尽管智能体的效能持续提升,但对其实际部署至关重要的效率问题却常被忽视。为此,本文从智能体的三个核心组件——记忆、工具学习与规划入手,结合延迟、令牌消耗、步骤数等成本指标,系统性地探讨效率优化问题。通过审视大量近期研究,我们发现不同实现方法虽各有差异,却常遵循共同的高层原则:包括但不限于通过压缩与管理技术限制上下文长度、设计强化学习奖励函数以最小化工具调用次数、采用受控搜索机制提升效率等。基于此,我们提出两种互补的效率评估方式:在固定成本预算下比较效能表现,以及在同等效能水平下比较成本消耗。这种权衡关系亦可从效能与成本的帕累托前沿视角加以理解。在此基础上,我们通过归纳各组件的评估范式、整合基准测试与方法论研究中常用效率指标,系统梳理了面向效率的评估体系。最后,本文讨论了当前面临的关键挑战与未来研究方向,以期为该领域提供有价值的见解。
理解并推理物理世界需要空间智能:即超越二维感知、解读几何结构、透视关系与空间互动的能力。当前视觉大模型虽在视觉理解方面表现出色,但其本质仍是二维感知器,难以实现真正的三维推理。我们提出Think3D框架,使视觉大模型具备三维空间思考能力。该框架利用从图像或视频中恢复点云与相机姿态的三维重建模型,让智能体通过相机操作与第一人称/全局视角切换主动操控空间,将空间推理转化为交互式三维思维链过程。无需额外训练,Think3D即可显著提升GPT-4.1、Gemini 2.5 Pro等先进模型的空间推理性能,在BLINK多视角与MindCube任务上平均提升7.8%,在VSI-Bench上提升4.7%。研究还发现,对于难以自主探索空间的小模型,通过强化学习策略选择信息丰富的视角与操作可带来显著增益:使用强化学习后,工具辅助的收益从0.7%提升至6.8%。我们的研究表明,无需训练、工具增强的空间探索是实现多模态智能体更灵活、类人三维推理的有效路径,由此开辟了多模态智能的新维度。代码与权重已发布于https://github.com/zhangzaibin/spagent。
机械可解释性(MI)已成为揭示大型语言模型(LLM)不透明决策机制的关键方法。然而,现有综述主要将MI视为观测科学,侧重于分析性见解的总结,却缺乏可操作性干预的系统框架。为弥补这一空白,我们提出以“定位-调控-改进”为流程的实践性综述。我们基于特定可解释对象对定位(诊断)与调控(干预)方法进行形式化分类,以建立严谨的干预规程。进一步地,我们论证了该框架如何在对齐性、能力与效率三大维度实现实质性提升,从而将MI有效转化为可操作的模型优化方法论。本工作的精选论文列表详见:https://github.com/rattlesnakey/Awesome-Actionable-MI-Survey。
视频相比图像或文字能传递更丰富的信息,同时捕捉空间与时间动态。然而现有视频定制方法大多依赖参考图像或特定任务的时间先验,未能充分利用视频固有的丰富时空信息,从而限制了视频生成的灵活性与泛化能力。为突破这些局限,我们提出OmniTransfer——一个统一的时空视频迁移框架。该框架通过跨帧的多视角信息增强外观一致性,并利用时序线索实现细粒度的时间控制。为统一各类视频迁移任务,OmniTransfer包含三大核心设计:任务感知位置偏置机制自适应地利用参考视频信息以提升时序对齐或外观一致性;参考解耦因果学习将参考流与目标流分离,在提升效率的同时实现精准的参考迁移;任务自适应多模态对齐通过多模态语义引导动态区分并处理不同任务。大量实验表明,OmniTransfer在外观迁移(身份与风格)和时序迁移(摄像机运动与视频特效)上均优于现有方法,同时在无需使用姿态信息的情况下达到与姿态引导方法相当的运动迁移效果,为灵活、高保真的视频生成建立了新范式。
尽管多模态大语言模型(MLLMs)展现出强大的全模态感知能力,但其基于视听线索预测未来事件的能力仍鲜有探索,因为现有基准主要关注回顾性理解。为填补这一空白,我们推出了FutureOmni——首个专为评估基于视听环境的全模态未来预测而设计的基准。被评估模型需具备跨模态因果与时序推理能力,并能有效利用内部知识预测未来事件。FutureOmni通过可扩展的大语言模型辅助、人机协同流程构建,涵盖8个主要领域的919个视频和1,034个多选问答对。对13个全模态模型和7个纯视频模型的评估表明,当前系统在视听未来预测方面表现欠佳,尤其在语音密集型场景中,最佳准确率仅由Gemini 3 Flash达到64.8%。为突破此局限,我们构建了包含7千样本的指令微调数据集,并提出全模态未来预测(OFF)训练策略。在FutureOmni及主流视听/纯视频基准上的测试表明,OFF能有效提升未来预测能力与泛化性能。我们已公开全部代码(https://github.com/OpenMOSS/FutureOmni)与数据集(https://huggingface.co/datasets/OpenMOSS-Team/FutureOmni)。
现有研究越来越多地采用以记忆为核心的机制对长上下文进行分段处理,而有效的记忆管理是使大语言模型能够在整个序列中有效传递信息的关键能力之一。因此,利用奖励模型自动可靠地评估记忆质量至关重要。本研究推出首个系统评估奖励模型长时记忆管理能力的基准MemoryRewardBench,涵盖长上下文理解与长文本生成两类任务,包含10种具有不同记忆管理模式的场景,上下文长度覆盖8K至128K标记。对13个前沿奖励模型的评估表明:开源模型与专有模型之间的性能差距正在缩小,新一代模型不论参数量大小均持续超越前代模型。我们进一步揭示了当前奖励模型在不同场景下评估LLM记忆管理能力的优势与根本局限。
我们推出LightOnOCR-2-1B——一个拥有10亿参数的多语言端到端视觉语言模型,可直接将文档图像(如PDF)转换为整洁、自然排序的文本,无需依赖脆弱的OCR流程。该模型通过大规模高质量蒸馏训练集进行训练,广泛涵盖扫描文档、法语文档和科学类PDF,在OlmOCR-Bench上实现了最先进的性能,其模型尺寸较先前最佳模型缩小9倍且推理速度显著提升。我们进一步扩展输出格式以预测嵌入式图像的归一化边界框,通过续训策略在预训练阶段引入定位能力,并采用基于交并比奖励的强化学习视觉推理进行优化。最后,通过检查点平均和任务算术融合技术增强了模型鲁棒性。本模型基于Apache 2.0协议发布检查点,相关数据集及LightOnOCR-bbox-bench评估基准亦按各自许可公开。
为实现视觉与语言导航(VLN)中的人类水平性能,智能体需在理解多模态指令与视觉空间上下文的同时,完成长序列动作推理。近期研究如NavCoT与NavGPT-2揭示了思维链(CoT)推理在提升可解释性与长程规划能力方面的潜力。而OctoNav-R1、CoT-VLA等多模态扩展工作进一步验证了CoT作为类人导航推理路径的可行性。然而现有方法存在明显缺陷:纯文本CoT缺乏空间锚点易过度拟合稀疏标注的推理步骤,多模态CoT因生成虚拟视觉观测导致标记激增,难以实现实时导航。本文提出FantasyVLN——一种保留CoT推理优势且无需显式标记开销的统一隐式推理框架。具体而言,在CoT推理训练阶段,通过预训练视觉自回归模型将虚拟视觉标记编码至紧凑潜空间,模型在统一多CoT策略下联合学习文本、视觉及多模态CoT模式。推理时,模型直接实现指令到动作的映射,同时保持推理感知的表征能力。在LH-VLN数据集上的大量实验表明,本方法在实现推理感知的同时保证实时导航,较显式CoT方法将推理延迟降低一个数量级,并显著提升成功率与导航效率。
近期,智能体搜索(Agentic Search)作为一种新兴的强大范式崭露头角,其通过智能体将多步推理与按需检索相结合来解决复杂问题。尽管该模式已取得显著成效,但如何为其设计专用检索器仍属探索不足的领域。现有搜索智能体通常依赖基于相似度的检索器,然而相似文本片段并非总能有效支撑最终答案的生成。本文提出一种专为智能体搜索设计的新型检索器训练框架。与面向单轮检索增强生成(RAG)的检索器仅关注局部段落效用不同,我们提出在多轮智能体搜索中同时利用局部查询-段落相关性和全局答案正确性来衡量段落效用。进一步引入迭代训练策略,使搜索智能体与检索器在双向互动中循环优化。相较于仅通过固定问题一次性训练的RAG检索器,我们的方法能持续利用智能体生成的动态演进且更高质量的查询进行改进。在七个单跳及多跳问答基准上的大量实验表明,本研究所提出的检索器(命名为)在不同搜索智能体上均能稳定超越现有强基线模型。代码已开源:https://github.com/8421BCD/Agentic-R。
尽管近期取得进展,医疗基础模型在统一视觉理解与生成任务方面仍面临挑战,因为这两项任务具有本质上的目标冲突:语义抽象与像素级重建。现有基于参数共享自回归架构的方法往往导致其中一项或两项任务性能受损。为此,我们提出新一代统一医疗基础模型UniX,用于胸部X光片的理解与生成。UniX将两项任务解耦为理解任务的自回归分支和生成任务的高保真扩散分支,关键之处在于引入跨模态自注意力机制,通过理解特征动态引导生成过程。结合严格的数据清洗流程与多阶段训练策略,该架构在充分发挥扩散模型生成优势的同时,实现了任务间的协同合作。在两个代表性基准测试中,UniX仅使用LLM-CXR四分之一参数量,即在理解性能(Micro-F1)上提升46.1%,生成质量(FD-RadDino)上提升24.2%。通过达到与专用模型相当的性能,我们的工作为协同式医学图像理解与生成建立了可扩展范式。代码与模型已开源:https://github.com/ZrH42/UniX。
奖励引导的搜索方法通过有效指导复杂动作空间中的采样与探索,在增强工具使用智能体方面展现出巨大潜力。其核心设计在于利用过程奖励模型(PRM)提供步进级奖励,实现更细粒度的监控。然而,目前工具使用场景下仍缺乏系统可靠的PRM评估基准。本文提出ToolPRMBench——一个专为评估工具使用智能体PRM而设计的大规模基准测试平台。该平台基于多个代表性工具使用基准构建,将智能体轨迹转化为步进级测试用例。每个用例包含交互历史、正确动作、合理但错误的替代动作及相关工具元数据。我们分别采用离线采样来隔离局部单步错误,并通过在线采样捕捉完整智能体推演中的实际多步故障。同时提出多LLM验证流程以降低标注噪声并确保数据质量。基于ToolPRMBench,我们在大语言模型、通用PRM和工具专用PRM上开展了广泛实验。结果表明不同PRM效能存在显著差异,同时凸显了专用PRM在工具使用场景中的潜力。代码与数据将在https://github.com/David-Li0406/ToolPRMBench发布。
当前大型语言模型存在关键模态脱节:它们拥有海量语义知识,却缺乏遵循物理世界恒定法则的程序性基础。这导致这些智能体虽隐式充当世界模型,其模拟过程常出现物理幻觉——生成逻辑合理但物理不可行的计划。现有对齐策略主要依赖资源密集的训练或微调,试图将动态环境规则压缩至静态模型参数中。然而这种参数化封装本质僵化,难以适应物理动态的开放可变性而无需持续昂贵的重训练。为弥补这一鸿沟,我们提出WorldMind框架,通过综合环境反馈自主构建符号化世界知识库。具体而言,它统一了通过预测误差强化物理可行性的过程经验,以及借助成功轨迹引导任务最优性的目标经验。在EB-ALFRED和EB-Habitat上的实验表明,WorldMind相比基线方法实现卓越性能,并展现出显著的跨模型与跨环境可迁移性。
基于大语言模型的自我博弈已成为实现自我改进人工智能的重要范式。然而现有自博弈框架常因两大问题导致优化不稳定:(i) 提问者依赖求解器反馈的奖励目标存在非平稳性;(ii)求解器使用自生成伪标签会引入自举误差。为应对这些挑战,我们提出解耦式非对称推理课程框架DARC,通过两阶段训练稳定自进化过程:首先基于显式难度分级和外部语料库,训练提问者生成难度可控的问题;随后采用非对称自蒸馏机制,让具备文档检索能力的教师模型生成高质量伪标签,指导无文档访问权限的学生求解器。实验表明DARC具有模型无关性,在三大骨干模型和九个推理基准测试中平均提升10.9个点,持续超越所有基线模型,并在无需人工标注的情况下接近全监督模型性能。代码已开源于https://github.com/RUCBM/DARC。
当前生产级大语言模型系统通常依赖独立模型处理安全检测等分类密集型任务,这会导致延迟增加、显存占用扩大及运维复杂度提升。我们提出通过复用服务模型已完成的计算来优化这一流程:基于其隐藏状态训练轻量级探测头,在生成任务的同一次前向传播中完成标签预测。我们将分类任务重新定义为对完整词元-层级隐藏状态张量的表征选择,而非拘泥于固定词元(如首词元逻辑值)或固定层级(如末层池化)。为实现该目标,我们设计了双阶段聚合器:(i)逐层级内进行词元摘要;(ii)跨层级聚合摘要信息形成单一分类表征。具体实现采用直接池化法、10万参数规模的评分注意力门控机制,以及最多包含3500万可训练参数的下采样多头自注意力探测头。在安全检测与情感分析基准测试中,我们的探测头相较于仅复用逻辑值的方法(如MULI)表现更优,并与参数量显著更大的专用基线模型性能相当,同时保持近乎服务原型的延迟水平,避免了独立防护模型流水线带来的显存与延迟开销。
基于概念的解释方法能够量化高层次概念(如性别或资历)对模型行为的影响,这对高风险领域的决策者至关重要。近期研究通过将此类解释与基于反事实估计的参考因果效应进行比较,来评估其忠实度。实践中,现有基准依赖成本高昂的人工撰写反事实作为不完美的代理指标。为此,我们提出了构建包含结构化反事实对的数据集框架:LIBERTy(基于LLM的可解释性干预基准参考目标)。该框架以明确定义的文本生成结构化因果模型为基础,对概念的干预会通过SCM传播,直至LLM生成反事实。我们发布了三个数据集(疾病检测、简历筛选和工作场所暴力预测)及新评估指标"顺序忠实度"。基于这些资源,我们在五个模型上评估了多种方法,发现基于概念的解释方法存在显著改进空间。LIBERTy还能系统分析模型对干预的敏感性:我们发现专有LLMs对人口统计概念的敏感性明显降低,这很可能源于训练后的缓解措施。总体而言,LIBERTy为开发可信的可解释性方法提供了亟需的基准框架。
基于像素的强化学习智能体在遭遇纯粹视觉分布偏移时常常失效,即使潜在动态和奖励机制保持不变。然而现有基准测试往往混杂多种偏移源,阻碍了系统性分析。我们推出KAGE-Env——基于JAX的二维平台游戏环境,其将观测过程分解为可独立控制的视觉维度,同时保持底层控制问题不变。通过结构设计,改变视觉维度仅会通过像素策略引发的状态条件动作分布影响性能,为视觉泛化提供了清晰的抽象框架。基于该环境,我们构建了KAGE-Bench基准测试集,包含6个已知维度套件的34组训练-评估配置对,可分离单一视觉偏移效应。采用标准PPO-CNN基线测试时,我们观察到显著的维度相关性失效:背景和光度偏移常导致任务完全失败,而智能体外观偏移的影响相对较小。某些偏移在保持前进运动的同时破坏任务完成度,表明仅凭回报值可能掩盖泛化失败。该全向量化JAX实现在单GPU上可达每秒3300万环境步数,能快速实现视觉因子的可复现扫描。代码地址:https://avanturist322.github.io/KAGEBench/。
长链思维轨迹(CoT)为从教师大语言模型向学生模型蒸馏推理能力提供了丰富的监督信号。然而,先前研究及我们的实验均表明,更强教师生成的轨迹未必能培养出更优秀的学生模型,这凸显了数据-学生适配性在蒸馏过程中的重要性。现有方法主要通过学生似然度评估适配性,倾向于选择与模型当前行为高度吻合的轨迹,却忽略了信息量更丰富的样本。针对此问题,我们提出排序-惊异值比率(RSR)这一简洁指标,它能同时捕捉对齐度和信息量来评估推理轨迹的适配性。RSR的提出基于关键发现:有效轨迹通常兼具较低绝对概率与学生模型下相对较高的词元排序,从而平衡学习信号强度与行为对齐度。具体而言,RSR定义为轨迹的平均词元排序与平均负对数似然之比,具有计算直观、解释性强的特点。在五个学生模型与来自11个不同教师的推理轨迹上的实验表明,RSR与训练后性能呈强相关性(平均斯皮尔曼系数0.86),优于现有指标。我们进一步验证了其在轨迹选择和教师选择两个场景中的实用价值。
音素识别(PR)作为跨语言语音处理和音系分析的语言无关建模基础接口。尽管音素识别系统的研发已历经长期努力,但现有评估仅衡量表层转写准确率。我们推出PRiSM——首个通过音素识别系统的内在与外在评估来揭示语音感知盲区的开源基准。该基准标准化了基于转写的评估体系,并通过转写与表征探针评估其在临床、教育及多语言场景中的下游效用。研究发现:训练过程中的多语言接触是提升音素识别性能的关键,编码器-CTC模型稳定性最佳,专业音素识别模型仍优于大型音频语言模型。PRiSM开源代码、训练方案及数据集,旨在推动领域构建具有强健音系能力的多语言语音模型:https://github.com/changelinglab/prism。
结果奖励型强化学习(RL)已被证明能有效提升大语言模型(LLM)的推理能力。然而,传统RL仅对最终答案进行信用分配:若结果错误,整个推理链都会受到惩罚;若结果正确,所有步骤则被统一强化。这导致错误轨迹中的正确中间步骤可能被抑制,而成功轨迹中的无效步骤反而被强化。我们将这种失效模式称为信用分配问题。虽然训练过程奖励模型是自然解决方案,但精准优化此类模型以识别纠错性推理步骤仍具挑战性。本文提出干预训练(InT),该训练范式使模型通过提出简短、定向的修正方案来自主完成推理轨迹的细粒度信用分配,从而将轨迹导向更高奖励。利用数学推理数据集中普遍存在的参考答案,并基于“验证模型生成解比从头生成正确解更易实现”这一事实,模型可识别自身推理中的首个错误,并提出单步干预以将轨迹导向正确解。随后,我们通过监督微调(SFT)将策略执行轨迹(截至错误点)与干预措施拼接,从而将错误定位至导致失败的具体步骤。实验表明,由此得到的模型可作为更优质的RL训练初始化参数。经过InT及后续RL微调,我们在IMO-AnswerBench上将4B参数基模型的准确率提升近14%,性能超越gpt-oss-20b等更大规模的开源模型。
我们提出了一种混合方法,用于生成低资源语言的大规模语义关系数据集,并通过构建完整的土耳其语语义关系语料库进行验证。该方法整合了三个阶段:(1) 利用FastText词向量与层次聚类识别语义簇;(2)采用Gemini 2.5-Flash进行自动化语义关系分类;(3)融合精编词典资源。最终数据集包含84.3万个土耳其语独特语义对,涵盖三种关系类型(同义词、反义词、共下位词),规模达到现有资源的10倍且成本极低(65美元)。我们通过两项下游任务验证数据质量:词向量模型实现90%的Top-1检索准确率,分类模型获得90%的宏观F1值。这一可扩展方案有效缓解了土耳其语自然语言处理面临的数据稀缺问题,并证明可推广至其他低资源语言。我们已公开数据集与相关模型。
神经嵌入模型存在一个显著的盲区:无法可靠地区分同义词与反义词。这导致即使不断提高相似度阈值,仍难以避免将反义词归入同一语义集群。我们构建了一个大规模语义聚类系统,专门针对这一核心问题展开攻关。该处理流程可对1500万个词汇单元进行分析,评估5.2亿组潜在语义关系,最终生成290万个高精度语义集群。 本系统主要实现三大突破:首先,我们通过Gemini 2.5-Flash大语言模型增强技术,结合人工校对的词典资源,构建了包含84.3万组概念对的标注数据集,涵盖同义、反义及上下位关系。其次,我们提出了专有的三向语义关系判别器,其宏观F1值达到90%,实现了超越原始嵌入相似度的鲁棒消歧能力。第三,我们创新性地采用软聚类到硬聚类的渐进算法,既有效抑制语义漂移(避免出现"炎热→辛辣→疼痛→抑郁"这类错误传递链),又能同步解决一词多义问题。 该算法采用拓扑感知的双阶段扩展-剪枝流程,结合拓扑投票机制,确保每个术语都能被精准划分至唯一且语义连贯的集群。最终构建的资源可实现高精度语义搜索与检索增强生成,尤其适用于形态复杂和低资源语言——这些语言现有的同义词数据库往往极为匮乏。
随着大语言模型(LLM)在日益不透明的语料库上进行训练,尽管在实际条件下其可靠性备受质疑,研究者仍提出成员推理攻击(MIA)以审计训练过程中是否使用了受版权保护的文本。本文探讨在对抗性版权争议中,当被指控的模型开发者可能对训练数据进行语义保留的模糊化处理时,MIA能否作为可采信证据,并通过法官-公诉方-被指控方三方通信协议形式化这一场景。为测试该协议下的鲁棒性,我们提出SAGE(结构感知的稀疏自编码器引导提取框架),这一基于稀疏自编码器(SAE)的复述框架能在保留语义内容与下游效用的前提下重写训练数据的词汇结构。实验表明,当模型在SAGE生成的复述文本上进行微调时,最先进的MIA效果显著下降,说明其信号对语义保持的转换不具备鲁棒性。尽管在某些微调机制中仍存在部分信息泄漏,但这些结果表明MIA在对抗性环境中具有脆弱性,无法作为LLM版权审计的独立机制。
我们推出SciCoQA数据集,用于检测科学论文与其代码库之间的差异以确保实现忠实性。该数据集基于GitHub议题和可复现性论文构建,并提出一种合成数据生成方法以规模化构建论文-代码差异样本。我们详细分析了论文与代码间的差异类型,提出差异分类体系以深入理解不匹配现象。数据集共包含611个差异案例(81个真实案例,530个合成案例),涵盖人工智能、物理学、定量生物学等多领域计算科学。对21个大语言模型的评估表明SciCoQA任务具有挑战性,尤其在处理论文细节缺失、长上下文输入及预训练语料外数据时表现明显。评估中表现最佳的GPT-5模型仅能检测45.7%的真实世界论文-代码差异。
差分隐私随机梯度下降(DP-SGD)是隐私训练的主流范式,但学界对其在最坏情况对抗性隐私定义下的根本局限仍缺乏深入理解。我们在f-差分隐私框架下分析DP-SGD——该框架通过假设检验权衡曲线来刻画隐私特性,并研究单周期内进行M次梯度更新的混洗采样机制。我们推导出可达权衡曲线的显式次优上界,该结果引出了分离度κ的几何下界(即机制权衡曲线与理想随机猜测线之间的最大距离)。由于较大的分离度意味着显著的对抗性优势,有意义的隐私保护需要较小的κ值。然而我们证明,强制保持较小分离度会对高斯噪声乘数σ施加严格下界,这直接限制了可达效用。具体而言,在标准最坏情况对抗模型下,混洗DP-SGD必须满足 σ≥ 1/√(2ln M) 或 κ≥ 1/8∙[1-1/(4πln M)], 因此无法同时实现强隐私保护与高效用。尽管该边界随M→∞渐近消失,但收敛速度极慢:即使对于实际应用中常见的更新次数,所需噪声量级仍然显著。我们进一步证明该限制在常数因子范围内同样适用于泊松子采样。实验证实该边界所隐含的噪声水平会导致实际训练场景下的精度显著下降,从而揭示了标准最坏情况对抗假设下DP-SGD的关键瓶颈。
指令微调是适配大语言模型的标准范式,但现代指令数据集存在规模庞大、噪声显著且冗余度高等问题,导致全数据微调成本高昂且往往非必要。现有数据选择方法要么需构建高成本的梯度数据存储库,要么依赖弱代理模型分配静态评分,大多忽略了模型动态演进中的不确定性,因而缺失了理解大语言模型行为的关键维度。我们提出GRADFILTERING这一目标无关的不确定性感知数据选择框架:通过结合LoRA集成的小型GPT-2代理模型,将逐样本梯度聚合为梯度信噪比效用指标。在多数LLM-as-a-judge评估及人工评估中,本方法达到或超越了随机子集与强基线模型的表现。此外,在相同计算预算下,GRADFILTERING所选数据子集的收敛速度优于竞品筛选方法,印证了不确定性感知评分的优势。
遥感变化检测旨在定位并表征两个时间点之间的场景变化,是环境监测与灾害评估等应用的核心技术。当前视觉自回归模型(VARs)虽展现出卓越的图像生成能力,但由于可控性弱、密集预测性能欠佳及曝光偏差等问题,其在像素级判别任务中的应用仍受限。本文提出RemoteVAR——一种基于VAR的新型变化检测框架,通过交叉注意力机制将自回归预测与多分辨率融合的双时相特征相耦合,并采用专为变化图预测设计的自回归训练策略,有效解决了上述局限性。在标准变化检测基准上的大量实验表明,RemoteVAR相较于基于扩散模型和Transformer的强基线模型均取得显著提升,为遥感变化检测提供了具有竞争力的自回归解决方案。代码将发布于https://github.com/yilmazkorkmaz1/RemoteVAR。
当前基于大语言模型的数据智能体致力于实现从数据分析到深度学习的数据科学任务自动化。然而,现实数据科学问题具有开放性的特点——常跨越多种分类体系且缺乏标准答案,这为评估工作带来巨大挑战。为此,我们推出DSAEval基准测试,该基准包含基于285个多样化数据集的641个真实数据科学问题,涵盖结构化与非结构化数据(如视觉与文本数据)。DSAEval具有三大特色:(1) 多模态环境感知能力,使智能体能够解读文本、视觉等多模态观察信息;(2) 多轮次交互机制,模拟现实数据科学项目中迭代累积的工作特性;(3) 多维度评估体系,从推理过程、代码实现与结果输出三个维度进行综合评判。我们使用DSAEval对11种先进的大模型智能体进行系统评估。结果表明:Claude-Sonnet-4.5综合表现最强,GPT-5.2效率最优,MiMo-V2-Flash性价比最高。研究进一步证实,多模态感知能持续提升视觉相关任务性能,改善幅度达2.04%至11.30%。总体而言,当前数据科学智能体在结构化数据和常规分析流程中表现良好,但在非结构化数据领域仍面临重大挑战。最后,我们提出关键见解并规划未来研究方向,以推动数据科学智能体的发展。
许多本科生难以获得专业的研究指导。我们探究人工智能导师能否协助学生从构思到完成论文。为此我们开发了METIS——一个具备文献检索、定制指南、方法校验和记忆功能的工具增强型分阶段智能助手。通过LLM作为评判者的两两偏好比较、学生视角量规、短对话辅导及证据/合规性检查,我们在六个写作阶段将METIS与GPT-5和Claude Sonnet 4.5进行对比评估。针对90个单轮提示,LLM评判者更偏好METIS的比例相较于Claude Sonnet 4.5达71%,相较于GPT-5达54%。分阶段评估显示(清晰度/可操作性/约束匹配度;90提示×3评委),METIS的学生评分全面领先。在多轮对话场景中(五种情境/智能体),METIS的最终成果质量略高于GPT-5。优势集中体现在文档依赖阶段(D-F),这与分阶段路由和事实 grounding 机制相符;不足之处包括工具过早路由、事实 grounding 深度不足及偶发的阶段误判。
抑郁、焦虑及创伤相关状态等情绪的语言表达广泛存在于临床记录、咨询对话和在线心理健康社区中,准确识别这些情绪对于临床分诊、风险评估和及时干预至关重要。尽管大语言模型在情绪分析任务中展现出强大的泛化能力,但在高风险、强语境的医疗场景下,其诊断可靠性仍高度依赖提示设计。现有方法面临两大挑战:一是情绪共病现象,即多种交织的情感状态使预测复杂化;二是对临床相关线索的探索效率不足。为此,我们提出APOLO(面向语言情绪诊断的自动化提示优化框架),通过系统探索更广维度、更细粒度的提示空间来提升诊断效率与鲁棒性。APOLO将指令优化建模为部分可观测马尔可夫决策过程,采用规划器、教师、评判者、学生和目标角色的多智能体协作机制。在该闭环框架中,规划器定义优化路径,教师-评判者-学生智能体通过迭代优化提示词提升推理稳定性与有效性,目标智能体则根据性能评估决定是否继续优化。实验结果表明,APOLO在领域特定和分层基准测试中持续提升诊断准确性与鲁棒性,为心理健康领域可信大语言模型应用提供了可扩展、可推广的新范式。
主动学习(AL)在3D生物医学图像分割领域具有显著降低标注成本的潜力,因为专家对体数据的标注既耗时又昂贵。然而,现有AL方法始终无法稳定超越针对3D数据优化的改进型随机采样基线,导致该领域缺乏可靠解决方案。我们提出类分层调度幂预测熵(ClaSP PE)这一简单高效的查询策略,解决了标准基于不确定性的AL方法的两大关键局限:类别不平衡和早期选择冗余。ClaSP PE通过类分层查询确保对低代表性结构的覆盖,结合对数尺度幂噪声与衰减调度机制,在AL早期阶段强制实现查询多样性,后期则促进针对性挖掘。在使用综合nnActive基准测试中四个3D生物医学数据集进行的24组实验评估表明,ClaSP PE是唯一能在分割质量上稳定超越改进型随机基线的方法(具有统计学显著增益),同时保持标注效率。此外,我们通过在四个未见数据集上无需人工适配的测试,模拟了实际应用场景:所有实验参数均依据预设指南设置。结果证实ClaSP PE能够稳健地泛化至新任务,无需针对特定数据集调参。在nnActive框架内,我们提供了有力证据表明:在接近实际生产的场景下,AL方法可以在性能和标注效率两方面持续超越适用于3D分割的随机基线。我们的开源实现和清晰部署指南使其具备即用性。代码详见:https://github.com/MIC-DKFZ/nnActive。