每日精选AI研究论文及翻译
大型语言模型(LLMs)向自主智能体的演进,已将AI编程的范畴从局部代码生成扩展至复杂的仓库级、执行驱动型问题求解。然而,现有基准测试主要针对静态场景下的代码逻辑评估,忽视了实际工程中动态的全流程需求——尤其是后端开发所必需的环境配置与服务部署等严苛要求。为弥补这一空白,我们推出ABC-Bench基准测试,其专为在可执行工作流中评估智能体后端编程能力而设计。通过可扩展的自动化流水线,我们从开源仓库中筛选出涵盖8种编程语言和19种框架的224项实践任务。与既往评估不同,ABC-Bench要求智能体管理从仓库探索到容器化服务实例化的完整开发生命周期,并通过外部端到端API测试。大规模评估表明,即使最先进的模型在此类全局性任务中也难以保持稳定性能,这揭示了当前模型能力与实际后端工程需求之间的显著差距。代码已开源:https://github.com/OpenMOSS/ABC-Bench。
大型语言模型通常通过思维链(CoT)能更有效地解决复杂推理任务,但代价是生成冗长且低带宽的令牌序列。相比之下,人类常通过保持对可能后续步骤的概率分布进行软推理。受此启发,我们提出多重思维——一种随机软推理机制,在每个思考步骤中采样K个候选令牌,并将其嵌入聚合为单个连续的多重令牌。这种方法既保留了词汇嵌入先验和标准离散生成的采样动态,又能在多重推演路径上形成可处理的概率分布。因此,多重思维轨迹可直接通过同策略强化学习进行优化。值得注意的是,该机制具有自适应性:当模型置信度高时,多重令牌近乎离散,行为类似标准CoT;当模型不确定时,它能紧凑表征多个可能后续步骤且不增加序列长度。在具有挑战性的数学推理基准测试中,从Pass@1到Pass@1024的评估范围内,多重思维始终优于强离散CoT和RL基线方法,同时生成更短的序列。代码与模型检查点已开源:https://github.com/GMLR-Penn/Multiplex-Thinking。
诸如SAM3等可提示分割基础模型通过交互式和基于概念的提示机制展现了强大的泛化能力。然而,其在医学图像分割中的直接应用仍受限于严重的领域偏移、特权空间提示的缺失以及对复杂解剖结构和体积信息进行推理的需求。本文提出Medical SAM3——一种面向通用提示驱动的医学图像分割基础模型,该模型通过在大规模异构二维和三维医学影像数据集(含配对分割掩码与文本提示)上对SAM3进行全参数微调获得。通过对原始SAM3的系统性分析,我们发现其在医学数据上的性能显著下降,其表面竞争力主要依赖于强几何先验(如基于真实标注的边界框)。这些发现促使我们超越单纯的提示工程,进行完整的模型适配。通过在涵盖10种医学影像模态的33个数据集上微调SAM3的模型参数,Medical SAM3在保持提示驱动灵活性的同时获得了鲁棒的领域特定表征。针对不同器官、影像模态及维度的广泛实验表明,该模型实现了持续且显著的性能提升,尤其在具有语义模糊性、复杂形态学和长程三维上下文特征的挑战性场景中表现突出。我们的研究成果确立了Medical SAM3作为医学影像领域通用文本引导分割基础模型的地位,并凸显了在严重领域偏移下实现鲁棒提示驱动分割时整体模型适配的重要性。代码与模型将发布于https://github.com/AIM-Research-Lab/Medical-SAM3。
在大模型应用于关键事实性领域时,准确评估模型置信度至关重要。尽管检索增强生成技术被广泛采用以提升信息依据性,但该场景下的置信度校准机制仍不明确。我们在四个基准测试上展开系统性研究,发现由于检索上下文的噪声干扰,大模型呈现出较差的校准性能。具体而言,矛盾或无关的证据往往会放大模型的错误确定性,导致严重过度自信。为此,我们提出NAACL规则(噪声感知置信度校准规则),为噪声环境下的过度自信问题建立理论解决基础。基于这些规则,我们进一步设计NAACL框架——通过整合约2000个HotpotQA样本的监督信号,构建噪声感知校准机制。借助基于该数据的监督微调,NAACL无需依赖更强教师模型即可使模型具备内在的噪声感知能力。实验结果表明,NAACL带来显著提升:领域内ECE分数提升10.9%,跨领域提升8.0%。通过弥合检索噪声与语言校准之间的鸿沟,NAACL为构建既精确又具备认知可靠性的大模型开辟了新路径。
大型语言模型能够呈现多种角色特征,但通常默认展现的是经过后训练培养出的"助手"身份。我们通过提取对应不同角色原型的激活方向,探究了模型角色空间的结构。在多个不同模型中的实验表明,该角色空间的主导成分是一个"助手轴",它捕捉了模型在其默认助手模式下运行的程度。向助手方向引导会强化有益无害的行为;而偏离该方向则会增强模型认同其他实体的倾向。此外,采用更极端的偏离值通常会诱发神秘戏剧化的表达风格。研究发现该轴线在预训练模型中同样存在,主要促进像顾问、教练这类有益的人类原型,同时抑制精神类原型。通过测量沿助手轴的偏离程度,可以预测"角色漂移"现象——即模型偏离其典型角色特征,表现出有害或异常行为。我们发现角色漂移往往由两种对话情境驱动:要求模型对其处理过程进行元反思的对话,以及涉及情感脆弱用户的对话。实验表明,将激活限制在助手轴的固定区域内,能在上述场景中稳定模型行为——同时也能抵御基于角色攻击的越狱行为。我们的研究结果表明,后训练虽将模型导向角色空间的特定区域,但仅实现了松散的锚定,这启示我们需要开发能更深入地将模型锚定于连贯角色的训练与引导策略。
通过激活干预引导大语言模型已成为对齐和个性化任务中轻量级替代微调的新兴方法。近期双向偏好优化研究表明,可直接基于偏好数据以直接偏好优化的方式学习稠密引导向量,从而实现对真实性、幻觉和安全行为的控制。然而,由于神经元多义性,稠密引导向量常会纠缠多个潜在因素,这限制了其在细粒度场景(如文化对齐)中的效能与稳定性——此类场景需区分密切相关的价值观与行为(例如中东文化间的差异)。本文提出全新策略优化方法,这是一种无参考方法,可在稀疏自编码器的隐空间中学习稀疏引导向量。通过优化稀疏编码,YaPO能生成解耦性、可解释且高效的引导方向。实证表明,相较于稠密引导基线,YaPO具有更快的收敛速度、更强的性能表现以及更高的训练稳定性。除文化对齐外,YaPO可泛化至多种对齐相关行为,包括幻觉、财富追求、越狱攻击和权力追求。重要的是,YaPO能保持通用知识能力,在MMLU基准上未见性能衰减。总体而言,我们的结果表明YaPO为LLMs的高效、稳定和细粒度对齐提供了通用方案,在可控性和领域适应方面具有广泛应用前景。相关代码与数据已开源:https://github.com/MBZUAI-Paris/YaPO。
尽管带有可验证奖励的强化学习(RLVR)在增强大语言模型推理能力方面极为有效,但最新研究表明,像Qwen 2.5这样的模型即使面对虚假或错误奖励也能取得显著性能提升。我们深入探究这一现象,发现了"困惑度悖论":虚假RLVR会引发模型行为分化——答案标记的困惑度下降的同时,提示端连贯性却出现退化,表明模型正在绕过推理过程转向记忆化输出。通过路径修补、Logit透镜、JSD分析和神经微分方程等技术,我们揭示了一个促成这种捷径的隐藏锚定-适配器电路。实验定位到中间层(L18-20)存在功能锚点负责触发记忆化解决方案的检索,后续层(L21+)的结构适配器则通过表征转换来适应捷径信号。最后我们证明,通过定向缩放该电路中的特定MLP键向量,可实现双向因果调控——人为放大或抑制由数据污染驱动的性能表现。这项研究为识别和缓解RLVR调优模型中的数据污染问题提供了机制层面的路线图。代码已开源:https://github.com/idwts/How-RLVR-Activates-Memorization-Shortcuts。
人物图像动画在各领域的重要性日益凸显,这源于对鲁棒且灵活的多主体渲染技术的需求。现有方法虽在单人动画方面表现优异,但难以处理任意主体数量、多样角色类型以及参考图像与驱动姿态间的空间错位问题。我们认为这些局限源于过于僵化的空间绑定机制——它强制要求姿态与参考图像严格像素对齐,且无法将运动准确重绑定至目标主体。为应对这些挑战,我们提出CoDance这一新型"解绑-重绑"框架,能够基于单组可能存在错位的姿态序列,对任意数量、类型及空间配置的主体进行动画生成。具体而言,解绑模块采用新型姿态偏移编码器,通过对姿态及其潜在特征引入随机扰动,打破姿态与参考图像间的刚性空间绑定,从而迫使模型学习位置无关的运动表征。为实现精准控制与主体关联,我们设计重绑模块,利用文本提示的语义引导和主体掩码的空间引导,将习得的运动定向至目标角色。此外,为支持全面评估,我们构建了新型多主体基准数据集CoDanceBench。在CoDanceBench和现有数据集上的大量实验表明,CoDance实现了最先进的性能,在不同主体和空间布局上展现出卓越的泛化能力。代码与权重将开源发布。
评估多模态大语言模型是否真正理解长篇科学论文仍具挑战性:仅依赖答案匹配的指标和合成的"大海捞针"式测试往往只要求答案吻合,却无需模型在文档中建立因果关联的证据推理链条。我们提出"海洋寻踪"范式,要求模型在原始科学文献中构建显式的跨模态证据链。为实现该范式,我们构建了SIN-Data科学交错数据集,完整保留文本与插图的原始交织结构。基于此,我们设计了包含证据发现、假设验证、 grounded QA 和证据锚定摘要的四级渐进任务集SIN-Bench。我们进一步引入"无证据不评分"机制,仅当预测结果锚定于可验证证据时才予以计分,并通过匹配度、相关性和逻辑性诊断证据质量。在八个MLLM上的实验表明,证据锚定是主要瓶颈:Gemini-3-pro以0.573的平均分表现最佳,而GPT-5虽在SIN-QA答案准确率上达到0.767,但在证据对齐的综合评分中表现不佳,暴露出答案正确性与可追溯证据支持之间的脱节。
PubMed-OCR是一个基于PubMed Central开放获取PDF文件构建的以光学字符识别为核心的科研文献语料库。每页文献图像均通过谷歌云视觉服务进行标注,并以紧凑的JSON格式发布,包含单词级、行级和段落级的边界框标注。该语料库涵盖20.95万篇学术文献(150万页,约13亿词),支持布局感知建模、坐标定位问答以及OCR相关流程的评估。我们分析了语料库特征(如期刊覆盖范围和检测到的版面特征),并讨论了其局限性,包括对单一OCR引擎的依赖和启发式行重建方法。我们公开数据和标注规范以促进下游研究,并欢迎扩展补充。
为教授机器人复杂操作任务,当前普遍采用在任务专用数据上微调预训练视觉-语言-动作模型(VLA)的方法。然而,由于该方案会更新现有表征,无法适用于现实世界的长期运行场景——机器人必须在持续适应新任务和环境的同时,保留已掌握的知识。现有的机器人持续学习方法通常需要存储历史数据(样本),难以应对长任务序列,或依赖任务标识符进行部署。为突破这些局限,我们提出CLARE:一种面向VLA的无样本持续学习通用参数高效框架。CLARE通过层级特征相似性指导,在选定前馈层中引入轻量化模块化适配器,并在学习新任务时仅对必要模块进行自主扩展。部署阶段,基于自编码器的路由机制无需任务标签即可动态激活最相关适配器。通过在LIBERO基准测试上的大量实验表明,CLARE在实现新任务高性能的同时不会对早期任务产生灾难性遗忘,其表现显著优于基于样本的方法。代码与数据详见https://tum-lsy.github.io/clare。