HuggingFace Daily Papers

每日论文

每日精选AI研究论文及翻译

选择日期

10 papers found

过于完美而难成反派：大型语言模型在扮演反派角色上的失败
Too Good to be Bad: On the Failure of LLMs to Role-Play Villains

Nov 7

ByZihao Yi, Qingxuan Jiang, Ruotian Ma, Xingyu Chen, Qu Yang, Mengru Wang, Fanghua Ye, Ying Shen, Zhaopeng Tu, Xiaolong Li, Linus

大型语言模型（LLMs）正越来越多地承担创造性生成任务，包括模拟虚构角色。然而，其塑造非亲社会性对立角色的能力仍基本未被检验。我们假设现代LLMs的安全对齐机制与真实演绎道德模糊或反派角色的任务存在根本性冲突。为研究此问题，我们推出道德角色扮演基准测试——一个包含四级道德对齐量表及平衡测试集的新型数据集，用于严格评估。我们要求前沿LLMs扮演从道德典范到纯粹反派的多类角色。大规模评估显示，随着角色道德水平的下降，角色扮演保真度呈现持续单调递减。研究发现模型在表现与安全原则直接对立的特质（如"欺诈性"和"操纵性"）时最为困难，常将复杂的恶意表现为肤浅的攻击性。此外，我们证明通用聊天机器人能力并不能有效预测反派角色扮演水平，高度安全对齐的模型表现尤为不佳。本研究首次系统性地揭示了这一关键局限，凸显了模型安全性与创作保真度之间的核心矛盾。我们的基准测试与发现为开发更精细、情境感知的对齐方法奠定了基础。

视觉空间调优
Visual Spatial Tuning

Nov 7

ByRui Yang, Ziyu Zhu, Yanwei Li, Jingjia Huang, Shen Yan, Siyuan Zhou, Zhe Liu, Xiangtai Li, Shuangye Li, Wenqian Wang, Yi Lin, Hengshuang Zhao

从视觉输入中捕捉空间关系是实现类人通用智能的基石。先前研究多通过引入额外专家编码器来增强视觉语言模型的空间感知能力，但这会带来额外开销且往往损害通用性能。为提升通用架构的空间能力，我们提出视觉空间调优框架，通过从空间感知到推理的完整训练流程培育具有类人视觉空间能力的模型。我们首先构建包含410万样本的大规模数据集VST-P，涵盖单视图、多图像和视频三大类共19项空间技能，以增强模型的空间感知基础。随后推出包含13.5万样本的VST-R数据集，指导模型进行空间推理。特别采用渐进式训练流程：先通过监督微调建立空间知识基础，再通过强化学习提升空间推理能力。该方法在保持通用性能的前提下，在多个空间基准测试中取得领先成果，包括MMSI-Bench的34.8%和VSIBench的61.2%。研究表明，所提出的空间调优范式可显著增强视觉-语言-动作模型，为构建更具物理基础的人工智能开辟新路径。

DeepEyesV2：迈向具身多模态智能体模型
DeepEyesV2: Toward Agentic Multimodal Model

Nov 7

ByJack Hong, Chenxiao Zhao, ChengLin Zhu, Weiheng Lu, Guohai Xu, Xing Yu

智能多模态模型不仅应能理解文本与图像，更需主动调用外部工具（如代码执行环境与网络搜索），并将这些操作融入推理过程。本文提出DeepEyesV2模型，从数据构建、训练方法和模型评估三个维度探索如何构建智能多模态模型。我们发现单纯使用强化学习难以形成稳健的工具使用行为，这一现象促使我们设计两阶段训练流程：通过冷启动阶段建立工具使用模式，再通过强化学习阶段优化工具调用策略。我们构建了多样化、适度挑战性的训练数据集，特别包含工具使用能带来增益的实例，并推出RealX-Bench综合基准——该基准专为评估需要融合感知、搜索与推理能力的真实世界多模态推理任务而设计。在RealX-Bench及其他代表性基准上的实验表明，DeepEyesV2在真实场景理解、数学推理和搜索密集型任务中均表现优异。此外，该模型展现出任务自适应的工具调用特性：针对感知任务倾向于使用图像操作，针对推理任务则偏好数值计算。强化学习进一步实现了复杂工具组合调用，使模型能根据上下文选择性激活工具。我们希望本研究能为学界开发智能多模态模型提供参考路径。

VeriCoT：通过逻辑一致性检验实现神经符号思维链验证
VeriCoT: Neuro-symbolic Chain-of-Thought Validation via Logical Consistency Checks

Nov 6

ByYu Feng, Nathaniel Weir, Kaj Bostrom, Sam Bayless, Darion Cassel, Sapana Chaudhary, Benjamin Kiesl-Reiter, Huzefa Rangwala

大型语言模型（LLM）能够通过思维链（CoT）进行多步推理，但无法可靠地验证自身逻辑。即使得出正确答案，其底层推理过程可能存在缺陷，这在高风险场景中会削弱可信度。为解决该问题，我们提出VeriCoT——一种从CoT推理中提取并验证形式化逻辑论证的神经符号方法。该方法将每个CoT推理步骤形式化为谓词逻辑，并识别使论证扎根于源文本语境、常识知识或先前推理步骤的前提条件。符号化表征支持自动求解器验证逻辑有效性，而自然语言前提则允许人类和系统识别无根据或谬误的推理步骤。在ProofWriter、LegalBench和BioASQ数据集上的实验表明，VeriCoT能有效识别缺陷推理，并作为最终答案正确性的强预测指标。我们还利用VeriCoT的验证信号实现：(1) 推理时自省机制，(2) 基于VeriCoT蒸馏数据集的监督微调（SFT），以及(3) 采用验证驱动的成对奖励、通过直接偏好优化（DPO）实现的偏好微调（PFT），从而进一步提升推理有效性与准确性。

动态环境中的实时推理智能体
Real-Time Reasoning Agents in Evolving Environments

Nov 7

ByYule Wen, Yixin Ye, Yanzhe Zhang, Diyi Yang, Hao Zhu

现实世界中的智能体不仅需要做出合乎逻辑的判断，更需具备时效性决策能力。这要求智能体持续感知动态环境：在推理过程尚未完成时，危险可能突然出现，机遇可能转瞬即逝，其他智能体也在同时行动。尽管语言模型推理技术已取得长足进步，现有方法仍未能充分考虑这种动态特性。我们提出"实时推理"作为动态环境中智能体的新问题框架，并构建实时推理竞技场进行验证。我们研究了语言模型在智能体中的两种部署范式：（1）反应式智能体，采用计算资源受限的语言模型实现快速响应；（2）规划式智能体，允许扩展推理计算以解决复杂问题。实验表明，即使最先进的模型在这两种范式下都难以同时实现逻辑正确性与时效性。为此，我们提出AgileThinker框架，通过协同运用两种推理范式，在任务难度和时间压力增加时持续超越单一推理范式的智能体，有效平衡推理深度与响应延迟。本研究将实时推理确立为开发实用智能体的关键测试平台，为时间约束型AI系统研究奠定基础，指明了实现实时能力智能体的发展路径。

密集运动描述
Dense Motion Captioning

Nov 7

ByShiyao Xu, Benedetta Liberatori, Gül Varol, Paolo Rota

近期三维人体运动与语言融合的研究主要集中于文本到动作生成领域，而动作理解任务尚未得到充分探索。我们提出密集运动描述这一新任务，旨在对三维人体运动序列中的动作进行时序定位与描述。现有数据集普遍存在时序标注细节不足的问题，且多以包含少量动作的短序列为主。为突破这些局限，我们推出复杂运动数据集CompMo——首个具备精细时序标注的大规模复杂运动序列数据集。通过精心设计的数据生成流程，CompMo包含6万条运动序列，每条序列由至少2个至多10个动作组成，并配有精确的时序边界标注。我们进一步提出DEMO模型，该模型通过简单运动适配器整合大语言模型，可生成具有时序定位的密集描述。实验表明，DEMO在CompMo及适配基准测试中显著超越现有方法，为三维运动理解与描述研究建立了稳健基线。

通过精炼文本嵌入减轻大型视觉语言模型中的幻觉问题
Towards Mitigating Hallucinations in Large Vision-Language Models by Refining Textual Embeddings

Nov 7

ByAakriti Agrawal, Gouthaman KV, Rohith Aralikatti, Gauri Jagatap, Jiaxin Yuan, Vijay Kamarshi, Andrea Fanelli, Furong Huang

在本研究中，我们发现主流LVLM架构存在对语言模态的内在偏好，这种偏差主要源于将视觉嵌入简单附加到输入文本序列的常见做法。为解决此问题，我们提出了一种简单而有效的方法，通过整合平均池化后的视觉特征来优化文本嵌入。实验表明，该方法在成熟基准测试中显著提升了视觉定位能力并有效减少了幻觉现象。虽然平均池化提供了一种简单、鲁棒且高效的视觉信息融合方式，但我们认为更复杂的融合方法有望进一步强化视觉定位与跨模态对齐能力。鉴于本文重点在于揭示模态不平衡问题及其对幻觉现象的影响——并证明利用视觉信息优化文本嵌入可缓解该问题——我们将更先进的融合策略探索留待未来研究。

HAFixAgent：历史感知的自动化程序修复智能体
HAFixAgent: History-Aware Automated Program Repair Agent

Nov 2

ByYu Shi, Hao Li, Bram Adams, Ahmed E. Hassan

近年来，自动化程序修复（APR）研究已转向大语言模型和基于智能体的系统，但现有系统大多依赖本地快照上下文，忽略了代码库历史。已有研究表明，代码库历史有助于单行错误的修复，因为最后修改错误代码行的提交往往就是引入该错误的提交。本文系统性地探究代码库历史能否在大规模场景下提升智能体式APR系统的性能，特别是针对复杂的多区块错误。我们提出HAFixAgent——一种历史感知的错误修复智能体，它将基于代码追溯的仓库启发式信息注入修复循环。通过对Defects4J中全部854个真实错误的初步研究，我们发现与错误相关的历史信息不仅广泛存在且高度集中，这为系统设计提供了依据。HAFixAgent与两种前沿基准方法的实证对比表明：（1）有效性：相较基于智能体的基准方法提升212.3%，较针对多区块错误的基准方法提升29.9%；（2）效率：历史信息未显著增加智能体步骤，令牌成本保持相当水平，且在复杂多文件-多区块错误场景下中位数成本显著降低；（3）实用性：组合不同历史启发式策略可修复更多错误，形成清晰的成本效益权衡。HAFixAgent为历史感知的智能体式APR提供了实用方案：将智能体锚定于版本控制历史，优先采用基于差异的历史上下文，并在需要时整合互补性启发式策略。

批判性评估：评论能否助力大语言模型的不确定性或置信度校准？
CritiCal: Can Critique Help LLM Uncertainty or Confidence Calibration?

Oct 28

ByQing Zong, Jiayu Liu, Tianshi Zheng, Chunyang Li, Baixuan Xu, Haochen Shi, Weiqi Wang, Zhaowei Wang, Chunkit Chan, Yangqiu Song

大型语言模型（LLM）的精准置信度校准对其在高风险领域的安全应用至关重要，清晰的口头化置信度表达能有效增强用户信任。传统方法虽能模仿标准置信度表达形式，却往往无法捕捉准确评估置信度所需的推理过程。我们提出采用自然语言批评作为解决方案——该方法特别适合置信度校准，因为精确的黄金置信度标签难以获取且常需多次生成。本文研究自然语言批评如何提升口头化置信度，重点解决两大问题：（1）批评对象：应针对不确定性（问题导向）还是置信度（答案特异性）？分析表明，置信度批评更适合多项选择任务，而不确定性批评在开放式场景中表现更优。（2）批评方式：采用自我批评还是批评校准训练？我们提出让LLM通过自我批评突破单纯准确率优化来实现置信度自省与优化的方法，并创新性提出CritiCal批评校准训练法——利用自然语言批评改进置信度校准，摆脱直接数值优化的局限。实验表明，CritiCal在复杂推理任务中显著优于自我批评及其他竞争基线，甚至超越其教师模型GPT-4o。在分布外场景下，CritiCal亦展现出强大的泛化能力，为提升LLM可靠性开辟了新路径。

稻草堆中的越狱
Jailbreaking in the Haystack

Nov 5

ByRishi Rajesh Shah, Chen Henry Wu, Shashwat Saxena, Ziqian Zhong, Alexander Robey, Aditi Raghunathan

近期长上下文语言模型（LM）的突破已实现百万级令牌的输入处理能力，显著扩展了其在计算机使用代理等复杂任务中的应用范围。然而，这种扩展上下文的安全影响仍不明确。为填补这一空白，我们提出NINJA（Needle-in-haystack jailbreak attack的简称），该方法通过在对齐后的语言模型末尾附加模型生成的良性内容来实现对有害用户目标的越狱攻击。我们方法的关键发现是：有害目标在上下文中的位置对安全性具有重要影响。在标准安全基准测试HarmBench上的实验表明，NINJA能显著提升针对LLaMA、Qwen、Mistral和Gemini等前沿开源与专有模型的攻击成功率。与现有越狱方法不同，我们的方法具有低资源消耗、可迁移性强且更难检测的特点。此外，我们证明NINJA具备计算最优性——在固定计算预算下，增加上下文长度相比增加最佳N次越狱尝试次数能获得更优效果。这些发现表明，即便是良性长上下文——当辅以精心设计的目标定位时——也会在现代语言模型中引发根本性安全漏洞。