HuggingFace Daily Papers

每日论文

每日精选AI研究论文及翻译

选择日期

23 papers found

SpargeAttention2：通过混合Top-k+Top-p掩码与蒸馏微调实现可训练稀疏注意力
SpargeAttention2: Trainable Sparse Attention via Hybrid Top-k+Top-p Masking and Distillation Fine-Tuning

Feb 13

ByJintao Zhang, Kai Jiang, Chendong Xiang, Weiqi Feng, Yuezhou Hu, Haocheng Xi, Jianfei Chen, Jun Zhu

许多无需训练即可实现的稀疏注意力方法能有效加速扩散模型。近期研究表明，使稀疏注意力具备可训练性可进一步提升稀疏度同时保持生成质量。我们深入探究了三个关键问题：(1) Top-k与Top-p这两种常用掩码规则何时失效，如何规避？(2) 可训练稀疏注意力为何能比无需训练方法达到更高稀疏度？(3) 基于扩散损失微调稀疏注意力存在哪些局限，如何解决？基于此分析，我们提出SpargeAttention2——一种可训练稀疏注意力方法，能在保持生成质量的前提下实现高稀疏度。该方法包含三大核心组件：(i) 融合Top-k与Top-p的混合掩码规则，确保高稀疏度下掩码鲁棒性；(ii) 高效的可训练稀疏注意力实现机制；(iii) 受蒸馏启发的微调目标函数，通过稀疏注意力微调更好地保持生成质量。在视频扩散模型上的实验表明，SpargeAttention2在维持生成质量的同时实现了95%的注意力稀疏度和16.2倍的注意力加速，持续超越现有稀疏注意力方法。

统一潜变量（UL）：如何训练你的潜变量
Unified Latents (UL): How to train your latents

Feb 19

ByJonathan Heek, Emiel Hoogeboom, Thomas Mensink, Tim Salimans

我们提出统一隐变量（UL）框架，该框架通过扩散先验联合正则化学习隐表示，并利用扩散模型进行解码。通过将编码器输出噪声与先验最小噪声水平关联，我们获得了简化的训练目标，可为隐变量比特率提供严格上界。在ImageNet-512数据集上，我们的方法实现了1.4的竞争性FID分数，并具备高重建质量（PSNR），同时训练所需FLOPs低于基于Stable Diffusion隐变量训练的模型。在Kinetics-600数据集上，我们以1.3的FVD创造了新的最优性能纪录。

Mobile-Agent-v3.5：多平台基础图形用户界面智能体
Mobile-Agent-v3.5: Multi-platform Fundamental GUI Agents

Feb 15

ByHaiyang Xu, Xi Zhang, Haowei Liu, Junyang Wang, Zhaozai Zhu, Shengjie Zhou, Xuhao Hu, Feiyu Gao, Junjie Cao, Zihua Wang, Zhiyuan Chen, Jitong Liao, Qi Zheng, Jiahui Zeng, Ze Xu, Shuai Bai, Junyang Lin, Jingren Zhou, Ming Yan

本文介绍了最新原生GUI智能体模型GUI-Owl-1.5，该模型提供指令/思维双版本及多种规模（2B/4B/8B/32B/235B），支持桌面端、移动端、浏览器等多平台运行，实现云边协同与实时交互。在20余项开源GUI基准测试中，GUI-Owl-1.5均取得领先成果：（1）GUI自动化任务：OSWorld达56.5分，AndroidWorld达71.6分，WebArena达48.4分；（2） grounding任务：ScreenSpotPro达80.3分；（3）工具调用任务：OSWorld-MCP达47.6分，MobileWorld达46.8分；（4）记忆与知识任务：GUI-Knowledge Bench达75.5分。该模型融合三大创新：（1）混合数据飞轮：通过模拟环境与云端沙箱环境结合，构建了UI理解与轨迹生成的数据管道，提升数据采集效率与质量；（2）智能体能力统一增强：采用统一思维合成管道强化模型推理能力，重点提升工具/MCP调用、记忆存储与多智能体适配等核心能力；（3）多平台环境强化学习扩展：提出新型环境RL算法MRPO，解决多平台冲突与长周期任务训练效率低的难题。GUI-Owl-1.5模型已开源，云端沙箱演示详见https://github.com/X-PLUG/MobileAgent。

"你在做什么？"：多步骤处理过程中来自具身化LLM车载助力的即时反馈效应
"What Are You Doing?": Effects of Intermediate Feedback from Agentic LLM In-Car Assistants During Multi-Step Processing

Feb 17

ByJohannes Kirmayr, Raphael Wennmacher, Khanh Huynh, Lukas Stappen, Elisabeth André, Florian Alt

能够自主执行多步骤任务的具身AI助手为用户体验带来了新的开放性问题：在长时间操作过程中，尤其是在驾驶等注意力敏感场景下，此类系统应如何传达进展与推理逻辑？我们通过一项受控混合方法研究（N=45），对比了分步计划与中间结果反馈、静默运行仅提供最终结果两种模式，探究了基于大语言模型的具身车载助手的反馈时机与信息详略度。采用车载语音助手的双任务范式实验发现，中间反馈能显著提升用户对速度的感知、信任度及用户体验，同时降低任务负荷——这些效果在不同任务复杂度与交互情境下均保持稳定。访谈进一步揭示了用户对自适应方式的偏好：初期通过高透明度建立信任，待系统验证可靠性后逐步精简反馈内容，并根据任务风险与情境动态调整。我们将实证研究转化为具身助手的反馈时机与信息详略度设计要旨，在透明度与效率间实现平衡。

校准后行动：LLM智能体中的成本感知探索
Calibrate-Then-Act: Cost-Aware Exploration in LLM Agents

Feb 18

ByWenxuan Ding, Nicholas Tomlin, Greg Durrett

大型语言模型正越来越多地用于解决复杂问题，这类问题往往无法通过单次响应完成，而是需要与环境交互以获取信息。在此类场景中，LLM必须权衡内在的成本与不确定性，以决定何时停止探索并给出最终答案。例如在编程任务中，当LLM对生成代码片段的正确性存疑时，应当对其进行测试；编写测试的成本虽不为零，但通常低于出错导致的代价。本研究提出，可以通过引导LLM显式权衡成本与不确定性的平衡关系，从而执行更优化的环境探索。我们将信息检索和代码生成等多类任务形式化为不确定性下的序列决策问题，每个问题都包含可通过先验知识进行推理的潜在环境状态，该先验会被输入至LLM智能体。我们提出了"校准后行动"框架，通过为LLM提供额外上下文使其采取更优行动。即使对基线方法和CTA框架同时进行强化学习训练，这种改进效果依然保持。在信息检索型问答和简化编程任务上的实验表明，通过CTA显式权衡成本效益能帮助智能体发现更优的决策策略。

TactAlign：通过触觉对齐实现从人类到机器人的策略迁移
TactAlign: Human-to-Robot Policy Transfer via Tactile Alignment

Feb 14

ByYoungsun Wi, Jessica Yin, Elvis Xiang, Akash Sharma, Jitendra Malik, Mustafa Mukadam, Nima Fazeli, Tess Hellebrekers

通过可穿戴设备（如触觉手套）采集的人类演示数据为策略学习提供了快速灵巧的监督信号，这些数据源自丰富自然的触觉反馈。然而，核心挑战在于如何将人类采集的触觉信号迁移至机器人，以克服传感模式与具身形态的差异。现有结合触觉的人类到机器人迁移方法通常假设使用相同的触觉传感器、需要配对数据，且要求人类演示者与机器人间几乎不存在具身差异，这限制了方法的可扩展性与普适性。我们提出TactAlign——一种跨具身触觉对齐方法，可将人类采集的触觉信号迁移至不同具身形态的机器人。该方法通过修正流将人类与机器人的触觉观测映射至共享潜空间，且无需配对数据集、人工标注或特权信息。我们的方法通过手物交互衍生的伪配对样本实现低成本的潜空间迁移。实验表明，TactAlign在多个接触密集型任务（旋转、插入、盖合）中提升了人类到机器人的策略迁移效果，仅需不足5分钟的人类数据即可泛化至未见物体与任务，并能实现高灵巧任务（灯泡旋拧）的零样本人类到机器人迁移。

Arcee Trinity 大型技术报告
Arcee Trinity Large Technical Report

Feb 19

ByVarun Singh, Lucas Krauss, Sami Jaghouar, Matej Sirovatka, Charles Goddard, Fares Obied, Jack Min Ong, Jannik Straube, Fern, Aria Harley, Conner Stewart, Colin Kealty, Maziyar Panahi, Simon Kirsten, Anushka Deshpande, Anneketh Vij, Arthur Bresnu, Pranav Veldurthi, Raghav Ravishankar, Hardik Bishnoi, DatologyAI Team, Arcee AI Team, Prime Intellect Team, Mark McQuade, Johannes Hagemann, Lucas Atkins

本文发布Arcee Trinity Large的技术报告，该模型为稀疏专家混合模型，总参数量达4000亿，每个令牌激活130亿参数。同时我们报告了Trinity Nano与Trinity Mini的性能：Trinity Nano总参数60亿（每令牌激活10亿），Trinity Mini总参数260亿（每令牌激活30亿）。这些模型采用现代架构设计，包含交错局部与全局注意力机制、门控注意力、深度缩放三明治归一化，以及专家混合模型的Sigmoid路由算法。针对Trinity Large，我们还引入了名为"软钳位动量专家偏置更新"的新型MoE负载均衡策略。所有模型均采用Muon优化器完成训练，且整个训练过程零损失突增。Trinity Nano与Trinity Mini在10万亿令牌上完成预训练，Trinity Large则在17万亿令牌上完成预训练。模型检查点已发布于https://huggingface.co/arcee-ai。

DDiT：面向高效扩散变换器的动态补丁调度机制
DDiT: Dynamic Patch Scheduling for Efficient Diffusion Transformers

Feb 19

ByDahye Kim, Deepti Ghadiyaram, Raghudeep Gadde

扩散变换器（DiTs）在图像和视频生成领域已实现最先进性能，但其成功伴随着巨大的计算成本。这种低效性主要源于固定的标记化过程——在整个去噪阶段无论内容复杂度如何均采用恒定尺寸的图像块。我们提出动态标记化策略，这是一种基于内容复杂度与去噪时间步动态调整图像块尺寸的高效推理方法。我们的核心发现是：早期时间步仅需较粗粒度的图像块来建模全局结构，而后期迭代则需要更精细（小尺寸）的图像块来完善局部细节。在推理过程中，本方法通过动态重分配去噪步骤中的图像块尺寸，在保持感知生成质量的同时显著降低了计算成本。大量实验验证了本方法的有效性：在FLUX-1.Dev和Wan 2.1基准上分别实现了最高3.52倍和3.2倍的加速，且未损害生成质量与提示跟随能力。

前沿人工智能风险管理框架实践：风险分析技术报告v1.5版
Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report v1.5

Feb 16

ByDongrui Liu, Yi Yu, Jie Zhang, Guanxu Chen, Qihao Lin, Hanxi Zhu, Lige Huang, Yijin Zhou, Peng Wang, Shuai Shao, Boxuan Zhang, Zicheng Liu, Jingwei Sun, Yu Li, Yuejin Xie, Jiaxuan Guo, Jia Xu, Chaochao Lu, Bowen Zhou, Xia Hu, Jing Shao

为深入理解并识别快速演进的人工智能模型带来的前所未有的风险，《前沿人工智能风险管理实践框架》对其前沿风险进行了全面评估。随着大语言模型通用能力的飞速发展以及智能体人工智能的普及，本版风险分析技术报告从五个关键维度提出了更新且更精细的评估：网络攻击、说服操控、战略欺骗、失控的AI研发以及自我复制。具体而言，我们针对网络攻击引入了更复杂的场景；在说服操控方面，评估了新发布大语言模型间相互说服的风险；针对战略欺骗与阴谋策划，新增了关于涌现性失准的实验；在失控AI研发方面，重点关注智能体自主扩展记忆载体与工具集时出现的"错误进化"现象。此外，我们还监测并评估了OpenClaw在Moltbook平台交互过程中的安全表现。对于自我复制维度，我们引入了资源受限的新场景。更重要的是，我们提出并验证了一系列强韧的缓解策略以应对这些新兴威胁，为前沿AI的安全部署提供了初步的技术路径与行动指南。这项工作反映了我们当前对AI前沿风险的认知，并呼吁采取集体行动来应对这些挑战。

ArXiv到模型：科学语言模型训练的实践研究
ArXiv-to-Model: A Practical Study of Scientific LM Training

Feb 19

ByAnuj Gupta

尽管前沿大语言模型展现出强大的推理与数学能力，从原始数据训练领域专用科学语言模型的实际流程仍缺乏系统记录。本研究通过具体案例，详细阐述了基于数学、计算机科学和理论物理学领域的原始arXiv LaTeX源码训练1.36B参数科学语言模型的全过程。我们构建了端到端的流程链，涵盖元数据过滤、归档验证、LaTeX解析、文本规范化、领域感知分词，以及在有限算力条件下（2×A100 GPU）的稠密Transformer模型训练。通过24组实验，我们系统分析了训练稳定性、扩展特性、数据损耗规律及基础设施瓶颈。研究发现：预处理策略显著影响可用标记数量，分词方案制约符号稳定性，存储与I/O限制可能成为比算力更关键的制约因素。我们进一步解析收敛动态，证明在充足数据条件下（520亿预训练标记）可实现稳定训练。本文未提出新颖架构，而是立足工程实践，透明呈现了从小规模起步训练科学语言模型的全貌。期望这些洞见能为中等算力条件下构建领域专用模型的研究者提供参考。

利用大型语言模型探索多智能体学习算法
Discovering Multiagent Learning Algorithms with Large Language Models

Feb 18

ByZun Li, John Schultz, Daniel Hennes, Marc Lanctot

在多智能体强化学习（MARL）应用于不完全信息博弈的进程中，历史上的诸多进展长期依赖于对基线算法的人工迭代优化。尽管反事实遗憾最小化（CFR）与策略空间响应预言（PSRO）等基础理论体系具有坚实的理论基础，但其最高效变体的设计往往需要依靠人类直觉来探索庞大的算法设计空间。本研究提出采用基于大语言模型的进化编程智能体AlphaEvolve，以实现新型多智能体学习算法的自动发现。我们通过为两种不同的博弈论学习范式演化新变体，证明了该框架的通用性。首先，在迭代遗憾最小化领域，我们演化出控制遗憾累积与策略推导的逻辑，发现了一种新算法——波动自适应折现（VAD-）CFR。该算法采用了一系列非直觉的创新机制（包括波动敏感折现、一致性强制乐观策略及硬性热启动策略累积方案），在性能上超越了如折现预测CFR+等最先进的基线算法。其次，在基于种群的训练算法领域，我们为PSRO演化出训练阶段与评估阶段的元策略求解器，发现了一种新变体——平滑混合乐观遗憾（SHOR-）PSRO。该变体引入了一种混合元求解器，将乐观遗憾匹配与基于温度控制的纯策略最优分布平滑线性融合。通过动态调整训练过程中的混合因子与多样性奖励，该算法实现了从种群多样性到精确均衡发现的自动过渡，相比标准静态元求解器展现出更优的经验收敛性。

FRAPPE：通过多未来表征对齐将世界模型融入通用策略
FRAPPE: Infusing World Modeling into Generalist Policies via Multiple Future Representation Alignment

Feb 19

ByHan Zhao, Jingbo Wang, Wenxuan Song, Shuai Chen, Yang Liu, Yan Wang, Haoang Li, Donglin Wang

让视觉语言动作（VLA）模型具备预测环境动态的能力（即世界建模），已被视为提升机器人推理与泛化能力的关键。然而现有方法存在两大问题：1. 训练目标迫使模型过度关注像素级重建，制约了语义学习与泛化能力；2. 推理时对预测未来观测的依赖常导致误差累积。为解决这些挑战，我们提出基于并行渐进扩展的未来表征对齐方法（FRAPPE）。该方法采用两阶段微调策略：中期训练阶段，模型学习预测未来观测的潜在表征；后期训练阶段，通过并行扩展计算负载，同时与多个不同视觉基础模型进行表征对齐。通过显著提升微调效率并降低对动作标注数据的依赖，FRAPPE为增强通用机器人策略的世界认知能力提供了可扩展且数据高效的路径。在RoboTwin基准测试和真实任务上的实验表明，FRAPPE优于现有最优方法，并在长周期与未见场景中展现出强大泛化能力。

论模加运算的机制与动力学：傅里叶特征、彩票假设与顿悟现象
On the Mechanism and Dynamics of Modular Addition: Fourier Features, Lottery Ticket, and Grokking

Feb 18

ByJianliang He, Leda Wang, Siyu Chen, Zhuoran Yang

我们针对双层神经网络如何学习特征以解决模加法任务提出了全面分析。本研究不仅对已训练模型提供了完整的机制性解释，还从理论层面阐明了其训练动力学。尽管已有研究指出单个神经元会学习单频傅里叶特征并进行相位对齐，但尚未完全解释这些特征如何整合为全局解决方案。我们通过形式化训练过程中出现的多样化条件弥补了这一空白——该条件包含相位对称性和频率多样化两个部分，并在过参数化时显现。我们证明这些特性使网络能够协同逼近模加法任务正确逻辑上的缺陷指示函数：单个神经元虽产生噪声信号，但相位对称性实现了多数表决机制以消除噪声，使网络能稳健识别正确和值。此外，我们通过彩票假设机制解释了随机初始化下这些特征的形成机理。梯度流分析表明频率在神经元内部相互竞争，"胜出者"由其初始频谱幅值和相位对齐度决定。从技术角度，我们严格刻画了层级相位耦合动力学，并利用ODE比较引理形式化了竞争格局。最后基于这些发现，我们揭示了顿悟现象的本质，将其描述为包含记忆阶段和两个泛化阶段的三步过程，其驱动力来自损失最小化与权重衰减之间的博弈。

计算机应用世界模型
Computer-Using World Model

Feb 19

ByYiming Guan, Rui Yu, John Zhang, Lu Wang, Chaoyun Zhang, Liqun Li, Bo Qiao, Si Qin, He Huang, Fangkai Yang, Pu Zhao, Lukas Wutschitz, Samuel Kessler, Huseyin A Inan, Robert Sim, Saravan Rajmohan, Qingwei Lin, Dongmei Zhang

在复杂的软件环境中运行的智能体需对其行为后果进行推理，因为即便单个错误的用户界面操作也可能破坏需要保持工作成果的长期工作流。这一挑战在计算机使用场景中尤为突出——尽管环境完全数字化且具有确定性，但由于实际执行过程不支持反事实推演，大规模试错学习与规划变得不切实际。我们提出计算机使用世界模型（CUWM），该桌面软件世界模型能够根据当前状态及候选动作预测下一UI状态。CUWM采用两阶段因子化方法解析UI动态：首先生成智能体相关状态变化的文本描述，继而通过可视化实现这些变化以合成下一屏幕截图。该模型基于从真实Microsoft Office应用交互中采集的离线UI转换数据进行训练，并通过轻量级强化学习阶段进一步优化，使文本转换预测与计算机使用环境的结构要求相契合。我们通过测试时动作搜索评估CUWM：冻结状态的智能体在执行前使用世界模型模拟比较候选动作。在多项Office任务测试中，基于世界模型的测试时扩展策略显著提升了决策质量与执行鲁棒性。

CrispEdit：基于低曲率投影的可扩展非破坏性大语言模型编辑方法
CrispEdit: Low-Curvature Projections for Scalable Non-Destructive LLM Editing

Feb 17

ByZarif Ikram, Arad Firouzkouhi, Stephen Tu, Mahdi Soltanolkotabi, Paria Rashidinejad

大型语言模型（LLM）编辑的核心挑战在于能力保持：那些成功改变目标行为的方法可能悄然操纵编辑代理指标，损害模型的通用能力，产生类似代理/奖励破解的退化行为。我们提出CrispEdit——一种可扩展且基于原理的二阶编辑算法，将能力保持作为显式约束，统一并推广了多种现有编辑方法。CrispEdit将编辑问题构建为约束优化，通过将编辑更新投影至能力损失曲面的低曲率子空间来强化约束。该算法的核心在于通过布雷格曼散度表达能力约束，其二次形式能精确给出高斯-牛顿海森矩阵，且即使基础模型未达到收敛状态仍适用。我们采用克罗内克分解近似曲率（K-FAC）和一种新型无矩阵投影器，使这一二阶过程能高效应用于LLM规模，该投影器利用克罗内克结构避免构建巨型投影矩阵。在标准模型编辑基准测试中，CrispEdit在实现高编辑成功率的同时，将各数据集上的能力退化控制在1%以内，较现有编辑方法有显著提升。

2Mamba2Furious：线性复杂度，精准度媲美
2Mamba2Furious: Linear in Complexity, Competitive in Accuracy

Feb 19

ByGabriel Mongaras, Eric C. Larson

线性注意力Transformer因其高效性已成为softmax注意力的有力替代方案。然而，与softmax注意力相比，线性注意力往往表达能力较弱，导致准确性下降。为弥合二者间的精度差距，我们对当前性能强劲的线性注意力变体Mamba-2进行改造。首先将其简化为最核心的组成部分，通过评估确定哪些具体设计选择对其精度贡献最大。基于此简化版本（Mamba-2S），我们改进了A-掩码结构并提升隐藏状态阶数，最终提出名为2Mamba的新方法——该方法在长上下文场景下不仅能保持接近softmax注意力的精度，还具有更高的内存效率。我们还探究了使Mamba-2能够超越softmax注意力精度的关键要素。所有实验均附代码实现。

星际争霸II中基于世界模型的策略优化
World Models for Policy Refinement in StarCraft II

Feb 16

ByYixin Zhang, Ziyi Wang, Yiming Rong, Haoxi Wang, Jinling Jiang, Shuang Xu, Haoran Wu, Shiyu Zhou, Bo Xu

近期，大型语言模型（LLMs）展现出强大的推理与泛化能力，这推动了其作为决策策略在复杂环境中的应用。星际争霸II（SC2）因其庞大的状态-动作空间与部分可观测性，成为极具挑战性的测试平台。然而，现有基于LLM的SC2智能体主要聚焦于策略本身优化，忽视了在决策循环中集成可学习的动作条件转移模型。为弥补这一空白，我们提出首个面向SC2部分可观测环境的世界模型StarWM，其能够预测未来观测状态。为有效学习SC2的混合动态特性，我们设计了结构化文本表征方法，将观测状态解耦为五个语义模块，并构建了首个SC2动态预测指令调优数据集SC2-Dynamics-50k。进一步开发了面向结构化观测预测的多维度离线评估框架。离线实验表明，StarWM相较零样本基线取得显著提升，资源预测准确率提升近60%，己方宏观态势一致性显著增强。最后，我们提出StarWM-Agent——一个融合世界模型的增强决策系统，通过将StarWM嵌入"生成-模拟-优化"决策循环实现前瞻驱动的策略 refinement。针对SC2内置AI的在线评估显示，该系统在Hard（LV5）、Harder（LV6）和VeryHard（LV7）难度下分别实现30%、15%和30%的胜率提升，同时展现出更稳定的宏观运营能力与战术风险评估水平。

模拟网络智能体中的人类差异化交互
Modeling Distinct Human Interaction in Web Agents

Feb 19

ByFaria Huq, Zora Zhiruo Wang, Zhanqiu Guo, Venu Arvind Arangarajan, Tianyue Ou, Frank Xu, Shuyan Zhou, Graham Neubig, Jeffrey P. Bigham

尽管自主网页代理发展迅速，但在任务执行过程中，人类参与对于设定偏好和修正代理行为仍不可或缺。然而现有代理系统缺乏对人类干预时机与动机的理论认知，往往在跨越关键决策点时仍自主运行，或提出不必要的确认请求。本研究提出建立人类干预模型以支持协作式网页任务执行的新任务。我们收集了包含4200余项交错式人机操作的400条真实用户网页导航轨迹数据集CowCorpus，并识别出用户与代理互作的四种典型模式——放手监督、动手监察、协作解题及完全接管。基于这些发现，我们训练语言模型根据用户交互风格预测其干预倾向，使干预预测准确率较基础语言模型提升61.4-63.4%。最终将这类具备干预感知能力的模型部署至实时网页导航代理，通过用户研究发现代理可用性评分提升26.5%。研究表明：对人类干预进行结构化建模能有效增强代理的适应性与协作能力。

NESSiE：必要安全基准——识别本不应存在的错误
NESSiE: The Necessary Safety Benchmark -- Identifying Errors that should not Exist

Feb 18

ByJohannes Bertram, Jonas Geiping

我们推出NESSiE（必要安全基准测试），这是针对大语言模型的必要安全性评估体系。该基准通过极简的信息与访问安全测试用例，揭示了本不应存在的安全相关缺陷——考虑到任务复杂度极低，这类缺陷根本不应出现。NESSiE旨在为语言模型安全性提供轻量级、易操作的初步检验，因此虽不足以全面保障安全性，但我们主张通过该测试是任何模型部署的必要前提。然而，即便是最先进的大语言模型也未能达到NESSiE的100%通过率，即便在没有对抗攻击的情况下，仍无法满足我们提出的语言模型安全必要条件。我们提出的"安全与助益"（SH）指标实现了两大需求的直接对比，表明模型普遍存在重助益轻安全的倾向。研究还发现，部分模型的推理能力被抑制时（尤其是存在良性干扰语境的情况下），其性能会出现显著下降。总体而言，我们的研究结果凸显了将此类模型作为自主智能体部署至实际场景时的重大风险。相关数据集、工具包及绘图代码均已公开。

基于房顶模型的车载大语言模型硬件协同设计扩展法则
Hardware Co-Design Scaling Laws via Roofline Modelling for On-Device LLMs

Feb 10

ByLuoyang Sun, Jiwen Jiang, Yifeng Ding, Fengfa Li, Yan Song, Haifeng Zhang, Jian Ying, Lei Ren, Kun Zhan, Wei Chen, Yan Xie, Cheng Deng

视觉-语言-动作模型（VLA）已成为物理人工智能的核心范式，并日益广泛应用于自动驾驶车辆、机器人和智能空间。在这些资源受限的终端设备场景中，选择合适的大型语言模型（LLM）骨干网络是关键挑战：模型必须在精度与严格的推理延迟及硬件效率约束之间取得平衡。这使得软硬件协同设计成为终端LLM部署中具有颠覆性意义的要求——每个硬件平台都需要定制化的架构解决方案。我们提出了一种联合表征模型精度与推理性能的硬件协同设计法则，具体通过将训练损失建模为架构超参数的显式函数，并采用屋顶线模型刻画推理延迟。我们在NVIDIA Jetson Orin平台上实证评估了1,942个候选架构，并对筛选出的170个模型分别进行100亿token训练以拟合架构与训练损失间的缩放规律。通过将该缩放律与延迟模型耦合，我们建立了精度-延迟的直接对应关系，并确定了硬件协同设计LLM的帕累托边界。我们进一步将架构搜索形式化为精度与性能的联合优化问题，推导出工业级硬件和应用预算约束下的可行设计区域。该方法将架构选择周期从数月缩短至数天。在目标硬件上与Qwen2.5-0.5B同等延迟条件下，我们协同设计的架构在WikiText-2数据集上实现了困惑度降低19.42%。据我们所知，这是首个面向终端LLM部署的硬件协同设计缩放律原理性可操作框架。我们将公开相关代码与模型检查点。

NeST：面向大语言模型安全性的神经元选择性调谐
NeST: Neuron Selective Tuning for LLM Safety

Feb 18

BySasha Behrouzi, Lichao Wu, Mohamadreza Rostami, Ahmad-Reza Sadeghi

安全对齐对于负责任地部署大语言模型至关重要。然而，现有方法通常依赖计算成本高昂的微调技术，导致跨模型族更新、审计和维护困难。全参数微调会产生巨大的计算和存储开销，而LoRA等参数高效方法虽提升效率，却存在安全增益不稳定和对设计选择敏感的问题。电路阻断器等安全干预机制虽能减少不安全输出而不修改模型权重，但无法直接塑造或维护控制安全行为的内部表征。这些限制阻碍了快速可靠的安全更新，尤其在模型频繁迭代或需适应新政策领域的场景中。我们提出NeST——一种轻量级、结构感知的安全对齐框架，通过选择性适配少量安全相关神经元并冻结模型其余部分，强化拒绝行为。NeST通过聚类功能一致的安全神经元并在簇内实施共享更新，使参数调整与安全行为内部结构对齐，实现精准稳定的安全适配，无需大规模模型修改或推理时开销。我们在涵盖多模型族和规模的10个开源大模型上，将NeST与全参数微调、基于LoRA的微调和电路阻断器三大主流基线进行对比。在所有评估模型中，NeST将攻击成功率从平均44.5%降至4.36%，相当于不安全生成减少90.2%，而平均仅需44万可训练参数。相较于全参数微调，更新参数量减少17,310倍；相比LoRA减少9.25倍，同时持续实现更强的安全对齐性能。

参考文献：提升大型语言模型在不可验证领域的一致性
References Improve LLM Alignment in Non-Verifiable Domains

Feb 18

ByKejian Shi, Yixin Liu, Peifeng Wang, Alexander R. Fabbri, Shafiq Joty, Arman Cohan

尽管可验证奖励的强化学习（RLVR）在推理任务中展现出强大效能，但其无法直接应用于缺乏真实验证器的不可验证领域（如大语言模型对齐）。本研究探讨了参考引导的LLM评估器能否作为软性“验证器”来弥合这一差距。首先，我们设计了利用参考输出增强基于LLM的评估器对齐能力的评估方案。通过系统实验发现：采用前沿模型参考输出可显著提升能力较弱LLM评判者的准确性；高质量（如人工撰写）参考亦能增强强力LLM评判者的表现。基于改进后的评判者，我们验证了高质量参考在对齐调优中的效用——通过参考引导的LLM作为评判器实现自我提升。实验表明，参考引导的自我改进相较于直接在参考输出上进行监督微调（SFT）以及无参考评判器的自我改进均取得显著增益，其性能可与使用强奖励模型ArmoRM的训练结果相媲美。具体而言，Llama-3-8B-Instruct模型在AlpacaEval和Arena-Hard上分别达到73.1%和58.7%的得分，Qwen2.5-7B模型则获得70.0%和74.1%的得分，相较SFT蒸馏在AlpacaEval/Arena-Hard上平均绝对提升达+20.2/+17.1分，较无参考自我改进提升+5.3/+3.6分。这些结果凸显了参考引导的LLM评估器在不可验证领域实现高效大语言模型后训练的潜力。

StereoAdapter-2：全局结构一致的水下立体深度估计
StereoAdapter-2: Globally Structure-Consistent Underwater Stereo Depth Estimation

Feb 18

ByZeyu Ren, Xiang Li, Yiran Wang, Zeyu Zhang, Hao Tang

立体视觉深度估计是水下机器人感知的基础任务，但受波长依赖性光衰减、散射和折射影响易出现严重域偏移。现有方法通过基于GRU的迭代优化机制适配单眼基础模型，但GRU的顺序门控与局部卷积核需多次迭代才能实现长距离视差传播，在大视差及纹理缺失水域表现受限。本文提出StereoAdapter-2，采用基于选择性状态空间模型的新型ConvSS2D算子替代传统ConvGRU更新器。该算子通过四向扫描策略自然契合极线几何，同时保持垂直结构一致性，能以线性计算复杂度在单次更新中实现高效长距离空间传播。此外，我们通过融合语义感知风格迁移与几何一致新视角合成的两阶段生成流程，构建了包含多样化基线、衰减系数和散射参数的大规模合成水下立体数据集UW-StereoDepth-80K。结合继承自StereoAdapter的动态LoRA适配机制，本框架在水下基准测试中实现零样本状态最优性能：TartanAir-UW指标提升17%，SQUID提升7.2%，在BlueROV2平台的实际验证进一步证明了方法的鲁棒性。代码与项目网站详见：https://github.com/AIGeeksGroup/StereoAdapter-2 与 https://aigeeksgroup.github.io/StereoAdapter-2。