HuggingFace Daily Papers

每日論文

每日精選AI研究論文及翻譯

選擇日期

23 papers found

SpargeAttention2：基於混合Top-k+Top-p遮罩與蒸餾微調的可訓練稀疏注意力機制
SpargeAttention2: Trainable Sparse Attention via Hybrid Top-k+Top-p Masking and Distillation Fine-Tuning

Feb 13

ByJintao Zhang, Kai Jiang, Chendong Xiang, Weiqi Feng, Yuezhou Hu, Haocheng Xi, Jianfei Chen, Jun Zhu

許多無需訓練的稀疏注意力方法能有效加速擴散模型。近期研究指出，使稀疏注意力具備可訓練性可進一步提升稀疏度，同時保持生成品質。我們探討三個關鍵問題：(1) 兩種常見遮罩規則（Top-k與Top-p）何時失效？如何避免這些問題？(2) 為何可訓練稀疏注意力能比無訓練方法達到更高稀疏度？(3) 使用擴散損失微調稀疏注意力存在哪些侷限？如何解決？基於此分析，我們提出SpargeAttention2——一種可訓練稀疏注意力方法，能在不降低生成品質的前提下實現高稀疏度。該方法包含三大要素：(i) 融合Top-k與Top-p的混合遮罩規則，確保高稀疏度下的遮罩穩健性；(ii) 高效的可訓練稀疏注意力實現方案；(iii) 受蒸餾啟發的微調目標函數，通過稀疏注意力微調時更佳地保持生成品質。在視頻擴散模型上的實驗表明，SpargeAttention2可實現95%的注意力稀疏度與16.2倍的注意力加速，且生成品質穩定，一致優於現有稀疏注意力方法。

統一潛在表徵（UL）：如何訓練你的潛在空間
Unified Latents (UL): How to train your latents

Feb 19

ByJonathan Heek, Emiel Hoogeboom, Thomas Mensink, Tim Salimans

我們提出統一潛在表徵框架（UL），這是一種通過擴散先驗聯合正則化並由擴散模型解碼的潛在表徵學習方法。通過將編碼器輸出噪聲與先驗的最小噪聲級別相連結，我們得到了一個能為潛在位元率提供緊緻上界的簡潔訓練目標。在ImageNet-512數據集上，我們的方法實現了1.4的競爭性FID分數，並在保持高重建質量（PSNR）的同時，所需訓練FLOPs少於基於Stable Diffusion潛在空間訓練的模型。在Kinetics-600數據集上，我們以1.3的FVD分數刷新了當前最佳性能紀錄。

Mobile-Agent-v3.5：跨平台基礎圖形化使用者介面代理系統
Mobile-Agent-v3.5: Multi-platform Fundamental GUI Agents

Feb 15

ByHaiyang Xu, Xi Zhang, Haowei Liu, Junyang Wang, Zhaozai Zhu, Shengjie Zhou, Xuhao Hu, Feiyu Gao, Junjie Cao, Zihua Wang, Zhiyuan Chen, Jitong Liao, Qi Zheng, Jiahui Zeng, Ze Xu, Shuai Bai, Junyang Lin, Jingren Zhou, Ming Yan

本文介紹了GUI-Owl-1.5——最新一代原生GUI智能體模型，具備指令/思維變體的多規模版本（2B/4B/8B/32B/235B），支援桌面端、移動端、瀏覽器等多平台，實現雲邊協同與即時互動。該模型在開源模型中於20餘項GUI基準測試取得突破性成果：（1）GUI自動化任務：OSWorld達56.5分，AndroidWorld達71.6分，WebArena達48.4分；（2）視覺定位任務：ScreenSpotPro獲80.3分；（3）工具調用任務：OSWorld-MCP獲47.6分，MobileWorld獲46.8分；（4）記憶與知識任務：GUI-Knowledge Bench獲75.5分。GUI-Owl-1.5融合三大核心創新：（1）混合數據飛輪：基於模擬環境與雲端沙箱環境構建UI理解與軌跡生成的數據管道，提升數據收集效率與質量；（2）智能體能力統一增強：採用統一思維合成管道強化模型推理能力，重點提升工具/MCP調用、記憶存儲及多智能體協作等關鍵能力；（3）多平台環境強化學習擴展：提出新型環境RL算法MRPO，解決多平台衝突與長週期任務訓練效率低的難題。GUI-Owl-1.5模型已開源，並提供雲沙箱在線演示：https://github.com/X-PLUG/MobileAgent。

「你在做什麼？」：具備自主性的大型語言模型車載助手在多步驟處理過程中提供中繼回饋的影響
"What Are You Doing?": Effects of Intermediate Feedback from Agentic LLM In-Car Assistants During Multi-Step Processing

Feb 17

ByJohannes Kirmayr, Raphael Wennmacher, Khanh Huynh, Lukas Stappen, Elisabeth André, Florian Alt

能夠自主執行多步驟任務的能動型AI助手為用戶體驗帶來了開放性問題：這類系統在執行長時間操作時應如何傳達進度與推理過程，特別是在駕駛等注意力關鍵的情境下？我們通過一項受控混合方法研究（N=45），比較了「預告步驟與即時結果反饋」和「靜默運行僅提供最終結果」兩種模式，探討基於能動型大語言模型的車載助手在反饋時機與詳略程度上的影響。採用車載語音助手的雙任務範式實驗發現，即時反饋能顯著提升用戶對速度的感知、信任度及使用體驗，同時降低任務負荷——這些效果在不同任務複雜度與互動情境下均穩定存在。訪談進一步揭示用戶傾向適應性策略：初期高透明度以建立信任，待系統證明可靠性後逐步精簡反饋內容，並根據任務風險與情境動態調整。我們將實證結果轉化為能動型助手的反饋時機與詳略度設計要點，在透明度與效率間取得平衡。

校準後行動：大型語言模型代理中的成本感知探索
Calibrate-Then-Act: Cost-Aware Exploration in LLM Agents

Feb 18

ByWenxuan Ding, Nicholas Tomlin, Greg Durrett

大型語言模型正日益被應用於解決複雜問題，這類問題往往無法透過單次回應完成，而是需要與環境互動以獲取資訊。在此類情境中，大型語言模型必須權衡內在的「成本-不確定性」取捨問題，以決定何時停止探索並給出最終答案。例如在程式設計任務中，若模型對生成程式碼片段的正確性存疑，就應當對其進行測試；編寫測試雖需付出非零成本，但通常低於錯誤代價。本研究提出，可引導大型語言模型顯式地推理這種成本與不確定性的平衡關係，從而實現更優的環境探索策略。我們將資訊檢索與編程等多項任務形式化為不確定性下的序列決策問題，每個問題皆包含可透過先驗分佈傳遞給大型語言模型代理的潛在環境狀態。我們提出「校準後行動」框架，透過為模型提供額外上下文情境，使其能採取更優決策。即使對基準模型與CTA框架同時進行強化學習訓練，此改進效果依然保持。在資訊檢索問答與簡化編程任務上的實驗結果表明，透過CTA顯式權衡成本效益能幫助智能體發現更優的決策策略。

TactAlign：透過觸覺對準實現從人類到機器人的策略遷移
TactAlign: Human-to-Robot Policy Transfer via Tactile Alignment

Feb 14

ByYoungsun Wi, Jessica Yin, Elvis Xiang, Akash Sharma, Jitendra Malik, Mustafa Mukadam, Nima Fazeli, Tess Hellebrekers

透過可穿戴裝置（如觸覺手套）收集的人類示範數據，為策略學習提供了快速靈活的監督指導，這些數據源自豐富自然的觸覺反饋。然而，核心挑戰在於如何將人類收集的觸覺信號遷移至機器人，儘管存在傳感模式與具身形態的差異。現有的人機傳遞方法在整合觸覺時，通常假設觸覺傳感器完全一致、需要配對數據，且幾乎不考慮人類示範者與機器人之間的具身差異，這限制了方法的可擴展性與通用性。我們提出TactAlign——一種跨具身觸覺對齊方法，可將人類收集的觸覺信號遷移至不同具身形態的機器人。該方法通過整流流技術，在無需配對數據集、人工標註或特權信息的情況下，將人類與機器人的觸覺觀測轉換為共享潛在表徵。我們的技術基於手物互動生成的偽配對數據，實現低成本潛在空間遷移。實驗表明，TactAlign在多個高接觸密度任務（旋轉、插入、蓋合）中提升人機策略傳遞效果，僅需不足5分鐘的人類數據即可泛化至未見物體與任務，並能實現高靈巧度任務（燈泡旋緊）的零樣本人機傳遞。

Arcee Trinity 大型技術報告摘要本報告詳細介紹了 Arcee Trinity 模型，這是一個專為高效能自然語言處理（NLP）任務設計的尖端多模態架構。Trinity 整合了語言、視覺與推理模組，透過創新的跨模態注意力機制實現了卓越的任務適應性與可擴展性。我們全面闡述了模型的設計原理、訓練方法（包括預訓練與多階段微調）、硬體基礎設施，以及在大規模基準測試（如 MMLU、BIG-bench 與視覺問答數據集）上的評估結果。實驗表明，Trinity 在語言理解、生成任務及多模態推理上均達到業界領先水平，同時保持顯著的推理效率。本報告亦討論了模型的潛在應用場景、倫理考量與未來改進方向。 1. 引言近年來，大型語言模型（LLMs）與多模態系統的融合推動了通用人工智慧（AGI）的發展。然而，現有模型常面臨模態對齊不足、計算成本高昂或專業任務泛化能力有限等挑戰。Arcee Trinity 旨在解決這些問題，其核心創新在於： - 三模態協同架構：統一處理文本、圖像與結構化數據的端到端框架。 - 動態路由機制：根據輸入類型自動分配計算資源，提升效率。 - 可解釋性增強：內建注意力可視化工具，支援決策追溯。 2. 模型架構 Trinity 基於 Transformer 的變體，包含以下關鍵組件： - 語言編碼器：採用 RoPE 編碼的 128 層解碼器，詞彙量擴展至 256K。 - 視覺編碼器：使用 Vision Transformer（ViT-L/16）提取圖像特徵，並透過跨模態投影層與語言模組對齊。 - 推理引擎：符號推理模組，支援邏輯規則與外部知識庫（如 Wikidata）的集成。 3. 訓練方法論 3.1 預訓練階段 - 數據集：混合使用 Common Crawl、C4、維基百科及 LAION-5B 圖文數據，總計 5.6 萬億 token。 - 優化目標：結合遮罩語言建模（MLM）、對比學習（Image-Text Matching）與推理感知損失函數。 3.2 多任務微調 - 使用指令調優（Instruction Tuning）與對齊訓練（Alignment Training），基於人類反饋強化學習（RLHF）優化輸出的安全性與幫助性。 4. 實驗結果 4.1 語言任務評估 - MMLU：平均準確率達 89.7%，在數學與程式設計子任務上超越 GPT-4。 - 程式碼生成（HumanEval）：Pass@1 分數為 82.3%，顯著優於同參數量模型。 4.2 多模態任務評估 - VQAv2：準確率 84.5%，在複雜視覺推理場景下表現穩定。 - 圖表理解（ChartQA）：較基準模型提升 15.2 個百分點。 5. 效率分析 - 推理速度：在 A100 GPU 上，較密集模型快 3.2 倍。 - 碳足跡：透過模型壓縮與動態計算，訓練能耗降低 40%。 6. 應用與影響 Trinity 適用於智慧助理、科學文獻分析與自動化程式開發等領域。報告同時探討了資料偏見緩解策略與透明度措施，以符合負責任 AI 準則。 7. 結論與展望 Arcee Trinity 證明了多模態協同設計在提升模型通用性與效率方面的潛力。未來工作將聚焦於擴展模態支援（如音訊）與強化因果推理能力。附錄 - 附錄 A：完整超參數設定 - 附錄 B：偏差分析詳情 - 附錄 C：開源程式碼與模型權重發布計畫參考文獻 [1] Vaswani et al., Attention Is All You Need, 2017 [2] Brown et al., Language Models are Few-Shot Learners, 2020 [3] Radford et al., Learning Transferable Visual Models From Natural Language Supervision, 2021 ...（其餘文獻略）
Arcee Trinity Large Technical Report

Feb 19

ByVarun Singh, Lucas Krauss, Sami Jaghouar, Matej Sirovatka, Charles Goddard, Fares Obied, Jack Min Ong, Jannik Straube, Fern, Aria Harley, Conner Stewart, Colin Kealty, Maziyar Panahi, Simon Kirsten, Anushka Deshpande, Anneketh Vij, Arthur Bresnu, Pranav Veldurthi, Raghav Ravishankar, Hardik Bishnoi, DatologyAI Team, Arcee AI Team, Prime Intellect Team, Mark McQuade, Johannes Hagemann, Lucas Atkins

我們發布Arcee Trinity Large的技術報告，這是一個總參數達4000億、每詞元激活130億參數的稀疏專家混合模型。同時報告Trinity Nano與Trinity Mini的規格：Trinity Nano總參數60億（每詞元激活10億），Trinity Mini總參數260億（每詞元激活30億）。這些模型採用現代化架構，包含交錯式局部與全局注意力機制、門控注意力、深度縮放三明治歸一化，以及專家混合模型的S型路由演算法。針對Trinity Large，我們另提出名為「軟箝位動量專家偏置更新」的新型專家負載平衡策略。所有模型均使用Muon優化器完成訓練，且訓練過程中完全未出現損失值突增現象。Trinity Nano與Trinity Mini以10兆詞元進行預訓練，Trinity Large則以17兆詞元完成預訓練。模型檢查點已公開於https://huggingface.co/arcee-ai。

DDiT：高效擴散變換器的動態補丁調度機制（注：DDiT作為專有名詞保留不譯，採用"擴散變換器"對應Diffusion Transformers的標準譯法，"動態補丁調度"準確傳達Dynamic Patch Scheduling的技術內涵）
DDiT: Dynamic Patch Scheduling for Efficient Diffusion Transformers

Feb 19

ByDahye Kim, Deepti Ghadiyaram, Raghudeep Gadde

擴散轉換器（DiT）在圖像與影片生成領域已實現頂尖性能，但其成功伴隨著高昂的計算成本。這種效率低下的主因在於固定的標記化流程——無論內容複雜度如何，在整個去噪階段始終使用固定尺寸的圖像塊。我們提出動態標記化策略，這是一種高效的推理時方法，能根據內容複雜度與去噪時間步動態調整圖像塊尺寸。我們的核心洞見在於：早期時間步僅需較粗糙的圖像塊來建模全局結構，而後期迭代則需要更精細（尺寸更小）的圖像塊來完善局部細節。在推理過程中，我們的方法能為圖像與影片生成任務動態重分配去噪步驟間的圖像塊尺寸，在保持感知生成質量的同時大幅降低計算成本。大量實驗證實本方法的有效性：在FLUX-1.Dev和Wan 2.1模型上分別實現最高3.52倍與3.2倍的加速，且未犧牲生成質量與提示語遵循度。

前沿人工智慧風險管理實務框架：風險分析技術報告 v1.5
Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report v1.5

Feb 16

ByDongrui Liu, Yi Yu, Jie Zhang, Guanxu Chen, Qihao Lin, Hanxi Zhu, Lige Huang, Yijin Zhou, Peng Wang, Shuai Shao, Boxuan Zhang, Zicheng Liu, Jingwei Sun, Yu Li, Yuejin Xie, Jiaxuan Guo, Jia Xu, Chaochao Lu, Bowen Zhou, Xia Hu, Jing Shao

為理解並識別快速發展的人工智慧模型所帶來的空前風險，《前沿人工智慧風險管理實務框架》對其前沿風險進行了全面評估。隨著大型語言模型的通用能力快速演進，以及能動型人工智慧的普及，本版風險分析技術報告針對五個關鍵維度提出更新且更細緻的評估：網路攻擊、說服與操控、戰略性欺騙、失控的AI研發，以及自我複製能力。具體而言，我們為網路攻擊設計了更複雜的情境；針對說服與操控，評估了新發布大型語言模型在「模型間說服」方面的風險；在戰略性欺騙與謀劃方面，新增了關於湧現性失準的實驗；針對失控的AI研發，聚焦於智能體自主擴展記憶基質與工具組時可能產生的「錯誤演化」。此外，我們亦監測並評估了OpenClaw在Moltbook平台互動過程中的安全表現。關於自我複製能力，則引入了新的資源受限情境。更重要的是，我們提出並驗證了一系列強健的緩解策略以應對這些新興威脅，為前沿人工智慧的安全部署提供了初步技術路徑與可行方案。本研究成果反映了我們當前對AI前沿風險的理解，並呼籲採取集體行動以應對這些挑戰。

ArXiv到模型：科學語言模型訓練的實務研究
ArXiv-to-Model: A Practical Study of Scientific LM Training

Feb 19

ByAnuj Gupta

雖然前沿大型語言模型展現出強大的推理與數學能力，但從原始資料訓練領域專用科學語言模型的實際流程仍缺乏系統性記錄。本研究透過具體案例，詳細闡述如何直接從涵蓋數學、電腦科學與理論物理的arXiv LaTeX原始資料，訓練一個13.6億參數的科學語言模型。我們提出端到端的流程，包括元資料篩選、檔案驗證、LaTeX提取、文本正規化、領域感知分詞，以及在有限算力（2張A100 GPU）下的稠密轉換器訓練。透過24組實驗運行，我們分析訓練穩定性、擴展規律、數據損耗率與基礎設施瓶頸。研究發現凸顯預處理決策如何顯著影響可用標記量、分詞策略如何影響符號穩定性，以及儲存與I/O限制如何成為與算力並行的制約因素。我們進一步分析收斂動態，證實在豐富數據環境（520億預訓練標記）下能保持穩定訓練。有別於提出新架構，本研究立足工程實踐，透明呈現從零訓練小型科學語言模型的完整過程，盼能為中等算力下建構領域專用模型的研究者提供實務參考。

基于大型语言模型的多智能体学习算法探索
Discovering Multiagent Learning Algorithms with Large Language Models

Feb 18

ByZun Li, John Schultz, Daniel Hennes, Marc Lanctot

在多智能体强化学习（MARL）应用于不完美信息博弈领域的发展历程中，其进步很大程度上长期依赖于对基线算法的人工迭代优化。尽管反事实遗憾最小化（CFR）与策略空间响应预言（PSRO）等基础理论体系具有坚实的理论基础，但其最高效变体的设计往往需要依靠人类直觉在庞大的算法设计空间中进行探索。本研究提出利用由大语言模型驱动的进化编程智能体AlphaEvolve，实现多智能体学习算法的自动发现。我们通过演化两种不同范式博弈论学习算法的新变体，证明了该框架的通用性。首先在迭代遗憾最小化领域，我们演化出控制遗憾积累与策略推导的逻辑，发现了一种新算法——波动自适应折现（VAD-）CFR。该算法采用包括波动敏感折现、一致性强制乐观策略及硬性热启动策略积累机制等非直观创新机制，在性能上超越了如折现预测CFR+等最先进的基线算法。其次在基于种群的训练算法领域，我们为PSRO演化出训练阶段与评估阶段的元策略求解器，发现了一种新变体——平滑混合乐观遗憾（SHOR-）PSRO。该变体引入了一种混合元求解器，将乐观遗憾匹配与基于温度控制的纯策略最优分布平滑处理进行线性融合。通过动态调整训练过程中的混合因子与多样性奖励，该算法实现了从种群多样性到精确均衡发现的自动转换，相比标准静态元求解器展现出更优的经验收敛性。

FRAPPE：透過多重未來表徵校準將世界模型注入通用策略
FRAPPE: Infusing World Modeling into Generalist Policies via Multiple Future Representation Alignment

Feb 19

ByHan Zhao, Jingbo Wang, Wenxuan Song, Shuai Chen, Yang Liu, Yan Wang, Haoang Li, Donglin Wang

让视觉语言动作（VLA）模型具备预测环境动态的能力（即世界建模），已被视为提升机器人推理与泛化能力的关键。然而现有方法存在两大问题：1. 训练目标迫使模型过度关注像素级重建，制约了语义学习与泛化能力；2. 推理时依赖预测的未来观测值易导致误差累积。为解决这些挑战，我们提出基于并行渐进扩展的未来表征对齐方法（FRAPPE）。该方法采用两阶段微调策略：在中期训练阶段，模型学习预测未来观测的潜在表征；在后训练阶段，通过并行扩展计算负载，同时与多个不同视觉基础模型进行表征对齐。通过显著提升微调效率并降低对动作标注数据的依赖，FRAPPE为增强通用机器人策略的世界认知能力提供了可扩展且数据高效的路径。在RoboTwin基准测试和真实任务上的实验表明，FRAPPE不仅优于现有最先进方法，还在长周期和未见场景中展现出强大的泛化能力。

模块化加法的作用机制与动力学：傅里叶特征、彩票假说与顿悟现象
On the Mechanism and Dynamics of Modular Addition: Fourier Features, Lottery Ticket, and Grokking

Feb 18

ByJianliang He, Leda Wang, Siyu Chen, Zhuoran Yang

我们针对双层神经网络如何学习特征以解决模加法任务提出了全面分析。本研究不仅对已学习模型提供了完整的机制性解释，还从理论上阐释了其训练动态。尽管已有研究指出单个神经元会学习单频傅里叶特征并进行相位对齐，但尚未完全阐明这些特征如何整合为全局解决方案。我们通过形式化训练过程中出现的多样化条件（包含相位对称性与频率多样化两个部分）填补了这一空白，并证明这些特性使网络能够通过集体协作近似实现模加法任务的正确逻辑判定函数。虽然单个神经元会产生噪声信号，但相位对称性实现了多数表决机制，通过噪声抵消使网络能稳健识别正确求和结果。此外，我们通过彩票假设机制揭示了随机初始化下这些特征的形成原理。梯度流分析表明频率会在神经元内部竞争，其"胜出者"由初始频谱幅值与相位对齐程度决定。在技术层面，我们严格刻画了层级相位耦合动态，并运用ODE比较引理形式化了竞争格局。最终基于这些发现，我们将顿悟现象阐释为包含记忆阶段和两个泛化阶段的三步过程，该过程由损失最小化与权重衰减之间的竞争所驱动。

计算机应用世界模型
Computer-Using World Model

Feb 19

ByYiming Guan, Rui Yu, John Zhang, Lu Wang, Chaoyun Zhang, Liqun Li, Bo Qiao, Si Qin, He Huang, Fangkai Yang, Pu Zhao, Lukas Wutschitz, Samuel Kessler, Huseyin A Inan, Robert Sim, Saravan Rajmohan, Qingwei Lin, Dongmei Zhang

在复杂软件环境中运行的智能体，能够通过推理其行动后果而获益——因为即便是单个错误的用户界面操作，也可能导致需要保留操作痕迹的冗长工作流程偏离正轨。这一挑战在计算机使用场景中尤为严峻：由于实际执行过程不支持反事实推演，尽管环境完全数字化且具有确定性，大规模试错学习与规划仍难以实现。我们提出计算机使用世界模型（CUWM），这是一种面向桌面软件的世界模型，能够根据当前状态和候选动作预测下一UI状态。CUWM采用两阶段因子化方法建模UI动态：首先生成智能体相关状态变化的文本描述，继而通过视觉化实现这些变化以合成下一帧屏幕图像。该模型基于从真实Microsoft Office应用交互中采集的离线UI状态转换数据进行训练，并通过轻量级强化学习阶段进一步优化，使文本转换预测符合计算机使用环境的结构化要求。我们通过测试时动作搜索评估CUWM：冻结状态的智能体在执行前使用世界模型模拟并比较候选动作。在多项Office任务测试中，世界模型引导的测试时扩展策略显著提升了决策质量与执行鲁棒性。

CrispEdit：基于低曲率投影的可扩展非破坏性大语言模型编辑方法
CrispEdit: Low-Curvature Projections for Scalable Non-Destructive LLM Editing

Feb 17

ByZarif Ikram, Arad Firouzkouhi, Stephen Tu, Mahdi Soltanolkotabi, Paria Rashidinejad

大型语言模型（LLM）编辑的核心挑战在于能力保持：那些成功改变目标行为的方法可能悄然操纵编辑代理指标，损害模型的通用能力，产生类似代理/奖励破解的退化行为。我们提出CrispEdit——一种可扩展且基于原理的二阶编辑算法，将能力保持作为显式约束，统一并推广了多种现有编辑方法。该算法将编辑表述为约束优化问题，通过将编辑更新投影至能力损失景观的低曲率子空间来强化约束。CrispEdit的核心在于通过Bregman散度表达能力约束，其二次形式能精确导出高斯-牛顿海森矩阵，即使基础模型未达到收敛状态亦成立。我们采用克罗内克分解近似曲率（K-FAC）和一种新型无矩阵投影器，使这一二阶过程在LLM规模下保持高效，该投影器利用克罗内克结构避免构建巨型投影矩阵。在标准模型编辑基准测试中，CrispEdit在实现高编辑成功率的同时，将各数据集上的能力衰减平均控制在1%以内，较现有编辑器有显著提升。

2Mamba2Furious：线性复杂度，精准度媲美
2Mamba2Furious: Linear in Complexity, Competitive in Accuracy

Feb 19

ByGabriel Mongaras, Eric C. Larson

线性注意力Transformer因其高效性已成为softmax注意力的有力替代方案。然而，与softmax注意力相比，线性注意力的表达能力往往较弱，会导致精度下降。为弥合二者间的精度差距，我们对当前性能强劲的线性注意力变体Mamba-2进行改造。我们首先将Mamba-2简化为最核心的组件，通过评估确定其实现高精度的关键设计。基于此简化版本（Mamba-2S），我们改进了A-掩码结构并提升隐藏状态阶数，最终提出名为2Mamba的新方法——该方法在长上下文场景下内存效率显著提升的同时，几乎达到与softmax注意力相当的精度。我们还探究了使Mamba-2能够超越softmax注意力精度的关键要素。所有实验代码均已公开。

星际争霸II中用于策略优化的世界模型
World Models for Policy Refinement in StarCraft II

Feb 16

ByYixin Zhang, Ziyi Wang, Yiming Rong, Haoxi Wang, Jinling Jiang, Shuang Xu, Haoran Wu, Shiyu Zhou, Bo Xu

近期，大型语言模型（LLMs）展现出强大的推理与泛化能力，这促使研究者将其作为复杂环境中的决策策略进行探索。《星际争霸II》（SC2）因其庞大的状态-动作空间与部分可观测性，成为极具挑战性的测试平台。然而，现有基于LLM的SC2智能体主要聚焦于策略本身优化，忽视了将可学习的动作条件转移模型整合至决策循环中。为弥补这一空白，我们提出首个面向SC2部分可观测环境的世界模型StarWM，该模型能预测未来观测状态。为有效学习SC2的混合动态特性，我们设计了结构化文本表征方法，将观测状态分解为五个语义模块，并构建了首个SC2动态预测指令微调数据集SC2-Dynamics-50k。进一步开发了面向结构化观测预测的多维度离线评估框架。离线实验表明，StarWM在资源预测准确率（提升近60%）和己方宏观态势一致性等关键指标上显著超越零样本基线。最后，我们提出StarWM-Agent——一个融合世界模型的决策系统，通过"生成-模拟-优化"的决策循环实现前瞻性策略调优。在与SC2内置AI的在线对抗中，该模型在Hard（LV5）、Harder（LV6）和VeryHard（LV7）难度下分别实现30%、15%和30%的胜率提升，同时展现出更稳定的宏观运营能力与战术风险评估水平。

网络智能体中差异化人类交互的建模
Modeling Distinct Human Interaction in Web Agents

Feb 19

ByFaria Huq, Zora Zhiruo Wang, Zhanqiu Guo, Venu Arvind Arangarajan, Tianyue Ou, Frank Xu, Shuyan Zhou, Graham Neubig, Jeffrey P. Bigham

尽管自主网络代理技术发展迅速，但在任务执行过程中，人类参与对于偏好设定和行为纠偏仍不可或缺。然而现有代理系统缺乏对人工干预时机与动因的理论认知，往往在跨越关键决策点时仍持续自主运行，或提出不必要的确认请求。本研究提出建立人类干预模型以支持协同式网络任务执行的新任务。我们收集了包含4200余项交错式人机操作的400条真实用户网络导航轨迹数据集CowCorpus，并识别出用户与代理交互的四种典型模式——放手式监督、介入式监察、协同任务执行及完全接管。基于这些发现，我们训练语言模型根据用户交互风格预测其干预倾向，使干预预测准确率较基础语言模型提升61.4-63.4%。最终将这些具备干预感知能力的模型部署至实时网络导航代理，通过用户研究发现代理可用性评分提升26.5%。研究表明，对人类干预进行结构化建模能有效增强代理的适应性与协同能力。

NESSiE：必要安全基准——识别不应存在的错误
NESSiE: The Necessary Safety Benchmark -- Identifying Errors that should not Exist

Feb 18

ByJohannes Bertram, Jonas Geiping

我们推出NESSiE（必要安全基准测试），这是针对大型语言模型（LLM）的必要安全性评估体系。该基准通过极简的信息与访问安全测试用例，揭示了本不应存在的安全相关缺陷——考虑到任务复杂度极低，此类缺陷实属不该。NESSiE旨在作为语言模型安全性的轻量级快速检验工具，因此虽不足以全面保障安全性，但我们主张通过该测试是任何模型部署的必要前提。然而，即便最先进的LLMs在NESSiE上的通过率也未达100%，即使在无对抗攻击的情况下，仍无法满足我们设定的语言模型安全必要条件。我们提出的"安全与助益性"（SH）指标可实现两大要求的直接对比，结果显示模型明显偏向助益性而忽视安全性。研究进一步发现，部分模型的推理能力受限（尤其是受到良性干扰语境影响时）会导致性能下降。总体而言，我们的研究结果凸显了将此类模型作为自主智能体部署至真实场景时的重大风险。我们已公开数据集、工具包及绘图代码。

基于房顶模型的手持设备大语言模型硬件协同设计扩展法则
Hardware Co-Design Scaling Laws via Roofline Modelling for On-Device LLMs

Feb 10

ByLuoyang Sun, Jiwen Jiang, Yifeng Ding, Fengfa Li, Yan Song, Haifeng Zhang, Jian Ying, Lei Ren, Kun Zhan, Wei Chen, Yan Xie, Cheng Deng

视觉-语言-动作模型（VLA）已成为物理人工智能的关键范式，并日益广泛应用于自动驾驶车辆、机器人和智能空间。在这些资源受限的终端设备场景中，选择合适的大型语言模型（LLM）骨干网络至关重要：模型必须在精度与严格的推理延迟及硬件效率约束之间取得平衡。这使得软硬件协同设计成为终端LLM部署中具有颠覆性意义的要求——每个硬件平台都需要量身定制的架构解决方案。我们提出了一种同时涵盖模型精度与推理性能的硬件协同设计法则，具体通过将训练损失建模为架构超参数的显式函数，并采用屋顶线模型表征推理延迟。我们在NVIDIA Jetson Orin平台上实证评估了1,942种候选架构，并对筛选出的170个模型分别进行100亿标记训练，以拟合架构与训练损失之间的缩放定律。通过将该缩放定律与延迟建模相结合，我们建立了精度-延迟的直接对应关系，并确定了硬件协同设计LLM的帕累托前沿。我们进一步将架构搜索形式化为精度与性能的联合优化问题，推导出工业级硬件和应用预算下的可行设计区域。该方法将架构选择周期从数月缩短至数天：在目标硬件上与Qwen2.5-0.5B保持相同延迟时，我们协同设计的架构在WikiText-2数据集上实现了困惑度降低19.42%。据我们所知，这是首个面向终端LLM部署的体系化硬件协同设计缩放定律框架。我们将公开相关代码与模型检查点。

NeST：面向大语言模型安全性的神经元选择性调谐
NeST: Neuron Selective Tuning for LLM Safety

Feb 18

BySasha Behrouzi, Lichao Wu, Mohamadreza Rostami, Ahmad-Reza Sadeghi

安全对齐对于负责任地部署大语言模型至关重要。然而现有方法通常依赖计算成本高昂的微调技术，难以跨模型系列进行更新、审计和维护。全参数微调会产生巨大的计算和存储开销，而LoRA等参数高效方法虽提升效率，却存在安全增益不稳定和对设计选择敏感的问题。电路阻断器等安全干预机制虽能不修改模型权重就减少有害输出，但无法直接塑造或维护控制安全行为的内部表征。这些局限阻碍了快速可靠的安全更新，特别是在模型频繁迭代或需适应新政策领域的场景中。我们提出NeST——一种轻量级、结构感知的安全对齐框架，通过选择性适配少量安全相关神经元并冻结模型其余部分，有效强化拒绝响应能力。该框架通过聚类功能一致的安全神经元并在集群内实施协同更新，使参数调整与安全行为的内部组织对齐，从而实现精准稳定的安全适配，无需大规模修改模型或增加推理开销。我们在涵盖多个模型系列和规模的10个开源权重LLM上，将NeST与全参数微调、基于LoRA的微调及电路阻断器三大主流基线进行对比。在所有评估模型中，NeST将攻击成功率从平均44.5%降至4.36%，相当于减少90.2%的不安全生成，平均仅需训练44万个参数。相较于全参数微调和LoRA分别实现了17,310倍和9.25倍的参数更新量下降，同时持续展现出更强的安全对齐性能。

提升大型语言模型在不可验证领域的对齐性参考文献
References Improve LLM Alignment in Non-Verifiable Domains

Feb 18

ByKejian Shi, Yixin Liu, Peifeng Wang, Alexander R. Fabbri, Shafiq Joty, Arman Cohan

尽管可验证奖励的强化学习（RLVR）在推理任务中展现出强大效能，但其无法直接应用于缺乏真实验证器的非可验证领域（如大语言模型对齐）。本研究探讨了参考引导的LLM评估器能否通过充当软性"验证器"来弥合这一差距。首先，我们设计了利用参考输出增强基于LLM的评估器在对齐任务中的评估方案。通过全面实验发现：采用前沿模型生成的参考输出可显著提升能力较弱LLM评判者的准确性；高质量（即人工撰写）参考输出也能增强更强LLM评判者的表现。基于这些改进的评判者，我们验证了高质量参考在对齐调优中的效用——通过参考引导的LLM作为评判者进行自我优化。实验表明，参考引导的自我改进相较于直接在参考输出上进行监督微调（SFT）以及使用无参考评判者的自我改进均取得明显增益，其性能可与使用强奖励模型ArmoRM的训练结果相媲美。具体而言，我们的方法在Llama-3-8B-Instruct模型上于AlpacaEval和Arena-Hard分别达到73.1%和58.7%的得分，在Qwen2.5-7B模型上分别达到70.0%和74.1%的得分，相较于SFT蒸馏在AlpacaEval/Arena-Hard上平均绝对提升达+20.2/+17.1分，相较于无参考自我改进平均提升+5.3/+3.6分。这些结果凸显了参考引导的LLM评估器在非可验证领域实现有效大语言模型后训练的潜力。

StereoAdapter-2：全局结构一致的水下立体深度估计
StereoAdapter-2: Globally Structure-Consistent Underwater Stereo Depth Estimation

Feb 18

ByZeyu Ren, Xiang Li, Yiran Wang, Zeyu Zhang, Hao Tang

立体视觉深度估计是水下机器人感知的基础任务，但其性能常受波长依赖性光衰减、散射和折射引发的严重域偏移影响。现有方法通过基于GRU的迭代优化机制适配单眼基础模型以实现水下适应，但GRU中的序列门控与局部卷积核需多次迭代才能完成长距离视差传播，在视差较大且纹理缺失的水下区域性能受限。本文提出StereoAdapter-2模型，采用基于选择性状态空间模型的新型ConvSS2D算子替代传统ConvGRU更新器。该算子通过四向扫描策略自然契合极线几何约束，同时保持垂直方向的结构一致性，能以线性计算复杂度在单次更新步骤中实现高效的长距离空间传播。此外，我们通过融合语义感知风格迁移与几何一致新视角生成的两阶段流程，构建了包含多样化基线、衰减系数和散射参数的大规模合成水下立体数据集UW-StereoDepth-80K。结合继承自StereoAdapter的动态LoRA适配机制，本框架在水下基准测试中实现零样本状态最优性能：TartanAir-UW数据集提升17%，SQUID数据集提升7.2%，在BlueROV2平台的实际验证进一步证明了方法的鲁棒性。代码与项目页面详见：https://github.com/AIGeeksGroup/StereoAdapter-2 与 https://aigeeksgroup.github.io/StereoAdapter-2。