HuggingFace Daily Papers

每日論文

每日精選AI研究論文及翻譯

選擇日期

25 papers found

超大規模影片推理套件
A Very Big Video Reasoning Suite

Feb 23

ByMaijunxian Wang, Ruisi Wang, Juyi Lin, Ran Ji, Thaddäus Wiedemer, Qingying Gao, Dezhi Luo, Yaoyao Qian, Lianyu Huang, Zelong Hong, Jiahui Ge, Qianli Ma, Hang He, Yifan Zhou, Lingzi Guo, Lantao Mei, Jiachen Li, Hanwen Xing, Tianqi Zhao, Fengyuan Yu, Weihang Xiao, Yizheng Jiao, Jianheng Hou, Danyang Zhang, Pengcheng Xu, Boyang Zhong, Zehong Zhao, Gaoyun Fang, John Kitaoka, Yile Xu, Hua Xu, Kenton Blacutt, Tin Nguyen, Siyuan Song, Haoran Sun, Shaoyue Wen, Linyang He, Runming Wang, Yanzhi Wang, Mengyue Yang, Ziqiao Ma, Raphaël Millière, Freda Shi, Nuno Vasconcelos, Daniel Khashabi, Alan Yuille, Yilun Du, Ziming Liu, Bo Li, Dahua Lin, Ziwei Liu, Vikash Kumar, Yijiang Li, Lei Yang, Zhongang Cai, Hokin Deng

517

影片模型的快速進展主要聚焦於視覺品質，其推理能力尚未得到充分探索。影片推理將智能基礎建立於時空一致的視覺環境中，這種環境超越了文字能自然捕捉的範疇，使模型能對時空結構（如連續性、互動性與因果關係）進行直覺推理。然而，由於缺乏大規模訓練數據，系統性研究影片推理及其擴展規律的進展受阻。為解決此問題，我們推出超大規模影片推理數據集（VBVR），該資源規模空前，涵蓋按原則性分類法整理的200種推理任務與超過百萬支影片片段，較現有數據集規模擴大約三個數量級。我們進一步提出VBVR基準測試平台，這套可驗證的評估框架突破基於模型評判的傳統，整合規則化且與人類判斷對齊的評分機制，實現可重現、可詮釋的影片推理能力診斷。借助VBVR系列工具，我們開展了首個大規模影片推理擴展研究，並觀察到模型對未見過推理任務出現早期湧現泛化跡象。VBVR為可泛化影片推理的下一階段研究奠定了基礎。數據、基準測試工具包與模型已公開於 https://video-reason.com/。

SkillOrchestra：基於技能遷移的智能體路由學習框架
SkillOrchestra: Learning to Route Agents via Skill Transfer

Feb 23

ByJiayu Wang, Yifei Ming, Zixuan Ke, Shafiq Joty, Aws Albarghouthi, Frederic Sala

複合式人工智慧系統展現出超越單一模型的潛力，但其成功關鍵在於有效的協調機制。現有的路由方法面臨兩大局限：(1) 輸入級路由器僅能進行粗粒度的查詢級決策，無法適應動態變化的任務需求；(2) 基於強化學習的協調器調整成本高昂，且在多輪對話場景中容易出現「路由崩塌」現象，反覆呼叫單一強大但成本昂貴的選項。我們提出SkillOrchestra——一個具備技能感知能力的協調框架。該框架不直接進行端到端的路由策略學習，而是從執行經驗中提取細粒度技能，並在此基礎上建模各代理在特定技能領域的能力與成本。部署時，協調器會即時推斷當前互動所需的技能需求，並在明確的性能-成本權衡下選擇最適合的代理。在十個基準測試上的大規模實驗表明，SkillOrchestra相較於最先進的基於強化學習的協調器性能提升達22.5%，且學習成本分別比Router-R1和ToolOrchestra降低700倍與300倍。這些結果證明，顯式技能建模能實現可擴展、可解釋且樣本高效的協調機制，為數據密集的強化學習方法提供了理論嚴謹的替代方案。程式碼已開源於：https://github.com/jiayuww/SkillOrchestra。

VLANeXt：構建強大視覺語言動作模型的方法指南
VLANeXt: Recipes for Building Strong VLA Models

Feb 20

ByXiao-Ming Wu, Bin Fan, Kang Liao, Jian-Jian Jiang, Runze Yang, Yihang Luo, Zhonghua Wu, Wei-Shi Zheng, Chen Change Loy

隨著大型基礎模型的崛起，視覺語言動作模型（VLA）應運而生，其利用強大的視覺與語言理解能力實現通用策略學習。然而，當前VLA領域仍處於碎片化探索階段。儘管多個團隊已提出各自的VLA模型，但訓練方案與評估設定的不一致性使得關鍵設計選擇難以辨識。為釐清這一快速發展的領域，我們在統一框架與評估體系下重新審視VLA的設計空間。從類似RT-2和OpenVLA的簡易VLA基線出發，我們沿三個維度系統性剖析設計選擇：基礎組件、感知要素與動作建模視角。透過此研究，我們提煉出12項關鍵發現，共同構成建構強健VLA模型的實用指南。此探索的成果是簡潔高效的VLANeXt模型——該模型在LIBERO與LIBERO-plus基準測試中超越先前最先進方法，並在真實世界實驗中展現卓越泛化能力。我們將發布統一的易用程式碼庫，作為社群復現研究發現、探索設計空間及基於共享基礎建構新VLA變體的共通平台。

混沌使者
Agents of Chaos

Feb 23

ByNatalie Shapira, Chris Wendler, Avery Yen, Gabriele Sarti, Koyena Pal, Olivia Floody, Adam Belfki, Alex Loftus, Aditya Ratan Jannali, Nikhil Prakash, Jasmine Cui, Giordano Rogers, Jannik Brinkmann, Can Rager, Amir Zur, Michael Ripa, Aruna Sankaranarayanan, David Atkinson, Rohit Gandikota, Jaden Fiotto-Kaufman, EunJeong Hwang, Hadas Orgad, P Sam Sahil, Negev Taglicht, Tomer Shabtay, Atai Ambus, Nitay Alon, Shiri Oron, Ayelet Gordon-Tapiero, Yotam Kaplan, Vered Shwartz, Tamar Rott Shaham, Christoph Riedl, Reuth Mirsky, Maarten Sap, David Manheim, Tomer Ullman, David Bau

我們報告一項探索性紅隊演練研究：在具備持久記憶、電子郵件帳戶、Discord存取權限、檔案系統和Shell執行能力的實時實驗室環境中，部署自主運行的語言模型驅動智能體。在為期兩週的實驗中，二十名AI研究人員分別在常規與對抗條件下與智能體進行互動。本研究聚焦於語言模型與自主性、工具使用及多方通信整合時出現的故障案例，記錄了十一個具代表性的案例研究。觀察到的行為包括：對非授權者的違規順從、敏感資訊洩露、執行破壞性系統級操作、服務阻斷狀況、失控的資源消耗、身份欺騙漏洞、不安全實踐的跨智能體傳播，以及部分系統接管。多個案例中，智能體回報任務完成時，底層系統狀態卻與其回報相矛盾。我們也記錄了部分失敗的攻擊嘗試。研究結果證實了在現實部署環境中存在與安全、隱私和治理相關的漏洞。這些行為引發了關於問責機制、授權委託及下游危害責任歸屬的未解難題，亟需法學專家、政策制定者和跨領域研究者的關注。本報告旨在為這場更廣泛的討論提供初步的實證依據。

ManCAR：基於流形約束潛在推理與自適應測試時計算的序列推薦方法
ManCAR: Manifold-Constrained Latent Reasoning with Adaptive Test-Time Computation for Sequential Recommendation

Feb 23

ByKun Yang, Yuxuan Zhu, Yazhe Chen, Siyao Zheng, Bangyang Hong, Kangle Wu, Yabo Ni, Anxiang Zeng, Cong Fu, Hui Li

順序推薦系統日益採用潛在多步推理來增強測試時計算效率。儘管實證效果顯著，現有方法大多通過目標主導的目標驅動中間推理狀態，卻未施加明確的可行性約束。這導致潛在偏移現象，即推理軌跡偏離至不合理區域。我們主張有效的推薦推理應被視為在協作流形上的導航，而非自由形式的潛在優化。為此，我們提出ManCAR（流形約束自適應推理），這是一個將推理過程錨定於全局交互圖拓撲結構的理論框架。ManCAR從用戶近期行為的協作鄰域構建局部意圖先驗，將其表示為項目單純形上的概率分佈。在訓練過程中，模型逐步將其潛在預測分佈與此先驗對齊，迫使推理軌跡始終保持在有效流形內。測試時，推理會自適應進行直至預測分佈穩定，避免過度優化。我們提供ManCAR的變分解釋，從理論上驗證其偏移預防機制和自適應測試終止機制。在七個基準數據集上的實驗表明，ManCAR持續優於現有頂尖基準模型，在NDCG@10指標上實現最高46.88%的相對提升。代碼已開源於：https://github.com/FuCongResearchSquad/ManCAR。

TOPReward：將詞彙機率作為機器人學的隱藏零樣本獎勵
TOPReward: Token Probabilities as Hidden Zero-Shot Rewards for Robotics

Feb 22

ByShirui Chen, Cole Harrison, Ying-Chun Lee, Angela Jin Yang, Zhongzheng Ren, Lillian J. Ratliff, Jiafei Duan, Dieter Fox, Ranjay Krishna

儘管視覺-語言-動作模型在預訓練領域快速發展，其在強化學習領域的進展仍受制於現實場景中的低樣本效率與稀疏獎勵問題。開發具泛化能力的過程獎勵模型對於提供細粒度反饋至關重要，然而現有的時序價值函數往往難以超越其訓練領域的泛化能力。我們提出TOPReward——一種基於概率建模的新型時序價值函數，該方法利用預訓練影片視覺-語言模型的潛在世界知識來估算機器人任務進度。有別於先前直接提示視覺-語言模型輸出進度值（易產生數值表徵偏差）的方法，TOPReward直接從視覺-語言模型的內部詞元邏輯值提取任務進度。在涵蓋130多個真實世界任務與多種機器人平台（如Franka、YAM、SO-100/101）的零樣本評估中，TOPReward在Qwen3-VL模型上實現了0.947的平均價值順序相關性，顯著優化現有最先進的GVL基線方法（該基線在同一開源模型上相關性接近零）。我們進一步驗證TOPReward可作為下游應用的多功能工具，包括成功狀態檢測與獎勵對齊的行為克隆。

Mobile-O：移動設備上的統一多模態理解與生成
Mobile-O: Unified Multimodal Understanding and Generation on Mobile Device

Feb 23

ByAbdelrahman Shaker, Ahmed Heakl, Jaseel Muhammad, Ritesh Thawkar, Omkar Thawakar, Senmao Li, Hisham Cholakkal, Ian Reid, Eric P. Xing, Salman Khan, Fahad Shahbaz Khan

統一多模態模型能夠在單一架構中同時理解與生成視覺內容。然而現有模型仍存在數據需求量大、體積過重而難以部署於邊緣設備的問題。我們提出Mobile-O——一款緊湊型視覺-語言-擴散模型，將統一多模態智能帶入移動設備。其核心模塊Mobile Conditioning Projector（MCP）通過深度可分離卷積與層級對齊技術，將視覺-語言特徵與擴散生成器融合。該設計能以最小計算成本實現高效的跨模態條件控制。僅需數百萬樣本訓練並採用新穎的四元組格式（生成提示、圖像、問題、答案）進行後訓練，Mobile-O即可同步增強視覺理解與生成能力。儘管追求高效，Mobile-O在性能上仍與其他統一模型相當或更優：在GenEval達到74%的評分，分別超越Show-O和JanusFlow達5%和11%，且推理速度加快6倍與11倍。在視覺理解任務中，Mobile-O於七項基準測試的平均表現超出兩者15.3%和5.1%。在iPhone上僅需約3秒即可生成512x512圖像，Mobile-O建立了首個實用的邊緣設備實時統一多模態理解與生成框架。我們期待Mobile-O能推動完全端側運行、無需雲端依賴的實時統一多模態智能研究。相關代碼、模型、數據集及移動應用已開源於：https://amshaker.github.io/Mobile-O/

SimToolReal：面向零样本靈巧工具操作的物件導向策略
SimToolReal: An Object-Centric Policy for Zero-Shot Dexterous Tool Manipulation

Feb 18

ByKushal Kedia, Tyler Ga Wei Lum, Jeannette Bohg, C. Karen Liu

操作工具的能力显著拓展了机器人可执行的任务范围。然而工具操作代表着一类具有挑战性的精细操作技能，需要掌握细长物体的抓取、手内物体旋转以及强力交互等能力。由于针对这些行为收集远程操作数据颇具挑战性，仿真到现实的强化学习（RL）成为一种前景广阔的替代方案。但现有方法通常需要大量工程工作来建模物体并为每个任务调整奖励函数。本研究提出SimToolReal方法，朝着通用化工具操作的仿真到现实强化学习策略迈出重要一步。通过程序化生成大量仿真环境中的工具化物体基元，并训练具有通用目标的单一强化学习策略——将每个物体操控至随机目标位姿，该方法使SimToolReal在测试时无需任何物体或任务特定训练即可执行通用精细工具操作。实验表明，SimToolReal在特定目标物体和任务上的表现与专业强化学习策略相当，同时比先前的重定向方法和固定抓取方法的性能提升37%。最后我们证明，SimToolReal能够泛化至多种日常工具，在涵盖24项任务、12个物体实例和6种工具类别的120次现实世界测试中展现出强大的零样本性能。

透過循環一致性遮罩預測學習跨視角物體對應關係 This translation maintains the technical accuracy of the original title while adapting it naturally to Traditional Chinese academic conventions. Key technical terms are translated as follows: - "Cross-View" becomes "跨視角" (standard term for multi-view scenarios) - "Object Correspondence" becomes "物體對應關係" (preserving the relational aspect) - "Cycle-Consistent" becomes "循環一致性" (established translation in cycle-GAN literature) - "Mask Prediction" becomes "遮罩預測" (consistent with computer vision terminology) The structure follows Chinese academic title patterns while keeping the logical flow of the original concept.
Learning Cross-View Object Correspondence via Cycle-Consistent Mask Prediction

Feb 22

ByShannan Yan, Leqi Zheng, Keyu Lv, Jingchen Ni, Hongyang Wei, Jiajun Zhang, Guangting Wang, Jing Lyu, Chun Yuan, Fengyun Rao

我們研究在影片中跨視角建立物體層級視覺對應的任務，重點關注具挑戰性的第一人稱視角與第三人稱視角互轉場景。我們提出基於條件二元分割的簡潔有效框架：將物體查詢遮罩編碼為潛在表徵，用以引導目標影片中對應物體的定位。為促進魯棒且視角不變的表徵學習，我們引入循環一致性訓練目標：將目標視角的預測遮罩投影回源視角以重建原始查詢遮罩。此雙向約束在無需真實標註的情況下提供強自監督信號，並支持推理階段的測試時訓練。在Ego-Exo4D和HANDAL-X基準上的實驗驗證了我們優化目標與測試時訓練策略的有效性，實現了最先進的性能。程式碼公開於https://github.com/shannany0606/CCMP。

DSDR：大型語言模型推理探索中的雙尺度多樣性正則化方法
DSDR: Dual-Scale Diversity Regularization for Exploration in LLM Reasoning

Feb 23

ByZhongwei Wan, Yun Shen, Zhihao Dou, Donghao Zhou, Yu Zhang, Xin Wang, Hui Shen, Jing Xiong, Chaofan Tao, Zixuan Zhong, Peizhou Huang, Mi Zhang

基於驗證器的強化學習（RLVR）是改進大型語言模型（LLM）推理的核心範式，然而現有方法常受制於有限的探索能力。策略往往會坍縮至少數推理模式，並過早終止深度探索；而傳統的熵正則化僅能引入局部隨機性，無法產生有意義的路徑級多樣性，導致基於群組的策略優化中出現微弱且不穩定的學習信號。我們提出DSDR——一種雙尺度多樣性正則化強化學習框架，將LLM推理中的多樣性分解為全局與耦合分量。在全局層面，DSDR促進正確推理軌跡間的多樣性以探索不同的解題模式；在局部層面，它對正確軌跡施加長度無關的詞元級熵正則化，在維持正確性的同時防止單一模式內的熵坍縮。兩尺度通過全局至局部的分配機制耦合，該機制對區分度更高的正確軌跡強化局部正則化。我們從理論上證明DSDR能在有界正則化下保持最優正確性，在群組優化中維持具信息量的學習信號，並導出原則性的全局-局部耦合規則。在多個推理基準測試上的實驗表明，該方法在準確率和pass@k指標上均取得穩定提升，凸顯了雙尺度多樣性對RLVR深度探索的關鍵價值。代碼已開源於：https://github.com/SUSTechBruce/DSDR。

RoboCurate：利用动作验证神经轨迹的多样性促进机器人学习
RoboCurate: Harnessing Diversity with Action-Verified Neural Trajectory for Robot Learning

Feb 21

BySeungku Kim, Suhyeok Jang, Byungjun Yoon, Dongyoung Kim, John Won, Jinwoo Shin

由视频生成模型合成的数据作为可扩展流水线，在机器人学习领域展现出潜力，但由于生成视频的不完美性，常存在动作质量不一致的问题。近期研究尝试利用视觉语言模型验证视频质量，但这类模型难以准确区分物理合理性，且无法直接评估生成动作本身。为解决此问题，我们提出RoboCurate——一种创新的合成机器人数据生成框架，通过将标注动作与仿真回放进行比对来评估和筛选动作质量。具体而言，该框架在仿真器中重放预测动作，并通过比较仿真推演与生成视频之间的运动一致性来评估动作质量。此外，我们通过图像到图像编辑技术突破现有数据集的观测多样性限制，并应用动作保持型视频到视频转换技术进一步增强外观多样性。实验表明，与仅使用真实数据相比，RoboCurate生成的数据带来显著的成功率提升：在GR-1桌面任务（300次演示）中相对提升70.1%，在预训练设置的DexMimicGen任务中提升16.1%，在具有挑战性的真实世界ALLEX仿人灵巧操作场景中实现179.9%的大幅提升。

tttLRM：面向长上下文与自回归三维重建的测试时训练
tttLRM: Test-Time Training for Long Context and Autoregressive 3D Reconstruction

Feb 23

ByChen Wang, Hao Tan, Wang Yifan, Zhiqin Chen, Yuheng Liu, Kalyan Sunkavalli, Sai Bi, Lingjie Liu, Yiwei Hu

我们提出tttLRM——一种新型大型三维重建模型，该模型通过引入测试时训练层实现具有线性计算复杂度的长上下文自回归三维重建，从而进一步扩展模型能力。我们的框架能将多幅图像观测高效压缩至TTT层的快速权重中，在隐空间形成可解码为多种显式格式的隐式三维表征（如用于下游应用的高斯溅射）。模型的在线学习变体支持基于流式观测的渐进式三维重建与优化。实验表明，通过在新视角合成任务上的预训练可有效迁移至显式三维建模，从而提升重建质量并加速收敛。大量实验证明，在物体和场景的三维高斯重建任务中，我们的方法相比现有最优技术实现了更卓越的前馈重建性能。

DODO：离散光学字符识别扩散模型
DODO: Discrete OCR Diffusion Models

Feb 18

BySean Man, Roy Ganz, Roi Ronen, Shahar Tsiper, Shai Mazor, Niv Nayman

光学字符识别（OCR）作为数字化信息的基础任务，是连接视觉数据与文本理解的关键桥梁。尽管现代视觉语言模型（VLM）在该领域已实现高精度识别，但其主要依赖自回归解码方式——由于每个生成标记都需要顺序前向传播，导致长文档处理时计算成本高昂且速度缓慢。我们发现突破此瓶颈的关键机遇：与开放式生成任务不同，OCR是高度确定性的任务，视觉输入严格对应唯一输出序列，理论上可通过扩散模型实现高效的并行解码。然而，现有掩码扩散模型未能发挥此潜力：它们引入的结构不稳定性在图像描述等柔性任务中影响轻微，但对OCR严格的精确匹配要求却可能造成灾难性后果。为此，我们提出DODO模型——首个采用块离散扩散技术的VLM，成功释放扩散模型在OCR任务中的加速潜能。通过将生成过程分解为块级操作，DODO有效规避了全局扩散的同步误差。实验表明，本方法在保持接近最先进精度的同时，推理速度较自回归基线最高提升3倍。

智能体记忆机制剖析：评估体系分类与系统局限性的实证分析
Anatomy of Agentic Memory: Taxonomy and Empirical Analysis of Evaluation and System Limitations

Feb 22

ByDongming Jiang, Yi Li, Songtao Wei, Jinxin Yang, Ayushi Kishore, Alysa Zhao, Dingyi Kang, Xu Hu, Feng Chen, Qiannan Li, Bingzhe Li

智能体记忆系统使大型语言模型（LLM）智能体能够在长程交互中维持状态，支持超越固定上下文窗口的长周期推理与个性化交互。尽管架构发展迅速，这些系统的实证基础仍显薄弱：现有基准测试往往规模不足，评估指标与语义效用存在偏差，不同骨干模型的性能差异显著，且系统级成本常被忽视。本文从架构与系统双重视角对智能体记忆进行结构化分析。我们首先基于四种记忆结构提出简洁的MAG系统分类法，进而剖析制约当前系统的关键痛点，包括基准测试的饱和效应、指标有效性与评判敏感性、骨干模型依赖的准确性，以及记忆维护带来的延迟与吞吐量开销。通过将记忆结构与实证局限相联结，本文阐明了当前智能体记忆系统为何常未达理论预期，并为更可靠的评估方法与可扩展的系统设计指明了方向。

解碼機器學習決策：面向大規模排序系統的能動推理框架
Decoding ML Decision: An Agentic Reasoning Framework for Large-Scale Ranking System

Feb 20

ByLongfei Yun, Yihan Wu, Haoran Liu, Xiaoxuan Liu, Ziyun Xu, Yi Wang, Yang Xia, Pengfei Wang, Mingze Gao, Yunxiang Wang, Changfan Chen, Junfeng Pan

现代大规模排序系统运行在目标多元、操作约束复杂且产品需求动态演进的精密生态中。该领域的进展日益受制于工程语境约束——即将模糊的产品意图转化为合理、可执行、可验证假设的艰巨过程，而非单纯受限于建模技术。我们提出GEARS（生成式智能排序系统引擎），该框架将排序优化重构为可编程实验环境中的自主发现过程。通过将专业智能体技能封装为可复用的推理能力，GEARS把排序专家知识转化为可操作的认知模块，使操作者能够通过高层意图导向实现个性化调优。为确保生产可靠性，该框架内置验证钩子以强化统计稳健性，过滤那些过度拟合短期信号的脆弱策略。在多类产品界面上的实验验证表明，GEARS通过算法信号与深度排序语境的协同融合，能持续发现接近帕累托最优的优质策略，同时保持严格的部署稳定性。

K-搜索：基于协同演化内在世界模型的大语言模型内核生成
K-Search: LLM Kernel Generation via Co-Evolving Intrinsic World Model

Feb 22

ByShiyi Cao, Ziming Mao, Joseph E. Gonzalez, Ion Stoica

在現代機器學習系統中，優化GPU內核對實現高效能至關重要，但由於設計因素的複雜相互作用及硬體的快速迭代，這項任務仍具挑戰性。現有的自動化方法通常僅將大語言模型（LLMs）視為啟發式引導演化循環中的隨機代碼生成器。這類方法因缺乏顯式規劃能力，且常因低效或不正確的中間實現而丟棄潛在優化策略，難以處理需要協同多步驟結構變換的複雜內核。為此，我們提出基於協同演化世界模型的搜索方法，並據此構建了K-Search框架。該框架以協同演化的世界模型取代靜態搜索啟發規則，利用LLMs的領域先驗知識引導搜索進程，主動探索優化空間。這種方法顯式解耦了高層算法規劃與底層程序實例化，使系統能夠在非單調的優化路徑中導航，同時對臨時實現缺陷保持韌性。我們在FlashInfer的GQA、MLA及MoE等多類複雜內核上評估K-Search，結果表明其顯著優於現有演化搜索方法：平均性能提升達2.10倍，在複雜MoE內核上最高實現14.3倍增益。在GPUMode TriMul任務中，K-Search於H100平臺達到1030微秒的業界最優性能，超越既有演化算法與人工設計方案。

SimVLA：面向机器人操作的简易视觉语言动作基准模型
SimVLA: A Simple VLA Baseline for Robotic Manipulation

Feb 20

ByYuankai Luo, Woping Chen, Tong Liang, Baiqiao Wang, Zhenguo Li

视觉-语言-动作模型已成为通用机器人操控领域的重要范式，其通过大规模预训练实现了卓越性能。随着空间先验知识的引入和多样化架构创新，该领域正快速发展。然而这些进展常伴随各异的训练方案与实现细节，导致难以厘清性能提升的确切来源。本文提出SimVLA这一精简基线模型，旨在为VLA研究建立透明参照系。通过严格分离感知与控制模块、采用标准视觉语言主干网络与轻量级动作头、统一关键训练动态，我们证明简约设计同样能实现顶尖性能。尽管仅包含5亿参数，SimVLA在标准仿真基准测试中无需机器人预训练即超越数十亿参数模型，在真实机器人实验中与pi0.5达到相当水平。本研究将SimVLA确立为稳健可复现的基准，为未来架构创新的效果归因提供清晰依据。项目网站：https://frontierrobo.github.io/SimVLA

序列模型中的"归纳偏置"探析
On the "Induction Bias" in Sequence Models

Feb 20

ByM. Reza Ebrahimi, Michaël Defferrard, Sunny Panchal, Roland Memisevic

儘管基於Transformer的語言模型在實踐中取得了顯著成功，但近期研究對其執行狀態追蹤的能力提出了質疑。越來越多的文獻主要通過分佈外泛化（例如長度外推）的失敗案例揭示了這一局限性。本研究將關注點轉向這些局限性的分佈內影響，通過大規模實驗對比了Transformer與循環神經網絡在多種監督機制下的數據效率。我們發現：隨狀態空間規模和序列長度的增加，Transformer所需的訓練數據量增長速度遠超RNN。此外，我們分析了已學習的狀態追蹤機制在不同序列長度間的共享程度，結果表明Transformer表現出可忽略甚至有害的跨長度權重共享，意味著其孤立地學習長度特定的解決方案。相比之下，循環模型通過跨長度權重共享實現了有效的攤銷學習，使得單一序列長度的訓練數據能提升其他長度的表現。這些結果共同表明，即使訓練與評估分佈一致，狀態追蹤仍是Transformer面臨的根本性挑戰。

Nacrith：基于集成上下文建模与高精度累积分布函数编码的神经无损压缩
Nacrith: Neural Lossless Compression via Ensemble Context Modeling and High-Precision CDF Coding

Feb 23

ByRoberto Tacconelli

我们推出Nacrith无损压缩系统，该系统融合了1.35亿参数Transformer语言模型（SmolLM2-135M）、轻量级在线预测器集成与32位算术编码器。在基础LLM+算术编码范式之上，Nacrith具有八大创新：(1)将CDF精度从2^16提升至2^24，消除大词表中因最小概率阈值导致的约75%量化开销；(2)面向快速局部预测的令牌级N-gram模型；(3)通过在线梯度下降修正每文档LLM误差的自适应对数空间偏置头；(4)基于置信度的LLM跳过机制，加速高可预测令牌处理；(5)扩展神经压缩至任意二进制文件的混合格式NC06——据我们所知这是LLM压缩器的首创；(6)llama.cpp推理后端实现比PyTorch快约7倍的单令牌解码；(7)支持最多8工作节点的并行多GPU压缩；(8)原生KV缓存滑动窗口将每滑动成本降低约37倍。该系统仅需约500MB GGUF权重文件，每工作节点占用约1.2GB显存，可在消费级GPU上运行。在alice29.txt（坎特伯雷语料库，152KB）测试中，Nacrith实现0.918比特/字节的压缩率——较gzip提升3.1倍，较bzip2提升2.5倍，较CMIX v21提升44%，较ts_zip提升20%，且突破字节级零阶、一阶及二阶香农熵下界。在enwik8（100MB）测试中达到0.9389比特/字节（11.74%），以60倍更小模型且无需微调的条件下，较ts_zip（约1.11比特/字节）提升15%，较FineZip（1.024比特/字节）提升8%。针对模型训练截止后发布文档的分布外评估证实这些增益非记忆伪影，在未见过文本上实现0.723比特/字节的压缩率。

AssetFormer：基于自回归变换器的模块化三维资产生成框架
AssetFormer: Modular 3D Assets Generation with Autoregressive Transformer

Feb 12

ByLingting Zhu, Shengju Qian, Haidi Fan, Jiayu Dong, Zhenchao Jin, Siwei Zhou, Gen Dong, Xin Wang, Lequan Yu

数字产业对高质量、多样化的模块化3D资产需求日益增长，尤其在用户生成内容~(UGC)领域。本文提出AssetFormer——一种基于自回归Transformer的模型，能够根据文本描述生成模块化3D资产。我们的先导研究利用了从在线平台收集的真实世界模块化资产。该模型通过创新性地借鉴语言模型的模块序列化与解码技术，采用自回归建模方式提升资产生成质量。初步结果表明，AssetFormer能有效简化专业开发和UGC场景下的资产创建流程。本工作提出的可扩展灵活框架适用于多种模块化3D资产类型，为3D内容生成领域的发展做出贡献。代码已开源：https://github.com/Advocate99/AssetFormer。

Ani3DHuman：基于自引导随机采样的照片级真实感三维人体动画
Ani3DHuman: Photorealistic 3D Human Animation with Self-guided Stochastic Sampling

Feb 22

ByQi Sun, Can Wang, Jiaxiang Shang, Yingchun Liu, Jing Liao

当前的三维人体动画方法难以实现照片级真实感：基于运动学的方法缺乏非刚性动力学（如衣物动力学），而利用视频扩散先验的方法虽能合成非刚性运动，却存在质量瑕疵和身份特征丢失问题。为突破这些局限，我们提出Ani3DHuman框架，将基于运动学的动画与视频扩散先验相结合。我们首先引入分层运动表征，将刚性运动与残余非刚性运动解耦。刚性运动由运动学方法生成，并生成粗糙渲染结果来指导视频扩散模型生成恢复残余非刚性运动的视频序列。然而，基于扩散采样的复原任务极具挑战性——初始渲染结果属于分布外数据，会导致标准确定性ODE采样器失效。为此，我们提出新型自引导随机采样方法，通过结合随机采样（保障照片级质量）与自引导机制（保持身份特征保真度），有效解决了分布外数据问题。这些复原后的视频提供了高质量监督信号，使得残余非刚性运动场的优化成为可能。大量实验表明，本方法能生成照片级真实感的三维人体动画，性能优于现有方法。代码已开源：https://github.com/qiisun/ani3dhuman。

AAVGen：用于肾脏选择性靶向的腺相关病毒衣壳精密工程
AAVGen: Precision Engineering of Adeno-associated Viral Capsids for Renal Selective Targeting

Feb 21

ByMohammadreza Ghaffarzadeh-Esfahani, Yousof Gheisari

腺相关病毒（AAV）是基因治疗领域极具前景的载体，但其天然血清型存在组织趋向性、免疫逃逸和生产效率方面的局限性。由于序列空间庞大且需同步优化多重功能特性，改造衣壳蛋白面临巨大挑战。这一复杂性在肾脏靶向应用中尤为突出，因其独特的解剖屏障和细胞靶点要求载体工程实现精准高效的定向改造。本文提出AAVGen——一种生成式人工智能框架，可实现具有增强多性状特征的AAV衣壳蛋白从头设计。该框架将蛋白质语言模型（PLM）与监督微调（SFT）及名为群体序列策略优化（GSPO）的强化学习技术相结合，通过基于ESM-2架构的三个回归预测器（分别预测生产适应性、肾脏趋向性和热稳定性）生成复合奖励信号来指导模型优化。实验结果表明，AAVGen能生成多样化的新型VP1蛋白序列库。计算机验证显示大部分生成变体在所有三项评估指标上均表现优异，实现了多目标协同优化。通过AlphaFold3进行的结构分析进一步证实，尽管序列呈现多样性，生成序列仍能保持标准衣壳折叠构象。AAVGen为数据驱动的病毒载体工程奠定了基础，将加速具有定制化功能特性的新一代AAV载体研发进程。

接触锚定式四足机器人本体感知里程计
Contact-Anchored Proprioceptive Odometry for Quadruped Robots

Feb 19

ByMinxing Sun, Yao Mao

在不依赖相机或激光雷达的情况下，为足式机器人实现可靠的里程计仍面临IMU漂移和关节速度传感噪声的挑战。本文提出一种纯本体感知的状态估计器，仅利用IMU与电机测量数据联合估计机体位姿与速度，其统一化框架适用于双足、四足及轮腿式机器人。核心思想是将每条触地腿视作运动学锚点：基于关节力矩的足端力矩估计筛选可靠接触，对应的落足点位置提供间歇性的世界坐标系约束以抑制长期漂移。为消除长距离行进中的高程漂移，我们引入轻量级高度聚类与时间衰减校正机制，将新记录的落足高度对齐至已观测到的支撑平面。针对编码器量化导致的足端速度观测误差，采用基于逆运动学的容积卡尔曼滤波器直接从关节角度与速度中滤出足端速度。该实现还通过多接触几何一致性缓解偏航角漂移，并在IMU偏航约束不可靠时优雅降级为运动学推导的航向参考。我们在四款四足平台（三台Astrall机器人及一台Unitree Go2 EDU）上通过闭环轨迹进行评估：Astrall尖足机器人A完成模拟200米水平环路与模拟15米垂直环路的误差分别为0.1638米和0.219米；轮腿式机器人B的对应误差为0.2264米和0.199米；轮腿式机器人C完成模拟700米水平环路误差7.68米，模拟20米垂直环路误差0.540米；Unitree Go2 EDU完成模拟120米水平环路误差2.2138米，模拟8米垂直环路高程误差小于0.1米。代码开源地址：github.com/ShineMinxing/Ros2Go2Estimator.git

大型因果模型在时序因果发现中的应用
Large Causal Models for Temporal Causal Discovery

Feb 20

ByNikolaos Kougioulis, Nikolaos Gkorgkolis, MingXue Wang, Bora Caglayan, Dario Simionato, Andrea Tonon, Ioannis Tsamardinos

传统上，无论是针对横截面数据还是时间序列数据的因果发现，都遵循数据集特定的范式，即为每个独立数据集单独拟合新模型。这种方法限制了多数据集预训练的潜力。大型因果模型（LCMs）的概念设想了一类专门为时序因果发现设计的预训练神经架构。现有方法受限于较小变量规模，随着输入规模增大会出现性能衰减，且严重依赖合成数据，限制了泛化能力。我们提出了一个基于原理的LCM框架，将多样化的合成数据生成器与真实时间序列数据集相结合，实现规模化学习。在合成、半合成及真实基准测试上的大量实验表明，LCM能有效扩展到更高变量数量和更深层架构，同时保持强劲性能。与经典方法和神经基线相比，经过训练的模型实现了具有竞争力或更优的准确度，尤其在分布外场景下表现突出，同时支持快速单次推理。结果表明LCM为时序因果发现提供了有前景的基础模型范式。实验数据和模型权重详见https://github.com/kougioulis/LCM-paper/。

SenTSR-Bench：基于知识注入的时间序列推理思考框架
SenTSR-Bench: Thinking with Injected Knowledge for Time-Series Reasoning

Feb 23

ByZelin He, Boran Han, Xiyuan Zhang, Shuai Zhang, Haotian Lin, Qi Zhu, Haoyang Fang, Danielle C. Maddix, Abdul Fatir Ansari, Akash Chandrayan, Abhinav Pradhan, Bernie Wang, Matthew Reimherr

时间序列诊断推理在众多应用中至关重要，但现有解决方案始终存在一个显著差距：通用推理大语言模型（GRLM）虽具备强大的推理能力，却缺乏理解复杂时间序列模式的领域知识；而经过微调的时间序列大语言模型（TSLM）虽能理解这些模式，但难以对更复杂问题实现泛化推理。为弥补这一差距，我们提出一种混合知识注入框架，将TSLM生成的洞察直接注入GRLM的推理轨迹，从而借助领域知识实现强效的时间序列推理。鉴于知识注入微调的数据采集成本高昂，我们进一步采用基于可验证奖励的强化学习方法（RLVR），在无需人工监督的情况下生成知识密集的推理轨迹，并将此类领域内思维轨迹迁移至GRLM以实现高效知识注入。我们还发布了SenTSR-Bench——一个基于真实工业运营采集的多变量时间序列诊断推理基准测试。在SenTSR-Bench及其他公共数据集上的实验表明，我们的方法始终以9.1%-26.1%的优势超越TSLM，以7.9%-22.4%的优势超越GRLM，能提供稳健且具有上下文感知能力的时间序列诊断洞察。

超大規模影片推理套件
A Very Big Video Reasoning Suite

Feb 23

517