HuggingFace Daily Papers

每日论文

每日精选AI研究论文及翻译

选择日期

25 papers found

超大规模视频推理套件
A Very Big Video Reasoning Suite

Feb 23

ByMaijunxian Wang, Ruisi Wang, Juyi Lin, Ran Ji, Thaddäus Wiedemer, Qingying Gao, Dezhi Luo, Yaoyao Qian, Lianyu Huang, Zelong Hong, Jiahui Ge, Qianli Ma, Hang He, Yifan Zhou, Lingzi Guo, Lantao Mei, Jiachen Li, Hanwen Xing, Tianqi Zhao, Fengyuan Yu, Weihang Xiao, Yizheng Jiao, Jianheng Hou, Danyang Zhang, Pengcheng Xu, Boyang Zhong, Zehong Zhao, Gaoyun Fang, John Kitaoka, Yile Xu, Hua Xu, Kenton Blacutt, Tin Nguyen, Siyuan Song, Haoran Sun, Shaoyue Wen, Linyang He, Runming Wang, Yanzhi Wang, Mengyue Yang, Ziqiao Ma, Raphaël Millière, Freda Shi, Nuno Vasconcelos, Daniel Khashabi, Alan Yuille, Yilun Du, Ziming Liu, Bo Li, Dahua Lin, Ziwei Liu, Vikash Kumar, Yijiang Li, Lei Yang, Zhongang Cai, Hokin Deng

517

视频模型的快速发展主要聚焦于视觉质量，其推理能力尚未得到充分探索。视频推理将智能根植于时空一致的视觉环境中，这种环境超越了文本自然捕捉的范畴，能够实现对连续性、交互性和因果性等时空结构的直观推理。然而，由于缺乏大规模训练数据，系统研究视频推理及其扩展规律面临挑战。为填补这一空白，我们推出了超大规模视频推理数据集（VBVR），该资源涵盖200个遵循原理化分类法的精选推理任务，包含超过100万个视频片段，规模较现有数据集提升约三个数量级。我们进一步推出VBVR-Bench可验证评估框架，通过引入基于规则且与人类判断对齐的评分机制，超越基于模型的评判方式，实现对视频推理能力的可复现、可解释诊断。借助VBVR套件，我们开展了首批大规模视频推理扩展研究，观察到模型对未见推理任务出现早期涌现泛化迹象。VBVR为可泛化视频推理的下一阶段研究奠定了基础。数据、基准工具包及模型已公开于https://video-reason.com/。

SkillOrchestra：基于技能迁移的智能体路由学习框架
SkillOrchestra: Learning to Route Agents via Skill Transfer

Feb 23

ByJiayu Wang, Yifei Ming, Zixuan Ke, Shafiq Joty, Aws Albarghouthi, Frederic Sala

复合式AI系统展现出超越单一模型的潜力，但其成功关键取决于有效的协同机制。现有路由方法存在两大局限：(1) 输入级路由器仅能进行忽略动态任务需求的粗粒度查询级决策；(2) 基于强化学习的协调器适配成本高昂，且在多轮场景中常出现路由崩溃现象——反复调用某个强大但昂贵的选项。我们提出SkillOrchestra这一技能感知型协同框架。该框架不直接端到端学习路由策略，而是从执行经验中学习细粒度技能，并建模智能体在特定技能下的能力与成本。部署时，协调器通过推断当前交互的技能需求，在明确性能-成本权衡下选择最匹配的智能体。在十个基准测试上的大量实验表明，SkillOrchestra相比最先进的基于强化学习的协调器性能提升达22.5%，且学习成本分别比Router-R1和ToolOrchestra降低700倍和300倍。这些结果证明显式技能建模能够实现可扩展、可解释且样本高效的协同机制，为数据密集的强化学习方法提供了理论替代方案。代码已开源：https://github.com/jiayuww/SkillOrchestra。

VLANeXt：构建强大视觉语言模型的方法论
VLANeXt: Recipes for Building Strong VLA Models

Feb 20

ByXiao-Ming Wu, Bin Fan, Kang Liao, Jian-Jian Jiang, Runze Yang, Yihang Luo, Zhonghua Wu, Wei-Shi Zheng, Chen Change Loy

随着大型基础模型的兴起，视觉-语言-动作模型（VLA）应运而生，其通过强大的视觉与语言理解能力实现通用策略学习。然而当前VLA领域仍处于碎片化探索阶段。尽管多个团队已提出各自的VLA模型，但训练方案与评估标准的不统一使得关键设计要素难以甄别。为构建这一演进领域的系统框架，我们在统一范式下重新审视VLA的设计空间：从类似RT-2和OpenVLA的简易基线出发，沿基础架构、感知要素、动作建模三大维度系统剖析设计选择。通过此项研究，我们提炼出12项关键发现，共同构成构建强效VLA模型的实用方案。探索的成果是简洁高效的VLANeXt模型——该模型在LIBERO和LIBERO-plus基准测试中超越现有最优方法，并在真实世界实验中展现卓越的泛化能力。我们将发布统一易用的代码库，作为社区复现研究成果、探索设计空间、基于共享基础构建新VLA变体的公共平台。

混沌使者
Agents of Chaos

Feb 23

ByNatalie Shapira, Chris Wendler, Avery Yen, Gabriele Sarti, Koyena Pal, Olivia Floody, Adam Belfki, Alex Loftus, Aditya Ratan Jannali, Nikhil Prakash, Jasmine Cui, Giordano Rogers, Jannik Brinkmann, Can Rager, Amir Zur, Michael Ripa, Aruna Sankaranarayanan, David Atkinson, Rohit Gandikota, Jaden Fiotto-Kaufman, EunJeong Hwang, Hadas Orgad, P Sam Sahil, Negev Taglicht, Tomer Shabtay, Atai Ambus, Nitay Alon, Shiri Oron, Ayelet Gordon-Tapiero, Yotam Kaplan, Vered Shwartz, Tamar Rott Shaham, Christoph Riedl, Reuth Mirsky, Maarten Sap, David Manheim, Tomer Ullman, David Bau

我们在一项探索性红队测试中，对部署于真实实验室环境的自主语言模型智能体进行了研究。该环境具备持久化记忆、电子邮件账户、Discord访问权限、文件系统及Shell执行能力。在为期两周的实验中，二十位AI研究人员在正常与对抗两种条件下与智能体进行交互。通过聚焦语言模型与自主性、工具使用及多方通信整合过程中出现的故障，我们记录了十一个代表性案例。观察到的行为包括：对非授权者的违规顺从、敏感信息泄露、破坏性系统级操作执行、服务拒绝状态、失控资源消耗、身份欺骗漏洞、不安全实践的跨智能体传播，以及部分系统控制权被接管。多个案例中，智能体在底层系统状态与其报告相矛盾时仍声称任务已完成。我们还记录了部分未成功的攻击尝试。研究结果证实，在现实部署场景中存在与安全、隐私及治理相关的漏洞。这些行为引发了关于责任归属、授权委托及下游损害追责等悬而未决的问题，需要法律学者、政策制定者及跨学科研究者给予紧急关注。本报告作为初步实证研究，旨在推动更广泛领域的深度探讨。

ManCAR：面向序列推荐的流形约束隐式推理与自适应测试时计算
ManCAR: Manifold-Constrained Latent Reasoning with Adaptive Test-Time Computation for Sequential Recommendation

Feb 23

ByKun Yang, Yuxuan Zhu, Yazhe Chen, Siyao Zheng, Bangyang Hong, Kangle Wu, Yabo Ni, Anxiang Zeng, Cong Fu, Hui Li

顺序推荐系统日益采用潜在多步推理来增强测试时的计算效率。尽管取得了实证性进展，现有方法大多通过目标主导目标驱动中间推理状态，而未施加明确的可行性约束。这导致潜在漂移现象，即推理轨迹偏离至不合理区域。我们认为，有效的推荐推理应被视为在协作流形上的导航过程，而非自由形式的潜在优化。为此，我们提出ManCAR（流形约束自适应推理）这一原则性框架，将推理过程锚定在全局交互图的拓扑结构内。ManCAR从用户近期行为的协作邻域构建局部意图先验，将其表示为项目单纯形上的概率分布。在训练过程中，模型逐步将其潜在预测分布与该先验对齐，迫使推理轨迹始终保持在有效流形内。测试时，推理过程会自适应进行直至预测分布稳定，避免过度优化。我们通过变分推断理论对ManCAR进行阐释，从理论上验证其漂移预防机制和自适应测试终止机制。在七个基准数据集上的实验表明，ManCAR持续优于现有最先进基线，在NDCG@10指标上实现最高46.88%的相对提升。代码已开源：https://github.com/FuCongResearchSquad/ManCAR。

TOPReward：将标记概率作为机器人学的隐式零样本奖励
TOPReward: Token Probabilities as Hidden Zero-Shot Rewards for Robotics

Feb 22

ByShirui Chen, Cole Harrison, Ying-Chun Lee, Angela Jin Yang, Zhongzheng Ren, Lillian J. Ratliff, Jiafei Duan, Dieter Fox, Ranjay Krishna

尽管视觉-语言-动作模型在预训练领域进展迅速，但其在强化学习方面的发展仍受限于现实场景中的低样本效率和稀疏奖励。开发通用化的过程奖励模型对于提供细粒度反馈以弥合这一差距至关重要，然而现有的时序价值函数往往难以泛化至训练域之外。我们提出TOPReward——一种基于概率建模的新型时序价值函数，它利用预训练视频视觉语言模型的潜在世界知识来估计机器人任务进度。与先前直接提示视觉语言模型输出进度值（易产生数值表征偏差）的方法不同，TOPReward直接从视觉语言模型的内部标记逻辑值中提取任务进度。在涵盖130余种真实世界任务和多种机器人平台（如Franka、YAM、SO-100/101）的零样本评估中，TOPReward在Qwen3-VL模型上实现了0.947的平均值序相关性，显著优于同类开源模型上接近零相关性的最先进GVL基线。我们进一步证明，TOPReward可作为下游应用的通用工具，包括成功检测和奖励对齐的行为克隆。

移动端-O：移动设备上的统一多模态理解与生成
Mobile-O: Unified Multimodal Understanding and Generation on Mobile Device

Feb 23

ByAbdelrahman Shaker, Ahmed Heakl, Jaseel Muhammad, Ritesh Thawkar, Omkar Thawakar, Senmao Li, Hisham Cholakkal, Ian Reid, Eric P. Xing, Salman Khan, Fahad Shahbaz Khan

统一多模态模型能够在单一架构中同时理解与生成视觉内容。然而现有模型仍存在数据需求量大、体量过重而难以部署于边缘设备的问题。我们推出Mobile-O——一款紧凑型视觉-语言-扩散模型，将统一多模态智能引入移动终端。其核心模块Mobile Conditioning Projector（MCP）通过深度可分离卷积与层级对齐技术，将视觉-语言特征与扩散生成器相融合。该设计以最小计算成本实现了高效的跨模态条件控制。仅需数百万样本训练并结合新颖的四元组格式（生成提示、图像、问题、答案）进行后训练，Mobile-O即可同步增强视觉理解与生成能力。尽管追求高效，Mobile-O在性能上仍与主流统一模型持平甚至更优：在GenEval评测中达到74%，分别以5%和11%的优势超越Show-O与JanusFlow，推理速度更是快出6倍和11倍。在视觉理解任务中，Mobile-O在七项基准测试中的平均表现领先上述模型15.3%和5.1%。在iPhone上仅需约3秒即可生成512x512图像，Mobile-O首次构建了边缘设备实时统一多模态理解与生成的实用框架。我们期待Mobile-O能推动完全基于设备、无需云端依赖的实时统一多模态智能研究。代码、模型、数据集及移动应用已开源：https://amshaker.github.io/Mobile-O/

SimToolReal：一种面向零样本灵巧工具操作的以物体为中心策略
SimToolReal: An Object-Centric Policy for Zero-Shot Dexterous Tool Manipulation

Feb 18

ByKushal Kedia, Tyler Ga Wei Lum, Jeannette Bohg, C. Karen Liu

操纵工具的能力显著扩展了机器人可执行的任务范围。然而，工具操纵作为一类复杂的灵巧操作，需要掌握薄壁物体的抓取、手内物体旋转以及强力交互等技能。由于这些行为的遥操作数据采集具有挑战性，仿真到现实的强化学习（RL）成为一种有前景的替代方案。但现有方法通常需要大量工程投入来建模物体并为每个任务调整奖励函数。本研究提出SimToolReal方案，向通用化工具操纵的仿真到现实强化学习策略迈进一步。该方法不再聚焦于单一物体和任务，而是在仿真环境中程序化生成大量工具状物体基元，并训练单一强化学习策略以实现将每个物体操纵至随机目标位姿的通用目标。这一思路使SimToolReal在测试时无需任何物体或任务特定训练即可执行通用灵巧工具操纵。实验表明，SimToolReal以37%的优势超越先前的重定向方法和固定抓取方法，同时达到针对特定目标物体和任务训练的专用强化学习策略的性能水平。最后，我们证明SimToolReal可泛化至多样化的日常工具，在涵盖24项任务、12个物体实例和6种工具类别的120次真实世界测试中展现出强大的零样本性能。

通过循环一致性掩码预测学习跨视角物体对应关系
Learning Cross-View Object Correspondence via Cycle-Consistent Mask Prediction

Feb 22

ByShannan Yan, Leqi Zheng, Keyu Lv, Jingchen Ni, Hongyang Wei, Jiajun Zhang, Guangting Wang, Jing Lyu, Chun Yuan, Fengyun Rao

我们研究视频中跨不同视角建立物体级视觉对应关系的任务，重点关注极具挑战性的第一人称到第三人称及第三人称到第一人称场景。基于条件二元分割，我们提出了一种简洁而高效的框架：将物体查询掩码编码为潜在表征，用以指导目标视频中对应物体的定位。为获得鲁棒且视角不变的表征，我们引入了循环一致性训练目标——将目标视图的预测掩码投影回源视图以重建原始查询掩码。这种双向约束在无需真实标注的情况下提供了强自监督信号，并支持推理时的测试时训练。在Ego-Exo4D和HANDAL-X基准测试上的实验表明，我们的优化目标和测试时训练策略具有显著效果，实现了最先进的性能。代码已开源：https://github.com/shannany0606/CCMP。

DSDR：面向大语言模型推理探索的双尺度多样性正则化
DSDR: Dual-Scale Diversity Regularization for Exploration in LLM Reasoning

Feb 23

ByZhongwei Wan, Yun Shen, Zhihao Dou, Donghao Zhou, Yu Zhang, Xin Wang, Hui Shen, Jing Xiong, Chaofan Tao, Zixuan Zhong, Peizhou Huang, Mi Zhang

基于验证器的强化学习（RLVR）是提升大语言模型推理能力的重要范式，但现有方法常受限于探索不足。策略往往会坍缩到少数推理模式上，过早终止深度探索，而传统的熵正则化仅引入局部随机性，无法实现有意义的路径级多样性，导致基于群组的策略优化信号薄弱且不稳定。我们提出DSDR——一种双尺度多样性正则化强化学习框架，将大语言模型推理的多样性分解为全局与耦合两个组成部分。在全局层面，DSDR促进正确推理轨迹间的多样性以探索不同的解题模式；在局部层面，它对正确轨迹施加长度不变的词元级熵正则化，在保持正确性的同时防止各模式内部的熵坍缩。通过全局到局部的分配机制，两个尺度相互耦合，该机制会对更具区分度的正确轨迹加强局部正则化。我们提供的理论证明表明：DSDR在有界正则化下能保持最优正确性，在群组优化中维持信息丰富的学习信号，并产生理论依据充分的全局-局部耦合规则。在多个推理基准测试上的实验表明，该方法在准确率和pass@k指标上均取得稳定提升，凸显了双尺度多样性对RLVR深度探索的重要性。代码已开源：https://github.com/SUSTechBruce/DSDR。

RoboCurate：利用动作验证神经轨迹的多样性赋能机器人学习
RoboCurate: Harnessing Diversity with Action-Verified Neural Trajectory for Robot Learning

Feb 21

BySeungku Kim, Suhyeok Jang, Byungjun Yoon, Dongyoung Kim, John Won, Jinwoo Shin

视频生成模型合成的数据作为可扩展流水线为机器人学习展示了潜力，但由于生成视频的不完美，常存在动作质量不一致的问题。近期，视觉语言模型被用于验证视频质量，但其在区分物理准确性视频方面存在局限，且无法直接评估生成动作本身。为解决该问题，我们提出RoboCurate——一种通过仿真回放比对来评估筛选标注动作质量的新型机器人合成数据生成框架。具体而言，RoboCurate在仿真器中重放预测动作，并通过比较仿真推演与生成视频间的运动一致性来评估动作质量。此外，我们通过图像到图像编辑技术突破现有数据集的观测多样性限制，并应用动作保持型视频到视频转换以进一步增强外观多样性。实验表明，与仅使用真实数据相比，RoboCurate生成的数据在成功率上实现显著相对提升：在GR-1桌面任务（300次演示）中提升70.1%，在预训练设置的DexMimicGen中提升16.1%，在极具挑战性的真实世界ALLEX仿人灵巧操作场景中提升179.9%。

TTTLRM：面向长上下文与自回归三维重建的测试时训练
tttLRM: Test-Time Training for Long Context and Autoregressive 3D Reconstruction

Feb 23

ByChen Wang, Hao Tan, Wang Yifan, Zhiqin Chen, Yuheng Liu, Kalyan Sunkavalli, Sai Bi, Lingjie Liu, Yiwei Hu

我们提出tttLRM，一种新型大规模三维重建模型，该模型通过引入测试时训练层实现具有线性计算复杂度的长上下文自回归三维重建，从而进一步提升模型的扩展能力。我们的框架能够将多幅图像观测高效压缩至TTT层的快速权重中，在隐空间形成可解码为多种显式格式的隐式三维表征（如适用于下游应用的高斯泼溅表示）。模型的在线学习变体支持基于流式观测的渐进式三维重建与优化。实验表明，通过在新视角生成任务上的预训练可有效迁移至显式三维建模，从而提升重建质量并加速收敛。大量实验证明，在物体和场景的三维高斯重建任务中，我们的方法相比现有最优技术实现了更卓越的前馈重建性能。

DODO：离散光学字符识别扩散模型
DODO: Discrete OCR Diffusion Models

Feb 18

BySean Man, Roy Ganz, Roi Ronen, Shahar Tsiper, Shai Mazor, Niv Nayman

光学字符识别（OCR）作为信息数字化的基础任务，是连接视觉数据与文本理解的关键桥梁。尽管现代视觉语言模型（VLM）在该领域已实现高精度识别，但其主要依赖自回归解码方式——每生成一个标记都需执行序列前向传播，导致长文档处理时计算成本高昂且速度缓慢。我们发现突破此瓶颈的关键机遇：与开放式生成任务不同，OCR是高度确定性的任务，视觉输入严格决定了唯一输出序列，理论上可通过扩散模型实现高效的并行解码。然而，现有掩码扩散模型未能发挥此潜力：它们引入的结构不稳定性在图像描述等柔性任务中尚可容忍，但对OCR这种具有严格精确匹配要求的任务则会产生灾难性影响。为此，我们提出DODO模型——首个采用分块离散扩散技术的VLM，成功释放扩散模型在OCR任务中的加速潜力。通过将生成过程分解为文本块，DODO有效规避了全局扩散的同步误差问题。实验表明，该方法在保持接近最优精度的同时，推理速度较自回归基线提升最高达3倍。

智能体记忆机制剖析：评估体系分类与系统局限性的实证分析
Anatomy of Agentic Memory: Taxonomy and Empirical Analysis of Evaluation and System Limitations

Feb 22

ByDongming Jiang, Yi Li, Songtao Wei, Jinxin Yang, Ayushi Kishore, Alysa Zhao, Dingyi Kang, Xu Hu, Feng Chen, Qiannan Li, Bingzhe Li

智能体记忆系统使大语言模型（LLM）智能体能够在长交互中维持状态，支持超越固定上下文窗口的长程推理与个性化能力。尽管架构设计快速发展，这些系统的实证基础仍显薄弱：现有基准测试往往规模不足，评估指标与语义效用失配，性能在不同骨干模型间差异显著，且系统级成本常被忽视。本文从架构与系统双重视角对智能体记忆进行结构化分析。首先基于四种记忆结构提出简洁的MAG系统分类法，继而剖析制约当前系统的关键痛点，包括基准测试的饱和效应、指标有效性与评判敏感性、骨干模型依赖的准确性，以及内存维护引发的延迟与吞吐量开销。通过将记忆结构与实证局限相联结，本文阐明了当前智能体记忆系统为何常未达理论预期，并为更可靠的评估方法与可扩展系统设计指明了方向。

解码机器学习决策：面向大规模排序系统的智能体推理框架
Decoding ML Decision: An Agentic Reasoning Framework for Large-Scale Ranking System

Feb 20

ByLongfei Yun, Yihan Wu, Haoran Liu, Xiaoxuan Liu, Ziyun Xu, Yi Wang, Yang Xia, Pengfei Wang, Mingze Gao, Yunxiang Wang, Changfan Chen, Junfeng Pan

现代大规模排序系统运行于一个集多元目标、运营约束与动态产品需求于一体的复杂环境中。该领域的进展日益受限于工程语境约束——即将模糊的产品意图转化为合理、可执行、可验证假设的艰巨过程，而非仅受建模技术制约。我们提出GEARS（生成式智能排序系统引擎），该框架将排序优化重构为可编程实验环境中的自主发现过程。GEARS不再将优化视为静态模型选择，而是通过专用智能体技能将排序专家知识封装为可复用的推理能力，使操作者能够通过高层意图氛围个性化引导系统。此外，为确保生产可靠性，该框架集成验证钩子以强化统计稳健性，过滤过度拟合短期信号的脆弱策略。在多类产品界面上的实验验证表明，GEARS通过算法信号与深度排序语境的协同作用，持续识别出接近帕累托最优的优质策略，同时保持严格的部署稳定性。

K-搜索：基于内在世界模型协同进化的LLM内核生成
K-Search: LLM Kernel Generation via Co-Evolving Intrinsic World Model

Feb 22

ByShiyi Cao, Ziming Mao, Joseph E. Gonzalez, Ion Stoica

GPU内核优化对现代高效机器学习系统至关重要，但由于设计因素的复杂交织与硬件的快速迭代，该领域仍面临严峻挑战。现有自动化方案通常将大语言模型（LLMs）简单视为启发式进化循环中的随机代码生成器，这类方法因缺乏显式规划能力，在处理需要协同多步结构重构的复杂内核时往往表现不佳，常因低效或错误的中间实现而错失潜在优化策略。为此，我们提出基于协同进化世界模型的搜索方法，并据此构建K-Search框架。通过以协同进化世界模型替代静态搜索启发式规则，我们的框架能利用LLMs的领域先验知识引导搜索过程，主动探索优化空间。该方法显式解耦了高层算法规划与底层程序实例化，使系统能够驾驭非单调的优化路径，同时对临时实现缺陷保持容错能力。我们在FlashInfer的多样化复杂内核（包括GQA、MLA及MoE内核）上评估K-Search，结果表明其显著优于当前最先进的进化搜索方法，平均性能提升达2.10倍，在复杂MoE内核上最高可实现14.3倍增益。在GPUMode TriMul任务中，K-Search于H100上实现1030微秒的顶尖性能，超越了既有进化算法与人工设计方案。

SimVLA：面向机器人操作的简易视觉语言动作基准框架
SimVLA: A Simple VLA Baseline for Robotic Manipulation

Feb 20

ByYuankai Luo, Woping Chen, Tong Liang, Baiqiao Wang, Zhenguo Li

视觉-语言-动作（VLA）模型通过大规模预训练实现卓越性能，已成为通用机器人操控领域的重要范式。随着空间先验知识的引入和多样化架构创新，该领域迅速发展。然而这些进展常伴随不同的训练方案与实现细节，导致难以厘清性能提升的具体来源。本文提出SimVLA这一精简基线模型，旨在为VLA研究建立透明参照系。通过严格分离感知与控制模块、采用标准视觉语言主干网络与轻量级动作头、统一关键训练动态，我们证明简约设计同样能实现顶尖性能。尽管参数量仅0.5B，SimVLA在标准仿真基准测试中无需机器人预训练即超越数十亿参数模型，在真实机器人实验中也达到与pi0.5相当的水平。本研究将SimVLA确立为稳健可复现的基线，有助于未来架构创新成果的清晰归因。项目网站：https://frontierrobo.github.io/SimVLA

论序列模型中的“归纳偏置”
On the "Induction Bias" in Sequence Models

Feb 20

ByM. Reza Ebrahimi, Michaël Defferrard, Sunny Panchal, Roland Memisevic

尽管基于Transformer的语言模型取得了显著的实际成功，但近期研究对其状态追踪能力提出了质疑。越来越多的文献主要通过分布外泛化（如长度外推）的失败案例揭示了这一局限。本研究将关注点转向这些局限在分布内的影响，通过大规模实验比较了Transformer与循环神经网络在不同监督机制下的数据效率。研究发现：随着状态空间规模和序列长度的增加，Transformer所需训练数据量的增长速度远超RNN。此外，我们分析了已学习的状态追踪机制在不同序列长度间的共享程度。结果表明，Transformer在不同长度间的权重共享可忽略不计甚至存在负面影响，表明其孤立地学习了长度特定的解决方案。相比之下，循环模型通过跨长度权重共享实现了有效的摊销学习，使得某一序列长度的训练数据能够提升其他长度的性能。这些发现共同证明，即使训练与评估数据分布一致，状态追踪仍是Transformer面临的基础性挑战。

Nacrith：基于集成上下文建模与高精度CDF编码的神经无损压缩
Nacrith: Neural Lossless Compression via Ensemble Context Modeling and High-Precision CDF Coding

Feb 23

ByRoberto Tacconelli

我们推出Nacrith无损压缩系统，该系统融合了1.35亿参数Transformer语言模型（SmolLM2-135M）、轻量级在线预测器集成与32位算术编码器。在基础LLM+算术编码范式之上，Nacrith实现了八大创新：(1)将CDF精度从2^16提升至2^24，消除大词表中因最小概率阈值导致的约75%量化开销；(2)基于令牌级N-gram模型实现快速局部预测；(3)通过在线梯度下降的自适应对数空间偏置头校正单文档LLM误差；(4)基于置信度的LLM跳过机制加速高可预测令牌处理；(5)混合二进制格式NC06将神经压缩扩展至任意二进制文件——据我们所知这是LLM压缩器的首创；(6)llama.cpp推理后端实现比PyTorch快约7倍的单令牌解码；(7)支持最多8工作节点的并行多GPU压缩；(8)原生KV缓存滑动窗口将单滑动计算成本降低约37倍。该系统仅需约500MB GGUF权重文件，每工作节点占用约1.2GB显存，可在消费级GPU上运行。在alice29.txt（坎特伯雷语料库，152KB）测试中，Nacrith实现0.918比特/字节的压缩率——较gzip提升3.1倍，较bzip2提升2.5倍，较CMIX v21提升44%，较ts_zip提升20%，同时突破零阶、一阶及二阶字节级香农熵下界。在enwik8（100MB）测试中达到0.9389 bpb（11.74%），以60倍更小模型且无需微调的条件下，较ts_zip（约1.11 bpb）提升15%，较FineZip（1.024 bpb）提升8%。针对模型训练截止后发布文档的分布外评估证实这些增益非记忆伪影，在未见过文本上实现0.723 bpb的压缩率。

AssetFormer：基于自回归变换器的模块化三维资产生成
AssetFormer: Modular 3D Assets Generation with Autoregressive Transformer

Feb 12

ByLingting Zhu, Shengju Qian, Haidi Fan, Jiayu Dong, Zhenchao Jin, Siwei Zhou, Gen Dong, Xin Wang, Lequan Yu

数字产业对高质量、多样化的模块化3D资产需求日益增长，尤其在用户生成内容（UGC）领域。本文提出AssetFormer——一种基于自回归Transformer的模型，能够根据文本描述生成模块化3D资产。我们的先导研究利用了从在线平台收集的真实世界模块化资产。AssetFormer通过创新性地借鉴语言模型的模块序列化与解码技术，采用自回归建模方法提升资产生成质量，有效解决了为不同应用场景生成符合约束设计参数的基本单元组合资产的难题。初步实验表明，AssetFormer在专业开发和UGC场景中能有效简化资产创建流程。本工作提出了可扩展至各类模块化3D资产的灵活框架，为3D内容生成领域的拓展做出贡献。代码已开源：https://github.com/Advocate99/AssetFormer。

Ani3DHuman：基于自引导随机采样的照片级真实感三维人体动画
Ani3DHuman: Photorealistic 3D Human Animation with Self-guided Stochastic Sampling

Feb 22

ByQi Sun, Can Wang, Jiaxiang Shang, Yingchun Liu, Jing Liao

当前的三维人体动画方法难以实现照片级真实感：基于运动学的方法缺乏非刚性动态（如衣物动力学），而利用视频扩散先验的技术虽能合成非刚性运动，却存在质量瑕疵和身份特征丢失问题。为突破这些局限，我们提出Ani3DHuman框架，将基于运动学的动画与视频扩散先验相融合。我们首先引入分层运动表征，将刚性运动与残余非刚性运动解耦。刚性运动由运动学方法生成，并生成粗糙渲染结果以指导视频扩散模型生成恢复残余非刚性运动的视频序列。然而，基于扩散采样的复原任务极具挑战性——初始渲染结果属于分布外数据，导致标准确定性ODE采样器失效。为此，我们提出新型自引导随机采样方法，通过结合随机采样（实现照片级质量）与自引导机制（保持身份特征保真度），有效解决分布外问题。这些复原后的视频提供高质量监督信号，使得残余非刚性运动场的优化成为可能。大量实验表明，本方法能生成照片级真实感的三维人体动画，性能超越现有方法。代码已开源：https://github.com/qiisun/ani3dhuman。

AAVGen：精准改造腺相关病毒衣壳实现肾脏选择性靶向
AAVGen: Precision Engineering of Adeno-associated Viral Capsids for Renal Selective Targeting

Feb 21

ByMohammadreza Ghaffarzadeh-Esfahani, Yousof Gheisari

腺相关病毒（AAV）是基因治疗的有前景载体，但其天然血清型在组织趋向性、免疫逃逸和生产效率方面存在局限。由于序列空间的广阔性及多重功能特性同步优化的困难，工程化改造衣壳面临挑战。这一复杂性在肾脏靶向中尤为突出——肾脏独特的解剖屏障和细胞靶点要求载体工程具备精确性和高效性。本文提出AAVGen，一种生成式人工智能框架，用于从头设计具有增强多重性状特征的AAV衣壳。该框架将蛋白质语言模型（PLM）与监督微调（SFT）及名为群体序列策略优化（GSPO）的强化学习技术相结合，通过基于ESM-2架构的三个回归预测器（分别预测生产适应性、肾脏趋向性和热稳定性）生成复合奖励信号来指导模型优化。实验结果表明，AAVGen能生成多样化的新型VP1蛋白序列库。计算机验证显示大部分生成变体在所有三项评估指标上均表现优异，实现了多目标优化。通过AlphaFold3的结构分析进一步证实，尽管序列多样化，生成序列仍能保持典型衣壳折叠构象。AAVGen为数据驱动的病毒载体工程奠定了基础，可加速开发具有定制化功能特性的新一代AAV载体。

接触锚定式四足机器人本体感知里程计
Contact-Anchored Proprioceptive Odometry for Quadruped Robots

Feb 19

ByMinxing Sun, Yao Mao

在不依赖相机或激光雷达的情况下，为腿式机器人实现可靠的里程计仍面临IMU漂移和关节速度传感噪声的挑战。本文提出一种纯本体感知的状态估计器，仅利用IMU与电机测量值协同估计机体位姿与速度，其统一架构适用于双足、四足及轮腿式机器人。核心思想是将每条触地腿视作运动学锚点：基于关节扭矩的足端力矩估计筛选可靠接触，对应的落足点位置通过间歇性的世界坐标系约束抑制长期漂移。为消除长距离行进中的高度漂移，我们引入轻量级高度聚类与时间衰减校正机制，将新记录的落足高度对齐至已观测的支撑平面。针对编码器量化导致的足端速度观测误差，采用逆运动学容积卡尔曼滤波器直接从关节角度与速度中滤出足端速度。该实现还通过多接触几何一致性缓解偏航角漂移，并在IMU偏航约束不可靠时优雅降级为运动学推导的航向参考。我们在四台四足平台（三台Astrall机器人及一台Unitree Go2 EDU）上通过闭环轨迹进行评估：Astrall尖足机器人A在模拟200米水平环路和15米垂直环路中的误差分别为0.1638米和0.219米；轮腿式机器人B的对应误差为0.2264米和0.199米。轮腿式机器人C在模拟700米水平环路中误差为7.68米，模拟20米垂直环路误差为0.540米。Unitree Go2 EDU在模拟120米水平环路中误差为2.2138米，模拟8米垂直环路的垂直误差小于0.1米。代码见：github.com/ShineMinxing/Ros2Go2Estimator.git

面向时序因果发现的大型因果模型
Large Causal Models for Temporal Causal Discovery

Feb 20

ByNikolaos Kougioulis, Nikolaos Gkorgkolis, MingXue Wang, Bora Caglayan, Dario Simionato, Andrea Tonon, Ioannis Tsamardinos

传统上，针对横截面与时间序列数据的因果发现一直遵循数据集特定范式，即每个独立数据集都需拟合新模型。这种方法限制了多数据集预训练的潜力。大型因果模型（LCMs）的概念提出了一类专门为时序因果发现设计的预训练神经架构。现有方法受限于较小变量规模，随输入增大性能下降，且严重依赖合成数据，制约了泛化能力。我们提出一个理论严谨的LCM框架，将多样化合成生成器与真实时序数据集相结合，实现规模化学习。在合成、半合成及真实基准测试上的大量实验表明，LCM能有效扩展至更高变量数量和更深层架构，同时保持强大性能。与经典及神经基线方法相比，训练后的模型在分布外场景中尤其展现出竞争优势，且支持快速单次推理。实验结果证明LCM是时序因果发现中极具前景的基础模型范式。实验数据与模型权重详见https://github.com/kougioulis/LCM-paper/。

SenTSR-基准：基于知识注入的时间序列推理思维方法
SenTSR-Bench: Thinking with Injected Knowledge for Time-Series Reasoning

Feb 23

ByZelin He, Boran Han, Xiyuan Zhang, Shuai Zhang, Haotian Lin, Qi Zhu, Haoyang Fang, Danielle C. Maddix, Abdul Fatir Ansari, Akash Chandrayan, Abhinav Pradhan, Bernie Wang, Matthew Reimherr

时间序列诊断推理在众多应用中至关重要，但现有解决方案始终存在一个显著缺陷：通用推理大语言模型（GRLM）虽具备强大的推理能力，却缺乏理解复杂时间序列模式的领域知识；而经过微调的时间序列大语言模型（TSLM）虽能识别这些模式，却难以对更复杂问题实现泛化推理。为弥补这一鸿沟，我们提出一种混合知识注入框架，将TSLM生成的领域洞察直接注入GRLM的推理轨迹，从而借助领域知识实现强效的时间序列推理。由于收集知识注入微调所需数据成本高昂，我们进一步采用基于可验证奖励的强化学习方法（RLVR），在无需人工监督的情况下生成知识密集的推理轨迹，并将此类领域思维轨迹迁移至GRLM以实现高效知识注入。此外，我们发布了SenTSR-Bench——一个基于真实工业场景采集的多变量时间序列诊断推理基准测试。在SenTSR-Bench及其他公共数据集上的实验表明，本方法相较TSLM模型持续提升9.1%-26.1%，较GRLM模型提升7.9%-22.4%，能够提供稳健且具有上下文感知能力的时间序列诊断洞察。