HuggingFace Daily Papers

每日论文

每日精选AI研究论文及翻译

选择日期

24 papers found

MolmoAct2：面向现实世界部署的行动推理模型
MolmoAct2: Action Reasoning Models for Real-world Deployment

May 4

ByHaoquan Fang, Jiafei Duan, Donovan Clay, Sam Wang, Shuo Liu, Weikai Huang, Xiang Fan, Wei-Chuan Tsai, Shirui Chen, Yi Ru Wang, Shanli Xing, Jaemin Cho, Jae Sung Park, Ainaz Eftekhar, Peter Sushko, Karen Farley, Angad Wadhwa, Cole Harrison, Winson Han, Ying-Chun Lee, Eli VanderBilt, Rose Hendrix, Suveen Ellawela, Lucas Ngoo, Joyce Chai, Zhongzheng Ren, Ali Farhadi, Dieter Fox, Ranjay Krishna

161

视觉-语言-动作（VLA）模型致力于为机器人提供统一通用控制器，但现有系统在现实部署的关键指标上仍存不足：前沿模型多为闭源，开源替代方案受限于昂贵硬件，增强推理策略因环境感知产生过高延迟，微调后的成功率仍低于可靠应用阈值。我们推出全新升级的MolmoAct2——专为实际部署设计的全开放动作推理模型，在五大维度实现突破。我们提出MolmoER这一专精空间与具身推理的VLM骨干网络，通过"专精-演练"训练法在330万样本集上完成训练。发布覆盖低中成本平台的三大新数据集，包括720小时遥操作双臂轨迹数据集MolmoAct2-BimanualYAM（迄今最大开源双臂数据集），以及经过质量筛选的Franka（DROID）和SO100/101子集。推出OpenFAST开源动作分词器，基于五种实体平台的数百万轨迹训练而成。我们重构模型架构，通过逐层KV缓存条件化技术，将流匹配连续动作专家嫁接至离散令牌VLM。最后提出MolmoThink自适应深度推理变体，仅针对时序间变化的场景区域重预测深度令牌，以极低延迟保持几何感知能力。在迄今最全面的开源VLA实证研究中（涵盖7项仿真与真实场景基准），MolmoAct2性能超越Pi-05等强基线，MolmoER在13项具身推理基准上全面超越GPT-5和Gemini Robotics ER-1.5。我们完整开放模型权重、训练代码及全量训练数据。项目主页：https://allenai.org/blog/molmoact2

从上下文到技能：语言模型能否巧妙地从上下文中学习？
From Context to Skills: Can Language Models Learn from Context Skillfully?

May 3

ByShuzheng Si, Haozhe Zhao, Yu Lei, Qingyi Wang, Dingwei Chen, Zhitong Wang, Zhenhailong Wang, Kangyang Luo, Zheng Wang, Gang Chen, Fanchao Qi, Minjia Zhang, Maosong Sun

120

许多现实任务要求语言模型在超出其参数化知识范围的复杂语境中进行推理。这催生了语境学习的需求——语言模型需要直接从给定语境中学习相关知识。一种直观的解决方案是推理时技能增强：将语境中的规则和流程提取为自然语言技能。然而，为语境学习场景构建此类技能面临双重挑战：对技术密集的长文本进行人工技能标注成本过高，以及自动化技能构建缺乏外部反馈。本文提出Ctx2Skill框架，该自演进系统无需人工监督或外部反馈即可自主发现、优化和筛选语境专属技能。其核心采用多智能体自我博弈循环：挑战者生成探测任务与评分标准，推理者在动态技能集指导下尝试解题，中立的评判者提供二元反馈。关键创新在于挑战者与推理者通过积累的技能共同进化——专职的提议者和生成器智能体分析失败案例，将其转化为针对双方的技能更新，实现自动化技能发现与优化。为防止因极端任务生成和过度专业化技能积累导致的对弈崩溃，我们进一步引入跨时间回放机制，该机制能为推理者筛选出在代表性案例中达到最佳平衡的技能集，确保技能演进的鲁棒性和泛化能力。最终生成的技能可嵌入任意语言模型，显著提升语境学习能力。在CL-bench的四个语境学习任务上的评估表明，Ctx2Skill在不同骨干模型上持续提升了解题率。

重复优于多样：面向高效样本的德语语言建模高信号数据筛选方法
Repetition over Diversity: High-Signal Data Filtering for Sample-Efficient German Language Modeling

Apr 30

ByAnsar Aynetdinov, Patrick Haller, Alan Akbik

近期研究表明，将海量英语网络语料过滤为高质量子集能显著提升训练效率。然而对于德语、法语、日语等高资源非英语语言，激进过滤会形成战略困境：实践者应当通过单次训练大量轻过滤网络数据来优先保证多样性，还是通过严格过滤获得高质量核心语料并进行多轮训练来优先保证质量？我们以德语为例构建分层质量过滤器，对5亿份网络文档进行处理，通过比较过滤子集的多轮训练与多样化语料的单次训练来探究这一权衡。在不同模型规模和标记预算下的实验表明，重复训练高质量数据始终优于在更大规模轻过滤数据集上的单次训练。值得注意的是，即使经过7轮训练，性能差距依然存在。我们的研究结果表明，对于非英语大语言模型，通过质量过滤实现语义集中比单纯追求唯一数据量最大化为高效语言建模提供了更可行的路径。我们向研究社区发布了德语语言模型（命名为Boldt）及清洗后的评估基准。实验表明，尽管训练所用标记量比同类模型少10-360倍，这些模型仍取得了最先进的结果。

持久视觉记忆：支撑大型视觉语言模型深度生成的感知持续性
Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs

May 1

BySiyuan Huang, Xiaoye Qu, Yafu Li, Tong Zhu, Zefeng He, Muxin Fu, Daizong Liu, Wei-Long Zheng, Yu Cheng

虽然自回归大型视觉语言模型（LVLM）在多模态任务中展现出卓越能力，但其面临"视觉信号稀释"现象——文本历史累积会扩大注意力分配函数，导致视觉注意力随生成序列长度增加而呈现反向衰减。为应对此问题，我们提出持久视觉记忆（PVM）模块，该轻量级可学习模块通过建立与距离无关的检索路径，直接为精准视觉感知提供嵌入表示，从而从结构上缓解深度生成过程中固有的信号抑制问题。在Qwen3-VL模型上的大量实验表明，PVM能以可忽略的参数开销带来显著性能提升，在4B和8B规模模型上均实现稳定的平均准确率增长，尤其在需要持续视觉感知的复杂推理任务中表现突出。深度分析进一步揭示，PVM能有效抵抗生成长度引发的信号衰减，并加速内部预测收敛。

海洋语料库：面向基础模型的大规模多模态海洋数据集
OceanPile: A Large-Scale Multimodal Ocean Corpus for Foundation Models

Apr 25

ByYida Xue, Ningyu Zhang, Tingwei Wu, Zhe Ma, Daxiong Ji, Zhao Wang, Guozhou Zheng, Huajun Chen

广阔而尚未充分开发的海洋在调节全球气候和支持海洋生物多样性方面发挥着关键作用，但人工智能在该领域的影响至今有限，其根本原因在于数据瓶颈。具体而言，海洋数据高度分散于不同来源，本质上呈现多模态、高噪声和弱标注特性，缺乏统一的数据模式与语义对齐。尽管多模态大语言模型在通用领域已取得显著成功，但由于缺乏针对海洋环境的大规模、高质量多模态数据集，其海洋科学应用仍受到严重制约。为弥补这一空白，我们推出OceanPile——专为海洋基础模型设计的大规模多模态语料库。该语料库包含三个核心组成部分：OceanCorpus整合了声纳数据、水下影像、海洋科学可视化资料及来自多元权威来源的科学文本；OceanInstruction是通过基于分层式海洋概念知识图谱的新型流程合成的高质量指令数据集；OceanBenchmark则是用于严谨评估的人工精编评测基准。我们建立了多阶段质量控制流程以确保跨模态数据的科学有效性与对齐度。实验验证表明，使用本数据训练的模型性能获得显著提升。所有数据集均已公开发布，以推动海洋人工智能领域发展并赋能领域专用多模态大语言模型。

幻觉侵蚀信任；元认知乃破局之道
Hallucinations Undermine Trust; Metacognition is a Way Forward

May 2

ByGal Yona, Mor Geva, Yossi Matias

尽管生成式AI在事实可靠性方面已取得显著进展，但被称为"幻觉"的误差仍是主要隐患——尤其是在大语言模型被寄予厚望应用于更复杂或微妙场景的背景下。即便在最简单的场景中（如存在明确事实基准的简答式问答），未借助外部工具的前沿模型仍会产生幻觉。我们认为，该领域事实性提升主要源于模型知识边界的扩展（编码更多事实），而非边界认知能力的增强（区分已知与未知）。我们推测后者存在固有难度：模型可能缺乏完全区分真理与谬误的判别力，这就在消除幻觉与保持效用之间形成了不可避免的权衡。这种权衡在另一种框架下可迎刃而解。若将幻觉理解为自信型错误——即未经适当限定便输出的错误信息，我们就能在"回答或放弃"的二元选择之外找到第三条路径：表达不确定性。我们提出"可信不确定性"概念，即让语言表达的不确定性与内在不确定性保持一致。这是元认知能力的一个侧面——即感知自身不确定性并据此采取行动的能力。在直接交互场景中，基于不确定性行动意味着如实传递不确定性；对于智能体系统而言，它则成为控制层，决定何时进行信息检索以及信任何种信息。因此，元认知是实现大语言模型可信性与能力兼备的关键；最后我们指出了实现该目标亟待解决的核心问题。

学术之爪：当学生为AI智能体设下挑战
AcademiClaw: When Students Set Challenges for AI Agents

May 4

ByJunjie Yu, Pengrui Lu, Weiye Si, Hongliang Lu, Jiabao Wu, Kaiwen Tao, Kun Wang, Lingyu Yang, Qiran Zhang, Xiuting Guo, Xuanyu Wang, Yang Wang, Yanjie Wang, Yi Yang, Zijian Hu, Ziyi Yang, Zonghan Zhou, Binghao Qiang, Borui Zhang, Chenning Li, Enchang Zhang, Feifan Chen, Feng Jian, Fengyin Sun, Hao Qiu, Hao Zheng, Haoran Zhu, Hongyu Liu, Jianbin Deng, Jiaxin Song, Jiaying Chi, Jiayou Shi, Jie Fang, Jinghui Zhong, Jingyu Zhou, Jinze Li, Junfeng Yi, Junyan Yu, Junzhi Xue, Ni Song, Pengyi Chen, Qi Chen, Quansheng Li, Rui Tao, Shenghai Gong, Shenhang Lu, Tianqi Shen, Tianxiang Zhu, Tiehan Kang, Tingyu Li, Wendi Wu, Xiao Shen, Xiao Zhou, Xiaotao Zhang, Xinrong Li, Xuankun Yang, Xun Zhang, Yan Li, Ye Lu, Yi Wang, Yibo Zhou, Yichi Zhang, Yihao Sun, Yijun Huang, Yixin Zhu, Yixuan Wu, Yuchen Sun, Yue Wu, Yuheng Sun, Yukun Li, Yutian Tu, Yuxuan Qin, Yuzhuo Wu, Zeyu Li, Zhengyu Lou, Zhenning Ran, Zizhu He, Pengfei Liu

截至目前，OpenClaw生态系统内的基准测试仅针对助手级任务进行评估，尚未系统检验其学术级能力。我们推出AcademiClaw——一个包含80项复杂长周期任务的双语基准测试集，这些任务直接源自大学生真实学术场景（包括作业、科研项目、竞赛及个人项目），且现有AI智能体均无法有效解决。通过专家严格评审从230项学生提交的候选任务中遴选而成，最终任务集覆盖25+专业领域，从奥林匹克级数学与语言学问题到GPU密集型强化学习及全栈系统调试，其中16项任务需CUDA GPU环境执行。每项任务在隔离的Docker沙箱中运行，通过融合六种互补技术的多维评分标准进行完成度评估，并辅以独立的五维安全审计提供行为分析。对六大前沿模型的实验表明，即使最优模型也仅达到55%的通过率。深入分析揭示了跨任务领域的显著能力边界、模型间的行为策略差异，以及令牌消耗与输出质量之间的脱节现象，提供了超越聚合指标的细粒度诊断信号。我们希望AcademiClaw及其开源数据与代码能成为OpenClaw社区的重要资源，推动智能体在真实学术需求全谱系中实现更高能力与适应性。所有数据与代码详见https://github.com/GAIR-NLP/AcademiClaw。

ComboStoc：扩散生成模型的组合随机性
ComboStoc: Combinatorial Stochasticity for Diffusion Generative Models

Apr 29

ByRui Xu, Jiepeng Wang, Hao Pan, Yang Liu, Xin Tong, Shiqing Xin, Changhe Tu, Taku Komura, Wenping Wang

本文研究扩散生成模型中一个尚未被充分探索但至关重要的因素——组合复杂性。数据样本通常具有高维特性，而在各类结构化生成任务中，还需将附加属性与数据样本进行组合关联。我们发现，现有扩散生成模型的训练方案可能无法充分覆盖由维度与属性组合构成的空间，这可能会限制模型在测试时的性能表现。针对此问题，我们提出了一种简易解决方案：通过构建能充分利用组合结构的随机过程（故命名为ComboStoc）来实现优化。采用这一简单策略后，我们证实在包括图像和三维结构化形状在内的多种数据模态中，网络训练速度均得到显著提升。此外，ComboStoc还启用了测试时生成的新范式——通过为不同维度和属性分配异步时间步长，从而实现对它们的差异化调控。代码已开源：https://github.com/Xrvitd/ComboStoc

PhysicianBench：在真实世界电子健康档案环境中评估LLM智能体
PhysicianBench: Evaluating LLM Agents in Real-World EHR Environments

May 4

ByRuoqi Liu, Imran Q. Mohiuddin, Austin J. Schoeffler, Kavita Renduchintala, Ashwin Nayak, Prasantha L. Vemu, Shivam C. Vedak, Kameron C. Black, John L. Havlik, Isaac Ogunmola, Stephen P. Ma, Roopa Dhatt, Jonathan H. Chen

我们推出PhysicianBench基准测试，旨在评估基于电子健康记录（EHR）真实临床环境下的LLM智能体执行医生任务的能力。现有医疗智能体基准主要关注静态知识回忆、单步原子操作或缺乏环境可验证执行的动作意图，因而无法捕捉真实临床系统中具有长周期、复合型工作流的特点。PhysicianBench包含100个源自初级保健与专科医生真实会诊案例的长周期任务，每个任务均经由独立医师小组审核。这些任务在搭载真实患者档案的EHR环境中实例化，并通过商用EHR供应商使用的标准API进行访问。任务涵盖21个专科领域（如心脏病学、内分泌学、肿瘤学、精神病学）及多样化工作流类型（如诊断解读、药物开具、治疗规划），平均每个任务需调用27次工具。解决每个任务需要跨就诊记录检索数据、对异构临床信息进行推理、执行具有临床影响的行动并生成临床文档。所有任务被分解为结构化检查点（基准测试共670个），通过任务特定脚本进行执行验证评分，以捕捉不同完成阶段。在13个专有及开源LLM智能体的测试中，表现最佳模型的成功率（pass@1）仅为46%，而开源模型最高仅达19%，这揭示了当前智能体能力与真实临床工作流需求之间的显著差距。PhysicianBench为衡量自主临床智能体的进展提供了真实且基于执行验证的基准测试。

T^2PO：基于不确定性引导探索控制的稳定多轮智能体强化学习
T^2PO: Uncertainty-Guided Exploration Control for Stable Multi-Turn Agentic Reinforcement Learning

May 4

ByHaixin Wang, Hejie Cui, Chenwei Zhang, Xin Liu, Shuowei Jin, Shijie Geng, Xinyang Zhang, Nasser Zalmout, Zhenyu Shi, Yizhou Sun

近期，多轮强化学习的进展显著提升了推理大语言模型在复杂交互任务中的表现。尽管通过细粒度信用分配和轨迹过滤等稳定化技术取得了进步，训练不稳定性仍普遍存在，并常导致训练崩溃。我们认为这种不稳定源于多轮场景下的低效探索——策略持续生成低信息量行动，既未能减少不确定性又无助于任务推进。为此，我们提出基于令牌与轮次的双层级策略优化框架（T²PO），该不确定性感知框架可在细粒度层面显式控制探索过程。在令牌层级，T²PO监测不确定性动态变化，当边际不确定性变化低于阈值时触发思考干预；在轮次层级，系统识别探索进展可忽略的交互回合，动态重采样以避免无效推演。我们在WebShop、ALFWorld和Search QA等多样化环境中评估T²PO，结果表明该框架通过提升探索效率，在训练稳定性和性能表现上均取得实质性突破。代码已开源：https://github.com/WillDreamer/T2PO。

跨文档检索增强生成的分层摘要树
Hierarchical Abstract Tree for Cross-Document Retrieval-Augmented Generation

May 1

ByZiwen Zhao, Menglin Yang

检索增强生成（RAG）通过外部知识增强大语言模型能力，基于树结构的RAG将文档组织为层次化索引以支持多粒度查询。然而，现有面向单文档检索的树状RAG方法在扩展至跨文档多跳问答时面临关键挑战：（1）分布适应性差，k均值聚类因刚性分布假设引入噪声；（2）结构孤立性，树状索引缺乏显式跨文档关联；（3）抽象粒度粗糙，模糊细粒度细节。为解决这些局限，我们提出Ψ-RAG框架，其核心包含两个组件：首先是通过迭代式"合并-坍缩"构建的分层抽象树索引，无需先验假设即可自适应数据分布；其次是多粒度检索代理，能通过重组查询和代理驱动的混合检索器与知识库智能交互。Ψ-RAG支持从词元级问答到文档级摘要的多样化任务。在跨文档多跳问答基准测试中，其平均F1分数较RAPTOR提升25.9%，较HippoRAG 2提升7.4%。代码详见https://github.com/Newiz430/Psi-RAG。

智能体AI系统应设计为边际代币分配器
Agentic AI Systems Should Be Designed as Marginal Token Allocators

May 2

BySiqi Zhu

本立场文件主张，代理式人工智能系统应被设计和评估为边际令牌分配经济体，而非按单位定价的文本生成器。我们以单个请求——开发者要求编程代理修复失败测试——为线索，贯穿当今被孤立设计的四个经济层级：决定由哪个模型应答的路由器、决定是否规划/执行/验证或转交的代理、决定如何生成每个令牌的服务栈，以及判断追踪记录是否值得学习的训练流程。我们证明这四个层级都在用不同的指标集和价格解决同一一阶条件——边际收益等于边际成本加延迟成本加风险成本。这一框架刻意保持极简：我们并未提出完整的AI经济学理论。但采用边际令牌分配作为共享核算对象，既能解释为何局部最小化令牌的系统会导致全局误配，又能预测一小类反复出现的故障模式（过度路由、过度委托、验证不足、服务拥堵、陈旧部署、缓存误用），并为令牌感知评估、自主性定价、拥堵定价服务、风险调整的强化学习预算等具体研究方向指明路径。

感知流网络在视觉推理中的应用
Perceptual Flow Network for Visually Grounded Reasoning

May 4

ByYangfu Li, Yuning Gong, Hongjian Zhan, Teng Li, Yuanhuiyi Lyu, Tianyi Chen, Qi Liu, Ziyuan Huang, Zhihang Zhong, Dandan Zheng, Yue Lu

尽管大型视觉语言模型（LVLMs）已取得显著成果，但通用优化目标（如标准MLE）难以约束视觉轨迹，导致语言偏差与幻觉问题。现有方法通过引入视觉专家的几何先验作为额外监督来缓解此问题，但我们发现此类监督通常存在次优性：其偏向几何精度而推理效用有限。为弥补这一差距，我们提出感知流网络（PFlowNet），该网络摒弃与专家先验的刚性对齐，实现可解释且更高效的视觉推理。具体而言，PFlowNet通过感知与推理的解耦建立自条件生成过程，并基于变分强化学习将多维奖励与邻近几何塑形相结合，从而在保持视觉可靠性的同时促进面向推理的感知行为。PFlowNet具备可证明的性能保证与极具竞争力的实证结果，尤其在V* Bench（90.6%）和MME-RealWorld-lite（67.0%）基准上刷新了当前最优性能纪录。

HiL-Bench（人机协同基准测试）：智能体是否懂得适时求助？
HiL-Bench (Human-in-Loop Benchmark): Do Agents Know When to Ask for Help?

Apr 29

ByMohamed Elfeki, Tu Trinh, Kelvin Luu, Guangze Luo, Nathan Hunt, Ernesto Montoya, Nandan Marwaha, Yannis He, Charles Wang, Fernando Crabedo, Alessa Castilo, Bing Liu

前沿编码智能体在获得完整上下文时能解决复杂任务，但在规范不完整或模糊时就会失效。瓶颈并非原始能力，而是判断力：即知道何时自主行动、何时需要求助。现有基准测试对这种失效模式视而不见——它们提供明确详尽的指令，且仅以执行正确性作为评判标准，导致对缺失要求进行侥幸猜对的智能体，与那些会主动求证以确保准确的智能体获得相同评分。我们推出HiL-Bench（人机回环基准测试）来衡量这种选择性升级决策能力。每个任务均包含经人工验证的阻碍因素（信息缺失、模糊请求、矛盾信息），这些因素仅能通过渐进式探索而非前期检查来发现。我们的核心指标Ask-F1（提问精确率与阻碍因素召回率的调和平均数）捕捉了过度提问与沉默猜测之间的矛盾关系；其结构设计从机制上防止了通过问题轰炸来刷分的漏洞。在软件工程和文本转SQL领域的评估揭示了普遍存在的判断力鸿沟：当前所有前沿模型在自主决定是否求助时，其表现均未能达到全信息情境下性能的一小部分。故障分析识别出三种关键求助模式：过度自信的错误判断且无差距感知；高不确定性感知却持续出错；宽泛而不精确的升级请求且缺乏自我修正。这些一致性模式证实了拙劣的求助行为是模型层面的缺陷，而非特定任务导致。基于Ask-F1奖励函数的强化学习训练表明判断力具有可塑性：一个320亿参数模型在提升求助质量的同时也提高了任务通过率，且这种增益具有跨领域迁移性。该模型并未学习何时提问的领域特定启发式规则，而是学会了检测不可化解的不确定性并据此行动。

代码世界模型战备状态报告
Code World Model Preparedness Report

May 1

ByDaniel Song, Peter Ney, Cristina Menghini, Faizan Ahmad, Aidan Boyd, Nathaniel Li, Ziwen Han, Jean-Christophe Testud, Saisuke Okabayashi, Maeve Ryan, Jinpeng Miao, Hamza Kwisaba, Felix Binder, Spencer Whitman, Jim Gust, Esteban Arcaute, Dhaval Kapil, Jacob Kahn, Ayaz Minhas, Tristan Goodman, Lauren Deason, Alexander Vaughan, Shengjia Zhao, Summer Yue

本报告记录了针对代码生成与代码推理模型Code World Model（CWM）的预备性评估。该模型由Meta公司开发，我们根据前沿人工智能框架中界定的可能引发灾难性风险的领域进行了预发布测试，并评估了模型的错位倾向。评估结果表明，CWM并未在当前AI生态系统既有风险之外产生额外的前沿风险。因此，我们决定以开放权重模型的形式发布该模型。

语言模型可靠性的最小化探针：计数能力
Counting as a minimal probe of language model reliability

May 3

ByTianxiang Dai, Jonathan Fan

大型语言模型在数学推理、编程和文档分析等基准测试中表现优异，显示出其遵循指令的广泛能力。然而，这种成功究竟反映的是普遍逻辑能力、对习得程序的重复应用，还是模仿规则执行的模式匹配，目前尚不明确。我们通过引入稳定计数能力这一测定方法展开研究：该测试要求模型持续统计重复符号直至失效。该测定消除了评估中的知识依赖、语义歧义，规避了词汇和分词干扰，为标准知识基准之外的程序可靠性提供了直接度量。通过对超过100个模型变体的测试发现，稳定计数能力远低于宣传的上下文限制上限。模型行为既不符合开放式逻辑特征，也非稳定应用习得规则，而是表现为使用有限数量的类计数内部状态——类似于扳手指计数。一旦该资源耗尽，规则遵循的表象便会消失，精确执行将退化为随机猜测，即使增加测试时计算资源也无济于事。这些发现表明，当前语言模型的流畅表现并不能保证其具有普遍、可靠的规则遵循能力。

无需显式注意力的线性时间全局视觉建模
Linear-Time Global Visual Modeling without Explicit Attention

May 3

ByRuize He, Dongchen Han, Gao Huang

现有研究普遍将Transformer的全局序列建模能力归因于注意力权重的显式计算，这一过程本质上具有二次计算复杂度。本文提出全新视角：我们证明注意力机制可通过数学重构转化为具备动态参数预测能力的多层感知机（MLP）。基于此框架，我们将注意力的全局建模能力解释为动态生成参数对全局上下文进行压缩表征的隐式过程，而非传统的显式token聚合机制。受此启发，我们探究了一个根本性问题：能否完全通过动态参数化实现Transformer级别的序列全局建模，同时保持线性复杂度以替代显式注意力？为此，我们设计了多种动态参数预测策略并将其融入标准网络层。在视觉模型上的大量实验表明，动态参数化确实能成为显式注意力的高效线性复杂度替代方案，为高效序列建模开辟了新路径。代码已开源：https://github.com/LeapLabTHU/WeightFormer。

基于轨道空间粒子流匹配的生成建模
Generative Modeling with Orbit-Space Particle Flow Matching

May 4

BySinan Wang, Jinjin He, Shenyifan Lu, Ruicheng Wang, Greg Turk, Bo Zhu

我们提出轨道空间几何概率路径（OGPP），一种面向粒子系统的原生粒子流匹配生成建模框架。OGPP的设计基于两个关键发现：（i）粒子具有置换对称性，匿名索引会放大单索引目标方差并产生弯曲难学的流；（ii）粒子存在于物理空间，其流终止速度具有物理意义并能编码几何属性（如表面法向量）。OGPP实现了三大核心组件：（1）概率路径终点的轨道空间规范化；（2）实现角色专一化的粒子索引嵌入；（3）具备弧长感知终止速度的几何概率路径，可同步生成法向量作为流计算的副产品。我们在极小曲面基准测试中验证OGPP，单步推理即可将度量误差降低两个数量级；在ShapeNet数据集上，仅用五分之一步数达到业界最优水平，并以26倍更少参数和5倍更少步数实现与DiT-3D相当的飞机点云EMD指标；在单形状编码任务中，完全基于三维运算生成的法向量与重建效果可与6D生成器相媲美。

面向表格基础模型的前置对齐数据清洗
Prior-Aligned Data Cleaning for Tabular Foundation Models

Apr 28

ByLaure Berti-Equille

表格基础模型（TFMs）通过对合成数据生成过程进行元学习，在小型表格数据集上实现了最先进的零样本准确率——这对于无法承担大规模标注数据的实践者极具吸引力。然而，其上下文学习机制假设输入数据大致洁净：现实数据中的缺失值、异常值和重复记录会导致先验分布不匹配，同时降低模型准确率与置信度校准效果。修正这种不匹配需要对数据清洗操作符进行序列决策，而操作符间的相互作用无法通过静态预处理规则预判——这恰好与强化学习（RL）天然契合。我们提出L2C2，首个将表格数据清洗框架化为先验对齐的深度强化学习方法：智能体通过学习策略序列化操作符，以最小化脏数据输入与TFM合成先验之间的分布差异。在十个OpenML基准数据集上的六组实验表明：1）七种奖励设计中有三种会退化为无效清洗策略——科学的奖励函数设计具有重要研究意义；2）我们提出的新型TFMAwareReward奖励在4/10数据集上选择了结构迥异的清洗流程，并在这些分歧案例中获得了更高的TabPFN准确率（均值0.851 vs 0.843；Wilcoxon p=0.063, n=4），且从未出现性能下降；3）参数化清洗操作在9/10数据集上提升了最优流程奖励（Wilcoxon p=0.004）；4）在单一源数据集上预训练的策略，于三个保留数据集上的2000步微调检查点均超越从头训练（完整微调后最高提升28.8%），证明了先验对齐知识具备跨数据集迁移能力。这些发现确立了先验对齐作为TFM在现实表格数据部署中的科学数据预处理策略。

运动感知缓存技术助力高效自回归视频生成
Motion-Aware Caching for Efficient Autoregressive Video Generation

May 3

ByJing Xu, Yuexiao Ma, Songwei Liu, Xuzhe Zheng, Shiwei Liu, Chenqian Yan, Xiawu Zheng, Rongrong Ji, Fei Chao, Xing Wang

自回归视频生成范式在理论上具备长视频合成的潜力，但其实际应用受限于序列迭代去噪的计算负担。虽然缓存复用策略可通过跳过冗余去噪步骤加速生成，但现有方法依赖粗粒度的片段级跳过机制，难以捕捉细粒度的像素动态。这一疏漏至关重要：高运动像素需更多去噪步骤以防止误差累积，而静态像素则可承受激进跳过。我们通过理论分析将缓存误差与残差不稳定性相关联，并提出MotionCache——一种利用帧间差异作为像素级运动特征轻量代理的运动感知缓存框架。该框架采用由粗到精的策略：初始预热阶段建立语义连贯性，随后通过运动加权的缓存复用动态调整各标记的更新频率。在SkyReels-V2和MAGI-1等前沿模型上的实验表明，MotionCache分别实现了6.28倍和1.64倍的显著加速，同时有效保持生成质量（VBench指标仅下降1%和0.01%）。代码已开源：https://github.com/ywlq/MotionCache。

评估胰腺导管腺癌血管侵犯：PDACVI基准研究
Assessing Pancreatic Ductal Adenocarcinoma Vascular Invasion: the PDACVI Benchmark

Apr 30

ByM. Riera-Marín, O. K. Sikha, J. Rodríguez-Comas, M. S. May, T. Kirscher, X. Coubez, P. Meyer, S. Faisan, Z. Pan, X. Zhou, X. Liang, C. Hémon, V. Boussot, J. -L. Dillenseger, J. -C. Nunes, K. -C. Kahl, C. Lüth, J. Traub, P. -H. Conze, M. M. Duh, A. Aubanell, R. de Figueiredo Cardoso, S. Egger-Hackenschmidt, J. García-López, M. A. González-Ballester, A. Galdran

胰腺导管腺癌（PDAC）的手术切除仍是目前唯一可能实现根治的治疗手段，其手术适应症取决于对血管侵犯（VI）的精准评估，即肿瘤是否侵犯邻近关键血管。尽管VI评估对术前分期和手术规划至关重要，但其计算化评估研究仍处于探索不足的状态。这主要面临两大挑战：公开数据集的匮乏以及肿瘤-血管界面存在的诊断模糊性，即使资深影像专家之间也存在显著的判读差异。为突破这些局限，我们推出CURVAS-PDACVI数据集与挑战赛——一个基于密集标注数据集（每例扫描包含五位专家独立标注）的开放式不确定性感知人工智能基准平台，专注于PDAC分期研究。同时我们提出超越空间重叠度的多维度评估框架，涵盖概率校准与VI评估功能。对六种前沿方法的评估表明，优异的整体体积重叠度未必能转化为临床关键肿瘤-血管界面的可靠性能。特别是针对二值分割优化的方法虽在平均重叠度指标上表现良好，但在专家共识度低的高复杂度病例中往往性能下降，出现体积坍缩或边界过度扩展等问题。相比之下，能模拟专家间分歧的方法可生成更优校准的概率图谱，并在这些模糊病例中展现出更强鲁棒性。该基准揭示了将体积精度作为局部手术适用性代理指标的局限性，为推动不确定性感知概率模型应用于术前决策提供了新方向。

BlenderRAG：基于检索增强代码合成的高保真三维物体生成
BlenderRAG: High-Fidelity 3D Object Generation via Retrieval-Augmented Code Synthesis

May 1

ByMassimo Rondelli, Francesco Pivi, Maurizio Gabbrielli

从自然语言自动生成可执行的Blender代码仍具挑战性，当前最先进的大语言模型常出现语法错误和几何结构不一致的问题。我们提出BlenderRAG，这是一个基于检索增强生成技术的系统，其运作依托于包含50个物体类别、500个经专家验证的多模态样本（文本、代码、图像）的精选数据集。通过在生成过程中检索语义相似的样本，BlenderRAG在四种前沿大语言模型上实现了编译成功率从40.8%提升至70.0%，语义标准化对齐度（CLIP相似度）从0.41提高至0.77。该系统无需微调或专用硬件即可部署，具有即插即用的优势。数据集与代码将在https://github.com/MaxRondelli/BlenderRAG 开源。

通过俳句式表达连接空间生物学与临床组织学
Linking spatial biology and clinical histology via Haiku

Apr 30

ByYan Cui, Jacob S. Leiby, Wenhui Lei, Dokyoon Kim, Yanxiang Deng, Aaron T. Mayer, Zhenqin Wu, Alexandro E. Trevino, Zhi Huang

整合分子、形态学与临床数据对基础与转化生物医学研究至关重要，但目前仍缺乏系统性的多模态联合建模框架。本文提出Haiku——一种基于多重免疫荧光（mIF）训练的三模态对比学习模型。该模型整合了来自1,606名患者、涵盖11种器官类型的3,218个组织切片，包含2,670万个空间蛋白质组学图像块，并与苏木精-伊红（H&E）染色组织学图像及临床元数据共同嵌入共享表征空间。Haiku支持三向跨模态检索，在下游分类与临床预测任务中表现优于单模态基线，还能通过仅基于临床文本描述的融合检索实现零样本生物标志物推断。在多项任务中，Haiku均超越现有方法：跨模态检索（Recall@50达0.611，基线接近零）、生存预测（C指数0.737，相对提升7.91%）及零样本生物标志物推断（52种生物标志物的平均皮尔逊相关系数为0.718）。此外，我们引入反事实预测框架，在固定组织形态的前提下仅修改临床元数据，可揭示与乳腺癌分期进展和肺癌生存结局相关的微环境特异性分子变化。在肺腺癌案例研究中，反事实分析捕捉到以CD8和颗粒酶B升高、PD-L1降低及Ki67减少为特征的微环境变化模式，该模式与既往报道的良性预后特征高度吻合。需要说明的是，这些反事实结果应视为探索性的假设生成信号，而非机制性结论。Haiku的三模态对齐能力实现了空间生物学的整合分析，为在临床背景下探索分子测量数据搭建了桥梁。

游戏引擎合成数据集中模拟到真实外观差距闭合的混合方法
A Hybrid Approach for Closing the Sim2real Appearance Gap in Game Engine Synthetic Datasets

May 4

ByStefanos Pasios

视频游戏引擎已成为生成大规模视觉合成数据集的重要来源，用于训练和评估将部署于现实世界的计算机视觉算法。尽管现代游戏引擎通过光线追踪等技术显著提升了视觉保真度，但合成图像与现实图像之间仍存在显著的模拟到真实（sim2real）外观差异，这限制了合成数据集在现实应用中的利用率。本文研究了一种前沿的图像生成与编辑扩散模型（FLUX.2-4B Klein）在增强合成数据集照片真实感方面的能力，并将其性能与传统图像转换模型（REGEN）进行对比。此外，我们提出一种混合方法，将基于扩散方法的几何与材质变换优势与图像转换技术的分布匹配能力相结合。实验表明，REGEN模型优于FLUX.2-4B Klein模型，且通过结合两种模型，可在保持语义一致性的同时，获得比单独使用任一模型更优的视觉真实感。代码已开源：https://github.com/stefanos50/Hybrid-Sim2Real

学术之爪：当学生为AI智能体设下挑战
AcademiClaw: When Students Set Challenges for AI Agents

May 4