HuggingFace Daily Papers

每日论文

每日精选AI研究论文及翻译

选择日期

34 papers found

Moebius：0.2B轻量级图像修复框架，具备10B级性能
Moebius: 0.2B Lightweight Image Inpainting Framework with 10B-Level Performance

Jun 17

ByKangsheng Duan, Ziyang Xu, Wenyu Liu, Xiaohu Ruan, Xiaoxin Chen, Xinggang Wang

117

尽管10B级别的工业基础模型在图像修复领域取得了突破性进展，但其高昂的计算成本严重阻碍了实际部署。构建高度优化的任务专用模型是一种有前景的解决方案，然而极端结构压缩不可避免地会引发严重的表征瓶颈。为攻克这一难题，我们提出了Moebius——一个高效轻量化的修复框架。我们通过引入局部-λ混合交互（LλMI）模块，系统地重构了扩散模型的主干网络。该模块由Local-λ和Interactive-λ子模块组成，能将空间上下文和全局语义先验优雅地归纳为固定大小的线性矩阵，在大幅削减参数的同时保留复杂的潜在交互。此外，为充分释放这一高度紧凑架构的表征能力，我们将其与自适应多粒度蒸馏策略协同配对。该策略严格在潜在空间内运行（避免昂贵的像素级解码），通过动态平衡多种基于梯度的损失来实现高保真对齐。在自然图像和人像基准上的大量实验表明，这种最优协同使Moebius能够媲美甚至超越10B级别工业通用模型FLUX.1-Fill-Dev的生成质量。值得注意的是，Moebius仅使用前者不到2%的参数（0.22B对比11.9B），同时实现总推理时间超过15倍的加速，为高保真修复设立了新的效率标准。项目主页：https://hustvl.github.io/Moebius。

DragMesh-2: 物理可信的灵巧手与铰接物体交互
DragMesh-2: Physically Plausible Dexterous Hand-Object Interaction with Articulated Objects

Jun 13

ByTianshan Zhang, Yijia Duan, Yanjun Li, Zeyu Zhang, Hao Tang

与铰接物体的灵巧交互在家庭、辅助和人形机器人操作中具有重要意义，其中多指手能够提供超越平行夹爪抓取的柔性接触模式。然而，铰接物体操作与静态物体操作存在本质差异：目标部件无法直接驱动，其运动必须通过持续的手柄-物体接触实现。这使得从以物体为中心的铰接运动生成过渡到以手驱动的灵巧手-物体交互变得困难，因为几何轨迹重放或开环执行无法建模驱动铰接部件所需的接触动力学。此外，仅在固定动力学下为任务完成而训练的策略可能过度拟合标称接触载荷，尤其在缺乏触觉或力反馈的情况下，当接触载荷变化时性能会下降。为解决这些挑战，我们提出DragMesh-2，一种面向铰接物体灵巧交互的接触驱动框架，将铰接交互从以物体为中心的运动生成扩展到以手驱动的灵巧手-物体交互，其中铰接运动必须通过物理接触产生。我们进一步提出PICA，一种物理信息感知的接触感知训练机制，在无触觉或力反馈的条件下将物理信号注入策略学习，从而提升接触载荷变化时的鲁棒性和任务成功率。最后，我们针对多种阻尼条件和铰接物体类别开展系统性评估，研究接触载荷变化下的鲁棒性，并提供纯几何的灵巧交互资源以支持未来的移动操作和人形手-物体交互研究。在七个GAPartNet物体上，DragMesh-2在接触载荷变化下比对比方法展现出更强的鲁棒性，同时在不同阻尼条件下保持高任务成功率。

Multi-LCB：将LiveCodeBench扩展到多种编程语言
Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages

Jun 18

ByMaria Ivanova, Pavel Zadorozhny, Rodion Levichev, Ivan Petrov, Adamenko Pavel, Ivan Lopatin, Alexey Kutalev, Dmitrii Babaev

LiveCodeBench (LCB) 近年来已成为评估大语言模型（LLM）代码生成能力的广泛采用基准。通过精选编程竞赛题目、持续向题库补充新题并按发布时间筛选，LCB 实现了防污染评估，并提供了编程能力的整体视图。然而，LCB 仍局限于 Python 语言，未能解答 LLM 能否泛化至实际软件工程中所需多种编程语言的问题。我们提出 Multi-LCB 基准，用于评估 LLM 在包括 Python 在内的十二种编程语言上的表现。Multi-LCB 将 LCB 数据集中的 Python 任务转化为其他语言中的等价任务，同时保留 LCB 的防污染机制与评估协议。由于与原始 LCB 格式完全兼容，Multi-LCB 将自动追踪 LCB 后续更新，实现跨语言代码生成能力的系统性评估，要求模型在 Python 之外仍能维持同等性能。我们在 Multi-LCB 上评估了 24 个面向指令与推理的 LLM，发现了 Python 过拟合、特定语言污染以及多语言性能显著差异的证据。实验结果确立了 Multi-LCB 作为多编程语言代码评估领域严格新基准的地位，直接弥补了 LCB 的主要局限，并揭示了当前 LLM 能力中的关键短板。

趣味性自主机器人学习
Playful Agentic Robot Learning

Jun 17

ByJunyi Zhang, Jiaxin Ge, Hanjun Yoo, Letian Fu, Zihan Yang, Yaowei Liu, Raj Saravanan, Shaofeng Yin, Justin Yu, Dantong Niu, Zirui Wang, Roei Herzig, Ken Goldberg, Yutong Bai, David M. Chan, Ion Stoica, Angjoo Kanazawa, Jiahui Lei, Haiwen Feng, Trevor Darrell

当前自主机器人系统能够编写可执行的“代码即策略”程序、观察反馈信息并在多次尝试中修正行为，但这些系统仍以任务驱动为主：只有在明确指令下达后，才能习得可复用的技能。我们研究了一种名为“玩耍式自主机器人学习”的方法，其中具身编码智能体将自我引导的“玩耍”作为下游任务到来之前的持续技能学习阶段。我们提出了RATs（机器人智能体团队），专为玩耍式技能习得而设计。在玩耍过程中，RATs会提出新颖且可学习的探索性任务，规划并执行机器人代码策略，验证中间进展，诊断失败原因，利用密集的步骤级反馈进行重试，并将成功执行的过程提炼为持久化的代码技能库。在测试阶段，智能体从该冻结库中复用相关技能，以帮助解决新任务。在LIBERO-PRO和MolmoSpaces上的实验表明，与无玩耍和随机玩耍基线相比，通过玩耍习得的技能在留出下游任务上分别提升了20.6和17.0个百分点（相较于CaP-Agent0）。此外，这些习得的技能只需通过检索放入上下文，即可嵌入其他推理阶段的“代码即策略”智能体中，在不微调底层模型的情况下，分别使RoboSuite和真实世界迁移任务的性能提升了8.9和8.8个百分点。

S-Agent: 空间工具使用激发推理以提升空间智能
S-Agent: Spatial Tool-Use Elicits Reasoning for Spatial Intelligence

Jun 18

ByYalun Dai, Hao Li, Shulin Tian, Runmao Yao, Yuhao Dong, Fangzhou Hong, Zhaoxi Chen, Fangfu Liu, Baoliang Tian, Dingwen Zhang, Tao Wang, Kim-Hui Yap, Ziwei Liu

现实世界中的空间智能需要对连续且不断演化的3D世界进行推理，但现有的视觉语言模型（VLM）和工具增强代理大多仍局限于从孤立视觉观察中进行静态、无状态的推断。我们提出\textsc{S-Agent}——一种空间工具使用代理范式，用于理解和推理连续的多视角图像与视频。通过将空间推理重新定义为时空证据累积而非孤立的帧级预测，S-Agent将空间感知从以帧为中心的识别重塑为以场景为中心的理解。具体而言，S-Agent将VLM视为语义规划器，决定需要何种证据；同时，层次化的空间工具与专家将物体在2D中定位、提升至3D几何证据，并聚合成高层空间知识（如计数、测量、朝向和相对位置）。此外，时间记忆机制（包括用于维护场景演化状态的场景记忆和用于累积推理上下文的代理记忆）实现了跨帧和跨推理步骤的证据整合。在多视角与视频空间推理基准上的全面实验表明，S-Agent能以无需训练的方式持续提升开源与闭源VLM的性能。除了推理时增强外，在S-Agent生成的空间轨迹数据集S-300K上进行监督微调（SFT）所得的紧凑型空间代理S-Agent-8B，显著超越同规模基线（如Qwen3-VL-8B），性能与先进闭源模型（如GPT-5.4和Gemini 3）相当。

超越静态排行榜：LLM代理评估中的预测效度
Beyond Static Leaderboards: Predictive Validity for the Evaluation of LLM Agents

Jun 18

ByDhaval C. Patel, Kaoutar El Maghraoui, Shuxin Lin, Yusheng Li, Tianjun Feng, Chun-Yi Tsai, Yihan Sun, Wei Alexander Xin, Akshat Bhandari, Tanisha Rathod, Aaron Fan, Sanskruti Vijay Shejwal, Tomas Pasiecznik, Sagar Chethan Kumar, Tanmay Agarwal, Rohith Kanathur, Sam Colman, Amaan Sheikh, Dev Bahl, Ann Li, Krish Veera, Alimurtaza Mustafa Merchant, Shambhawi Baswaraj Bhure, Sajal Kumar Goyla, Chengrui Li, Kirthana Natarajan, Rui Li, Thomas Ajai, Rujing Li, Vivek G. Iyer, Sanjaii Vijayakumar, Yitong Bai, Ayal Yakobe, Darief Maes, Yassine Jebbouri, Tianyang Xu, Thai Quoc On, Vera Mazeeva, Winston Li, Yuval Shemla, Yeshitha Bhuvanesh, Rushin Bhatt, Siddharth Chethan Gowda, Alisha Vinod, Caroline Cahill, Shriya Aishani Rachakonda, Yunfeng Chen, Aryaman Agrawal, Aman Upganlawar, Mao Le Jonathan Ang, Yubin Sally Go, Madhav Rajkondawar, Yang-Jung Chen, Trisha Maturi, Ananya Kapoor, Andrew Li, Shrey Arora, Mana Abbaszadeh, Shen Li, Charles Xu, Byeolah Kwon

智能体基准测试发展迅速，但尚无单一基准能覆盖部署场景所暴露出的四至五个维度。本文汇集了迄今规模最大的基于MCP的工业级智能体基准协同深度研究：涵盖新资产类别（包括多模态视觉扩展）、替代编排方案、检索策略、推理模式、基础设施优化及评估方法论探索等十四个并行实现研究。通过整合这些研究及七个既往智能体基准，我们论证总分排行榜系统性地低估了已部署智能体的评估需求——总分排名无法迁移至分布外场景，近期公开-隐藏测试回顾研究为此排名不稳定性提供了直接实证证据。我们提出以预测效度（样本内与样本外排名的相关性）而非样本内均值作为配置排序标准，并建立十二级测量体系，揭示HELM及其后智能体时代评估框架所忽略的部署相关维度。该立场通过三项具有明确阈值的可证伪分布外标准实现操作化：现有证据虽部分支持但尚显薄弱。最后我们提出预注册试点设计方案及下一代智能体基准应报告内容的领域愿景。

DF3DV-1K: 面向无干扰新视角合成的大规模数据集与基准
DF3DV-1K: A Large-Scale Dataset and Benchmark for Distractor-Free Novel View Synthesis

Jun 18

ByCheng-You Lu, Yi-Shan Hung, Wei-Ling Chi, Hao-Ping Wang, Charlie Li-Ting Tsai, Yu-Cheng Chang, Yu-Lun Liu, Thomas Do, Chin-Teng Lin

辐射场技术的进步推动了照片级真实感的新视角合成。在多个领域中，已有大规模真实世界数据集被开发出来，以支持全面的基准测试并促进超越场景特定重建的进展。然而，对于无干扰辐射场，目前仍缺乏一个包含每场景清晰与杂乱图像的大规模数据集，这限制了相关发展。为填补这一空白，我们提出DF3DV-1K，这是一个大规模真实世界数据集，包含1,048个场景，每个场景均提供清晰和杂乱的图像集以用于基准测试。该数据集总共包含89,924张图像，使用消费级相机模拟随意拍摄方式采集，涵盖128种干扰物类型和161种场景主题，覆盖室内和室外环境。其中精心挑选的41个场景子集DF3DV-41，系统设计用于评估无干扰辐射场方法在具有挑战性场景下的鲁棒性。利用DF3DV-1K，我们对九种最新的无干扰辐射场方法和3D高斯溅射进行了基准测试，识别出最鲁棒的方法和最具挑战性的场景。除基准测试外，我们还展示了DF3DV-1K的一个应用：通过微调基于扩散的2D增强器来改进辐射场方法，在保留集（如DF3DV-41）和On-the-go数据集上实现了平均0.96 dB PSNR和0.057 LPIPS的提升。我们希望DF3DV-1K能促进无干扰视觉的发展，并推动超越场景特定方法的进步。数据集和排行榜可在https://johnnylu305.github.io/df3dv1k_web/获取。

FreeStyle: 从社区LoRA挖掘中实现风格-内容双参考生成的自由控制
FreeStyle: Free Control of Style-Content Dual-Reference Generation from Community LoRA Mining

Jun 18

ByJinghong Lan, Wei Cheng, Yunuo Chen, Ziqi Ye, Peng Xing, Yixiao Fang, Rui Wang, Yufeng Yang, Xuanyang Zhang, Xianfang Zeng, Difan Zou, Gang Yu, Chi Zhang

风格-内容双参考生成旨在合成一张图像，该图像保留内容参考图像的结构与语义，同时采纳独立风格参考图像的风格。尽管近期取得进展，这一设定仍具挑战性，因为模型需在内容保真度、风格对齐和指令遵循之间取得平衡，同时避免从风格参考图像中产生语义泄漏。一个关键瓶颈是缺乏大规模、具有干净内容-风格分离以及广泛长尾风格覆盖的三元组数据。本研究提出FreeStyle，一种基于社区LoRA挖掘的可扩展双参考生成框架。我们将社区LoRA视为风格与内容的组合锚点，并设计严格的生成与过滤流程，以构建跨多个基础模型的大规模风格参考与内容参考三元组。为解决内容泄漏问题，我们采用两阶段课程学习，并引入各阶段特有的解耦机制：在风格迁移阶段，通过注意力级富集约束抑制风格参考泄漏；在难度更高的双参考阶段，采用频率感知的RoPE调制策略，针对基于位置对应的泄漏。我们还引入了一个涵盖风格参考与双参考生成的基准测试，从风格相似度、内容保持度、美学质量、指令遵循度和泄漏抑制度等方面进行评估。该基准包含风格不变的内容对齐分数（CAS），并引入基于校准视觉语言模型（VLM）的拒绝分数，以评估生成可靠性与泄漏抑制效果。大量实验表明，我们的模型在风格对齐、内容保持和泄漏抑制之间实现了强力平衡。

FlowBender：面向自纠错条件流的反馈感知训练
FlowBender: Feedback-Aware Training for Self-Correcting Conditional Flows

Jun 18

ByDaniel Gilo, Sven Elflein, Ido Sobol, Or Litany

条件扩散模型和流模型常常无法满足其任务所定义的约束条件。例如，一个深度条件模型生成的图像，其重新提取的深度往往与输入不一致——尽管定义约束条件的前向算子（即深度预测器）在训练和推理阶段均可获取。现有方法通常分为两类：一类将条件信号视为静态线索的监督模型（在推理时忽略对齐信息），另一类通过手动调参的线性更新查询条件信号的引导类方法（通常以牺牲生成样本的合理性为代价来换取条件保真度）。我们认为两种范式的根本缺陷在于：模型从未被训练利用自身的对齐误差。为此，我们提出闭环框架FlowBender，将此类误差作为一等输入，训练网络学习依赖推理时反馈的修正策略。在每一步中，无引导的前瞻性传递首先估计干净信号，通过前向算子计算任务特定偏差，随后修正传递利用此信号生成校正后的速度场。我们提出FlowBender的多种变体，包括面向可微算子的梯度公式，以及面向不可微场景（如JPEG压缩）的零阶变体。为提升采样效率，我们引入前步快捷方式，使闭环校正仅需极低额外计算成本。在图像到图像翻译、图像复原以及3D网格纹理任务中，FlowBender一致优于标准监督基线、对齐损失增强训练及最先进的推理时引导方法，同时提升保真度与合理性，而非在两者间进行权衡。项目页面：https://flow-bender.github.io/

JanusMesh: 通过跨空间去噪实现快速零样本3D视觉幻觉生成
JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising

Jun 18

BySiang-Ling Zhang, Huai-Hsun Cheng, Tsung-Ju Yang, Yu-Lun Liu

创建3D视觉幻觉——即单个3D网格从不同视角呈现截然不同的语义——是一项迷人且极具挑战的任务。现有基于优化的方法速度缓慢，且容易产生过饱和的色彩。相比之下，简单的拼接方法无法生成几何一致的物体，导致出现明显不自然的接缝和语义泄露。本文提出一种快速且无需训练的文本驱动3D视觉幻觉生成框架。我们的方法将生成过程解耦为两个阶段。首先，我们提出跨空间双分支去噪过程：该过程动态地将3D潜在特征解码到体素空间中，用于CLIP引导的方向对齐和符号距离场融合，从而确保无缝的几何融合。其次，我们引入视角条件纹理合成模块，将各视角特定的2D扩散先验投影并聚合到融合后的几何结构上。大量实验表明，我们的方法仅需3-5分钟即可生成高度真实、具有双语义的3D幻觉，在几何完整性、语义可识别性和效率方面显著优于现有方法。项目页面：https://siang1105.github.io/JanusMesh.github.io/

ImageWAM: 世界动作模型真的需要视频生成，还是仅仅需要图像编辑？
ImageWAM: Do World Action Models Really Need Video Generation, or Just Image Editing?

Jun 17

ByYuyang Zhang, Wenyao Zhang, Zekun Qi, He Zhang, Haitao Lin, Jingbo Zhang, Yao Mu, Xiaokang Yang, Wenjun Zeng, Xin Jin

世界动作模型（WAMs）通常依赖视频生成来桥接视觉世界建模与机器人控制。然而，基于视频的WAMs面临三个相互关联的局限：密集的多帧未来令牌使推理成本高昂，完整的视频预测将模型容量消耗在与动作无关的时间与外观细节上，长时域的未来想象可能引入误差，误导动作预测。这些问题引出一个简单疑问：世界动作模型真的需要视频生成吗？我们提出ImageWAM，一种简洁的WAM框架，将预训练的图像编辑模型重新用于机器人动作预测。与视频生成相比，图像编辑提供了更匹配的先验：它只需建模目标帧的变换，聚焦于与动作相关的当前到目标视觉差异，并通过编辑预训练将任务指令锚定到局部视觉变化上。实际应用中，ImageWAM在推理时并不解码目标帧，而是以图像编辑去噪产生的KV缓存作为条件，输入给流匹配动作专家，将其作为紧凑的世界动作上下文。ImageWAM在多种仿真与真实世界实验中，无需额外策略预训练，即超越了标准VLA基线和具有竞争力的WAMs。同时它将计算量（FLOPs）降至视频WAMs的1/6，延迟降至1/4。注意力分析进一步表明，编辑缓存聚焦于任务相关变化区域，支持图像编辑作为基于视频的世界动作建模的有效替代方案。

当前世界模型缺乏持久状态核心
Current World Models Lack a Persistent State Core

Jun 18

ByJinpeng Lu, Dexu Zhu, Haoyuan Shi, Linghan Cai, Guo Tang, Yinda Chen, Jie Cao, Duyu Tang, Yi Zhang, Yong Dai, Xiaozhu Ju

世界模型日益被视为通往通用人工智能的关键一步，但建模物理世界所需的远不止是按需生成令人信服的帧画面：它需要一个随时间不断演化、与观测解耦的内部世界状态，使得物体持续存在、事件完成其进程，无论是否有相机在观看——正如月亮在无人注视时仍沿轨道运行一样。这一要求是现有基准的盲点，它们奖励保真度、运动、相机可控性等表面属性，却从未质询生成的世界在无人观测时是否持续演化。我们提出WRBench——首个将相机运动视为观测性干预的系统性诊断基准，并将评估分解为经人类校准的链条：询问相机是否执行了所要求的交互、场景在视野内是否保持连续且可识别、以及返回的目标是否与已被启动的事件保持一致。覆盖四种控制范式的23个模型生成的9600段视频中，一个发现被证实为顽固性问题：当前系统将观测到的世界维持为跟踪镜头，返回的目标在被遗弃时的状态处恢复，而非在未被观测期间推进事件。由于这一失败在不同控制范式、模型家族和规模增量中反复出现，稳健的世界状态演化并不能通过更清晰的图像、更精准的控制、更丰富的几何先验或单纯的参数量级来实现。因此我们主张，物理状态核的稳定性以及视角干预下世界线的一致性应成为世界模型设计中的首要目标，从而使世界模型捕捉世界将如何展开，而非下一帧如何呈现。

面向智能体型及多模态大语言模型的上下文感知强化学习
Context-Aware RL for Agentic and Multimodal LLMs

Jun 15

ByPeiyang Xu, Bangzheng Li, Sijia Liu, Karthik R. Narasimhan, Pramod Viswanath, Prateek Mittal, Xingyu Fu

大型语言模型（LLMs）在需要从冗长或复杂上下文中识别细小但关键证据时常常失败，例如工具调用轨迹中的一行代码或图像中的细微细节。我们提出ContextRL，一种上下文感知的强化学习方法，通过间接辅助目标提升长程推理与多模态性能。该方法并非仅监督最终答案，而是向模型提供查询、答案以及两个高度相似的上下文，并奖励模型选择支持该查询-答案对的上下文，从而鼓励细粒度定位。我们在两个领域构建对比上下文数据：对于代码代理，将轨迹作为上下文，通过条件过滤生成1000对数据；对于多模态推理，将图像作为上下文，通过生成式编辑与相似性搜索构建7000对数据。ContextRL在5个长程基准上相较标准GRPO平均提升+2.2%，在12个多样化视觉问答基准上平均提升+1.8%。为分离所提目标与额外数据的影响，我们将同一批对比上下文重新加工为标准查询-上下文-答案示例作为数据增强基线，该基线几乎未带来改进，说明性能提升源于所提上下文选择目标而非仅依赖对比数据本身。

ENPIRE: 真实世界中的自主机器人策略自我改进
ENPIRE: Agentic Robot Policy Self-Improvement in the Real World

Jun 18

ByWenli Xiao, Jia Xie, Tonghe Zhang, Haotian Lin, Letian "Max" Fu, Haoru Xue, Jalen Lu, Yi Yang, Cunxi Dai, Zi Wang, Jimmy Wu, Guanzhi Wang, S. Shankar Sastry, Ken Goldberg, Linxi "Jim" Fan, Yuke Zhu, Guanya Shi

在现实世界中实现灵巧的机器人操控高度依赖人工监督和算法工程，这成为追求通用物理智能的核心瓶颈。尽管新兴的编码智能体能生成代码以实现算法搜索自动化，但其成功主要局限于数字环境。我们推测，阻碍机器人研究自动化的关键在于缺乏可重复的物理反馈闭环：重置场景、执行策略、验证结果并优化下一次迭代。为弥合这一差距，我们提出ENPIRE——一个为编码智能体设计的集成框架，通过四个核心模块实例化这种物理反馈流程：环境模块（EN）负责自动重置与验证，策略改进模块（PI）启动策略优化，部署模块（R）利用一个或多个并行运行的物理机器人评估策略，以及进化模块（E）中编码智能体分析日志、查阅文献、改进训练基础设施和算法代码以应对失败模式。该闭环系统将真实世界的操控学习转化为可控的优化过程，在最小化人工干预的同时，允许对训练流程和智能体变体进行公平的消融实验。借助ENPIRE，前沿编码智能体能自主训练策略，在挑战性灵巧操控任务（如整理针盒、紧固扎带及工具使用）中实现99%的成功率；当我们在机器人集群中部署智能体团队时，这一过程将进一步加速。我们的研究结果揭示了将编码智能体部署到物理世界以自主推进机器人技术的实用且可扩展路径。

Thinking with Visual Grounding

Jun 15

ByJunkai Zhang, Yihe Deng, Kai-Wei Chang, Wei Wang

Visual thinking should not only sound right; it should show its evidence. While recent vision-language models (VLMs) can produce natural-language reasoning traces, these traces often leave the supporting image regions implicit, making them hard to verify and difficult to supervise. We introduce visually grounded thinking, a reasoning process in which models interleave natural-language thoughts with explicit point or box groundings of the visual evidence used at each step. This lets the model express intermediate reasoning in language while grounding key objects in the image regions they refer to. To train this behavior, we construct a scalable synthesis pipeline that distills correct visual reasoning traces, extracts the visual objects required by the traces, grounds them with a SAM3-based agent, and derives aligned point and box supervision from the resulting masks. We further propose grounding-aware reinforcement learning, which combines answer correctness rewards with dense grounding rewards that score whether generated object references match the correct image evidence. Across two counting benchmarks and four spatial reasoning benchmarks, adding visually grounded thinking to Gemma3-4B-IT consistently improves performance over the original model and the non-grounded thinking baseline. On spatial reasoning, the visually grounded thinking 4B models match, and in some cases surpass, Gemma3-27B-IT from the same model family. Our analysis shows that point grounding is well suited to counting, while box grounding benefits most from explicit grounding rewards on spatial tasks. Overall, our results show that VLMs think better when their intermediate thoughts are tied to the image regions that make them true.

FAPO：多步骤大语言模型流水线的全自主提示优化
FAPO: Fully Autonomous Prompt Optimization of Multi-Step LLM Pipelines

Jun 17

ByPaul Kassianik, Baturay Saglam, Huaibo Zhao, Blaine Nelson, Supriti Vijay, Aman Priyanshu, Amin Karbasi

多步LLM流水线因检索、推理和格式化步骤之间的交互而失败，因此仅通过提示优化可能遗漏链中的瓶颈。我们提出FAPO（全自动提示优化），这是一个框架，能让Claude Code在标准化代码库中优化LLM流水线。FAPO评估流水线、检查中间步骤、诊断故障、提出局部修改建议，并反复验证变体，以针对评分函数进行优化。它首先尝试提示编辑，仅当提示优化不足且归因分析识别出结构瓶颈时，才在允许范围内更改链结构。在六个基准测试和三个任务模型上，FAPO在18个模型-基准比较中的15个中击败了基线GEPA。在11个模型-基准比较中，FAPO以非重叠的均值±试验标准差范围胜出，FAPO相较于GEPA的平均增益为+14.1个百分点。在六个HoVer和IFBench比较中，当提示优先搜索升级为结构更改时，FAPO在所有六个比较中胜出，平均增益为+33.8个百分点。FAPO还提升了安全任务上的性能：在CTIBench-RCM（一个安全CVE到CWE映射任务）上，纯提示优化的FAPO在GPT-5上测试准确率提升+4.0个百分点，在Foundation-Sec-8B-Instruct上提升+7.1个百分点，在Foundation-Sec-8B-Reasoning上提升+2.0个百分点。这些结果将FAPO定位为通用任务和安全任务的最先进流水线优化技术。

HumanScale: 第一人称人类视频在具身预训练中可优于真实机器人数据
HumanScale: Egocentric Human Video Can Outperform Real-Robot Data for Embodied Pretraining

Jun 18

ByJuncheng Ma, Jianxin Bi, Yufan Deng, Xuanran Zhai, Kewei Zhang, Ye Huang, Bo Liang, Shukai Gong, Jiankai Tu, Xiaotian Tang, Jiaxin Li, Kaiqi Chen, Duomin Wang, Yuqi Wang, Bingyi Kang, Eric Huang, Zhiyang Dou, Zhen Dong, Enze Xie, Wojciech Matusik, Tat-Seng Chua, Daquan Zhou

具身基础模型有望像大语言模型一样受益于数据扩展，但面临更为严重的数据瓶颈。遥操作真实机器人轨迹因其精确的动作监督和具身对齐能力，仍是主要的预训练数据来源，但其可扩展性受到高采集成本、获取难度大以及行为与环境多样性低的限制。这些局限性激发了人们对以自我为中心的人类视频的兴趣，这种视频作为一种可扩展、成本极低且多样性更高的替代方案，可用于具身模型预训练。然而，与遥操作真实机器人数据相比，其有效性尚未得到充分探索。为解答这一问题，我们开展了一项系统性研究，在固定的后训练和验证协议下，比较以自我为中心的人类视频和遥操作真实机器人轨迹作为具身基础模型预训练数据源的效果。令人惊讶的是，我们发现，经过精心设计的过滤和标注流程处理后，以自我为中心的数据不仅是模型预训练的可行替代品，还能带来更优的性能。在相同预训练数据量下，基于以自我为中心的数据预训练的模型，在真实机器人动作预测上的验证损失降低了24%，在分布内和分布外的真实机器人任务执行中，成功率分别提高了52.5%和90%。这一发现验证了具身基础模型的一种可扩展范式：先利用以自我为中心的人类视频进行预训练，学习多样的世界表征，然后通过少量标注的真实机器人数据进行适配，实现动作空间对齐。我们希望这项研究能鼓励更广泛地探索以自我为中心的数据，并为在昂贵机器人数据采集之前进行数据质量评估提供指导。

Holo-World:面向视频世界模型的统一相机、物体与天气控制
Holo-World: Unified Camera, Object and Weather Control for Video World Model

Jun 18

ByXiangchen Yin, Wenzhang Sun, Jiahui Yuan, Zijie Liu, Yinda Chen, Wei Li, Dachun Kai, Chunfeng Wang, Xiaoyan Sun

视频世界模型正朝着在可控相机和物体运动下保留观测世界、同时允许其环境状态变化的方向发展。然而，这些控制手段仍然相互孤立，且天气生成通常依赖于已明确未来结构的源视频或重建场景。我们研究了一种以第一帧为锚点的源到状态设置：模型从单张图像出发，遵循显式的相机与物体控制指令及可选的天气指令，生成一个保持原始世界或将其转移到目标天气状态的视频。为应对这些挑战，我们首先构建了HoloStateData——一个状态视频数据集，将多样化的视频转化为统一的控制样本，用于相机、物体和天气的监督学习。其次，我们提出Holo-World，一个统一的可控视频世界模型，能够从单张图像联合控制场景。其统一场景适配器将世界保持与天气转移分解为不同的参数子空间，利用渲染背景、几何缓冲和物体控制来维持受控的场景结构，同时建模与天气相关的外观和粒子效果。此外，场景-天气分解式CFG分别引导场景残差和天气残差，既增强了目标天气效果，又避免过度放大整个条件。定量和定性实验表明，Holo-World在将场景转移到多种目标天气状态时，能够保持精确的相机与物体控制及一致的场景结构，在天气状态生成方面优于基于视频到视频的天气编辑基线。我们的项目页面见 https://xiangchenyin.github.io/Holo-World/。

重新思考LLM FP4预训练中的收缩偏差：几何起源、系统性影响与UFP4方法
Rethinking Shrinkage Bias in LLM FP4 Pretraining: Geometric Origin, Systemic Impact, and UFP4 Recipe

Jun 18

ByQian Zhao, Kunlong Chen, Changxin Tian, Zhonghui Jiang, Haitao Zhang, Chaofan Yu, Peijie Jiang, Mingliang Gong, Jia Liu, Ziqi Liu, Zhiqiang Zhang, Jun Zhou

FP4训练有望大幅降低大语言模型预训练的内存和计算成本，然而当前FP4硬件路径和方案（包括NVIDIA Blackwell/Rubin级系统及AMD MI350系列GPU）仍以E2M1数据元素为核心。在本研究中，我们揭示了这一选择存在根本性局限：非均匀格式（如E2M1）固有地存在收缩偏差（Shrinkage Bias），即由于其可表示区间的几何不对称性导致的系统性负向舍入误差。我们表明，这种偏差在各层间以乘法方式累积，且被随机哈达玛变换（RHT）放大，从而为现有基于E2M1的FP4方案中观察到的训练不稳定性提供了统一解释。相比之下，均匀网格（E1M2/INT4）规避了这种网格几何误差，并能更有效地将RHT带来的桶利用率提升转化为更高的量化质量。基于这一发现，我们提出UFP4——一种统一4位训练方案，该方案将RHT应用于所有三种训练GEMM，同时仅对dY施加随机舍入。在Dense 1.5B、MoE 7.9B和MoE 124B的长期预训练中，UFP4持续实现比强E2M1基线更低的BF16相对损失退化，这一结果得到缩放定律分析和消融研究的支持。我们的结果表明，未来加速器应同时支持E1M2/INT4风格的统一4位网格作为与E2M1同等的一等训练原语。

以LOCUS解放法律：美国地方条例语料库
Freeing the Law with LOCUS: A Local Ordinance Corpus for the United States

Jun 17

ByDenis Peskoff, Joe Barrow, Christopher Vu, Diag Davenport

法律人工智能的进步日益依赖于大规模获取权威性法律文本。然而，美国法律体系中最为重要的层级之一——地方条例——在很大程度上仍未被现有机器可读语料库所覆盖。地方法规涵盖分区管理、住房、商业许可、公共卫生、噪音管控、动物管理及其他诸多日常监管领域，但这些法规分散在专为人工浏览而非批量研究访问设计的供应商平台上。我们推出LOCUS——美国地方条例语料库——这是一个综合性语料库及面向美国市县条例的县归一化访问层。原始语料库（可供研究人员获取）涵盖了几乎所有公开可用的市县条例文本。由此生成的原始语料库包含9,239个市县的法规数据。规模较小的县归一化LOCUS访问层覆盖了美国3,144个县中人口占比最大的2,309个县，覆盖了多数人口。我们采用OCR技术处理大量阻碍法律成为公共资源的多样化文件格式。随语料库一同发布的覆盖元数据将支持可复现性、下游法律AI研究以及地方法律机器可读访问的渐进扩展。我们训练了一组基于ModernBERT的分类器和评分器，以便从多个维度（如不透明性与家长主义）分析美国地方法律——这些维度此前从未在如此规模下进行研究。LOCUS-v1及其衍生模型可通过以下地址获取：https://huggingface.co/datasets/LocalLaws/LOCUS-v1

FID彩票：量化生成模型评估中的隐藏随机性
The FID Lottery: Quantifying Hidden Randomness in Generative-Model Evaluation

Jun 18

ByNicolas Dufour, Alexei A. Efros, Patrick Pérez

弗雷歇初始距离（FID）是图像生成领域事实上的评判标准，然而大多数论文仅报告单个训练模型在单个采样种子下得出的单个数值。如果我们重新训练模型，或者仅从该模型中重新采样，这个数字的可重复性如何？在本文中，我们将FID视为一个在训练种子和生成种子构成的二维面板上的随机变量，并直接在数百个基于类别条件ImageNet 256x256训练的SiT网络上测量其方差。我们报告了令人惊讶的发现：(a) 使用相同配方但不同种子重新训练模型，其FID变化幅度（在Inception特征空间中）比固定网络重新采样得到的变化幅度大3.2倍。(b) 这一差距由三个因素驱动：随机初始化、数据排序以及流匹配损失中每步的高斯噪声。(c) 增加计算量或模型规模几乎无法缩小离散程度，使得FID变异系数（CoV）维持在1-2%的区间内。(d) 对每个单元进行无分类器引导调优可将离散程度减半，但会重新排列哪种种子表现最佳，而一个幸运的训练种子达到相同FID所需的计算量可比不幸运的种子减少多达2倍。基于这些发现，我们推荐一种新的FID评估协议：在每单元最优引导下进行评估，将低于经验测量值约1.3% CoV的任何FID差距视为不确定，并通过报告多个训练种子下的误差条而非单个FID数值。

理解环境感知信息检索的行为
Understanding the Behaviors of Environment-aware Information Retrieval

Jun 15

ByRuifeng Yuan, Chaohao Yuan, David Dai, Yu Rong, Hong Cheng, Hou Pong Chan, Chenghao Xiao

近期，检索增强生成（RAG）方法在处理复杂查询方面展现出强大能力，然而现有研究忽视了一个关键挑战：不同检索器需要截然不同的查询构建策略才能实现最优性能。在本研究中，我们首次系统分析了如何通过强化学习（RL）使大语言模型（LLM）学会为不同检索器自适应调整查询构建策略。我们的实证研究表明，RL能有效引导LLM针对特定检索器的特性定制查询。我们发现，不同检索器对最优查询风格（如描述型与疑问型）存在显著偏好差异，这意味着为某类检索器习得的策略对另一类检索器可能无效。进一步研究表明，融入检索器特定的人类指导以及扩大模型规模均可提升性能。为优化多步检索轨迹的学习过程，我们引入了一种基于分支的展开技术，有效提升了训练稳定性。本研究为构建真正具备检索器感知能力的RAG系统提供了首个实证依据与可操作见解。代码与资源详见 https://github.com/LCO-Embedding/Envs-aware-Information-Retrieval。

LedgerAgent: 面向遵循策略的工具调用代理的结构化状态
LedgerAgent: Structured State for Policy-Adherent Tool-Calling Agents

Jun 18

ByMd Nayem Uddin, Amir Saeidi, Eduardo Blanco, Chitta Baral

在客户服务领域中，遵循策略的工具调用智能体需要在轮次间维护任务状态，同时调用工具并遵守领域策略。任务状态由通过用户交互和工具调用观察到的事实、标识符、约束条件及状况构成。在标准智能体中，任务状态并未单独表示。观察结果、工具返回值及策略指令被放入提示词中，使得智能体在每次决定下一步操作时，需从提示词中重新构建相关状态。这种设计使状态管理隐式化，导致两种常见错误模式：智能体可能检索到正确的事实，但后续决策却基于过时、缺失或错误的信息；或者，一个语法正确的工具调用仍可能违反依赖于当前任务状态的领域策略。为此，我们提出LedgerAgent——一种面向工具调用智能体的推理时方法，它将观察到的任务状态单独维护在独立账本中，并将这些状态呈现到提示词中。该账本还用于在执行为环境带来变化的工具调用之前检查状态相关的策略约束，从而阻止策略违反行为。在四个客户服务领域以及由开源和闭源模型组成的混合评估面板中，与基于提示词的标准工具调用方法相比，LedgerAgent在平均passk指标上有所提升，且在更严格的多次尝试一致性指标下取得了最大增益。

泰勒校准：混合线性注意力蒸馏的原则性初始化
Taylor-Calibrate: Principled Initialization for Hybrid Linear Attention Distillation

Jun 15

ByZhongzhu Zhou, Qingyang Wu, Junxiong Wang, Mayank Mishra, Shuaiwen Leon Song, Ben Athiwaratkun, Chenfeng Xu

混合线性注意力模型为实现更快的长上下文推理提供了一条有吸引力的路径：它们在降低全softmax注意力的二次成本和KV缓存负担的同时，保留了Transformer模型的诸多质量优势。获取此类模型的一种实用方法是对预训练Transformer进行转换，而非从头开始预训练新架构，但这一转换过程仍显脆弱。简单地将教师模型的注意力投影复制到门控DeltaNet（GDN）学生模型中，并不能确定新的循环衰减、写入和输出门控动态机制。因此，转换后的模型往往从一种不佳的动态机制开始，必须消耗大量蒸馏词元来修复初始化问题，而非学习剩余教师行为。我们提出泰勒校准（Taylor-Calibrate），一种针对混合GDN学生模型的轻量级初始化方法。该方法利用泰勒引导的教师注意力统计量来设置值投影、记忆时间尺度、写入门和输出门，随后通过简短的逐层对齐步骤使每个转换后的层与教师输出匹配。在四种教师设置和三种保留层策略下，泰勒校准能生成显著更强的零样本学生模型，在代表性消融实验中提升幅度高达88倍，并且相比朴素转换，仅需4.9至9.2倍更少的训练词元即可达到匹配的恢复目标。

分辨率不变的自适应体积力学性能场
Adaptive Volumetric Mechanical Property Fields Invariant to Resolution

Jun 16

ByRishit Dagli, Donglai Xiang, Vismay Modi, Xuning Yang, Gavriel State, David I. W. Levin, Maria Shugrina

精确的力学属性（或材料参数）——杨氏模量（E）、泊松比（ν）和密度（ρ）——对数字世界的可靠物理仿真至关重要，但大多数三维资产缺乏此类信息。我们提出AdaVoMP方法，用于预测输入三维物体在不同表征形式下的精确密集空间变化参数（E, ν, ρ），相较于现有技术显著提升了分辨率、精度和内存效率。该技术的核心是一种稀疏自适应体素结构（SAV），能够高效同时表征输入三维形状与材料场输出。我们将现有最精确方法VoMP的固定体素模型，替换为新型稀疏Transformer编码器-解码器模型，该模型能够针对每个输入形状自回归地学习生成独特的SAV以表征其材料，实现的分辨率较现有技术高出16³倍。实验表明，即使测试时计算量低于所有现有方法，AdaVoMP仍能估计更精确的体积属性。这使我们能够将高分辨率复杂三维物体转化为可直接用于仿真的资产，从而获得逼真的可变形仿真结果。

LegalHalluLens：面向可信赖法律人工智能的类型化幻觉审计与校准的多智能体辩论
LegalHalluLens: Typed Hallucination Auditing and Calibrated Multi-Agent Debate for Trustworthy Legal AI

Jun 16

ByLalit Yadav, Akshaj Gurugubelli

部署于法律工作流中的AI系统会出现幻觉，聚合指标报告显示其幻觉率约为52%，但这一平均值掩盖了错误集中出现的领域及其方向性偏差，导致合规官员无法获得可供可信部署的可行信号。我们提出LegalHalluLens审计框架，该框架包含三个组成部分：基于CUAD数据集（Hendrycks等，2021）中四类法律动机性主张（数值型、时间型、义务/权利型、事实型）构建的类型化幻觉配置文件；将遗漏偏向与虚构偏向简化为单一可跨部署比较标量的风险方向指数（RDI）；以及一个经量级和方向双重校准的类型化辩论管线。通过对510份合同及249,252条条款级实例的测量，我们发现聚合报告所掩盖的同一模型内义务/权利类与时间类主张之间的差距约为38-40个百分点，并揭示两个具有相同52%幻觉率的系统可能呈现相反的RDI值。该辩论管线将虚假检测减少45%，各类别改进与诊断结果相匹配，且能以显著更小的骨干网络（4B活跃参数）达到商业API同等性能。类型化配置文件和RDI能够揭示聚合指标所掩盖的失效模式；我们进一步证明，这些诊断结果可作为多智能体辩论管线的校准输入，其中针对已测量失效模式设计的怀疑者挑战和非对称门控机制，其性能优于通用调优的辩论系统。该框架可为野外部署的法律AI提供方向感知的采购、问责及智能体设计支持。

基于代理型RAG的可配置临床信息提取：有效、失效及其原因分析
Configurable Clinical Information Extraction with Agentic RAG: What Works, What Breaks, and Why

Jun 17

ByOsman Alperen Çinar-Koraş, Marie Bauer, Sameh Khattab, Merlin Engelke, Moon Kim, Stephan Settelmeier, Shigeyasu Sugawara, Fabian Freisleben, Felix Nensa, Jens Kleesiek

患者数据跨越数百个异构文档和数千个结构化数据点，但人工智能系统用于检索与分诊所需的文档级元数据往往缺失或不完整。标准检索增强生成技术在此类数据上表现不佳，难以处理时间推理、跨文档依赖及元数据缺失等问题。我们在埃森大学医学中心部署了ACIE（智能体临床信息提取）系统：一套本地部署的智能体RAG流程，能够对完整患者背景进行推理，并基于源文段佐证每个回答以便临床医生核查。我们量化了元数据缺口的规模，追溯了由此形成的架构决策，并通过一项独立的回顾性淋巴瘤登记研究评估了提取效果——在该研究中，核医学科医师针对每个提取值及其引用的来源进行验证。在7,326项判定中，临床医生接受了96.5%的提取结果，按类型划分的接受率介于80%至99%之间。

LooseControlVideo：使用空间分块的导演式视频控制
LooseControlVideo: Directorial Video Control using Spatial Blocking

Jun 17

ByShariq Farooq Bhat, Niloy J. Mitra, Kalyan Sunkavalli

在文本生成视频中，精确的3D空间编排仍然是一个重大挑战，尤其是在多物体场景中，语义布局与时间动态往往相互纠缠。虽然现有的深度条件模型能够实现良好的结构保真度，但它们需要密集且帧级精确的指导，对于涉及可变形物体的动态事件而言，这种指导的创作极为耗时。我们提出LooseControlVideo框架，通过使用稀疏定向3D框作为“阻挡”代理，实现直观且富有表现力的控制。这使得用户能够创作高级布局和轨迹，同时利用视频生成模型生成逼真的遮挡、动态和交互。我们通过在标注有DNOCS（一种针对3D尺寸、方向和深度顺序遮挡的新型编码）的视频数据集上微调Wan 2.2骨干网络来实现这一点。此外，我们的方法允许局部细化，例如调整跳跃轨迹或添加交互，且对全局场景上下文的干扰极小。在nuScenes、HO-3D和BEHAVE基准上的广泛评估表明，LooseControlVideo显著优于现有的2D框和基于流的基线。我们的研究结果表明，与当前最先进的布局条件模型相比，轨迹误差改善了1.2到3倍，刚性运动一致性提高了2倍，遮挡准确性提升了1.5到2倍，这表明定向3D基元为复杂的多智能体视频创作提供了良好的几何先验。

JAMER：面向专业游戏引擎的项目级代码框架数据集与基准测试
JAMER: Project-Level Code Framework Dataset and Benchmark on Professional Game Engines

Jun 18

ByJianwen Sun, Chuanhao Li, Zizhen Li, Yukang Feng, Fanrui Zhang, Yifei Huang, Yu Dai, Kaipeng Zhang

当前，基于人工智能的游戏开发在资产生成、玩法设计及基于网页的游戏编程方面取得了显著进展，然而，由于缺乏大规模数据集和确定性评估方法，专业游戏引擎上的项目级代码工程仍基本处于未探索状态。我们提出了JamSet和JamBench，这是首个基于专业游戏引擎构建的项目级游戏代码框架数据集与基准。我们的关键洞察在于，游戏开发限时挑战赛（Game Jam）——即开发者在严格时间限制下构建完整游戏的社区活动——能够产出数千个适用于此目的的开源项目。依托Godot引擎的纯文本格式和无头执行模式，我们设计了一套从文件完整性到运行时行为收集的确定性验证流程，从超过24万个仓库中提炼出8133个已验证项目。其中，300个经过人工验证的项目构成JamBench；其余项目组成JamSet。JamBench定义了主题驱动生成和代码补全任务，评估流程结合了编译通过率、结构完整性评分（SCS）和行为对齐评分（BAS）。对9个前沿模型的评估揭示了项目规模扩大时的能力断崖，运行时通过率从小型项目的80.4%骤降至大型项目的5.7%（Task2a）。代码智能体提高了编译率，但在运行时行为质量上未见提升，这表明瓶颈在于架构设计而非语法正确性。实验验证了JamSet作为训练数据的有效性。所有数据和代码均已公开。

面向视频对象中心学习的选择性协同学习
Selective Synergistic Learning for Video Object-Centric Learning

Jun 14

ByWonJun Moon, Jae-Pil Heo

典型的视频以对象为中心的学习方法采用基于槽位的框架，依赖重建驱动的编码器-解码器架构，其中学习过程由两类空间图中介：编码器的注意力图和解码器的对象图。由于这两类不同的图具有不同特性，近期一种密集对齐策略试图通过对比学习强制所有时空补丁之间的一致性来调和这一差异。然而，这种无差别对齐会无意中传播每个模块的固有缺陷，例如编码器的噪声预测和解码器的模糊边界。此外，计算所有补丁对之间的密集相似性会导致时空补丁总数二次方的计算成本，严重限制可扩展性。受此启发，我们提出选择性协同学习（SSync）。与穷举式补丁到补丁对齐不同，SSync通过选择性蒸馏仅最可靠的线索来防止误差传播：严格利用编码器进行边界细化，而利用解码器进行内部去噪。这是通过线性复杂度的伪标签实现，消除了二次空间比较的需求。同时，为防止强化架构偏差（如槽位冗余），我们引入传递性伪标签合并机制，基于时空激活一致性整合重叠槽位。大量研究表明，SSync能提升分解质量，并作为通用即插即用模块，同时对槽位配置表现出卓越鲁棒性。代码见 github.com/wjun0830/SSync。

显微镜下的数据流形
The Data Manifold under the Microscope

Jun 14

ByMarios Koulakis, Constantin Seibold

深度学习中理论与实践之间存在显著差距。泛化与逼近误差界通常针对简化模型推导，或过于宽松而缺乏信息量。许多研究依赖流形假设及几何正则性（如本征维度、曲率和触及半径）。进展需要数据流形几何的洞察与合适的基准测试，然而现有选项呈现两极分化：要么是几何已知但适用性有限的分析型流形，要么是几何仅可粗略估计的真实世界数据集。我们提出一个研究数据几何的基准测试框架。通过新增变换维度与密集的轴对齐采样，我们重新利用并扩展了dSprites和COIL-20数据集，并为其配备有限差分估计器，在通用估计器不可靠或难以部署的场景下，以接近真值的精度恢复曲率、触及半径和体积。该框架旨在作为受控实验平台，既可用于几何估计器的校准环境，也可用于检验理论假设的沙盒。为展示其应用，我们呈现两项案例研究：评估Genovese等人与Fefferman等人提出的误差界缩放行为，以及追踪β-VAE的逐层几何特性，揭示现有边界的性能表现，并凸显受控基准测试对指导与验证未来理论的价值。参考实现详见 https://github.com/koulakis/manifold-microscope。

无资源，无基准，没问题？评估与改进大语言模型针对无资源语言的代码生成
No Resource, No Benchmarks, No Problem? Evaluating and Improving LLMs for Code Generation in No-Resource Languages

Jun 15

ByAlessandro Giagnorio, Alberto Martin-Lopez, Gabriele Bavota

大语言模型（LLMs）显著推进了软件工程任务的自动化。一个典型的例子是代码生成：大语言模型根据自然语言描述，用指定的编程语言生成代码。该领域的大多数研究聚焦于高资源语言（如Python或Java），这些语言因丰富的训练数据而受益。少数工作探索了低资源语言——它们在训练语料库中代表性不足。相比之下，大语言模型几乎未见训练数据的无资源语言仍鲜有研究。这类语言常出现在工业界，企业开发专有或领域特定语言，这些语言不受GitHub Copilot等商业工具支持，导致公司需部署内部代码推荐器。为探索此类场景的可行解决方案，我们基于两种近期提出且训练数据极少的编程语言，构建并发布了三个无资源语言代码生成基准测试。利用这些基准，我们实验了多种教授大语言模型无资源语言的方法，包括基于提示的技术以及利用少量数据进行预训练和微调。尽管进一步预训练对无资源语言带来了最大的性能提升，但直接将其应用于指令微调模型会损害其遵循指令的能力。为解决此问题，我们从基础模型出发，先对目标语言进行进一步预训练，再通过从指令模型迁移权重差值注入指令遵循能力。该方法显著提升了无资源环境下的代码生成能力，使企业无需处理指令微调的计算成本，即可低成本部署专用指令模型。

工作负载漂移下的ASR服务时长感知调度
Duration Aware Scheduling for ASR Serving Under Workload Drift

Mar 11

ByDarshan Makwana, Yash Jogi, Harsh Kotta, Aayush Kubba

大规模自动语音识别（ASR）服务管道中的调度策略在决定端到端（E2E）延迟方面起着关键作用。然而，广泛使用的服务引擎依赖于先来先服务（FCFS）调度，这忽略了请求持续时间的变异性，并在工作负载漂移下导致队头阻塞。我们表明，在Whisper等ASR模型中，音频时长是作业处理时间的准确代理，并利用这一洞察实现了时长感知调度。我们将两种经典算法——最短作业优先（SJF）和最高响应比优先（HRRN）——集成到vLLM中，并在实际及漂移工作负载下进行评估。在LibriSpeech测试集clean上，与基线相比，SJF在高负载下将中位端到端延迟降低了多达73%，但由于长请求的饥饿效应，将第90百分位尾部延迟增加了多达97%。HRRN解决了这一权衡：它将中位端到端延迟降低多达28%，同时将尾部延迟的恶化限制在最多24%。这些优势在工作负载漂移下仍然保持，且无吞吐量损失，每次请求的调度开销小于0.1毫秒。

ReSyn：一个通用化递归正则表达式合成框架
ReSyn: A Generalized Recursive Regular Expression Synthesis Framework

Jun 13

BySeongmin Kim, Hyunjoon Cheon, Su-Hyeon Kim, Yo-Sub Han, Sang-Ki Ko

现有的编程示例（PBE）系统通常依赖于简化的基准测试，无法捕捉真实世界正则表达式的高结构复杂性，例如更深层次的嵌套和并运算的频繁使用。为了克服由此带来的性能下降，我们提出了ReSyn，一个与合成器无关的分治框架，将复杂的合成问题分解为可管理的子问题。我们还引入了Set2Regex，一种参数高效的合成器，能够捕捉示例的置换不变性。实验结果表明，ReSyn显著提升了多种合成器的准确性，且其与Set2Regex的结合在具有挑战性的真实世界基准测试上确立了新的最先进水平。完整的源代码、数据集和预训练模型检查点已公开于https://github.com/mrseongminkim/ReSyn。