AI研究论文每日精选

每日精选AI研究论文及翻译

ReCamMaster：基于单视频的相机控制生成式渲染
ReCamMaster: Camera-Controlled Generative Rendering from A Single Video

Mar 14

ByJianhong Bai, Menghan Xia, Xiao Fu, Xintao Wang, Lianrui Mu, Jinwen Cao, Zuozhu Liu, Haoji Hu, Xiang Bai, Pengfei Wan, Di Zhang

146

在文本或图像条件约束的视频生成任务中，相机控制已得到深入研究。然而，尽管在视频创作领域具有重要意义，对给定视频的相机轨迹进行修改仍属探索不足。这一挑战源于需同时维护多帧外观与动态同步的额外约束。为此，我们提出了ReCamMaster，一个相机控制的生成式视频重渲染框架，它能在新颖的相机轨迹下重现输入视频的动态场景。其核心创新在于，通过一种简单而强大的视频条件机制，充分利用了预训练文本到视频模型的生成能力——这一能力在当前研究中常被忽视。为应对高质量训练数据的稀缺，我们利用Unreal Engine 5构建了一个全面的多相机同步视频数据集，该数据集精心设计以遵循现实世界的拍摄特征，涵盖多样化的场景与相机运动，有助于模型泛化至真实场景视频。最后，通过精心设计的训练策略，我们进一步提升了模型对多样化输入的鲁棒性。大量实验表明，我们的方法显著超越了现有的最先进方法与强基线。此外，我们的方法在视频稳定、超分辨率及外延绘制等方面展现出广阔的应用前景。项目页面：https://jianhongbai.github.io/ReCamMaster/

SmolDocling：一款超紧凑的视觉-语言模型，用于端到端的多模态文档转换
SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion

Mar 14

ByAhmed Nassar, Andres Marafioti, Matteo Omenetti, Maksym Lysak, Nikolaos Livathinos, Christoph Auer, Lucas Morin, Rafael Teixeira de Lima, Yusik Kim, A. Said Gurbuz, Michele Dolfi, Miquel Farré, Peter W. J. Staar

138

我们推出SmolDocling，一款超紧凑的视觉语言模型，专为端到端文档转换设计。该模型通过生成DocTags——一种全新的通用标记格式，全面处理整页文档，精准捕捉所有页面元素及其位置上下文。与依赖大型基础模型或手工构建多模型流水线的现有方法不同，SmolDocling在仅256M参数的视觉语言模型中实现了端到端转换，准确捕获文档内容、结构及元素的空间位置。SmolDocling在重现代码清单、表格、公式、图表、列表等多种文档特征方面表现出色，其应用范围广泛涵盖商业文档、学术论文、技术报告、专利及表单等，显著超越了传统仅关注科学文献的局限。此外，我们贡献了针对图表、表格、公式及代码识别的新颖公开数据集。实验结果表明，SmolDocling在性能上可与体积大至27倍的视觉语言模型相媲美，同时大幅降低计算需求。该模型现已可用，数据集也将很快公开。

PLADIS：利用稀疏性在推理时突破扩散模型注意力机制的极限
PLADIS: Pushing the Limits of Attention in Diffusion Models at Inference Time by Leveraging Sparsity

Mar 10

ByKwanyoung Kim, Byeongsu Sim

扩散模型在利用无分类器引导（CFG）等技术生成高质量条件样本方面展现了令人瞩目的成果。然而，现有方法通常需要额外训练或神经函数评估（NFEs），这使得它们与引导蒸馏模型不兼容。此外，这些方法依赖于启发式策略，需识别目标层。在本研究中，我们提出了一种新颖且高效的方法，称为PLADIS，它通过利用稀疏注意力来增强预训练模型（U-Net/Transformer）。具体而言，我们在推理过程中，通过softmax及其稀疏版本在交叉注意力层外推查询-键相关性，无需额外训练或NFEs。借助稀疏注意力的噪声鲁棒性，我们的PLADIS释放了文本到图像扩散模型的潜在能力，使其在以往表现欠佳的领域展现出新的效能。该方法能够无缝集成包括引导蒸馏模型在内的各种引导技术。大量实验表明，在文本对齐度和人类偏好方面均有显著提升，提供了一种高效且普遍适用的解决方案。

API代理与GUI代理：分化与融合
API Agents vs. GUI Agents: Divergence and Convergence

Mar 14

ByChaoyun Zhang, Shilin He, Liqun Li, Si Qin, Yu Kang, Qingwei Lin, Dongmei Zhang

大型语言模型（LLMs）已从简单的文本生成演进为驱动软件代理，能够直接将自然语言指令转化为具体行动。尽管基于API的LLM代理最初因其强大的自动化能力和与编程端点的无缝集成而崭露头角，但多模态LLM研究的最新进展已催生了基于GUI的LLM代理，它们能以类人的方式与图形用户界面交互。尽管这两种范式都旨在实现LLM驱动的任务自动化，但它们在架构复杂性、开发流程和用户交互模式上存在显著差异。本文首次对基于API和基于GUI的LLM代理进行了全面比较研究，系统分析了它们的分歧及潜在的融合点。我们考察了关键维度，并强调了混合方法能够发挥其互补优势的场景。通过提出明确的决策标准并展示实际用例，我们旨在指导从业者和研究人员在选择、结合或过渡这些范式时做出明智决策。最终，我们指出，基于LLM的自动化技术的持续创新有望模糊API驱动与GUI驱动代理之间的界限，为广泛的实际应用领域带来更灵活、适应性更强的解决方案。

VGGT：基于视觉几何的Transformer模型
VGGT: Visual Geometry Grounded Transformer

Mar 14

ByJianyuan Wang, Minghao Chen, Nikita Karaev, Andrea Vedaldi, Christian Rupprecht, David Novotny

我们提出了VGGT，一种前馈神经网络，能够直接从场景的一个、多个乃至数百个视角中推断出所有关键的3D属性，包括相机参数、点云图、深度图以及3D点轨迹。这一方法在3D计算机视觉领域迈出了重要一步，传统模型通常局限于并专精于单一任务。VGGT不仅简洁高效，能在不到一秒的时间内重建图像，而且在无需视觉几何优化技术后处理的情况下，性能仍优于其他方案。该网络在多项3D任务中达到了业界领先水平，涵盖相机参数估计、多视角深度估计、稠密点云重建及3D点跟踪。我们还展示了，将预训练的VGGT作为特征骨干网络，能显著提升下游任务的表现，如非刚性点跟踪和前馈式新视角合成。代码与模型已公开于https://github.com/facebookresearch/vggt。

对抗性数据采集：人机协作扰动助力高效稳健的机器人模仿学习
Adversarial Data Collection: Human-Collaborative Perturbations for Efficient and Robust Robotic Imitation Learning

Mar 14

BySiyuan Huang, Yue Liao, Siyuan Feng, Shu Jiang, Si Liu, Hongsheng Li, Maoqing Yao, Guanghui Ren

在机器人操作领域，追求数据效率——即质量胜于数量——已成为一项基石，尤其是考虑到现实世界数据采集的高昂成本。我们提出，最大化单次演示的信息密度可以显著减少对大规模数据集的依赖，同时提升任务表现。为此，我们引入了对抗性数据采集（Adversarial Data Collection, ADC），一种人机交互（Human-in-the-Loop, HiL）框架，通过实时、双向的人与环境互动重新定义了机器人数据获取方式。与被动记录静态演示的传统流程不同，ADC采用了一种协作扰动范式：在一次任务过程中，对抗性操作者动态改变物体状态、环境条件和语言指令，而远程操作者则自适应调整动作以应对这些不断变化的挑战。这一过程将多样化的失败恢复行为、组合任务变化和环境扰动压缩至最少的演示中。我们的实验表明，经过ADC训练的模型在组合泛化到未见任务指令、增强对感知扰动的鲁棒性以及涌现错误恢复能力方面表现卓越。引人注目的是，仅使用通过ADC收集的20%演示量训练的模型，其性能显著优于使用完整数据集的传统方法。这些进展弥合了以数据为中心的学习范式与实际机器人部署之间的鸿沟，证明了战略性的数据采集，而不仅仅是事后处理，对于可扩展的现实世界机器人学习至关重要。此外，我们正在策划一个大规模的ADC-机器人数据集，包含带有对抗性扰动的现实世界操作任务。这一基准将开源，以促进机器人模仿学习的进步。

效能与效率技术：状态空间模型综述
Technologies on Effectiveness and Efficiency: A Survey of State Spaces Models

Mar 14

ByXingtai Lv, Youbang Sun, Kaiyan Zhang, Shang Qu, Xuekai Zhu, Yuchen Fan, Yi Wu, Ermo Hua, Xinwei Long, Ning Ding, Bowen Zhou

状态空间模型（SSMs）作为一种有前景的替代方案，正逐渐受到关注，与流行的基于Transformer的模型形成对比。相较于Transformer，SSMs在处理序列数据或较长上下文任务时表现卓越，展现出可媲美的性能，同时显著提升了效率。本综述为SSMs提供了一个连贯且系统的概览，涵盖其理论动机、数学公式、与现有模型类别的比较，以及多样化的应用场景。我们将SSM系列划分为三大主要部分，分别详细介绍了原始SSM、以S4为代表的结构化SSM，以及以Mamba为典型的选择性SSM。我们着重于技术细节，强调了为提升SSMs有效性和效率而引入的各项关键技术。希望本综述能为研究人员探索SSMs的理论基础提供入门指导。

Vamba：利用混合Mamba-Transformer架构理解时长一小时的视频
Vamba: Understanding Hour-Long Videos with Hybrid Mamba-Transformers

Mar 14

ByWeiming Ren, Wentao Ma, Huan Yang, Cong Wei, Ge Zhang, Wenhu Chen

当前基于Transformer的大型多模态模型（LMMs）在处理长达一小时的视频输入时面临挑战，这主要归因于因果自注意力操作的二次方复杂度，导致训练和推理过程中的计算成本高昂。现有的基于令牌压缩的方法虽减少了视频令牌的数量，但往往伴随信息丢失，且在处理极长序列时效率依然低下。本文探索了一种全新的方向，构建了一种混合Mamba-Transformer模型（VAMBA），该模型采用Mamba-2模块以线性复杂度编码视频令牌。在不进行任何令牌缩减的情况下，VAMBA能够在单个GPU上编码超过1024帧（640×360分辨率）的视频，而基于Transformer的模型仅能编码256帧。对于长视频输入，VAMBA在训练和推理过程中至少减少了50%的GPU内存使用，且每训练步骤的速度几乎翻倍，相较于基于Transformer的LMMs。实验结果表明，在具有挑战性的一小时视频理解基准LVBench上，VAMBA相较于先前的高效视频LMMs提升了4.3%的准确率，并在广泛的长短视频理解任务中保持了强劲的性能。

FlowTok：在文本与图像标记间无缝流转
FlowTok: Flowing Seamlessly Across Text and Image Tokens

Mar 13

ByJu He, Qihang Yu, Qihao Liu, Liang-Chieh Chen

跨模态生成的核心在于桥接不同模态。传统方法将文本模态视为条件信号，逐步引导从高斯噪声到目标图像模态的去噪过程，而我们探索了一种更为简洁的范式——通过流匹配直接在文本与图像模态间进行转换。这需要将两种模态投影到一个共享的潜在空间中，但由于它们本质上的表示差异，这一任务极具挑战性：文本具有高度语义性，编码为一维标记，而图像则具有空间冗余性，表示为二维潜在嵌入。为解决这一问题，我们提出了FlowTok，这是一个极简框架，通过将图像编码为紧凑的一维标记表示，实现了文本与图像间的无缝流转。与现有方法相比，该设计在256分辨率下将潜在空间大小减少了3.3倍，无需复杂的条件机制或噪声调度。此外，FlowTok在同一框架下自然扩展至图像到文本的生成。凭借其围绕紧凑一维标记构建的简洁架构，FlowTok在保持与最先进模型相当性能的同时，具有极高的内存效率，显著减少了训练资源需求，并实现了更快的采样速度。代码将在https://github.com/bytedance/1d-tokenizer 提供。

探索联邦学习的脆弱性：深入剖析梯度反演攻击
Exploring the Vulnerabilities of Federated Learning: A Deep Dive into Gradient Inversion Attacks

Mar 13

ByPengxin Guo, Runxi Wang, Shuang Zeng, Jinjing Zhu, Haoning Jiang, Yanran Wang, Yuyin Zhou, Feifei Wang, Hui Xiong, Liangqiong Qu

联邦学习（Federated Learning, FL）作为一种无需共享原始数据的隐私保护协作模型训练范式，已展现出巨大潜力。然而，近期研究表明，通过共享的梯度信息仍可能泄露隐私，并遭受梯度反演攻击（Gradient Inversion Attacks, GIA）的威胁。尽管已有多种GIA方法被提出，但针对这些方法的详细分析、评估与总结仍显不足。虽然多篇综述论文总结了FL中现有的隐私攻击手段，但鲜有研究通过大量实验揭示GIA的有效性及其相关限制因素。为填补这一空白，我们首先对GIA进行了系统性回顾，并将现有方法分为三类：基于优化的GIA（OP-GIA）、基于生成的GIA（GEN-GIA）和基于分析的GIA（ANA-GIA）。随后，我们全面分析并评估了FL中这三类GIA，深入探讨了影响其性能、实用性和潜在威胁的因素。研究发现，尽管OP-GIA表现不尽如人意，却是最实用的攻击场景；而GEN-GIA依赖众多，ANA-GIA则易于被检测，两者均不实用。最后，我们为用户设计FL框架和协议时提供了一个三阶段防御流程，以增强隐私保护，并从攻击者与防御者的角度分享了一些我们认为应探索的未来研究方向。我们期望本研究能帮助研究人员设计出更健壮的FL框架，以抵御此类攻击。

TxAgent：一款跨工具宇宙进行诊疗推理的AI智能体
TxAgent: An AI Agent for Therapeutic Reasoning Across a Universe of Tools

Mar 14

ByShanghua Gao, Richard Zhu, Zhenglun Kong, Ayush Noori, Xiaorui Su, Curtis Ginder, Theodoros Tsiligkaridis, Marinka Zitnik

精准医疗需要多模态自适应模型来生成个性化治疗建议。我们推出了TxAgent，这是一款AI智能体，它利用多步推理和实时生物医学知识检索，通过一个包含211种工具的工具箱来分析药物相互作用、禁忌症及针对患者的特定治疗策略。TxAgent评估药物在分子、药代动力学和临床层面的相互作用，根据患者共病和并发用药情况识别禁忌症，并依据个体患者特征定制治疗策略。它从多个生物医学来源检索并综合证据，评估药物与患者状况之间的相互作用，并通过迭代推理优化治疗建议。TxAgent根据任务目标选择工具，并执行结构化函数调用，以解决需要临床推理和跨源验证的治疗任务。ToolUniverse整合了来自可信来源的211种工具，包括自1939年以来所有美国FDA批准的药物以及Open Targets验证的临床见解。TxAgent在五个新基准测试（DrugPC、BrandPC、GenericPC、TreatmentPC和DescriptionPC）中超越了领先的大型语言模型、工具使用模型和推理智能体，覆盖了3,168个药物推理任务和456个个性化治疗场景。在开放式药物推理任务中，TxAgent达到了92.1%的准确率，超越了GPT-4o，并在结构化多步推理中优于DeepSeek-R1（671B）。TxAgent能够泛化处理药物名称变体和描述。通过整合多步推理、实时知识基础和工具辅助决策，TxAgent确保治疗建议符合既定的临床指南和现实世界证据，降低不良事件风险，提升治疗决策质量。

Kolmogorov-Arnold注意力机制：可学习的注意力是否更适合视觉Transformer？
Kolmogorov-Arnold Attention: Is Learnable Attention Better For Vision Transformers?

Mar 13

BySubhajit Maity, Killian Hitsman, Xin Li, Aritra Dutta

Kolmogorov-Arnold网络（KANs）是一项引人注目的创新，其核心在于可学习的激活函数，这些函数具备捕捉数据中更复杂关系的潜力。尽管KANs在寻找符号表示及一维函数的持续学习方面表现出色，但它们在多样化机器学习（ML）任务，如视觉任务中的有效性仍存疑。目前，KANs通过替换深度网络架构中的多层感知机（MLPs）得以应用，包括视觉Transformer（ViTs）等先进架构。本文首次设计了一种通用的可学习Kolmogorov-Arnold注意力机制（KArAt），适用于基础ViTs，能够在任意基函数选择下运作。然而，训练过程中的计算与内存成本促使我们提出了一种更为模块化的版本，并设计了特定的可学习注意力机制，称为傅里叶-KArAt。傅里叶-KArAt及其变体在CIFAR-10、CIFAR-100及ImageNet-1K数据集上，要么超越了其对应的ViT模型，要么展现了相当的性能。我们通过分析这些架构的损失景观、权重分布、优化器路径、注意力可视化及频谱行为，深入剖析了它们的性能与泛化能力，并与基础ViTs进行了对比。本文的目的并非创造参数与计算效率均优的注意力机制，而是鼓励社区在理解可学习激活函数的基础上，探索KANs与更先进架构的结合。我们的开源代码及实现细节可在以下网址获取：https://subhajitmaity.me/KArAt。

大规模预训练用于基于视觉的视频描述生成
Large-scale Pre-training for Grounded Video Caption Generation

Mar 13

ByEvangelos Kazakos, Cordelia Schmid, Josef Sivic

我们提出了一种新颖的视频字幕生成与物体定位方法，通过时间密集的边界框将字幕中的物体在视频中精准定位。我们的主要贡献如下：首先，我们介绍了一种大规模自动标注技术，该方法将带有边界框的字幕信息从单帧聚合为时间上密集且一致的边界框标注。我们将此方法应用于HowTo100M数据集，构建了一个名为HowToGround1M的大规模预训练数据集。同时，我们提出了一个名为GROVE的基于视频的字幕生成模型，并在HowToGround1M上进行了预训练。其次，我们引入了一个新数据集iGround，包含3500个视频，配有手工标注的字幕及密集的时空定位边界框，这不仅为我们衡量这一挑战性问题的进展提供了基准，也使我们能够在此高质量小规模数据上微调模型。第三，我们展示了与多个基线模型相比，我们的方法在提出的iGround数据集上达到了最先进的性能，同时在VidSTG和ActivityNet-Entities数据集上也表现优异。通过大量消融实验，我们验证了使用自动标注的HowToGround1M数据集进行预训练，再在手工标注的iGround数据集上微调的重要性，并确认了我们模型关键技术贡献的有效性。

ETCH：通过等变紧致性将身体拟合推广至着装人体
ETCH: Generalizing Body Fitting to Clothed Humans via Equivariant Tightness

Mar 13

ByBoqian Li, Haiwen Feng, Zeyu Cai, Michael J. Black, Yuliang Xiu

将人体适配到三维着装人体点云是一项常见却极具挑战性的任务。传统的基于优化的方法采用多阶段流程，对姿态初始化敏感；而近期基于学习的方法则常在处理多样化姿态和服装类型时面临泛化难题。我们提出了面向着装人体的等变紧密度拟合方法，简称ETCH，这是一种新颖的流程，通过局部近似SE(3)等变性来估计衣物到体表的映射，将紧密度编码为从衣物表面到内在身体的位移向量。基于此映射，姿态不变的身体特征回归稀疏的身体标记点，从而将着装人体拟合简化为内部身体标记点拟合任务。在CAPE和4D-Dress数据集上的大量实验表明，ETCH在宽松衣物下的身体拟合精度（提升16.7%至69.5%）和形状精度（平均提升49.9%）上显著超越了现有最先进方法——无论是忽略紧密度还是考虑紧密度的方案。我们的等变紧密度设计甚至能在一次性（或分布外）设置中将方向误差减少67.2%至89.8%。定性结果展示了ETCH在面对挑战性姿态、未见过的体型、宽松衣物及非刚性动态时的强大泛化能力。我们即将在https://boqian-li.github.io/ETCH/发布代码和模型，以供研究之用。

通过轨迹分布匹配学习少步扩散模型
Learning Few-Step Diffusion Models by Trajectory Distribution Matching

Mar 9

ByYihong Luo, Tianyang Hu, Jiacheng Sun, Yujun Cai, Jing Tang

加速扩散模型采样对于高效部署AIGC至关重要。尽管基于分布匹配和轨迹匹配的扩散蒸馏方法将采样步骤减少至仅需一步，但在复杂任务如文本到图像生成上仍显不足。少步生成在速度与质量间提供了更好的平衡，但现有方法面临一个持续的权衡：分布匹配在多步采样中缺乏灵活性，而轨迹匹配往往导致图像质量欠佳。为弥合这一差距，我们提出了通过轨迹分布匹配（TDM）学习少步扩散模型，这是一种结合了分布与轨迹匹配优势的统一蒸馏范式。我们的方法引入了一种无数据分数蒸馏目标，在分布层面上对齐学生与教师的轨迹。此外，我们开发了一种采样步骤感知目标，解耦不同步骤的学习目标，实现更可调的采样。此方法既支持确定性采样以获得更优图像质量，也支持灵活的多步适应，以卓越效率达到最先进性能。我们的模型TDM在多种骨干网络（如SDXL和PixArt-alpha）上均超越现有方法，提供更高质量并显著降低训练成本。特别地，我们的方法将PixArt-alpha蒸馏为一个4步生成器，在1024分辨率下以真实用户偏好超越其教师模型，仅需500次迭代和2个A800小时——仅为教师模型训练成本的0.01%。此外，我们提出的TDM还可扩展用于加速文本到视频扩散。值得注意的是，TDM在VBench上仅使用4次NFE即可超越其教师模型（CogVideoX-2B），将总分从80.91提升至81.65。项目页面：https://tdm-t2x.github.io/

邻域自回归建模用于高效视觉生成
Neighboring Autoregressive Modeling for Efficient Visual Generation

Mar 12

ByYefei He, Yuanyu He, Shaoxuan He, Feng Chen, Hong Zhou, Kaipeng Zhang, Bohan Zhuang

视觉自回归模型通常遵循一种光栅顺序的“下一令牌预测”范式，这种范式忽视了视觉内容中固有的空间与时间局部性。具体而言，视觉令牌与其空间或时间上相邻的令牌之间的相关性，远强于与远处令牌的相关性。本文提出了一种新颖的范式——邻近自回归建模（NAR），它将自回归视觉生成表述为一个渐进式外推过程，遵循由近及远的“下一邻居预测”机制。从初始令牌出发，其余令牌按照其在时空空间中与初始令牌的曼哈顿距离升序解码，逐步扩展已解码区域的边界。为了实现时空空间中多个相邻令牌的并行预测，我们引入了一组面向维度的解码头，每个解码头沿相互正交的维度预测下一个令牌。在推理过程中，所有与已解码令牌相邻的令牌均被并行处理，从而大幅减少了生成所需的模型前向步骤。在ImageNet256×256和UCF101上的实验表明，与PAR-4X方法相比，NAR在图像和视频生成任务中分别实现了2.4倍和8.6倍的吞吐量提升，同时获得了更优的FID/FVD分数。在文本到图像生成基准测试GenEval上评估时，拥有0.8B参数的NAR在仅使用0.4倍训练数据的情况下，表现优于Chameleon-7B。代码已发布于https://github.com/ThisisBillhe/NAR。

从TOWER到SPIRE：为纯文本大语言模型增添语音模态
From TOWER to SPIRE: Adding the Speech Modality to a Text-Only LLM

Mar 13

ByKshitij Ambilduke, Ben Peters, Sonal Sannigrahi, Anil Keshwani, Tsz Kin Lam, Bruno Martins, Marcely Zanon Boito, André F. T. Martins

大型语言模型（LLMs）在多种语言和任务中展现出了卓越的性能与泛化能力，这使其成为多模态集成（如图像或语音）极具吸引力的目标。在本研究中，我们通过语音离散化及持续预训练，将现有LLM扩展至语音模态。特别地，我们对多语言LLM（如TOWER）感兴趣，因其预训练设置允许我们将离散化语音输入视为一种额外的翻译语言。由此产生的开源模型SPIRE，能够转录并翻译英语语音输入，同时保持TOWER在翻译相关任务上的原有性能，证明了在LLM适应过程中将离散化语音输入作为附加语言进行集成是可行的。我们向社区公开了代码与模型。

ARMOR v0.1：通过非对称协同赋能自回归多模态理解模型，实现交错多模态生成
ARMOR v0.1: Empowering Autoregressive Multimodal Understanding Model with Interleaved Multimodal Generation via Asymmetric Synergy

Mar 9

ByJianwen Sun, Yukang Feng, Chuanhao Li, Fanrui Zhang, Zizhen Li, Jiaxin Ai, Sizhuo Zhou, Yu Dai, Shenglin Zhang, Kaipeng Zhang

统一模型（UniMs）在视觉与语言领域中的多模态理解与生成能力近期备受关注。现有的UniMs旨在同时学习多模态理解与生成能力，这要求大量的计算资源，且常难以实现文本与图像的交替生成。我们提出了ARMOR，一个资源高效且纯自回归的框架，通过微调现有的多模态大语言模型（MLLMs）来实现理解与生成的双重目标。具体而言，ARMOR从三个方面扩展了现有MLLMs：（1）在模型架构上，引入了一种带有前向切换机制的非对称编码器-解码器架构，以统一文本与视觉模态的嵌入空间，从而在最小计算开销下实现自然的文本-图像交替生成。（2）在训练数据方面，精心收集了一个高质量交替数据集用于微调MLLMs。（3）在训练算法上，我们提出了一种“生成什么或如何生成”的算法，通过基于收集数据集的三个渐进训练阶段，赋予现有MLLMs多模态生成能力，同时保留其多模态理解能力。实验结果表明，ARMOR利用有限的训练资源，将现有MLLMs升级为具备良好图像生成能力的UniMs。我们的代码即将发布于https://armor.github.io。

MaRI：跨领域材料检索集成
MaRI: Material Retrieval Integration across Domains

Mar 11

ByJianhui Wang, Zhifei Yang, Yangfan He, Huixiong Zhang, Yuxuan Chen, Jingwei Huang

精确的材料检索对于创建逼真的3D资产至关重要。现有方法依赖于捕捉形状不变和光照变化的材料表示的数据集，这些数据集稀缺且面临多样性有限和现实世界泛化能力不足的挑战。当前大多数方法采用传统的图像搜索技术，它们在捕捉材料空间独特属性方面表现欠佳，导致检索任务性能不佳。针对这些挑战，我们提出了MaRI框架，旨在弥合合成材料与真实世界材料之间的特征空间差距。MaRI通过联合训练图像编码器和材料编码器，采用对比学习策略构建了一个共享嵌入空间，该空间协调了视觉和材料属性，使相似的材料和图像在特征空间中更接近，同时分离不相似的对。为此，我们构建了一个全面的数据集，包含高质量合成材料，这些材料在受控的形状变化和多样光照条件下渲染，以及使用材料传递技术处理和标准化的真实世界材料。大量实验表明，MaRI在多样且复杂的材料检索任务中表现出卓越的性能、准确性和泛化能力，超越了现有方法。

ProJudge：面向多模态大语言模型流程判定的多领域基准与指令微调数据集
ProJudge: A Multi-Modal Multi-Discipline Benchmark and Instruction-Tuning Dataset for MLLM-based Process Judges

Mar 9

ByJiaxin Ai, Pengfei Zhou, Zhaopan Xu, Ming Li, Fanrui Zhang, Zizhen Li, Jianwen Sun, Yukang Feng, Baojin Huang, Zhongyuan Wang, Kaipeng Zhang

鉴于多模态大语言模型（MLLMs）在解决科学问题时频繁出现错误，评估其推理过程的有效性对于确保可靠性及揭示模型细粒度弱点至关重要。由于人工评估既费时又成本高昂，将MLLMs作为自动化过程评判者已成为普遍做法。然而，这些基于模型的评判者的可靠性仍存疑问。为此，我们推出了ProJudgeBench，这是首个专门用于评估基于MLLM的过程评判者能力的综合基准。ProJudgeBench包含2,400个测试案例和50,118个步骤级标签，涵盖四个科学领域，具有多样化的难度级别和多模态内容。在ProJudgeBench中，每个步骤均由人类专家精心标注其正确性、错误类型及解释，从而系统评估评判者在检测、分类和诊断错误方面的能力。在ProJudgeBench上的评估显示，开源模型与专有模型之间存在显著的性能差距。为弥合这一差距，我们进一步提出了ProJudge-173k，一个大规模指令微调数据集，以及动态双阶段微调策略，该策略鼓励模型在评估解决方案前先通过问题解决进行显式推理。这两项贡献显著提升了开源模型的过程评估能力。所有资源将公开发布，以促进未来关于可靠多模态过程评估的研究。

CHOrD：生成无碰撞、房屋规模且有序的3D室内场景数字孪生，具备可控平面图与最优布局
CHOrD: Generation of Collision-Free, House-Scale, and Organized Digital Twins for 3D Indoor Scenes with Controllable Floor Plans and Optimal Layouts

Mar 15

ByChong Su, Yingbin Fu, Zheyuan Hu, Jing Yang, Param Hanji, Shaojun Wang, Xuan Zhao, Cengiz Öztireli, Fangcheng Zhong

我们推出CHOrD，一个用于可扩展三维室内场景合成的新颖框架，旨在创建房屋规模、无碰撞且层次结构化的室内数字孪生体。与现有方法直接以场景图或对象列表形式合成场景布局不同，CHOrD引入了一种基于二维图像的中间布局表示，通过在生成过程中成功捕捉分布外（OOD）场景，有效预防了碰撞伪影。此外，区别于现有技术，CHOrD能够生成遵循复杂平面图的多模态控制场景布局，从而创造出在房间结构的几何与语义变化上均保持一致的整屋布局。同时，我们提出了一套新数据集，该数据集在家庭物品和房间配置的覆盖范围上有所扩展，数据质量也显著提升。CHOrD在3D-FRONT及我们提出的数据集上均展现了最先进的性能，实现了适应任意平面图变化、空间连贯且逼真的室内场景合成。

TreeMeshGPT：基于自回归树序列的艺术化网格生成
TreeMeshGPT: Artistic Mesh Generation with Autoregressive Tree Sequencing

Mar 14

ByStefan Lionar, Jiabin Liang, Gim Hee Lee

我们推出了TreeMeshGPT，这是一种自回归Transformer模型，旨在生成与输入点云对齐的高质量艺术网格。不同于传统自回归Transformer中的下一令牌预测，我们提出了一种新颖的自回归树序列生成方法，其中下一输入令牌是从一个动态增长的树结构中检索而来，该树结构基于网格内三角形面的邻接关系构建。我们的序列生成方法使得网格能够在每一步从最后生成的三角形面局部扩展，从而降低了训练难度并提升了网格质量。我们的方法通过两个令牌表示每个三角形面，与朴素的面令牌化相比，实现了约22%的压缩率。这种高效的令牌化使我们的模型能够生成具有强烈点云约束的高度细节化艺术网格，在容量和保真度上均超越了以往方法。此外，我们的方法生成的网格具有严格的法线方向约束，最大限度地减少了以往方法中常见的法线翻转问题。实验表明，TreeMeshGPT通过精细的细节和法线方向一致性显著提升了网格生成的质量。

大型推理模型能否在感知不确定性下进行类比推理？
Can Large Reasoning Models do Analogical Reasoning under Perceptual Uncertainty?

Mar 14

ByGiacomo Camposampiero, Michael Hersche, Roger Wattenhofer, Abu Sebastian, Abbas Rahimi

本研究首次评估了两款最先进的大型推理模型（LRMs）——OpenAI的o3-mini与DeepSeek R1——在类比推理上的表现，重点关注基于瑞文渐进矩阵的非言语人类智商测试。我们以I-RAVEN数据集及其更具挑战性的扩展版I-RAVEN-X为基准，后者测试了模型对更长推理规则及属性值范围的泛化能力。为了评估视觉不确定性对这些非言语类比推理测试的影响，我们对I-RAVEN-X数据集进行了扩展，该数据集原本假设了完美的感知能力。我们采用双重策略来模拟这种不完美的视觉感知：1）引入混淆属性，这些属性随机采样，不参与谜题正确答案的预测；2）平滑输入属性值的分布。我们观察到，OpenAI的o3-mini任务准确率急剧下降，从原始I-RAVEN上的86.6%降至更具挑战性的I-RAVEN-X上的仅17.0%——接近随机猜测水平——尽管推理令牌使用量增加了3.4倍。DeepSeek R1也呈现相似趋势，准确率从80.6%降至23.2%。另一方面，在I-RAVEN上达到顶尖性能的神经符号概率溯因模型ARLC，在所有这些分布外测试中均能稳健推理，仅从98.6%小幅降至88.0%，保持了较高的准确率。我们的代码已公开于https://github.com/IBM/raven-large-language-models。

从非分段演示中实现开放世界技能发现
Open-World Skill Discovery from Unsegmented Demonstrations

Mar 11

ByJingwen Deng, Zihao Wang, Shaofei Cai, Anji Liu, Yitao Liang

在开放世界环境中学习技能对于开发能够通过组合基本技能处理多种任务的智能体至关重要。在线演示视频通常较长且未分段，这使得它们难以被分割并标注技能标识。与依赖序列采样或人工标注的现有方法不同，我们开发了一种基于自监督学习的方法，将这些长视频分割成一系列语义感知且技能一致的片段。借鉴人类认知事件分割理论，我们引入了技能边界检测（SBD），这是一种无需标注的时间视频分割算法。SBD通过利用预训练的无条件动作预测模型的预测误差来检测视频中的技能边界。该方法基于一个假设，即预测误差的显著增加表明正在执行的技能发生了转变。我们在《我的世界》这一拥有丰富在线游戏视频的开放世界模拟器中评估了我们的方法。由SBD生成的片段将条件策略在短期原子技能任务上的平均性能提升了63.7%和52.1%，其对应的分层智能体在长期任务上的性能提升了11.3%和20.8%。我们的方法能够利用多样化的YouTube视频来训练遵循指令的智能体。项目页面可在https://craftjarvis.github.io/SkillDiscovery找到。

Cockatiel：融合合成与人类偏好训练的精细视频描述生成
Cockatiel: Ensembling Synthetic and Human Preferenced Training for Detailed Video Caption

Mar 12

ByLuozheng Qin, Zhiyu Tan, Mengping Yang, Xiaomeng Yang, Hao Li

视频详细描述（VDC）是视觉与语言桥梁构建中的关键任务，旨在对复杂视频内容进行细粒度描述。本文首先全面评估了当前最先进的方法，并系统性地识别出两大关键局限：对特定描述方面的能力偏倚以及与人类偏好的错位。针对这些不足，我们提出了Cockatiel，一种新颖的三阶段训练流程，通过集成合成数据与人类对齐训练来提升VDC性能。第一阶段，我们基于精心标注的数据集构建评分器，筛选出在特定细粒度视频-描述对齐及人类偏好方面表现优异的合成描述，同时舍弃其他。随后，利用这一精选数据集训练Cockatiel-13B，使其融合模型优势与人类偏好。最后，为进一步简化使用，我们从Cockatiel-13B中蒸馏出Cockatiel-8B。大量定量与定性实验验证了方法的有效性，我们不仅在VDCSCORE上以维度均衡的方式刷新了最新性能记录，而且根据人类评估结果，在人类偏好方面大幅领先于其他领先方案。

GoalFlow：面向端到端自动驾驶的多模态轨迹生成之目标驱动流匹配
GoalFlow: Goal-Driven Flow Matching for Multimodal Trajectories Generation in End-to-End Autonomous Driving

Mar 7

ByZebin Xing, Xingyu Zhang, Yang Hu, Bo Jiang, Tong He, Qian Zhang, Xiaoxiao Long, Wei Yin

我们提出了GoalFlow，一种端到端的自动驾驶方法，用于生成高质量的多模态轨迹。在自动驾驶场景中，单一合适的轨迹极为罕见。近期方法日益关注于建模多模态轨迹分布，然而，它们因轨迹选择复杂度高、轨迹间差异过大以及引导信息与场景信息不一致而面临轨迹质量下降的问题。为解决这些问题，我们引入了GoalFlow，这一新颖方法有效约束生成过程，以产出高质量的多模态轨迹。针对基于扩散方法固有的轨迹发散问题，GoalFlow通过引入目标点来约束生成轨迹。GoalFlow建立了一种新颖的评分机制，依据场景信息从候选点中选取最合适的目标点。此外，GoalFlow采用高效的生成方法——流匹配（Flow Matching）来生成多模态轨迹，并结合精炼的评分机制从候选轨迹中选出最优解。我们的实验结果在NavsimDauner2024_navsim上得到验证，表明GoalFlow实现了业界领先的性能，为自动驾驶提供了稳健的多模态轨迹。GoalFlow的PDMS达到了90.3，显著超越其他方法。与基于扩散策略的其他方法相比，我们的方法仅需一次去噪步骤即可获得卓越性能。代码已发布于https://github.com/YvanYin/GoalFlow。

群体鲁棒的机器遗忘
Group-robust Machine Unlearning

Mar 12

ByThomas De Min, Subhankar Roy, Stéphane Lathuilière, Elisa Ricci, Massimiliano Mancini

机器遗忘是一种新兴范式，旨在从模型中移除特定训练数据（即遗忘集）的影响，同时保留其对剩余数据（即保留集）的知识。先前的方法假设遗忘数据在所有训练数据点中均匀分布。然而，若需遗忘的数据在某一群体中占据主导地位，我们通过实验证明该群体的性能会下降，从而引发公平性问题。本研究针对这一被忽视的非均匀分布遗忘集问题，提出了群体鲁棒性机器遗忘的概念，并介绍了一种简单有效的策略，通过样本分布重加权来缓解主导群体的性能损失。此外，我们提出了MIU（互信息感知的机器遗忘），这是首个在近似机器遗忘中实现群体鲁棒性的方法。MIU通过最小化模型特征与群体信息之间的互信息，在实现遗忘的同时减少遗忘集中主导群体的性能下降。MIU还利用样本分布重加权和与原模型的互信息校准，以保持群体鲁棒性。我们在三个数据集上进行了实验，结果表明MIU优于标准方法，实现了遗忘且不损害模型鲁棒性。源代码可在https://github.com/tdemin16/group-robust_machine_unlearning获取。

AI研究论文每日精选

每日精选AI研究论文及翻译

ReCamMaster：基于单视频的相机控制生成式渲染
ReCamMaster: Camera-Controlled Generative Rendering from A Single Video

Mar 14

ByJianhong Bai, Menghan Xia, Xiao Fu, Xintao Wang, Lianrui Mu, Jinwen Cao, Zuozhu Liu, Haoji Hu, Xiang Bai, Pengfei Wan, Di Zhang

146

SmolDocling：一款超紧凑的视觉-语言模型，用于端到端的多模态文档转换
SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion

Mar 14

138

PLADIS：利用稀疏性在推理时突破扩散模型注意力机制的极限
PLADIS: Pushing the Limits of Attention in Diffusion Models at Inference Time by Leveraging Sparsity

Mar 10

ByKwanyoung Kim, Byeongsu Sim

API代理与GUI代理：分化与融合
API Agents vs. GUI Agents: Divergence and Convergence

Mar 14

ByChaoyun Zhang, Shilin He, Liqun Li, Si Qin, Yu Kang, Qingwei Lin, Dongmei Zhang

VGGT：基于视觉几何的Transformer模型
VGGT: Visual Geometry Grounded Transformer

Mar 14

ByJianyuan Wang, Minghao Chen, Nikita Karaev, Andrea Vedaldi, Christian Rupprecht, David Novotny

对抗性数据采集：人机协作扰动助力高效稳健的机器人模仿学习
Adversarial Data Collection: Human-Collaborative Perturbations for Efficient and Robust Robotic Imitation Learning

Mar 14

BySiyuan Huang, Yue Liao, Siyuan Feng, Shu Jiang, Si Liu, Hongsheng Li, Maoqing Yao, Guanghui Ren

效能与效率技术：状态空间模型综述
Technologies on Effectiveness and Efficiency: A Survey of State Spaces Models

Mar 14

ByXingtai Lv, Youbang Sun, Kaiyan Zhang, Shang Qu, Xuekai Zhu, Yuchen Fan, Yi Wu, Ermo Hua, Xinwei Long, Ning Ding, Bowen Zhou

Vamba：利用混合Mamba-Transformer架构理解时长一小时的视频
Vamba: Understanding Hour-Long Videos with Hybrid Mamba-Transformers

Mar 14

ByWeiming Ren, Wentao Ma, Huan Yang, Cong Wei, Ge Zhang, Wenhu Chen

FlowTok：在文本与图像标记间无缝流转
FlowTok: Flowing Seamlessly Across Text and Image Tokens

Mar 13

ByJu He, Qihang Yu, Qihao Liu, Liang-Chieh Chen

探索联邦学习的脆弱性：深入剖析梯度反演攻击
Exploring the Vulnerabilities of Federated Learning: A Deep Dive into Gradient Inversion Attacks

Mar 13

ByPengxin Guo, Runxi Wang, Shuang Zeng, Jinjing Zhu, Haoning Jiang, Yanran Wang, Yuyin Zhou, Feifei Wang, Hui Xiong, Liangqiong Qu

TxAgent：一款跨工具宇宙进行诊疗推理的AI智能体
TxAgent: An AI Agent for Therapeutic Reasoning Across a Universe of Tools

Mar 14

ByShanghua Gao, Richard Zhu, Zhenglun Kong, Ayush Noori, Xiaorui Su, Curtis Ginder, Theodoros Tsiligkaridis, Marinka Zitnik

Kolmogorov-Arnold注意力机制：可学习的注意力是否更适合视觉Transformer？
Kolmogorov-Arnold Attention: Is Learnable Attention Better For Vision Transformers?

Mar 13

BySubhajit Maity, Killian Hitsman, Xin Li, Aritra Dutta

大规模预训练用于基于视觉的视频描述生成
Large-scale Pre-training for Grounded Video Caption Generation

Mar 13

ByEvangelos Kazakos, Cordelia Schmid, Josef Sivic

ETCH：通过等变紧致性将身体拟合推广至着装人体
ETCH: Generalizing Body Fitting to Clothed Humans via Equivariant Tightness

Mar 13

ByBoqian Li, Haiwen Feng, Zeyu Cai, Michael J. Black, Yuliang Xiu

通过轨迹分布匹配学习少步扩散模型
Learning Few-Step Diffusion Models by Trajectory Distribution Matching

Mar 9

ByYihong Luo, Tianyang Hu, Jiacheng Sun, Yujun Cai, Jing Tang

邻域自回归建模用于高效视觉生成
Neighboring Autoregressive Modeling for Efficient Visual Generation

Mar 12

ByYefei He, Yuanyu He, Shaoxuan He, Feng Chen, Hong Zhou, Kaipeng Zhang, Bohan Zhuang

从TOWER到SPIRE：为纯文本大语言模型增添语音模态
From TOWER to SPIRE: Adding the Speech Modality to a Text-Only LLM

Mar 13

ByKshitij Ambilduke, Ben Peters, Sonal Sannigrahi, Anil Keshwani, Tsz Kin Lam, Bruno Martins, Marcely Zanon Boito, André F. T. Martins

ARMOR v0.1：通过非对称协同赋能自回归多模态理解模型，实现交错多模态生成
ARMOR v0.1: Empowering Autoregressive Multimodal Understanding Model with Interleaved Multimodal Generation via Asymmetric Synergy

Mar 9

ByJianwen Sun, Yukang Feng, Chuanhao Li, Fanrui Zhang, Zizhen Li, Jiaxin Ai, Sizhuo Zhou, Yu Dai, Shenglin Zhang, Kaipeng Zhang

MaRI：跨领域材料检索集成
MaRI: Material Retrieval Integration across Domains

Mar 11

ByJianhui Wang, Zhifei Yang, Yangfan He, Huixiong Zhang, Yuxuan Chen, Jingwei Huang

ProJudge：面向多模态大语言模型流程判定的多领域基准与指令微调数据集
ProJudge: A Multi-Modal Multi-Discipline Benchmark and Instruction-Tuning Dataset for MLLM-based Process Judges

Mar 9

ByJiaxin Ai, Pengfei Zhou, Zhaopan Xu, Ming Li, Fanrui Zhang, Zizhen Li, Jianwen Sun, Yukang Feng, Baojin Huang, Zhongyuan Wang, Kaipeng Zhang

CHOrD：生成无碰撞、房屋规模且有序的3D室内场景数字孪生，具备可控平面图与最优布局
CHOrD: Generation of Collision-Free, House-Scale, and Organized Digital Twins for 3D Indoor Scenes with Controllable Floor Plans and Optimal Layouts

Mar 15

ByChong Su, Yingbin Fu, Zheyuan Hu, Jing Yang, Param Hanji, Shaojun Wang, Xuan Zhao, Cengiz Öztireli, Fangcheng Zhong

GoalFlow：面向端到端自动驾驶的多模态轨迹生成之目标驱动流匹配
GoalFlow: Goal-Driven Flow Matching for Multimodal Trajectories Generation in End-to-End Autonomous Driving

Mar 7

ByZebin Xing, Xingyu Zhang, Yang Hu, Bo Jiang, Tong He, Qian Zhang, Xiaoxiao Long, Wei Yin

群体鲁棒的机器遗忘
Group-robust Machine Unlearning

Mar 12

ByThomas De Min, Subhankar Roy, Stéphane Lathuilière, Elisa Ricci, Massimiliano Mancini