AI研究论文每日精选

每日精选AI研究论文及翻译

字节潜变换器：补丁比记号更好地扩展规模
Byte Latent Transformer: Patches Scale Better Than Tokens

Dec 13

ByArtidoro Pagnoni, Ram Pasunuru, Pedro Rodriguez, John Nguyen, Benjamin Muller, Margaret Li, Chunting Zhou, Lili Yu, Jason Weston, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Ari Holtzman, Srinivasan Iyer

108

我们介绍了Byte Latent Transformer（BLT），这是一种新的字节级LLM架构，首次在规模上与基于标记化的LLM性能相匹配，并且在推理效率和鲁棒性方面有显著改进。BLT将字节编码为动态大小的补丁，这些补丁作为计算的主要单位。补丁根据下一个字节的熵进行分段，根据数据复杂性增加需求，分配更多的计算和模型容量。我们展示了字节级模型的第一个FLOP受控缩放研究，参数规模达到8B，训练字节为4T。我们的结果表明，在没有固定词汇表的情况下扩展在原始字节上训练的模型的可行性。由于在数据可预测时动态选择长补丁，训练和推理效率均得到改善，并在推理和长尾泛化方面取得了定性改进。总体而言，对于固定推理成本，BLT显示出比基于标记化的模型更好的扩展性，同时增加补丁和模型大小。

评估代理：用于视觉生成模型的高效且可提示的评估框架
Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models

Dec 10

ByFan Zhang, Shulin Tian, Ziqi Huang, Yu Qiao, Ziwei Liu

最近视觉生成模型的进展使得高质量图像和视频生成成为可能，开启了多样化的应用。然而，评估这些模型通常需要对数百甚至数千张图像或视频进行采样，使得这一过程在扩散型模型中尤为昂贵，因为这类模型的采样速度本身较慢。此外，现有的评估方法依赖于刻板的流程，忽视了特定用户需求，并提供缺乏清晰解释的数值结果。相比之下，人类可以通过观察少量样本迅速形成对模型能力的印象。为了模仿这一过程，我们提出了评估代理框架，采用类人策略进行高效、动态、多轮次评估，每轮只需少量样本，同时提供详细、用户定制的分析。它具有四个关键优势：1）高效性，2）可根据多样化用户需求进行即时评估，3）超越单一数值评分的可解释性，4）适用于各种模型和工具的可扩展性。实验证明，评估代理能将评估时间缩短至传统方法的10%，同时提供可比较的结果。评估代理框架已完全开源，以推动视觉生成模型及其高效评估的研究。

RetroLLM：赋能大型语言模型以检索生成过程中的细粒度证据
RetroLLM: Empowering Large Language Models to Retrieve Fine-grained Evidence within Generation

Dec 16

ByXiaoxi Li, Jiajie Jin, Yujia Zhou, Yongkang Wu, Zhonghua Li, Qi Ye, Zhicheng Dou

大型语言模型（LLMs）展现出卓越的生成能力，但常常出现幻觉。检索增强生成（RAG）通过整合外部知识提供了有效解决方案，但现有方法仍然面临一些限制：独立检索器的额外部署成本、来自检索文本块的冗余输入标记，以及检索和生成的联合优化不足。为了解决这些问题，我们提出了RetroLLM，这是一个统一的框架，将检索和生成整合为一个统一的过程，使LLMs能够直接从语料库中生成细粒度证据并进行受限解码。此外，为了减轻在受限证据生成过程中的错误修剪，我们引入了（1）分层FM-Index约束，生成受语料库约束的线索，以在生成证据之前识别相关文档子集，减少无关的解码空间；以及（2）前瞻性受限解码策略，考虑未来序列的相关性以提高证据准确性。对五个开放领域问答数据集的广泛实验表明，RetroLLM在领域内和领域外任务中均表现出优越性能。代码可在https://github.com/sunnynexus/RetroLLM 上找到。

BrushEdit：一体化图像修复和编辑
BrushEdit: All-In-One Image Inpainting and Editing

Dec 13

ByYaowei Li, Yuxuan Bian, Xuan Ju, Zhaoyang Zhang, Ying Shan, Qiang Xu

随着使用基于反演和基于指令的方法开发扩散模型，图像编辑已取得显著进展。然而，当前基于反演的方法在处理大修改（例如添加或移除对象）时存在困难，这是由于反演噪声的结构化特性，阻碍了实质性的更改。与此同时，基于指令的方法通常限制用户进行黑盒操作，限制了直接交互以指定编辑区域和强度。为了解决这些限制，我们提出了BrushEdit，这是一种新颖的基于修补的指令引导图像编辑范式，利用多模态大语言模型（MLLMs）和图像修补模型，实现了自主、用户友好和交互式的自由形式指令编辑。具体来说，我们设计了一个系统，通过在代理合作框架中集成MLLMs和双分支图像修补模型，实现了自由形式指令编辑，以执行编辑类别分类、主要对象识别、蒙版获取和编辑区域修补。大量实验证明，我们的框架有效地结合了MLLMs和修补模型，在包括蒙版区域保留和编辑效果连贯性在内的七个指标上实现了卓越性能。

较小的语言模型更适合作为指导演进器
Smaller Language Models Are Better Instruction Evolvers

Dec 15

ByTingfeng Hui, Lulu Zhao, Guanting Dong, Yaqi Zhang, Hua Zhou, Sen Su

指导调整已被广泛应用以释放大型语言模型的全部潜力。值得注意的是，复杂和多样化的指导具有重要意义，因为它们可以有效地将模型与各种下游任务对齐。然而，目前构建大规模指导的方法主要偏爱强大的模型，如GPT-4或具有超过700亿参数的模型，基于这样的经验假设，即这些更大的语言模型（LLMs）固有地具有增强的能力。在这项研究中，我们质疑这一普遍假设，并深入探讨了较小语言模型（SLMs）在指导演变背景下的潜力。对指导演变的三种场景进行了广泛实验，结果显示，较小语言模型（SLMs）可以比LLMs合成更有效的指导。进一步分析表明，SLMs在指导演变过程中具有更广泛的输出空间，导致更复杂和多样化的变体。我们还观察到，现有的度量未能专注于指导的影响。因此，我们提出了指导复杂感知IFD（IC-IFD），它在原始IFD分数中引入指导复杂度，以更准确地评估指导数据的有效性。我们的源代码可在以下链接找到：https://github.com/HypherX/Evolution-Analysis {https://github.com/HypherX/Evolution-Analysis}

ColorFlow: 检索增强型图像序列着色
ColorFlow: Retrieval-Augmented Image Sequence Colorization

Dec 16

ByJunhao Zhuang, Xuan Ju, Zhaoyang Zhang, Yong Liu, Shiyi Zhang, Chun Yuan, Ying Shan

在保留角色和物体身份的前提下自动对黑白图像序列进行着色是一项具有重要市场需求的复杂任务，例如在卡通或漫画系列的着色中。尽管使用大规模生成模型（如扩散模型）在视觉着色方面取得了进展，但在可控性和身份一致性方面仍存在挑战，使当前解决方案不适用于工业应用。为了解决这一问题，我们提出了ColorFlow，这是一个专为工业应用中的图像序列着色而定制的三阶段扩散框架。与现有方法需要进行基于身份的微调或明确的身份嵌入提取不同，我们提出了一种新颖的强大且通用的检索增强着色管道，用于使用相关颜色参考对图像进行着色。我们的管道还采用了双分支设计：一个分支用于颜色身份提取，另一个用于着色，充分利用了扩散模型的优势。我们利用扩散模型中的自注意机制进行强大的上下文学习和颜色身份匹配。为了评估我们的模型，我们引入了ColorFlow-Bench，这是一个用于基于参考的着色的全面基准。结果显示，ColorFlow在多个指标上优于现有模型，为顺序图像着色设定了新标准，并有望使艺术行业受益。我们在项目页面上发布了我们的代码和模型：https://zhuang2002.github.io/ColorFlow/。

因果扩散变换器用于生成建模
Causal Diffusion Transformers for Generative Modeling

Dec 16

ByChaorui Deng, Deyao Zh, Kunchang Li, Shi Guan, Haoqi Fan

我们介绍了因果扩散（Causal Diffusion），作为扩散模型的自回归（AR）对应物。它是一个友好于离散和连续模态的下一个标记预测框架，并且与现有的下一个标记预测模型（如LLaMA和GPT）兼容。尽管最近的研究尝试将扩散与AR模型结合起来，但我们表明，向扩散模型引入顺序分解可以显著提高其性能，并实现在AR和扩散生成模式之间平稳过渡。因此，我们提出了CausalFusion - 一个仅解码器的变压器，通过跨顺序标记和扩散噪声水平进行双因子分解数据，从而在ImageNet生成基准测试中取得了最先进的结果，同时也享受生成任意数量标记以进行上下文推理的AR优势。我们进一步通过联合图像生成和字幕模型展示了CausalFusion的多模态能力，并展示了CausalFusion在零照片上下文图像操作中的能力。我们希望这项工作能为社区提供一个关于训练离散和连续数据上的多模态模型的新视角。

SPaR：自我对弈与树搜索细化，以提高大型语言模型中的指令遵循能力
SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models

Dec 16

ByJiale Cheng, Xiao Liu, Cunxiang Wang, Xiaotao Gu, Yida Lu, Dan Zhang, Yuxiao Dong, Jie Tang, Hongning Wang, Minlie Huang

指令遵循是语言模型的基本能力，要求模型识别指令中甚至最微妙的要求，并准确地在输出中反映这些要求。这种能力非常适合并经常通过偏好学习进行优化。然而，现有方法在创建偏好对时通常直接从模型中抽样多个独立的响应。这种做法可能会引入与是否准确遵循指令无关的内容变化（例如，关于相同语义的不同表达），干扰了教导模型识别导致改进指令遵循的关键差异的目标。鉴于此，我们引入了SPaR，这是一个自我对弈框架，集成了树搜索自我完善，以产生没有干扰的有效可比偏好对。通过自我对弈，一个LLM利用树搜索策略，针对指令优化其先前的响应，同时最小化不必要的变化。我们的实验表明，经过SPaR引导的经过三次迭代训练的LLaMA3-8B模型，在IFEval基准测试中超越了GPT-4-Turbo，而不会失去一般能力。此外，SPaR展现出有望的可扩展性和可迁移性，极大地增强了GLM-4-9B和LLaMA3-70B等模型。我们还确定了树搜索中推理扩展如何影响模型性能。我们的代码和数据可在https://github.com/thu-coai/SPaR 上公开获取。

奇境：从单个图像导航3D场景
Wonderland: Navigating 3D Scenes from a Single Image

Dec 16

ByHanwen Liang, Junli Cao, Vidit Goel, Guocheng Qian, Sergei Korolev, Demetri Terzopoulos, Konstantinos N. Plataniotis, Sergey Tulyakov, Jian Ren

本文探讨了一个具有挑战性的问题：如何能够从单个任意图像高效地创建高质量、广覆盖范围的3D场景？现有方法面临多种限制，例如需要多视角数据、耗时的每场景优化、背景视觉质量低以及未知区域中的重建失真。我们提出了一种新颖的流程来克服这些限制。具体而言，我们引入了一个大规模重建模型，该模型利用视频扩散模型中的潜变量以前向方式预测场景的3D高斯分布。视频扩散模型旨在精确按照指定的摄像机轨迹创建视频，从而能够生成包含多视角信息的压缩视频潜变量，同时保持3D一致性。我们通过渐进式训练策略训练3D重建模型，使其在视频潜变量空间上运行，实现高质量、广覆盖范围和通用的3D场景高效生成。对各种数据集进行的广泛评估表明，我们的模型在单视角3D场景生成方面明显优于现有方法，尤其是在处理域外图像时。我们首次证明了可以有效地基于扩散模型的潜变量空间构建3D重建模型，实现高效的3D场景生成。

VividFace：一种基于扩散的高保真视频人脸交换混合框架
VividFace: A Diffusion-Based Hybrid Framework for High-Fidelity Video Face Swapping

Dec 15

ByHao Shao, Shulun Wang, Yang Zhou, Guanglu Song, Dailan He, Shuo Qin, Zhuofan Zong, Bingqi Ma, Yu Liu, Hongsheng Li

视频换脸在各种应用中变得越来越流行，然而现有方法主要集中在静态图像上，并且在视频换脸方面存在挑战，因为需要考虑时间一致性和复杂场景。本文提出了第一个专为视频换脸设计的基于扩散的框架。我们的方法引入了一种新颖的图像-视频混合训练框架，充分利用丰富的静态图像数据和时间序列视频，解决了仅使用视频训练的固有局限性。该框架结合了一个特别设计的扩散模型和 VidFaceVAE，有效处理两种类型的数据，以更好地保持生成视频的时间一致性。为了进一步解开身份和姿势特征，我们构建了属性-身份解缠三元组（AIDT）数据集，其中每个三元组包含三张人脸图像，其中两张图像共享相同的姿势，两张共享相同的身份。通过全面的遮挡增强，这个数据集还提高了对遮挡的鲁棒性。此外，我们将三维重建技术集成为网络的输入条件，以处理大姿势变化。广泛的实验表明，我们的框架在身份保留、时间一致性和视觉质量方面相对于现有方法表现出优越性能，同时需要更少的推理步骤。我们的方法有效地缓解了视频换脸中的关键挑战，包括时间闪烁、身份保留以及对遮挡和姿势变化的鲁棒性。

高斯属性：将物理属性集成到具有LMMs的3D高斯函数中
GaussianProperty: Integrating Physical Properties to 3D Gaussians with LMMs

Dec 15

ByXinli Xu, Wenhang Ge, Dicong Qiu, ZhiFei Chen, Dongyu Yan, Zhuoyun Liu, Haoyu Zhao, Hanfeng Zhao, Shunsi Zhang, Junwei Liang, Ying-Cong Chen

在计算机视觉、图形学和机器人领域，估计视觉数据的物理特性是一项关键任务，支撑着增强现实、物理模拟和机器人抓取等应用。然而，由于物理特性估计中固有的歧义，这一领域仍未得到充分探索。为了解决这些挑战，我们引入了GaussianProperty，这是一个无需训练的框架，将材料的物理特性分配给3D高斯分布。具体来说，我们将SAM的分割能力与GPT-4V(ision)的识别能力相结合，为2D图像制定了一个全局-局部的物理特性推理模块。然后，我们使用投票策略将多视角2D图像中的物理特性投影到3D高斯分布中。我们证明，带有物理特性注释的3D高斯分布可以应用于基于物理的动态模拟和机器人抓取。对于基于物理的动态模拟，我们利用材料点法（MPM）进行逼真的动态模拟。对于机器人抓取，我们开发了一个抓取力预测策略，根据估计的物理特性来估计抓取物体所需的安全力范围。对材料分割、基于物理的动态模拟和机器人抓取进行的大量实验验证了我们提出方法的有效性，突显了其在从视觉数据中理解物理特性方面的关键作用。在线演示、代码、更多案例和带注释数据集可在https://Gaussian-Property.github.io{此 https URL}上找到。

IDArb：任意数量的输入视图和光照的内在分解
IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations

Dec 16

ByZhibing Li, Tong Wu, Jing Tan, Mengchen Zhang, Jiaqi Wang, Dahua Lin

从图像中捕获几何和材质信息仍然是计算机视觉和图形学中的一个基本挑战。传统的基于优化的方法通常需要数小时的计算时间，从密集的多视角输入中重建几何、材质属性和环境光照，同时仍然在光照和材质之间的固有歧义方面存在困难。另一方面，基于学习的方法利用现有3D对象数据集中丰富的材质先验，但在保持多视角一致性方面面临挑战。在本文中，我们介绍了IDArb，这是一个基于扩散的模型，旨在对在不同照明条件下的任意数量图像执行内在分解。我们的方法实现了对表面法线和材质属性的准确和多视角一致的估计。这得益于一种新颖的跨视图、跨域注意力模块和一种照明增强、视角自适应的训练策略。此外，我们介绍了ARB-Objaverse，这是一个提供大规模多视角内在数据和在不同光照条件下渲染的新数据集，支持强大的训练。大量实验证明，IDArb在质量和数量上均优于现有方法。此外，我们的方法促进了一系列下游任务，包括单图像重照、光度立体和3D重建，突显了其在逼真3D内容创建中的广泛应用。

StrandHead：使用头发几何先验将文本转换为分离的三维头部化身
StrandHead: Text to Strand-Disentangled 3D Head Avatars Using Hair Geometric Priors

Dec 16

ByXiaokun Sun, Zeyu Cai, Zhenyu Zhang, Ying Tai, Jian Yang

虽然发型反映了独特的个性，但现有的头像生成方法未能对实际发型进行建模，因为其通常采用的是一般或纠缠的表示方法。我们提出了StrandHead，一种新颖的文本到3D头像生成方法，能够生成具有串表示的脱缰3D头发。在不使用3D数据进行监督的情况下，我们展示了可以通过提炼2D生成扩散模型从提示中生成逼真的头发串。为此，我们提出了一系列可靠的先验，涉及形状初始化、几何基元和统计发型特征，从而实现稳定的优化和与文本对齐的性能。大量实验证明，StrandHead实现了生成的3D头像和头发的最先进的真实性和多样性。生成的3D头发还可以轻松地在虚幻引擎中进行物理模拟和其他应用。代码将在以下网址提供：https://xiaokunsun.github.io/StrandHead.github.io。

SepLLM：通过将一个段落压缩为一个分隔符来加速大型语言模型
SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator

Dec 16

ByGuoxuan Chen, Han Shi, Jiawei Li, Yihang Gao, Xiaozhe Ren, Yimeng Chen, Xin Jiang, Zhenguo Li, Weiyang Liu, Chao Huang

大型语言模型（LLMs）在各种自然语言处理任务中表现出色。然而，由于其庞大的规模，它们在计算需求和推理速度方面面临着相当大的挑战，这是由于它们的二次复杂性。在这项工作中，我们发现了一个关键模式：某些看似毫无意义的特殊标记（即分隔符）在注意力得分中的贡献远远超过语义上有意义的标记。这一观察结果表明，这些分隔符标记之间的段落信息可以被有效地压缩到分隔符标记本身中，而不会有显著的信息损失。在这一洞察的指导下，我们引入了SepLLM，这是一个即插即用的框架，通过压缩这些段落并消除冗余标记来加速推理。此外，我们实现了用于训练加速的高效内核。跨无训练、从头训练和后训练设置的实验结果显示了SepLLM的有效性。值得注意的是，在Llama-3-8B骨干模型的基础上，SepLLM在GSM8K-CoT基准测试中实现了超过50%的KV缓存减少，同时保持了可比较的性能。此外，在流式处理设置中，SepLLM能够有效处理长达400万个标记或更多的序列，同时保持一致的语言建模能力。

大型语言模型（LLMs）中的开源优势
The Open Source Advantage in Large Language Models (LLMs)

Dec 16

ByJiya Manchanda, Laura Boettcher, Matheus Westphalen, Jasser Jasser

大型语言模型（LLMs）标志着自然语言处理（NLP）中的关键转变，已经在文本生成、翻译和领域特定推理方面取得了进展。像 GPT-4 这样的闭源模型，由专有数据集和大量计算资源驱动，如今在性能上处于领先地位。然而，它们因其“黑匣子”性质以及以一种阻碍可重现性和公平AI发展的方式限制可访问性而受到批评。相比之下，像 LLaMA 和 BLOOM 这样的开源倡议通过社区驱动的开发和计算效率优先考虑民主化。这些模型在减小性能差距方面取得了显著进展，特别是在语言多样性和领域特定应用方面，同时为全球研究人员和开发者提供了可访问的工具。值得注意的是，这两种范式都依赖于基础架构创新，比如 Vaswani 等人（2017）提出的 Transformer 框架。闭源模型通过有效扩展规模而表现出色，而开源模型则适应了未被充分代表的语言和领域的实际应用。像低秩适应（LoRA）和指导调整数据集这样的技术使开源模型在资源有限的情况下取得了竞争性结果。可以肯定的是，闭源和开源方法之间的紧张关系突显了AI中透明度与专有控制的更广泛辩论。伦理考虑进一步凸显了这种分歧。闭源系统限制了外部审查，而开源模型促进了可重现性和协作，但缺乏标准化的审计文档框架来减轻偏见。利用两种范式优势的混合方法可能会塑造LLM创新的未来，确保可访问性、竞争性技术性能和道德部署。

Emma-X：一种具有基于链式思维和前瞻空间推理的具身多模态行为模型
Emma-X: An Embodied Multimodal Action Model with Grounded Chain of Thought and Look-ahead Spatial Reasoning

Dec 16

ByQi Sun, Pengfei Hong, Tej Deep Pala, Vernon Toh, U-Xuan Tan, Deepanway Ghosal, Soujanya Poria

传统的基于强化学习的机器人控制方法通常是特定于任务的，无法在不同环境或未见过的物体和指令中实现泛化。视觉语言模型（VLMs）展现了强大的场景理解和规划能力，但缺乏生成针对特定机器人实体的可操作策略的能力。为解决这一问题，出现了视觉-语言-动作（VLA）模型，然而它们在长期空间推理和基于任务的规划方面面临挑战。在这项工作中，我们提出了具有基于链式思维和前瞻空间推理的具身多模态动作模型，Emma-X。Emma-X利用我们基于BridgeV2构建的分层实体数据集，其中包含60,000个机器人操作轨迹，自动注释了基于任务的推理和空间引导。此外，我们引入了基于夹爪状态和运动轨迹的轨迹分割策略，可以帮助减轻在生成基于地面任务推理的子任务推理时的幻觉。实验结果表明，Emma-X在需要空间推理的真实世界机器人任务中比竞争基准表现出更优异的性能。

精彩的矩阵：结合以打造更高效和有效的基础模型架构
Wonderful Matrices: Combining for a More Efficient and Effective Foundation Model Architecture

Dec 16

ByJingze Shi, Bingheng Wu

为了使基础模型更加高效和有效，我们的想法是结合序列转换和状态转换。首先，我们证明了在状态空间对偶算法中引入旋转位置嵌入的可行性，通过将混合二次因果自注意力和状态空间对偶的困惑度降低了超过4%，以确保结合序列转换统一位置编码。其次，我们提出了动态掩码注意力，对更具挑战性的多查询联想回溯任务保持了100%的准确性，相较于二次因果自注意力和状态空间对偶提高了超过150%，以确保结合序列转换有选择地过滤相关信息。第三，我们设计了跨领域专家混合，使得检索超过1024个专家的专家检索计算速度比专家混合快8到10倍，以确保结合状态转换快速检索混合。最后，我们总结了这些矩阵算法，可以构建基础模型：奇妙矩阵，可以成为流行模型架构的竞争对手。

DynamicScaler：全景场景视频生成的无缝可扩展性。
DynamicScaler: Seamless and Scalable Video Generation for Panoramic Scenes

Dec 15

ByJinxiu Liu, Shaoheng Lin, Yinxiao Li, Ming-Hsuan Yang

随着对沉浸式增强现实（AR）/虚拟现实（VR）应用和空间智能的需求不断增加，生成高质量的场景级和360°全景视频的需求日益迫切。然而，大多数视频扩散模型受限于有限的分辨率和宽高比，这限制了它们对场景级动态内容合成的适用性。在本文中，我们提出了DynamicScaler，通过实现空间可伸缩和全景动态场景合成，解决了这些挑战，保持了任意大小全景场景之间的连贯性。具体地，我们引入了一种Offset Shifting去噪器，通过一个无缝旋转的窗口，利用固定分辨率的扩散模型，促进了高效、同步和连贯的去噪全景动态场景，确保了全景空间的无缝边界过渡和一致性，适应了不同的分辨率和宽高比。此外，我们采用了全局运动引导机制，以确保局部细节的保真度和全局运动的连续性。大量实验证明，我们的方法在全景场景级视频生成中实现了卓越的内容和运动质量，为沉浸式动态场景创作提供了一个无需训练、高效且可伸缩的解决方案，无论输出视频分辨率如何，都能保持恒定的VRAM消耗。我们的项目页面位于https://dynamic-scaler.pages.dev/。

SplineGS：用于实时动态3D高斯模型的鲁棒运动自适应样条线从单目视频
SplineGS: Robust Motion-Adaptive Spline for Real-Time Dynamic 3D Gaussians from Monocular Video

Dec 13

ByJongmin Park, Minh-Quan Viet Bui, Juan Luis Gonzalez Bello, Jaeho Moon, Jihyong Oh, Munchurl Kim

从野外单目视频中合成新颖视角具有挑战性，这是由于场景动态性和缺乏多视角线索所致。为了解决这一问题，我们提出了SplineGS，这是一个无需COLMAP的动态3D高斯飞溅（3DGS）框架，用于从单目视频中进行高质量重建和快速渲染。其核心是一种新颖的运动自适应样条（MAS）方法，它使用具有少量控制点的三次Hermite样条表示连续动态的3D高斯轨迹。对于MAS，我们引入了一种运动自适应控制点修剪（MACP）方法，用于对每个动态3D高斯在不同运动中的变形进行建模，逐渐修剪控制点同时保持动态建模的完整性。此外，我们提出了一种联合优化策略，用于相机参数估计和3D高斯属性，利用光度和几何一致性。这消除了对结构运动预处理的需求，并增强了SplineGS在真实世界条件下的稳健性。实验证明，SplineGS在从单目视频中的动态场景中合成新视角的质量方面明显优于最先进的方法，实现了数千倍更快的渲染速度。

MOVIS：增强室内场景多物体新视图合成
MOVIS: Enhancing Multi-Object Novel View Synthesis for Indoor Scenes

Dec 16

ByRuijie Lu, Yixin Chen, Junfeng Ni, Baoxiong Jia, Yu Liu, Diwen Wan, Gang Zeng, Siyuan Huang

重新利用预训练扩散模型已被证明对多对象视图合成（NVS）非常有效。然而，这些方法大多局限于单个对象；直接将这些方法应用于组合式多对象场景会导致结果较差，尤其是在新视图下出现对象位置错误和形状、外观不一致。如何增强并系统评估这类模型的跨视图一致性仍未得到充分探讨。为解决这一问题，我们提出了MOVIS，以增强视图条件下扩散模型对多对象NVS的结构意识，包括模型输入、辅助任务和训练策略。首先，我们将结构感知特征（包括深度和对象掩模）注入去噪U-Net中，以增强模型对对象实例及其空间关系的理解。其次，我们引入一个辅助任务，要求模型同时预测新视图对象掩模，进一步提高模型区分和放置对象的能力。最后，我们对扩散采样过程进行深入分析，并在训练过程中精心设计了一个结构引导的时间步采样调度器，平衡了全局对象放置和细粒度细节恢复的学习。为了系统评估合成图像的合理性，我们提出评估跨视图一致性和新视图对象放置，同时结合现有的基于图像级别的NVS指标。在具有挑战性的合成和现实数据集上进行了大量实验，结果表明我们的方法具有很强的泛化能力，并产生一致的新视图合成，突显了其引导未来3D感知多对象NVS任务的潜力。

TidyBot++：一款用于机器人学习的开源全向移动机械臂
TidyBot++: An Open-Source Holonomic Mobile Manipulator for Robot Learning

Dec 11

ByJimmy Wu, William Chong, Robert Holmberg, Aaditya Prasad, Yihuai Gao, Oussama Khatib, Shuran Song, Szymon Rusinkiewicz, Jeannette Bohg

利用最新进展在模仿学习领域的潜力，为移动操作提供大量人类引导的示范将是必要的。本文提出了一种开源设计，用于廉价、稳健和灵活的移动操作器，可以支持任意机械臂，从而实现各种真实世界家庭移动操作任务。关键是，我们的设计采用了动力脚轮，使移动底座完全全向，能够独立和同时控制所有平面自由度。这一特性使底座更具机动性，简化了许多移动操作任务，消除了非全向底座中产生复杂和耗时动作的运动学约束。我们为机器人配备了直观的手机远程操作界面，以便轻松获取用于模仿学习的数据。在我们的实验中，我们使用该界面收集数据，并展示所学习到的策略可以成功执行各种常见家庭移动操作任务。

Whisper-GPT：一种混合表示音频大型语言模型
Whisper-GPT: A Hybrid Representation Audio Large Language Model

Dec 16

ByPrateek Verma

我们提出了WHISPER-GPT：一种用于语音和音乐的生成式大型语言模型（LLM），使我们能够同时处理连续音频表示和离散标记，作为单一架构的一部分。近年来，利用神经压缩算法（例如ENCODEC）导出的离散音频标记的生成式音频、语音和音乐模型大幅增长。然而，这种方法的一个主要缺点是处理上下文长度。如果必须考虑下一个标记预测时各种频率的所有音频内容，对于高保真生成式架构来说，这会变得非常复杂。通过结合诸如频谱图之类的连续音频表示和离散声学标记，我们保留了两者的优点：在单个标记中获取特定时间点的音频所需的所有信息，同时允许LLM预测未来的标记，以实现采样和其他离散空间提供的优势。我们展示了我们的架构如何改善了对下一个标记预测的困惑度和负对数似然分数，与基于标记的语音和音乐LLM相比。

GeoX：通过统一形式化的视觉-语言预训练解决几何问题
GeoX: Geometric Problem Solving Through Unified Formalized Vision-Language Pre-training

Dec 16

ByRenqiu Xia, Mingsheng Li, Hancheng Ye, Wenjie Wu, Hongbin Zhou, Jiakang Yuan, Tianshuo Peng, Xinyu Cai, Xiangchao Yan, Bin Wang, Conghui He, Botian Shi, Tao Chen, Junchi Yan, Bo Zhang

尽管多模态大型语言模型（MLLMs）在一般任务上表现出色，但在要求理解图表、解释符号和进行复杂推理的自动几何问题解决（GPS）方面却遇到困难。这种限制源于它们在自然图像和文本上的预训练，以及在问题解决过程中缺乏自动验证。此外，当前的几何专家受限于其特定任务设计，使它们在更广泛的几何问题上效果较差。为此，我们提出了GeoX，一个专注于几何理解和推理任务的多模态大型模型。鉴于几何图表符号和自然图像文本之间存在显著差异，我们引入了单模态预训练，以开发图表编码器和符号解码器，增强对几何图像和语料库的理解。此外，我们引入了几何语言对齐，这是一种有效的预训练范式，弥合了单模态几何专家之间的模态差距。我们提出了一个生成器-采样器变压器（GS-Former），用于生成有区分性的查询，并从不均匀分布的几何信号中消除无信息的表示。最后，GeoX受益于视觉指导调整，使其能够将几何图像和问题作为输入，并生成可验证的解决方案。实验证明，GeoX在公认的基准测试中表现优于一般模型和几何专家，如GeoQA、UniGeo、Geometry3K和PGPS9k。

MaxInfoRL：通过最大化信息增益来增强强化学习中的探索
MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization

Dec 16

ByBhavya Sukhija, Stelian Coros, Andreas Krause, Pieter Abbeel, Carmelo Sferrazza

强化学习（RL）算法的目标是在利用当前最佳策略的同时探索可能导致更高奖励的新选择。大多数常见的RL算法使用无向探索，即选择随机动作序列。探索也可以使用内在奖励进行引导，比如好奇心或模型认知不确定性。然而，有效平衡任务和内在奖励是具有挑战性的，通常取决于任务本身。在这项工作中，我们引入了一个框架，MaxInfoRL，用于平衡内在和外在探索。MaxInfoRL通过最大化内在奖励，如关于基础任务的信息增益，将探索引导至具有信息量的转换。当与Boltzmann探索相结合时，这种方法自然地在最大化值函数和状态、奖励以及动作的熵之间进行权衡。我们展示了我们的方法在简化的多臂赌博机设置中实现了次线性后悔。然后，我们将这一通用公式应用于各种连续状态动作空间的离策略无模型RL方法，产生了在困难探索问题和复杂场景（如视觉控制任务）中实现卓越性能的新算法。

个性化扩散模型对抗模仿的几乎零成本保护
Nearly Zero-Cost Protection Against Mimicry by Personalized Diffusion Models

Dec 16

ByNamhyuk Ahn, KiYoon Yoo, Wonhyuk Ahn, Daesik Kim, Seung-Hun Nam

最近扩散模型的进展彻底改变了图像生成，但也带来了滥用的风险，比如复制艺术品或生成深度伪造。现有的图像保护方法虽然有效，但在保护效果、隐形性和延迟之间难以平衡，从而限制了实际应用。我们引入扰动预训练以减少延迟，并提出一种混合扰动方法，动态适应输入图像以最小化性能降级。我们的新型训练策略在多个VAE特征空间中计算保护损失，而推断时的自适应目标保护增强了鲁棒性和隐形性。实验证明，在改善隐形性和大幅减少推断时间的同时，具有可比较的保护性能。代码和演示可在https://webtoon.github.io/impasto找到。

使用Evalica创建可靠、可复现且速度极快的排行榜
Reliable, Reproducible, and Really Fast Leaderboards with Evalica

Dec 15

ByDmitry Ustalov

自然语言处理（NLP）技术的快速发展，如经过指导调优的大型语言模型（LLMs），促使现代评估协议的发展，其中包括人机反馈。我们介绍Evalica，这是一个开源工具包，有助于创建可靠且可重现的模型排行榜。本文介绍了其设计，评估了其性能，并通过其Web界面、命令行界面和Python API展示了其可用性。

在纵向联邦学习中，仅需简单的转换即可实现数据保护
Just a Simple Transformation is Enough for Data Protection in Vertical Federated Learning

Dec 16

ByAndrei Semenov, Philip Zmushko, Alexander Pichugin, Aleksandr Beznosikov

纵向联邦学习（VFL）旨在实现深度学习模型的协作训练，同时保护隐私。然而，VFL过程仍然存在容易受到恶意攻击的组件。在我们的研究中，我们考虑了特征重建攻击，这是一种常见的针对输入数据泄露的风险。我们在理论上认为，特征重建攻击在没有数据先验分布知识的情况下是不可能成功的。因此，我们证明即使是简单的模型架构转换也可以显著影响在VFL期间对输入数据的保护。通过实验结果证实这些发现，我们展示基于MLP的模型对最先进的特征重建攻击具有抵抗力。

RLDG：通过强化学习实现的机器人通用策略蒸馏
RLDG: Robotic Generalist Policy Distillation via Reinforcement Learning

Dec 13

ByCharles Xu, Qiyang Li, Jianlan Luo, Sergey Levine

最近在机器人基础模型方面取得的进展使得能够开发能够适应多样任务的通用策略成为可能。虽然这些模型展现出了令人印象深刻的灵活性，但它们的性能在很大程度上取决于训练数据的质量。在这项工作中，我们提出了强化学习精炼通用策略（RLDG）的方法，利用强化学习来生成用于微调通用策略的高质量训练数据。通过在精确操作任务（如连接器插入和装配）上进行大量真实世界实验，我们展示了使用RL生成数据训练的通用策略在一致优于使用人类演示训练的情况下，成功率高出多达40％，同时更好地推广到新任务。我们还提供了详细分析，揭示了这种性能提升源自优化的动作分布和改进的状态覆盖。我们的结果表明，将特定任务的强化学习与通用策略精炼相结合，为开发更具能力和效率的机器人操作系统提供了一种有前途的方法，既保持了基础模型的灵活性，又实现了专门控制器的性能。视频和代码可在我们的项目网站https://generalist-distillation.github.io 上找到。

AI研究论文每日精选

每日精选AI研究论文及翻译

字节潜变换器：补丁比记号更好地扩展规模
Byte Latent Transformer: Patches Scale Better Than Tokens

Dec 13

108

评估代理：用于视觉生成模型的高效且可提示的评估框架
Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models

Dec 10

ByFan Zhang, Shulin Tian, Ziqi Huang, Yu Qiao, Ziwei Liu

RetroLLM：赋能大型语言模型以检索生成过程中的细粒度证据
RetroLLM: Empowering Large Language Models to Retrieve Fine-grained Evidence within Generation

Dec 16

ByXiaoxi Li, Jiajie Jin, Yujia Zhou, Yongkang Wu, Zhonghua Li, Qi Ye, Zhicheng Dou

BrushEdit：一体化图像修复和编辑
BrushEdit: All-In-One Image Inpainting and Editing

Dec 13

ByYaowei Li, Yuxuan Bian, Xuan Ju, Zhaoyang Zhang, Ying Shan, Qiang Xu

较小的语言模型更适合作为指导演进器
Smaller Language Models Are Better Instruction Evolvers

Dec 15

ByTingfeng Hui, Lulu Zhao, Guanting Dong, Yaqi Zhang, Hua Zhou, Sen Su

ColorFlow: 检索增强型图像序列着色
ColorFlow: Retrieval-Augmented Image Sequence Colorization

Dec 16

ByJunhao Zhuang, Xuan Ju, Zhaoyang Zhang, Yong Liu, Shiyi Zhang, Chun Yuan, Ying Shan

因果扩散变换器用于生成建模
Causal Diffusion Transformers for Generative Modeling

Dec 16

ByChaorui Deng, Deyao Zh, Kunchang Li, Shi Guan, Haoqi Fan

SPaR：自我对弈与树搜索细化，以提高大型语言模型中的指令遵循能力
SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models

Dec 16

ByJiale Cheng, Xiao Liu, Cunxiang Wang, Xiaotao Gu, Yida Lu, Dan Zhang, Yuxiao Dong, Jie Tang, Hongning Wang, Minlie Huang

奇境：从单个图像导航3D场景
Wonderland: Navigating 3D Scenes from a Single Image

Dec 16

ByHanwen Liang, Junli Cao, Vidit Goel, Guocheng Qian, Sergei Korolev, Demetri Terzopoulos, Konstantinos N. Plataniotis, Sergey Tulyakov, Jian Ren

VividFace：一种基于扩散的高保真视频人脸交换混合框架
VividFace: A Diffusion-Based Hybrid Framework for High-Fidelity Video Face Swapping

Dec 15

ByHao Shao, Shulun Wang, Yang Zhou, Guanglu Song, Dailan He, Shuo Qin, Zhuofan Zong, Bingqi Ma, Yu Liu, Hongsheng Li

高斯属性：将物理属性集成到具有LMMs的3D高斯函数中
GaussianProperty: Integrating Physical Properties to 3D Gaussians with LMMs

Dec 15

ByXinli Xu, Wenhang Ge, Dicong Qiu, ZhiFei Chen, Dongyu Yan, Zhuoyun Liu, Haoyu Zhao, Hanfeng Zhao, Shunsi Zhang, Junwei Liang, Ying-Cong Chen

IDArb：任意数量的输入视图和光照的内在分解
IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations

Dec 16

ByZhibing Li, Tong Wu, Jing Tan, Mengchen Zhang, Jiaqi Wang, Dahua Lin

StrandHead：使用头发几何先验将文本转换为分离的三维头部化身
StrandHead: Text to Strand-Disentangled 3D Head Avatars Using Hair Geometric Priors

Dec 16

ByXiaokun Sun, Zeyu Cai, Zhenyu Zhang, Ying Tai, Jian Yang

SepLLM：通过将一个段落压缩为一个分隔符来加速大型语言模型
SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator

Dec 16

ByGuoxuan Chen, Han Shi, Jiawei Li, Yihang Gao, Xiaozhe Ren, Yimeng Chen, Xin Jiang, Zhenguo Li, Weiyang Liu, Chao Huang

大型语言模型（LLMs）中的开源优势
The Open Source Advantage in Large Language Models (LLMs)

Dec 16

ByJiya Manchanda, Laura Boettcher, Matheus Westphalen, Jasser Jasser

Emma-X：一种具有基于链式思维和前瞻空间推理的具身多模态行为模型
Emma-X: An Embodied Multimodal Action Model with Grounded Chain of Thought and Look-ahead Spatial Reasoning

Dec 16

ByQi Sun, Pengfei Hong, Tej Deep Pala, Vernon Toh, U-Xuan Tan, Deepanway Ghosal, Soujanya Poria

精彩的矩阵：结合以打造更高效和有效的基础模型架构
Wonderful Matrices: Combining for a More Efficient and Effective Foundation Model Architecture

Dec 16

ByJingze Shi, Bingheng Wu

DynamicScaler：全景场景视频生成的无缝可扩展性。
DynamicScaler: Seamless and Scalable Video Generation for Panoramic Scenes

Dec 15

ByJinxiu Liu, Shaoheng Lin, Yinxiao Li, Ming-Hsuan Yang

SplineGS：用于实时动态3D高斯模型的鲁棒运动自适应样条线从单目视频
SplineGS: Robust Motion-Adaptive Spline for Real-Time Dynamic 3D Gaussians from Monocular Video

Dec 13

ByJongmin Park, Minh-Quan Viet Bui, Juan Luis Gonzalez Bello, Jaeho Moon, Jihyong Oh, Munchurl Kim

MaxInfoRL：通过最大化信息增益来增强强化学习中的探索
MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization

Dec 16

ByBhavya Sukhija, Stelian Coros, Andreas Krause, Pieter Abbeel, Carmelo Sferrazza