AI研究论文每日精选

每日精选AI研究论文及翻译

TÜLU 3：推动开放式语言模型后训练的前沿
TÜLU 3: Pushing Frontiers in Open Language Model Post-Training

Nov 22

ByNathan Lambert, Jacob Morrison, Valentina Pyatkin, Shengyi Huang, Hamish Ivison, Faeze Brahman, Lester James V. Miranda, Alisa Liu, Nouha Dziri, Shane Lyu, Yuling Gu, Saumya Malik, Victoria Graf, Jena D. Hwang, Jiangjiang Yang, Ronan Le Bras, Oyvind Tafjord, Chris Wilhelm, Luca Soldaini, Noah A. Smith, Yizhong Wang, Pradeep Dasigi, Hannaneh Hajishirzi

语言模型后训练被应用于优化行为并开发新技能，涵盖了广泛的最新语言模型，但是关于应用这些技术的开放式指南仍落后于专有指南。后训练的基础训练数据和指南同时是谜团中最重要的部分，也是最缺乏透明度的部分。为了弥合这一差距，我们介绍了T\"ULU 3，这是一系列全面开放的最先进后训练模型，包括其数据、代码和训练指南，作为现代后训练技术的全面指南。T\"ULU 3基于Llama 3.1基础模型，取得了超越Llama 3.1、Qwen 2.5、Mistral甚至GPT-4o-mini和Claude 3.5-Haiku等封闭模型的结果。我们模型的训练算法包括监督微调（SFT）、直接偏好优化（DPO）以及我们称之为具有可验证奖励的强化学习（RLVR）的新方法。通过T\"ULU 3，我们引入了一个多任务评估方案，用于后训练指南的开发和未知评估，标准基准实现，以及对所述基准上现有开放数据集的实质性净化。最后，我们对未能可靠提升性能的训练方法进行了分析和讨论。除了T\"ULU 3模型权重和演示之外，我们还发布了完整的指南，包括用于多样核心技能的数据集、用于数据整理和评估的强大工具包、训练代码和基础设施，以及最重要的是，一份详细报告，用于复制和进一步调整T\"ULU 3方法以适应更多领域。

OminiControl：扩散Transformer的最小通用控制
OminiControl: Minimal and Universal Control for Diffusion Transformer

Nov 22

ByZhenxiong Tan, Songhua Liu, Xingyi Yang, Qiaochu Xue, Xinchao Wang

在本文中，我们介绍了OminiControl，这是一个高度多功能且参数高效的框架，将图像条件整合到预训练的扩散Transformer（DiT）模型中。在其核心，OminiControl利用参数重用机制，使DiT能够使用自身作为强大的骨干来编码图像条件，并利用其灵活的多模态注意力处理器对其进行处理。与现有方法不同，现有方法严重依赖具有复杂架构的额外编码器模块，OminiControl（1）有效且高效地将注入的图像条件整合到仅增加约0.1%的额外参数中，（2）以统一方式处理广泛的图像调节任务，包括主题驱动生成和空间对齐条件，如边缘、深度等。值得注意的是，通过在DiT本身生成的图像上进行训练，实现了这些功能，这对于主题驱动生成特别有益。广泛的评估表明，OminiControl在主题驱动和空间对齐条件生成方面均优于现有基于UNet和适应DiT的模型。此外，我们发布了我们的训练数据集Subjects200K，这是一个包含超过200,000个身份一致图像的多样化收集，以及一个高效的数据合成管道，以推动主题一致生成领域的研究。

具有修复功能的大规模文本到图像模型是一种零样本主题驱动的图像生成器。
Large-Scale Text-to-Image Model with Inpainting is a Zero-Shot Subject-Driven Image Generator

Nov 23

ByChaehun Shin, Jooyoung Choi, Heeseung Kim, Sungroh Yoon

主题驱动的文本到图像生成旨在通过准确捕捉主题的视觉特征和文本提示的语义内容，在所需的背景下生成新主题的图像。传统方法依赖于耗时且资源密集的微调以实现主题对齐，而最近的零样本方法则利用即时图像提示，通常会牺牲主题对齐。在本文中，我们介绍了Diptych Prompting，这是一种新颖的零样本方法，通过利用大规模文本到图像模型中二联画生成的新兴特性，将其重新解释为一个具有精确主题对齐的修补任务。Diptych Prompting将一个不完整的二联画与参考图像放在左侧面板，并在右侧面板上执行文本条件修补。我们进一步通过去除参考图像中的背景来防止不必要的内容泄漏，并通过在修补过程中增强面板之间的注意力权重来改善生成主题的细节。实验结果证实，我们的方法明显优于零样本图像提示方法，生成的图像在视觉上更受用户喜爱。此外，我们的方法不仅支持主题驱动生成，还支持风格化图像生成和主题驱动图像编辑，展示了在各种图像生成应用中的多功能性。项目页面：https://diptychprompting.github.io/

面向样式驱动生成的样式友好信噪比采样器
Style-Friendly SNR Sampler for Style-Driven Generation

Nov 22

ByJooyoung Choi, Chaehun Shin, Yeongtak Oh, Heeseung Kim, Sungroh Yoon

最近的大规模扩散模型能够生成高质量图像，但在学习新的、个性化的艺术风格方面存在困难，这限制了独特风格模板的创作。利用参考图像进行微调是最有前途的方法，但往往盲目地利用了用于预训练的目标和噪声水平分布，导致次优的风格对齐。我们提出了友好风格的信噪比采样器，它在微调过程中积极地将信噪比（SNR）分布转向更高的噪声水平，以便专注于风格特征出现的噪声水平。这使模型能够更好地捕捉独特风格，并生成风格对齐度更高的图像。我们的方法使扩散模型能够学习和共享新的“风格模板”，增强个性化内容创作。我们展示了生成个人水彩画、极简扁平漫画、3D 渲染、多面板图像和带文本的表情包等风格的能力，从而拓宽了风格驱动生成的范围。

一种灵活的大型语言模型防护栏开发方法论用于离题提示检测
A Flexible Large Language Models Guardrail Development Methodology Applied to Off-Topic Prompt Detection

Nov 20

ByGabriel Chua, Shing Yee Chan, Shaun Khoo

大型语言模型容易被用于主题无关的错误用途，用户可能会促使这些模型执行超出其预期范围的任务。目前的防护措施通常依赖于精心筛选的示例或自定义分类器，存在高误报率、适应性有限以及需要现实世界数据但在预生产阶段不可行的问题。在本文中，我们介绍了一种灵活的、无需数据的防护措施开发方法，以解决这些挑战。通过在定性上彻底定义问题空间，并将其传递给大型语言模型生成多样化提示，我们构建了一个合成数据集，用于评估和训练优于启发式方法的主题无关防护措施。此外，通过将任务框定为分类用户提示是否与系统提示相关，我们的防护措施有效地推广到其他错误用途类别，包括越狱和有害提示。最后，我们通过开源合成数据集和主题无关防护模型进一步为该领域做出贡献，为在预生产环境中开发防护措施以及支持未来大型语言模型安全研究和开发提供了宝贵资源。

我的时间机器：个性化面部年龄转换
MyTimeMachine: Personalized Facial Age Transformation

Nov 21

ByLuchao Qi, Jiaye Wu, Bang Gong, Annie N. Wang, David W. Jacobs, Roni Sengupta

面部老化是一个复杂的过程，高度依赖于诸如性别、种族、生活方式等多种因素，因此对于准确预测个体的老化而言，学习全局老化先验是极具挑战性的。现有技术通常能够产生逼真且合理的老化结果，但重新老化的图像往往不像目标年龄时个人的外貌，因此需要个性化。在许多虚拟老化的实际应用中，例如电影和电视节目中的视觉特效，用户的个人照片收藏通常展现了一个较短时间间隔（20至40年）内的老化过程。然而，对个人照片收藏进行全局老化技术的朴素个性化尝试通常会失败。因此，我们提出了MyTimeMachine（MyTM），它将全局老化先验与个人照片收藏（最少使用50张图像）相结合，以学习个性化的年龄转换。我们引入了一种新型适配器网络，将个性化老化特征与全局老化特征结合起来，并使用StyleGAN2生成一个重新老化的图像。我们还引入了三种损失函数，用于通过个性化老化损失、外推正则化和自适应w-范数正则化来个性化适配器网络。我们的方法还可以扩展到视频，实现高质量、保持身份特征和时间上一致的老化效果，使其与目标年龄的实际外貌相似，展示了其优于现有技术的优越性。

BALROG：在游戏中对代理式LLM和VLM推理进行基准测试
BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games

Nov 20

ByDavide Paglieri, Bartłomiej Cupiał, Samuel Coward, Ulyana Piterbarg, Maciej Wolczyk, Akbir Khan, Eduardo Pignatelli, Łukasz Kuciński, Lerrel Pinto, Rob Fergus, Jakob Nicolaus Foerster, Jack Parker-Holder, Tim Rocktäschel

大型语言模型（LLMs）和视觉语言模型（VLMs）具有广泛的知识并展现出有前途的推理能力；然而，它们仍然在复杂、动态环境中表现不佳。现实世界的任务需要处理错综复杂的互动、高级空间推理、长期规划以及持续探索新策略等领域，而我们缺乏有效的方法来全面评估这些能力。为了弥补这一空白，我们引入了BALROG，一个旨在通过一系列具有挑战性的游戏评估LLMs和VLMs代理能力的新基准。我们的基准包含一系列现有的强化学习环境，难度各异，包括一些能够在几秒内由非专家人员解决的任务，到可能需要数年才能掌握的极具挑战性的任务（例如NetHack学习环境）。我们设计了细粒度的指标来衡量性能，并对几种流行的开源和闭源LLMs和VLMs进行了广泛评估。我们的研究结果表明，当前模型在较简单的游戏中取得了部分成功，但在更具挑战性的任务中遇到了重大困难。值得注意的是，我们观察到在基于视觉的决策制定方面存在严重的不足，因为当环境的视觉表示提供时，模型的表现更差。我们将BALROG作为一个开放且用户友好的基准发布，以促进代理社区未来的研究和发展。

大型多模态模型能够解释大型多模态模型中的特征。
Large Multi-modal Models Can Interpret Features in Large Multi-modal Models

Nov 22

ByKaichen Zhang, Yifei Shen, Bo Li, Ziwei Liu

最近在大型多模态模型（LMMs）方面取得的进展在学术界和工业界都带来了重大突破。一个引起关注的问题是，作为人类，我们如何理解它们内部的神经表示。本文通过提出一个多才多艺的框架来识别和解释LMMs内部语义，初步探讨了这个问题。具体来说，1）我们首先应用稀疏自动编码器（SAE）来将表示解开为人类可理解的特征。2）然后，我们提出了一个自动解释框架，通过LMMs自身解释SAE学习到的开放语义特征。我们利用这一框架来分析LLaVA-NeXT-8B模型，使用LLaVA-OV-72B模型，证明这些特征能有效地引导模型的行为。我们的研究结果有助于更深入地理解LMMs在特定任务中表现出色的原因，包括EQ测试，并阐明它们错误的本质以及可能的纠正策略。这些发现为LMMs的内部机制提供了新的见解，并暗示了与人类大脑认知过程的相似之处。

VideoEspresso：一个用于细粒度视频推理的大规模思维链数据集，通过核心帧选择
VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection

Nov 22

BySonghao Han, Wei Huang, Hairong Shi, Le Zhuo, Xiu Su, Shifeng Zhang, Xu Zhou, Xiaojuan Qi, Yue Liao, Si Liu

大规模视觉语言模型（LVLMs）的进展显著提高了多模态理解能力，但由于高质量、大规模数据集的稀缺性，视频推理任务仍然面临挑战。现有的视频问答（VideoQA）数据集通常依赖于昂贵的手动注释，注释粒度不足，或者采用冗余的逐帧分析的自动构建方法，限制了它们在复杂推理中的可扩展性和有效性。为了解决这些挑战，我们引入了VideoEspresso，这是一个新颖的数据集，包含保留基本空间细节和时间连贯性的VideoQA对，以及中间推理步骤的多模态注释。我们的构建流程采用了一种语义感知方法来减少冗余，然后使用GPT-4o生成问答对。我们进一步开发了视频思维链（CoT）注释，丰富推理过程，指导GPT-4o从问答对和视频内容中提取逻辑关系。为了充分利用高质量的VideoQA对的潜力，我们提出了一个混合LVLMs协作框架，包括一个帧选择器和一个两阶段指令微调推理LVLM。该框架通过自适应选择核心帧，并使用多模态证据进行CoT推理。在我们提出的包含14个任务的基准测试中，与9个流行的LVLMs进行评估，我们的方法在大多数任务上优于现有基线，展示了出色的视频推理能力。我们的代码和数据集将在以下网址发布：https://github.com/hshjerry/VideoEspresso

通过基于坐标的补丁重建实现长视频的高效标记化
Efficient Long Video Tokenization via Coordinated-based Patch Reconstruction

Nov 22

ByHuiwon Jang, Sihyun Yu, Jinwoo Shin, Pieter Abbeel, Younggyo Seo

在训练能够处理长视频的视觉模型时，视频的高效分词仍然是一个挑战。一个有前途的方向是开发一个能够对长视频剪辑进行编码的分词器，因为这将使分词器更好地利用视频的时间一致性进行分词。然而，训练现有的分词器处理长视频通常会产生巨大的训练成本，因为它们被训练以一次性重建所有帧。在本文中，我们介绍了CoordTok，一种视频分词器，它学习从基于坐标的表示到输入视频对应补丁的映射，灵感来自于最近3D生成模型的进展。具体而言，CoordTok将视频编码为分解的三平面表示，并重建对应于随机采样的（x，y，t）坐标的补丁。这使得可以直接在长视频上训练大型分词器模型，而无需过多的训练资源。我们的实验表明，CoordTok可以显著减少用于编码长视频剪辑的标记数量。例如，CoordTok可以将一个包含128帧、分辨率为128x128的视频编码为1280个标记，而基准需要6144或8192个标记才能达到类似的重建质量。我们进一步表明，这种高效的视频分词使得可以高效地训练扩散变换器，该变换器可以一次生成128帧。

利用视频扩散先验进行新视角外推
Novel View Extrapolation with Video Diffusion Priors

Nov 21

ByKunhao Liu, Ling Shao, Shijian Lu

由于辐射场方法的发展，新视角合成领域取得了重大进展。然而，大多数辐射场技术在新视角插值方面表现优异，而在新视角外推方面则表现不佳，即合成的新视角远远超出了观察到的训练视角。我们设计了ViewExtrapolator，这是一种新颖的视角合成方法，利用稳定视频扩散（SVD）的生成先验进行逼真的新视角外推。通过重新设计SVD去噪过程，ViewExtrapolator改进了辐射场渲染的易出现伪影的视角，极大地提高了合成新视角的清晰度和逼真度。ViewExtrapolator是一种通用的新视角外推器，可以与不同类型的3D渲染一起使用，例如从点云渲染的视角，当只有单个视角或单目视频可用时。此外，ViewExtrapolator无需对SVD进行微调，既数据高效又计算高效。大量实验证明了ViewExtrapolator在新视角外推方面的优越性。项目页面：https://kunhao-liu.github.io/ViewExtrapolator/。

VideoRepair：通过错位评估和局部细化改进文本到视频生成
VideoRepair: Improving Text-to-Video Generation via Misalignment Evaluation and Localized Refinement

Nov 22

ByDaeun Lee, Jaehong Yoon, Jaemin Cho, Mohit Bansal

最近的文本到视频（T2V）扩散模型展示了在各个领域具有印象深刻的生成能力。然而，这些模型经常生成与文本提示不一致的视频，特别是当提示描述具有多个对象和属性的复杂场景时。为了解决这个问题，我们引入了VideoRepair，这是一个新颖的、与模型无关且无需训练的视频细化框架，能够自动识别细粒度的文本-视频不一致，并生成明确的空间和文本反馈，使得T2V扩散模型能够执行有针对性的、局部的细化。VideoRepair包括四个阶段：在（1）视频评估中，我们通过生成细粒度评估问题并用MLLM回答这些问题来检测不一致。在（2）细化规划中，我们识别准确生成的对象，然后创建局部提示来细化视频中的其他区域。接下来，在（3）区域分解中，我们使用组合接地模块对正确生成的区域进行分割。我们通过在（4）局部细化中调整不一致的区域并保留正确区域来重新生成视频。在两个流行的视频生成基准（EvalCrafter和T2V-CompBench）上，VideoRepair在各种文本-视频对齐度量方面明显优于最近的基线。我们对VideoRepair的组件和定性示例进行了全面分析。

WildLMa：野外长时程定位操作
WildLMa: Long Horizon Loco-Manipulation in the Wild

Nov 22

ByRi-Zhao Qiu, Yuchen Song, Xuanbin Peng, Sai Aneesh Suryadevara, Ge Yang, Minghuan Liu, Mazeyu Ji, Chengzhe Jia, Ruihan Yang, Xueyan Zou, Xiaolong Wang

“野外”移动操作旨在将机器人部署在不同真实环境中，这要求机器人具备以下能力：（1）具有适用于各种物体配置的技能；（2）能够在不同环境中执行长期任务；以及（3）执行超越拾取和放置的复杂操作。具有操纵器的四足机器人有望扩展工作空间并实现强大的移动能力，但现有结果并未探究这种能力。本文提出了WildLMa，包括三个组成部分来解决这些问题：（1）为VR启用的全身遥操作和可穿越性而调整学习的低级控制器；（2）WildLMa-Skill——通过模仿学习或启发式获得的通用视觉运动技能库；以及（3）WildLMa-Planner——一个接口，允许LLM规划器协调长期任务所需的技能。我们通过仅使用少量演示，在高质量训练数据的重要性上取得了比现有RL基线更高的抓取成功率。WildLMa利用CLIP进行语言条件的模仿学习，经验性地推广到训练演示中未见的物体。除了广泛的定量评估外，我们还在定性上展示了实际的机器人应用，例如清理大学走廊或户外地形中的垃圾，操作关节对象，以及整理书架上的物品。

将视觉基础模型调整为在遥感图像中实现稳健的云分割
Adapting Vision Foundation Models for Robust Cloud Segmentation in Remote Sensing Images

Nov 20

ByXuechao Zou, Shun Zhang, Kai Li, Shiying Wang, Junliang Xing, Lei Jin, Congyan Lang, Pin Tao

在遥感图像解释中，云分割是一个关键挑战，其准确性直接影响后续数据处理和分析的有效性。最近，视觉基础模型（VFM）展示了在各种视觉任务中强大的泛化能力。本文提出了一种名为Cloud-Adapter的参数高效自适应方法，旨在增强云分割的准确性和稳健性。我们的方法利用了在通用领域数据上预训练的VFM，该模型保持冻结状态，消除了额外训练的需求。Cloud-Adapter包含一个轻量级的空间感知模块，最初利用卷积神经网络（ConvNet）提取密集的空间表示。这些多尺度特征然后被聚合，并作为上下文输入传递给一个适应模块，该模块调节VFM内的冻结变换器层。实验结果表明，Cloud-Adapter方法仅利用冻结骨干网络可训练参数的0.6%，就实现了显著的性能提升。Cloud-Adapter在多个卫星数据源、传感器系列、数据处理级别、土地覆盖情景和注释细粒度的各种云分割数据集上始终保持最先进的性能。我们已在https://github.com/XavierJiezou/Cloud-Adapter发布了源代码和预训练模型，以支持进一步研究。

一统天下：自然语言以统一沟通、感知和行动。
One to rule them all: natural language to bind communication, perception and action

Nov 22

BySimone Colombani, Dimitri Ognibene, Giuseppe Boccignone

近年来，人机交互领域的研究集中在开发能够理解复杂人类指令并在动态多样环境中执行任务的机器人上。这些系统具有广泛的应用，从个人辅助到工业机器人，强调了机器人与人类灵活、自然和安全互动的重要性。本文提出了一种先进的机器人行动规划架构，将通信、感知和规划与大型语言模型（LLMs）相结合。我们的系统旨在将用自然语言表达的指令转化为可执行的机器人动作，融合环境信息，并根据实时反馈动态更新计划。规划模块是系统的核心，其中嵌入在修改后的ReAct框架中的LLMs被用于解释和执行用户指令。通过利用它们广泛的预训练知识，LLMs能够有效处理用户请求，无需引入新的关于变化环境的知识。修改后的ReAct框架通过提供实时环境感知和物理行动结果进一步增强了执行空间。通过将稳健且动态的语义地图表示作为图形与控制组件和失败解释相结合，该架构增强了机器人在共享和动态环境中的适应性、任务执行能力和与人类用户的无缝协作。通过将连续反馈循环与环境整合，系统可以动态调整计划以适应意外变化，优化机器人执行任务的能力。利用先前经验数据集可以提供有关失败的详细反馈。更新下一次迭代的LLMs上下文，并提出如何克服问题的建议。