AI研究论文每日精选

每日精选AI研究论文及翻译

SAM 2：图像和视频中的任意物体分割
SAM 2: Segment Anything in Images and Videos

Aug 1

ByNikhila Ravi, Valentin Gabeur, Yuan-Ting Hu, Ronghang Hu, Chaitanya Ryali, Tengyu Ma, Haitham Khedr, Roman Rädle, Chloe Rolland, Laura Gustafson, Eric Mintun, Junting Pan, Kalyan Vasudev Alwala, Nicolas Carion, Chao-Yuan Wu, Ross Girshick, Piotr Dollár, Christoph Feichtenhofer

120

我们提出了Segment Anything Model 2（SAM 2），这是解决图像和视频中可提示分割问题的基础模型。我们构建了一个数据引擎，通过用户交互改进模型和数据，以收集迄今为止最大的视频分割数据集。我们的模型是一个简单的变压器架构，具有用于实时视频处理的流式内存。在我们的数据上训练的SAM 2在各种任务中表现出色。在视频分割中，我们观察到比先前方法更准确的结果，使用的交互次数减少了3倍。在图像分割中，我们的模型比Segment Anything Model（SAM）更准确且快6倍。我们相信我们的数据、模型和见解将成为视频分割和相关感知任务的重要里程碑。我们将发布我们模型的一个版本、数据集和一个交互式演示。

Gemma 2：在实际规模上改进开放式语言模型
Gemma 2: Improving Open Language Models at a Practical Size

Jul 31

ByGemma Team, Morgane Riviere, Shreya Pathak, Pier Giuseppe Sessa, Cassidy Hardin, Surya Bhupatiraju, Léonard Hussenot, Thomas Mesnard, Bobak Shahriari, Alexandre Ramé, Johan Ferret, Peter Liu, Pouya Tafti, Abe Friesen, Michelle Casbon, Sabela Ramos, Ravin Kumar, Charline Le Lan, Sammy Jerome, Anton Tsitsulin, Nino Vieillard, Piotr Stanczyk, Sertan Girgin, Nikola Momchev, Matt Hoffman, Shantanu Thakoor, Jean-Bastien Grill, Behnam Neyshabur, Alanna Walton, Aliaksei Severyn, Alicia Parrish, Aliya Ahmad, Allen Hutchison, Alvin Abdagic, Amanda Carl, Amy Shen, Andy Brock, Andy Coenen, Anthony Laforge, Antonia Paterson, Ben Bastian, Bilal Piot, Bo Wu, Brandon Royal, Charlie Chen, Chintu Kumar, Chris Perry, Chris Welty, Christopher A. Choquette-Choo, Danila Sinopalnikov, David Weinberger, Dimple Vijaykumar, Dominika Rogozińska, Dustin Herbison, Elisa Bandy, Emma Wang, Eric Noland, Erica Moreira, Evan Senter, Evgenii Eltyshev, Francesco Visin, Gabriel Rasskin, Gary Wei, Glenn Cameron, Gus Martins, Hadi Hashemi, Hanna Klimczak-Plucińska, Harleen Batra, Harsh Dhand, Ivan Nardini, Jacinda Mein, Jack Zhou, James Svensson, Jeff Stanway, Jetha Chan, Jin Zhou, Joana Carrasqueira, Joana Iljazi, Jocelyn Becker, Joe Fernandez, Joost van Amersfoort, Josh Gordon, Josh Lipschultz, Josh Newlan, Ju-yeong Ji, Kareem Mohamed, Kartikeya Badola, Kat Black, Katie Millican, Keelin McDonell, Kelvin Nguyen, Kiranbir Sodhia, Kish Greene, Lars Lowe Sjoesund, Lauren Usui, Laurent Sifre, Lena Heuermann, Leticia Lago, Lilly McNealus, Livio Baldini Soares, Logan Kilpatrick, Lucas Dixon, Luciano Martins, Machel Reid, Manvinder Singh, Mark Iverson, Martin Görner, Mat Velloso, Mateo Wirth, Matt Davidow, Matt Miller, Matthew Rahtz, Matthew Watson, Meg Risdal, Mehran Kazemi, Michael Moynihan, Ming Zhang, Minsuk Kahng, Minwoo Park, Mofi Rahman, Mohit Khatwani, Natalie Dao, Nenshad Bardoliwalla, Nesh Devanathan, Neta Dumai, Nilay Chauhan, Oscar Wahltinez, Pankil Botarda, Parker Barnes, Paul Barham, Paul Michel, Pengchong Jin, Petko Georgiev, Phil Culliton, Pradeep Kuppala, Ramona Comanescu, Ramona Merhej, Reena Jana, Reza Ardeshir Rokni, Rishabh Agarwal, Ryan Mullins, Samaneh Saadat, Sara Mc Carthy, Sarah Perrin, Sébastien Arnold, Sebastian Krause, Shengyang Dai, Shruti Garg, Shruti Sheth, Sue Ronstrom, Susan Chan, Timothy Jordan, Ting Yu, Tom Eccles, Tom Hennigan, Tomas Kocisky, Tulsee Doshi, Vihan Jain, Vikas Yadav, Vilobh Meshram, Vishal Dharmadhikari, Warren Barkley, Wei Wei, Wenming Ye, Woohyun Han, Woosuk Kwon, Xiang Xu, Zhe Shen, Zhitao Gong, Zichuan Wei, Victor Cotruta, Phoebe Kirk, Anand Rao, Minh Giang, Ludovic Peran, Tris Warkentin, Eli Collins, Joelle Barral, Zoubin Ghahramani, Raia Hadsell, D. Sculley, Jeanine Banks, Anca Dragan, Slav Petrov, Oriol Vinyals, Jeff Dean, Demis Hassabis, Koray Kavukcuoglu, Clement Farabet, Elena Buchatskaya, Sebastian Borgeaud, Noah Fiedel, Armand Joulin, Kathleen Kenealy, Robert Dadashi, Alek Andreev

在这项工作中，我们介绍了 Gemma 家族的新成员 Gemma 2，这是一系列轻量级、最先进的开放模型，规模从 20 亿到 270 亿参数不等。在这个新版本中，我们对 Transformer 架构应用了几项已知的技术修改，比如交错使用局部-全局注意力（Beltagy 等，2020a）和组查询注意力（Ainslie 等，2023）。我们还使用知识蒸馏（Hinton 等，2015）来训练 20 亿和 90 亿参数的模型，而不是使用下一个标记预测。由此产生的模型在其规模下表现出最佳性能，甚至提供了与规模大 2-3 倍的模型竞争的替代方案。我们向社区发布了所有我们的模型。

SF3D：稳定快速的三维网格重建，配备UV展开和光照解耦。
SF3D: Stable Fast 3D Mesh Reconstruction with UV-unwrapping and Illumination Disentanglement

Aug 1

ByMark Boss, Zixuan Huang, Aaryaman Vasishta, Varun Jampani

我们提出了SF3D，一种新颖的方法，可以在仅0.5秒内从单个图像中快速高质量地重建带纹理的物体网格。与大多数现有方法不同，SF3D明确针对网格生成进行训练，结合了一种快速UV展开技术，可以快速生成纹理，而不是依赖顶点颜色。该方法还学习预测材质参数和法线贴图，以增强重建的3D网格的视觉质量。此外，SF3D集成了去光步骤，有效消除低频照明效果，确保重建的网格可以轻松用于新的照明条件。实验证明了SF3D相对于现有技术的卓越性能。项目页面：https://stable-fast-3d.github.io

利用对比微调来改进较小语言模型的文本嵌入
Improving Text Embeddings for Smaller Language Models Using Contrastive Fine-tuning

Aug 1

ByTrapoom Ukarapol, Zhicheng Lee, Amy Xin

尽管大型语言模型在自然语言理解方面表现出色，但其资源密集型特性使其较不易获得。相比之下，小型语言模型如MiniCPM提供更可持续的可扩展性，但通常在没有专门优化的情况下表现不佳。本文探讨了通过改进其文本嵌入来增强小型语言模型的方法。我们选择了三种语言模型，MiniCPM、Phi-2和Gemma，在NLI数据集上进行对比微调。我们的结果表明，这种微调方法提升了所有三种模型的文本嵌入质量，在各项基准测试中，MiniCPM表现出了平均56.33\%的性能提升。对比微调的代码可在https://github.com/trapoom555/Language-Model-STS-CFT 上公开获取。

基于纯视觉的GUI代理的全能解析器
OmniParser for Pure Vision Based GUI Agent

Aug 1

ByYadong Lu, Jianwei Yang, Yelong Shen, Ahmed Awadallah

大型视觉语言模型最近取得的成功显示了在用户界面上操作的代理系统中具有巨大潜力。然而，我们认为像GPT-4V这样的强大多模态模型作为跨不同应用程序的多个操作系统上的通用代理的能力被严重低估，这是因为缺乏一种强大的屏幕解析技术，能够：1）可靠地识别用户界面中的可交互图标，以及2）理解截屏中各种元素的语义，并准确地将预期操作与屏幕上相应区域关联起来。为了填补这些空白，我们引入了OmniParser，这是一种将用户界面截屏解析为结构化元素的综合方法，显著增强了GPT-4V生成能够准确基于界面相应区域的操作的能力。我们首先使用流行网页和图标描述数据集筛选了一个可交互图标检测数据集。利用这些数据集来微调专门的模型：一个检测模型来解析屏幕上的可交互区域，以及一个标题模型来提取检测到的元素的功能语义。OmniParser显著提高了GPT-4V在ScreenSpot基准测试中的性能。在Mind2Web和AITW基准测试中，仅使用截屏输入的OmniParser优于需要截屏以外的额外信息的GPT-4V基线。

粗略对应引发多模语言模型中的3D时空理解
Coarse Correspondence Elicit 3D Spacetime Understanding in Multimodal Language Model

Aug 1

ByBenlin Liu, Yuhao Dong, Yiqin Wang, Yongming Rao, Yansong Tang, Wei-Chiu Ma, Ranjay Krishna

多模态语言模型（MLLMs）越来越多地被应用于现实世界的环境中，这要求它们具备解释3D空间和理解时间动态的能力。尽管具有潜力，但我们社区内目前顶尖的模型仍然在充分理解空间和时间维度方面存在不足。我们引入了粗糙对应（Coarse Correspondence），这是一种简单、无需训练、有效且通用的视觉提示方法，用于引发多模态LLMs对3D和时间的理解。我们的方法使用轻量级跟踪模型在视频的帧之间或图像视角集之间找到物体对应关系。它选择最频繁出现的物体实例，并在图像中用带有唯一ID的标记进行可视化。通过这种简单方法，我们在包括ScanQA（+20.5\%）和OpenEQA的子集（+9.7\%）在内的3D理解基准测试中取得了最先进的结果，并且在诸如EgoSchema（+6.0\%）等长视频基准测试中也取得了优异成绩。我们还整理了一个小型诊断数据集，以评估MLLMs是否能够从除相机视角以外的描述视角推理空间。再次，粗糙对应提高了空间透视能力，但我们强调MLLMs在这项任务上存在困难。综上所述，我们展示了我们的简单提示方法可以显著帮助需要3D或时间推理的下游任务。

鹦鹉：基于提示的键-值缓存压缩
Finch: Prompt-guided Key-Value Cache Compression

Jul 31

ByGiulio Corallo, Paolo Papotti

最近大型语言模型应用，如检索增强生成和聊天机器人，导致了对处理更长输入上下文的需求增加。然而，这一需求受到固有限制的阻碍。在架构上，模型受训练期间定义的上下文窗口的限制。此外，处理大量文本需要大量的GPU内存。我们提出了一种新方法，Finch，通过利用自注意力预训练模型权重来压缩输入上下文。给定一个提示和一段长文本，Finch迭代地识别在提示条件下文本块上最相关的键（K）和值（V）对。只有这些对被存储在KV缓存中，最终在上下文窗口限制的空间内包含长文本的压缩版本。我们的提议使模型能够消耗大量输入，即使进行高度压缩（高达93倍）也能保持语义完整性，而无需进行微调。

TurboEdit：使用少步扩散模型进行基于文本的图像编辑
TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models

Aug 1

ByGilad Deutch, Rinon Gal, Daniel Garibi, Or Patashnik, Daniel Cohen-Or

扩散模型为基于文本的图像编辑框架开辟了道路。然而，这些框架通常建立在扩散反向过程的多步特性上，将其调整为精炼、快速采样的方法却证明是相当具有挑战性的。在这里，我们专注于一种流行的基于文本的编辑框架 - “编辑友好型”DDPM-噪声反演方法。我们分析了其在快速采样方法中的应用，并将其失败归类为两类：视觉伪影的出现和编辑强度不足。我们将这些伪影追溯到反演噪声与预期噪声时间表之间的噪声统计不匹配，并提出了一种校正这种偏移的偏移噪声时间表。为增强编辑强度，我们提出了一种伪引导方法，有效地增加编辑的幅度而不引入新的伪影。总的来说，我们的方法使得基于文本的图像编辑仅需三个扩散步骤，同时为流行的基于文本的编辑方法背后的机制提供了新颖的见解。

MM-Vet v2：一个具有挑战性的基准测试，用于评估集成能力强大的大型多模态模型
MM-Vet v2: A Challenging Benchmark to Evaluate Large Multimodal Models for Integrated Capabilities

Aug 1

ByWeihao Yu, Zhengyuan Yang, Linfeng Ren, Linjie Li, Jianfeng Wang, Kevin Lin, Chung-Ching Lin, Zicheng Liu, Lijuan Wang, Xinchao Wang

MM-Vet，通过针对评估综合能力的开放式视觉-语言问题，已成为最受欢迎的大型多模态模型评估基准之一。MM-Vet评估六个核心视觉-语言（VL）能力：识别、知识、空间意识、语言生成、OCR和数学。然而，其问题格式仅限于单个图像-文本对，缺乏现实场景中普遍存在的交错图像和文本序列。为解决这一限制，我们引入了MM-Vet v2，其中包括一种名为“图像-文本序列理解”的新的VL能力，评估模型处理VL序列的能力。此外，我们保持了评估样本的高质量，同时进一步扩大了评估集的规模。使用MM-Vet v2来评估大型多模态模型，我们发现Claude 3.5 Sonnet是最佳模型，得分为71.8，略高于得分为71.0的GPT-4o。在开放权重模型中，InternVL2-Llama3-76B以68.4的得分领先。

重现任何事物：使用动作文本反转进行语义视频运动转移
Reenact Anything: Semantic Video Motion Transfer Using Motion-Textual Inversion

Aug 1

ByManuel Kansy, Jacek Naruniec, Christopher Schroers, Markus Gross, Romann M. Weber

近年来，视频生成和编辑方法的质量有了显著提升。虽然有几种技术侧重于编辑外观，但很少涉及运动。目前使用文本、轨迹或边界框的方法仅限于简单的运动，因此我们提出使用单个运动参考视频来指定运动。我们进一步建议使用预训练的图像到视频模型，而不是文本到视频模型。这种方法使我们能够保留目标对象或场景的确切外观和位置，并有助于将外观与运动分离。我们的方法称为运动文本反演，利用了我们的观察结果，即图像到视频模型主要从（潜在的）图像输入中提取外观，而通过交叉注意力注入的文本/图像嵌入主要控制运动。因此，我们使用文本/图像嵌入标记来表示运动。通过在每帧中包含多个文本/图像嵌入标记的膨胀的运动文本嵌入上操作，我们实现了高时间运动粒度。一旦在运动参考视频上进行优化，这种嵌入就可以应用于各种目标图像，以生成具有语义上相似运动的视频。我们的方法不需要运动参考视频和目标图像之间的空间对齐，在各个领域通用，并可应用于各种任务，如全身和面部再现，以及控制无生命物体和摄像机的运动。我们通过实验证明了我们的方法在语义视频运动转移任务中的有效性，在这一背景下明显优于现有方法。

UniTalker：通过统一模型扩展基于音频驱动的3D面部动画
UniTalker: Scaling up Audio-Driven 3D Facial Animation through A Unified Model

Aug 1

ByXiangyu Fan, Jiaqi Li, Zhiqian Lin, Weiye Xiao, Lei Yang

音频驱动的3D面部动画旨在将输入音频映射到逼真的面部运动。尽管取得了显著进展，但由于不一致的3D标注，以往的模型受到限制，只能在特定标注上进行训练，从而限制了训练规模。在这项工作中，我们提出了UniTalker，这是一个统一的模型，具有多头架构，旨在有效利用具有不同标注的数据集。为了增强训练稳定性并确保多头输出之间的一致性，我们采用了三种训练策略，即PCA、模型预热和枢轴身份嵌入。为了扩大训练规模和多样性，我们组建了A2F-Bench，包括五个公开数据集和三个新筛选的数据集。这些数据集涵盖了广泛的音频领域，涵盖了多语言演讲声音和歌曲，从而将训练数据从通常少于1小时的常用数据集扩展到18.5小时。通过单个经过训练的UniTalker模型，我们实现了BIWI数据集的唇部顶点误差降低了9.2%，Vocaset降低了13.7%。此外，预训练的UniTalker表现出作为音频驱动面部动画任务基础模型的潜力。在已见数据集上微调预训练的UniTalker进一步提高了每个数据集的性能，在A2F-Bench上平均误差降低了6.3%。此外，在仅具有一半数据的未见数据集上微调UniTalker超过了以往在完整数据集上训练的最先进模型。代码和数据集可在项目页面https://github.com/X-niper/UniTalker 上找到。

尾巴述说故事：带有角色名称的章节级漫画转录
Tails Tell Tales: Chapter-Wide Manga Transcriptions with Character Names

Aug 1

ByRagav Sachdeva, Gyungin Shin, Andrew Zisserman

让视障人士参与漫画阅读面临重大挑战，因为漫画本质上是一种视觉形式。为促进可访问性，本文旨在自动完整生成一整个漫画章节的对话转录，特别注重确保叙事一致性。这包括识别（i）对话内容，即检测每一页上的文本并将其分类为必要与非必要，以及（ii）对话发出者，即将每段对话归属给其说话者，同时确保整个章节中角色名称一致。为此，我们引入了：（i）Magiv2，一个能够生成高质量整章漫画转录的模型，具有命名角色和在说话者分离方面比以往作品具有更高精度的特点；（ii）PopManga评估数据集的扩展，现在包括对话气泡尾框的标注，将文本与相应尾框关联，将文本分类为必要或非必要，并为每个角色框标识身份；以及（iii）一个新的角色库数据集，包括来自76部漫画系列的超过11K个角色，总共包含11.5K个示例角色图像，以及它们出现的章节列表。代码、训练模型和这两个数据集可在以下网址找到：https://github.com/ragavsachdeva/magi

利用嵌套嵌入学习增强阿拉伯语自然语言处理中的语义相似性理解
Enhancing Semantic Similarity Understanding in Arabic NLP with Nested Embedding Learning

Jul 30

ByOmer Nacar, Anis Koubaa

本文提出了一个新颖的框架，通过母嵌套学习（Matryoshka Embedding Learning）来训练阿拉伯语嵌套嵌入模型，利用多语言、阿拉伯语特定和基于英语的模型，突出了嵌套嵌入模型在各种阿拉伯语自然语言处理下游任务中的强大能力。我们的创新贡献包括将各种句子相似性数据集翻译成阿拉伯语，从而实现了一个全面的评估框架，以比较这些模型在不同维度上的表现。我们在阿拉伯语自然语言推理三元组数据集上训练了几个嵌套嵌入模型，并使用多个评估指标对它们的性能进行了评估，包括余弦相似度、曼哈顿距离、欧氏距离和点积相似度的皮尔逊和斯皮尔曼相关性。结果表明，Matryoshka嵌入模型在捕捉阿拉伯语中独特语义细微差别方面表现出卓越性能。结果表明，阿拉伯语Matryoshka嵌入模型在捕捉阿拉伯语中独特语义细微差别方面表现出卓越性能，在各种相似性指标上比传统模型表现出高达20-25\%的优越性。这些结果强调了语言特定训练的有效性，并突显了Matryoshka模型在增强阿拉伯语自然语言处理中语义文本相似性任务的潜力。

平滑能量引导：通过减小注意力曲率指导扩散模型
Smoothed Energy Guidance: Guiding Diffusion Models with Reduced Energy Curvature of Attention

Aug 1

BySusung Hong

条件扩散模型在视觉内容生成方面取得了显著成功，跨越各个领域生成高质量样本，这在很大程度上归功于无分类器指导（CFG）。最近对无条件模型扩展指导的尝试依赖于启发式技术，导致生成质量次优和产生意外效果。在这项工作中，我们提出了平滑能量指导（SEG），这是一种新颖的无需训练和条件的方法，利用自注意力机制的基于能量的视角来增强图像生成。通过定义自注意力的能量，我们引入了一种方法来减少注意力能量景观的曲率，并将输出用作无条件预测。在实践中，我们通过调整高斯核参数来控制能量景观的曲率，同时保持指导尺度参数不变。此外，我们提出了一种查询模糊方法，相当于模糊整个注意力权重，而不会导致标记数量的二次复杂度。在我们的实验中，SEG在质量和副作用减少方面实现了帕累托改进。代码可在https://github.com/SusungHong/SEG-SDXL找到。

非言语，而是实物：大型语言模型是解决意大利谜题的弱工具
Non Verbis, Sed Rebus: Large Language Models are Weak Solvers of Italian Rebuses

Aug 1

ByGabriele Sarti, Tommaso Caselli, Malvina Nissim, Arianna Bisazza

Rebuses 是需要受限制的多步推理来识别一组图像和字母中的隐藏短语的谜题。在这项工作中，我们介绍了一个用意大利语口头表达的大量rebus，并使用它来评估最先进的大型语言模型的rebus解决能力。虽然诸如 LLaMA-3 和 GPT-4o 等通用系统在这项任务上表现不佳，但专门的微调似乎可以提高模型的性能。然而，我们发现训练带来的性能提升在很大程度上是出于记忆。我们的结果表明，rebus 解决仍然是一个具有挑战性的测试平台，用于评估大型语言模型的语言能力和顺序指令遵循技能。

视觉语言模型时代的广义场外检测及更多：一项调查
Generalized Out-of-Distribution Detection and Beyond in Vision Language Model Era: A Survey

Jul 31

ByAtsuyuki Miyai, Jingkang Yang, Jingyang Zhang, Yifei Ming, Yueqian Lin, Qing Yu, Go Irie, Shafiq Joty, Yixuan Li, Hai Li, Ziwei Liu, Toshihiko Yamasaki, Kiyoharu Aizawa

检测出分布外（OOD）样本对确保机器学习系统的安全至关重要，并且已经塑造了OOD检测领域。同时，还有几个与OOD检测密切相关的问题，包括异常检测（AD）、新颖性检测（ND）、开放集识别（OSR）和离群值检测（OD）。为了统一这些问题，提出了一个广义OOD检测框架，对这五个问题进行了分类。然而，视觉语言模型（VLMs）如CLIP已经显著改变了范式，并模糊了这些领域之间的界限，再次令研究人员感到困惑。在本调查中，我们首先提出了一个广义OOD检测v2，概括了AD、ND、OSR、OOD检测和OD在VLM时代的演变。我们的框架揭示了，通过一些领域的不活跃和整合，具有挑战性的问题已经变成了OOD检测和AD。此外，我们还强调了定义、问题设置和基准的显著变化；因此，我们对OOD检测方法论进行了全面回顾，包括讨论其他相关任务以澄清它们与OOD检测的关系。最后，我们探讨了新兴大型视觉语言模型（LVLM）时代的进展，例如GPT-4V。我们以对未来挑战和方向的探讨结束本调查。

基于句子的语音摘要：任务、数据集和端到端建模与语言模型知识蒸馏
Sentence-wise Speech Summarization: Task, Datasets, and End-to-End Modeling with LM Knowledge Distillation

Aug 1

ByKohei Matsuura, Takanori Ashihara, Takafumi Moriya, Masato Mimura, Takatomo Kano, Atsunori Ogawa, Marc Delcroix

本文介绍了一种名为句子级语音摘要（Sen-SSum）的新方法，该方法以逐句方式从口头文档中生成文本摘要。Sen-SSum将自动语音识别（ASR）的实时处理与语音摘要的简洁性相结合。为了探索这种方法，我们提出了两个Sen-SSum的数据集：Mega-SSum和CSJ-SSum。利用这些数据集，我们的研究评估了两种基于Transformer的模型：1）将ASR和强文本摘要模型结合的级联模型，以及2）直接将语音转换为文本摘要的端到端（E2E）模型。虽然端到端模型在开发高效模型方面具有吸引力，但它们的性能不如级联模型。因此，我们提出使用级联模型生成的伪摘要对端到端模型进行知识蒸馏。我们的实验表明，这种提出的知识蒸馏有效地提高了端到端模型在两个数据集上的性能。