每日精选AI研究论文及翻译
我们提出了Segment Anything Model 2(SAM 2),这是解决图像和视频中可提示分割问题的基础模型。我们构建了一个数据引擎,通过用户交互改进模型和数据,以收集迄今为止最大的视频分割数据集。我们的模型是一个简单的变压器架构,具有用于实时视频处理的流式内存。在我们的数据上训练的SAM 2在各种任务中表现出色。在视频分割中,我们观察到比先前方法更准确的结果,使用的交互次数减少了3倍。在图像分割中,我们的模型比Segment Anything Model(SAM)更准确且快6倍。我们相信我们的数据、模型和见解将成为视频分割和相关感知任务的重要里程碑。我们将发布我们模型的一个版本、数据集和一个交互式演示。
在这项工作中,我们介绍了 Gemma 家族的新成员 Gemma 2,这是一系列轻量级、最先进的开放模型,规模从 20 亿到 270 亿参数不等。在这个新版本中,我们对 Transformer 架构应用了几项已知的技术修改,比如交错使用局部-全局注意力(Beltagy 等,2020a)和组查询注意力(Ainslie 等,2023)。我们还使用知识蒸馏(Hinton 等,2015)来训练 20 亿和 90 亿参数的模型,而不是使用下一个标记预测。由此产生的模型在其规模下表现出最佳性能,甚至提供了与规模大 2-3 倍的模型竞争的替代方案。我们向社区发布了所有我们的模型。
我们提出了SF3D,一种新颖的方法,可以在仅0.5秒内从单个图像中快速高质量地重建带纹理的物体网格。与大多数现有方法不同,SF3D明确针对网格生成进行训练,结合了一种快速UV展开技术,可以快速生成纹理,而不是依赖顶点颜色。该方法还学习预测材质参数和法线贴图,以增强重建的3D网格的视觉质量。此外,SF3D集成了去光步骤,有效消除低频照明效果,确保重建的网格可以轻松用于新的照明条件。实验证明了SF3D相对于现有技术的卓越性能。项目页面:https://stable-fast-3d.github.io
尽管大型语言模型在自然语言理解方面表现出色,但其资源密集型特性使其较不易获得。相比之下,小型语言模型如MiniCPM提供更可持续的可扩展性,但通常在没有专门优化的情况下表现不佳。本文探讨了通过改进其文本嵌入来增强小型语言模型的方法。我们选择了三种语言模型,MiniCPM、Phi-2和Gemma,在NLI数据集上进行对比微调。我们的结果表明,这种微调方法提升了所有三种模型的文本嵌入质量,在各项基准测试中,MiniCPM表现出了平均56.33\%的性能提升。对比微调的代码可在https://github.com/trapoom555/Language-Model-STS-CFT 上公开获取。
大型视觉语言模型最近取得的成功显示了在用户界面上操作的代理系统中具有巨大潜力。然而,我们认为像GPT-4V这样的强大多模态模型作为跨不同应用程序的多个操作系统上的通用代理的能力被严重低估,这是因为缺乏一种强大的屏幕解析技术,能够:1)可靠地识别用户界面中的可交互图标,以及2)理解截屏中各种元素的语义,并准确地将预期操作与屏幕上相应区域关联起来。为了填补这些空白,我们引入了OmniParser,这是一种将用户界面截屏解析为结构化元素的综合方法,显著增强了GPT-4V生成能够准确基于界面相应区域的操作的能力。我们首先使用流行网页和图标描述数据集筛选了一个可交互图标检测数据集。利用这些数据集来微调专门的模型:一个检测模型来解析屏幕上的可交互区域,以及一个标题模型来提取检测到的元素的功能语义。OmniParser显著提高了GPT-4V在ScreenSpot基准测试中的性能。在Mind2Web和AITW基准测试中,仅使用截屏输入的OmniParser优于需要截屏以外的额外信息的GPT-4V基线。
多模态语言模型(MLLMs)越来越多地被应用于现实世界的环境中,这要求它们具备解释3D空间和理解时间动态的能力。尽管具有潜力,但我们社区内目前顶尖的模型仍然在充分理解空间和时间维度方面存在不足。我们引入了粗糙对应(Coarse Correspondence),这是一种简单、无需训练、有效且通用的视觉提示方法,用于引发多模态LLMs对3D和时间的理解。我们的方法使用轻量级跟踪模型在视频的帧之间或图像视角集之间找到物体对应关系。它选择最频繁出现的物体实例,并在图像中用带有唯一ID的标记进行可视化。通过这种简单方法,我们在包括ScanQA(+20.5\%)和OpenEQA的子集(+9.7\%)在内的3D理解基准测试中取得了最先进的结果,并且在诸如EgoSchema(+6.0\%)等长视频基准测试中也取得了优异成绩。我们还整理了一个小型诊断数据集,以评估MLLMs是否能够从除相机视角以外的描述视角推理空间。再次,粗糙对应提高了空间透视能力,但我们强调MLLMs在这项任务上存在困难。综上所述,我们展示了我们的简单提示方法可以显著帮助需要3D或时间推理的下游任务。
最近大型语言模型应用,如检索增强生成和聊天机器人,导致了对处理更长输入上下文的需求增加。然而,这一需求受到固有限制的阻碍。在架构上,模型受训练期间定义的上下文窗口的限制。此外,处理大量文本需要大量的GPU内存。我们提出了一种新方法,Finch,通过利用自注意力预训练模型权重来压缩输入上下文。给定一个提示和一段长文本,Finch迭代地识别在提示条件下文本块上最相关的键(K)和值(V)对。只有这些对被存储在KV缓存中,最终在上下文窗口限制的空间内包含长文本的压缩版本。我们的提议使模型能够消耗大量输入,即使进行高度压缩(高达93倍)也能保持语义完整性,而无需进行微调。
扩散模型为基于文本的图像编辑框架开辟了道路。然而,这些框架通常建立在扩散反向过程的多步特性上,将其调整为精炼、快速采样的方法却证明是相当具有挑战性的。在这里,我们专注于一种流行的基于文本的编辑框架 - “编辑友好型”DDPM-噪声反演方法。我们分析了其在快速采样方法中的应用,并将其失败归类为两类:视觉伪影的出现和编辑强度不足。我们将这些伪影追溯到反演噪声与预期噪声时间表之间的噪声统计不匹配,并提出了一种校正这种偏移的偏移噪声时间表。为增强编辑强度,我们提出了一种伪引导方法,有效地增加编辑的幅度而不引入新的伪影。总的来说,我们的方法使得基于文本的图像编辑仅需三个扩散步骤,同时为流行的基于文本的编辑方法背后的机制提供了新颖的见解。
MM-Vet,通过针对评估综合能力的开放式视觉-语言问题,已成为最受欢迎的大型多模态模型评估基准之一。MM-Vet评估六个核心视觉-语言(VL)能力:识别、知识、空间意识、语言生成、OCR和数学。然而,其问题格式仅限于单个图像-文本对,缺乏现实场景中普遍存在的交错图像和文本序列。为解决这一限制,我们引入了MM-Vet v2,其中包括一种名为“图像-文本序列理解”的新的VL能力,评估模型处理VL序列的能力。此外,我们保持了评估样本的高质量,同时进一步扩大了评估集的规模。使用MM-Vet v2来评估大型多模态模型,我们发现Claude 3.5 Sonnet是最佳模型,得分为71.8,略高于得分为71.0的GPT-4o。在开放权重模型中,InternVL2-Llama3-76B以68.4的得分领先。
近年来,视频生成和编辑方法的质量有了显著提升。虽然有几种技术侧重于编辑外观,但很少涉及运动。目前使用文本、轨迹或边界框的方法仅限于简单的运动,因此我们提出使用单个运动参考视频来指定运动。我们进一步建议使用预训练的图像到视频模型,而不是文本到视频模型。这种方法使我们能够保留目标对象或场景的确切外观和位置,并有助于将外观与运动分离。我们的方法称为运动文本反演,利用了我们的观察结果,即图像到视频模型主要从(潜在的)图像输入中提取外观,而通过交叉注意力注入的文本/图像嵌入主要控制运动。因此,我们使用文本/图像嵌入标记来表示运动。通过在每帧中包含多个文本/图像嵌入标记的膨胀的运动文本嵌入上操作,我们实现了高时间运动粒度。一旦在运动参考视频上进行优化,这种嵌入就可以应用于各种目标图像,以生成具有语义上相似运动的视频。我们的方法不需要运动参考视频和目标图像之间的空间对齐,在各个领域通用,并可应用于各种任务,如全身和面部再现,以及控制无生命物体和摄像机的运动。我们通过实验证明了我们的方法在语义视频运动转移任务中的有效性,在这一背景下明显优于现有方法。
音频驱动的3D面部动画旨在将输入音频映射到逼真的面部运动。尽管取得了显著进展,但由于不一致的3D标注,以往的模型受到限制,只能在特定标注上进行训练,从而限制了训练规模。在这项工作中,我们提出了UniTalker,这是一个统一的模型,具有多头架构,旨在有效利用具有不同标注的数据集。为了增强训练稳定性并确保多头输出之间的一致性,我们采用了三种训练策略,即PCA、模型预热和枢轴身份嵌入。为了扩大训练规模和多样性,我们组建了A2F-Bench,包括五个公开数据集和三个新筛选的数据集。这些数据集涵盖了广泛的音频领域,涵盖了多语言演讲声音和歌曲,从而将训练数据从通常少于1小时的常用数据集扩展到18.5小时。通过单个经过训练的UniTalker模型,我们实现了BIWI数据集的唇部顶点误差降低了9.2%,Vocaset降低了13.7%。此外,预训练的UniTalker表现出作为音频驱动面部动画任务基础模型的潜力。在已见数据集上微调预训练的UniTalker进一步提高了每个数据集的性能,在A2F-Bench上平均误差降低了6.3%。此外,在仅具有一半数据的未见数据集上微调UniTalker超过了以往在完整数据集上训练的最先进模型。代码和数据集可在项目页面https://github.com/X-niper/UniTalker 上找到。
让视障人士参与漫画阅读面临重大挑战,因为漫画本质上是一种视觉形式。为促进可访问性,本文旨在自动完整生成一整个漫画章节的对话转录,特别注重确保叙事一致性。这包括识别(i)对话内容,即检测每一页上的文本并将其分类为必要与非必要,以及(ii)对话发出者,即将每段对话归属给其说话者,同时确保整个章节中角色名称一致。 为此,我们引入了:(i)Magiv2,一个能够生成高质量整章漫画转录的模型,具有命名角色和在说话者分离方面比以往作品具有更高精度的特点;(ii)PopManga评估数据集的扩展,现在包括对话气泡尾框的标注,将文本与相应尾框关联,将文本分类为必要或非必要,并为每个角色框标识身份;以及(iii)一个新的角色库数据集,包括来自76部漫画系列的超过11K个角色,总共包含11.5K个示例角色图像,以及它们出现的章节列表。代码、训练模型和这两个数据集可在以下网址找到:https://github.com/ragavsachdeva/magi
条件扩散模型在视觉内容生成方面取得了显著成功,跨越各个领域生成高质量样本,这在很大程度上归功于无分类器指导(CFG)。最近对无条件模型扩展指导的尝试依赖于启发式技术,导致生成质量次优和产生意外效果。在这项工作中,我们提出了平滑能量指导(SEG),这是一种新颖的无需训练和条件的方法,利用自注意力机制的基于能量的视角来增强图像生成。通过定义自注意力的能量,我们引入了一种方法来减少注意力能量景观的曲率,并将输出用作无条件预测。在实践中,我们通过调整高斯核参数来控制能量景观的曲率,同时保持指导尺度参数不变。此外,我们提出了一种查询模糊方法,相当于模糊整个注意力权重,而不会导致标记数量的二次复杂度。在我们的实验中,SEG在质量和副作用减少方面实现了帕累托改进。代码可在https://github.com/SusungHong/SEG-SDXL找到。
Rebuses 是需要受限制的多步推理来识别一组图像和字母中的隐藏短语的谜题。在这项工作中,我们介绍了一个用意大利语口头表达的大量rebus,并使用它来评估最先进的大型语言模型的rebus解决能力。虽然诸如 LLaMA-3 和 GPT-4o 等通用系统在这项任务上表现不佳,但专门的微调似乎可以提高模型的性能。然而,我们发现训练带来的性能提升在很大程度上是出于记忆。我们的结果表明,rebus 解决仍然是一个具有挑战性的测试平台,用于评估大型语言模型的语言能力和顺序指令遵循技能。
检测出分布外(OOD)样本对确保机器学习系统的安全至关重要,并且已经塑造了OOD检测领域。同时,还有几个与OOD检测密切相关的问题,包括异常检测(AD)、新颖性检测(ND)、开放集识别(OSR)和离群值检测(OD)。为了统一这些问题,提出了一个广义OOD检测框架,对这五个问题进行了分类。然而,视觉语言模型(VLMs)如CLIP已经显著改变了范式,并模糊了这些领域之间的界限,再次令研究人员感到困惑。在本调查中,我们首先提出了一个广义OOD检测v2,概括了AD、ND、OSR、OOD检测和OD在VLM时代的演变。我们的框架揭示了,通过一些领域的不活跃和整合,具有挑战性的问题已经变成了OOD检测和AD。此外,我们还强调了定义、问题设置和基准的显著变化;因此,我们对OOD检测方法论进行了全面回顾,包括讨论其他相关任务以澄清它们与OOD检测的关系。最后,我们探讨了新兴大型视觉语言模型(LVLM)时代的进展,例如GPT-4V。我们以对未来挑战和方向的探讨结束本调查。
本文介绍了一种名为句子级语音摘要(Sen-SSum)的新方法,该方法以逐句方式从口头文档中生成文本摘要。Sen-SSum将自动语音识别(ASR)的实时处理与语音摘要的简洁性相结合。为了探索这种方法,我们提出了两个Sen-SSum的数据集:Mega-SSum和CSJ-SSum。利用这些数据集,我们的研究评估了两种基于Transformer的模型:1)将ASR和强文本摘要模型结合的级联模型,以及2)直接将语音转换为文本摘要的端到端(E2E)模型。虽然端到端模型在开发高效模型方面具有吸引力,但它们的性能不如级联模型。因此,我们提出使用级联模型生成的伪摘要对端到端模型进行知识蒸馏。我们的实验表明,这种提出的知识蒸馏有效地提高了端到端模型在两个数据集上的性能。
本文提出了一个新颖的框架,通过母嵌套学习(Matryoshka Embedding Learning)来训练阿拉伯语嵌套嵌入模型,利用多语言、阿拉伯语特定和基于英语的模型,突出了嵌套嵌入模型在各种阿拉伯语自然语言处理下游任务中的强大能力。我们的创新贡献包括将各种句子相似性数据集翻译成阿拉伯语,从而实现了一个全面的评估框架,以比较这些模型在不同维度上的表现。我们在阿拉伯语自然语言推理三元组数据集上训练了几个嵌套嵌入模型,并使用多个评估指标对它们的性能进行了评估,包括余弦相似度、曼哈顿距离、欧氏距离和点积相似度的皮尔逊和斯皮尔曼相关性。结果表明,Matryoshka嵌入模型在捕捉阿拉伯语中独特语义细微差别方面表现出卓越性能。结果表明,阿拉伯语Matryoshka嵌入模型在捕捉阿拉伯语中独特语义细微差别方面表现出卓越性能,在各种相似性指标上比传统模型表现出高达20-25\%的优越性。这些结果强调了语言特定训练的有效性,并突显了Matryoshka模型在增强阿拉伯语自然语言处理中语义文本相似性任务的潜力。