每日精选AI研究论文及翻译
通过使用更多的测试时间计算来使LLMs改善其输出是构建能够在开放式自然语言上运行的普遍自我改进代理的关键步骤。本文研究了LLMs推理时间计算的扩展,重点关注回答以下问题:如果允许LLM使用固定但非平凡量的推理时间计算,它在具有挑战性提示时可以提高多少性能?回答这个问题不仅对LLMs的可实现性能有影响,还对LLM预训练的未来以及如何权衡推理时间和预训练计算有影响。尽管这很重要,但很少有研究尝试理解各种测试时间推理方法的扩展行为。此外,当前工作在很大程度上为一些策略提供了负面结果。在这项工作中,我们分析了两种主要机制来扩展测试时间计算:(1)针对密集的基于过程的验证器奖励模型进行搜索;以及(2)在测试时间根据提示自适应地更新模型对响应的分布。我们发现,在这两种情况下,不同方法扩展测试时间计算的有效性在很大程度上取决于提示的难度。这一观察结果促使应用“计算最优”扩展策略,该策略可最有效地根据提示自适应地分配测试时间计算。使用这种计算最优策略,我们可以将测试时间计算的效率提高超过4倍,与最佳N基线相比。此外,在FLOPs匹配评估中,我们发现在较小基础模型取得某种程度的非平凡成功率的问题上,测试时间计算可以用来胜过14倍大的模型。
对于大型视觉语言模型(LVLMs)来说,处理多个图像的能力至关重要,以便更全面、细致地理解场景。最近的多图像LVLMs已经开始解决这一需求。然而,它们的评估并没有跟上其发展的步伐。为了填补这一空白,我们引入了多模态多图像理解(MMIU)基准,这是一个全面的评估套件,旨在评估LVLMs在各种多图像任务中的表现。MMIU涵盖了7种类型的多图像关系,52个任务,77K张图像和11K个精心策划的多项选择题,使其成为同类基准中最为广泛的一个。我们对包括开源和专有模型在内的24个热门LVLMs进行评估,发现在多图像理解方面存在着重大挑战,特别是涉及空间理解的任务。即使是最先进的模型,如GPT-4o,在MMIU上的准确率也仅为55.7%。通过多方面的分析实验,我们确定了关键的性能差距和限制,为未来模型和数据改进提供了宝贵的见解。我们的目标是通过MMIU推动LVLM研究和发展的前沿,使我们朝着实现复杂的多模态多图像用户交互迈进。
我们提出了LLaVA-OneVision,这是一个由我们在LLaVA-NeXT博客系列中对数据、模型和视觉表示的洞见进行整合开发的开放大型多模态模型(LMM)系列。我们的实验结果表明,LLaVA-OneVision是第一个能够同时推动开放LMM在三个重要计算机视觉场景(单图像、多图像和视频场景)性能边界的单一模型。LLaVA-OneVision的设计允许在不同模态/场景之间进行强大的迁移学习,产生新的新兴能力。特别是,通过从图像到视频的任务迁移展示了强大的视频理解和跨场景能力。
我们提出了一种新方法,通过一种称为“物体图像”的表示来生成带有UV贴图的逼真3D模型。这种方法将表面几何、外观和补丁结构封装在一个64x64像素的图像中,有效地将复杂的3D形状转换为更易处理的2D格式。通过这种方式,我们解决了多边形网格中固有的几何和语义不规则性所带来的挑战。这种方法使我们能够直接将图像生成模型(如扩散变换器)用于3D形状生成。在ABO数据集上评估时,我们生成的带有补丁结构的形状实现了与最近的3D生成模型相媲美的点云FID,同时自然地支持PBR材质生成。
本文介绍了MedTrinity-25M,这是一个涵盖超过2500万张图像的综合大规模多模态医学数据集,涵盖了10种模态,针对65多种疾病提供了多粒度的注释。这些丰富的注释包括全局文本信息,如疾病/病变类型、模态、特定区域描述以及区域间关系,以及针对感兴趣区域(ROI)的详细局部注释,包括边界框、分割掩模。与现有方法不同,该方法不受图像-文本配对可用性的限制,我们开发了第一个自动化流水线,通过生成多粒度的视觉和文本注释(以图像-ROI-描述三元组的形式)来扩展多模态数据,而无需任何配对文本描述。具体而言,我们收集了来自90多个不同来源的数据,经过预处理,并利用领域专家模型对与异常区域相关的ROI进行了确定。然后,我们构建了一个全面的知识库,并促使多模态大型语言模型执行检索增强生成,以确定的ROI作为指导,生成多粒度的文本描述。与现有数据集相比,MedTrinity-25M提供了最丰富的注释,支持一系列多模态任务,如字幕生成和报告生成,以及视觉中心任务,如分类和分割。在MedTrinity-25M上进行预训练后,我们的模型在VQA-RAD和PathVQA上实现了最先进的性能,超越了多模态大型语言模型和其他代表性的最先进方法。该数据集还可用于支持大规模预训练多模态医学AI模型,有助于发展未来医学领域的基础模型。
扩散模型不断推动最先进的图像生成边界,但这个过程很难以任何细微之处进行控制:实践证明,文本提示无法准确描述图像风格或细微的结构细节(如面部)。ControlNet和IPAdapter解决了这一不足,通过在生成过程中对图像进行条件设定,但每个单独实例仅限于对单个条件后验进行建模:对于需要在同一工作流程中实现多个不同后验的实际用例,训练和使用多个适配器很繁琐。我们提出了IPAdapter-Instruct,它将自然图像条件设定与“指令”提示相结合,以在相同条件图像之间切换解释:风格转移、对象提取、两者,或者其他什么?IPAdapter-Instruct能够高效地学习多个任务,与专门的每个任务模型相比,几乎不会损失质量。
关于验证语言模型输出正确性的研究日益增多。同时,语言模型被用于处理需要推理的复杂查询。我们介绍了CoverBench,这是一个专注于在复杂推理环境中验证语言模型输出的具有挑战性的基准测试。用于此目的的数据集通常设计用于其他复杂推理任务(例如问答),针对特定用例(例如财务表),需要进行转换、负采样和选择困难示例来收集这样一个基准测试。CoverBench为各种领域、推理类型、相对较长的输入以及多种标准化提供了多样化的复杂主张验证评估,例如在可用的情况下为表格提供多种表示,并保持一致的模式。我们手动审核数据以确保标签噪声水平较低。最后,我们报告了各种具有竞争力的基准结果,以展示CoverBench具有挑战性并具有非常显著的潜力。数据可在https://huggingface.co/datasets/google/coverbench 获取。
本文演示了如何将用于图像合成的生成模型作为视觉数据挖掘工具。我们的洞察力在于,由于当代生成模型学习了其训练数据的准确表示,我们可以利用它们通过挖掘视觉模式来总结数据。具体来说,我们展示了在对特定数据集进行微调的条件扩散模型用于合成图像后,我们可以利用这些模型在该数据集上定义典型性度量。该度量评估了不同数据标签(如地理位置、时间戳、语义标签甚至疾病存在)的视觉元素的典型程度。这种通过合成进行数据挖掘的分析方法具有两个关键优势。首先,与传统基于对应关系的方法相比,它的扩展性更好,因为它不需要显式比较所有视觉元素对。其次,虽然大多数先前关于视觉数据挖掘的工作集中在单个数据集上,我们的方法可以处理内容和规模各异的多个数据集,包括历史汽车数据集、历史人脸数据集、大规模全球街景数据集,甚至更大的场景数据集。此外,我们的方法允许在类别标签之间转换视觉元素并分析一致的变化。
利用给定音频制作唇同步视频是各种应用的基础,包括创建虚拟主持人或表演者。尽管最近的研究探索了使用不同技术实现高保真度的唇同步,但它们的面向任务的模型要么需要长期视频进行特定片段的训练,要么会保留可见的伪影。本文提出了一个统一且有效的框架 ReSyncer,用于同步通用的音频-视觉面部信息。关键设计是重新审视并重构基于样式的生成器,以有效地采用由基于原则的注入样式的 Transformer 预测的 3D 面部动态。通过简单地重新配置嵌入在噪声和样式空间中的信息插入机制,我们的框架将运动和外观融合在一起进行统一训练。大量实验证明,ReSyncer 不仅能根据音频生成高保真度的唇同步视频,还支持多种吸引人的特性,适用于创建虚拟主持人和表演者,包括快速个性化微调、视频驱动的唇同步、言谈风格的转移,甚至是人脸交换。资源可在 https://guanjz20.github.io/projects/ReSyncer 找到。
评估是大型语言模型发展的指挥棒。当前的评估通常采用单项评估范式来评估每个原子测试目标,这种方法往往难以区分模型是否真正具备所需的能力,还是仅仅是记忆/猜测特定问题的答案。为此,我们提出了一种新颖的评估框架,称为StructEval。StructEval从原子测试目标出发,通过跨多个认知层次和关键概念进行结构化评估,从而为LLM提供全面、健壮和一致的评估。对三个广泛使用的基准进行的实验表明,StructEval可作为一个可靠工具,抵抗数据污染风险,减少潜在偏见的干扰,从而提供关于模型能力更可靠和一致的结论。我们的框架还为未来的基于原则和值得信赖的LLM评估协议的设计提供了启示。
在文本到SQL任务中,开源和闭源大型语言模型(LLMs)之间的能力差距仍然是一个挑战。本文介绍了一种合成数据方法,该方法将由更大、更强大模型(强模型)生成的数据与由较小、不太对齐的模型(弱模型)生成的错误信息数据相结合。该方法不仅增强了文本到SQL模型的领域泛化能力,还通过偏好学习探索了错误数据监督的潜力。此外,我们利用合成数据方法对开源LLMs进行指导调优,形成了一种专门的文本到SQL模型SENSE。SENSE的有效性通过在SPIDER和BIRD基准上展示的最新结果得到证明,弥合了开源模型和闭源模型推动的方法之间的性能差距。
最近,基于Transformer的模型在音频-视觉分割(AVS)任务中展现出卓越的性能。然而,它们昂贵的计算成本使得实时推断变得不切实际。通过对网络的注意力图进行表征,我们确定了AVS模型中的两个关键障碍:1)注意力消散,对应于Softmax在受限制的框架内过度集中的注意力权重,以及2)低效、繁重的Transformer解码器,由早期阶段的狭窄焦点模式引起。在本文中,我们介绍了AVESFormer,这是第一个实时音频-视觉高效分割Transformer,实现了快速、高效和轻量化的同时。我们的模型利用高效的提示查询生成器来纠正交叉注意力的行为。此外,我们提出了ELF解码器,通过促进适用于局部特征的卷积以减少计算负担,从而带来更大的效率。大量实验证明,我们的AVESFormer显著提升了模型性能,在S4上达到了79.9%,在MS3上达到了57.9%,在AVSS上达到了31.2%,胜过先前的最新技术,并实现了性能和速度之间的优秀折衷。代码可在https://github.com/MarkXCloud/AVESFormer.git 找到。