每日精选AI研究论文及翻译
本报告介绍了 xGen-MM(也称为 BLIP-3),这是一个用于开发大型多模态模型(LMMs)的框架。该框架包括精心策划的数据集、训练配方、模型架构以及一系列 LMMs。xGen-MM,即 xGen-MultiModal,扩展了Salesforce xGen在基础AI模型上的倡议。我们的模型经过严格评估,涵盖各种任务,包括单图和多图基准测试。我们的预训练基础模型展现出强大的上下文学习能力,而经过指导调整的模型在与类似模型规模的开源LMMs中表现出竞争力。此外,我们引入了一个带有DPO的安全调整模型,旨在减轻诸如幻觉之类的有害行为并提高安全性。我们将我们的模型、精心策划的大规模数据集以及微调代码库开源,以促进LMM研究的进一步发展。相关资源将在我们的项目页面上提供。
最近在图像和视频生成领域,由于其通用性和潜在易于集成到多模态系统中,开始采用自回归LLM架构。将自回归训练在语言生成中应用到视觉生成的关键在于离散化,即将诸如图像和视频之类的连续数据表示为离散标记。离散化图像和视频的常见方法包括对原始像素值进行建模,这是非常冗长的,或者使用矢量量化,这需要复杂的预先训练。在这项工作中,我们提出直接将图像和视频建模为通过经典编解码器(例如JPEG、AVC/H.264)保存在计算机上的压缩文件。使用默认的Llama架构,无需任何视觉特定修改,我们从头开始预训练JPEG-LM以生成图像(以AVC-LM生成视频作为概念验证),直接输出JPEG和AVC格式的压缩文件字节。图像生成的评估表明,这种简单直接的方法比基于像素建模和复杂的矢量量化基线更有效(我们的方法在其中实现了FID减少31%)。我们的分析显示,JPEG-LM在生成长尾视觉元素方面比矢量量化模型具有特殊优势。总体而言,我们展示了使用经典编解码器表示可以有助于降低语言生成和视觉生成之间的障碍,促进未来多模态语言/图像/视频LLM研究。
研究人员正在投入大量精力开发功能强大的通用代理,其中基础模型被用作代理系统中的模块(例如“思维链”、“自我反思”、“工具形态”)。然而,机器学习的历史告诉我们,手工设计的解决方案最终会被学习到的解决方案所取代。我们提出了一个新的研究领域,自动设计代理系统(ADAS),旨在自动创建功能强大的代理系统设计,包括发明新的构建模块和/或以新方式组合它们。我们进一步展示了ADAS中一个未被探索但具有前景的方法,其中代理可以用代码定义,并且新代理可以通过元代理编程在代码中自动发现更好的代理。鉴于编程语言是图灵完备的,这种方法在理论上使得学习任何可能的代理系统成为可能:包括新颖的提示、工具使用、控制流以及它们的组合。我们提出了一个简单而有效的算法,名为元代理搜索,来展示这一想法,其中一个元代理迭代地根据先前发现的日益增长的存档编程出有趣的新代理。通过跨多个领域(包括编码、科学和数学)的大量实验,我们展示了我们的算法可以逐步发明具有新设计的代理,这些代理明显优于最先进的手工设计代理。重要的是,我们始终观察到一个令人惊讶的结果,即由元代理搜索发明的代理在跨领域和模型转移时仍然保持出色的性能,展示了它们的稳健性和通用性。只要我们安全地开发它,我们的工作展示了一个激动人心的新研究方向的潜力,即自动设计越来越强大的代理系统以造福人类。
在计算辅助手术中,手术视频分割是一项关键任务,对提高手术质量和患者预后至关重要。最近,Segment Anything Model 2(SAM2)框架在图像和视频分割方面展示出卓越的进展。然而,由于处理高分辨率图像和手术视频中复杂且远程时间动态的高计算需求,SAM2效率不高。为了解决这些挑战,我们引入了Surgical SAM 2(SurgSAM-2),这是一个先进的模型,利用了SAM2与高效帧修剪(EFP)机制,以促进实时手术视频分割。EFP机制通过有选择地保留仅最具信息量的帧来动态管理内存库,从而减少内存使用和计算成本,同时保持高分割准确性。我们的广泛实验表明,与原始SAM2相比,SurgSAM-2显著提高了效率和分割准确性。值得注意的是,SurgSAM-2在与SAM2相比,FPS提高了3倍,同时在与低分辨率数据微调后也提供了最先进的性能。这些进展将SurgSAM-2确立为手术视频分析的领先模型,使资源受限环境下的实时手术视频分割成为可能。
在少步扩散模型的背景下,我们解决了精确图像反演和解耦图像编辑的挑战。我们引入了一种基于编码器的迭代反演技术。反演网络以输入图像和前一步重建图像为条件,从而使下一次重建朝向输入图像进行校正。我们展示了在少步扩散模型中,通过以(自动生成的)详细文本提示为条件,可以轻松实现解耦控制。为了操纵反演图像,我们固定噪声图并修改文本提示中的一个属性(可以手动或通过基于LLM驱动的指令编辑),从而生成一个类似于输入图像但只改变一个属性的新图像。它还可以控制编辑强度并接受指导性文本提示。我们的方法实现了实时逼真的文本引导图像编辑,仅需要8次反演中的功能评估(一次性成本)和每次编辑4次功能评估。我们的方法不仅速度快,而且在多步扩散编辑技术方面表现显著优越。
训练大型语言模型(LLMs)会产生相当大的数据相关成本,促使开发通过优化数据排序和选择的数据高效训练方法。人类启发的学习策略,如课程学习,通过按照常见的人类学习实践组织数据,为高效训练提供可能性。尽管有证据表明使用课程学习进行微调可以提高LLMs在自然语言理解任务中的性能,但其有效性通常是通过单一模型评估的。在这项工作中,我们通过评估基于课程和非基于课程的学习策略在多个LLMs上的应用,使用人工定义和自动化数据标签进行医学问答。我们的结果表明,使用人类启发的学习策略对微调LLMs有中等影响,每个模型最大准确率提升为1.77%,每个数据集为1.81%。至关重要的是,我们证明这些策略的有效性在不同的模型-数据集组合中显著变化,强调特定人类启发策略对微调LLMs的好处并不具有普遍性。此外,我们发现使用LLM定义的问题难度进行课程学习优于人类定义的难度,突显利用模型生成的度量进行最佳课程设计的潜力。
离线强化学习算法有望实现基于数据驱动的RL方法,无需昂贵或危险的现实世界探索,并受益于大规模预先收集的数据集。这反过来可以促进实际应用,以及对RL研究的更加标准化的方法。此外,离线RL方法可以为在线微调提供有效的初始化,以克服探索中的挑战。然而,评估离线RL算法的进展需要有效且具有挑战性的基准,这些基准捕捉了真实世界任务的属性,提供了一系列任务难度,并涵盖了领域参数(例如,视野长度、奖励稀疏性)和数据参数(例如,狭窄的演示数据或广泛的探索数据)的一系列挑战。虽然近年来在离线RL方面取得了相当大的进展,但这是通过更简单的基准任务实现的,但最广泛使用的数据集在性能上日益饱和,可能无法反映现实任务的属性。我们提出了一个新的离线RL基准,重点放在仿真机器人操作和运动环境的现实模拟上,基于真实世界机器人系统的模型,并包括各种数据来源,包括脚本数据、由人类远程操作员收集的游戏式数据以及其他数据来源。我们提出的基准涵盖基于状态和基于图像的领域,并支持离线RL和在线微调评估,其中一些任务专门设计为需要预训练和微调。我们希望我们提出的基准可以促进离线RL和微调算法的进一步发展。网站提供代码、示例、任务和数据,网址为https://sites.google.com/view/d5rl/