每日精选AI研究论文及翻译
PaliGemma是一种基于SigLIP-So400m视觉编码器和Gemma-2B语言模型的开放式视觉-语言模型(VLM)。它经过训练,是一种多才多艺、知识广泛的基础模型,适用于迁移学习。在各种开放世界任务中表现出色。我们对PaliGemma进行了近40项不同任务的评估,包括标准VLM基准测试,以及更专业的任务,如遥感和分割。
大型语言模型(LLMs)展现出在各种任务中的卓越性能和巨大潜力。然而,在低资源环境中部署性能优越的LLMs已经引起了行业的广泛关注。当GPU硬件资源有限时,我们可以在CPU上探索替代选项。为了减轻财务负担并缓解硬件资源带来的限制,优化推理性能是必要的。在本文中,我们介绍了一种易于部署的推理性能优化解决方案,旨在加速CPU上的LLMs。在这个解决方案中,我们实现了一种有效的方法来减少KV缓存大小,同时确保精度。我们提出了一种分布式推理优化方法,并基于oneAPI Collective Communications Library实现了它。此外,我们提出了针对CPU上LLMs的优化方法,并为最常用的模型进行了定制优化。该代码已在https://github.com/intel/xFasterTransformer 上开源。
视觉指导调整在增强大型多模态模型(LMMs)的能力方面取得了长足进展。然而,现有的开放式LMMs主要关注单图像任务,它们在多图像场景中的应用仍未得到充分探讨。此外,先前的LMM研究分别处理不同场景,导致无法将新兴能力泛化到跨场景中。为此,我们引入LLaVA-NeXT-Interleave,同时处理LMMs中的多图像、多帧(视频)、多视角(3D)和多块(单图像)场景。为实现这些能力,我们将交错数据格式视为通用模板,并编制了包含1,177.6k样本的M4-Instruct数据集,涵盖4个主要领域,14个任务和41个数据集。我们还策划了LLaVA-Interleave Bench,全面评估LMMs的多图像性能。通过大量实验,LLaVA-NeXT-Interleave在多图像、视频和3D基准测试中取得领先成绩,同时保持单图像任务的性能。此外,我们的模型还展示了一些新兴能力,例如在不同设置和模态之间转移任务。代码可在https://github.com/LLaVA-VL/LLaVA-NeXT找到。
我们提出了4DiM,这是一个级联扩散模型,用于4D新视角合成(NVS),以一张或多张通用场景图像为条件,并配以一组相机姿势和时间戳。为了克服由于4D训练数据有限而带来的挑战,我们主张在3D(带相机姿势)、4D(姿势+时间)和视频(只有时间而无姿势)数据上进行联合训练,并提出了一种新的架构来实现这一点。我们进一步主张使用单目度量深度估计器校准SfM姿势数据,以实现度量尺度相机控制。为了对模型进行评估,我们引入了新的指标来丰富和克服当前评估方案的缺点,展示了与现有3D NVS扩散模型相比在保真度和姿势控制方面的最新成果,同时增加了处理时间动态的能力。4DiM还用于改进全景拼接、姿势条件视频到视频的翻译以及其他几项任务。有关概述,请参阅https://4d-diffusion.github.io。
随着文本到视频生成领域的显著突破,根据视频输入生成在语义和时间上对齐的音频内容已成为研究人员的关注焦点。在这项工作中,我们旨在深入探讨视频到音频生成范式,重点关注三个关键方面:视觉编码器、辅助嵌入和数据增强技术。从基于简单但出人意料地有效直觉构建的基础模型VTA-LDM开始,我们通过消融研究探索各种视觉编码器和辅助嵌入。通过采用强调生成质量和视频-音频同步对齐的全面评估流程,我们展示了我们的模型具有最先进的视频到音频生成能力。此外,我们提供了关于不同数据增强方法对增强生成框架整体能力的影响的重要见解。我们展示了推进从语义和时间角度生成同步音频的挑战的可能性。我们希望这些见解将成为开发更加真实和准确的音视频生成模型的奠基石。
我们提出了VEnhancer,这是一个生成式时空增强框架,通过在空间域添加更多细节和在时间域合成详细运动来改善现有的文本到视频结果。给定一个生成的低质量视频,我们的方法可以通过统一的视频扩散模型同时增加其空间和时间分辨率,实现任意上采样空间和时间尺度。此外,VEnhancer有效消除了生成视频的空间伪影和时间闪烁。为实现这一目标,我们基于预训练的视频扩散模型,训练了一个视频控制网络,并将其注入到扩散模型中作为低帧率和低分辨率视频的条件。为了有效训练这个视频控制网络,我们设计了时空数据增强以及视频感知调节。得益于以上设计,VEnhancer在训练过程中表现稳定,并采用了优雅的端到端训练方式。大量实验证明,VEnhancer在增强AI生成视频方面超越了现有的视频超分辨率和时空超分辨率方法。此外,借助VEnhancer,现有的开源最先进文本到视频方法VideoCrafter-2在视频生成基准VBench中排名第一。
最近,定制文本到图像(T2I)模型取得了巨大进展,特别是在个性化、风格化和条件生成等领域。然而,将这一进展扩展到视频生成仍处于起步阶段,主要是由于缺乏定制视频数据。在这项工作中,我们引入了Still-Moving,一个新颖的通用框架,用于定制文本到视频(T2V)模型,而无需任何定制视频数据。该框架适用于著名的T2V设计,其中视频模型是基于文本到图像(T2I)模型构建的(例如,通过膨胀)。我们假设可以访问定制版本的T2I模型,该模型仅在静态图像数据上进行训练(例如,使用DreamBooth或StyleDrop)。简单地将定制T2I模型的权重插入T2V模型通常会导致显着的伪影或不足的符合定制数据。为了克服这个问题,我们训练了轻量级的空间适配器,用于调整注入的T2I层生成的特征。重要的是,我们的适配器是在“冻结视频”(即,重复图像)上进行训练的,这些视频是由定制T2I模型生成的图像样本构建的。这种训练是通过一种新颖的运动适配器模块实现的,该模块允许我们在保留视频模型的运动先验的同时在这些静态视频上进行训练。在测试时,我们移除运动适配器模块,只保留训练好的空间适配器。这样可以恢复T2V模型的运动先验,同时符合定制T2I模型的空间先验。我们在个性化、风格化和条件生成等各种任务上展示了我们方法的有效性。在所有评估的场景中,我们的方法无缝地将定制T2I模型的空间先验与T2V模型提供的运动先验相结合。
据说大规模预训练语言模型(LMs)“缺乏将话语与世界联系起来的能力”(Bender和Koller,2020),因为它们没有“对世界的心智模型”(Mitchell和Krakauer,2023)。如果是这样,人们会期望LM表示与视觉模型诱导的表示无关。我们在四个LM系列(BERT、GPT-2、OPT和LLaMA-2)和三种视觉模型架构(ResNet、SegFormer和MAE)之间进行了实证评估。我们的实验表明,LMs在一定程度上趋向于与视觉模型的同构表示收敛,但受到离散性、多义性和频率的影响。这对多模态处理和LM理解辩论(Mitchell和Krakauer,2023)都具有重要意义。
现有的视觉文本对比学习模型通过匹配配对的图像和标题嵌入,同时将不相关的配对分开,增强了表示的可传递性,并支持零样本预测。然而,天文图像标签数据集与互联网上可用的一般图像和标签数据集相比要小得多。我们引入了CosmoCLIP,这是一个精确在预训练的CLIP模型上微调的天文图像文本对比学习框架,使用SpaceNet和基于BLIP的标题。通过FLARE获得的SpaceNet包含约13k张优化分布的图像,而BLIP充当丰富的知识提取器。从SpaceNet和BLIP描述中提取的丰富语义,在对比学习时使CosmoCLIP能够在各种领域内和领域外的任务中实现优越的泛化。我们的结果表明,CosmoCLIP是一个简单而强大的框架,在零样本分类和图像文本检索任务中明显优于CLIP。
本文讨论了代码生成测试集中的污染问题,特别是它们在现代大型语言模型中的使用。我们讨论了三种可能导致这种污染的来源,并展示了支持每种来源的发现:(i) 直接数据泄漏,(ii) 通过使用合成数据间接数据泄漏,以及 (iii) 在模型选择过程中对评估集过拟合。我们的发现的关键在于一个包含161个提示及其相关Python解决方案的新数据集,该数据集已发布在 https://huggingface.co/datasets/CohereForAI/lbpp。
我们提出了一种机器人学习方法,用于沟通、规划和执行各种任务,命名为This&That。我们通过利用在互联网规模数据上训练的视频生成模型的强大能力,实现了针对一般任务的机器人规划,这些数据包含丰富的物理和语义上下文。在这项工作中,我们解决了基于视频的规划中的三个基本挑战:1)通过简单的人类指令进行明确的任务沟通,2)尊重用户意图的可控视频生成,以及3)将视觉规划转化为机器人动作。我们提出了语言手势调节来生成视频,相对于现有的仅使用语言的方法,在复杂和不确定的环境中更简单和更清晰。然后,我们建议一种行为克隆设计,无缝地将视频计划纳入其中。This&That展示了在解决上述三个挑战方面的最新有效性,并证明了使用视频生成作为通用任务规划和执行的中间表示的合理性。项目网站:https://cfeng16.github.io/this-and-that/.
在网络抓取数据上训练分类器需要学习算法能够抵御注释错误和无关示例。本文基于最近的经验观察,指出将无监督对比学习应用于嘈杂的网络抓取数据集可以产生一个特征表示,使得分布内(ID)和分布外(OOD)样本在其下线性可分。我们展示了直接估计分离超平面确实能够准确检测OOD样本,然而令人惊讶的是,这种检测并没有转化为分类准确性的提升。深入研究这一现象,我们发现几乎完美的检测错过了一类对监督学习有价值的干净示例。这些示例通常代表视觉简单的图像,使用标准损失或基于距离的方法很容易识别为干净示例,尽管它们在无监督学习中与OOD分布之间的分离较差。由于我们进一步观察到与SOTA指标的低相关性,这促使我们提出一种混合解决方案,交替使用线性分离进行噪声检测和最先进的(SOTA)小损失方法。当与SOTA算法PLS结合时,我们显著改善了存在网络噪声情况下的真实世界图像分类的SOTA结果 github.com/PaulAlbert31/LSA
我们介绍了BiGym,这是一个针对移动双手示范驱动机器人操作的新基准和学习环境。BiGym包含40个多样化的任务,设定在家庭环境中,从简单的目标达成到复杂的厨房清洁等各种任务。为了准确捕捉真实世界的表现,我们为每个任务提供了人类收集的示范,反映了真实世界机器人轨迹中的多样性模态。BiGym支持各种观测数据,包括本体感知数据和视觉输入,如RGB和来自3个摄像头视角的深度。为了验证BiGym的可用性,我们在环境中彻底基准测试了最先进的模仿学习算法和示范驱动强化学习算法,并讨论了未来的机会。
人群运动生成在娱乐行业(如动画和游戏)以及战略领域(如城市模拟和规划)中至关重要。这项新任务需要精细地整合控制和生成,以在特定空间和语义约束下实现逼真地合成人群动态,其挑战尚未完全探索。一方面,现有的人类运动生成模型通常侧重于个体行为,忽视了集体行为的复杂性。另一方面,最近的多人运动生成方法严重依赖预定义场景,并且仅限于固定且有限的人际互动数量,从而限制了它们的实用性。为了克服这些挑战,我们引入了CrowdMoGen,这是一个零样本文本驱动框架,利用大型语言模型(LLM)的力量将集体智慧整合到运动生成框架中作为指导,从而实现人群运动的通用规划和生成,而无需配对训练数据。我们的框架包括两个关键组件:1)人群场景规划器,根据特定场景背景或引入的扰动学习协调运动和动态,以及2)集体运动生成器,根据整体计划高效合成所需的集体运动。广泛的定量和定性实验证实了我们框架的有效性,它不仅通过提供可扩展和通用的解决方案填补了人群运动生成任务的关键空白,而且实现了高水平的逼真性和灵活性。