每日精选AI研究论文及翻译
为了与世界上的人类进行交互,代理需要理解人们使用的各种语言类型,将其与视觉世界联系起来,并根据这些语言采取行动。尽管当前的代理学习执行简单语言指令以获得任务奖励,我们的目标是构建能够利用传达一般知识、描述世界状态、提供互动反馈等多样语言的代理。我们的关键想法是语言帮助代理预测未来:将会被观察到什么,世界将如何行为,哪些情况将受到奖励。这种观点将语言理解与未来预测统一为一个强大的自监督学习目标。我们提出了Dynalang,一个学习多模态世界模型的代理,该模型可以预测未来的文本和图像表示,并学会根据想象的模型展开行动。与仅使用语言预测行动的传统代理不同,Dynalang通过利用过去的语言来预测未来的语言、视频和奖励,获得了丰富的语言理解。除了在环境中进行在线交互学习外,Dynalang还可以在文本、视频或两者的数据集上进行预训练,而无需行动或奖励。从在网格世界中使用语言提示到导航家居的照片级扫描,Dynalang利用各种类型的语言来提高任务性能,包括环境描述、游戏规则和指示。
我们介绍了OpenFlamingo,这是一个参数范围从3B到9B的自回归视觉-语言模型系列。OpenFlamingo是一个持续进行的努力,旨在制作DeepMind的Flamingo模型的开源复制品。在七个视觉-语言数据集上,OpenFlamingo模型的性能平均在80%到89%之间,与相应的Flamingo性能相当。本技术报告描述了我们的模型、训练数据、超参数和评估套件。我们在https://github.com/mlfoundations/open_flamingo 上分享我们的模型和代码。
对于大型语言模型(LLMs)来说,数学推理是一项具有挑战性的任务,然而其与LLM容量的扩展关系尚未得到充分探讨。本文研究了预训练损失、监督数据量以及增强数据量对监督式LLM推理性能的影响。我们发现,预训练损失是模型性能的更好指标,而不是模型参数数量。我们应用了不同量的监督数据进行监督微调(SFT),并在实证中发现数据量与模型性能之间存在对数线性关系,较好的模型在扩大监督数据集时改进较少。为了增加更多数据样本以提高模型性能而无需人工干预,我们提出应用拒绝抽样微调(RFT)。RFT利用监督模型生成和收集正确的推理路径作为增强微调数据集。我们发现,随着增强样本包含更多不同的推理路径,RFT对LLMs的数学推理性能改进更大。我们还发现,RFT对性能较差的LLMs带来更多改进。此外,我们结合了来自多个模型的拒绝样本,将LLaMA-7B的准确率提升至49.3%,明显优于35.9%的监督微调(SFT)准确率。
扩散模型在跨模态生成任务中表现出了良好的结果,包括文本到图像和文本到音频的生成。然而,作为一种特殊类型的音频,生成音乐面临独特挑战,因为音乐数据的可用性有限,而与版权和抄袭相关的敏感问题。本文针对这些挑战,首先构建了一种最先进的文本到音乐模型MusicLDM,该模型将稳定扩散和AudioLDM架构调整到音乐领域。我们通过在音乐数据样本集上重新训练对比语言-音频预训练模型(CLAP)和Hifi-GAN声码器作为MusicLDM的组成部分来实现这一点。然后,为了解决训练数据的限制并避免抄袭,我们利用一个节拍跟踪模型,并提出了两种不同的数据增强混合策略:节拍同步音频混合和节拍同步潜在混合,分别在训练音频直接或通过潜在嵌入空间重新组合。这些混合策略鼓励模型在训练样本之间进行插值,并在训练数据的凸包内生成新的音乐,使生成的音乐更加多样化,同时仍然忠实于相应的风格。除了常见的评估指标外,我们设计了几个基于CLAP分数的新评估指标,以证明我们提出的MusicLDM和节拍同步混合策略提高了生成音乐的质量和新颖性,以及输入文本与生成音乐之间的对应关系。
语言模型展示了在一个模态中学习的表示能够泛化到其他模态的下游任务的显著能力。我们能否将这种能力追溯到单个神经元?我们研究了一个冻结的文本变换器,通过自监督视觉编码器和在图像到文本任务上学习的单个线性投影来增强视觉。投影层的输出不能立即解码为描述图像内容的语言;相反,我们发现模态之间的转换发生在变换器的更深层。我们引入了一种识别“多模态神经元”的过程,这些神经元将视觉表示转换为相应的文本,并解码它们注入模型残差流的概念。在一系列实验中,我们展示了多模态神经元在不同输入上对特定视觉概念进行操作,并对图像字幕具有系统性因果影响。
我们介绍全视(AS)项目:一个用于识别和理解开放世界中一切事物的大规模数据和模型。利用一个可扩展的数据引擎,结合人类反馈和高效模型,我们创建了一个新数据集(AS-1B),其中包含超过10亿个区域,标注有语义标签、问答对和详细说明。它涵盖了现实世界中350万个常见和罕见概念,并包含1322亿个描述概念及其属性的标记。利用这一新数据集,我们开发了全视模型(ASM),一个统一的框架,用于全景视觉识别和理解。该模型通过开放式语言提示和位置进行训练,使其能够推广到各种视觉和语言任务,并表现出卓越的零样本性能,包括区域-文本检索、区域识别、字幕生成和问答。我们希望该项目能够成为视觉-语言人工通用智能研究的基础。模型和数据集将在https://github.com/OpenGVLab/All-Seeing发布,演示可在https://huggingface.co/spaces/OpenGVLab/all-seeing查看。
我们提出了HANDAL数据集,用于类别级别的物体姿态估计和可供性预测。与先前的数据集不同,我们的数据集专注于适合机器人执行器进行功能性抓取的机器人可操作对象,如钳子、器具和螺丝刀。我们的注释过程经过了简化,只需要一个现成的摄像头和半自动处理,即可生成高质量的3D注释,无需众包。该数据集包含来自212个真实世界对象的17个类别中2.2k个视频的308k个带注释的图像帧。我们专注于硬件和厨房工具对象,以促进研究实际场景中的实用性,其中机器人执行器需要与环境进行互动,而不仅仅是简单推动或不加选择地抓取。我们概述了我们的数据集在6自由度类别级别姿态+尺度估计及相关任务中的实用性。我们还提供了所有对象的3D重建网格,并概述了一些需要解决的瓶颈,以推动像这样的数据集的收集民主化。
本文提出了一种改进的DETR检测器,保持了“简单”的特性:使用单尺度特征图和全局交叉注意力计算,而不像之前主要基于DETR的检测器那样在解码器中重新引入多尺度和局部性约束的结构归纳偏差。我们展示了两种简单的技术在简单设计中出人意料地有效,以弥补多尺度特征图和局部性约束的缺失。第一种是将盒子到像素的相对位置偏差(BoxRPB)项添加到交叉注意力公式中,这有助于引导每个查询关注相应的对象区域,同时提供编码灵活性。第二种是基于掩码图像建模(MIM)的骨干预训练,有助于学习具有细粒度定位能力的表示,并且对纠正对多尺度特征图的依赖至关重要。通过结合这些技术和最新的训练和问题形成进展,改进的“简单”DETR显示出比原始DETR检测器显著的改进。通过利用Object365数据集进行预训练,它在使用Swin-L骨干时实现了63.9的mAP准确率,这与所有严重依赖多尺度特征图和基于区域的特征提取的最先进检测器具有很高的竞争力。代码可在https://github.com/impiga/Plain-DETR 找到。
想象游戏是创造力的一个领域,可以让机器人以更拟人化的方式与周围世界互动。想象游戏可以被视为将真实物体和地点,并在虚拟场景中将其用作想象的物体和地点。我们采用了大型语言模型(LLMs)的故事生成能力,用于获得用于与人类编写的提示进行想象游戏的故事。这些生成的故事将被简化并映射为行动序列,可指导代理程序进行想象游戏。为了评估代理程序是否能成功完成想象游戏,我们还设计了一个文本冒险游戏,模拟房屋作为代理程序进行互动的游乐场。
长曝光摄影产生令人惊叹的图像,展示了场景中移动元素的运动模糊。通常有两种模式,分别产生前景或背景的模糊效果。传统上,前景模糊图像是在三脚架相机上拍摄的,展示了模糊的移动前景元素,如柔和的水流或光轨,背景景观则清晰锐利。背景模糊图像,也称为跟焦摄影,是在相机跟踪移动主体时拍摄的,以产生一个清晰的主体图像,背景因相对运动而模糊。这两种技术都极具挑战性,需要额外的设备和高级技能。在本文中,我们描述了一个在手持智能手机相机应用中运行的计算爆发摄影系统,可以在按下快门按钮时完全自动实现这些效果。我们的方法首先检测并分割显著的主体。我们跟踪多帧的场景运动并对图像进行对齐,以保留所需的清晰度并产生美学上令人愉悦的运动轨迹。我们拍摄一组曝光不足的连拍,并选择能产生控制长度模糊轨迹的输入帧子集,无论场景或相机运动速度如何。我们预测帧间运动并合成运动模糊,填补输入帧之间的时间间隙。最后,我们将模糊图像与清晰的常规曝光合成,以保护面部或几乎不动的场景区域的清晰度,并生成最终的高分辨率和高动态范围(HDR)照片。我们的系统使此前仅供专业人士使用的能力民主化,并使这种创意风格对大多数业余摄影师可及。 更多信息和补充材料可在我们的项目网页找到:https://motion-mode.github.io/
动态彩色网格(DCM)被广泛应用于各种应用程序;然而,这些网格可能会经历不同的处理过程,如压缩或传输,这可能会扭曲它们并降低它们的质量。为了促进DCM的客观度量标准的发展,并研究典型失真对其感知的影响,我们创建了腾讯-动态彩色网格数据库(TDMD),其中包含八个参考DCM对象和六种典型失真。利用从DCM衍生的处理视频序列(PVS),我们进行了大规模主观实验,得出了303个失真DCM样本的平均意见分数,使TDMD成为我们所知最大的可用DCM数据库。该数据库使我们能够研究不同类型失真对人类感知的影响,并为DCM压缩和相关任务提供建议。此外,我们在TDMD上评估了三种最先进的客观度量标准,包括基于图像、基于点和基于视频的度量标准。我们的实验结果突出了每种度量标准的优势和劣势,并为在实际DCM应用中选择度量标准提供建议。TDMD将在以下位置公开提供:https://multimedia.tencent.com/resources/tdmd。