每日精选AI研究论文及翻译
我们介绍TinyLlama,这是一个紧凑的语言模型,预训练使用约1万亿标记,大约进行了3个时代。在Llama 2的架构和分词器基础上,TinyLlama利用了开源社区贡献的各种进展(例如FlashAttention),实现了更好的计算效率。尽管体积相对较小,TinyLlama在一系列下游任务中展现出显著的性能。它在各项任务中明显优于现有的开源语言模型,且体积相当。我们的模型检查点和代码可在GitHub上公开获取,网址为https://github.com/jzhang38/TinyLlama。
ChatGPT的推出显著增加了大型语言模型(LLMs)用于解决下游任务的利用率。在这一背景下,对于成本高效的训练和部署越来越受到关注。低成本训练和部署LLMs代表了未来的发展趋势。本文回顾了大型语言模型训练技术和推断部署技术的演变,与这一新兴趋势保持一致。讨论训练涵盖了各个方面,包括数据预处理、训练架构、预训练任务、并行训练,以及与模型微调相关的内容。在推断方面,本文涵盖了模型压缩、并行计算、内存调度和结构优化等主题。同时,探讨了LLMs的利用以及对其未来发展的见解。
人类通常在学习新技能的同时不会放弃旧技能;然而,对于大型语言模型(LLMs)来说,情况恰恰相反,例如从LLaMA到CodeLLaMA。为此,我们提出了一种新的后预训练方法,通过扩展Transformer块来为LLMs进行微调。我们仅使用新语料库调整扩展块,从而在不造成灾难性遗忘的情况下,高效有效地提升模型的知识。在本文中,我们在代码和数学语料库上进行实验,得到了LLaMA Pro-8.3B,这是一个多才多艺的基础模型,初始化自LLaMA2-7B,在通用任务、编程和数学方面表现出色。LLaMA Pro及其遵循指令的对应模型(LLaMA Pro-Instruct)在各种基准测试中取得了先进的性能,展示了在LLaMA系列现有开放模型之上的优越性,以及作为智能代理进行推理和处理各种任务的巨大潜力。我们的研究结果为整合自然语言和编程语言提供了宝贵的见解,为开发能够在各种环境中有效运行的先进语言代理奠定了坚实基础。
具有数十亿参数的基础模型经过大规模数据训练,在各种领域展示了非平凡的技能。然而,由于它们的单olithic结构,要对其进行扩充或赋予新技能具有挑战性且昂贵。另一方面,由于它们的适应能力,正在训练这些模型的多个新实例以适应新领域和任务。在这项工作中,我们研究了有效和实用地将现有基础模型与更具体模型组合以实现新功能的问题。为此,我们提出了CALM -- 即增强语言模型的组合 -- 它引入了模型之间的交叉注意力,以组合它们的表示并实现新功能。CALM的显著特点包括:(i) 通过“重用”现有LLM以及少量额外参数和数据来扩展LLM在新任务上的规模,(ii) 保持现有模型权重不变,从而保留现有功能,以及(iii) 适用于不同领域和设置。我们阐述了通过在PaLM2-S上增加一个在低资源语言上训练的较小模型,使其在诸如翻译成英语和低资源语言的算术推理等任务上绝对改进高达13\%。同样,当在PaLM2-S中增加一个特定于代码的模型时,我们看到在代码生成和解释任务上相对于基础模型提高了40\% -- 与完全微调的对应模型相当。
从人类演示中进行模仿学习在机器人技术中展现出令人印象深刻的性能。然而,大多数结果侧重于桌面操作,缺乏移动性和灵活性,这是执行普遍有用任务所必需的。在这项工作中,我们开发了一个系统,用于模仿双手双臂控制和全身控制的移动操作任务。我们首先介绍了Mobile ALOHA,这是一个用于数据收集的低成本全身远程操作系统。它通过增加移动底座和全身远程操作界面来增强ALOHA系统。利用使用Mobile ALOHA收集的数据,我们随后进行监督行为克隆,并发现与现有静态ALOHA数据集的联合训练可以提高移动操作任务的性能。对于每个任务的50次演示,联合训练可以将成功率提高高达90%,使Mobile ALOHA能够自主完成复杂的移动操作任务,如炒菜和上菜一只虾、打开双门壁橱存放沉重的炊具、呼叫并进入电梯,以及使用厨房水龙头轻轻冲洗使用过的平底锅。项目网站:https://mobile-aloha.github.io
本文介绍了instruct-imagen,这是一种解决异构图像生成任务并在未见任务中实现泛化的模型。我们引入了用于图像生成的多模态指导,这是一种任务表示,可以精确表达各种生成意图。它使用自然语言来整合不同的模态(例如文本、边缘、风格、主题等),使得丰富的生成意图可以以统一的格式标准化。 然后,我们通过微调预训练的文本到图像扩散模型,构建了instruct-imagen,采用了两阶段框架。首先,我们使用检索增强训练来调整模型,以增强模型在外部多模态上下文中生成的能力。随后,我们对适应后的模型进行微调,针对需要视觉-语言理解的多样化图像生成任务(例如基于主题驱动的生成等),每个任务都配有一个包含任务本质的多模态指导。在各种图像生成数据集上进行的人类评估显示,instruct-imagen在领域内与或超过先前的特定任务模型,并展现出对未见和更复杂任务的有希望的泛化能力。
本文介绍了LLaVA-Phi(LLaVA-Phi),这是一个高效的多模态助手,利用最近先进的小型语言模型Phi-2的能力,促进多模态对话。LLaVA-Phi在紧凑的多模态模型领域取得了显著进展。它表明,即使是参数仅为27亿的较小语言模型,只要经过高质量语料库的训练,就能有效地参与融合文本和视觉元素的复杂对话。我们的模型在公开可用的基准测试中表现出色,涵盖了视觉理解、推理和基于知识的感知。除了在多模态对话任务中表现出色外,我们的模型为在时间敏感环境和需要实时交互的系统中的应用开辟了新途径,如具身代理。它突显了较小语言模型实现复杂理解和交互的潜力,同时保持更高的资源效率。该项目可在{https://github.com/zhuyiche/llava-phi}找到。
三维感知生成对抗网络(GANs)在通过神经体积渲染从二维图像集合中学习生成多视角一致图像和场景的三维几何形状方面取得了显著进展。然而,在体积渲染中密集采样所带来的显著内存和计算成本迫使三维GANs采用基于块的训练或采用低分辨率渲染并进行后处理的二维超分辨率,这牺牲了多视角一致性和解析几何形状的质量。因此,三维GANs尚未能够完全解析二维图像中存在的丰富三维几何形状。在本研究中,我们提出了技术来将神经体积渲染扩展到本地二维图像的更高分辨率,从而以前所未有的细节解析精细的三维几何形状。我们的方法采用基于学习的采样器来加速三维GAN训练的神经渲染,使用更少深度采样高达5倍。这使我们能够在训练和推断期间显式“渲染每个像素”完整分辨率图像,而无需在二维进行后处理超分辨率。结合我们学习高质量表面几何的策略,我们的方法合成高分辨率三维几何和严格一致的图像,同时保持与依赖后处理超分辨率的基准相媲美的图像质量。我们在FFHQ和AFHQ上展示了最先进的三维几何质量,为三维GANs中无监督学习三维形状设定了新标准。
当代3D感知基准数据集(如ScanNet)上的最先进模型消耗并标记通过感知到的多视角RGB-D图像的后处理获得的数据集提供的3D点云。它们通常在领域内进行训练,放弃大规模的2D预训练,并且胜过通过特征化姿态RGB-D多视角图像的替代方法。消耗姿态图像与后处理的3D点云之间性能差距推动了这样一种观念,即2D和3D感知需要不同的模型架构。在本文中,我们挑战这种观点,并提出ODIN(Omni-Dimensional INstance segmentation),这是一个能够使用交替2D内视和3D交叉视信息融合的变压器架构对2D RGB图像和3D点云进行分割和标记的模型。我们的模型通过涉及的令牌的位置编码区分2D和3D特征操作,这些位置编码捕获2D补丁令牌的像素坐标和3D特征令牌的3D坐标。ODIN在ScanNet200、Matterport3D和AI2THOR 3D实例分割基准上实现了最先进的性能,并在ScanNet、S3DIS和COCO上实现了竞争性能。当感知到的3D点云代替从3D网格采样的点云时,它比所有先前的工作表现出更大的优势。当作为可指导的具身代理架构中的3D感知引擎时,它在TEACh基于对话的动作基准上树立了新的最先进水平。我们的代码和检查点可以在项目网站找到:https://odin-seg.github.io。
学习地球上所有动物的3D模型需要大规模扩展现有解决方案。在这一最终目标的指导下,我们开发了3D-Fauna,这是一种方法,可以同时为100多种动物物种学习一个跨类别的可变形3D动物模型。建模动物的一个关键瓶颈是训练数据的有限可用性,我们通过简单地从2D互联网图像中学习来克服这一挑战。我们展示了先前针对特定类别的尝试无法推广到训练图像有限的稀有物种。我们通过引入“皮肤模型语义库”(SBSM)来解决这一挑战,该库通过将几何归纳先验与通过现成的自监督特征提取器隐式捕获的语义知识相结合,自动发现一小组基本动物形状。为了训练这样的模型,我们还贡献了一个新的大规模多样化动物物种数据集。在推断时,给定任何四足动物的单个图像,我们的模型能够在几秒钟内以前馈方式重建出一个关节式3D网格。
大型语言模型(LLMs)的出现,如ChatGPT和LLaMA,在特定领域任务中遇到了一些限制,这些模型通常在专业领域缺乏深度和准确性,并且在微调时普遍表现出一般能力下降,特别是在小型模型中的分析能力。为了解决这些差距,我们引入了ICE-GRT,利用基于近端策略优化(PPO)的人类反馈强化学习(RLHF),在领域内场景中展示了卓越的能力,而不会影响一般任务性能。我们对ICE-GRT的探索突显了其理解和推理能力,不仅能生成强大的答案,还能提供答案背后的详细分析。这种能力标志着ICE-GRT在监督微调模型范围之外取得了重大进展。ICE-GRT的成功取决于几个关键因素,包括适当的数据、奖励大小缩放、KL控制、优势归一化等。ICE-GRT模型在特定领域任务和12个一般语言任务中展现出最先进的性能,与等效大小甚至更大的LLMs相比,突显了我们方法的有效性。我们对ICE-GRT进行了全面分析,强调了它为LLM领域带来的重大进展。
扩散模型是一类新型生成模型,极大地推动了具有前所未有质量和多样性的图像生成。现有的扩散模型主要尝试从一个受损图像中重建输入图像,沿空间轴使用像素级或特征级约束。然而,这种基于点的重建可能无法使每个预测的像素/特征完全保留其邻域上下文,从而损害了基于扩散的图像合成。作为自动监督信号的强大来源,上下文已被广泛研究用于学习表示。受此启发,我们首次提出了ConPreDiff,以改善基于扩散的图像合成,通过上下文预测。我们在训练阶段在扩散去噪块的末端引入上下文解码器,明确加强每个点预测其邻域上下文(即多步长特征/标记/像素),并在推理时移除解码器。这样,每个点可以通过保留与邻域上下文的语义连接来更好地重建自身。这种新的ConPreDiff范式可以推广到任意离散和连续的扩散骨干,而不会在采样过程中引入额外参数。我们在无条件图像生成、文本到图像生成和图像修复任务上进行了大量实验。我们的ConPreDiff始终优于先前的方法,并在MS-COCO上实现了新的文本到图像生成结果,零样本FID分数为6.21。
准确感知现实世界三维物体的几何和语义属性对增强现实和机器人应用的持续发展至关重要。为此,我们提出了(),将基础模型的视觉-语言嵌入融入到三维高斯光栅化(GS)中。本研究的关键贡献在于提出了一种高效的方法来重建和表示三维视觉-语言模型。这是通过将基于图像的基础模型生成的特征图提炼到我们的三维模型渲染的特征图中实现的。为了确保高质量的渲染和快速训练,我们引入了一种新颖的场景表示,将GS和多分辨率哈希编码(MHE)的优势结合起来。我们的有效训练过程还引入了像素对齐损失,使相同语义实体的渲染特征距离接近,遵循像素级语义边界。我们的结果展示了显著的多视角语义一致性,有助于多样化的下游任务,在开放词汇语言为基础的目标检测上,击败了现有方法10.2%,尽管我们的推理速度快了851倍。这项研究探讨了视觉、语言和三维场景表示的交叉点,为在不受控制的现实世界环境中增强场景理解铺平了道路。我们计划在论文被接受后发布代码。
视觉推理主要由端到端的神经网络主导,其规模达到数十亿个模型参数和训练示例。然而,即使是最大的模型也在组合推理、泛化、细粒度空间和时间推理以及计数方面遇到困难。利用大型语言模型(LLMs)作为控制器进行视觉推理,原则上可以通过分解任务并通过协调一组(视觉)工具来解决这些限制。最近,这些模型在诸如组合视觉问题回答、视觉定位和视频时间推理等任务上取得了出色的表现。然而,在它们当前的形式中,这些模型严重依赖于在提示中上下文示例的人工设计,这些示例通常是特定于数据集和任务的,并且需要高技能程序员进行大量工作。在这项工作中,我们提出了一个框架,通过引入空间和时间抽象例程,并利用少量标记示例来自动生成上下文示例,从而避免人工创建上下文示例,从而缓解了这些问题。在多个视觉推理任务中,我们展示了我们的框架在性能上取得了一致的增益,使LLMs作为控制器的设置更加稳健,并消除了对人工设计上下文示例的需求。