每日精选AI研究论文及翻译
在这项工作中,我们提出了保留网络(RetNet)作为大型语言模型的基础架构,同时实现了训练并行性、低成本推断和良好性能。我们从理论上推导了循环和注意力之间的联系。然后,我们提出了用于序列建模的保留机制,支持三种计算范式,即并行、循环和分块循环。具体而言,并行表示允许进行训练并行化。循环表示实现了低成本的O(1)推断,提高了解码吞吐量、延迟和GPU内存,而不牺牲性能。分块循环表示有助于使用线性复杂度进行高效的长序列建模,其中每个分块都是并行编码的,同时循环地总结这些分块。在语言建模的实验结果中显示,RetNet取得了有利的扩展结果,实现了并行训练、低成本部署和高效推断。这些引人入胜的特性使RetNet成为大型语言模型中Transformer的强有力继任者。代码将在https://aka.ms/retnet 上提供。
实际数据库中的表格非常普遍,需要人类投入大量时间和精力进行分析和操作。大型语言模型(LLMs)的进步使得通过自然语言输入与表格进行交互成为可能,将这一功能带入现实。本文介绍了TableGPT,这是一个统一的精细调整框架,使LLMs能够理解和操作表格,使用外部功能命令。它引入了与表格无缝交互的能力,实现了广泛的功能,如问答、数据操作(例如插入、删除、查询和修改操作)、数据可视化、分析报告生成和自动预测。TableGPT旨在为用户提供便利和可访问性,使他们能够轻松利用表格数据。TableGPT的核心是全局表格表示的新概念,使LLMs能够全面了解整个表格,超越元信息。通过同时训练LLMs的表格和文本模态,TableGPT深入理解表格数据,并能够通过命令链执行复杂操作。重要的是,TableGPT具有自包含系统的优势,而不是依赖外部API接口。此外,它支持高效的数据处理流程、查询拒绝(在适当时)和私密部署,实现更快的领域数据精细调整,确保数据隐私,增强框架对特定用例的适应性。
LLM在与人类交互中展现出卓越的能力,尤其是在使用遵循指令的数据方面。LLM的最新进展,如MiniGPT-4、LLaVA和X-LLM,通过整合多模态输入(包括图像、视频和语音),进一步扩大了它们的能力。尽管这些LLM在生成给定模态信号的精确和详细语言理解方面非常有效,但它们放弃了对输入的特定部分进行基础定位的能力,因此只构建了粗粒度映射。然而,文本与其他模态之间明确且信息丰富的对应关系不仅可以改善用户体验,还有助于扩展多模态LLM的应用场景。因此,我们提出了BuboGPT,这是一个具有视觉基础定位的多模态LLM,可以在视觉、音频和语言之间进行跨模态交互,提供对视觉对象和其他给定模态的细粒度理解。因此,BuboGPT能够在为图像中的对象生成响应或描述时指出对象的具体位置。我们的贡献有两个方面:1)基于SAM的现成视觉基础定位模块,可以提取句子中的实体并在图像中找到相应的蒙版。2)一个两阶段训练方案和指令数据集,赋予联合文本-图像-音频理解能力。我们的实验表明,BuboGPT在与人类交互时实现了令人印象深刻的多模态理解和视觉基础定位能力。在提供任意模态组合(无论是对齐还是不对齐)时,它表现稳定优异。我们的代码、模型和数据集可在https://bubo-gpt.github.io 上获取。
大型语言模型(LLMs)通过在受监督的指令/响应数据上进行指令微调(IFT)来获得遵循指令的能力。然而,广泛使用的IFT数据集(例如Alpaca的52k数据)出人意料地包含许多质量低劣的实例,其响应不正确或无关,这些数据对IFT是具有误导性和有害的。在本文中,我们提出了一种简单而有效的数据选择策略,利用强大的LLM(例如ChatGPT)自动识别和移除低质量数据。为此,我们引入了AlpaGasus,它仅在从52k Alpaca数据中筛选出的9k高质量数据上进行微调。AlpaGasus在多个测试集上显着优于原始的Alpaca,经由GPT-4评估,其13B变体在测试任务上的性能达到其教师LLM(即Text-Davinci-003)的90%以上。它还提供了5.7倍更快的训练速度,将7B变体的训练时间从80分钟(对于Alpaca)缩短到14分钟。我们应用IFT进行相同数量的时代,如Alpaca(7B)但在更少的数据上,使用4倍NVIDIA A100(80GB)GPU,并遵循原始的Alpaca设置和超参数。总的来说,AlpaGasus展示了一种新颖的以数据为中心的IFT范式,可以广泛应用于指令调整数据,实现更快的训练和更好的遵循指令的模型。我们的项目页面可在以下链接找到:https://lichang-chen.github.io/AlpaGasus/。
虽然许多无监督学习模型专注于一类任务家族,即生成式或判别式,但我们探讨了统一表示学习器的可能性:一种模型,它利用单一的预训练阶段同时处理这两类任务家族。我们确定扩散模型是一个主要候选者。扩散模型已经成为图像生成、去噪、修补、超分辨率、操作等领域的最先进方法。这些模型涉及训练 U-Net 来迭代地预测和去除噪音,生成的模型可以合成高保真度、多样化、新颖的图像。作为基于卷积的架构,U-Net 架构生成多样化的特征表示,以中间特征图的形式呈现。我们展示了这些嵌入在噪音预测任务之外也很有用,因为它们包含判别信息,也可以用于分类。我们探索了提取和利用这些嵌入进行分类任务的最佳方法,展示了在 ImageNet 分类任务上的有希望的结果。我们发现,通过仔细的特征选择和池化,扩散模型在分类任务上胜过了类似的生成-判别方法,如 BigBiGAN。我们研究了转移学习情境中的扩散模型,检查它们在几个细粒度视觉分类数据集上的表现。我们将这些嵌入与竞争架构和预训练生成的嵌入进行了比较,用于分类任务。
视频运动预测的方法通常通过光流估计给定视频帧中所有点的瞬时运动,或者独立跟踪视频中各个点的运动。即使是能够通过遮挡跟踪点的强大深度学习方法,也是如此。独立跟踪点会忽略点之间可能存在的强相关性,例如,它们属于同一物体,这可能会影响性能。因此,在本文中,我们提出了CoTracker,一种能够联合跟踪整个视频中多个点的架构。该架构结合了光流和跟踪文献中的几个思想,设计灵活且强大。它基于一个变压器网络,通过专门的注意力层模拟不同点在时间上的相关性。变压器网络迭代更新多条轨迹的估计。它可以以滑动窗口的方式应用于非常长的视频,我们设计了一个展开的训练循环。它可以联合跟踪一个到多个点,并支持随时添加新的跟踪点。结果是一个灵活且强大的跟踪算法,在几乎所有基准测试中都优于最先进的方法。
我们提出了SEED,这是一个精心设计的图像标记器,赋予大型语言模型(LLMs)同时看和绘画的新能力。以往对图像标记器的研究陷入僵局,因为采用量化视觉标记的框架由于性能不佳和在多模态理解(与BLIP-2等相比)或生成(与稳定扩散等相比)方面的收敛而逐渐失去了重要性。尽管存在局限性,我们仍对其自然能力进行统一视觉和文本表示的信心,有助于通过LLMs的原始配方进行可扩展的多模态训练。在这项研究中,我们确定了SEED架构和训练的两个关键原则,有效地促进了与LLMs的后续对齐。 (1)图像标记应独立于2D物理补丁位置,而应通过1D因果依赖性生成,展现出内在相互依赖性,与LLMs中的从左到右自回归预测机制相一致。 (2)图像标记应捕捉与单词中语义抽象程度一致的高级语义,并在标记器训练阶段优化以实现区分性和重建性。因此,现成的LLM能够通过高效的LoRA调整将我们的SEED整合进来,实现图像到文本和文本到图像的生成。全面的多模态预训练和指导调整可能会产生改进的结果,这将留待未来研究。这个版本的SEED仅使用64个V100 GPU和500万个公开可用的图像文本对在5.7天内进行了训练。我们的初步研究强调了离散视觉标记在多功能多模态LLMs中的巨大潜力,以及在更广泛研究中正确的图像标记器的重要性。
我们提出了交互式神经视频编辑(INVE),这是一个实时视频编辑解决方案,可以通过将稀疏帧编辑一致地传播到整个视频剪辑来辅助视频编辑过程。我们的方法受到最近关于分层神经图谱(LNA)的工作的启发。然而,LNA存在两个主要缺点:(1)该方法对于交互式编辑来说速度太慢,(2)它对一些编辑用例提供的支持不足,包括直接帧编辑和刚性纹理跟踪。为了解决这些挑战,我们利用和采用了高效的网络架构,采用哈希格编码技术,大幅提高了处理速度。此外,我们学习了图谱和图像之间的双向函数,并引入了矢量化编辑,共同实现了在图谱和帧直接进行更多种类的编辑。与LNA相比,我们的INVE将学习和推断时间缩短了5倍,并支持LNA无法实现的各种视频编辑操作。我们通过全面的定量和定性分析展示了INVE在交互式视频编辑中优于LNA的优越性,突出了其众多优势和改进的性能。有关视频结果,请访问 https://gabriel-huang.github.io/inve/
我们旨在研究是否可以通过通用神经网络结合视觉预训练来实现端到端学习的视觉推理。积极的结果将推翻普遍认为在视觉推理的组合泛化中,显式视觉抽象(例如目标检测)是必不可少的观念,并确认神经网络“通才”解决视觉识别和推理任务的可行性。我们提出了一个简单通用的自监督框架,利用变压器网络将每个视频帧“压缩”为一小组标记,并基于压缩的时间上下文重建其余帧。为了最小化重建损失,网络必须学习每个图像的紧凑表示,同时从时间上下文中捕获时间动态和对象持久性。我们在两个视觉推理基准数据集CATER和ACRE上进行评估。我们观察到,预训练对于实现端到端视觉推理的组合泛化至关重要。我们提出的框架在性能上优于传统的监督预训练,包括图像分类和显式目标检测,优势明显。
本文提出了一种新的视觉Transformer,即尺度感知调制Transformer(SMT),通过结合卷积网络和视觉Transformer,能够高效处理各种下游任务。SMT中提出的尺度感知调制(SAM)包括两个主要的创新设计。首先,我们引入了多头混合卷积(MHMC)模块,可以捕获多尺度特征并扩展感受野。其次,我们提出了轻量但有效的尺度感知聚合(SAA)模块,实现了跨不同头部的信息融合。通过利用这两个模块,卷积调制得到进一步增强。此外,与以往利用调制贯穿所有阶段构建无注意力网络的作品相比,我们提出了一种进化混合网络(EHN),可以有效模拟网络变得更深时从捕获局部到全局依赖的转变,从而实现卓越的性能。大量实验证明,SMT在各种视觉任务中明显优于现有的最先进模型。具体而言,SMT在ImageNet-1K上的11.5M / 2.4GFLOPs和32M / 7.7GFLOPs可以分别实现82.2%和84.3%的top-1准确率。在以224^2分辨率在ImageNet-22K上预训练后,当分别使用224^2和384^2分辨率微调时,其准确率分别达到87.1%和88.1%的top-1准确率。对于使用Mask R-CNN进行目标检测,SMT基础模型在1x和3x训练计划下分别比Swin Transformer同类模型在COCO上高出4.2和1.3 mAP。对于使用UPerNet进行语义分割,SMT基础模型在单尺度和多尺度测试上分别比Swin高出2.0和1.1 mIoU。
模拟技术是现代自动驾驶开发的支柱。模拟器帮助开发、测试和改进驾驶系统,而无需让人类、车辆或其环境面临风险。然而,模拟器面临一个重大挑战:它们依赖于逼真、可扩展且有趣的内容。尽管最近在渲染和场景重建方面取得了巨大进展,创造静态场景资产,对其布局、动态和行为进行建模仍然具有挑战性。在这项工作中,我们将语言作为动态交通场景生成的监督来源。我们的模型LCTGen结合了一个大型语言模型和基于Transformer的解码器架构,从地图数据集中选择可能的地图位置,并生成初始的交通分布,以及每辆车的动态。在逼真度和保真度方面,LCTGen在无条件和有条件的交通场景生成方面均优于先前的工作。代码和视频将在https://ariostgx.github.io/lctgen 上提供。