每日精选AI研究论文及翻译
我们研究了一种简单方法的有效性,用于从现有的大型基础语言模型(LM)开发一个小型基础LM:首先从较大的LM中继承一些Transformer块,然后在较大模型的原始预训练数据的极小子集(0.1\%)上训练这个较小的模型。我们将这种简单的方法称为Inheritune,并首次演示了使用1B标记(以及3B参数的较大LM的起始几层)构建一个包含15亿参数的小型基础LM;我们仅使用一块A6000 GPU,在不到半天的时间内完成。在9个不同的评估数据集以及MMLU基准测试中,得到的模型与公开可用的包含10亿至20亿参数的基础模型相比表现出色,其中一些模型使用的标记数量是其数十到数千倍。 我们在稍有不同的设置中研究了Inheritune,其中我们训练利用较大LM及其完整预训练数据集的小型LM。在这里,我们展示了当在OpenWebText数据集上使用了90亿标记进行相同数量的训练步骤后,利用GPT2-medium(355M)和GPT-2-large(770M)的一些层进行训练的较小LM可以有效地匹配其更大对应模型的val loss。我们通过广泛的实验分析了我们的方法,并展示了它在不同设置下的有效性。我们的代码可在https://github.com/sanyalsunny111/LLM-Inheritune找到。
在近几十年中,视觉领域取得了显著进展,部分归功于数据集基准的进步。值得注意的是,已建立的 COCO 基准推动了现代检测和分割系统的发展。然而,COCO 分割基准在过去十年中改进较慢。最初为物体实例提供粗糙的多边形注释,逐渐加入了用于区域的粗糙超像素注释,随后经启发式地合并为全景分割注释。这些由不同组评定者执行的注释不仅导致了粗糙的分割蒙版,还存在着分割类型之间的不一致性。在本研究中,我们对 COCO 分割注释进行了全面重新评估。通过提高注释质量并扩展数据集,涵盖了 383K 张图像,超过 5.18M 个全景蒙版,我们引入了 COCONut,即 COCO 下一代通用分割数据集。COCONut 通过精心制作高质量蒙版,在语义、实例和全景分割之间协调分割注释,为所有分割任务建立了强大的基准。据我们所知,COCONut 是首个大规模通用分割数据集,经人类评定者验证。我们预计 COCONut 的发布将显著有助于社区评估新型神经网络的进展能力。
本文研究了将对比语言-图像预训练(CLIP)在计算资源有限的情况下进行规模化的性能。我们从数据、架构和训练策略三个维度探讨了CLIP。在数据方面,我们展示了高质量训练数据的重要性,并表明高质量数据的较小数据集可以胜过质量较低的较大数据集。我们还研究了模型性能如何随不同数据集大小变化,表明较小的ViT模型更适用于较小数据集,而较大模型在具有固定计算资源的较大数据集上表现更好。此外,我们提供了关于何时选择基于CNN架构或ViT架构进行CLIP训练的指导。我们比较了四种CLIP训练策略 - SLIP、FLIP、CLIP和CLIP+数据增强 - 并表明训练策略的选择取决于可用的计算资源。我们的分析显示,CLIP+数据增强可以在仅使用一半训练数据的情况下实现与仅使用CLIP相当的性能。这项工作为如何有效训练和部署CLIP模型提供了实用见解,使它们在各种应用中更易于获取和负担得起。
最近大规模预训练的进展产生了具有强大能力的视觉基础模型。这些最新模型不仅可以推广到任意图像进行训练任务,它们的中间表示对于检测和分割等其他视觉任务也是有用的。鉴于这样的模型可以对2D中的对象进行分类、描绘和定位,我们想知道它们是否也能表示它们的3D结构?在这项工作中,我们分析了视觉基础模型的3D意识。我们认为3D意识意味着表示(1)编码场景的3D结构和(2)在不同视角下一致地表示表面。我们使用特定任务的探针和冻结特征上的零-shot推理程序进行了一系列实验。我们的实验揭示了当前模型的几个局限性。我们的代码和分析可在https://github.com/mbanani/probe3d 找到。
最近在单目深度估计领域取得了进展,通过将自然语言作为额外指导进行。尽管取得了令人印象深刻的结果,但语言先验的影响,特别是在泛化和鲁棒性方面,仍未被探索。本文通过量化这一先验的影响,并引入方法来评估其在各种情境下的有效性,填补了这一空白。我们生成了传达以物体为中心的三维空间关系的“低级”句子,将其作为额外的语言先验,并评估其对深度估计的下游影响。我们的关键发现是,当前的语言引导深度估计器只有在场景级描述的情况下才能表现最佳,而在低级描述下表现出乎意料的更差。尽管利用了额外数据,这些方法对有针对性的对抗攻击不具有鲁棒性,并且随着分布偏移的增加而性能下降。最后,为了为未来研究奠定基础,我们确定了失败点,并提供了更好理解这些缺陷的见解。随着越来越多的方法在深度估计中使用语言,我们的研究结果突显了需要在实际环境中有效部署时认真考虑的机遇和风险。
基于人类偏好反馈的强化学习(RL)是微调生成模型的流行范式,已经产生了令人印象深刻的模型,如GPT-4和Claude3 Opus。这个框架通常包括两个步骤:从离线偏好数据集中学习奖励模型,然后运行在线RL来优化学习到的奖励模型。在这项工作中,我们借鉴了重置的概念,提出了一个具有可证明保证的新RLHF算法。受到离线偏好数据集提供信息状态(即标记者偏好的数据)的启发,我们的新算法,数据集重置策略优化(DR-PO),通过数据集重置将现有的离线偏好数据集整合到在线策略训练过程中:它直接将策略优化器重置到离线数据集中的状态,而不总是从初始状态分布开始。理论上,我们展示了DR-PO在有限样本复杂度下至少能够学习与离线数据集覆盖的任何策略一样好的性能。在实验中,我们展示了在TL;DR摘要和Anthropic Helpful Harmful(HH)数据集上,DR-PO生成的结果比Proximal Policy Optimization(PPO)和Direction Preference Optimization(DPO)更好,根据GPT4胜率指标。此工作的代码可在https://github.com/Cornell-RL/drpo找到。
最新的正则化神经辐射场(NeRF)方法在多视图立体(MVS)基准测试中(如ETH3D)产生了几何和视角外推方面的问题。本文旨在创建提供准确几何和视角合成的3D模型,部分弥合NeRF和传统MVS方法之间的巨大几何性能差距。我们提出了一种基于补丁的方法,有效地利用单眼表面法线和相对深度预测。基于补丁的射线采样还能够在随机采样的虚拟视图和训练视图之间实现外观正则化,采用了归一化互相关(NCC)和结构相似性(SSIM)。我们进一步表明,基于稀疏的结构运动点的“密度限制”可以在轻微降低新颖视图合成指标的情况下极大地提高几何精度。我们的实验结果显示,在ETH3D MVS基准测试的平均F1@2cm上,性能比RegNeRF高出4倍,比FreeNeRF高出8倍,这表明了一个富有成果的研究方向,可以改善基于NeRF的模型的几何精度,并为实现NeRF优于传统MVS方法提供了潜在的未来途径。