每日精选AI研究论文及翻译
大型语言模型(LLMs)通常在数十亿标记上进行预训练,一旦有新数据可用就重新开始该过程。一种更高效的解决方案是持续对这些模型进行预训练,与重新训练相比,可以节省大量计算资源。然而,由新数据引起的分布转移通常会导致在先前数据上性能下降或对新数据适应不佳。在这项工作中,我们展示了通过简单且可扩展的学习率(LR)重新升温、LR重新衰减和重放先前数据的组合就足以使模型在最终损失和语言模型(LM)评估基准方面与完全从头开始重新训练的性能相匹配。具体而言,我们展示了在两个常用的LLM预训练数据集(英语到英语)之间存在的弱但现实的分布转移,以及在405M参数模型规模和大型数据集大小(数千亿标记)下更强烈的分布转移(英语到德语)情况下的结果。选择了更大规模实验中的弱但现实的转移,我们还发现我们的持续学习策略可以与10B参数LLM的重新训练基线相匹配。我们的结果表明,可以通过简单且可扩展的持续学习策略成功更新LLMs,仅使用计算资源的一小部分即可与重新训练基线相匹配。最后,受先前工作启发,我们提出了替代余弦学习率调度的方法,有助于规避LR重新升温引起的遗忘,并且不受固定标记预算的限制。
本文介绍了 Gemma,这是一系列轻量级、最先进的开放模型,是基于用于创建 Gemini 模型的研究和技术构建的。Gemma 模型在语言理解、推理和安全性等学术基准上表现出色。我们发布了两个规模的模型(20亿和70亿参数),并提供了预训练和微调检查点。Gemma 在 18 个基于文本的任务中,有 11 个超过了同等规模的开放模型,并对模型的安全性和责任方面进行了全面评估,同时详细描述了模型开发过程。我们认为,负责任地发布大型语言模型对于提高前沿模型的安全性以及推动下一波大型语言模型创新至关重要。
我们提出了VLOGGER,这是一种从单个人物输入图像生成音频驱动的人类视频的方法,它基于最近生成扩散模型的成功。我们的方法包括:1)一个随机的人体到3D运动扩散模型,以及2)一种新颖的基于扩散的架构,将文本到图像模型与空间和时间控制相结合。这支持通过人脸和身体的高级表示轻松控制的可变长度高质量视频的生成。与先前的工作相比,我们的方法不需要为每个人进行训练,不依赖于人脸检测和裁剪,生成完整图像(不仅仅是脸部或嘴唇),并考虑到广泛的场景(例如可见的躯干或不同的主体身份),这对正确合成进行交流的人类至关重要。我们还策划了MENTOR,这是一个新的多样化数据集,具有3D姿势和表情注释,比以前的数据集大一个数量级(800,000个身份),并带有动态手势,我们在这个数据集上训练和剔除我们的主要技术贡献。 VLOGGER在三个公共基准测试中表现优于最先进的方法,考虑到图像质量、身份保留和时间一致性,同时生成上半身手势。我们分析了VLOGGER的性能,涉及多个多样性指标,表明我们的架构选择和对MENTOR的使用有助于在规模上训练一个公平和无偏见的模型。最后,我们展示了在视频编辑和个性化方面的应用。
人类通过模仿和社交互动学习社交技能。 这种社会学习过程在现有研究建立语言代理方面很大程度上被忽视。 受到这一空白的启发,我们提出了一种交互式学习方法,SOTOPIA-pi,用于提高语言代理的社交智能。 该方法利用行为克隆和根据大型语言模型(LLM)评分对过滤后的社交互动数据进行自我强化训练。 我们展示了我们的训练方法使得一个7B规模的LLM能够达到专家模型(基于GPT-4的代理)的社交目标完成能力,同时提高了语言代理的安全性,并在MMLU基准上保持了一般的问答能力。 我们还发现这种训练范式揭示了LLM评估社交智能的一些困难:基于LLM的评估者高估了专门针对社交互动训练的语言代理的能力。
基础模型是强大的技术:它们如何公开发布直接影响其社会影响。在这篇立场论文中,我们关注开放基础模型,这里定义为具有广泛可用模型权重的模型(例如Llama 2,Stable Diffusion XL)。我们确定了开放基础模型的五个独特特性(例如更大的可定制性,监控不足),这些特性导致了它们的益处和风险。开放基础模型提供了重要的益处,但也有一些注意事项,涵盖了创新、竞争、决策权分配和透明度。为了理解它们被滥用的风险,我们设计了一个风险评估框架,用于分析它们的边际风险。在几个滥用向量(例如网络攻击、生物武器)中,我们发现目前的研究不足以有效地表征开放基础模型相对于现有技术的边际风险。该框架有助于解释为什么在某些情况下边际风险较低,通过揭示过去的研究集中于框架的不同子集并具有不同的假设,澄清了关于滥用风险的分歧,并阐明了更具建设性辩论的前进之路。总的来说,我们的工作通过概述需要进行的研究来从经验上验证开放基础模型的理论益处和风险,有助于支持对开放基础模型社会影响的更加扎实的评估。
面对数据稀缺和高级动作合成在人-场景交互建模中带来的挑战,我们介绍了TRUMANS数据集以及一种新颖的HSI动作合成方法。TRUMANS是目前最全面的动作捕捉HSI数据集,涵盖了超过15小时的人类在100个室内场景中的互动。它精细地捕捉了全身人类动作和部分对象动态,侧重于接触的真实性。该数据集通过将物理环境转化为精确的虚拟模型,并对人类和对象的外观和动作进行广泛增强,同时保持交互的忠实度,进一步扩大了规模。利用TRUMANS,我们设计了一种基于扩散的自回归模型,可以高效生成任意长度的HSI序列,考虑了场景背景和预期动作。在实验中,我们的方法在一系列3D场景数据集(例如PROX、Replica、ScanNet、ScanNet++)上展现出显著的零样本泛化能力,生成的动作与原始动作捕捉序列密切相似,经由定量实验和人类研究证实。
尺度定律是开发语言模型的有用指南,但目前的尺度研究与语言模型最终的训练和评估之间仍然存在差距。例如,尺度通常在计算最优训练范围内进行研究(即“毛丝鼠最优”范围);然而,在实践中,模型通常会过度训练以减少推理成本。此外,尺度定律主要预测下一个标记预测的损失,但最终模型是基于下游任务性能进行比较的。在本文中,我们解决了这两个缺点。为此,我们创建了一个包含104个模型的测试平台,这些模型具有从0.011B到6.9B个参数,在三个数据分布上使用不同数量的标记进行训练。首先,我们研究了过度训练范围内的尺度。我们拟合了尺度定律,可以在模型参数数量和训练标记与参数比之间进行外推。这使我们能够预测一个具有1.4B参数、900B标记运行(即过度训练32倍)和一个具有6.9B参数、138B标记运行的验证损失,每个实验的计算量减少300倍。其次,我们通过幂律将语言模型的困惑度与其下游任务性能联系起来。我们使用这个定律来预测两个前述模型在下游任务中的top-1错误率,每个实验的计算量减少20倍。我们的实验可在https://github.com/mlfoundations/scaling找到。
尽管图像到视频生成取得了一些进展,但更好的可控性和局部动画却鲜有探索。大多数现有的图像到视频方法并不具备局部意识,往往会移动整个场景。然而,人类艺术家可能需要控制不同对象或区域的运动。此外,当前的图像到视频方法不仅要求用户描述目标运动,还要提供冗余的详细帧内容描述。这两个问题阻碍了当前图像到视频工具的实际应用。在本文中,我们提出了一个实用框架,名为Follow-Your-Click,通过简单的用户点击(用于指定移动对象)和简短的运动提示(用于指定如何移动)来实现图像动画。在技术上,我们提出了首帧遮罩策略,显著提高了视频生成质量,并配备了一个短运动提示数据集的运动增强模块,以提高我们模型的短提示跟随能力。为了进一步控制运动速度,我们提出了基于流的运动幅度控制,以更精确地控制目标运动的速度。我们的框架具有更简单但精确的用户控制,以及比先前方法更好的生成性能。与包括商业工具和研究方法在内的7个基准进行了广泛实验,涉及8个指标,结果表明我们方法的优越性。项目页面:https://follow-your-click.github.io/
最近,隐式神经表示(INRs)在图像表示和压缩方面取得了巨大成功,提供了高视觉质量和快速渲染速度,可达10-1000 FPS,假定有足够的GPU资源可用。然而,这一要求通常阻碍了它们在内存有限的低端设备上的使用。为此,我们提出了一种通过二维高斯飞溅(2D Gaussian Splatting)进行图像表示和压缩的开创性范式,命名为GaussianImage。我们首先引入二维高斯来表示图像,其中每个高斯具有8个参数,包括位置、协方差和颜色。随后,我们揭示了一种基于累积求和的新型渲染算法。值得注意的是,我们的方法在GPU内存使用方面至少降低了3倍,拟合时间快了5倍,不仅在表示性能上与INRs(例如WIRE、I-NGP)不相上下,而且无论参数大小如何,渲染速度都达到了1500-2000 FPS。此外,我们还整合了现有的矢量量化技术来构建图像编解码器。实验结果表明,我们的编解码器在速率失真性能上与基于压缩的INRs(如COIN和COIN++)相媲美,同时实现了约1000 FPS的解码速度。此外,初步概念验证表明,我们的编解码器在使用部分比特回传编码时超越了COIN和COIN++的性能。