每日精选AI研究论文及翻译
长期以来,人们已经确认预测模型可以转化为无损压缩器,反之亦然。近年来,机器学习社区专注于训练越来越大、更强大的自监督(语言)模型。由于这些大型语言模型展现出令人印象深刻的预测能力,它们具备成为强大压缩器的潜力。在这项工作中,我们主张通过压缩的视角来看待预测问题,并评估大型(基础)模型的压缩能力。我们展示了大型语言模型是强大的通用预测器,并且压缩视角为扩展规律、标记化和上下文学习提供了新颖见解。例如,Chinchilla 70B虽然主要在文本上训练,但将ImageNet补丁压缩到其原始大小的43.4%,将LibriSpeech样本压缩到其原始大小的16.4%,分别超过了领域特定的压缩器如PNG(58.5%)或FLAC(30.3%)。最后,我们展示了预测-压缩等价性使我们能够使用任何压缩器(如gzip)构建条件生成模型。
在这项工作中,我们提出了一种可扩展的强化学习方法,用于从大型离线数据集中训练多任务策略,可以利用人类示范和自主收集的数据。我们的方法使用Transformer来提供一个可扩展的表示,用于通过离线时间差分备份训练的Q函数。因此,我们将该方法称为Q-Transformer。通过将每个动作维度离散化,并将每个动作维度的Q值表示为单独的标记,我们可以应用有效的高容量序列建模技术进行Q学习。我们提出了几个设计决策,以实现离线RL训练的良好性能,并展示了Q-Transformer在大型多样化的真实世界机器人操作任务套件上优于先前的离线RL算法和模仿学习技术。项目的网站和视频可在https://q-transformer.github.io找到。
拥有数十亿参数的大型语言模型(LLMs)在各种自然语言处理任务中展现出卓越的性能。本报告介绍了OpenBA,一个开源的 15B 双语不对称 seq2seq 模型,旨在为面向中文的开源模型社区贡献一种LLM变体。我们通过有效和高效的技术增强了OpenBA,并采用了三阶段训练策略从头开始训练模型。我们的解决方案在只有 380B tokens 的情况下也能取得非常有竞争力的性能,优于 BELEBELE 基准测试中的LLaMA-70B,MMLU 基准测试中的BLOOM-176B,以及 C-Eval(hard)基准测试中的GLM-130B。本报告提供了预训练类似模型的主要细节,包括预训练数据处理、双语 Flan 数据收集、启发我们模型架构设计的经验观察、不同阶段的训练目标,以及其他增强技术。我们已重构了我们的代码,遵循了Huggingface Transformers Library的设计原则,使其更便于开发人员使用,并在 https://huggingface.co/openBA 上发布了不同训练阶段的检查点。我们项目的更多细节可在 https://github.com/OpenNLG/openBA.git 上找到。
本文旨在了解使用SlimPajama训练大型语言模型时各种数据组合(例如网络文本、维基百科、GitHub、图书)对训练的影响。SlimPajama是一个经过严格去重的多源数据集,经过进一步的精炼和去重处理,从Together贡献的庞大1.2T标记的RedPajama数据集中精简到627B标记。我们将我们的研究称为SlimPajama-DC,这是一项经验分析,旨在揭示在训练大型语言模型时采用SlimPajama的基本特征和最佳实践。在我们对SlimPajama进行研究过程中,出现了两个关键观察:(1)全局去重与局部去重。我们分析和讨论了全局(跨不同数据集来源)和局部(在单个数据集来源内)去重对训练模型性能的影响。 (2)高质量/高度去重的多源数据集在组合中的比例。为了研究这一点,我们构建了六种SlimPajama数据集配置,并使用1.3B Cerebras-GPT模型与Alibi和SwiGLU分别对它们进行训练。我们最佳的配置明显优于使用相同数量训练标记的RedPajama训练的1.3B模型。我们所有的1.3B模型都是在Cerebras 16times CS-2集群上以总共80 PFLOP/s的bf16混合精度进行训练的。我们进一步扩展了我们的发现(例如,在全局去重后增加数据多样性至关重要)到一个具有大批量训练的7B模型。我们的模型和单独的SlimPajama-DC数据集可在以下网址找到:https://huggingface.co/MBZUAI-LLM 和 https://huggingface.co/datasets/cerebras/SlimPajama-627B。
最近音频生成方面的进展得益于大规模深度学习模型和庞大数据集的发展。然而,视频到音频(V2A)生成任务仍然是一个挑战,主要是因为高维视觉和听觉数据之间错综复杂的关系,以及与时间同步相关的挑战。在这项研究中,我们介绍了FoleyGen,一个基于语言建模范式构建的开放领域V2A生成系统。FoleyGen利用现成的神经音频编解码器实现波形和离散标记之间的双向转换。音频标记的生成由一个单一Transformer模型实现,该模型以从视觉编码器提取的视觉特征为条件。V2A生成中一个普遍的问题是生成的音频与视频中可见动作之间的不对齐。为解决这一问题,我们探索了三种新颖的视觉注意机制。我们进一步对多个视觉编码器进行了详尽评估,每个编码器都是在单模态或多模态任务上进行预训练的。在VGGSound数据集上的实验结果显示,我们提出的FoleyGen在所有客观指标和人类评估中均优于先前的系统。
我们介绍了一种新颖的框架POP3D,它可以从单个图像创建完整的360°全景3D模型。POP3D解决了限制单视图重建的两个突出问题。首先,POP3D具有对任意类别的显著泛化能力,这是先前方法难以实现的特点。其次,POP3D进一步提高了重建的保真度和自然度,这是同时期作品所欠缺的关键方面。我们的方法融合了四个主要组件的优势:(1)单目深度和法线预测器,用于预测关键的几何线索,(2)空间雕刻方法,能够划分目标对象可能看不见的部分,(3)在大规模图像数据集上预训练的生成模型,可以完成目标看不见的区域,以及(4)一种神经隐式表面重建方法,专门用于使用RGB图像和单目几何线索重建对象。这些组件的结合使得POP3D能够轻松泛化到各种野外图像,并生成最先进的重建结果,明显优于类似作品。项目页面:http://cg.postech.ac.kr/research/POP3D