每日精选AI研究论文及翻译
我们介绍了SELF-DISCOVER,这是一个通用框架,用于让LLMs自我发现任务内在推理结构,以解决对典型提示方法具有挑战性的复杂推理问题。该框架的核心是一个自我发现过程,在这个过程中,LLMs选择多个原子推理模块,如批判性思维和逐步思维,并将它们组合成一个明确的推理结构,供LLMs在解码过程中遵循。SELF-DISCOVER显著提高了GPT-4和PaLM 2在具有挑战性的推理基准上的表现,如BigBench-Hard、基于代理的推理和数学问题,相比于Chain of Thought (CoT)高达32%。此外,SELF-DISCOVER在不需要大量推理计算的情况下,比如CoT-Self-Consistency,表现优于推理密集型方法超过20倍。最后,我们展示了自我发现的推理结构在模型系列中具有普遍适用性:从PaLM 2-L到GPT-4,从GPT-4到Llama2,并且与人类推理模式有共同之处。
预训练的大型语言模型(LLMs)展现出出色的通用语言处理能力,但对内存和计算资源有着巨大需求。作为一种强大的压缩技术,二值化可以将模型权重极端减少至仅 1 位,降低昂贵的计算和内存需求。然而,现有的量化技术未能在极低位宽下保持 LLM 的性能。针对这一挑战,我们提出了 BiLLM,这是一种为预训练的 LLMs 定制的开创性 1 位后训练量化方案。基于 LLMs 的权重分布,BiLLM 首先识别并结构选择显著权重,并通过有效的二进制残差逼近策略最小化压缩损失。此外,考虑到非显著权重的钟形分布,我们提出了一种最优分割搜索方法,以准确分组和二值化它们。BiLLM 首次实现了在各种 LLMs 家族和评估指标下仅使用 1.08 位权重即实现高准确性推断(例如在 LLaMA2-70B 上的 8.41 困惑度),明显优于当前最先进的 LLM 量化方法。此外,BiLLM 能够在单个 GPU 上在 0.5 小时内完成对拥有 70 亿权重的 LLM 的二值化过程,展现了令人满意的时间效率。
状态空间模型(SSMs),如Mamba Gu & Dao(2034)所提出的,被提议作为语言建模中替代Transformer网络的选择,通过整合门控、卷积和依赖输入的标记选择来缓解多头注意力的二次成本。尽管SSMs表现出有竞争力的性能,但与Transformer相比,它们的上下文学习(ICL)能力,即现代语言模型的一个显著新属性,使任务能够在无需参数优化的情况下执行,仍未得到充分探索。在本研究中,我们评估了SSMs的ICL性能,重点关注Mamba,在各种任务中与Transformer模型进行对比。我们的结果显示,在标准回归ICL任务中,SSMs的表现与Transformers相当,而在稀疏奇偶学习等任务中表现优于它们。然而,在涉及非标准检索功能的任务中,SSMs表现不佳。为解决这些限制,我们引入了一个混合模型,\variant,将Mamba与注意力块结合,超越了单独模型在独立困难任务中的表现。我们的发现表明,混合架构为增强语言模型中的ICL提供了有前途的途径。
扩展对比语言-图像预训练(CLIP)在赋能视觉和多模态模型方面至关重要。我们推出了EVA-CLIP-18B,迄今为止最大且最强大的开源CLIP模型,拥有180亿个参数。仅经历了60亿个训练样本,EVA-CLIP-18B在27个广泛认可的图像分类基准测试中取得了卓越的80.7%零样本top-1准确率,远远超过其前身EVA-CLIP(50亿参数)和其他开源CLIP模型。值得注意的是,尽管保持了来自LAION-20B和COYO-700M的20亿图像-文本对训练数据集不变,我们观察到EVA-CLIP模型规模扩大时的持续性能改进。该数据集是公开可用的,远小于其他最先进CLIP模型中使用的内部数据集(例如DFN-50B、WebLI-100B)。EVA-CLIP-18B展示了EVA风格的弱到强视觉模型扩展的潜力。通过公开我们的模型权重,我们希望促进未来在视觉和多模态基础模型方面的研究。
图像到视频(I2V)生成旨在利用初始帧(以及文本提示)创建视频序列。I2V生成中的一个重大挑战是在整个视频中保持视觉一致性:现有方法常常难以保持主题、背景和风格从第一帧开始的完整性,并确保视频叙事中的流畅和逻辑连贯性。为了缓解这些问题,我们提出了ConsistI2V,这是一种基于扩散的方法,用于增强I2V生成的视觉一致性。具体而言,我们引入了(1)对第一帧的时空注意力,以保持空间和运动一致性,(2)从第一帧的低频带进行噪声初始化,以增强布局一致性。这两种方法使ConsistI2V能够生成高度一致的视频。我们还将所提出的方法扩展到展示它们在自回归长视频生成和摄像机运动控制中改善一致性的潜力。为验证我们方法的有效性,我们提出了I2V-Bench,这是一个用于I2V生成的全面评估基准。我们的自动和人工评估结果表明ConsistI2V优于现有方法。
规模定律提供了重要见解,可指导大型语言模型(LLMs)的设计。现有研究主要集中在研究预训练(上游)损失的规模定律。然而,在迁移学习设置中,LLMs通常会在无监督数据集上进行预训练,然后在下游任务上进行微调,我们也关心下游性能。在这项工作中,我们研究了迁移学习设置中的规模行为,其中LLMs被微调用于机器翻译任务。具体而言,我们调查了预训练数据的选择及其规模如何影响下游性能(翻译质量),评估标准为下游交叉熵和BLEU分数两个指标。我们的实验表明,微调数据集的规模和预训练数据与下游数据的分布对规模行为有显著影响。在充分对齐的情况下,随着更多的预训练数据,下游交叉熵和BLEU分数均呈单调改善趋势。在这种情况下,我们展示了可以使用对数定律准确预测下游BLEU分数的可能性。然而,也存在一些情况,适度的不对齐会导致BLEU分数随着更多的预训练而波动或变差,而下游交叉熵则单调改善。通过分析这些观察结果,我们为选择适当的预训练数据提供了新的实用见解。
我们提出了MusicRL,这是第一个通过人类反馈微调的音乐生成系统。由于音乐性的概念以及标题背后的具体意图是依赖于用户的主观判断的(例如,“欢快的健身音乐”这样的标题可以映射到复古吉他独奏或Techno流行节拍),因此对文本到音乐模型的评价尤其主观。这不仅使得这类模型的监督训练具有挑战性,还需要在部署后微调中整合持续的人类反馈。MusicRL是一个经过预训练的自回归MusicLM(Agostinelli等,2023)模型,通过强化学习微调离散音频标记以最大化序列级奖励。我们设计了与文本一致性和音频质量相关的奖励函数,并在选定的评估者的帮助下使用这些函数将MusicLM微调为MusicRL-R。我们将MusicLM部署给用户,并收集了一个包含30万个成对偏好的大量数据集。利用人类反馈的强化学习(RLHF),我们训练了MusicRL-U,这是第一个在规模上整合人类反馈的文本到音乐模型。人类评估显示,MusicRL-R和MusicRL-U都优于基准模型。最终,MusicRL-RU结合了这两种方法,并根据人类评估者的意见得出最佳模型。消融研究揭示了影响人类偏好的音乐属性,表明文本一致性和质量只占其中的一部分。这突显了音乐欣赏中主观性的普遍存在,并呼吁进一步让人类听众参与音乐生成模型的微调。
我们介绍了MobileVLM V2,这是在MobileVLM基础上显著改进的一系列视觉语言模型,证明了新颖的架构设计、专为移动VLM定制的改进训练方案以及丰富高质量数据集的精心策划可以大幅提升VLM的性能。具体来说,MobileVLM V2 1.7B在标准VLM基准测试中取得了更好或与规模为3B的更大VLM性能相当的表现。值得注意的是,我们的3B模型在7B+规模上表现优于大量VLM。我们的模型将在https://github.com/Meituan-AutoML/MobileVLM 上发布。
最近大型语言模型的进展引起了人们对其非凡和接近超人类能力的兴趣,促使研究人员探索评估和优化这些能力的方法,这被称为超对齐。在这个背景下,我们的论文深入探讨了视觉基础模型领域,着重讨论了弱到强泛化的概念,即利用一个较弱的模型监督一个较强的模型,旨在提升后者的能力超越前者的极限。我们引入了一种新颖且可自适应调整的弱到强监督损失函数。我们的全面实验涵盖了各种场景,包括少样本学习、迁移学习、噪声标签学习和常识蒸馏设置。结果令人瞩目:我们的方法不仅超过了由强到强泛化设定的性能基准,还超越了用整个数据集微调强模型的结果。这一令人信服的证据凸显了弱到强泛化的巨大潜力,展示了它显著提升视觉基础模型性能的能力。代码可在https://github.com/ggjy/vision_weak_to_strong 获取。
CodeCompose是一款由大型语言模型(LLMs)驱动的AI辅助代码编写工具,为Meta的数以万计的开发人员提供内联建议。本文介绍了我们如何将该产品从显示单行建议扩展到多行建议。这一演进过程需要我们克服几个独特挑战,以改善这些建议对开发人员的可用性。 首先,我们讨论了多行建议可能产生的“刺耳”效果,因为LLM的建议不断在开发人员现有代码周围移动,否则会导致生产率和满意度降低。 其次,生成多行建议需要更长的时间;因此,我们介绍了几项创新投资,以减少用户感知的延迟。这些模型托管优化使多行建议的延迟加快了2.5倍。 最后,我们对数以万计的工程师进行实验,以了解多行建议如何影响用户体验,并将其与单行建议进行对比。我们的实验显示:(i)多行建议占被接受的总字符数的42%(尽管仅占显示建议的16%);(ii)多行建议将用户节省的按键次数的百分比从9%增加到17%。多行CodeCompose已经推广到Meta的所有工程师,并有不到1%的工程师选择退出多行建议。
在面部动作捕捉和分析方面,主导的解决方案通常基于视觉线索,这些线索无法保护隐私且容易受到遮挡的影响。惯性测量单元(IMUs)作为潜在的解决方案,但主要用于全身动作捕捉。在本文中,我们提出了IMUSIC来填补这一空白,这是一种使用纯IMU信号进行面部表情捕捉的新途径,与以往的视觉解决方案有显著差异。我们的IMUSIC中的关键设计是三部曲。首先,我们设计微型IMUs以适应面部捕捉,配合解剖驱动的IMU放置方案。然后,我们贡献了一个新颖的IMU-ARKit数据集,为各种面部表情和表演提供丰富的配对IMU/视觉信号。这种独特的多模态性为未来方向带来了巨大潜力,比如基于IMU的面部行为分析。此外,利用IMU-ARKit,我们引入了一种强大的基准方法,可以准确地从纯IMU信号中预测面部混合形状参数。具体来说,我们为这一新型跟踪任务定制了一个具有两阶段训练策略的Transformer扩散模型。IMUSIC框架使我们能够在视觉方法失灵的情况下进行准确的面部捕捉,并同时保护用户隐私。我们进行了大量关于IMU配置和技术组件的实验证明了我们IMUSIC方法的有效性。值得注意的是,IMUSIC使得各种潜在和新颖的应用成为可能,例如保护隐私的面部捕捉、针对遮挡的混合捕捉,或者检测通常通过视觉线索难以察觉的微小面部运动。我们将发布我们的数据集和实现,以丰富社区中面部捕捉和分析的更多可能性。
我们提出对大型语言模型进行微调,以生成稳定材料。虽然这种做法有些不寻常,但在文本编码的原子数据上微调大型语言模型简单易行,且可靠,约90%的采样结构遵守原子位置和电荷的物理约束。通过从学习的机器学习势和金标准密度泛函理论计算中得出的能量高于晶格能的计算,我们展示了我们最强的模型(经过微调的LLaMA-2 70B)可以生成预测为亚稳态的材料,其速率约为CDVAE的两倍(49% vs 28%)。由于文本提示的固有灵活性,我们的模型可以同时用于无条件生成稳定材料、填充部分结构以及文本条件生成。最后,我们展示了语言模型捕捉晶体结构关键对称性的能力随着模型规模的增加而提高,这表明预训练的大型语言模型的偏见出奇地适合原子数据。
视觉-语言模型(VLMs)通过在将视觉指令与答案对齐的广泛训练中展示了其普遍的可行性。然而,这种确定性的对齐导致模型忽视了关键的视觉推理,进而导致在繁琐的视觉问题上失败以及不忠实的回答。在本文中,我们提出了一种称为“操作链”的机制,使VLMs能够通过一系列操作解决问题,其中每个操作都指的是对视觉输入的操作,可以是通过先前训练获得的内在能力(例如,基础)或者模仿类人行为(例如,放大)。这种机制鼓励VLMs生成具有证据性视觉推理的忠实回答,并允许用户在可解释路径中追踪错误原因。因此,我们训练了一种名为CogCoM的通用 17B VLM,它具有基于内存的兼容架构,并赋予了这种推理机制。实验表明,我们的模型在来自3个类别的8个基准测试中实现了最先进的性能,并且在有限数量的训练步骤中,迅速获得了竞争性能。代码和数据可在https://github.com/THUDM/CogCoM 上公开获取。
我们介绍 EscherNet,这是一个用于视图合成的多视角条件扩散模型。EscherNet 学习隐式和生成式的 3D 表示,结合专门的摄像头位置编码,允许在任意数量的参考视图和目标视图之间精确连续地控制摄像头变换。EscherNet 在视图合成中提供了出色的通用性、灵活性和可扩展性 -- 即使是在使用固定数量的 3 个参考视图到 3 个目标视图进行训练的情况下,它也能在单个消费级 GPU 上同时生成超过 100 个一致的目标视图。因此,EscherNet 不仅解决了零样本新视图合成问题,还自然地将单图和多图像 3D 重建统一起来,将这些多样的任务结合到一个统一的框架中。我们广泛的实验证明,EscherNet 在多个基准测试中取得了最先进的性能,即使与专门针对每个单独问题的方法进行比较也是如此。这种卓越的多功能性为设计可扩展的用于 3D 视觉的神经架构开辟了新的方向。项目页面:https://kxhit.github.io/EscherNet。
我们介绍了扩散世界模型(DWM),这是一种条件扩散模型,能够同时预测多步未来状态和奖励。与传统的一步动态模型相反,DWM在单次前向传递中提供了长视野的预测,消除了递归查询的需要。我们将DWM集成到基于模型的价值估计中,其中短期回报通过从DWM中采样的未来轨迹进行模拟。在离线强化学习的背景下,DWM可以被视为通过生成建模实现保守价值正则化。或者,它可以被看作是一种数据源,可以使用合成数据进行离线Q学习。我们在D4RL数据集上的实验验证了DWM对长视野模拟的稳健性。在绝对性能方面,DWM明显优于一步动态模型,性能提升了44%,并实现了最先进的性能水平。