每日精选AI研究论文及翻译
生成式人工智能革命最近已经扩展到视频领域。然而,当前最先进的视频模型在视觉质量和用户对生成内容的控制方面仍落后于图像模型。在这项工作中,我们提出了一个框架,利用文本到图像扩散模型的能力进行文本驱动视频编辑。具体而言,给定一个源视频和一个目标文本提示,我们的方法生成一个高质量视频,符合目标文本,同时保留输入视频的空间布局和运动。我们的方法基于一个关键观察,即通过在扩散特征空间中强制保持一致性,可以获得编辑视频的一致性。我们通过根据模型中已有的帧间对应关系明确传播扩散特征来实现这一点。因此,我们的框架不需要任何训练或微调,并且可以与任何现成的文本到图像编辑方法配合使用。我们展示了在各种真实世界视频上的最先进编辑结果。网页链接:https://diffusion-tokenflow.github.io/
多模态学习旨在构建能够处理和关联来自多种模态的信息的模型。尽管这一领域经过多年的发展,但由于它们之间固有的差距,设计一个用于处理各种模态(如自然语言、2D图像、3D点云、音频、视频、时间序列、表格数据)的统一网络仍然具有挑战性。在这项工作中,我们提出了一个名为 Meta-Transformer 的框架,利用一个冻结的编码器来执行多模态感知,而无需任何配对的多模态训练数据。在 Meta-Transformer 中,来自各种模态的原始输入数据被映射到一个共享的标记空间,使得随后的编码器能够提取输入数据的高级语义特征。由统一数据标记器、模态共享编码器和针对下游任务的任务特定头部组成,Meta-Transformer 是第一个能够使用未配对数据在 12 种模态之间执行统一学习的框架。在不同基准测试上的实验表明,Meta-Transformer 能够处理广泛的任务,包括基础感知(文本、图像、点云、音频、视频)、实际应用(X射线、红外、高光谱和IMU)以及数据挖掘(图形、表格和时间序列)。Meta-Transformer 为利用 transformer 开发统一的多模态智能指示了一个充满希望的未来。代码将在 https://github.com/invictus717/MetaTransformer 上提供。
从人类大脑活动中重建经验的过程为我们提供了独特的视角,揭示了大脑如何解释和表征世界。在本文中,我们介绍了一种从功能磁共振成像(fMRI)捕获的大脑活动中重建音乐的方法。我们的方法使用音乐检索或MusicLM音乐生成模型,该模型以从fMRI数据中导出的嵌入为条件。生成的音乐与人类实验对象体验到的音乐刺激相似,涉及语义属性如流派、乐器和情绪。我们通过基于体素的编码建模分析探讨了MusicLM不同组件与大脑活动之间的关系。此外,我们讨论了哪些大脑区域代表了纯文本描述的音乐刺激所导出的信息。我们提供了包括重建音乐示例在内的补充材料,网址为https://google-research.github.io/seanet/brain2music。
评估大型语言模型(LLMs)具有挑战性,因为与人类价值观的对齐需要结合多种技能,所需技能集取决于指令。最近的研究以两种方式评估了LLMs的性能,(1)在几个独立基准上进行自动评估,和(2)人类或基于机器的评估为响应给出总体得分。然而,这两种设置都是粗粒度评估,未考虑到需要逐个实例的技能组合的用户指令的性质,这限制了对LLMs真实能力的解释。在本文中,我们介绍了基于对齐技能集的细粒度语言模型评估协议FLASK(Fine-grained Language Model Evaluation based on Alignment SKill Sets),该协议可用于基于模型和基于人类的评估,将粗粒度评分分解为逐个实例的技能集水平。具体而言,我们定义了LLMs需要遵循开放式用户指令的12种细粒度技能,并通过为每个实例分配一组技能来构建评估集。此外,通过为每个实例注释目标领域和难度级别,FLASK提供了一个全面分析,全面分析了模型的性能取决于技能、领域和难度。通过使用FLASK,我们比较了多个开源和专有LLMs,并观察到模型评估和人类评估之间高度相关的发现。FLASK使开发人员能够更准确地衡量模型的性能以及通过分析使LLMs在特定技能上熟练的因素来改进模型。对于从业者,FLASK可用于通过对各种LLMs进行全面比较来推荐适合特定情况的模型。我们在https://github.com/kaistAI/FLASK发布了评估数据和代码实现。
大规模网络数据集在类似CLIP和Flamingo这样的大型视觉-语言模型的成功中发挥着关键作用。然而,原始网络数据存在噪音,并且现有的减少噪音的过滤方法往往会以数据多样性为代价。我们的研究聚焦于字幕质量作为噪音的一个主要来源,并研究生成的字幕如何能够提高带有不明确文本的网络抓取数据点的效用。通过探索原始字幕和生成字幕的不同混合策略,我们在ImageNet上比DataComp基准提出的最佳过滤方法高出2%,在38个任务的平均值上高出4%,候选池中包含1.28亿个图像-文本对。我们的最佳方法在Flickr和MS-COCO检索方面也提高了2倍。然后,我们分析了合成字幕作为文本监督有效来源的原因。在尝试不同的图像字幕模型时,我们还证明了模型在标准图像字幕基准(例如NoCaps CIDEr)上的表现并不是其为多模态训练生成字幕的效用的可靠指标。最后,我们在DataComp的大规模(12.8亿个图像-文本对)实验中使用生成字幕,为我们揭示了合成文本的局限性以及随着训练数据量增加,图像筛选的重要性。
自监督学习在各种计算领域,包括自然语言处理、视觉和生物学中带来了革命性的范式转变。最近的方法涉及在大量未标记数据上预训练Transformer模型,作为高效解决下游任务的起点。在强化学习领域,研究人员最近通过开发在专家轨迹上预训练的模型,使其能够解决从机器人到推荐系统等各种任务。然而,现有方法大多依赖于为特定下游应用量身定制的复杂预训练目标。本文提出了一个名为预训练动作-状态Transformer代理(PASTA)的模型的全面研究。我们的研究采用统一的方法论,涵盖了广泛的一系列通用下游任务,包括行为克隆、离线强化学习、传感器故障鲁棒性和动态变化适应性。我们的目标是系统地比较各种设计选择,并为构建稳健模型的从业者提供宝贵见解。我们研究的关键亮点包括在动作和状态组件级别进行标记化,使用基本的预训练目标,如下一个标记预测,同时跨多个领域训练模型,并使用参数高效微调(PEFT)。我们研究中开发的模型包含不到1000万参数,应用PEFT使得在下游适应期间微调少于1万个参数,使广泛社区能够使用这些模型并重现我们的实验。我们希望这项研究能鼓励进一步研究,探讨使用基于第一原理的设计选择与转换器相结合来表示强化学习轨迹,并促进稳健策略学习。
最近大型语言模型(LLMs)的进展在许多数学基准测试中展示了显著的进步。然而,大多数这些基准测试只涉及初高中学科中的问题,仅包含多项选择题,并且局限于有限范围的基础算术运算。为了解决这些问题,本文引入了一个广泛的基准套件 SciBench,旨在系统地检验复杂科学问题解决所需的推理能力。SciBench 包含两个精心策划的数据集:一个开放集,包括从数学、化学和物理教科书中提取的一系列大学水平科学问题,以及一个封闭集,包括来自计算机科学和数学本科考试的问题。基于这两个数据集,我们对两个代表性的LLMs进行了深入的基准测试研究,采用了各种提示策略。结果显示,当前的LLMs在提供令人满意的性能方面表现不佳,整体得分仅为35.80%。此外,通过一项详细的用户研究,我们将LLMs的错误归类为十种解决问题的能力。我们的分析表明,没有单一提示策略明显优于其他策略,而一些策略在某些解决问题技能方面表现出改进,却导致其他技能下降。我们期望 SciBench 将推动LLMs推理能力的进一步发展,从而最终促进科学研究和发现。
多视角自监督学习(MVSSL)成功背后的机制尚未完全被理解。对比式MVSSL方法已通过InfoNCE的视角进行研究,该方法是互信息(MI)的一个下界。然而,其他MVSSL方法与MI之间的关系仍不清楚。我们考虑MI的另一个下界,包括熵和重构项(ER),并通过这个视角分析主要的MVSSL方法族。通过这个ER下界,我们展示了基于聚类的方法(如DeepCluster和SwAV)最大化了MI。我们还重新解释了基于蒸馏的方法(如BYOL和DINO)的机制,表明它们明确地最大化了重构项并隐式地鼓励稳定的熵,并通过实验证实了这一点。我们展示了用ER下界替换常见MVSSL方法的目标可以实现竞争性能,同时在使用较小批量大小或较小的指数移动平均(EMA)系数进行训练时使它们更加稳定。 Github仓库:https://github.com/apple/ml-entropy-reconstruction.
尽管经过指令调整的模型在各种自然语言处理任务中取得了显著成功,但准确评估其遵循指令的能力仍然具有挑战性。现有基准主要关注与模型训练期间学习内容相一致的常见指令。然而,对这些指令的响应熟练并不一定意味着在遵循指令方面具有强大能力。本文提出了一种名为“语言化器操作”的新型指令遵循评估协议。该协议指示模型用与模型先验知识程度不同程度对齐的单词来口头表达任务标签,采用从高度对齐(例如,对于积极情感输出“积极”)到最小对齐(例如,对于积极情感输出“消极”)的语言化器。语言化器操作可与任何分类基准轻松集成,以检验模型对先验知识的依赖程度及其覆盖它们以准确遵循指令的能力。我们对四个主要模型系列在九个数据集上进行了全面评估,为每个模型系列使用了十二组语言化器。我们观察到,模型在遵循指令方面的能力,跨不同系列和规模,主要通过其在较不自然语言化器上的表现而显著区分。即使最强大的GPT-4模型在最具挑战性的语言化器上也难以比随机猜测表现更好,强调了需要持续改进以提高它们的指令遵循能力。