每日精选AI研究论文及翻译
在机器学习领域,大型语言模型(LLMs)在短短几年内从不存在变得无处不在。由于该领域发展迅速,很难确定尚存的挑战和已经取得成果的应用领域。本文旨在建立一套系统的开放问题和应用成功案例,以便让机器学习研究人员更快地了解该领域的当前状态并提高工作效率。
自2022年底以来,大型语言模型(LLMs)变得非常突出,像ChatGPT和Bard这样的LLMs拥有数百万用户。每周都会有数百个新的LLMs被宣布,其中许多被存储在Hugging Face,一个机器学习模型和数据集的存储库中。迄今为止,将近16,000个文本生成模型已上传到该网站。鉴于LLMs的大量涌入,了解哪些LLM骨干、设置、训练方法和系列受欢迎或趋势是很有趣的。然而,目前并没有可用的LLMs综合索引。我们利用Hugging Face LLMs相对系统化的命名法进行层次聚类,利用n-grams和词项频率-逆文档频率识别LLMs之间的社区。我们的方法成功地识别了LLMs的系列,并将LLMs准确地聚类为有意义的子群。我们提供了一个公共网络应用程序,用于浏览和探索Constellation,我们的15,821个LLMs的地图集。Constellation快速生成各种可视化,包括树状图、图表、词云和散点图。Constellation可通过以下链接访问:https://constellation.sites.stanford.edu/。
在一个由机器学习推动视觉内容生成的时代,将人类反馈整合到生成模型中,为增强用户体验和输出质量提供了重要机遇。本研究探讨了将迭代人类反馈纳入基于扩散的文本到图像模型生成过程的策略。我们提出了FABRIC,这是一种无需训练的方法,适用于各种流行的扩散模型,利用了最常用架构中的自注意力层,以在一组反馈图像上调节扩散过程。为了严格评估我们的方法,我们引入了一种全面的评估方法,提供了一个强大的机制来量化整合人类反馈的生成视觉模型的性能。我们通过详尽分析展示,通过多轮迭代反馈,生成结果得到改善,从而隐式优化任意用户偏好。这些发现的潜在应用领域包括个性化内容创作和定制。
图层合成是业余爱好者和专业人士中最流行的图像编辑工作流之一。受扩散模型成功的启发,我们从分层图像生成的角度探讨图层合成。我们提出了同时生成背景、前景、图层蒙版和合成图像的方法,而不是仅生成一幅图像。为了实现分层图像生成,我们训练了一个能够重建分层图像的自动编码器,并在潜在表示上训练了扩散模型。提出的问题的一个好处是除了高质量的图像输出外,还能实现更好的合成工作流程。另一个好处是相比于通过图像分割的单独步骤生成的蒙版,能够生成更高质量的图层蒙版。实验结果表明,提出的方法能够生成高质量的分层图像,并为未来工作建立了基准。
语言模型和视觉语言模型最近展示了在理解人类意图、推理、场景理解和规划行为等方面的前所未有的能力,以文本形式呈现。在这项工作中,我们探讨了如何嵌入和利用这些能力在强化学习(RL)代理程序中。我们设计了一个以语言作为核心推理工具的框架,探讨了这如何使代理程序能够解决一系列基本的RL挑战,如高效探索、重复使用经验数据、调度技能和从观察中学习,这些传统上需要单独设计的垂直算法。我们在一个稀疏奖励的模拟机器人操作环境中测试了我们的方法,机器人需要堆叠一组物体。我们展示了在探索效率和能够重复使用离线数据集中数据方面相比基线方法的显著性能改进,并说明了如何重复使用学到的技能来解决新任务或模仿人类专家的视频。
尽管会话人工智能取得了进展,语言模型在处理多样化对话任务时仍面临挑战,现有的对话数据集往往缺乏多样性和全面性。为了解决这些问题,我们推出了DialogStudio:这是最大、最多样化的对话数据集合,统一采用一致的格式,同时保留其原始信息。我们的收藏涵盖了开放领域对话、面向任务的对话、自然语言理解、会话推荐、对话摘要以及知识驱动对话的数据,使其成为对话研究和模型训练的极其丰富和多样化资源。为了进一步提高DialogStudio的效用,我们确定了每个数据集的许可证,并为选定的对话设计了领域感知提示,以促进面向指令的微调。此外,我们利用数据集合开发了会话人工智能模型,我们在零-shot和少-shot学习场景中的实验表明了DialogStudio的优越性。为了提高透明度并支持数据集和基于任务的研究,以及语言模型的预训练,与DialogStudio相关的所有数据集、许可证、代码和模型都可以在https://github.com/salesforce/DialogStudio 上公开访问。
对能够解释人类自然语言指令并通过直接控制数字设备的用户界面在数字设备上执行这些指令的设备控制系统越来越感兴趣。我们提出了一个用于设备控制研究的数据集Android in the Wild(AITW),其规模比当前数据集大几个数量级。该数据集包含人类演示的设备交互,包括屏幕和操作,以及相应的自然语言指令。它包含了715k个情节,涵盖了30k个独特指令,四个Android版本(v10-13),以及八种设备类型(从Pixel 2 XL到Pixel 6),具有不同的屏幕分辨率。数据集包含需要语义理解和视觉背景的多步任务。该数据集提出了一个新挑战:必须从视觉外观推断用户界面中的可用操作。而且,动作空间不是简单的基于UI元素的动作,而是包括精确手势(例如,水平滚动以操作走马灯小部件)。我们组织了数据集以促进对设备控制系统的鲁棒性分析,即系统在面对新任务描述、新应用程序或新平台版本时的表现如何。我们开发了两个代理程序,并报告了整个数据集上的性能。数据集可在https://github.com/google-research/google-research/tree/master/android_in_the_wild 上获得。
LLM已显示出在之前被认为是人类专属能力的众包任务中复制人类行为的潜力。然而,目前的努力主要集中在简单的原子任务上。我们探讨LLM是否能够复制更复杂的众包流程。我们发现现代LLM可以模拟一些众包工作者在这些“人类计算算法”中的能力,但成功的程度是不确定的,并受请求者对LLM能力的理解、子任务所需的具体技能以及执行这些子任务的最佳交互模式的影响。我们反思了人类和LLM对指令的不同敏感性,强调了为LLM提供面向人类的保障的重要性,并讨论了训练人类和LLM具有互补技能的潜力。至关重要的是,我们展示了复制众包流程提供了一个宝贵的平台,可以研究LLM在不同任务上的相对优势(通过对它们在子任务上的表现进行交叉比较),以及LLM在复杂任务中的潜力,在这些任务中,它们可以完成部分任务,而将其他任务留给人类。
在计算机视觉和计算机图形学中,逼真的以人为中心的渲染起着关键作用。多年来,在算法方面取得了快速进展,然而现有的以人为中心的渲染数据集和基准测试在多样性方面相对匮乏,而多样性对于渲染效果至关重要。研究人员通常受限于在当前数据集上探索和评估少量渲染问题,而实际应用需要方法能够在不同场景下具有稳健性。在这项工作中,我们提出了DNA-Rendering,这是一个大规模、高保真度的用于神经演员渲染的人类表现数据库。DNA-Rendering具有几个吸引人的特点。首先,我们的数据集包含超过1500名人类主体,5000个运动序列和6750万帧的数据量。其次,我们为每个主体提供丰富的资源--2D/3D人体关键点、前景蒙版、SMPLX模型、服装/配饰材料、多视角图像和视频。这些资源提升了当前方法在下游渲染任务上的准确性。第三,我们构建了一个专业的多视角系统来捕捉数据,其中包含60台同步摄像头,最高分辨率为4096 x 3000,帧率为15fps,以及严格的相机校准步骤,确保了用于任务训练和评估的高质量资源。除了数据集,我们还提供了一个大规模且定量的基准测试,涵盖多项任务,用于评估新颖视角合成、新颖姿势动画合成和新颖身份渲染方法的现有进展。在本文中,我们描述了我们的DNA-Rendering工作,揭示了新的观察结果、挑战和未来方向,以人为中心的渲染。数据集、代码和基准测试将在https://dna-rendering.github.io/ 上公开提供。
基于自适应梯度的优化器,特别是Adam,在训练大规模深度学习模型方面留下了深远的影响。这类优化器的优势在于展现出快速收敛,同时对超参数选择更具鲁棒性。然而,它们通常泛化能力不如非自适应方法。最近的研究将这种性能差距与选择平坦最小值联系起来:自适应方法往往会在损失函数空间中更尖锐的盆地中找到解决方案,这反过来会损害泛化能力。为了克服这个问题,我们提出了一种新的增强记忆的Adam版本,通过在训练过程中使用关键动量项的缓冲区来促进探索更平坦的最小值。直观地说,使用缓冲区使优化器在盆地吸引力范围不够宽时会超调到盆地之外。我们凭经验证明,我们的方法提高了Adam的几个变体在标准监督语言建模和图像分类任务上的性能。