每日精选AI研究论文及翻译
在日常生活中,文本引导的图像编辑被广泛需要,从个人用途到诸如Photoshop之类的专业应用。然而,现有方法要么是零次学习,要么是在自动合成的数据集上训练,其中包含大量噪音。因此,在实践中仍需要大量手动调整才能产生理想的结果。为了解决这个问题,我们引入了MagicBrush(https://osu-nlp-group.github.io/MagicBrush/),这是第一个大规模手动注释的数据集,用于指导真实图像编辑,涵盖了各种场景:单轮,多轮,提供蒙版和无蒙版编辑。MagicBrush包含超过10K个手动注释的三元组(源图像,指令,目标图像),支持训练大规模文本引导的图像编辑模型。我们在MagicBrush上对InstructPix2Pix进行微调,并展示新模型可以根据人类评估产生更好的图像。我们进一步进行了广泛的实验,评估当前图像编辑基线从多个维度,包括定量,定性和人类评估。结果揭示了我们数据集的挑战性质以及当前基线与实际编辑需求之间的差距。
大型语言模型(LLMs)已经彻底改变了自然语言处理(NLP),但训练需要大量GPU资源。降低LLMs训练的门槛将鼓励更多研究人员参与,使学术界和社会受益。虽然现有方法侧重于参数高效微调,即微调或添加少量参数,但很少有方法解决在有限资源下微调LLMs的全部参数的挑战。在这项工作中,我们提出了一种新的优化器,即低内存优化(LOMO),它将梯度计算和参数更新融合为一步,以减少内存使用。通过将LOMO与现有的节省内存技术相结合,我们将内存使用量降低到标准方法(DeepSpeed解决方案)的10.8%。因此,我们的方法使得在单台配备8个RTX 3090,每个内存为24GB的机器上对65B模型进行全参数微调成为可能。
大型语言模型(LLMs)在代码生成方面表现出色,但在具有挑战性的编程任务上仍然存在困难。自我修复——即模型调试和修复自身代码中的错误——最近成为提升性能的流行方式。然而,文献中对自我修复如何以及何时有效的研究非常有限,人们可能会想知道模型在由同一模型生成的代码出错时,模型到底能够提供多大程度上关于代码错误的准确反馈。本文分析了GPT-3.5和GPT-4在APPs上执行自我修复的能力,该数据集包含各种编程挑战。为此,我们首先建立了一种名为pass@t的新评估策略,该策略衡量任务的通过率与从模型中采样的标记总数之间的比率,使得与纯采样方法进行公平比较成为可能。通过这种评估策略,我们发现自我修复的有效性仅在GPT-4中得以体现。我们还观察到自我修复受到反馈阶段的限制;使用GPT-4对由GPT-3.5生成的程序进行反馈,并使用专业人类程序员对由GPT-4生成的程序进行反馈,我们实现了显著的性能提升。
我们介绍了AvatarBooth,这是一种新颖的方法,可以使用文本提示或特定图像生成高质量的3D头像。与先前的方法只能根据简单的文本描述合成头像不同,我们的方法可以从随意捕捉的面部或身体图像中创建个性化头像,同时支持基于文本的模型生成和编辑。我们的关键贡献在于通过为人脸和身体分别使用双精细调整扩散模型来精确控制头像生成。这使我们能够捕捉面部外观、服装和配饰的复杂细节,从而产生高度逼真的头像生成。此外,我们引入了姿势一致性约束到优化过程中,以增强从扩散模型合成的头部图像的多视角一致性,从而消除不受控制的人体姿势的干扰。此外,我们提出了一种多分辨率渲染策略,有助于对3D头像生成进行由粗到精的监督,从而提升所提出系统的性能。生成的头像模型可以通过额外的文本描述进一步编辑,并由运动序列驱动。实验证明,AvatarBooth在从文本提示或特定图像生成方面的渲染和几何质量方面优于先前的文本到3D方法。请访问我们的项目网站https://zeng-yifei.github.io/avatarbooth_page/。
我们提出了一种自监督的感知运动预训练方法,用于机器人技术。我们的模型名为RPT,是一个Transformer,用于处理感知运动令牌序列。给定一系列摄像头图像、本体感知机器人状态和过去的动作,我们将交错的序列编码为令牌,对随机子集进行蒙版处理,并训练模型来预测被蒙版处理的内容。我们假设,如果机器人能够预测缺失的内容,那么它已经获得了一个能够使其行动的物理世界的良好模型。RPT旨在处理潜在的视觉表示,这使得预测变得可行,实现了10倍更大模型的扩展,并在真实机器人上实现了每秒10次的推理。为了评估我们的方法,我们使用运动规划和基于模型的抓取算法结合,收集了9个月内的20,000条真实世界轨迹数据集。我们发现,在这些数据上进行预训练始终优于从头开始训练,导致在堆积积木任务中提高了2倍,并具有良好的扩展性能。
开放词汇物体检测已经从预训练的视觉-语言模型中受益良多,但仍受到可用检测训练数据量的限制。虽然可以通过使用网络图像-文本对作为弱监督来扩展检测训练数据,但这在可与图像级预训练相媲美的规模上尚未实现。在这里,我们通过自训练来扩展检测数据,利用现有的检测器在图像-文本对上生成伪框注释。自训练扩展的主要挑战在于标签空间的选择、伪注释过滤和训练效率。我们提出了OWLv2模型和OWL-ST自训练方法,以解决这些挑战。OWLv2在可比较的训练规模(约10M个示例)上已经超越了先前最先进的开放词汇检测器的性能。然而,通过OWL-ST,我们可以扩展到超过10亿个示例,带来进一步的显著改进:在L/14架构下,OWL-ST将LVIS稀有类别的AP从31.2%提高到44.6%(相对改进43%),其中模型没有见过人工框注释。OWL-ST为开放世界定位解锁了Web规模的训练,类似于图像分类和语言建模所见到的情况。
状态空间模型(SSMs)已经在需要建模长程依赖关系并能够高效扩展到长序列的任务中展现出令人印象深刻的结果,这归功于其次二次运行时复杂度。最初设计用于连续信号的SSMs在视觉和音频等众多任务中表现出卓越性能;然而,在语言建模任务中,SSMs仍然落后于Transformer的表现。在这项工作中,我们提出了一个名为块状态Transformer(BST)的混合层,它内部结合了一个用于长程上下文化的SSM子层,以及一个用于序列的短期表示的块Transformer子层。我们研究了三种不同的、完全可并行化的变体,将SSMs和基于块的注意力集成在一起。我们展示了我们的模型在语言建模困惑度上优于类似的基于Transformer的架构,并且能够泛化到更长的序列。此外,与块循环Transformer相比,当采用模型并行化时,块状态Transformer在层级别上的速度提升超过十倍。
研究规模定律发现,大型语言模型(LMs)在规模增加(模型大小、训练数据和计算资源)的情况下,整体损失呈可预测的改善趋势。在这里,我们提出了一项主张的证据,即LMs可能表现出逆向缩放,或者随着规模增加,任务表现更差,例如由于训练目标和数据中存在的缺陷。我们通过对通过公开比赛收集的11个数据集进行的实证研究,即“逆向缩放奖”,展示了逆向缩放的证据,该比赛设有丰厚的奖金池。通过对数据集的分析,以及文献中发现的其他示例,我们确定了逆向缩放的四个潜在原因:(i)更倾向于重复记忆序列而不是遵循上下文指令,(ii)模仿训练数据中的不良模式,(iii)任务包含一个LMs可能专注于的简单干扰任务,而不是更困难的真实任务,以及(iv)关于任务的正确但具有误导性的少样本演示。我们将获奖数据集发布在https://inversescaling.com/data,以便进一步研究逆向缩放。我们的任务有助于发现U形和倒U形缩放趋势,其中初始趋势发生逆转,表明规模趋势在预测更大规模模型行为方面的可靠性不如先前所理解的那样。总的来说,我们的结果表明,增加模型规模本身可能不会带来进展的任务存在,并且对于训练语言模型的数据和目标需要更加慎重地考虑。
最近的研究工作使用大量配对的文本-音频数据研究了文本转音频合成。然而,具有高质量文本标注的音频录音可能难以获取。在这项工作中,我们采用未标记视频和预训练的语言-视觉模型来进行文本转音频合成。我们提出通过利用视觉模态作为桥梁来学习所需的文本-音频对应关系。我们训练一个条件扩散模型,以生成视频的音频轨道,给定一个由预训练对比语言-图像预训练(CLIP)模型编码的视频帧。在测试阶段,我们首先尝试进行零样本模态转移,并使用一个CLIP编码的文本查询来条件化扩散模型。然而,我们观察到相对于图像查询存在明显的性能下降。为了弥补这一差距,我们进一步采用预训练的扩散先验模型,以生成给定CLIP文本嵌入的CLIP图像嵌入。我们的结果显示了所提出方法的有效性,以及预训练的扩散先验可以减少模态转移差距。虽然我们关注文本转音频合成,但所提出的模型也可以从图像查询生成音频,并在主观听测试中表现出与最先进的图像转音频合成模型竞争力的性能。这项研究提供了一种利用视频中自然发生的音频-视觉对应关系和预训练语言-视觉模型的力量来处理文本转音频合成的新方向。
部署大型语言模型(LLMs)可能会带来有害输出,如有毒或不诚实的言论。先前的工作引入了工具,以引发有害输出,以便识别和减轻这些风险。虽然这是确保语言模型安全的宝贵步骤,但这些方法通常依赖于一个用于不良输出的预先存在的分类器。这限制了它们在已知有害行为类型的情况下的应用。然而,这种方法忽略了红队行动的一个核心挑战:开发模型可能展示的行为的上下文理解。此外,当这样的分类器已经存在时,红队行动的边际价值有限,因为可以简单地使用分类器来过滤训练数据或模型输出。在这项工作中,我们考虑了在对手从高级抽象的不良行为规范出发的情况下进行红队行动。预期红队将完善/扩展这一规范,并确定从模型中引发这种行为的方法。我们的红队行动框架包括三个步骤:1)探索模型在期望上下文中的行为;2)建立不良行为的度量(例如,一个经过训练以反映人类评估的分类器);和3)利用这一度量和已建立的红队行动方法来利用模型的缺陷。我们将这种方法应用于红队 GPT-2 和 GPT-3 模型,系统地发现引发有毒和不诚实言论的提示类别。在这个过程中,我们还构建并发布了由人类主体标记为常识真实、常识虚假或其他的 20,000 条言论的 CommonClaim 数据集。代码可在 https://github.com/thestephencasper/explore_establish_exploit_llms 获取。CommonClaim 可在 https://github.com/thestephencasper/common_claim 获取。
人类具有理解场景的组合方式的认知能力。为了赋予人工智能系统类似的能力,以物体为中心的表示学习旨在在没有任何监督的情况下从视觉场景中获取单个物体的表示。尽管最近在以物体为中心的表示学习方面取得了显著进展,能够在复杂的合成数据集上取得重大进展,但在复杂的现实世界场景中应用仍然存在巨大挑战。其中一个重要原因是缺乏专门针对以物体为中心的表示学习方法的现实世界数据集。为了解决这个问题,我们提出了一个名为OCTScenes的多功能现实世界桌面场景数据集,精心设计为用于比较、评估和分析以物体为中心的表示学习方法的基准。OCTScenes包含5000个桌面场景,共包含15种日常物品。每个场景在60帧中捕获,覆盖360度视角。因此,OCTScenes是一个多功能基准数据集,可以同时满足对静态场景、动态场景和多视角场景任务的以物体为中心的表示学习方法的评估。在OCTScenes上进行了针对静态、动态和多视角场景的以物体为中心的表示学习方法的大量实验。结果表明,尽管现有技术在复杂的合成数据集上表现出色,但在从真实世界数据中学习有意义的表示方面存在不足。此外,OCTScenes可以作为推动现有最先进方法发展的催化剂,激励它们适应真实世界场景。数据集和代码可在https://huggingface.co/datasets/Yinxuan/OCTScenes 上获取。
我们提出了CAJun,这是一个新颖的分层学习和控制框架,使四足机器人能够以自适应的跳跃距离连续跳跃。CAJun包括一个高层次的质心策略和一个低层次的腿控制器。具体而言,我们使用强化学习(RL)来训练质心策略,该策略指定了腿控制器的步态时序、基础速度和摆动脚位置。腿控制器根据步态时序优化摆动腿和支撑腿的电机指令,以跟踪摆动脚目标和基础速度指令,采用最优控制方法。此外,我们重新制定了腿控制器中支撑腿优化器,使策略训练速度提高一个数量级。我们的系统结合了学习的多功能性和最优控制的稳健性。通过将RL与最优控制方法结合,我们的系统实现了学习的多功能性,同时又享受了控制方法的稳健性,使其易于转移到真实机器人中。我们展示了在单个GPU上进行20分钟训练后,CAJun能够在Go1机器人上实现连续、远距离自适应跳跃,且在模拟到真实之间存在较小差距。此外,该机器人可以跨越最大宽度为70厘米的缝隙,比现有方法宽40%以上。