每日精选AI研究论文及翻译
我们提出了SDXL,这是一个用于文本到图像合成的潜在扩散模型。与之前的稳定扩散版本相比,SDXL利用了一个三倍大的UNet骨干网络:模型参数的增加主要是由于更多的注意力块和更大的交叉注意力上下文,因为SDXL使用了第二个文本编码器。我们设计了多种新颖的条件方案,并在多个长宽比上训练了SDXL。我们还引入了一个细化模型,用于通过一种事后图像到图像技术改进SDXL生成的样本的视觉保真度。我们展示了SDXL相较于之前版本的稳定扩散有着显著改进的性能,并且达到了与黑盒最先进图像生成器竞争的结果。为了促进开放研究精神并促进大型模型训练和评估的透明度,我们提供了代码和模型权重的访问权限,网址为https://github.com/Stability-AI/generative-models。
在大语言模型时代,扩展序列长度已经成为一个关键需求。然而,现有方法在计算复杂度或模型表达能力方面存在困难,导致最大序列长度受限。在这项工作中,我们介绍了LongNet,一种Transformer变体,可以将序列长度扩展到超过10亿个标记,而不会牺牲对较短序列的性能。具体而言,我们提出了扩张注意力,随着距离增加,它会呈指数级地扩展注意力范围。LongNet具有显著优势:1)它具有线性计算复杂度和标记之间的对数依赖关系;2)它可以作为极长序列的分布式训练器;3)其扩张注意力可以直接替换标准注意力,并可以与现有基于Transformer的优化方案无缝集成。实验结果表明,LongNet在长序列建模和通用语言任务上表现出色。我们的工作为对建模非常长序列的新可能性打开了大门,例如将整个语料库甚至整个互联网视为一个序列。
尽管现有的大规模文本到图像(T2I)模型能够从详细的文本描述中生成高质量图像,但它们通常缺乏精确编辑生成或真实图像的能力。在本文中,我们提出了一种新颖的图像编辑方法DragonDiffusion,实现了Drag风格的编辑在Diffusion模型上的操作。具体而言,我们基于扩散模型中中间特征的强对应关系构建了分类器引导。它可以通过特征对应损失将编辑信号转换为梯度,以修改扩散模型的中间表示。基于这种引导策略,我们还构建了多尺度引导,考虑了语义和几何对齐。此外,我们添加了跨分支自注意力机制,以保持原始图像与编辑结果之间的一致性。通过高效设计,我们的方法实现了对生成或真实图像的各种编辑模式,如物体移动、物体调整大小、物体外观替换和内容拖拽。值得注意的是,所有编辑和内容保留信号均来自图像本身,模型不需要微调或额外模块。我们的源代码将在https://github.com/MC-E/DragonDiffusion 上提供。
最近,INSTRUCTEVAL的发布为利用编码器-解码器或仅解码器架构的大型语言模型(LLMs)的性能提供了宝贵的见解。有趣的是,尽管四年前推出,基于T5的LLMs(如FLAN-T5)在需要一般问题解决技能的任务上仍然优于最新的基于解码器的LLMs(如LLAMA和VICUNA)。这种性能差异可以归因于三个关键因素:(1)预训练数据,(2)骨干架构和(3)指令数据集。在这份技术报告中,我们的主要重点是通过利用基于LLAMA的大型语言模型VICUNA来调查第三个因素的影响,该模型已在ChatGPT对话上进行了微调。为实现这一目标,我们使用名为FLANMINI的自定义指令数据集收集对VICUNA进行了微调。该数据集包括众所周知的大规模指令数据集FLAN的子集,以及从ChatGPT/GPT-4衍生的各种与代码相关的数据集和对话数据集。该数据集包含大量需要解决问题技能的任务。我们的实验结果明显表明,我们的模型FLACUNA的增强问题解决能力是通过在FLAN数据集上微调VICUNA获得的,从而在INSTRUCTEVAL的众多基准数据集上取得了显著改进。FLACUNA可在https://huggingface.co/declare-lab/flacuna-13b-v1.0 公开获取。
文档理解指的是自动从各种类型的数字文档中提取、分析和理解信息,例如网页。现有的多模型大型语言模型(MLLMs),包括mPLUG-Owl,在浅层无OCR文本识别方面展现出有前途的零-shot能力,表明它们在无OCR文档理解方面具有潜力。然而,没有领域内训练的情况下,这些模型往往会忽略细粒度的OCR特征,如复杂的表格或大块文本,这些对于无OCR文档理解是至关重要的。在本文中,我们提出了基于mPLUG-Owl的mPLUG-DocOwl,用于无OCR文档理解。具体来说,我们首先构建了一个包含各种视觉-文本理解任务的指导调整数据集。然后,通过我们的统一指导调整策略,我们在仅语言、通用视觉-语言和文档指导调整数据集上联合训练模型,加强了无OCR文档理解能力。我们还构建了一个无OCR文档指导理解评估集LLMDoc,以更好地比较模型在指导遵从和文档理解方面的能力。实验结果表明,我们的模型优于现有的多模态模型,展示了其强大的文档理解能力。此外,在没有特定微调的情况下,mPLUG-DocOwl在各种下游任务上具有很好的泛化能力。我们的代码、模型、训练数据和评估集可在https://github.com/X-PLUG/mPLUG-DocOwl 上获取。
针对安全性和无害性训练的大型语言模型仍然容易受到恶意利用,正如早期版本的ChatGPT遭受“越狱”攻击并引发不良行为所证明的那样。我们不仅要认识到这一问题,还要研究为何此类攻击会成功以及如何创建这些攻击。我们假设安全训练存在两种失败模式:竞争目标和泛化不匹配。竞争目标是指当模型的能力与安全目标发生冲突时,而泛化不匹配则是指安全训练未能泛化到模型具备能力的领域。我们利用这些失败模式来指导越狱设计,然后评估包括OpenAI的GPT-4和Anthropic的Claude v1.3在内的最新模型,针对现有和新设计的攻击进行评估。我们发现,尽管这些模型背后进行了大量的红队测试和安全训练工作,但仍然存在漏洞。值得注意的是,利用我们的失败模式的新攻击在模型的红队评估集合中的每个提示中都取得成功,并且优于现有的临时越狱攻击。我们的分析强调了安全能力的平衡的必要性——即安全机制应该与基础模型一样复杂,并反对仅靠扩展规模就能解决这些安全失败模式的观点。
最近对于大型语言模型(LLMs)如GPT4的进展展示了在根据图像给出的开放式指令中具有出色的多模态能力。然而,这些模型的性能在很大程度上取决于诸如网络结构、训练数据和训练策略等设计选择,而这些选择在文献中并未得到广泛讨论,这使得在这一领域中很难量化进展。为了解决这一问题,本文提出了一项系统性和全面性的研究,定量和定性地研究了训练此类模型。我们在受控设置下实施了超过20种变体。具体而言,对于网络结构,我们比较了不同的LLM骨干和模型设计。对于训练数据,我们调查了数据和采样策略的影响。对于指令,我们探讨了多样化提示对训练模型的指令跟随能力的影响。对于基准测试,我们通过众包贡献了首个据我们所知包括图像和视频任务的全面评估集。根据我们的发现,我们提出了Lynx,它在保持与现有开源GPT4风格模型相比最准确的多模态理解能力的同时,具有最佳的多模态生成能力。
大型语言模型(LLMs)已经展示了在各个领域的单一智能体任务中具有令人印象深刻的规划能力。然而,它们在多智能体合作中的规划和沟通能力尚不清楚,尽管这些是智能体必不可少的技能。在本文中,我们提出了一个新颖的框架,利用LLMs进行多智能体合作,并在各种具体环境中进行测试。我们的框架使具体智能体能够有效地规划、沟通和与其他具体智能体或人类合作,以完成长期任务。我们展示了最近的LLMs,如GPT-4,可以超越强大的基于规划的方法,并利用我们的框架展现出新兴的有效沟通,而无需进行微调或少量提示。我们还发现,使用自然语言进行沟通的基于LLM的智能体可以赢得更多信任,并更有效地与人类合作。我们的研究强调了LLMs在具体人工智能方面的潜力,并为未来的多智能体合作研究奠定了基础。项目网站https://vis-www.cs.umass.edu/Co-LLM-Agents/上可以找到视频。
大型语言模型(LLMs)展示了广泛的有前途的能力,从逐步规划到常识推理,这些能力可能为机器人提供帮助,但仍然容易出现自信地产生幻觉的预测。在这项工作中,我们提出了KnowNo,这是一个用于衡量和调整基于LLM的规划器不确定性的框架,使它们知道自己不知道并在需要时寻求帮助。KnowNo基于符合预测理论,提供任务完成的统计保证,同时在复杂的多步规划设置中最大限度地减少人类帮助。在涉及具有不同模糊模式的任务的各种模拟和真实机器人设置上进行的实验(例如,从空间到数字不确定性,从人类偏好到Winograd模式)表明,KnowNo在提高效率和自主性方面优于现代基线(可能涉及集成或广泛提示调整),同时提供正式保证。KnowNo可以直接与LLMs一起使用,无需模型微调,并提出了一种有前途的轻量级建模不确定性方法,可以补充并随着基础模型日益增强的能力而扩展。网站:https://robot-help.github.io
最近的扩散Transformer(例如DiT)已经展示了它们在生成高质量2D图像方面的强大有效性。然而,目前仍在确定Transformer架构在3D形状生成中是否表现同样出色,因为先前的3D扩散方法大多采用了U-Net架构。为了弥合这一差距,我们提出了一种新颖的用于3D形状生成的扩散Transformer,即DiT-3D,它可以直接在体素化点云上使用普通Transformer进行去噪处理。与现有的U-Net方法相比,我们的DiT-3D在模型规模上更具可扩展性,并且生成的质量更高。具体而言,DiT-3D采用了DiT的设计理念,但通过合并3D位置和补丁嵌入来调整地从体素化点云中聚合输入。为了降低在3D形状生成中自注意力的计算成本,我们在Transformer块中引入了3D窗口注意力,因为由于体素的额外维度导致的增加的3D令牌长度可能会导致高计算量。最后,线性和去体素化层用于预测去噪的点云。此外,我们的Transformer架构支持从2D到3D的高效微调,其中在ImageNet上预训练的DiT-2D检查点可以显著提高ShapeNet上的DiT-3D。在ShapeNet数据集上的实验结果表明,所提出的DiT-3D在高保真度和多样化的3D点云生成方面实现了最先进的性能。特别是,我们的DiT-3D将最先进方法的1-最近邻准确度降低了4.59,并在Chamfer距离评估时将覆盖度指标提高了3.51。
Vision Transformers 的输入标记很少携带语义含义,因为它们被定义为输入图像的常规等大小的补丁,而与其内容无关。然而,处理图像中的均匀背景区域不应该需要与密集、混乱区域一样多的计算。为了解决这个问题,我们提出了一种动态混合尺度标记方案,即 MSViT。我们的方法引入了一种条件门控机制,为每个图像区域选择最佳的标记尺度,从而动态确定每个输入的标记数量。所提出的门控模块轻量级,不受变压器骨干选择的影响,并且在很少的训练轮次内(例如在 ImageNet 上的 20 轮)进行训练时几乎没有额外的训练开销。此外,为了增强门控在训练期间的条件行为,我们引入了一种新颖的批量塑形损失的泛化。我们展示了,尽管在粗粒度的补丁级别上局部操作,我们的门控模块能够学习有意义的语义。我们在分类和分割任务上验证了 MSViT,在这些任务中,它带来了更好的准确性-复杂性权衡。
本研究考察了开源大型语言模型(LLMs)在文本标注任务中的表现,并将其与像ChatGPT这样的专有模型以及基于人力的服务(如MTurk)进行了比较。尽管先前的研究表明ChatGPT在许多自然语言处理任务中表现出色,但像HugginChat和FLAN这样的开源LLMs因其具有成本效益、透明度、可复现性和卓越的数据保护而备受关注。我们使用零次和少次训练方法以及不同的温度参数评估了这些模型在一系列文本标注任务中的表现。我们的研究结果显示,虽然ChatGPT在大多数任务中表现最佳,但开源LLMs不仅在表现上胜过MTurk,而且在特定任务中还展现出与ChatGPT竞争的潜力。
头像在虚拟世界中创建交互式和沉浸式体验中至关重要。在将这些角色动画化以模仿用户动作方面的一个挑战是,商用增强现实/虚拟现实产品仅包括头戴式显示器和控制器,提供非常有限的用户姿势传感器数据。另一个挑战是,头像可能具有不同于人类的骨骼结构,它们之间的映射并不清楚。在这项工作中,我们解决了这两个挑战。我们引入了一种方法,可以实时将稀疏的人体传感器数据中的动作重新定位到具有不同形态的角色身上。我们的方法使用强化学习来训练一个策略,以控制物理模拟器中的角色。我们只需要人体动作捕捉数据进行训练,而无需依赖为每个头像生成的动画。这使我们能够使用大型动作捕捉数据集来训练通用策略,以实时跟踪来自真实且稀疏数据的未知用户。我们在具有不同骨骼结构的三个角色上展示了我们方法的可行性:恐龙、类老鼠生物和人类。我们展示了头像姿势通常与用户非常匹配,尽管没有下半身传感器信息可用。我们讨论并剔除了我们框架中的重要组件,特别是运动再定位步骤、模仿、接触和动作奖励,以及我们的非对称演员-评论者观察。我们进一步探讨了我们的方法在各种设置中的稳健性,包括失衡、跳舞和体育动作。
本文介绍了弹性决策Transformer(EDT),它是现有决策Transformer(DT)及其变体的重大进展。尽管DT声称能够生成最佳轨迹,但经验证据表明它在轨迹拼接方面存在困难,这是一个涉及从一组次优轨迹中提取最佳或接近最佳轨迹的过程。所提出的EDT通过在测试时的动作推断过程中促进轨迹拼接,通过调整DT中保留的历史长度来实现。此外,EDT通过在先前轨迹最佳时保留较长的历史,而在次优时保留较短的历史来优化轨迹,使其能够与更优轨迹“拼接”。广泛的实验表明,EDT能够弥合基于DT和Q学习的方法之间的性能差距。特别是,在D4RL运动基准和Atari游戏的多任务制度中,EDT表现优于基于Q学习的方法。视频可在以下链接找到:https://kristery.github.io/edt/
为了使机器人能够成功完成一般环境中的复杂人类指令,为具身体的代理装备常识是至关重要的。最近的大型语言模型(LLM)可以为代理嵌入丰富的语义知识,用于生成复杂任务的计划,但它们缺乏关于现实世界的信息,通常会产生不可行的行动序列。在本文中,我们提出了一个用于具身体任务的任务规划代理(TaPA),用于基于物理场景约束进行接地规划,代理根据场景中存在的对象生成可执行计划,通过将LLM与视觉感知模型对齐。具体来说,我们首先构建了一个包含室内场景、指令和行动计划三元组的多模态数据集,我们为GPT-3.5提供了设计好的提示和场景中现有对象的列表,以生成大量指令和相应的计划行动。生成的数据用于对预训练的LLM进行接地计划调整。在推断过程中,我们通过将开放词汇对象检测器扩展到在不同可达位置收集的多视角RGB图像,来发现场景中的对象。实验结果表明,我们的TaPA框架生成的计划成功率比LLaVA和GPT-3.5高出相当大的幅度,这表明了在一般和复杂环境中进行具身体任务规划的实用性。
音乐被用来传达情感,因此在自动音乐生成中生成情感音乐是很重要的。先前关于情感音乐生成的研究直接使用带有情感标签的注释作为控制信号,这种方法存在主观偏见:不同的人可能会在同一首音乐上注释不同的情感,一个人在不同情境下可能会感受到不同的情感。因此,直接将情感标签与音乐序列以端到端的方式进行映射会混淆学习过程,并阻碍模型生成具有普遍情感的音乐。在本文中,我们提出了EmoGen,一种情感音乐生成系统,它利用一组与情感相关的音乐属性作为情感和音乐之间的桥梁,并将生成分为两个阶段:通过受监督的聚类进行情感到属性的映射,以及通过自监督学习进行属性到音乐的生成。这两个阶段都是有益的:在第一个阶段,围绕聚类中心的属性值代表这些样本的普遍情感,有助于消除情感标签的主观偏见的影响;在第二阶段,生成完全与情感标签解耦,因此不受主观偏见的影响。主观和客观评估都表明EmoGen在情感控制准确性和音乐质量方面均优于先前的方法,这证明了我们在生成情感音乐方面的优越性。EmoGen生成的音乐样本可通过此链接获得:https://ai-muzic.github.io/emogen/,代码可通过此链接获得:https://github.com/microsoft/muzic/。