每日精选AI研究论文及翻译
类似ChatGPT的模型已经在人工智能的各个应用中引起了革命,从摘要和编码到翻译,甚至超越了人类的表现。然而,当前的情况缺乏一种可访问、高效和经济有效的端到端RLHF(带人类反馈的强化学习)训练流程,特别是在训练数十亿参数规模时。本文介绍了DeepSpeed-Chat,这是一个新颖的系统,使RLHF训练对AI社区变得更加可访问。DeepSpeed-Chat提供了三个关键功能:一个易于使用的ChatGPT样式模型的训练和推理体验,一个DeepSpeed-RLHF流程,复制了InstructGPT的训练流程,以及一个强大的DeepSpeed-RLHF系统,以统一的方式结合了各种优化,用于训练和推理。该系统提供了无与伦比的效率和可扩展性,使得能够在创纪录的时间内以较低成本训练数千亿参数规模的模型。通过这一发展,DeepSpeed-Chat为更广泛地获得先进的RLHF训练铺平了道路,即使对于资源有限的数据科学家,也能促进人工智能领域的创新和进一步发展。
稀疏专家混合体结构(MoEs)可以扩展模型容量,而无需大幅增加训练或推理成本。尽管取得成功,MoEs存在一些问题:训练不稳定、标记丢失、无法扩展专家数量或微调效果不佳。在这项工作中,我们提出Soft MoE,这是一个完全可微的稀疏Transformer,旨在解决这些挑战,同时保持MoEs的优点。Soft MoE通过向每个专家传递所有输入标记的不同加权组合来执行隐式软分配。与其他MoE工作类似,Soft MoE中的专家仅处理(组合的)标记子集,从而实现更大的模型容量,而推理成本更低。在视觉识别领域,Soft MoE远远优于标准Transformer(ViTs)和流行的MoE变体(Tokens Choice和Experts Choice)。例如,Soft MoE-Base/16的推理成本仅为ViT-Huge/14的10.5倍(墙钟时间降低5.7倍),在类似训练后性能相匹配。Soft MoE还具有良好的扩展性:Soft MoE Huge/14具有128个专家,在16个MoE层中的参数比ViT Huge/14多40倍以上,而推理时间成本仅增长2%,性能明显更好。
尽管语言引导的图像操作取得了显著进展,但如何准确地指导操作过程以忠实地反映人类意图的挑战仍然存在。使用自然语言对操作任务进行准确和全面的描述是费时的,有时甚至是不可能的,主要是由于语言表达中存在的固有不确定性和歧义。在不借助外部跨模态语言信息的情况下完成图像操作是否可行?如果存在这种可能性,固有的模态差距将被轻松消除。在本文中,我们提出了一种新颖的操作方法,名为ImageBrush,它学习用于更准确图像编辑的视觉指导。我们的关键思想是利用一对转换图像作为视觉指导,这不仅能精确捕捉人类意图,还能在现实场景中提供便利。捕捉视觉指导尤其具有挑战性,因为它涉及仅从视觉演示中提取潜在意图,然后将此操作应用于新图像。为了解决这一挑战,我们将视觉指导学习形式化为基于扩散的修补问题,通过生成的迭代过程充分利用上下文信息。精心设计了视觉提示编码器,以增强模型揭示视觉指导背后的人类意图的能力。大量实验表明,我们的方法生成了引人入胜的操作结果,符合演示中涉及的转换。此外,我们的模型在各种下游任务上表现出强大的泛化能力,如姿势转移、图像翻译和视频修补。
我们的方法被称为语言/图像对齐X射线嵌入,简称ELIXR,利用一个与固定的LLM,PaLM 2相结合或嫁接的语言对齐图像编码器来执行各种任务。我们使用MIMIC-CXR数据集中的图像与相应的放射学报告训练这个轻量级适配器架构。ELIXR在零样本胸部X射线(CXR)分类(13个发现的平均AUC为0.850)、数据高效CX分类(对于1%(~2,200张图像)和10%(~22,000张图像)的训练数据,atelectasis、cardiomegaly、consolidation、pleural effusion和pulmonary edema的平均AUC分别为0.893和0.898)以及语义搜索(在十九个查询中的0.76归一化折现累积增益(NDCG),其中十二个查询完美检索)方面取得了最先进的性能。与现有的数据高效方法(包括监督对比学习(SupCon))相比,ELIXR需要两个数量级更少的数据才能达到类似的性能。ELIXR在CXR视觉-语言任务上也表现出潜力,分别在视觉问题回答和报告质量保证任务上达到了58.7%和62.5%的整体准确率。这些结果表明ELIXR是一个强大而多才多艺的CXR人工智能方法。
受到基于DETR的方法在COCO检测和分割基准上取得新纪录的启发,许多最近的努力表明人们越来越关注如何通过在保持骨干网络冻结的同时以自监督方式预训练Transformer来进一步改进基于DETR的方法。一些研究已经声称在准确性方面取得了显著改进。在本文中,我们仔细研究了他们的实验方法,并检查他们的方法是否仍然对最新的H-Deformable-DETR等最先进技术有效。我们在COCO目标检测任务上进行了彻底的实验,以研究预训练数据集的选择、定位和分类目标生成方案的影响。不幸的是,我们发现先前代表性的自监督方法,如DETReg,在完整数据范围上未能提升强大的基于DETR的方法的性能。我们进一步分析原因,并发现简单地结合更准确的框预测器和Objects365基准可以显著改善后续实验的结果。我们通过在COCO验证集上实现59.3%的AP强大目标检测结果来展示我们方法的有效性,超过H-Deformable-DETR + Swin-L的1.4%。最后,我们通过结合最新的图像到文本字幕模型(LLaVA)和文本到图像生成模型(SDXL)生成一系列合成预训练数据集。值得注意的是,在这些合成数据集上进行预训练可以显著提高目标检测性能。展望未来,我们预计通过扩展合成预训练数据集将获得实质性优势。
作为一种基础视觉语言模型,CLIP因其理解各种视觉概念和自然语言描述的能力而被广泛应用于零样本图像分类。然而,如何充分利用CLIP前所未有的类人理解能力来实现更好的零样本分类仍然是一个悬而未决的问题。本文从人类视觉感知过程中汲取灵感:现代神经科学观点表明,在对对象进行分类时,人类首先推断其与类别无关的属性(例如背景和方向),这有助于将前景对象与背景分离,然后基于这些信息做出决策。受此启发,我们观察到,为CLIP提供上下文属性可以改善零样本分类,并减轻对虚假特征的依赖。我们还观察到,CLIP本身可以合理地从图像中推断出这些属性。基于这些观察,我们提出了一种名为PerceptionCLIP的无需训练的两步零样本分类方法。给定一幅图像,它首先推断出上下文属性(例如背景),然后在此基础上执行对象分类。我们的实验表明,PerceptionCLIP实现了更好的泛化性、组鲁棒性和更好的可解释性。例如,使用ViT-L/14的PerceptionCLIP在Waterbirds数据集上将最差组准确率提高了16.5%,在CelebA数据集上提高了3.5%。