每日精选AI研究论文及翻译
对比学习已成为通过对齐图像和文本嵌入来学习有效视觉表示的一种革命性方法。然而,在图像和文本对之间的对比损失中进行成对相似度计算会带来计算挑战。本文提出了一种新颖的基于网络规模图像文本数据的弱监督预训练视觉模型的方法。所提出的方法将图像文本数据上的预训练重新构建为一个分类任务。因此,它消除了在对比损失中进行成对相似度计算的需要,相较于在网络规模数据上进行对比学习,实现了训练速度显著提升2.7倍。通过广泛的实验涵盖不同的视觉任务,包括检测和分割,我们证明了所提出的方法保持了高表示质量。我们的源代码以及预训练模型权重和训练配方可在https://github.com/apple/corenet 上获得。
我们提出了一种名为纯净闪电ID定制(PuLID)的新型无调整ID定制方法,用于文本到图像生成。通过将一个闪电T2I分支与一个标准扩散分支结合,PuLID引入了对比对齐损失和准确的ID损失,最大程度地减少对原始模型的干扰,并确保高度ID保真度。实验表明,PuLID在ID保真度和可编辑性方面均取得了优越的性能。PuLID的另一个吸引人之处在于,在ID插入前后,图像元素(如背景、光照、构图和风格)尽可能保持一致。代码和模型将在https://github.com/ToTheBeginning/PuLID 上提供。
对比语言-图像预训练(CLIP)的成功取决于图像和标题之间配对的监督,这在网络抓取的数据中往往存在噪音。我们提出了数据专家混合(MoDE),通过聚类学习一组CLIP数据专家系统。每个数据专家在一个数据簇上训练,对其他簇中的假阴性噪声不太敏感。在推断时,我们通过应用通过任务元数据和簇条件之间的相关性确定的权重来集成它们的输出。为了准确估计相关性,一个簇中的样本应该在语义上相似,但数据专家的数量仍应适合训练和推断。因此,我们考虑人类语言中的本体论,并建议使用细粒度簇中心来代表每个数据专家在粗粒度级别上。实验研究表明,ViT-B/16上的四个CLIP数据专家在零样本图像分类方面优于OpenAI CLIP和OpenCLIP上的ViT-L/14,但训练成本较低(<35%)。同时,MoDE可以异步训练所有数据专家,并可以灵活地包含新的数据专家。代码可在https://github.com/facebookresearch/MetaCLIP/tree/main/mode找到。
扩散模型的快速发展已经引发了多样化的应用。特别是保持身份的文本到图像生成(ID-T2I)因其广泛的应用场景,如人工智能肖像和广告,受到了重视。尽管现有的ID-T2I方法已经展示出令人印象深刻的结果,但仍然存在几个关键挑战:(1)很难准确保持参考肖像的身份特征,(2)生成的图像在强调身份保留时缺乏审美吸引力,(3)存在无法同时兼容LoRA和Adapter方法的限制。为了解决这些问题,我们提出了ID-Aligner,这是一个通用的反馈学习框架,用于增强ID-T2I的性能。为了解决丢失的身份特征,我们引入了身份一致性奖励微调,利用来自人脸检测和识别模型的反馈来改善生成的身份保留。此外,我们提出了身份美学奖励微调,利用人工注释的偏好数据和自动构建的角色结构生成反馈,提供审美调整信号。由于其通用的反馈微调框架,我们的方法可以轻松应用于LoRA和Adapter模型,实现一致的性能提升。在SD1.5和SDXL扩散模型上的大量实验证实了我们方法的有效性。项目页面:\url{https://idaligner.github.io/}
扩散模型的出现极大推动了图像和视频生成的进展。最近,一些工作致力于可控视频生成,包括文本到视频生成和视频运动控制,其中摄像机运动控制是一个重要主题。然而,现有的摄像机运动控制方法依赖于训练一个时间摄像机模块,并且由于视频生成模型中大量参数的存在,需要大量计算资源。此外,现有方法在训练过程中预定义摄像机运动类型,这限制了它们在摄像机控制方面的灵活性。因此,为了降低训练成本并实现灵活的摄像机控制,我们提出了COMD,一种新颖的无需训练的视频运动转移模型,该模型将源视频中的摄像机运动和物体运动进行解耦,并将提取的摄像机运动转移到新视频中。我们首先提出了一种一次性摄像机运动解耦方法,从单个源视频中提取摄像机运动,该方法将移动物体与背景分离,并基于背景中的运动通过求解泊松方程来估计移动物体区域中的摄像机运动。此外,我们提出了一种少样本摄像机运动解耦方法,从具有相似摄像机运动的多个视频中提取共同的摄像机运动,该方法采用基于窗口的聚类技术,从多个视频的时间注意力图中提取共同特征。最后,我们提出了一种运动组合方法,将不同类型的摄像机运动结合在一起,使我们的模型具有更可控和灵活的摄像机控制。大量实验证明,我们的无需训练方法能够有效解耦摄像机-物体运动,并将解耦的摄像机运动应用于各种可控视频生成任务,实现灵活多样的摄像机运动控制。
扩散模型在文本引导的合成任务中取得了重大进展。然而,编辑用户提供的图像仍然具有挑战性,因为扩散模型的高维噪声输入空间并不自然适用于图像反演或空间编辑。在这项工作中,我们提出了一种图像表示,促进使用扩散模型进行输入图像的空间编辑。具体来说,我们学习将输入编码为可以忠实重建输入图像的“图像元素”。这些元素可以直观地由用户编辑,并通过扩散模型解码为逼真图像。我们展示了我们的表示在各种图像编辑任务上的有效性,例如对象调整大小、重新排列、拖动、去遮挡、移除、变化和图像合成。项目页面:https://jitengmu.github.io/Editable_Image_Elements/
人像抠图是图像和视频处理中的基础任务,用于从输入中提取人类前景像素。先前的研究要么通过额外的引导来提高准确性,要么通过改进单个实例跨帧的时间一致性。我们提出了一个新的框架 MaGGIe,即Masked Guided Gradual Human Instance Matting,它可以逐步为每个人类实例预测 alpha 抠图,同时保持计算成本、精度和一致性。我们的方法利用现代架构,包括 Transformer 注意力和稀疏卷积,以在不增加内存和延迟的情况下同时输出所有实例抠图。尽管在多实例场景下保持恒定的推理成本,我们的框架在我们提出的合成基准测试中实现了稳健且多才多艺的性能。通过更高质量的图像和视频抠图基准测试,我们引入了来自公开来源的新型多实例合成方法,以增加模型在现实场景中的泛化能力。
推测解码已成为一种强大的方法,用于改善托管大型语言模型的延迟和吞吐量。然而,大多数现有的实现侧重于生成单个序列。现实世界中的生成式人工智能应用通常需要多个响应,如何在批处理设置中执行推测解码,同时保持其延迟优势,面临着非平凡的挑战。本文描述了一种批量推测解码系统,它在多序列生成延迟方面树立了新的技术标准,并展示了出色的GPU利用率以及在时间预算内生成的质量。例如,对于一个7.8B规模的模型,在单个A100 GPU上,批量大小为8,每个序列的平均生成速度为每个标记5.8毫秒,总吞吐量为每秒1.1K个标记。这些结果代表了最先进的延迟和比优化的常规解码快2.15倍。在常规解码无法完成的时间预算内,我们的系统能够生成具有43%的HumanEval Pass@First和61%的Pass@All的序列,远远超出了单序列推测解码的可行范围。我们在解码过程中的GPU利用率峰值高达15.8%,是常规解码的最高值的3倍以上,是单序列推测解码的大约10倍。
在上下文学习(ICL)方法中,通常利用提示来使仅解码器语言模型生成基于参考信息的结果。由于自注意力操作的二次成本,及时处理上下文效率低下,因此缓存是可取的。然而,缓存变压器状态很容易需要的空间几乎与模型参数一样多。当事先不知道正确的上下文时,缓存ICL可能具有挑战性。本研究通过引入受编码器-解码器架构启发的模型来解决这些限制,该模型使用交叉注意力来使生成结果依赖于参考文本而无需提示。更确切地说,我们利用预训练的仅解码器模型,仅训练少量添加层。我们以问答(QA)作为测试平台来评估我们的模型进行条件生成的能力,并观察到它们优于ICL,与微调提示LLM相当,并且相对于标准KV缓存大幅减少了空间占用,降低了两个数量级。