每日精选AI研究论文及翻译
卷积神经网络(CNNs)和视觉Transformer(ViTs)被视为视觉表示学习中两种最流行的基础模型。虽然CNNs在图像分辨率方面表现出线性复杂度的出色可扩展性,但ViTs在拟合能力上超越了它们,尽管受到二次复杂度的挑战。更仔细的观察揭示了ViTs通过整合全局感受野和动态权重实现了卓越的视觉建模性能。这一观察结果激发了我们提出一种新颖的架构,该架构继承了这些组件,同时增强了计算效率。为此,我们从最近引入的状态空间模型中汲取灵感,提出了视觉状态空间模型(VMamba),其实现了线性复杂度,同时不牺牲全局感受野。为了解决遇到的方向敏感问题,我们引入了交叉扫描模块(CSM)来遍历空间域,并将任何非因果视觉图像转换为有序的补丁序列。大量实验结果证实,VMamba不仅在各种视觉感知任务中展现出有希望的能力,而且随着图像分辨率的提高,也比已建立的基准表现出更为显著的优势。源代码可在https://github.com/MzeroMiko/VMamba找到。
扩散模型为图像生成领域开辟了新的道路,导致高质量模型在开源平台上被广泛分享。然而,当前文本到图像系统面临的一个主要挑战是往往无法处理多样化的输入,或者局限于单一模型的结果。当前的统一尝试通常可分为两个正交方面:i)在输入阶段解析多样化提示;ii)激活专家模型以输出。为了兼顾两者的优势,我们提出了DiffusionGPT,它利用大型语言模型(LLM)提供了一个统一的生成系统,能够无缝地适应各种类型的提示并整合领域专家模型。DiffusionGPT基于先验知识为各种生成模型构建特定领域的树结构。当提供一个输入时,LLM解析提示并利用思维树来指导选择合适的模型,从而放宽输入约束并确保在不同领域表现出色。此外,我们引入了优势数据库,其中思维树得到人类反馈的丰富,使模型选择过程与人类偏好保持一致。通过大量实验和比较,我们展示了DiffusionGPT的有效性,展示了它在不同领域推动图像合成边界的潜力。
我们介绍了SPARse Fine-grained Contrastive Alignment(SPARC),这是一种简单的方法,用于从图像-文本对中预训练更精细的多模态表示。鉴于多个图像补丁通常对应单个单词,我们提出为每个标题中的标记学习图像补丁的分组。为实现这一目标,我们使用稀疏相似度度量来衡量图像补丁和语言标记之间的关系,并为每个标记计算一个语言分组的视觉嵌入,作为补丁的加权平均值。然后,通过一种细粒度的序列损失,对标记和语言分组的视觉嵌入进行对比,该损失仅取决于个别样本,不需要其他批次样本作为负样本。这使得能够以计算成本低的方式学习更详细的信息。SPARC将这种细粒度损失与全局图像和文本嵌入之间的对比损失相结合,以学习同时编码全局和局部信息的表示。我们对我们提出的方法进行了彻底评估,并展示了在依赖粗粒度信息的图像级任务(例如分类)以及依赖细粒度信息的区域级任务(例如检索、目标检测和分割)上,相对竞争方法表现出更好的性能。此外,SPARC提高了模型的忠实度和基础视觉-语言模型中的字幕生成能力。
与许多机器学习问题一样,图像生成方法的进展取决于良好的评估指标。其中最流行的之一是Frechet Inception Distance(FID)。FID估计真实图像的Inception-v3特征分布与算法生成图像特征分布之间的距离。我们强调FID存在重要缺陷:Inception对现代文本到图像模型生成的丰富多样内容的表征不足,错误的正态假设以及样本复杂度低。我们呼吁重新评估FID作为生成图像的主要质量指标的使用。我们凭经验证明,FID与人工评分者相矛盾,不反映迭代文本到图像模型逐渐改进的情况,不捕捉失真水平,并且在改变样本大小时产生不一致的结果。我们还提出了一种新的替代指标CMMD,基于更丰富的CLIP嵌入和高斯RBF核的最大均值差距距离。它是一个无偏估计量,不对嵌入的概率分布做任何假设,并且具有高样本效率。通过大量实验和分析,我们证明基于FID对文本到图像模型的评估可能不可靠,而CMMD提供了更健壮可靠的图像质量评估。
我们提出了SHINOBI,这是一个端到端的框架,用于从以不同光照、姿势和背景捕获的物体图像中重建形状、材质和光照。基于无约束图像集合的物体的逆渲染是计算机视觉和图形领域长期以来的挑战,需要对形状、辐射和姿势进行联合优化。我们展示了基于多分辨率哈希编码的隐式形状表示,可以实现更快速、更稳健的形状重建,通过联合相机对准优化,优于先前的工作。此外,为了实现对光照和物体反射(即材质)的编辑,我们联合优化BRDF和光照以及物体的形状。我们的方法是无类别的,并且适用于野外图像集合中的物体,可用于生成可重新照明的3D资产,适用于AR/VR、电影、游戏等多种用例。项目页面:https://shinobi.aengelhardt.com 视频:https://www.youtube.com/watch?v=iFENQ6AcYd8&feature=youtu.be
本文旨在利用一种轻量且快速的基于扩散的声码器FreGrad生成逼真的音频。我们的框架包括以下三个关键组件:(1) 我们采用离散小波变换将复杂的波形分解为子带小波,这有助于FreGrad在简单而简洁的特征空间上运行,(2) 我们设计了一种频率感知扩张卷积,提高了频率感知度,从而生成具有准确频率信息的语音,以及(3) 我们引入了一些技巧,提升了所提出模型的生成质量。在实验中,FreGrad相较于我们的基准模型,实现了训练时间快3.7倍、推断速度快2.2倍,同时将模型大小减小了0.6倍(仅1.78M参数),而不会牺牲输出质量。音频样本可在以下链接获取:https://mm.kaist.ac.kr/projects/FreGrad。
定制化文本到视频生成旨在通过文本提示和主题参考生成高质量视频。目前针对单个主题设计的方法在处理多个主题时存在困难,这是一个更具挑战性和实际的场景。在这项工作中,我们旨在推动多主题引导的文本到视频定制化。我们提出了CustomVideo,这是一个新颖的框架,可以在多个主题的指导下生成保持身份的视频。具体而言,首先,我们通过将多个主题组合在单个图像中来促进多个主题的共现。此外,在基本文本到视频扩散模型的基础上,我们设计了一种简单而有效的注意力控制策略,以在扩散模型的潜在空间中解开不同主题。此外,为了帮助模型专注于特定对象区域,我们从给定的参考图像中分割对象,并为注意力学习提供相应的对象蒙版。此外,我们收集了一个多主题文本到视频生成数据集作为一个全面的基准,其中包含69个单独的主题和57个有意义的配对。广泛的定性、定量和用户研究结果表明,与先前的最先进方法相比,我们的方法具有显著优势。