每日精选AI研究论文及翻译
基于自注意力的视觉Transformer(ViTs)已经成为计算机视觉中一种竞争力极强的架构。与卷积神经网络(CNNs)不同,ViTs能够实现全局信息共享。随着ViTs各种结构的发展,ViTs在许多视觉任务中具有越来越多的优势。然而,自注意力的二次复杂度使ViTs计算密集型,并且它们缺乏局部性和平移等变性的归纳偏好,相比CNNs需要更大的模型尺寸来有效学习视觉特征。在本文中,我们提出了一种名为DualToken-ViT的轻量级高效视觉Transformer模型,它充分利用了CNNs和ViTs的优势。DualToken-ViT有效地融合了通过基于卷积的结构获得的局部信息和通过自注意力结构获得的全局信息的令牌,实现了高效的注意力结构。此外,我们在所有阶段都使用了位置感知的全局令牌来丰富全局信息,进一步增强了DualToken-ViT的效果。位置感知的全局令牌还包含图像的位置信息,使我们的模型更适用于视觉任务。我们在图像分类、目标检测和语义分割任务上进行了大量实验,以展示DualToken-ViT的有效性。在ImageNet-1K数据集上,我们不同规模的模型分别以0.5G和1.0G FLOPs的计算量分别达到了75.4%和79.4%的准确率,而我们的1.0G FLOPs模型的性能优于使用全局令牌的LightViT-T模型0.7%。
我们提出了MosaicFusion,这是一种简单而有效的基于扩散的数据增强方法,适用于大词汇量实例分割。我们的方法无需训练,也不依赖任何标签监督。两个关键设计使我们能够利用现成的文本到图像扩散模型作为有用的数据集生成器,用于对象实例和蒙版注释。首先,我们将图像画布分成几个区域,并执行一轮扩散过程,同时根据不同的文本提示生成多个实例。其次,我们通过聚合跨层和扩散时间步骤的与对象提示相关的交叉注意力图,然后进行简单的阈值处理和边缘感知细化处理,获得相应的实例蒙版。我们的MosaicFusion可以为罕见和新颖类别生成大量合成标记数据,没有炫耀的功能,实验结果表明,在具有挑战性的LVIS长尾和开放词汇基准上,MosaicFusion可以显著提高现有实例分割模型的性能,特别是对于罕见和新颖类别。代码将在https://github.com/Jiahao000/MosaicFusion发布。
神经网络剪枝提供了一种有效的方法,可以在最小性能损失的情况下压缩多语言自动语音识别(ASR)模型。然而,这需要多轮剪枝和重新训练,每种语言都需要运行。在这项工作中,我们提出了在两种场景下为了高效剪枝多语言ASR模型而使用自适应掩模方法,分别导致稀疏的单语模型或稀疏的多语言模型(称为动态ASR路径)。我们的方法动态地调整子网络,避免对固定子网络结构做出过早决定。我们展示了我们的方法在针对稀疏的单语模型时优于现有的剪枝方法。此外,我们阐明了动态ASR路径共同发现并训练了更好的单个多语言模型的子网络(路径),通过从不同的子网络初始化进行调整,从而减少了对特定语言剪枝的需求。
在互联网数据上进行预训练已被证明是许多现代机器学习系统实现广泛泛化的关键因素。要在机器人强化学习(RL)中实现这种能力,需要做些什么?离线RL方法从机器人经验数据集中学习,为将先前数据整合到机器人学习流程中提供了一种方法。然而,这些方法与视频数据(如Ego4D)存在“类型不匹配”,这是机器人技术可用的最大先前数据集,因为视频只提供观察经验,缺乏RL方法所需的动作或奖励注释。在本文中,我们开发了一个系统,完全基于通过时间差分学习学习价值函数,以在机器人离线RL中利用大规模人类视频数据集。我们展示了在视频数据集上进行价值学习可以学习到比其他从视频数据中学习方法更有利于下游机器人离线RL的表示。我们的系统名为V-PTR,结合了在视频数据上进行预训练和在多样化机器人数据上进行训练的机器人离线RL方法的优势,从而产生了更好、更稳健、更广泛泛化的操纵任务的价值函数和策略。在一个真实的WidowX机器人上进行的几个操纵任务中,我们的框架生成的策略明显优于先前的方法。我们的视频和更多细节可在https://dibyaghosh.com/vptr/找到。