每日精选AI研究论文及翻译
在自然文档上训练的大型多模态模型,交替使用图像和文本,比在图像-文本对上训练的模型在各种多模态基准测试中表现更好。然而,用于训练这些模型的数据集尚未发布,并且收集过程尚未完全说明。我们介绍了OBELICS数据集,这是一个包含来自Common Crawl的1.41亿个网页、3.53亿个相关图像和1150亿个文本标记的开放式网络规模过滤数据集,其中包含交错的图像文本文档。我们描述了数据集创建过程,提出了全面的过滤规则,并对数据集内容进行了分析。为了展示OBELICS的可行性,我们训练了分别命名为IDEFICS的9亿和80亿参数的视觉和语言模型,并在不同的多模态基准测试中获得了竞争性能。我们发布了我们的数据集、模型和代码。
单图像3D重建是一项重要且具有挑战性的任务,需要对我们自然世界有广泛的了解。许多现有方法通过在2D扩散模型的指导下优化神经辐射场来解决这个问题,但存在优化时间长、3D不一致结果和几何质量差的问题。在这项工作中,我们提出了一种新颖的方法,它以任何物体的单个图像作为输入,并在单个前向传递中生成完整的360度3D纹理网格。给定单个图像,我们首先使用一个视角条件的2D扩散模型Zero123为输入视角生成多视角图像,然后旨在将它们提升到3D空间。由于传统重建方法在不一致的多视角预测方面存在困难,我们基于基于SDF的通用化神经表面重建方法构建我们的3D重建模块,并提出了几种关键的训练策略,以实现360度网格的重建。在没有昂贵优化的情况下,我们的方法比现有方法更快地重建3D形状。此外,我们的方法更有利于几何质量,生成更一致的3D结果,并更贴近输入图像。我们在合成数据和野外图像上评估了我们的方法,并展示了其在网格质量和运行时间方面的优越性。此外,我们的方法可以通过与现成的文本到图像扩散模型集成,无缝支持文本到3D任务。
本文介绍了DreamDiffusion,一种新颖的方法,可以直接从大脑脑电图(EEG)信号生成高质量图像,无需将思维转化为文本。DreamDiffusion利用预训练的文本到图像模型,并采用时间掩码信号建模来预训练EEG编码器,以实现有效和稳健的EEG表示。此外,该方法进一步利用CLIP图像编码器提供额外监督,以更好地对齐具有限制的EEG-图像对的EEG、文本和图像嵌入。总体而言,所提出的方法克服了使用EEG信号进行图像生成时的挑战,如噪声、信息有限和个体差异,并取得了令人满意的结果。定量和定性结果展示了所提出方法的有效性,是朝着便携和低成本的“思维到图像”方法迈出的重要一步,具有潜在的在神经科学和计算机视觉领域的应用。
文本到图像扩散模型因其在不同领域的广泛适用性而引起了极大关注。然而,在创建可控模型以个性化生成物体方面仍存在挑战。本文首先确定了现有个性化生成模型中的纠缠问题,然后提出了一种简单高效的数据增强训练策略,指导扩散模型专注于物体身份。通过插入来自预训练可控扩散模型的即插即用适配器层,我们的模型获得了控制每个生成的个性化物体位置和大小的能力。在推断过程中,我们提出了一种区域引导采样技术,以保持生成图像的质量和保真度。我们的方法实现了个性化物体的可比或更高保真度,产生了一个强大、多功能且可控的文本到图像扩散模型,能够生成逼真且个性化的图像。我们的方法展示了在艺术、娱乐和广告设计等各种应用中的重要潜力。
我们提出了一种新颖的“对齐-生成”方法,用于解决基于2D图像或文本生成通用3D形状的挑战性任务。直接从图像或文本到3D形状学习条件生成模型容易因为3D形状具有额外维度,其分布与2D图像和文本显著不同,导致生成结果不一致。为了弥合三种模态之间的领域差距,促进多模态条件下的3D形状生成,我们探索在一个形状-图像-文本对齐空间中表示3D形状。我们的框架包括两个模型:一个形状-图像-文本对齐变分自编码器(SITA-VAE)和一个条件对齐形状潜扩散模型(ASLDM)。前者将3D形状编码为与图像和文本对齐的形状潜空间,并通过基于Transformer的解码器重构对应于给定形状嵌入的细粒度3D神经场。后者从图像或文本空间学习到潜形状空间的概率映射函数。我们的大量实验证明,我们提出的方法可以生成更高质量、更多样化的3D形状,更好地语义地符合视觉或文本条件输入,验证了形状-图像-文本对齐空间在跨模态3D形状生成中的有效性。
预训练的大型语言模型(PLMs)是自然语言处理中大多数新发展的基础。它们已经将该领域从特定应用模型管道转变为一个适用于广泛任务的单一模型。像GPT-3或PaLM这样的自回归PLMs,以及少样本学习等技术,进一步将输出模式从分类或回归转变为生成。尽管它们被广泛使用,但语言模型的生成质量很少在引入这些模型时进行评估。此外,现有的生成任务如何与人们一直在采用的真实用例相关联,尽管它们可用于在高层次比较系统,但仍不清楚。在这项工作中,我们讨论了如何将现有的特定应用生成基准适应PLMs,并对PLMs在自然语言生成任务中的限制和能力进行了深入的实证研究,涉及规模、架构、输入和输出语言等方面。我们的结果显示,PLMs在不同数据范畴的适用性以及对多种语言的泛化能力存在差异,并指导在给定生成任务设置中使用哪种PLMs。我们分享了在开发即将推出的PLMs时进行基准测试生成能力时应考虑的最佳实践。
我们首次展示,仅基于合成数据训练的神经网络在从真实图像中估计3D人体姿势和形状(HPS)问题上实现了最先进的准确性。先前的合成数据集规模较小,不够真实,或缺乏真实服装。实现足够的真实感并非易事,我们展示了如何在运动中实现全身的真实感。具体来说,我们的BEDLAM数据集包含单目RGB视频,其中包含以SMPL-X格式的地面真实3D人体。它包括多样的体型、动作、肤色、头发和服装。服装是通过商业服装物理模拟在移动的人体上逼真模拟的。我们在真实场景中呈现不同数量的人员,具有多样化的光照和摄像机运动。然后,我们使用BEDLAM训练各种HPS回归器,并在真实图像基准上实现最先进的准确性,尽管是使用合成数据进行训练。我们利用BEDLAM来深入了解哪些模型设计选择对准确性至关重要。通过良好的合成训练数据,我们发现像HMR这样的基本方法接近当前SOTA方法(CLIFF)的准确性。BEDLAM对各种任务都很有用,所有图像、地面真实人体、3D服装、支持代码等均可供研究目的使用。此外,我们提供有关我们合成数据生成流程的详细信息,使其他人能够生成自己的数据集。请查看项目页面:https://bedlam.is.tue.mpg.de/。
从视觉观察中学习的动力学模型已被证明在各种机器人操纵任务中非常有效。学习这些动力学模型的一个关键问题是使用何种场景表示。先前的研究通常假设采用固定维度或分辨率的表示,这对简单任务可能效率低,对更复杂的任务则效果不佳。在这项工作中,我们研究如何学习不同抽象级别的动态和自适应表示,以实现效率和有效性之间的最佳权衡。具体而言,我们构建了环境的动态分辨率粒子表示,并使用图神经网络(GNNs)学习统一的动力学模型,该模型允许连续选择抽象级别。在测试阶段,代理可以自适应地确定每个模型预测控制(MPC)步骤的最佳分辨率。我们在物体堆叠操纵中评估了我们的方法,这是我们在烹饪、农业、制造和制药应用中经常遇到的任务。通过在模拟和现实世界中进行全面评估,我们展示了我们的方法在收集、排序和重新分配由各种实例制成的颗粒状物体堆(如咖啡豆、杏仁、玉米等)方面比最先进的固定分辨率基线表现显著更好。
深度神经网络(DNNs)已经在机器学习中变得无处不在,但它们的能耗仍然是一个显著问题。降低供电电压是减少能耗的有效策略。然而,过度降低供电电压可能会导致准确性下降,因为模型参数存储在静态随机存取存储器(SRAM)中,其中可能发生随机位翻转。为了解决这一挑战,我们引入了NeuralFuse,这是一个新颖的附加模块,通过学习输入转换来生成抗错误数据表示,从而解决低电压范围中准确性与能耗的权衡问题。NeuralFuse在标称和低电压场景下均能保护DNN的准确性。此外,NeuralFuse易于实现,并且可以轻松应用于访问受限的DNN,例如不可配置的硬件或远程访问云端API。实验结果表明,在1%的位错误率下,NeuralFuse可以将SRAM内存访问能耗降低高达24%,同时将准确性提高高达57%。据我们所知,这是第一个面向模型的方法(即无需重新训练模型)来解决低电压引起的位错误。源代码可在https://github.com/IBM/NeuralFuse找到。
我们介绍了ArrayBot,这是一个分布式操作系统,由一个16×16的垂直滑动柱阵列与触觉传感器集成而成,可以同时支持、感知和操作桌面上的物体。为了实现通用的分布式操作,我们利用强化学习(RL)算法自动发现控制策略。面对大量冗余动作,我们提出通过考虑空间局部动作块和频域中的低频动作来重塑动作空间。通过这种重塑的动作空间,我们训练RL代理程序,可以仅通过触觉观察重新定位各种物体。令人惊讶的是,我们发现发现的策略不仅可以推广到模拟器中看不见的物体形状,而且可以在不进行任何领域随机化的情况下转移到物理机器人上。利用部署的策略,我们展示了丰富的现实世界操作任务,展示了RL在ArrayBot上进行分布式操作的巨大潜力。
近年来,基于Transformer的语言模型已成为自然语言处理任务的标准方法。然而,在工业应用中,严格的吞吐量和延迟要求限制了它们的采用。为了弥合这一差距,模型压缩技术,如结构化剪枝,被用于提高推断效率。然而,大多数现有的神经网络推断运行时缺乏对结构化稀疏性的充分支持。在本文中,我们提出了一种高效的稀疏深度学习推断软件栈,适用于基于Transformer的语言模型,其中权重被以恒定块大小进行剪枝。我们的稀疏软件加速器利用Intel深度学习增强技术,以最大化在CPU上的稀疏矩阵 - 密集矩阵乘法(通常缩写为SpMM)的性能。我们的SpMM内核在5个代表性稀疏度比率(70%、75%、80%、85%、90%)下的各种GEMM形状上,比现有的稀疏库(oneMKL、TVM和LIBXSMM)提高一个数量级。此外,我们的SpMM内核在广泛使用的GEMM形状上比oneDNN的密集GEMM内核提供高达5倍的加速,后者是工业中广泛使用的经过优化的密集库。我们将我们的稀疏加速器应用于广泛使用的Transformer-based语言模型,包括Bert-Mini、DistilBERT、Bert-Base和BERT-Large。我们的稀疏推断软件在亚马逊网络服务的Xeon上,根据代理生产延迟约束条件,比Neural Magic的Deepsparse在相同配置下提供高达1.5倍的加速。我们还将我们的解决方案与两种基于框架的推断解决方案,ONNX Runtime和PyTorch进行比较,并在Xeon上根据延迟约束条件,比ONNX Runtime提供高达37倍的加速,比PyTorch提供高达345倍的加速。所有源代码都在Github上公开可用:https://github.com/intel/intel-extension-for-transformers。