每日精选AI研究论文及翻译
随着在线购物的增长,买家在其环境中虚拟可视化产品的能力——我们定义为“虚拟尝试所有”的现象已变得至关重要。最近的扩散模型固有地包含一个世界模型,使它们适用于在修复上下文中执行此任务。然而,传统的图像条件扩散模型经常无法捕捉产品的细粒度细节。相比之下,以个性化驱动的模型如DreamPaint 擅长保留物品的细节,但它们并未针对实时应用进行优化。我们提出了“扩散选择”,这是一种新颖的基于扩散的图像条件修复模型,能够有效地在给定参考物品中平衡快速推理与高保真细节的保留,同时确保在给定场景内容中进行准确的语义操作。我们的方法是基于直接将参考图像的细粒度特征合并到主扩散模型的潜在特征图中,同时结合感知损失以进一步保留参考物品的细节。我们在内部和公开可用的数据集上进行了广泛测试,并展示了“扩散选择”优于现有的零样本扩散修复方法以及像DreamPaint 这样的少样本扩散个性化算法。
大语言模型的快速发展彻底改变了软件开发中的代码智能。然而,封闭源模型的主导地位限制了广泛的研究和开发。为了解决这一问题,我们推出了DeepSeek-Coder系列,这是一系列开源代码模型,规模从13亿到330亿不等,从头开始训练,使用了2万亿标记。这些模型在高质量项目级代码语料库上进行了预训练,并采用了填空任务和16K窗口,以增强代码生成和填充。我们的广泛评估表明,DeepSeek-Coder不仅在多个基准测试中取得了开源代码模型的最新性能,而且超越了现有的Codex和GPT-3.5等封闭源模型。此外,DeepSeek-Coder模型采用宽松许可证,允许进行研究和无限制的商业使用。
在这项工作中,我们重新审视了掩码自编码器(MAE)解码机制中的补丁间依赖关系。我们将MAE中用于补丁重建的解码机制分解为自注意力和交叉注意力。我们的研究表明,掩码补丁之间的自注意力对于学习良好的表示并非必要。基于此,我们提出了一种新颖的预训练框架:交叉注意力掩码自编码器(CrossMAE)。CrossMAE的解码器仅利用掩码和可见标记之间的交叉注意力,而在下游性能上没有降级。这种设计还能够仅解码一小部分掩码标记,提升效率。此外,每个解码器块现在可以利用不同的编码器特征,从而改善表示学习。CrossMAE在性能上与MAE相匹配,解码计算量降低了2.5到3.7倍。在相同计算条件下,它还在ImageNet分类和COCO实例分割任务上超越了MAE。代码和模型:https://crossmae.github.io
在生成式自然语言处理(NLP)的动态领域中,传统的文本处理流程限制了研究的灵活性和可重现性,因为它们针对特定的数据集、任务和模型组合进行了定制。随着系统提示、模型特定格式、指令等日益复杂,需要转向结构化、模块化和可定制的解决方案。为了满足这一需求,我们推出了Unitxt,这是一个创新的库,专门用于定制生成式语言模型的文本数据准备和评估。Unitxt与HuggingFace和LM-eval-harness等常用库进行了本地集成,并将处理流程拆分为模块化组件,实现了从业者之间的轻松定制和共享。这些组件涵盖了模型特定格式、任务提示以及许多其他全面的数据集处理定义。Unitxt-Catalog集中了这些组件,促进了现代文本数据工作流中的协作和探索。Unitxt不仅是一个工具,还是一个社区驱动的平台,赋予用户共同构建、共享和推进流程的能力。加入Unitxt社区,访问https://github.com/IBM/unitxt!
六位量化(FP6)可以有效地减小大型语言模型(LLMs)的大小,并在各种应用中始终保持模型质量。然而,现有系统并未为FP6量化提供张量核心支持,并且在LLM推理过程中难以实现实际性能改进。由于(1)模型权重的内存访问不友好且具有不规则的位宽,以及(2)权重去量化的高运行时开销,因此在GPU上支持FP6量化具有挑战性。为解决这些问题,我们提出了TC-FPx,这是第一个完整的GPU核心设计方案,统一支持各种量化位宽的浮点权重的张量核心。我们将TC-FPx核心集成到现有推理系统中,提供新的端到端支持(称为FP6-LLM)以进行量化LLM推理,从而实现推理成本和模型质量之间更好的权衡。实验表明,FP6-LLM使得可以仅使用单个GPU推理LLaMA-70b,其标准化推理吞吐量比FP16基准提高了1.69倍至2.65倍。源代码将很快公开发布。
在这项研究中,我们研究了最初用于图像生成的去噪扩散模型(Denoising Diffusion Models,DDM)的表示学习能力。我们的理念是对DDM进行解构,逐渐将其转变为经典的去噪自编码器(Denoising Autoencoder,DAE)。这种解构过程使我们能够探索现代DDM的各种组件如何影响自监督表示学习。我们观察到,只有很少一部分现代组件对于学习良好的表示是至关重要的,而许多其他组件则是非必要的。我们的研究最终得出了一种高度简化的方法,在很大程度上类似于经典的DAE。我们希望我们的研究能重新激起人们对现代自监督学习领域内一类经典方法的兴趣。
我们提出通过利用来自其他模态的无关数据来改进特定模态的Transformer,例如,改进一个ImageNet模型,使用音频或点云数据集。我们想强调目标模态的数据样本与其他模态无关,这将我们的方法与利用配对数据(例如CLIP)或不同模态的交错数据的其他工作区分开。我们提出了一种名为多模态路径的方法 - 针对目标模态和为其设计的Transformer,我们使用用另一模态的数据训练的辅助Transformer,并构建路径来连接两个模型的组件,以便目标模态的数据可以被两个模型处理。通过这种方式,我们利用了从两个模态获得的Transformer的通用序列到序列建模能力。作为一个具体的实现,我们像往常一样使用特定于模态的分词器和任务特定的头部,但通过一种名为跨模态重新参数化的方法利用辅助模型的Transformer块,这种方法利用了辅助权重而没有任何推理成本。在图像、点云、视频和音频识别任务中,我们观察到通过来自其他模态的无关数据显著且一致的性能改进。代码和模型可在https://github.com/AILab-CVC/M2PT找到。
在家庭等开放式非结构化环境中部署机器人一直是一个长期存在的研究问题。然而,机器人通常只在封闭的实验室环境中进行研究,先前的移动操作工作仅限于拾取-移动-放置,这在这一领域可能只是冰山一角。本文介绍了开放世界移动操作系统,这是一种全栈方法,旨在解决现实中的关节对象操作问题,例如开放式非结构化环境中的真实门、橱柜、抽屉和冰箱。该机器人利用自适应学习框架,通过行为克隆从少量数据中进行初始学习,然后通过在线实践学习处理训练分布之外的新对象。我们还开发了一种低成本的移动操作硬件平台,能够在非结构化环境中进行安全和自主的在线适应,成本约为20,000美元。在我们的实验中,我们在CMU校园的4栋建筑中使用了20个关节对象。对于每个对象,系统在线学习不到一个小时,成功率从BC预训练的50%提高到使用在线适应的95%。视频结果请参见https://open-world-mobilemanip.github.io/
我们介绍了pix2gestalt,这是一个用于零样本全景分割的框架,它学习估计仅部分可见且被遮挡的整个对象的形状和外观。通过利用大规模扩散模型并将它们的表示迁移到这一任务中,我们学习了一个条件扩散模型,用于在具有挑战性的零样本情况下重建整个对象,包括违反自然和物理先验的示例,如艺术作品。作为训练数据,我们使用了一个包含被遮挡对象及其完整对应物的合成策划数据集。实验证明,我们的方法在已建立的基准测试中优于监督基线。此外,我们的模型还可用于显著提高现有对象识别和三维重建方法在存在遮挡情况下的性能。
针对内容驱动生成任务缺乏高质量数据的问题被确定为推进这些任务的主要障碍。为了解决这一差距,我们提出了Genie,一种新颖的方法,用于自动生成高质量的内容驱动数据。它包括三个阶段:(a) 内容准备,(b) 生成:从内容中创建特定任务的示例(例如,问答对或摘要),(c) 过滤机制旨在确保生成数据的质量和忠实度。我们通过生成三个大规模合成数据来展示这种方法,用于长文本问答(LFQA)、摘要和信息提取。在人类评估中,我们生成的数据被发现自然且高质量。此外,我们将在我们的数据上训练的模型与在人类编写数据上训练的模型进行比较 -- 对于LFQA,我们使用ELI5和ASQA,对于摘要,我们使用CNN-DailyMail。我们展示我们的模型与在人类生成数据上训练的模型不相上下,甚至在忠实度方面始终表现优越。最后,我们应用我们的方法在医学领域内创建LFQA数据,并将在此数据上训练的模型与在其他领域训练的模型进行比较。