每日精选AI研究论文及翻译
我们提出了MVDream,这是一个多视角扩散模型,能够从给定的文本提示生成几何一致的多视角图像。通过利用在大规模网络数据集上预训练的图像扩散模型和从3D资产渲染的多视角数据集,最终的多视角扩散模型可以实现2D扩散的泛化性和3D数据的一致性。这样的模型可以作为3D生成的多视角先验,通过评分蒸馏采样,极大地改善现有的2D提升方法的稳定性,解决了3D一致性问题。最后,我们展示了多视角扩散模型也可以在少样本设置下进行微调,用于个性化的3D生成,即DreamBooth3D应用程序,在学习主体身份后仍能保持一致性。
最近,类似Transformer的视觉模型已被证明在诸如分割和检测等各种下游应用中非常有效。先前的研究表明,使用自监督方法(如DINO)训练的视觉Transformer(ViTs)中会出现分割属性,但在受监督分类任务训练的模型中却没有。本研究探讨了基于Transformer的模型中是否仅通过复杂的自监督学习机制才会出现分割,或者通过适当设计模型架构就能在更广泛的条件下实现相同的出现。通过大量实验结果,我们展示了当使用一种名为CRATE的白盒Transformer-like架构时,该架构明确地模拟并追求数据分布中的低维结构,分割属性在进行了极简监督训练方案后就会在整体和部分层面上出现。逐层细粒度分析显示,出现的属性与白盒网络的设计数学函数强烈一致。我们的结果表明了设计白盒基础模型的途径,这些模型既具有高性能,又在数学上完全可解释。代码位于https://github.com/Ma-Lab-Berkeley/CRATE。
稳定扩散是一种用于文本到图像合成的生成模型,在生成不同尺寸的图像时经常遇到由分辨率引起的构图问题。这个问题主要源于该模型在训练时使用了一对单一尺度图像及其相应的文本描述。此外,直接在无限尺寸的图像上进行训练是不可行的,因为这将需要大量的文本-图像对,并且需要巨大的计算开销。为了克服这些挑战,我们提出了一个名为任意尺寸扩散(ASD)的两阶段流程,旨在有效生成任意尺寸的构图良好的图像,同时最大限度地减少对高内存 GPU 资源的需求。具体而言,初始阶段被称为任意比例适应性扩散(ARAD),利用一组选择的具有受限比率范围的图像来优化文本条件扩散模型,从而提高其调整构图以适应不同图像尺寸的能力。为了支持在任何所需尺寸上创建图像,我们在随后的阶段进一步引入了一种称为快速无缝平铺扩散(FSTD)的技术。这种方法允许将 ASD 输出快速放大到任何高分辨率尺寸,避免接缝伪影或内存超载。在 LAION-COCO 和 MM-CelebA-HQ 基准测试上的实验结果表明,ASD 能够生成任意尺寸的结构良好的图像,将推理时间缩短了 2 倍,相较于传统的平铺算法。
像ChatGPT这样的预训练语言模型显著改进了代码生成。随着这些模型规模的扩大,对输出处理更复杂任务的需求也在增加。此外,在生物信息学中,生成功能性程序面临额外显著挑战,这是因为领域知识的数量、对复杂数据操作的需求以及操作之间错综复杂的功能依赖关系。在这里,我们介绍了BioCoder,这是一个用于评估现有预训练模型在生成生物信息学代码方面的基准。关于函数代码生成,BioCoder涵盖潜在的包依赖关系、类声明和全局变量。它包含来自GitHub的Python和Java中的1026个函数和1243个方法,以及来自Rosalind项目的253个示例。BioCoder还整合了一个用于评估的模糊测试框架,我们已将其应用于评估许多模型,包括InCoder、CodeGen、CodeGen2、SantaCoder、StarCoder、StarCoder+、InstructCodeT5+和ChatGPT。我们对这些模型的详细分析强调了领域知识、实用代码生成和语境理解的重要性。我们的数据集、基准、Docker镜像和用于测试的脚本都可在https://github.com/gersteinlab/biocoder 上找到。
当人类程序员掌握了一门编程语言后,学习新的编程语言会变得更容易。在本报告中,我们专注于探讨编程语言在对大型语言模型进行指令微调阶段时是否可以相互促进。我们在StarCoder上对8种流行的编程语言(Python、JavaScript、TypeScript、C、C++、Java、Go、HTML)进行了大量实验。结果表明,编程语言可以显著地相互改进。例如,使用Python训练的CodeM-Python 15B能够使Java在HumanEval-X上的pass@1绝对值提高了17.95%。更令人惊讶的是,我们发现使用HTML语料库训练的CodeM-HTML 7B可以使Java的pass@1绝对值提高了15.24%。我们的训练数据已发布在https://github.com/NL2Code/CodeM。
我们解决了使用持续学习的神经场景表示进行主动映射的问题,即主动神经映射。关键在于积极地找到要探索的目标空间,通过高效的 agent 移动,在之前未见过的环境中实时最小化地图不确定性。在本文中,我们研究了持续学习的神经场的权重空间,并通过实证表明,神经变异性,即对随机权重扰动的预测稳健性,可以直接用来衡量神经地图的即时不确定性。结合神经地图中继承的连续几何信息,agent 可以被引导找到可穿越的路径,逐渐获取环境知识。我们首次提出了一种基于坐标的隐式神经表示的在线场景重建的主动映射系统。在视觉逼真的 Gibson 和 Matterport3D 环境中的实验证明了所提出方法的有效性。
在机器人技术中,一个长期存在的问题是开发能够从视觉观察中在非结构化真实环境中执行多样操纵任务的智能体。为了实现这一目标,机器人需要对场景的三维结构和语义有全面的理解。在这项工作中,我们提出了GNFactor,这是一个用于多任务机器人操纵的视觉行为克隆智能体,具有可泛化的神经特征场。GNFactor同时优化一个可泛化的神经场(GNF)作为重建模块,以及一个Perceiver Transformer作为决策模块,利用共享的深度三维体素表示。为了在三维中融入语义,重建模块利用一个视觉-语言基础模型(例如,稳定扩散)将丰富的语义信息提炼到深度三维体素中。我们在3个真实机器人任务上评估了GNFactor,并对10个RLBench任务进行了详细的消融实验,仅使用有限数量的演示。我们观察到,在已见和未见任务中,GNFactor相对于当前最先进的方法有显著改进,展示了GNFactor强大的泛化能力。我们的项目网站是https://yanjieze.com/GNFactor/。
我们介绍了Belebele,一个涵盖122种语言变体的多项选择机器阅读理解(MRC)数据集。显著扩展了自然语言理解(NLU)基准的语言覆盖范围,该数据集使得可以评估文本模型在高、中、低资源语言中的表现。每个问题基于Flores-200数据集中的一个简短段落,并包含四个多项选择答案。这些问题经过精心筛选,旨在区分具有不同一般语言理解水平的模型。仅英语数据集就足以挑战最先进的语言模型。作为完全平行的数据集,它使得可以直接比较所有语言中模型的表现。我们使用该数据集来评估多语言遮蔽语言模型(MLMs)和大型语言模型(LLMs)的能力。我们提出了广泛的结果,并发现尽管以英语为中心的LLMs具有显著的跨语言转移能力,但在平衡的多语言数据上预训练的较小MLMs仍然理解更多语言。我们还观察到更大的词汇量和有意识的词汇构建与低资源语言上的更好表现相关。总体而言,Belebele为评估和分析NLP系统的多语言能力开辟了新的途径。
以人为中心的视频帧插值在改善人们的娱乐体验和在体育分析行业中找到商业应用方面具有巨大潜力,例如合成慢动作视频。尽管社区中有多个基准数据集可用,但其中没有一个专门用于以人为中心的场景。为填补这一空白,我们引入了SportsSloMo,这是一个基准数据集,包括超过130K个视频剪辑和来自YouTube的高分辨率(≥720p)慢动作体育视频的100万个视频帧。我们在我们的基准数据集上重新训练了几种最先进的方法,结果显示它们的准确性较其他数据集有所下降。这突显了我们的基准数据集的困难,并表明即使对于表现最佳的方法,它也提出了重大挑战,因为人体高度可变形,体育视频中遮挡频繁。为提高准确性,我们引入了考虑人类感知先验的两个损失项,其中我们分别向全景分割和人体关键点检测添加辅助监督。这些损失项与模型无关,可以轻松地插入任何视频帧插值方法。实验结果验证了我们提出的损失项的有效性,导致超过5个现有模型的一致性性能改进,这些模型在我们的基准数据集上建立了强大的基线模型。数据集和代码可在以下网址找到:https://neu-vi.github.io/SportsSlomo/。