每日精选AI研究论文及翻译
我们引入了深度上采样(DUS),这是一种新颖的技术,可以以简单的方式高效有效地提升基础LLM。与专家混合模型(MoE)相比,DUS不需要对训练和推断进行复杂的更改。利用DUS,我们构建了SOLAR 10.7B,一个具有107亿参数的大型语言模型(LLM),在各种自然语言处理(NLP)任务中展现出卓越的性能。比较评估显示,SOLAR 10.7B的表现优于现有的开源预训练LLM,如Llama 2和Mistral 7B。此外,我们还推出了SOLAR 10.7B-Instruct,这是一个针对指令遵循能力进行微调的变体,超越了Mixtral-8x7B。SOLAR 10.7B在Apache 2.0许可下公开提供,促进了LLM领域的广泛访问和应用。
本文介绍了26条指导原则,旨在简化查询和提示大型语言模型的过程。我们的目标是简化为各种规模的大型语言模型制定问题的基本概念,检验它们的能力,并增强用户对不同规模的大型语言模型在输入不同提示时行为的理解。我们在LLaMA-1/2(7B、13B和70B)、GPT-3.5/4上进行了大量实验,以验证所提原则对指令和提示设计的有效性。我们希望这项工作为从事大型语言模型提示研究的研究人员提供更好的指导。项目页面位于https://github.com/VILA-Lab/ATLAS。
随着人工智能代理和元宇宙的出现,定制和富有表现力的3D角色需求不断增长,但使用传统计算机图形工具创建3D角色是一项复杂且耗时的任务。为了解决这些挑战,我们提出了一个名为Make-A-Character(Mach)的用户友好框架,用于根据文本描述创建逼真的3D头像。该框架利用大型语言和视觉模型的能力进行文本意图理解和中间图像生成,然后经过一系列面向人类的视觉感知和3D生成模块。我们的系统为用户提供了一种直观的方法,可以在2分钟内打造可控、逼真、完整的3D角色,满足其期望,同时还能轻松与现有计算机图形流程集成,实现动态表现。欲了解更多信息,请访问项目页面:https://human3daigc.github.io/MACH/。
基于参考的对象分割任务,即指代图像分割(RIS)、少样本图像分割(FSS)、指代视频对象分割(RVOS)和视频对象分割(VOS),旨在利用语言或标注掩模作为参考来分割特定对象。尽管各自领域取得了显著进展,但当前方法是专门针对特定任务设计和发展的,朝着不同方向发展,这阻碍了这些任务的多任务能力的激活。在这项工作中,我们结束当前的碎片化局面,提出UniRef++来统一这四个基于参考的对象分割任务,采用单一架构。我们方法的核心是提出的UniFusion模块,用于执行多路融合,以处理不同任务相对于它们指定的参考的情况。然后采用统一的Transformer架构来实现实例级别的分割。通过统一的设计,UniRef++可以在广泛的基准上进行联合训练,并可以通过指定相应的参考在运行时灵活完成多个任务。我们在各种基准上评估了我们的统一模型。大量实验结果表明,我们提出的UniRef++在RIS和RVOS上实现了最先进的性能,并且在FSS和VOS上与参数共享网络具有竞争力。此外,我们展示了提出的UniFusion模块可以轻松地整合到当前先进的基础模型SAM中,并通过参数高效的微调获得令人满意的结果。代码和模型可在https://github.com/FoundationVision/UniRef找到。
多模式大型语言模型(MLLMs)这一快速发展的领域正处于人工智能中整合语言和视觉处理的前沿。本文提出了对两个开创性模型进行深入比较研究:谷歌的 Gemini 和 OpenAI 的 GPT-4V(ision)。我们的研究涉及对这两个模型在关键维度上的多方面评估,如视觉-语言能力、与人类的互动、时间理解,以及智力和情感商数的评估。我们分析的核心是探讨每个模型独特的视觉理解能力。我们进行了一系列结构化实验,评估它们在各种工业应用场景中的表现,为它们的实际效用提供了全面的视角。我们不仅进行直接性能比较,还包括在提示和场景中进行调整,以确保平衡和公正的分析。我们的发现阐明了两个模型的独特优势和特色。GPT-4V 以其精准和简洁的回答脱颖而出,而 Gemini 则擅长提供详细、广泛的答案,并附带相关的图像和链接。这些理解不仅揭示了 Gemini 和 GPT-4V 的比较优点,还强调了多模式基础模型不断发展的格局,为这一领域的未来进步铺平道路。在比较之后,我们尝试通过结合这两个模型来取得更好的结果。最后,我们要对 GPT-4V 和 Gemini 团队的开创性贡献表示深深的感激。我们也要感谢杨等人在《黎明》中提出的全面定性分析。这项工作通过其大量的图像样本、提示和与 GPT-4V 相关的结果,为我们的分析提供了基础依据。
音频是我们生活中不可或缺的一部分,但要创建它通常需要专业知识并且耗时。在过去的一年中,研究界在推动大规模音频生成模型性能方面取得了巨大进展,针对单一模态(语音、声音或音乐),通过采用更强大的生成模型和扩展数据。然而,这些模型在多个方面缺乏可控性:语音生成模型无法根据文本描述合成新颖风格,并且在领域覆盖方面存在限制,比如室外环境;声音生成模型仅基于描述(如“一个人在说话”)提供粗粒度控制,只会生成含糊不清的人声。本文提出了Audiobox,这是一个基于流匹配的统一模型,能够生成各种音频模态。我们设计了基于描述和基于示例的提示,以增强可控性并统一语音和声音生成范式。在生成语音时,我们允许独立控制文本转录、声音和其他音频风格。为了提高模型在有限标签下的泛化能力,我们采用了自监督填充目标,在大量未标记音频上进行预训练。Audiobox在语音和声音生成方面树立了新的基准(在Librispeech上进行零样本TTS时相似度达到0.745;在AudioCaps上进行文本转声音时FAD为0.77),并为生成具有新颖声音和声学风格的音频开辟了新方法。我们进一步整合了Bespoke Solvers,相较于流匹配的默认ODE求解器,生成速度提高了超过25倍,而在多项任务上性能没有损失。我们的演示可在https://audiobox.metademolab.com/ 上查看。
人类生活在一个三维世界中,通常使用自然语言与三维场景进行交互。最近,建模三维语言场以支持在三维空间中进行开放式语言查询引起了越来越多的关注。本文介绍了LangSplat,它构建了一个三维语言场,实现了在三维空间内精确高效的开放词汇查询。与现有方法将CLIP语言嵌入基于NeRF模型的方法不同,LangSplat通过利用一系列三维高斯函数,每个高斯函数编码自CLIP中提炼的语言特征来代表语言场,推动了该领域的发展。通过采用基于瓦片的喷溅技术来渲染语言特征,我们避开了NeRF中固有的昂贵渲染过程。LangSplat不是直接学习CLIP嵌入,而是首先训练一个基于场景的语言自动编码器,然后在特定于场景的潜在空间上学习语言特征,从而减轻了显式建模所带来的大量内存需求。现有方法在处理不精确和模糊的三维语言场时遇到困难,无法区分物体之间的清晰边界。我们深入探讨了这个问题,并提出使用SAM学习分层语义,从而消除了在不同尺度上广泛查询语言场和DINO特征的规范化的需求。对开放词汇三维物体定位和语义分割的大量实验表明,LangSplat在很大程度上优于之前的最先进方法LERF。值得注意的是,LangSplat非常高效,在分辨率为1440乘以1080时,与LERF相比实现了{\speed}倍的加速。我们强烈建议读者查看我们的视频结果,网址为https://langsplat.github.io。
基于扩散的文本到视频生成在过去一年取得了令人瞩目的进展,但仍落后于文本到图像生成。其中一个关键原因是公开可用数据规模有限(例如,WebVid10M中有1000万个视频文本对,而LAION中有50亿个图像文本对),考虑到视频字幕制作的高成本。相比之下,从YouTube等视频平台收集未标记的视频片段可能更容易。受此启发,我们提出了一种新颖的文本到视频生成框架,称为TF-T2V,可以直接学习无文本视频。其背后的原理是将文本解码过程与时间建模过程分开。为此,我们采用内容分支和动作分支,共同优化并共享权重。沿着这样的流程,我们研究了通过将训练集规模加倍(即仅视频的WebVid10M)与一些随机收集的无文本视频相结合的效果,并鼓舞地观察到性能的提升(FID从9.67提高到8.19,FVD从484降低到441),展示了我们方法的可扩展性。我们还发现,在重新引入一些文本标签进行训练后,我们的模型可以持续获得性能提升(FID从8.19降低到7.64,FVD从441降低到366)。最后,我们验证了我们的理念在本地文本到视频生成和组合视频合成范式上的有效性和泛化能力。代码和模型将在https://tf-t2v.github.io/ 上公开提供。
最近在单图像三维生成方面取得的进展突显了多视角一致性的重要性,利用在互联网规模图像上预训练的大规模扩散模型中的三维先验知识。然而,在研究领域中,由于将二维图像转换为三维内容存在的模糊性,新视角多样性的方面仍未得到充分探讨,其中可能出现众多潜在形状。在这里,我们旨在通过同时解决一致性和多样性来填补这一研究空白。然而,在这两个方面之间取得平衡面临着相当大的挑战,因为它们固有地存在权衡。本文介绍了HarmonyView,这是一种简单而有效的扩散采样技术,擅长分解单图像三维生成中的两个复杂方面:一致性和多样性。这种方法为在采样过程中更细致地探索这两个关键维度铺平了道路。此外,我们提出了一种基于CLIP图像和文本编码器的新评估指标,全面评估生成视图的多样性,这与人类评估者的判断密切相关。在实验中,HarmonyView实现了一种和谐的平衡,展示了在一致性和多样性方面的双赢局面。
商业和开源扩散模型(DMs)在文本到图像生成中的普遍使用促使风险缓解,以防止不良行为。学术界现有的概念擦除方法都基于完全参数或基于规范的微调,我们观察到以下问题:1)生成向侵蚀的变化:目标消除期间的参数漂移导致变化和潜在变形在所有生成中,甚至以不同程度侵蚀其他概念,这在多概念擦除时更为明显;2)转移能力不足和部署效率低:先前的特定于模型的擦除阻碍了概念的灵活组合和向其他模型的无需训练的转移,导致线性成本随着部署场景的增加而增长。为实现非侵入性、精确、可定制和可转移的消除,我们将我们的擦除框架基于一维适配器,一次从大多数DMs中擦除多个概念,适用于各种擦除应用。概念半透膜结构被注入为膜(SPM)到任何DM中学习有针对性的擦除,同时通过一种新颖的潜在锚定微调策略有效地缓解了变化和侵蚀现象。一旦获得,SPMs可以灵活组合并即插即用于其他DMs,无需特定的重新调整,实现及时和高效地适应各种情景。在生成过程中,我们的促进传输机制动态调节每个SPM的渗透性以响应不同的输入提示,进一步减少对其他概念的影响。在大约40个概念、7个DMs和4个擦除应用中的定量和定性结果已经证明了SPM的卓越擦除效果。我们的代码和预调整的SPMs将在项目页面https://lyumengyao.github.io/projects/spm 上提供。
大型语言模型(LLMs)通过提示工程展现出新兴的上下文学习能力。大规模生成模型的最新进展进一步扩大了它们在真实世界语言应用中的使用。然而,在自然语言理解和问答中改善LLMs的泛化能力和事实性的关键挑战仍未得到充分探讨。虽然先前的上下文学习研究侧重于增强模型以符合用户的特定指令和质量期望,并避免不良输出,但几乎没有研究探讨使用任务特定的微调语言模型(SLMs)在推理阶段改善LLMs的上下文学习。我们的主要贡献在于建立了一个简单而有效的框架,增强了LLMs的可靠性,具体体现在:1)泛化超出分布数据,2)阐明LLMs如何受益于判别模型,3)减少生成任务中的幻觉。通过我们提出的插件方法,Llama 2和ChatGPT的增强版本在泛化能力和事实性方面超越了它们的原始版本。我们提供了一套全面的资源,包括16个策划数据集、提示、模型检查点和LLMs在9个不同任务中的输出。我们的实证分析揭示了将判别模型纳入LLMs的优势,并突显了我们方法在促进更可靠的LLMs方面的潜力。
从单视角视频重建人体在虚拟现实领域发挥着关键作用。一种普遍的应用场景需要快速重建高保真度的3D数字人类,同时确保实时渲染和交互。现有方法通常难以同时满足这两个要求。本文介绍了Human101,这是一个新颖的框架,能够通过在100秒内训练3D高斯模型并以100+ FPS渲染,生成高保真度的动态3D人体重建。我们的方法利用了3D高斯飘落的优势,提供了对3D人体的明确高效表示。Human101与基于NeRF的先前流程有所不同,它巧妙地应用了以人为中心的前向高斯动画方法来变形3D高斯模型的参数,从而提高了渲染速度(即以惊人的60+ FPS渲染1024分辨率图像,以及以100+ FPS渲染512分辨率图像)。实验结果表明,我们的方法明显超越了当前方法,帧速率增加了多达10倍,并提供了可比较或更优质的渲染质量。代码和演示将在https://github.com/longxiang-ai/Human101发布。