每日精选AI研究论文及翻译
我们引入了深度上采样(DUS),这是一种新颖的技术,可以以简单的方式高效有效地提升基础LLM。与专家混合模型(MoE)相比,DUS不需要对训练和推断进行复杂的更改。利用DUS,我们构建了SOLAR 10.7B,一个具有107亿参数的大型语言模型(LLM),在各种自然语言处理(NLP)任务中展现出卓越的性能。比较评估显示,SOLAR 10.7B的表现优于现有的开源预训练LLM,如Llama 2和Mistral 7B。此外,我们还推出了SOLAR 10.7B-Instruct,这是一个针对指令遵循能力进行微调的变体,超越了Mixtral-8x7B。SOLAR 10.7B在Apache 2.0许可下公开提供,促进了LLM领域的广泛访问和应用。
本文介绍了26条指导原则,旨在简化查询和提示大型语言模型的过程。我们的目标是简化为各种规模的大型语言模型制定问题的基本概念,检验它们的能力,并增强用户对不同规模的大型语言模型在输入不同提示时行为的理解。我们在LLaMA-1/2(7B、13B和70B)、GPT-3.5/4上进行了大量实验,以验证所提原则对指令和提示设计的有效性。我们希望这项工作为从事大型语言模型提示研究的研究人员提供更好的指导。项目页面位于https://github.com/VILA-Lab/ATLAS。
随着AI智能体与元宇宙的兴起,市场对定制化、高表现力3D角色的需求日益增长,但使用传统计算机图形工具创建3D角色仍是复杂且耗时的任务。为应对这些挑战,我们提出名为Make-A-Character(简称Mach)的易用框架,能够通过文本描述生成逼真的3D虚拟形象。该框架依托大语言模型与视觉模型实现文本意图理解与中间图像生成,继而通过一系列面向人类的视觉感知与3D生成模块,为用户提供直观的角色创作方案。我们的系统支持用户在2分钟内制作出符合预期、可操控且细节完备的逼真3D角色,同时能便捷接入现有CG工作流以实现动态表情表现。更多信息请访问项目页面:https://human3daigc.github.io/MACH/。
基于参考的物体分割任务,包括指代图像分割(RIS)、小样本图像分割(FSS)、指代视频对象分割(RVOS)和视频对象分割(VOS),旨在通过语言或标注掩码作为参考来分割特定对象。尽管各个领域已取得显著进展,但现有方法均针对特定任务设计且发展方向各异,这阻碍了这些任务多任务能力的激活。本研究旨在打破当前碎片化局面,提出UniRef++框架,通过单一架构统一上述四种基于参考的物体分割任务。该方案的核心是提出的UniFusion模块,该模块通过多模态融合机制处理不同任务对应的参考信息,并采用统一的Transformer架构实现实例级分割。通过这种一体化设计,UniRef++能够在广泛基准数据集上进行联合训练,并在运行时通过指定相应参考灵活完成多任务。我们在多个基准测试上评估了统一模型,大量实验结果表明:UniRef++在RIS和RVOS任务上达到最先进性能,在FSS和VOS任务上使用参数共享网络也能保持竞争力。此外,我们证明所提出的UniFusion模块可轻松集成到当前先进的基础模型SAM中,通过参数高效微调即可获得理想效果。代码和模型已开源:https://github.com/FoundationVision/UniRef。
多模式大型语言模型(MLLMs)这一快速发展的领域正处于人工智能中整合语言和视觉处理的前沿。本文提出了对两个开创性模型进行深入比较研究:谷歌的 Gemini 和 OpenAI 的 GPT-4V(ision)。我们的研究涉及对这两个模型在关键维度上的多方面评估,如视觉-语言能力、与人类的互动、时间理解,以及智力和情感商数的评估。我们分析的核心是探讨每个模型独特的视觉理解能力。我们进行了一系列结构化实验,评估它们在各种工业应用场景中的表现,为它们的实际效用提供了全面的视角。我们不仅进行直接性能比较,还包括在提示和场景中进行调整,以确保平衡和公正的分析。我们的发现阐明了两个模型的独特优势和特色。GPT-4V 以其精准和简洁的回答脱颖而出,而 Gemini 则擅长提供详细、广泛的答案,并附带相关的图像和链接。这些理解不仅揭示了 Gemini 和 GPT-4V 的比较优点,还强调了多模式基础模型不断发展的格局,为这一领域的未来进步铺平道路。在比较之后,我们尝试通过结合这两个模型来取得更好的结果。最后,我们要对 GPT-4V 和 Gemini 团队的开创性贡献表示深深的感激。我们也要感谢杨等人在《黎明》中提出的全面定性分析。这项工作通过其大量的图像样本、提示和与 GPT-4V 相关的结果,为我们的分析提供了基础依据。
音频是我们生活中不可或缺的一部分,但要创建它通常需要专业知识并且耗时。在过去的一年中,研究界在推动大规模音频生成模型性能方面取得了巨大进展,针对单一模态(语音、声音或音乐),通过采用更强大的生成模型和扩展数据。然而,这些模型在多个方面缺乏可控性:语音生成模型无法根据文本描述合成新颖风格,并且在领域覆盖方面存在限制,比如室外环境;声音生成模型仅基于描述(如“一个人在说话”)提供粗粒度控制,只会生成含糊不清的人声。本文提出了Audiobox,这是一个基于流匹配的统一模型,能够生成各种音频模态。我们设计了基于描述和基于示例的提示,以增强可控性并统一语音和声音生成范式。在生成语音时,我们允许独立控制文本转录、声音和其他音频风格。为了提高模型在有限标签下的泛化能力,我们采用了自监督填充目标,在大量未标记音频上进行预训练。Audiobox在语音和声音生成方面树立了新的基准(在Librispeech上进行零样本TTS时相似度达到0.745;在AudioCaps上进行文本转声音时FAD为0.77),并为生成具有新颖声音和声学风格的音频开辟了新方法。我们进一步整合了Bespoke Solvers,相较于流匹配的默认ODE求解器,生成速度提高了超过25倍,而在多项任务上性能没有损失。我们的演示可在https://audiobox.metademolab.com/ 上查看。
人类生活在一个三维世界中,通常使用自然语言与三维场景进行交互。最近,建模三维语言场以支持在三维空间中进行开放式语言查询引起了越来越多的关注。本文介绍了LangSplat,它构建了一个三维语言场,实现了在三维空间内精确高效的开放词汇查询。与现有方法将CLIP语言嵌入基于NeRF模型的方法不同,LangSplat通过利用一系列三维高斯函数,每个高斯函数编码自CLIP中提炼的语言特征来代表语言场,推动了该领域的发展。通过采用基于瓦片的喷溅技术来渲染语言特征,我们避开了NeRF中固有的昂贵渲染过程。LangSplat不是直接学习CLIP嵌入,而是首先训练一个基于场景的语言自动编码器,然后在特定于场景的潜在空间上学习语言特征,从而减轻了显式建模所带来的大量内存需求。现有方法在处理不精确和模糊的三维语言场时遇到困难,无法区分物体之间的清晰边界。我们深入探讨了这个问题,并提出使用SAM学习分层语义,从而消除了在不同尺度上广泛查询语言场和DINO特征的规范化的需求。对开放词汇三维物体定位和语义分割的大量实验表明,LangSplat在很大程度上优于之前的最先进方法LERF。值得注意的是,LangSplat非常高效,在分辨率为1440乘以1080时,与LERF相比实现了{\speed}倍的加速。我们强烈建议读者查看我们的视频结果,网址为https://langsplat.github.io。
基于扩散的文本到视频生成在过去一年取得了令人瞩目的进展,但仍落后于文本到图像生成。其中一个关键原因是公开可用数据规模有限(例如,WebVid10M中有1000万个视频文本对,而LAION中有50亿个图像文本对),考虑到视频字幕制作的高成本。相比之下,从YouTube等视频平台收集未标记的视频片段可能更容易。受此启发,我们提出了一种新颖的文本到视频生成框架,称为TF-T2V,可以直接学习无文本视频。其背后的原理是将文本解码过程与时间建模过程分开。为此,我们采用内容分支和动作分支,共同优化并共享权重。沿着这样的流程,我们研究了通过将训练集规模加倍(即仅视频的WebVid10M)与一些随机收集的无文本视频相结合的效果,并鼓舞地观察到性能的提升(FID从9.67提高到8.19,FVD从484降低到441),展示了我们方法的可扩展性。我们还发现,在重新引入一些文本标签进行训练后,我们的模型可以持续获得性能提升(FID从8.19降低到7.64,FVD从441降低到366)。最后,我们验证了我们的理念在本地文本到视频生成和组合视频合成范式上的有效性和泛化能力。代码和模型将在https://tf-t2v.github.io/ 上公开提供。
最近在单图像三维生成方面取得的进展突显了多视角一致性的重要性,利用在互联网规模图像上预训练的大规模扩散模型中的三维先验知识。然而,在研究领域中,由于将二维图像转换为三维内容存在的模糊性,新视角多样性的方面仍未得到充分探讨,其中可能出现众多潜在形状。在这里,我们旨在通过同时解决一致性和多样性来填补这一研究空白。然而,在这两个方面之间取得平衡面临着相当大的挑战,因为它们固有地存在权衡。本文介绍了HarmonyView,这是一种简单而有效的扩散采样技术,擅长分解单图像三维生成中的两个复杂方面:一致性和多样性。这种方法为在采样过程中更细致地探索这两个关键维度铺平了道路。此外,我们提出了一种基于CLIP图像和文本编码器的新评估指标,全面评估生成视图的多样性,这与人类评估者的判断密切相关。在实验中,HarmonyView实现了一种和谐的平衡,展示了在一致性和多样性方面的双赢局面。
基于单目视频的人体重建在虚拟现实领域具有关键作用。当前主流应用场景要求在保证实时渲染与交互的同时,快速重建高保真三维数字人体。现有方法往往难以同时满足这两项需求。本文提出Human101创新框架,能够从单目视频中通过100秒训练3D高斯模型,实现100+ FPS的高保真动态三维人体重建。该方法充分发挥3D高斯泼溅技术的优势,以显式高效的方式表征三维人体。与基于神经辐射场的传统流程不同,Human101创新性地采用以人为中心的前向高斯形变动画技术,通过变形3D高斯参数显著提升渲染速度(即可实现1024分辨率图像60+ FPS、512分辨率图像100+ FPS的渲染性能)。实验结果表明,本方法在渲染质量相当或更优的前提下,帧率较现有技术提升高达10倍。代码与演示内容将发布于https://github.com/longxiang-ai/Human101。
当前商业及开源扩散模型在文本到图像生成领域的广泛应用,促使人们需要采取风险规避措施以防止不良生成行为。学术界现有的概念擦除方法均基于全参数或特定规范微调,我们从中观察到以下问题:1)生成结果趋向异化:目标消除过程中的参数漂移会导致所有生成内容发生改变甚至畸变,不同程度地侵蚀其他概念,这种现象在多概念擦除时更为明显;2)迁移障碍与部署低效:既往模型特定的擦除方式阻碍了概念的灵活组合及向其他模型的免训练迁移,导致部署场景增加时成本呈线性增长。为实现非侵入式、精准可定制且可迁移的概念消除,我们基于一维适配器构建擦除框架,可在多样化擦除应用中一次性从多数扩散模型中消除多个概念。通过将概念半透膜结构作为膜层注入任意扩散模型,在实现目标概念擦除的同时,采用新颖的潜在锚定微调策略有效缓解生成异化与概念侵蚀现象。所得半透膜既可灵活组合,也能即插即用地迁移至其他扩散模型而无需专门重新调参,从而实现对多样化场景的即时高效适配。在生成过程中,我们的促进传输机制会动态调节各半透膜的渗透性以响应不同输入提示,进一步降低对其他概念的影响。在约40个概念、7种扩散模型和4类擦除应用上的定量与定性实验表明,半透膜结构具有卓越的擦除性能。我们的代码与预训练半透膜将在项目页面https://lyumengyao.github.io/projects/spm开放获取。
大型语言模型(LLMs)通过提示工程展现出新兴的上下文学习能力。大规模生成模型的最新进展进一步扩大了它们在真实世界语言应用中的使用。然而,在自然语言理解和问答中改善LLMs的泛化能力和事实性的关键挑战仍未得到充分探讨。虽然先前的上下文学习研究侧重于增强模型以符合用户的特定指令和质量期望,并避免不良输出,但几乎没有研究探讨使用任务特定的微调语言模型(SLMs)在推理阶段改善LLMs的上下文学习。我们的主要贡献在于建立了一个简单而有效的框架,增强了LLMs的可靠性,具体体现在:1)泛化超出分布数据,2)阐明LLMs如何受益于判别模型,3)减少生成任务中的幻觉。通过我们提出的插件方法,Llama 2和ChatGPT的增强版本在泛化能力和事实性方面超越了它们的原始版本。我们提供了一套全面的资源,包括16个策划数据集、提示、模型检查点和LLMs在9个不同任务中的输出。我们的实证分析揭示了将判别模型纳入LLMs的优势,并突显了我们方法在促进更可靠的LLMs方面的潜力。