每日精选AI研究论文及翻译
个性化文本到图像生成已经成为一种强大且备受追捧的工具,使用户能够基于其特定概念和提示创建定制图像。然而,现有的个性化方法面临诸多挑战,包括长时间调整、大量存储需求、每个身份需要多个输入图像以及在保留身份和可编辑性方面存在限制。为了解决这些障碍,我们提出了PhotoVerse,这是一种创新方法,它在文本和图像领域都融入了双分支调节机制,有效控制图像生成过程。此外,我们引入了面部身份损失作为一种新颖组件,以增强训练过程中对身份的保留。值得注意的是,我们提出的PhotoVerse 消除了测试时间调整的需要,仅依赖于目标身份的单张面部照片,大大降低了与图像生成相关的资源成本。经过单一训练阶段,我们的方法能够在几秒钟内生成高质量图像。此外,我们的方法可以生成包含各种场景和风格的多样化图像。广泛的评估证明了我们的方法的卓越性能,实现了保留身份和促进可编辑性的双重目标。项目页面:https://photoverse2d.github.io/
扩散模型以其出色的质量和创造力彻底改变了文本到图像生成。然而,其多步采样过程被认为速度较慢,通常需要数十个推断步骤才能获得令人满意的结果。先前试图通过蒸馏来提高其采样速度并减少计算成本的尝试未能实现功能齐全的一步模型。在本文中,我们探讨了一种名为Rectified Flow的最新方法,迄今仅应用于小型数据集。Rectified Flow的核心在于其重新流程,该过程将概率流的轨迹拉直,改进了噪声和图像之间的耦合,并通过学生模型促进了蒸馏过程。我们提出了一种新颖的文本条件管道,将稳定扩散(SD)转化为超快速一步模型,在其中我们发现重新流在改善噪声和图像之间的分配中起到了关键作用。利用我们的新管道,我们创造了据我们所知首个具有SD级图像质量的一步扩散式文本到图像生成器,其在MS COCO 2017-5k上实现了23.3的FID(Frechet Inception Distance),明显超过了先前的最先进技术,渐进蒸馏,FID从37.2提高到23.3。通过利用一个具有17亿参数的扩展网络,我们进一步将FID提高到22.4。我们将我们的一步模型称为InstaFlow。在MS COCO 2014-30k上,InstaFlow在仅0.09秒内获得了13.1的FID,是小于0.1秒范围内最佳的,胜过了最近的StyleGAN-T(在0.1秒内为13.9)。值得注意的是,InstaFlow的训练仅耗费199个A100 GPU天。项目页面:https://github.com/gnobitab/InstaFlow。
为了高效地为大型语言模型(LLM)提供高吞吐量服务,需要一次性批量处理足够多的请求。然而,现有系统存在困难,因为每个请求的键-值缓存(KV缓存)内存庞大且动态增长和收缩。当管理效率低下时,这种内存可能会因碎片化和冗余复制而被大量浪费,从而限制批处理大小。为了解决这个问题,我们提出了PagedAttention,这是一种受经典虚拟内存和分页技术启发的注意力算法,类似于操作系统中的技术。在此基础上,我们构建了vLLM,这是一个LLM服务系统,实现了(1)KV缓存内存几乎零浪费,以及(2)在请求内部和跨请求之间灵活共享KV缓存,进一步减少内存使用。我们的评估显示,与FasterTransformer和Orca等最先进系统相比,vLLM将流行的LLM的吞吐量提高了2-4倍,且具有相同水平的延迟。随着序列更长、模型更大和解码算法更复杂,改进效果更加显著。vLLM的源代码可在以下网址公开获取:https://github.com/vllm-project/vllm
大型语言模型在许多人类语言任务中表现出色,但在学术天文学等高度专业领域通常表现不佳。为了弥合这一差距,我们引入了AstroLLaMA,这是一个从LLaMA-2微调而来的70亿参数模型,使用了来自arXiv的30万多个天文学摘要。AstroLLaMA经过优化,适用于传统因果语言建模,其困惑度比Llama-2低30%,显示出明显的领域适应能力。尽管参数明显较少,我们的模型生成的文本完成和嵌入提取比最先进的基础模型更具洞察力和科学相关性。AstroLLaMA是一个强大的、面向特定领域的模型,具有广泛的微调潜力。其公开发布旨在推动以天文学为重点的研究,包括自动论文摘要和对话代理开发。
灵巧操控一直是机器人领域的长期挑战。虽然机器学习技术显示出一些潜力,但目前的结果主要局限于模拟环境。这在很大程度上归因于缺乏合适的硬件。本文介绍了LEAP Hand,这是一种用于机器学习研究的低成本灵巧且类人化的手。与先前的手相比,LEAP Hand具有一种新颖的运动学结构,可以实现最大程度的灵活性,无论手指姿势如何。LEAP Hand成本低廉,可以在4小时内使用现成零件组装,成本为2000美元。它能够持续施加大扭矩。我们展示了LEAP Hand可以用于在现实世界中执行多项操控任务,从视觉远程操作到从被动视频数据和Sim2Real中学习。LEAP Hand在所有实验中明显优于其最接近的竞争对手Allegro Hand,而成本仅为其1/8。我们在网站https://leap-hand.github.io/上发布了详细的组装说明、Sim2Real流程和一个带有有用API的开发平台。
为了学习可动和逼真的人类化身,人们做出了巨大的努力。为此,人们深入研究了显式和隐式的三维表示,以便对整个人体(例如身体、服装、面部和头发)进行全面建模和捕捉,但是由于人类化身的不同部分具有不同的建模需求,因此这两种表示都不是最佳选择。例如,网格通常不适合用于建模服装和头发。受此启发,我们提出了“分解化人类化身”(DELTA),它使用混合显式-隐式三维表示对人类进行建模。DELTA以单目RGB视频作为输入,并生成具有独立身体和服装/头发层的人类化身。具体而言,我们展示了DELTA的两个重要应用。在第一个应用中,我们考虑了人体和服装之间的解耦,而在第二个应用中,我们解耦了面部和头发。为此,DELTA使用基于网格的参数化三维模型表示身体或面部,而使用隐式神经辐射场表示服装或头发。为实现这一目标,我们设计了一个端到端可微分渲染器,将网格整合到体积渲染中,使DELTA能够直接从单目视频中学习,无需任何三维监督。最后,我们展示了如何轻松地将这两个应用结合起来,以建模全身化身,使头发、面部、身体和服装能够完全解耦但同时进行渲染。这种解耦使头发和服装能够转移到任意身体形状上。我们通过展示DELTA在解耦重建、虚拟试穿服装和发型转移等方面的出色表现来实证验证了DELTA解耦的有效性。为促进未来研究,我们还发布了一个用于研究混合人类化身建模的开源流程。