每日精选AI研究论文及翻译
基于大型语言模型(LLM)的智能代理的集成和部署存在一系列挑战,这些挑战影响了它们的效率和功效。其中问题包括代理请求在LLM上的次优调度和资源分配、在代理和LLM之间交互时保持上下文的困难,以及整合具有不同能力和专业化的异构代理所固有的复杂性。代理数量和复杂性的快速增加进一步加剧了这些问题,通常导致资源瓶颈和资源利用的次优化。受到这些挑战的启发,本文提出了AIOS,即一个嵌入大型语言模型到操作系统(OS)中的LLM代理操作系统。具体来说,AIOS旨在优化资源分配、促进代理之间的上下文切换、实现代理的并发执行、为代理提供工具服务,并维护代理的访问控制。我们介绍了这种操作系统的架构,概述了它旨在解决的核心挑战,并提供了AIOS的基本设计和实现。我们对多个代理的并发执行进行的实验表明了我们AIOS模块的可靠性和效率。通过这一工作,我们旨在不仅提高LLM代理的性能和效率,还为未来更好地发展和部署AIOS生态系统开创先河。该项目在https://github.com/agiresearch/AIOS 上开源。
文本到图像扩散模型具有前所未有的能力生成多样且高质量的图像。然而,它们通常难以忠实地捕捉包含多个主题的复杂输入提示的预期语义。最近,引入了许多布局到图像的扩展,以提高用户控制能力,旨在定位由特定标记表示的主题。然而,这些方法在处理多个语义或视觉上相似的主题时,通常会产生语义不准确的图像。在这项工作中,我们研究并分析了这些限制的原因。我们的探索揭示了主要问题源于去噪过程中主题之间无意的语义泄漏。这种泄漏归因于扩散模型的注意力层,这些层倾向于混合不同主题的视觉特征。为了解决这些问题,我们引入了有界注意力,这是一种无需训练的方法,用于限制采样过程中的信息流。有界注意力可以防止主题之间的有害泄漏,并促使生成过程引导每个主题的独特性,即使在复杂的多主题条件下也是如此。通过广泛的实验,我们证明了我们的方法增强了生成与给定提示和布局更加符合的多个主题。
本文介绍了FlashFace,这是一个实用工具,用户可以通过提供一个或几个参考面部图像和文本提示,即时轻松地个性化自己的照片。我们的方法与现有的人类照片定制方法有所区别,具有更高保真度的身份保留和更好的指导遵循,这得益于两个微妙的设计。首先,我们将面部身份编码为一系列特征图,而不是像以往那样一个图像标记,这使模型能够保留参考面部的更多细节(如疤痕、纹身和面部形状)。其次,我们引入了一种解耦集成策略,在文本到图像生成过程中平衡文本和图像引导,缓解参考面部和文本提示之间的冲突(例如,将成年人个性化为“儿童”或“老年人”)。大量实验结果证明了我们的方法在各种应用中的有效性,包括人类图像个性化、根据语言提示进行面部交换,将虚拟角色变成真实人物等。项目页面:https://jshilong.github.io/flashface-page。
最近扩散模型的进展使其成为图像生成的前沿。尽管扩散模型性能优越,但也存在一些缺点;它们具有复杂的架构和大量的计算需求,导致由于迭代采样过程而产生显著的延迟。为了缓解这些限制,我们引入了一种双重方法,包括模型小型化和减少采样步骤,旨在显著降低模型延迟。我们的方法利用知识蒸馏来简化U-Net和图像解码器的架构,并引入一种创新的一步DM训练技术,利用特征匹配和分数蒸馏。我们提出了两个模型,SDXS-512和SDXS-1024,在单个GPU上分别实现了约100 FPS的推理速度(比SD v1.5快30倍)和30 FP的速度(比SDXL快60倍)。此外,我们的训练方法在图像条件控制方面具有很好的应用前景,有助于实现高效的图像到图像的转换。
对高性能大型语言模型(LLMs)进行压缩已成为资源高效推理的首选策略。尽管最先进的压缩方法在保留良好任务性能方面取得了令人瞩目的进展,但在安全性和可信度方面的潜在风险却被大多数忽视。本研究首次对三(3)种主要LLMs使用五(5)种最先进的压缩技术在八(8)个可信度维度上进行了彻底评估。我们的实验突显了压缩与可信度之间复杂的相互作用,揭示了一些有趣的模式。我们发现,目前量化比剪枝更有效地实现了效率和可信度的同时提升。例如,一个4位量化模型保留了其原始对应模型的可信度,但模型剪枝显著降低了可信度,即使在50%的稀疏度下也是如此。此外,在适度的位范围内使用量化可能会意外地提高某些可信度维度,如道德和公平性。相反,将量化极端化至非常低的位级(3位)往往会显著降低可信度。这种增加的风险不能仅通过查看良好性能来揭示,因此实践中需要进行全面的可信度评估。这些发现为在LLMs中同时实现高效用、效率和可信度提供了实用建议。模型和代码可在https://decoding-comp-trust.github.io/ 上获得。
我们介绍了RakutenAI-7B,这是一套面向日本的大型语言模型,它在日语LM Harness基准测试中表现最佳,超过了所有开源的7B模型。除了基础模型外,我们还发布了经过指导和聊天微调的模型,分别是RakutenAI-7B-instruct和RakutenAI-7B-chat,均采用Apache 2.0许可证。
最近在文本到视频生成领域取得的进展展示了强大扩散模型的实用性。然而,当将扩散模型塑造成为动画静态图像(即图像到视频生成)时,这个问题并不是微不足道的。困难源自于后续动画帧的扩散过程不仅应保持与给定图像的忠实对齐,还应在相邻帧之间追求时间上的连贯性。为了缓解这一问题,我们提出了TRIP,这是一种新的图像到视频扩散范式,依赖于从静态图像中导出的图像噪声先验,共同触发帧间关系推理并通过时间残差学习简化连贯的时间建模。在技术上,图像噪声先验首先通过基于静态图像和加噪视频潜在编码的单步向后扩散过程获得。接下来,TRIP执行一种类似残差的双路径方案进行噪声预测:1)一条快捷路径,直接将图像噪声先验作为每帧的参考噪声,以增强第一帧与后续帧之间的对齐;2)一条残差路径,利用3D-UNet覆盖加噪视频和静态图像潜在编码,实现帧间关系推理,从而简化每帧残差噪声的学习。此外,每帧的参考和残差噪声通过注意机制动态合并,用于最终视频生成。在WebVid-10M、DTDB和MSR-VTT数据集上进行的大量实验表明了我们的TRIP在图像到视频生成中的有效性。请访问我们的项目页面https://trip-i2v.github.io/TRIP/。
最近关于文本到3D生成的创新采用了得分蒸馏采样(SDS),这使得可以通过直接从2D扩散模型中蒸馏先前知识,实现对隐式3D模型(NeRF)的零样本学习。然而,当前基于SDS的模型仍然在复杂的文本提示方面存在困难,并且通常导致失真的3D模型,具有不真实的纹理或交叉视图不一致问题。在这项工作中,我们引入了一种新颖的视觉提示引导文本到3D扩散模型(VP3D),它明确释放了2D视觉提示中的视觉外观知识,以增强文本到3D生成。VP3D不仅仅监督SDS与文本提示,而是首先利用2D扩散模型从输入文本生成高质量图像,随后将其作为视觉提示,以明确的视觉外观加强SDS优化。同时,我们将SDS优化与额外的可微分奖励函数相结合,鼓励渲染3D模型的图像更好地与2D视觉提示视觉对齐,并在语义上与文本提示匹配。通过大量实验,我们展示了我们的VP3D中的2D视觉提示显着简化了3D模型的视觉外观学习,从而导致更高的视觉保真度和更详细的纹理。当用给定的参考图像替换自动生成的视觉提示时,VP3D能够触发一项新的样式化文本到3D生成任务。我们的项目页面位于https://vp3d-cvpr24.github.io。