每日精选AI研究论文及翻译
潜在一致性模型(LCMs)在加速文本到图像生成任务中取得了令人瞩目的表现,能够在最少的推理步骤中生成高质量图像。LCMs源自预训练的潜在扩散模型(LDMs),仅需约32个A100 GPU训练小时。本报告进一步扩展了LCMs的潜力,主要体现在两个方面:首先,通过将LoRA蒸馏应用于包括SD-V1.5、SSD-1B和SDXL在内的稳定扩散模型,我们将LCM的范围扩展到更大的模型,且内存消耗显著减少,实现了更优秀的图像生成质量。其次,我们将通过LCM蒸馏获得的LoRA参数识别为通用稳定扩散加速模块,命名为LCM-LoRA。LCM-LoRA可以直接插入各种稳定扩散微调模型或LoRAs,无需训练,因此代表了适用于多样图像生成任务的通用加速器。与先前的数值PF-ODE求解器(如DDIM、DPM-Solver)相比,LCM-LoRA可以被视为一种插件神经PF-ODE求解器,具有强大的泛化能力。项目页面:https://github.com/luosiallen/latent-consistency-model。
LLaVA-Plus是一个通用的多模态助手,扩展了大型多模态模型的功能。它维护一个预先训练的视觉和视觉-语言模型的技能存储库,并可以根据用户的输入激活相关工具,以完成现实世界的任务。LLaVA-Plus在多模态指令遵循数据上进行训练,以获得使用工具的能力,涵盖视觉理解、生成、外部知识检索和组合。实证结果显示,LLaVA-Plus在现有功能上优于LLaVA,并展示出新的功能。它的独特之处在于图像查询直接接地并在整个人工智能交互会话中积极参与,显著提高了工具使用性能并实现了新的场景。
我们提出了Prompt Cache,这是一种加速大型语言模型(LLM)推理过程的方法,通过在不同LLM提示之间重复使用注意力状态。许多输入提示具有重叠的文本片段,例如系统消息、提示模板和提供的上下文文档。我们的关键洞察是,在推理服务器上预先计算和存储这些经常出现的文本片段的注意力状态,当这些片段出现在用户提示中时,我们可以高效地重复使用它们。Prompt Cache采用一种模式来明确定义这些可重复使用的文本片段,称为提示模块。该模式确保在注意力状态重复时的位置准确性,并为用户提供接口以访问其提示中的缓存状态。通过一个原型实现,我们评估了Prompt Cache在多个LLM上的效果。我们展示了Prompt Cache显著减少了首个标记到达时间的延迟,特别是对于基于文档的问答和推荐等较长提示。这些改进范围从GPU推理的8倍到CPU推理的60倍,同时保持输出准确性,无需对模型参数进行修改。
最近,大型语言模型(LLMs)在各种专业和学术基准测试中取得了人类水平的表现。然而,这些模型的可访问性远远落后于它们的性能。最先进的LLMs需要昂贵的基础设施;只能通过限速、地理锁定和审查的网络界面访问;并且缺乏公开的代码和技术报告。本文讲述了GPT4All的故事,这是一个旨在使LLMs的访问民主化的流行开源存储库。我们概述了最初的GPT4All模型系列的技术细节,以及GPT4All项目从单一模型发展为完整的开源生态系统的演变。我们希望本文既是对原始GPT4All模型的技术概述,也是对GPT4All开源生态系统随后发展的案例研究。
最近的进展,如LLaVA和Mini-GPT4,成功地将视觉信息整合到LLM中,取得了令人振奋的成果,并催生了新一代的多模态LLM,即MLLM。然而,这些方法在幻觉和任务之间的相互干扰方面存在困难。为了解决这些问题,我们提出了一种高效准确的方法,通过利用LLM作为连接多个专家模型的桥梁来适应下游任务,即u-LLaVA。首先,我们将模态对齐模块和多任务模块整合到LLM中。然后,我们重新组织或重建多类型公共数据集,以实现高效的模态对齐和指导遵循。最后,从经过训练的LLM中提取特定于任务的信息,并提供给不同模块以解决下游任务。整体框架简单、有效,并在多个基准测试中实现了最先进的性能。我们还公开发布我们的模型、生成的数据和代码库。
自动驾驶技术的追求取决于感知、决策和控制系统的复杂集成。传统方法,无论是数据驱动还是基于规则的方法,都受到了无法理解复杂驾驶环境和其他道路使用者意图的限制。这在发展常识推理和细致场景理解方面是一个重要瓶颈,这对于安全可靠的自动驾驶至关重要。视觉语言模型(VLM)的出现代表了实现完全自动驾驶的新领域。本报告对最新的顶尖VLM模型 \modelnamefull 及其在自动驾驶场景中的应用进行了详尽评估。我们探讨了该模型理解和推理驾驶场景、做出决策,并最终扮演司机角色的能力。我们的全面测试涵盖了从基本场景识别到复杂因果推理以及在不同条件下的实时决策。我们的研究结果显示,与现有自动驾驶系统相比,\modelname 在场景理解和因果推理方面表现出卓越性能。它展示了处理超出分布范围场景、识别意图并在实际驾驶环境中做出明智决策的潜力。然而,仍然存在挑战,特别是在方向识别、交通信号识别、视觉基础和空间推理任务方面。这些限制突显了进一步研究和发展的必要性。该项目现已在 GitHub 上提供,供有兴趣的人访问和利用:https://github.com/PJLab-ADG/GPT4V-AD-Exploration