每日精選AI研究論文及翻譯
潛在一致性模型(LCMs)在加速文本到圖像生成任務方面取得了令人印象深刻的表現,能夠以最少的推論步驟生成高質量圖像。LCMs是從預訓練的潛在擴散模型(LDMs)中提煉出來的,僅需約32個A100 GPU訓練小時。本報告進一步擴展了LCMs的潛力,具體表現在兩個方面:首先,通過將LoRA蒸餾應用於包括SD-V1.5、SSD-1B和SDXL在內的Stable-Diffusion模型,我們將LCM的範圍擴展到具有顯著較少內存消耗的更大模型,實現了更優秀的圖像生成質量。其次,我們將通過LCM蒸餾獲得的LoRA參數識別為一個通用的Stable-Diffusion加速模塊,命名為LCM-LoRA。LCM-LoRA可以直接插入各種Stable-Diffusion微調模型或LoRAs,而無需進行訓練,因此代表了一個適用於多樣化圖像生成任務的通用加速器。與先前的數值PF-ODE求解器(如DDIM、DPM-Solver)相比,LCM-LoRA可以被視為一個插件神經PF-ODE求解器,具有強大的泛化能力。項目頁面:https://github.com/luosiallen/latent-consistency-model。
LLaVA-Plus是一個通用的多模態助理,擴展了大型多模態模型的功能。它維護了一個預先訓練的視覺和視覺語言模型的技能庫,可以根據用戶的輸入激活相關工具,以完成真實世界的任務。LLaVA-Plus通過多模態指令遵循數據進行訓練,以獲得使用工具的能力,涵蓋視覺理解、生成、外部知識檢索和組合。實證結果顯示,LLaVA-Plus在現有功能上優於LLaVA,並展現出新的功能。它與眾不同之處在於圖像查詢直接接地,並在整個人工智能交互會話中積極參與,顯著提高了工具使用性能,並實現了新的場景。
我們提出了 Prompt Cache,一種加速大型語言模型(LLM)推理的方法,通過在不同的LLM提示之間重複使用注意力狀態。許多輸入提示具有重疊的文本片段,例如系統消息、提示模板和提供的上下文文件。我們的關鍵洞察是,在推理伺服器上預先計算並存儲這些經常出現的文本片段的注意力狀態,當這些片段出現在用戶提示中時,我們可以有效地重複使用它們。Prompt Cache 使用一個模式來明確定義這些可重複使用的文本片段,稱為提示模塊。該模式確保在注意力狀態重複使用期間的位置準確性,並為用戶提供一個接口來訪問其提示中的緩存狀態。通過一個原型實現,我們評估了 Prompt Cache 在幾個LLM上的效果。我們展示了 Prompt Cache 顯著降低了時間到第一個標記的延遲,特別是對於基於文檔的問答和推薦等較長提示。這些改進範圍從基於GPU的推理的8倍到基於CPU的推理的60倍,同時保持輸出的準確性,並且無需對模型參數進行修改。
近年來,大型語言模型(LLMs)已在各種專業和學術基準上實現了人類水平的表現。這些模型的可訪問性遠遠落後於其性能。最先進的LLMs需要昂貴的基礎設施;僅通過速率限制、地理鎖定和審查的網絡界面進行訪問;並且缺乏公開可用的代碼和技術報告。在本文中,我們講述了GPT4All的故事,這是一個旨在使LLMs的訪問民主化的流行開源存儲庫。我們概述了原始GPT4All模型系列的技術細節,以及GPT4All項目從單一模型發展為完整的開源生態系統的演變。我們希望本文既作為原始GPT4All模型的技術概述,也作為GPT4All開源生態系統隨後增長的案例研究。
最近的進展,如LLaVA和Mini-GPT4,成功地將視覺信息整合到LLM中,產生了令人振奮的結果,並催生了一代新的多模態LLM,或稱為MLLM。然而,這些方法在幻覺和任務之間的相互干擾方面存在困難。為了應對這些問題,我們提出了一種有效且準確的方法,通過將LLM用作連接多個專家模型的橋樑,即u-LLaVA。首先,我們將模態對齊模塊和多任務模塊整合到LLM中。然後,我們重新組織或重建多類型公共數據集,以實現有效的模態對齊和指導遵循。最後,從訓練有素的LLM中提取特定任務的信息,並提供給不同模塊以解決下游任務。整體框架簡單、有效,並在多個基準測試中實現了最先進的性能。我們還公開發布我們的模型、生成的數據和代碼庫。
實現自動駕駛技術的追求取決於對感知、決策和控制系統的精密整合。傳統方法,無論是數據驅動還是基於規則,都受到其無法理解複雜駕駛環境和其他道路使用者意圖的限制。這在發展常識推理和對於安全可靠的自動駕駛所必需的微妙場景理解方面一直是一個重要瓶頸。視覺語言模型(VLM)的出現代表了實現完全自主車輛駕駛的一個新範疇。本報告對最新的 VLM 技術 \modelnamefull 進行了詳盡評估,以及其在自動駕駛場景中的應用。我們探討了該模型理解和推理駕駛場景、做出決策,最終以司機的身份行動的能力。我們全面的測試從基本場景識別到複雜因果推理和在不同條件下的實時決策。我們的研究發現顯示,與現有自動駕駛系統相比,\modelname 在場景理解和因果推理方面表現出優越性。它展示了處理超出分布範疇的情景、識別意圖並在實際駕駛情境中做出明智決策的潛力。然而,仍然存在挑戰,特別是在方向識別、交通燈識別、視覺基礎和空間推理任務方面。這些限制強調了進一步研究和開發的必要性。有興趣的各方現在可以在 GitHub 上訪問並使用該項目:https://github.com/PJLab-ADG/GPT4V-AD-Exploration