每日精選AI研究論文及翻譯
個性化的文本到圖像生成已經成為一種強大且備受追捧的工具,使用戶能夠基於其特定概念和提示創建定制圖像。然而,現有的個性化方法面臨著多個挑戰,包括調整時間長、存儲需求大、每個身份需要多張輸入圖像、以及在保留身份和可編輯性方面存在限制。為了應對這些障礙,我們提出了PhotoVerse,這是一種創新方法,它在文本和圖像領域都融入了雙分支條件機制,有效控制圖像生成過程。此外,我們引入了面部身份損失作為一個新穎的組成部分,以增強在訓練過程中對身份的保留。值得注意的是,我們提出的PhotoVerse 消除了測試時間調整的需求,僅依賴於目標身份的一張面部照片,顯著降低了與圖像生成相關的資源成本。在單一訓練階段之後,我們的方法能夠在短短幾秒內生成高質量的圖像。此外,我們的方法可以生成包含各種場景和風格的多樣化圖像。廣泛的評估顯示了我們方法卓越的性能,實現了保留身份和促進可編輯性這兩個目標。項目頁面:https://photoverse2d.github.io/
擴散模型以其卓越的質量和創造力,徹底改變了文本到圖像生成的方法。然而,其多步驟取樣過程被認為速度緩慢,通常需要數十個推理步驟才能獲得滿意的結果。先前試圖通過蒸餾來提高取樣速度並降低計算成本的嘗試未能實現功能性的一步模型。本文探討了一種名為Rectified Flow的最新方法,迄今僅應用於小型數據集。Rectified Flow的核心在於其重新流程,該流程使概率流的軌跡變得直線,改進了噪聲和圖像之間的耦合,並促進了通過學生模型進行蒸餾的過程。我們提出了一種新穎的文本條件管道,將穩定擴散(SD)轉換為超快速的一步模型,在其中我們發現重新流在改善噪聲和圖像之間的分配中發揮了關鍵作用。利用我們的新管道,我們創建了據我們所知,具有SD級圖像質量的第一個一步擴散式文本到圖像生成器,實現了在MS COCO 2017-5k上的FID(Frechet Inception Distance)為23.3,明顯優於先前的最先進技術,逐步蒸餾,FID從37.2降至23.3。通過利用具有17億參數的擴展網絡,我們進一步將FID提高到22.4。我們將我們的一步模型稱為InstaFlow。在MS COCO 2014-30k上,InstaFlow在僅0.09秒內實現了13.1的FID,是小於0.1秒範圍內最優秀的,勝過了最近的StyleGAN-T(在0.1秒內為13.9)。值得注意的是,InstaFlow的訓練僅需199個A100 GPU天。項目頁面:https://github.com/gnobitab/InstaFlow。
為了高效地服務大型語言模型(LLMs),需要一次批量處理足夠多的請求。然而,現有系統存在困難,因為每個請求的鍵值快取(KV快取)內存龐大且動態增長和收縮。當管理效率低下時,這種內存可能會因碎片化和冗餘重複而被大量浪費,限制批量大小。為了解決這個問題,我們提出了PagedAttention,這是一種受傳統虛擬內存和分頁技術啟發的注意力算法,額外構建了vLLM,一個實現(1)KV快取內存幾乎零浪費和(2)在請求內部和跨請求靈活共享KV快取以進一步減少內存使用的LLM服務系統。我們的評估顯示,與FasterTransformer和Orca等最先進的系統相比,vLLM提高了流行LLMs的吞吐量2-4倍,並具有相同水平的延遲。在序列更長、模型更大和解碼算法更複雜的情況下,改進效果更加明顯。vLLM的源代碼可在以下網址公開獲取:https://github.com/vllm-project/vllm
大型語言模型在許多人類語言任務中表現出色,但在學術天文等高度專業領域常常表現不佳。為了彌合這一差距,我們介紹了AstroLLaMA,這是一個從LLaMA-2微調而來的70億參數模型,使用了來自arXiv的超過30萬篇天文摘要。AstroLLaMA經過傳統因果語言建模的優化,比Llama-2的困惑度低30%,顯示出明顯的領域適應能力。我們的模型生成的文本補全和嵌入提取比最先進的基礎模型更具洞察力和科學相關性,盡管參數明顯較少。AstroLLaMA作為一個強大的、面向特定領域的模型,具有廣泛的微調潛力。其公開發布旨在推動以天文為重點的研究,包括自動論文摘要和對話代理的開發。
靈巧操控一直是機器人領域的長期挑戰。儘管機器學習技術顯示出了一些潛力,但目前的成果主要僅限於模擬環境。這主要歸因於缺乏適合的硬體。本文介紹了 LEAP 手,一款用於機器學習研究的低成本靈巧且類人化手部。與以往的手部不同,LEAP 手具有一種新穎的運動結構,可以實現最大程度的靈活性,無論手指姿勢如何。LEAP 手成本低廉,可在4小時內以2000美元的成本從現有零件中組裝而成。它能夠持續施加大扭矩長時間運作。我們展示了LEAP 手可用於在現實世界中執行多項操控任務--從視覺遠端操作到從被動視頻數據和模擬到真實世界的學習。LEAP 手在所有實驗中明顯優於其最接近的競爭對手 Allegro 手,而成本僅為其1/8。我們在 https://leap-hand.github.io/ 網站上發布了詳細的組裝說明、Sim2Real 流程和一個帶有有用 API 的開發平台。
為了學習具有動畫效果和逼真人類頭像,已經做出了巨大的努力。為了全面建模和捕捉整個人類(例如身體、服裝、臉部和頭髮),人們積極研究明確和隱式的3D表示。但是,由於人類頭像的不同部分具有不同的建模需求,因此這兩種表示都不是最佳選擇。例如,網格通常不適合用於建模服裝和頭髮。受此啟發,我們提出了Disentangled Avatars(DELTA),該模型使用混合的明確-隱式3D表示來建模人類。DELTA將單眼RGB視頻作為輸入,並生成具有獨立身體和服裝/頭髮層的人類頭像。具體來說,我們展示了DELTA的兩個重要應用。第一個應用是考慮將人體和服裝分離,第二個應用是分離面部和頭髮。為此,DELTA使用明確的基於網格的參數化3D模型來表示身體或面部,並使用隱式神經輻射場來表示服裝或頭髮。為實現此目的,我們設計了一個端到端可微分的渲染器,將網格集成到體積渲染中,使DELTA能夠直接從單眼視頻中學習,而無需任何3D監督。最後,我們展示了如何輕鬆結合這兩個應用程序來建模全身頭像,使頭髮、面部、身體和服裝可以完全分離但共同渲染。這種分離使頭髮和服裝可以轉移到任意身體形狀。我們通過展示DELTA在分離重建、虛擬試穿服裝和髮型轉移方面的優異表現來實證了DELTA分離的有效性。為了促進未來研究,我們還釋放了一個用於研究混合人類頭像建模的開源管道。