每日精選AI研究論文及翻譯
基於大型語言模型(LLM)的智能代理的整合和部署一直面臨著挑戰,這些挑戰影響了它們的效率和功效。其中問題包括代理請求在LLM上的次優排程和資源分配、在代理和LLM之間互動時維持上下文的困難,以及整合具有不同能力和專業的異質代理所固有的複雜性。代理數量和複雜性的快速增加進一步惡化了這些問題,通常導致瓶頸和資源的次優利用。受到這些挑戰的啟發,本文提出了AIOS,一個LLM代理操作系統,將大型語言模型嵌入操作系統(OS)中。具體而言,AIOS旨在優化資源分配、促進代理之間的上下文切換、實現代理的並行執行、為代理提供工具服務,以及維護代理的訪問控制。我們介紹了這種操作系統的架構,概述了它旨在解決的核心挑戰,並提供了AIOS的基本設計和實現。我們對多個代理的並行執行進行的實驗證明了我們AIOS模組的可靠性和效率。通過這一工作,我們旨在不僅提高LLM代理的性能和效率,還為未來AIOS生態系統的更好開發和部署開創先河。該項目在https://github.com/agiresearch/AIOS 上以開源方式提供。
文字到圖像擴散模型具有前所未有的能力,能夠生成多樣且高質量的圖像。然而,它們常常難以忠實捕捉包含多個主題的複雜輸入提示的預期語義。最近,許多布局到圖像的擴展方法被引入,以提高用戶控制,旨在定位由特定標記表示的主題。然而,這些方法通常會產生語義不準確的圖像,特別是在處理多個語義或視覺上相似的主題時。在這項工作中,我們研究並分析了這些限制的原因。我們的探索顯示,主要問題源於去噪過程中主題之間的意外語義泄漏。這種泄漏歸因於擴散模型的注意力層,它們傾向於混合不同主題的視覺特徵。為了解決這些問題,我們引入了有界注意力,這是一種無需訓練的方法,用於限制採樣過程中的信息流。有界注意力防止主題之間的有害泄漏,並能夠引導生成,促進每個主題的個性,即使在複雜的多主題條件下也是如此。通過大量實驗,我們展示了我們的方法能夠增強生成與給定提示和布局更符合的多個主題。
本研究提出了FlashFace,一個實用工具,讓使用者可以透過提供一個或幾個參考臉部圖像和文字提示來即時個性化自己的照片。我們的方法與現有的人類照片定制方法有所不同,具有更高保留身份特徵的保真度和更好的指導遵循,這得益於兩個微妙的設計。首先,我們將臉部身份編碼為一系列特徵圖,而不是像以往的方法中的單一圖像標記,這使模型能夠保留參考臉部的更多細節(例如疤痕、紋身和臉部形狀)。其次,我們引入了一種解耦合的整合策略,在文本轉圖像生成過程中平衡文本和圖像引導,緩解參考臉部與文本提示之間的衝突(例如,將成年人個性化為"孩子"或"老人")。大量實驗結果證明了我們的方法在各種應用中的有效性,包括人類圖像個性化、根據語言提示進行臉部交換、將虛擬角色變成真實人物等。項目頁面:https://jshilong.github.io/flashface-page。
最近擴散模型的進步使其成為影像生成的領先者。儘管其表現優越,擴散模型並非沒有缺點;其特點是複雜的架構和龐大的計算需求,導致由於其迭代採樣過程而產生顯著的延遲。為了減輕這些限制,我們提出了一種雙重方法,包括模型小型化和採樣步驟減少,旨在顯著降低模型延遲。我們的方法利用知識蒸餾來簡化 U-Net 和影像解碼器架構,並引入一種創新的一步 DM 訓練技術,利用特徵匹配和分數蒸餾。我們提出了兩個模型,SDXS-512 和 SDXS-1024,在單個 GPU 上實現約 100 FPS 的推理速度(比 SD v1.5 快 30 倍)和 30 FP 的速度(比 SDXL 快 60 倍),此外,我們的訓練方法在基於影像的控制中具有應用前景,促進高效的影像到影像的轉換。
對於資源高效的推論,壓縮高性能大型語言模型(LLMs)已成為一種受歡迎的策略。雖然最先進的壓縮方法在保留良性任務表現方面取得了令人印象深刻的進展,但在安全性和可信度方面的潛在風險卻大多被忽略。本研究首次對三(3)個領先的LLMs進行了全面評估,使用了五(5)種最先進的壓縮技術,跨越八(8)個可信度維度。我們的實驗凸顯了壓縮與可信度之間的複雜相互作用,揭示了一些有趣的模式。我們發現,在當前情況下,量化比修剪更有效,可以同時實現效率和可信度。例如,一個4位量化模型保留了其原始對應物的可信度,但模型修剪明顯降低了可信度,即使在50%的稀疏度下也是如此。此外,在適中的位範圍內使用量化可能會意外地提高某些可信度維度,如倫理和公平性。相反,對非常低位級(3位)的極端量化往往會顯著降低可信度。僅通過觀察良性表現無法揭示這種增加的風險,因此實踐中需要進行全面的可信度評估。這些發現為在LLMs中同時實現高效用、效率和可信度提供了實用建議。模型和代碼可在https://decoding-comp-trust.github.io/找到。
我們介紹了 RakutenAI-7B,這是一套針對日本語的大型語言模型,其在日本語 LM Harness benchmarks 中表現優異,位居開放式 7B 模型之首。除了基礎模型外,我們還釋出了經過指示和聊天微調的模型,分別為 RakutenAI-7B-instruct 和 RakutenAI-7B-chat,並採用 Apache 2.0 授權。
最近在文本轉視頻生成方面取得的進展展示了強大擴散模型的實用性。然而,當將擴散模型應用於使靜態圖像動畫化(即圖像轉視頻生成)時,問題並不簡單。困難源於後續動畫幀的擴散過程不僅應保持與給定圖像的忠實對齊,還應追求相鄰幀之間的時間一致性。為了緩解這一問題,我們提出了TRIP,一種新的圖像轉視頻擴散範式,其基於從靜態圖像中導出的圖像噪聲先驅,共同觸發幀間關係推理並通過時間殘差學習來簡化一致的時間建模。從技術上講,圖像噪聲先驅首先通過基於靜態圖像和有噪視頻潛在代碼的單步向後擴散過程獲得。接下來,TRIP通過一種類似殘差的雙路徑方案進行噪聲預測:1)一條捷徑路徑直接將圖像噪聲先驅作為每幀的參考噪聲,以增強第一幀與後續幀之間的對齊;2)一條殘差路徑利用有噪視頻和靜態圖像潛在代碼上的3D-UNet實現幀間關係推理,從而簡化每幀殘差噪聲的學習。此外,每幀的參考和殘差噪聲通過注意機制動態合併以進行最終視頻生成。在WebVid-10M、DTDB和MSR-VTT數據集上進行的大量實驗證明了我們的TRIP在圖像轉視頻生成方面的有效性。請查看我們的項目頁面:https://trip-i2v.github.io/TRIP/。
最近在文本轉3D生成方面的創新特點是採用得分蒸餾抽樣(SDS),這使得通過直接從2D擴散模型中提煉先前知識來實現隱式3D模型(NeRF)的零樣本學習成為可能。然而,目前基於SDS的模型仍然在處理錯綜複雜的文本提示時遇到困難,通常導致產生具有不現實紋理或視角不一致問題的扭曲3D模型。在這項工作中,我們引入了一種新穎的視覺提示引導文本到3D擴散模型(VP3D),該模型明確地釋放2D視覺提示中的視覺外觀知識,以提升文本到3D生成的效果。VP3D不僅僅通過文本提示監督SDS,而是首先利用2D擴散模型從輸入文本生成高質量圖像,然後將其作為視覺提示,以明確的視覺外觀來加強SDS的優化。同時,我們將SDS優化與額外的可微獎勵函數相結合,該函數鼓勵將3D模型的渲染圖像與2D視覺提示更好地視覺對齊,並在語義上與文本提示匹配。通過大量實驗,我們展示了我們的VP3D中的2D視覺提示顯著地簡化了3D模型的視覺外觀學習,從而實現了更高的視覺保真度和更詳細的紋理。當用給定的參考圖像替換自生成的視覺提示時,VP3D還能觸發一個新的風格化文本到3D生成任務,這一點也很吸引人。我們的項目頁面位於https://vp3d-cvpr24.github.io。