每日精選AI研究論文及翻譯
儘管大型語言模型(LLMs)在各種任務上展現出令人印象深刻的能力,但在涉及複雜推理和規劃的情境下仍然面臨困難。最近的研究提出了先進的提示技術以及利用高質量數據進行微調以增強LLMs的推理能力的必要性。然而,這些方法在本質上受到數據可用性和質量的限制。鑑於此,自我校正和自我學習成為可行的解決方案,採用允許LLMs改進其輸出並從自評獎勵中學習的策略。然而,LLMs在自我改進其回應方面的效力,特別是在複雜的推理和規劃任務中,仍然存在疑問。在本文中,我們介紹了AlphaLLM用於改進LLMs的自我改進,該方法將蒙特卡洛樹搜索(MCTS)與LLMs相結合,建立自我改進循環,從而增強LLMs的能力,而無需額外的標註。受AlphaGo成功的啟發,AlphaLLM解決了將MCTS與LLM結合進行自我改進所面臨的獨特挑戰,包括數據稀缺性、語言任務搜索空間的廣闊性,以及語言任務中反饋的主觀性。AlphaLLM由提示綜合組件、針對語言任務量身定制的高效MCTS方法以及三個評論模型組成,用於提供精確的反饋。我們在數學推理任務中的實驗結果表明,AlphaLLM顯著提高了LLMs的性能,而無需額外的標註,展示了LLMs自我改進的潛力。
文字動畫作為一種表達媒介,將靜態溝通轉變為動態體驗,通過賦予文字運動來喚起情感、強調含義並構建引人入勝的敘事。製作具有語義意識的動畫存在重大挑戰,需要專業的平面設計和動畫知識。我們提出了一種自動文字動畫方案,稱為「動態排版」,結合了兩個具挑戰性的任務。它通過變形字母來傳達語義含義,並根據用戶提示賦予它們生動的運動。我們的技術利用向量圖形表示和端到端的基於優化的框架。該框架利用神經位移場將字母轉換為基本形狀,並應用每幀運動,鼓勵與預期文本概念的一致性。採用形狀保持技術和感知損失正則化來保持整個動畫過程中的可讀性和結構完整性。我們展示了我們方法在各種文本到視頻模型中的泛化能力,並突出了我們端到端方法優於基準方法的優越性,後者可能包括獨立的任務。通過定量和定性評估,我們展示了我們框架在生成一致的文字動畫方面的有效性,這些動畫忠實地解釋用戶提示並保持可讀性。我們的代碼可在以下網址找到:https://animate-your-word.github.io/demo/。
我們提出了MeshLRM,一種基於LRM的新方法,可以在不到一秒的時間內僅從四張輸入圖像重建出高質量網格。與先前專注於NeRF-based重建的大型重建模型(LRMs)不同,MeshLRM將可微網格提取和渲染融入LRM框架中。這使得可以通過微調預先訓練的NeRF LRM並進行網格渲染來進行端到端的網格重建。此外,我們通過簡化先前LRMs中的幾個複雜設計來改進LRM架構。MeshLRM的NeRF初始化是通過低分辨率和高分辨率圖像進行順序訓練的;這種新的LRM訓練策略實現了顯著更快的收斂,從而在更少的計算量下獲得更好的質量。我們的方法從稀疏視圖輸入中實現了最先進的網格重建,同時還支持許多下游應用,包括文本到3D和單圖像到3D生成。項目頁面:https://sarahweiii.github.io/meshlrm/
對於文本到圖像生成的穩定擴散(SD)而言,其密集的計算負擔對於實際應用構成了重大障礙。為了應對這一挑戰,最近的研究聚焦於減少抽樣步驟的方法,如潛在一致性模型(LCM),以及採用架構優化,包括剪枝和知識蒸餾。與現有方法不同,我們獨特地從一個緊湊的SD變體BK-SDM開始。我們觀察到,將LCM直接應用於使用常見爬取數據集的BK-SDM會產生不理想的結果。這促使我們制定了兩種策略:(1)利用來自領先生成模型的高質量圖像-文本配對,以及(2)設計一個針對LCM量身定制的高級蒸餾過程。通過對量化、分析和在設備上部署的深入探索,我們實現了在僅兩個步驟中快速生成照片逼真、文本對齊的圖像,在資源有限的邊緣設備上的延遲時間不到一秒。
隨著大型語言模型(LLMs)近來在生成長內容方面被廣泛應用,對於高效的長序列推理支持需求不斷增加。然而,為了避免重新計算而存儲的關鍵-值(KV)快取,由於隨著序列長度的增長呈線性增長,已成為一個關鍵瓶頸。由於LLMs的自回歸特性,每生成一個標記都需要加載整個KV快取,導致計算核心的利用率低且延遲高。雖然已提出各種用於緩解此問題的KV快取壓縮方法,但這些方法在生成質量上存在下降的問題。我們介紹了TriForce,這是一個可擴展到生成長序列的分層推理解碼系統。該方法利用原始模型權重和通過檢索作為草稿模型的動態稀疏KV快取,該草稿模型作為層次結構中的中間層,並進一步由較小的模型進行推測,以減少其草擬延遲。TriForce不僅為Llama2-7B-128K實現了令人印象深刻的加速,最高可達A100 GPU的2.31倍,而且展示了處理更長上下文的可擴展性。對於在兩個RTX 4090 GPU上的卸載設置,TriForce實現了0.108秒/標記,僅為A100上自回歸基線的一半,後者在我們優化的卸載系統上達到7.78倍。此外,TriForce在單個RTX 4090 GPU上的表現比DeepSpeed-Zero-Inference快4.86倍。TriForce的穩健性突顯在其在各種溫度下始終出色的性能。代碼可在https://github.com/Infini-AI-Lab/TriForce找到。
基於人類標註的偏好數據來對齊語言模型(LMs)是獲得實用且高效的基於LM的系統的關鍵步驟。然而,多語言人類偏好數據很難大規模獲得,這使得將此框架擴展到不同語言變得具有挑戰性。在這項工作中,我們評估了一種簡單的零-shot跨語言對齊方法,其中一個獎勵模型是在一種源語言的偏好數據上訓練的,並直接應用於其他目標語言。在摘要和開放式對話生成方面,我們展示了這種方法在全面評估設置下的持續成功,包括人類評估:跨語言對齊模型在多達70%的評估實例上優於未對齊模型。我們還發現,有時不同語言的獎勵模型比相同語言的獎勵模型產生更好的對齊模型。我們還確定了當沒有語言特定數據進行監督微調時的最佳實踐,這也是對齊中的另一個組成部分。
我們提出了一種新的架構,用於個性化文本到圖像擴散模型,稱為注意力混合(MoA)。受大型語言模型(LLMs)中使用的專家混合機制的啟發,MoA在兩個注意力路徑之間分配生成工作負載:個性化分支和非個性化先驗分支。MoA旨在通過固定先驗分支中的注意力層來保留原始模型的先驗,同時通過學習將主題嵌入先驗分支生成的佈局和上下文的個性化分支,最小干預生成過程。一種新穎的路由機制管理每個層中像素在這些分支之間的分佈,以優化個性化和通用內容創建的融合。經過訓練後,MoA促進了創建高質量、個性化圖像,展示了多個主題的構圖和互動,這些構圖和互動與原始模型生成的一樣多樣。至關重要的是,MoA增強了模型現有能力與新增的個性化干預之間的區別,從而提供了一種更具分離主題-上下文控制的方法,這是以前無法實現的。項目頁面:https://snap-research.github.io/mixture-of-attention
本文介紹了由MLCommons AI安全工作組創建的AI安全基準v0.5。AI安全基準旨在評估使用語言模型進行聊天調整的AI系統的安全風險。我們引入了一種原則性方法來指定和構建該基準,v0.5版本僅涵蓋一個用例(成年人與通用助手在英語中進行對話),以及一組有限的角色(即典型用戶、惡意用戶和易受攻擊的用戶)。我們創建了一個包含13種危害類別的新分類法,其中v0.5基準中有7種類別進行了測試。我們計劃在2024年底發布AI安全基準的1.0版本。v1.0基準將為AI系統的安全提供有意義的見解。然而,v0.5基準不應用於評估AI系統的安全性。我們已經詳細記錄了v0.5的限制、缺陷和挑戰。這個v0.5版本的AI安全基準發布包括:(1)一種原則性方法來指定和構建基準,其中包括用例、被測系統類型(SUTs)、語言和上下文、角色、測試和測試項目;(2)包含定義和子類別的13種危害類別的分類法;(3)七種危害類別的測試,每種包含一組獨特的測試項目,即提示。總共有43,090個測試項目,我們使用模板創建;(4)針對基準的AI系統的評分系統;(5)一個名為ModelBench的開放平台和可下載工具,可用於評估AI系統在基準上的安全性;(6)一份範例評估報告,對超過十幾個公開可用的聊天調整語言模型的性能進行基準測試;(7)基準的測試規範。