每日精選AI研究論文及翻譯
最近在文本到圖像生成模型方面的進展為視覺創造力開拓了廣闊的潛力。然而,這些模型在生成一致的角色方面存在困難,這對於眾多現實應用(如故事視覺化、遊戲開發資產設計、廣告等)至關重要。目前的方法通常依賴於目標角色的多個現有圖像,或者涉及勞動密集型的手動過程。在這項工作中,我們提出了一種完全自動化的解決方案,用於一致性角色生成,其唯一輸入是文本提示。我們引入了一種迭代程序,每個階段都識別出一組一致的圖像,這些圖像共享相似的身份,並從這組圖像中提取出更一致的身份。我們的定量分析表明,相較於基準方法,我們的方法在提示對齊和身份一致性之間取得了更好的平衡,這些發現得到了用戶研究的支持。最後,我們展示了我們方法的幾個實際應用。項目頁面位於https://omriavrahami.com/the-chosen-one
文本到圖像擴散模型展示了將文本提示轉換為連貫圖像的卓越能力,然而其推論的計算成本仍然是一個持續的挑戰。為了應對這個問題,我們提出了UFOGen,一種新穎的生成模型,旨在實現超快速、一步到位的文本到圖像合成。與傳統方法專注於改進取樣器或應用蒸餾技術以提高擴散模型性能不同,UFOGen採用了一種混合方法,將擴散模型與GAN目標相結合。通過利用新引入的擴散-GAN目標和使用預先訓練的擴散模型進行初始化,UFOGen在單步條件下高效生成基於文本描述的高質量圖像方面表現出色。除了傳統的文本到圖像生成外,UFOGen在應用中展現了多樣性。值得注意的是,UFOGen是首批實現一步到位文本到圖像生成和多樣化下游任務的先驅模型之一,這在高效生成模型的領域中標誌著一個重大進步。
儘管思維鏈在增強語言模型推理方面取得成功,但其基本過程仍不太清楚。儘管合乎邏輯的推理對於思維鏈似乎至關重要,但先前的研究驚人地發現,使用無效示範時影響微乎其微。此外,傳統的思維鏈並未告知語言模型應避免哪些錯誤,這可能導致更多錯誤。因此,受到人類如何從正面和負面示例中學習的啟發,我們提出了對比思維鏈以增強語言模型的推理能力。與傳統思維鏈相比,我們的方法提供有效和無效的推理示範,引導模型逐步進行推理,同時減少推理錯誤。為了提高泛化能力,我們引入了一種自動方法來構建對比示範。我們在推理基準測試上的實驗表明,對比思維鏈可以作為思維鏈提示的一般增強。
神經輻射場在新視角合成方面實現了前所未有的品質,但其體積形式仍然昂貴,需要大量樣本才能渲染高分辨率圖像。體積編碼對於表示模糊幾何,如樹葉和頭髮,至關重要,並且非常適合於隨機優化。然而,許多場景最終主要由固體表面組成,可以通過每像素單個樣本準確渲染。基於這一觀點,我們提出了一種神經輻射公式,可在體積和基於表面的渲染之間平滑過渡,大大加快渲染速度,甚至提高視覺保真度。我們的方法構建了一個明確的網格包絡,空間限制了神經體積表示。在固體區域,包絡幾乎收斂為一個表面,通常可以用單個樣本渲染。為此,我們通過一個學習的空間變化核大小概括了NeuS公式,該核大小編碼了密度的擴散,在體積樣式區域擬合一個寬核,並在表面樣式區域擬合一個緊核。然後,我們提取表面周圍的窄帶的明確網格,其寬度由核大小確定,並在此帶內微調輻射場。在推理時,我們對網格投射射線,僅在封閉區域內評估輻射場,大大減少所需的樣本數。實驗表明,我們的方法實現了高保真度的高效渲染。我們還展示了提取的包絡可以實現諸如動畫和模擬等下游應用。
我們提出了Tied-LoRA,一種簡單的範式,利用權重綁定和選擇性訓練,進一步提高低秩適應(LoRA)方法的參數效率。我們的研究包括所有可行的參數訓練/凍結組合,結合權重綁定,以確定在性能和可訓練參數數量之間的最佳平衡。通過涵蓋各種任務和兩個基礎語言模型的實驗,我們提供了分析,揭示了效率和性能之間的折衷。我們的實驗揭示了一個特定的Tied-LoRA配置,通過僅使用標準LoRA方法使用的參數的13%,在幾個任務中展現出可比擬的性能。
大型語言模型在程式碼生成基準測試中展現了令人期待的表現。然而,在這些基準成就與實際應用之間存在著相當大的差距,主要歸因於現實世界程式設計對於現有庫的依賴。本研究旨在提出一種新的評估設置,讓大型語言模型使用開源庫來完成機器學習任務,而非從頭開始編碼。因此,我們提出了 ML-Bench,這是一個廣泛的基準測試,旨在評估大型語言模型在利用開源庫中現有功能方面的效果。該基準測試包含了來自 14 個知名機器學習 GitHub 倉庫的 130 個任務,共 10044 個樣本。在這個設置中,根據程式碼庫中特定的機器學習任務指示和相應的 README,大型語言模型被要求生成完成任務的程式碼。這需要理解交織著長篇語言和程式碼的文件,以及理解複雜的跨文件程式碼結構,帶來了新的挑戰。值得注意的是,儘管 GPT-4 在其他大型語言模型上表現出顯著改進,但僅完成了 39.73% 的任務,留下了很大的改進空間。我們通過提出 ML-Agent 來應對這些挑戰,該代理旨在有效地導航程式碼庫,找到文檔,檢索程式碼並生成可執行的程式碼。實證結果表明,建立在 GPT-4 基礎上的 ML-Agent 實現了進一步的改進。程式碼、數據和模型可在 https://ml-bench.github.io/ 上獲得。
基準測試在機器學習演算法的發展中扮演重要角色。例如,強化學習(RL)的研究受到可用環境和基準測試的深刻影響。然而,RL環境傳統上在CPU上運行,限制了它們在典型學術計算中的可擴展性。JAX的最新進展使得更廣泛地使用硬體加速來克服這些計算障礙,實現了大規模並行RL訓練流程和環境。這對多智能體強化學習(MARL)研究尤為有用。首先,在每個環境步驟中必須考慮多個智能體,增加了計算負擔,其次,由於非穩態性、分散式部分可觀察性或其他MARL挑戰,樣本複雜度增加。在本文中,我們提出了JaxMARL,這是第一個結合易用性和GPU加速效率的開源代碼庫,支持大量常用的MARL環境以及流行的基準算法。從實際時間角度來看,我們的實驗表明,相較於現有方法,我們基於JAX的訓練流程每次運行高達12500倍的速度更快。這使得評估高效而徹底,有潛力緩解該領域的評估危機。我們還介紹和評估了SMAX,這是流行的星際爭霸多智能體挑戰的向量化簡化版本,無需運行星際爭霸II遊戲引擎。這不僅實現了GPU加速,還提供了一個更靈活的MARL環境,為自我對弈、元學習和其他未來MARL應用打開了潛力。我們的代碼位於https://github.com/flairox/jaxmarl。
近期一些領先的人工智慧實驗室決定開源他們的模型或限制對模型的訪問,引發了關於日益強大的人工智慧模型應該如何共享的爭論。在人工智慧領域,開源通常指的是將模型結構和權重公開並免費提供給任何人進行修改、研究、擴展和使用。這樣做的優勢包括促進外部監督、加速進步以及分散人工智慧開發和應用的控制權。然而,這也帶來了潛在的濫用和意外後果。本文對開源高性能基礎模型的風險和好處進行了探討。雖然開源在歷史上對大多數軟件和人工智慧開發過程帶來了實質的淨利益,但我們認為對於未來可能開發的某些高性能基礎模型來說,開源可能存在足夠嚴重的風險,超過了好處。在這種情況下,高性能基礎模型應該不開源,至少最初不應該開源。本文探討了包括非開源模型共享在內的替代策略。最後,本文提出了針對開發人員、標準制定機構和政府建立安全和負責任的模型共享實踐,並在安全的情況下保留開源好處的建議。