每日精選AI研究論文及翻譯
為了追求高效的自動化內容創作,程序生成成為一種具有潛力的方法,利用可修改參數和基於規則的系統。然而,這可能是一項具有挑戰性的工作,因為其複雜的性質需要對規則、算法和參數有深入的理解。為了減輕工作量,我們引入了3D-GPT,這是一個利用大型語言模型(LLMs)進行指導驅動的3D建模的框架。3D-GPT將LLMs定位為熟練的問題解決者,將程序化3D建模任務分解為可訪問的部分,並為每個任務指定適當的代理。3D-GPT集成了三個核心代理:任務調度代理、概念化代理和建模代理。它們共同實現兩個目標。首先,它增強了簡潔的初始場景描述,將其進化為詳細形式,同時根據後續指令動態地調整文本。其次,它集成了程序生成,從豐富文本中提取參數值,以便輕鬆地與3D軟件進行資產創建的接口。我們的實證研究證實了3D-GPT不僅解釋並執行指令,提供可靠的結果,而且與人類設計師有效地合作。此外,它與Blender無縫集成,開啟了擴展操作可能性。我們的工作突顯了LLMs在3D建模中的潛力,為未來在場景生成和動畫方面的進展提供了基本框架。
開放式大型語言模型(LLMs)在各種任務中表現出色,顯著推動了LLMs的發展。然而,當作為應對現實世界複雜任務的代理時,它們遠遠不及商業模型如ChatGPT和GPT-4。這些代理任務將LLMs作為負責規劃、記憶和工具利用的中央控制器,需要精細的提示方法和強大的LLMs以達到滿意的表現。儘管已提出許多提示方法來完成特定的代理任務,但缺乏專注於提升LLMs自身代理能力而不損害其一般能力的研究。在這項工作中,我們提出AgentTuning,這是一種簡單通用的方法,可增強LLMs的代理能力,同時保持其一般LLM能力。我們構建了AgentInstruct,一個包含高質量互動軌跡的輕量級指令調整數據集。我們採用混合指令調整策略,將AgentInstruct與來自一般領域的開源指令相結合。AgentTuning用於指令調整Llama 2系列,產生AgentLM。我們的評估顯示,AgentTuning使LLMs的代理能力得到提升,而不損害其一般能力。AgentLM-70B在未知的代理任務上與GPT-3.5-turbo相當,展示了通用的代理能力。我們在https://github.com/THUDM/AgentTuning 開源了AgentInstruct和AgentLM-7B、13B和70B模型,為代理任務提供了開放且強大的替代方案。
隨著大型語言模型(LLMs)的發展,平衡AI系統性能與安全性變得更加關鍵。然而,在LLM訓練過程中,有關幫助性和無害性目標之間的內在張力帶來了重大挑戰。為了解決這個問題,我們提出了一種新的算法,即從人類反饋中實現安全強化學習(Safe RLHF),用於人類價值對齊。Safe RLHF明確地將人類對於幫助性和無害性的偏好解耦,有效地避免了工人群對於張力的困惑,並允許我們訓練獨立的獎勵和成本模型。我們將LLMs的安全問題形式化為最大化獎勵函數並滿足指定成本約束的優化任務。通過利用Lagrange方法解決這個受限問題,Safe RLHF在微調過程中動態調整了兩個目標之間的平衡。通過使用Safe RLHF進行三輪微調,我們展示了相對於現有價值對齊算法,更好地減輕有害回應並提升模型性能的能力。在實驗中,我們使用Safe RLHF對Alpaca-7B進行微調,並將其與收集到的人類偏好對齊,根據人類評估,顯著提高了其幫助性和無害性。
大型語言模型(LLMs)在順序決策任務中表現卓越,作為高層語義規劃者。然而,將它們應用於學習複雜的低層操作任務,如靈巧的筆芯旋轉,仍然是一個懸而未決的問題。我們填補了這一基本差距,提出了Eureka,一種由LLMs驅動的人類級獎勵設計算法。Eureka利用最先進的LLMs(如GPT-4)的卓越零-shot生成、編碼編寫和上下文改進能力,對獎勵代碼進行進化優化。然後可以使用生成的獎勵來通過強化學習獲取複雜技能。在不需要任何特定任務提示或預定義獎勵模板的情況下,Eureka生成的獎勵函數優於專家設計的獎勵。在包括10種不同機器人形態的29個開源RL環境中,Eureka在83%的任務上優於人類專家,平均標準化改進率為52%。Eureka的通用性還實現了一種新的無梯度上下文學習方法,即從人類反饋中進行強化學習(RLHF),可以輕鬆地整合人類輸入,以改進生成的獎勵的質量和安全性,而無需模型更新。最後,通過在課程學習環境中使用Eureka獎勵,我們首次展示了一個模擬的Shadow Hand能夠進行筆芯旋轉技巧,熟練地以快速速度在圓圈中操作筆芯。
強化學習(RL)要求手動指定獎勵函數,但這通常是不可行的,或者從大量人類反饋中學習獎勵模型,但這往往非常昂貴。我們研究了一種更節省樣本的替代方案:使用預訓練的視覺語言模型(VLMs)作為零-shot獎勵模型(RMs),通過自然語言指定任務。我們提出了一種自然且通用的方法來使用VLMs作為獎勵模型,我們稱之為VLM-RMs。我們使用基於CLIP的VLM-RMs來訓練MuJoCo仿真人學習複雜任務,而無需手動指定獎勵函數,例如跪下、劈腿和盤腿坐。對於這些任務中的每一個,我們僅提供一個描述所需任務的單句文本提示,並最小化提示工程。我們提供了受過訓練的代理人的視頻:https://sites.google.com/view/vlm-rm。通過提供第二個“基準”提示並投影出與區分目標和基準無關的CLIP嵌入空間的部分,我們可以提高性能。此外,我們發現VLM-RMs存在強大的擴展效應:使用更多計算和數據訓練的更大型VLMs是更好的獎勵模型。我們遇到的VLM-RMs的失敗模式都與當前VLMs已知的能力限制相關,例如有限的空間推理能力或對VLM遠離分佈的視覺不現實環境。我們發現只要VLM足夠大,VLM-RMs就非常穩健。這表明未來的VLMs將成為更加有用的獎勵模型,適用於各種RL應用。
創作音樂是一個反覆過程,在每個階段都需要不同的方法。然而,現有的人工智慧音樂系統在協調多個子系統以滿足不同需求方面仍有不足。為了填補這一空白,我們引入了Loop Copilot,一個新穎的系統,讓用戶可以通過互動式、多輪對話界面生成並反覆改進音樂。該系統使用一個大型語言模型來解釋用戶意圖,並選擇適合的人工智慧模型來執行任務。每個後端模型都專門用於特定任務,它們的輸出被匯總起來滿足用戶的需求。為確保音樂的連貫性,必要的屬性被保存在一個集中的表中。我們通過半結構化訪談和問卷調查評估了所提出系統的有效性,突出了它不僅在促進音樂創作方面的實用性,還在更廣泛應用方面的潛力。
大型語言模型(LLMs)現在在各種尺寸和配置上可從雲API提供商處獲得。儘管這種多樣性提供了廣泛的選擇,但有效利用這些選項以優化計算成本和性能仍然具有挑戰性。在這項工作中,我們提出了AutoMix,一種策略性地將查詢路由到較大的LM的方法,該方法基於從較小的LM輸出的近似正確性。AutoMix的核心是一種少量自我驗證機制,該機制估計其自身輸出的可靠性,而無需進行訓練。鑒於驗證可能存在噪音,我們在AutoMix中使用了一個元驗證器來提高這些評估的準確性。我們在五個基於上下文推理數據集上使用LLAMA2-13/70B進行的實驗表明,AutoMix超越了已建立的基準線,將每單位成本的增量效益提高了高達89%。我們的代碼和數據可在https://github.com/automix-llm/automix 上找到。
廣泛使用的語言模型(LMs)通常是通過擴展兩階段訓練流程來構建的:首先是使用非常龐大、多樣的文本數據集進行預訓練階段,然後是使用有針對性的示例或其他所需行為的規範進行微調(有時稱為「對齊」)階段。儘管有人假設知識和技能來自預訓練,而微調主要是過濾這些知識和技能組合,但這種直覺並未得到廣泛測試。為了幫助進行測試,我們引入了一種新技術,用於解耦這兩個階段獲得的知識和技能,從而直接回答這個問題:“如果我們將大型模型在預訓練期間學到的知識與小型模型在微調期間學到的知識結合(或反之亦然),會發生什麼?”利用最近在從人類偏好中學習的發展中衍生出的基於強化學習的框架,我們引入了模擬微調(EFT),這是一種合理且實用的方法,用於從近似(或“模擬”)預訓練和不同規模微調的結果中抽樣。我們對EFT的實驗表明,擴展微調往往有助於改進幫助性,而擴展預訓練則有助於提高事實性。除了解耦規模外,我們還表明EFT使得能夠在測試時調整競爭行為特徵,如幫助性和無害性,而無需額外訓練。最後,模擬微調的一個特殊情況,我們稱之為LM放大,通過將大型預訓練模型與小型微調模型集成,從本質上模擬了對大型預訓練模型進行微調的結果。LM放大一致改善了Llama、Llama-2和Falcon系列中指令遵循模型的幫助性和事實性,而無需額外的超參數或訓練。
文本反轉是一種快速學習方法,學習一個獨特的嵌入來代表圖像風格和外觀的新「詞」,使其能夠融入自然語言句子中,生成新的合成圖像。然而,即使個別概念的嵌入是可得的,識別並整合一個場景中的多個物體級概念也存在顯著挑戰。這一點在我們的實證測試中得到進一步證實。為應對這一挑戰,我們提出了一個多概念提示學習(MCPL)框架,從一個句子-圖像對中同時學習多個新「詞」。為增強詞-概念相關性的準確性,我們提出了三種正則化技術:注意力遮罩(AttnMask)集中學習於相關區域;提示對比損失(PromptCL)區分不同概念的嵌入;以及綁定形容詞(Bind adj.)將新「詞」與已知詞聯繫起來。我們通過圖像生成、編輯和注意力可視化與多樣圖像進行評估。廣泛的定量比較表明,我們的方法能夠學習出更多語義分離的概念,並具有增強的詞-概念相關性。此外,我們還為學習物體級概念的這一新任務量身定制了一個新的數據集和評估協議。
高解析度的3D物體生成仍然是一項具有挑戰性的任務,主要是由於全面標註的訓練數據有限。最近的進展旨在通過利用在廣泛整理的網絡數據集上預訓練的圖像生成模型,並使用得分蒸餾取樣(SDS)等知識轉移技術來克服這一限制。有效地應對高解析度渲染的要求通常需要採用基於潛在表示的模型,例如潛在擴散模型(LDM)。在這個框架中,出現了一個重要挑戰:為了計算單個圖像像素的梯度,需要從指定的潛在空間通過凍結的圖像模型組件反向傳播梯度,例如在LDM中使用的VAE編碼器。然而,這種梯度傳播路徑從未被優化,訓練過程中一直是不受控制的。我們發現,這種不受控制的梯度對於3D模型從圖像生成模型中獲取與紋理相關的信息的能力產生不利影響,導致外觀合成的質量不佳。為了應對這一全面性挑戰,我們提出了一種名為像素級梯度截斷(PGC)的創新操作,旨在無縫集成到現有的3D生成模型中,從而提高它們的合成質量。具體來說,我們通過高效地截斷像素級梯度來控制隨機梯度的幅度,同時保留關鍵的與紋理相關的梯度方向。儘管這種方法簡單且額外成本很低,但廣泛的實驗證明了我們的PGC在提高現有3D生成模型的性能,用於高解析度物體渲染方面的有效性。