每日精選AI研究論文及翻譯
最近在生成建模方面的進展現在使得可以通過文本提示來控制的方式創建4D內容(移動的3D物體)。 4D生成在虛擬世界、媒體和遊戲等應用中具有巨大潛力,但現有方法對生成內容的外觀和幾何形狀提供的控制有限。在這項工作中,我們介紹了一種方法,通過條件化文本提示來引導4D生成,從而實現對用戶提供的3D物體進行動畫化,同時保持原始物體的身份。我們首先將3D網格轉換為保留輸入物體視覺屬性的“靜態”4D神經輻射場(NeRF)。然後,我們使用由文本驅動的圖像到視頻擴散模型來對物體進行動畫化。為了提高運動的真實感,我們引入了一種增量視角選擇協議,用於採樣視角以促進逼真的運動,以及一種採用遮罩分散抽樣(SDS)損失的得分蒸餾採樣方法,該方法利用注意力地圖來將優化集中在相關區域。我們通過時間相干性、提示遵循性和視覺保真度來評估我們的模型,發現我們的方法優於基於其他方法的基線,在使用LPIPS分數衡量的身份保留方面實現了最多三倍的改進,並有效平衡了視覺質量與動態內容。
像 OpenAI o1 這樣的模型表現出色,歸功於它們在推論過程中能夠模擬類似人類的長期思考能力。這些模型採用延伸的思維鏈 (CoT) 過程,探索多種策略以增強解決問題的能力。然而,一個關鍵問題仍然存在:如何在測試過程中智能且有效地擴展計算資源。本文首次全面研究了這些模型中普遍存在的過度思考問題,即為簡單問題分配過多計算資源而獲益微乎其微。我們從結果和過程的角度引入了新穎的效率指標,以評估類似 o1 模型對計算資源的合理使用。通過自我訓練範式,我們提出了減輕過度思考的策略,使推理過程更加流暢,同時不影響準確性。實驗結果表明,我們的方法成功減少了計算開銷,同時在各種難度不同的測試集(如 GSM8K、MATH500、GPQA 和 AIME)上保持了模型性能。
我們介紹了 TangoFlux,一個高效的文本轉語音(TTA)生成模型,擁有 5.15 億個參數,能夠在單個 A40 GPU 上僅需 3.7 秒內生成長達 30 秒的 44.1kHz 音頻。在對齊 TTA 模型時的一個關鍵挑戰在於創建偏好對,因為 TTA 缺乏像大型語言模型(LLMs)那樣的結構化機制,例如可驗證的獎勵或黃金標準答案。為了應對這一挑戰,我們提出了 CLAP-Ranked Preference Optimization(CRPO),一個新穎的框架,通過迭代生成和優化偏好數據來增強 TTA 對齊。我們展示了使用 CRPO 生成的音頻偏好數據優於現有的替代方案。通過這一框架,TangoFlux 在客觀和主觀基準測試中均實現了最先進的性能。我們開源所有代碼和模型,以支持進一步的 TTA 生成研究。
我們提出了 SWE-Gym,這是第一個用於訓練真實世界軟體工程 (SWE) 代理的環境。SWE-Gym 包含 2,438 個真實世界的 Python 任務實例,每個實例包括一個具有可執行運行環境、單元測試和以自然語言指定的任務的程式庫。我們使用 SWE-Gym 來訓練基於語言模型的 SWE 代理,實現在流行的 SWE-Bench Verified 和 Lite 測試集上高達 19% 的絕對改進率。我們還通過從 SWE-Gym 中抽樣的代理軌跡訓練驗證器,進行推論時間的擴展實驗。當與我們微調的 SWE 代理結合時,我們在 SWE-Bench Verified 和 Lite 上分別達到 32.0% 和 26.0%,反映了開放權重 SWE 代理的最新技術水準。為了促進進一步的研究,我們公開發布了 SWE-Gym、模型和代理軌跡。