每日精選AI研究論文及翻譯
電腦視覺(CV)尚未完全實現自然語言處理(NLP)中觀察到的零-shot任務泛化,儘管採用了許多NLP中建立的里程碑,如大型Transformer模型、廣泛的預訓練和自回歸範式等。在本文中,我們探討了一個觀點,即CV採用離散和術語化的任務定義(例如,“圖像分割”),這可能是零-shot任務泛化的一個關鍵障礙。我們的假設是,由於這些術語化定義,深度模型在沒有真正理解先前見過的任務的情況下,很難對新任務進行泛化。為了驗證這一點,我們引入了解釋性指令,通過從輸入圖像到輸出的詳細語言轉換提供了一種直觀定義CV任務目標的方式。我們創建了一個包含1200萬個“圖像輸入到解釋性指令到輸出”三元組的大規模數據集,並訓練了一個基於自回歸的視覺語言模型(AR-based VLM),該模型將圖像和解釋性指令作為輸入。通過學習遵循這些指令,基於AR的VLM實現了對先前見過的任務的指令級零-shot能力,並展示了對未見CV任務的強大零-shot泛化。代碼和數據集將在我們的GitHub存儲庫中公開提供。
多模式大型語言模型(MLLMs)在醫學領域具有重要潛力,但其能力常常受特定醫學領域數據不足的限制,凸顯了需要了解MLLMs可以用於泛化的何種類型圖像。目前的研究表明,多任務訓練優於單任務,因為不同任務可以互相受益,但它們常常忽略這些任務內部關係,對於選擇增強特定任務的數據集提供有限指導。為了分析這一現象,我們嘗試採用組合泛化(CG)-模型理解通過重新組合學習元素來理解新組合的能力-作為指導框架。由於醫學圖像可以通過模態、解剖區域和任務精確定義,自然提供了一個探索CG的環境。因此,我們組合了106個醫學數據集來創建Med-MAT進行全面實驗。實驗證實了MLLMs可以使用CG來理解看不見的醫學圖像,並將CG識別為多任務訓練觀察到的泛化的主要驅動因素之一。此外,進一步研究表明,CG有效支持數據有限的數據集,並在不同骨幹上提供一致的性能,凸顯了其多功能性和廣泛應用性。Med-MAT可在https://github.com/FreedomIntelligence/Med-MAT 上公開獲得。
像 OpenAI o1 這樣的模型表現出色,歸功於它們在推論過程中能夠模擬類似人類的長期思考能力。這些模型採用延伸的思維鏈 (CoT) 過程,探索多種策略以增強解決問題的能力。然而,一個關鍵問題仍然存在:如何在測試過程中智能且有效地擴展計算資源。本文首次全面研究了這些模型中普遍存在的過度思考問題,即為簡單問題分配過多計算資源而獲益微乎其微。我們從結果和過程的角度引入了新穎的效率指標,以評估類似 o1 模型對計算資源的合理使用。通過自我訓練範式,我們提出了減輕過度思考的策略,使推理過程更加流暢,同時不影響準確性。實驗結果表明,我們的方法成功減少了計算開銷,同時在各種難度不同的測試集(如 GSM8K、MATH500、GPQA 和 AIME)上保持了模型性能。
最近在生成建模方面的進展現在使得可以通過文本提示來控制的方式創建4D內容(移動的3D物體)。 4D生成在虛擬世界、媒體和遊戲等應用中具有巨大潛力,但現有方法對生成內容的外觀和幾何形狀提供的控制有限。在這項工作中,我們介紹了一種方法,通過條件化文本提示來引導4D生成,從而實現對用戶提供的3D物體進行動畫化,同時保持原始物體的身份。我們首先將3D網格轉換為保留輸入物體視覺屬性的“靜態”4D神經輻射場(NeRF)。然後,我們使用由文本驅動的圖像到視頻擴散模型來對物體進行動畫化。為了提高運動的真實感,我們引入了一種增量視角選擇協議,用於採樣視角以促進逼真的運動,以及一種採用遮罩分散抽樣(SDS)損失的得分蒸餾採樣方法,該方法利用注意力地圖來將優化集中在相關區域。我們通過時間相干性、提示遵循性和視覺保真度來評估我們的模型,發現我們的方法優於基於其他方法的基線,在使用LPIPS分數衡量的身份保留方面實現了最多三倍的改進,並有效平衡了視覺質量與動態內容。
大型語言模型(LLMs)的快速演進已經展示了它們在高級推理任務中的能力,如數學問題解決、程式碼生成和法律分析。這一進展的核心是推理時間推理算法,通過探索多個解決方案路徑來優化輸出,但這會增加計算需求和響應延遲。現有的服務系統無法適應這些算法的擴展行為或查詢的不同難度,導致資源使用效率低下且無法滿足延遲目標。 我們提出了Dynasor,這是一個針對LLM推理查詢優化推理時間計算的系統。與傳統引擎不同,Dynasor在推理查詢內部跟蹤和安排請求,並使用Certaindex,一個基於模型確定性測量統計推理進度的代理,來動態指導計算分配。Dynasor通過與推理進度共同適應安排:它為困難的查詢分配更多計算資源,為簡單的查詢減少計算資源,並及早終止無前途的查詢,平衡準確性、延遲和成本。在各種數據集和算法上,Dynasor在批處理中將計算資源減少了多達50%,同時在線服務中維持了3.3倍更高的查詢速率或4.7倍更緊湊的延遲SLOs。
我們提出了 SWE-Gym,這是第一個用於訓練真實世界軟體工程 (SWE) 代理的環境。SWE-Gym 包含 2,438 個真實世界的 Python 任務實例,每個實例包括一個具有可執行運行環境、單元測試和以自然語言指定的任務的程式庫。我們使用 SWE-Gym 來訓練基於語言模型的 SWE 代理,實現在流行的 SWE-Bench Verified 和 Lite 測試集上高達 19% 的絕對改進率。我們還通過從 SWE-Gym 中抽樣的代理軌跡訓練驗證器,進行推論時間的擴展實驗。當與我們微調的 SWE 代理結合時,我們在 SWE-Bench Verified 和 Lite 上分別達到 32.0% 和 26.0%,反映了開放權重 SWE 代理的最新技術水準。為了促進進一步的研究,我們公開發布了 SWE-Gym、模型和代理軌跡。
我們介紹了 TangoFlux,一個高效的文本轉語音(TTA)生成模型,擁有 5.15 億個參數,能夠在單個 A40 GPU 上僅需 3.7 秒內生成長達 30 秒的 44.1kHz 音頻。在對齊 TTA 模型時的一個關鍵挑戰在於創建偏好對,因為 TTA 缺乏像大型語言模型(LLMs)那樣的結構化機制,例如可驗證的獎勵或黃金標準答案。為了應對這一挑戰,我們提出了 CLAP-Ranked Preference Optimization(CRPO),一個新穎的框架,通過迭代生成和優化偏好數據來增強 TTA 對齊。我們展示了使用 CRPO 生成的音頻偏好數據優於現有的替代方案。通過這一框架,TangoFlux 在客觀和主觀基準測試中均實現了最先進的性能。我們開源所有代碼和模型,以支持進一步的 TTA 生成研究。
作為一個經過驗證的需求,跨越野外圖像的一致編輯仍然是一個技術挑戰,源於各種無法控制的因素,如物體姿勢、光線條件和攝影環境。Edicho 提出了一個基於擴散模型的無需訓練解決方案,具有一個基本設計原則,即使用明確的圖像對應來指導編輯。具體來說,關鍵組件包括一個注意力操作模塊和一個精心調整的無分類器指導(CFG)去噪策略,兩者都考慮了預估的對應關係。這種推理時間算法具有即插即用的特性,與大多數基於擴散的編輯方法(如 ControlNet 和 BrushNet)兼容。廣泛的結果展示了 Edicho 在不同設置下實現一致跨圖像編輯的有效性。我們將釋放代碼以促進未來的研究。
我們提出了一種名為PERSE的方法,用於從參考肖像建立一個可動畫且個性化的生成頭像。我們的頭像模型能夠在連續且解耦的潛在空間中進行面部屬性編輯,以控制每個面部屬性,同時保留個人的身份特徵。為了實現這一目標,我們的方法首先通過合成大規模的2D合成視頻數據集來開始,其中每個視頻包含面部表情和視角的一致變化,結合原始輸入中特定面部屬性的變化。我們提出了一種新的流程,用於生成具有面部屬性編輯的高質量、照片逼真的2D視頻。利用這個合成屬性數據集,我們提出了一種基於3D高斯散點的個性化頭像創建方法,學習一個連續且解耦的潛在空間,用於直觀地進行面部屬性操作。為了在這個潛在空間中實現平滑過渡,我們引入了一種潛在空間正則化技術,通過使用插值的2D面部作為監督。與先前的方法相比,我們展示了PERSE生成具有插值屬性的高質量頭像,同時保留了參考人物的身份特徵。
大型語言模型(LLM)技術的快速進展導致強大的開源指導調整的LLM的推出,其文本生成質量與GPT-4等最先進的對應模型相同。雖然這些模型的出現加速了LLM技術在敏感信息環境中的應用,但這些模型的作者並未披露複製結果所需的訓練數據,因此使這些成就僅限於模型本身。由於這些開源模型也是多語言的,這反過來降低了訓練特定語言的LLM的好處,因為提高的推理計算效率成為這種昂貴程序的唯一確定優勢。由於缺乏高質量的指導調整數據,更具成本效益的選項,如詞彙擴展和隨後持續的預訓練,也受到限制,因為這是導致結果LLM任務解決能力的主要因素。為了應對這些限制並降低語言適應流程的成本,我們提出了學習嵌入傳播(LEP)。與現有方法不同,我們的方法由於對現有LLM知識的影響極小,因此對訓練數據量的要求較低,我們使用新型的特設嵌入傳播程序加以強化,該程序允許跳過指導調整步驟,而是將新的語言知識直接植入任何現有的指導調整變體中。我們對LLaMa-3-8B和Mistral-7B進行了四種俄語詞彙適應的評估,結果顯示LEP與傳統的指導調整方法競爭力相當,實現了與OpenChat 3.5和LLaMa-3-8B-Instruct相當的性能,通過自校準和持續調整進一步提高了任務解決能力。
我們介紹了 OneKE,一個以 Docker 包裝的基於架構引導的知識提取系統,可以從網絡和原始 PDF 書籍中提取知識,並支持各種領域(科學、新聞等)。具體來說,我們設計了 OneKE,其中包括多個代理和配置知識庫。不同的代理執行其各自的角色,實現對各種提取場景的支持。配置知識庫促進了架構配置、錯誤情況的調試和修正,進一步提高了性能。對基準數據集的實證評估顯示了 OneKE 的有效性,而案例研究進一步闡明了其對多個領域的各種任務的適應性,突顯了其廣泛應用的潛力。我們已在 https://github.com/zjunlp/OneKE 上開源了代碼,並發布了一個視頻,網址為 http://oneke.openkg.cn/demo.mp4。
最近,“視覺 o1” 開始進入人們的視野,期望這種慢思考的設計能夠解決視覺推理任務,尤其是幾何數學問題。然而,目前的大視覺語言模型(LVLMs)甚至難以準確複製一個幾何圖形,更不用說真正理解幾何形狀內部複雜的邏輯和空間關係。我們認為準確複製(強感知)是視覺 o1 的第一步。因此,我們引入“慢感知”(SP)的概念,引導模型逐步感知基本的點線組合,就像我們人類逐步重構複雜的幾何結構一樣。慢感知有兩個階段:a)感知分解。感知並非瞬間完成。在這個階段,將複雜的幾何圖形分解為基本的簡單單元,以統一幾何表示。b)感知流,承認準確追踪一條線並不是一個容易的任務。這個階段旨在通過使用提出的“感知尺”逐筆追踪每條線段,避免在回歸線段時出現“長距離的視覺跳躍”。令人驚訝的是,這種類似人類感知方式享有一個推論時間縮放定律——越慢越好。過去,研究人員努力加快模型的感知速度,但我們再次放慢它,讓模型逐步且仔細地閱讀圖像。
我們引入了自我調用程式碼生成,這是一項新任務,旨在評估LLMs的漸進推理和問題解決能力。在這個任務中,模型被呈現一個基本問題和一個相關的更複雜問題。它們必須解決基本問題,然後利用其解決方案來解決更複雜的問題。這項工作包含三個關鍵貢獻。首先,我們提出了一般的生成更具挑戰性版本現有基準的方法,結果產生了三個新基準:HumanEval Pro、MBPP Pro和BigCodeBench-Lite Pro,專門設計用於評估LLMs的自我調用程式碼生成。其次,通過對我們基準上二十個LLMs的實驗結果進行分析,我們有兩個重要觀察:(i) 大多數LLMs在傳統程式碼生成基準上表現出色,如HumanEval和MBPP,但在自我調用任務上表現下降。例如,o1-mini在HumanEval上達到96.2%的pass@1,但在HumanEval Pro上只有76.2%。(ii) 在自我調用程式碼生成任務中,經過指令調整的模型與基本模型相比僅有輕微改進。第三,我們揭示了存在於評估結果中的失敗模式類型。所有這些結果強調了對自我調用程式碼生成任務進一步進展的需求,並為未來研究提供了增強LLMs程式碼推理能力的新方向。