每日精選AI研究論文及翻譯
電腦視覺(CV)尚未完全實現自然語言處理(NLP)中觀察到的零-shot任務泛化,儘管採用了許多NLP中建立的里程碑,如大型Transformer模型、廣泛的預訓練和自回歸範式等。在本文中,我們探討了一個觀點,即CV採用離散和術語化的任務定義(例如,“圖像分割”),這可能是零-shot任務泛化的一個關鍵障礙。我們的假設是,由於這些術語化定義,深度模型在沒有真正理解先前見過的任務的情況下,很難對新任務進行泛化。為了驗證這一點,我們引入了解釋性指令,通過從輸入圖像到輸出的詳細語言轉換提供了一種直觀定義CV任務目標的方式。我們創建了一個包含1200萬個“圖像輸入到解釋性指令到輸出”三元組的大規模數據集,並訓練了一個基於自回歸的視覺語言模型(AR-based VLM),該模型將圖像和解釋性指令作為輸入。通過學習遵循這些指令,基於AR的VLM實現了對先前見過的任務的指令級零-shot能力,並展示了對未見CV任務的強大零-shot泛化。代碼和數據集將在我們的GitHub存儲庫中公開提供。
多模態大型語言模型(MLLMs)在醫療領域具有顯著潛力,但其能力常因特定醫學領域數據不足而受限,這凸顯了需明確理解哪些類型的影像能被MLLMs用於泛化。現有研究表明,多任務訓練因不同任務可相互促進而優於單任務訓練,但這些研究往往忽略任務間的內在關聯,對如何選擇數據集以增強特定任務的指導有限。為分析此現象,我們嘗試採用組合泛化(CG)——即模型透過重組已學習元素來理解新穎組合的能力——作為指導框架。由於醫學影像可透過成像模態、解剖區域與任務目標進行精確定義,自然為探索CG提供了理想環境。為此,我們整合106個醫學數據集構建Med-MAT以進行全面實驗。實驗證實MLLMs能運用CG理解未見過的醫學影像,並確定CG是多任務訓練中觀察到泛化現象的主要驅動因素之一。進一步研究還表明,CG能有效支援數據量有限的數據集,並在不同骨幹網絡中保持穩定性能,彰顯其通用性與廣泛適用性。Med-MAT已公開於https://github.com/FreedomIntelligence/Med-MAT。
大型語言模型(LLMs)的快速演進已經展示了它們在高級推理任務中的能力,如數學問題解決、程式碼生成和法律分析。這一進展的核心是推理時間推理算法,通過探索多個解決方案路徑來優化輸出,但這會增加計算需求和響應延遲。現有的服務系統無法適應這些算法的擴展行為或查詢的不同難度,導致資源使用效率低下且無法滿足延遲目標。 我們提出了Dynasor,這是一個針對LLM推理查詢優化推理時間計算的系統。與傳統引擎不同,Dynasor在推理查詢內部跟蹤和安排請求,並使用Certaindex,一個基於模型確定性測量統計推理進度的代理,來動態指導計算分配。Dynasor通過與推理進度共同適應安排:它為困難的查詢分配更多計算資源,為簡單的查詢減少計算資源,並及早終止無前途的查詢,平衡準確性、延遲和成本。在各種數據集和算法上,Dynasor在批處理中將計算資源減少了多達50%,同時在線服務中維持了3.3倍更高的查詢速率或4.7倍更緊湊的延遲SLOs。
作為一項已驗證的需求,在真實場景圖像中實現一致性編輯仍是技術挑戰,這源於諸多不可控因素,如物體姿態、光照條件和拍攝環境。Edicho提出了一種基於擴散模型的免訓練解決方案,其核心設計原理是利用顯式圖像對應關係來指導編輯。具體而言,關鍵組件包括注意力操控模組和精心優化的無分類器引導(CFG)去噪策略,兩者均考量了預先估算的對應關係。這種推理階段的演算法具備即插即用特性,可兼容多數基於擴散的編輯方法(如ControlNet和BrushNet)。大量實驗結果證實Edicho在多種設定下實現跨圖像一致性編輯的有效性。我們將公開程式碼以促進後續研究。
我們提出PERSE方法,能從參考肖像構建可動畫化的個人化生成式虛擬化身。該虛擬化身模型具備連續且解耦的潛在空間,可透過面部屬性編輯精確控制各項面部特徵,同時保持個體身份識別度。為實現此目標,我們首先生成大規模合成2D影片數據集,每段影片在保持面部表情與視角連貫變化的基礎上,結合原始輸入的特定面部屬性變異。我們提出創新流程來生成高品質、具照片真實感的2D面部屬性編輯影片。基於此合成屬性數據集,我們採用3D高斯潑濺技術開發個人化虛擬化身建構方法,透過學習連續解耦潛在空間實現直觀的面部屬性操控。為確保潛在空間中的平滑過渡,我們引入潛在空間正則化技術,以插值生成的2D面部作為監督信號。相較既有方法,PERSE能生成具有插值屬性的高品質虛擬化身,同時完美保留參考人物的身份特徵。
大型語言模型(LLM)技術的快速進展導致強大的開源指導調整的LLM的推出,其文本生成質量與GPT-4等最先進的對應模型相同。雖然這些模型的出現加速了LLM技術在敏感信息環境中的應用,但這些模型的作者並未披露複製結果所需的訓練數據,因此使這些成就僅限於模型本身。由於這些開源模型也是多語言的,這反過來降低了訓練特定語言的LLM的好處,因為提高的推理計算效率成為這種昂貴程序的唯一確定優勢。由於缺乏高質量的指導調整數據,更具成本效益的選項,如詞彙擴展和隨後持續的預訓練,也受到限制,因為這是導致結果LLM任務解決能力的主要因素。為了應對這些限制並降低語言適應流程的成本,我們提出了學習嵌入傳播(LEP)。與現有方法不同,我們的方法由於對現有LLM知識的影響極小,因此對訓練數據量的要求較低,我們使用新型的特設嵌入傳播程序加以強化,該程序允許跳過指導調整步驟,而是將新的語言知識直接植入任何現有的指導調整變體中。我們對LLaMa-3-8B和Mistral-7B進行了四種俄語詞彙適應的評估,結果顯示LEP與傳統的指導調整方法競爭力相當,實現了與OpenChat 3.5和LLaMa-3-8B-Instruct相當的性能,通過自校準和持續調整進一步提高了任務解決能力。
我們介紹了 OneKE,一個以 Docker 包裝的基於架構引導的知識提取系統,可以從網絡和原始 PDF 書籍中提取知識,並支持各種領域(科學、新聞等)。具體來說,我們設計了 OneKE,其中包括多個代理和配置知識庫。不同的代理執行其各自的角色,實現對各種提取場景的支持。配置知識庫促進了架構配置、錯誤情況的調試和修正,進一步提高了性能。對基準數據集的實證評估顯示了 OneKE 的有效性,而案例研究進一步闡明了其對多個領域的各種任務的適應性,突顯了其廣泛應用的潛力。我們已在 https://github.com/zjunlp/OneKE 上開源了代碼,並發布了一個視頻,網址為 http://oneke.openkg.cn/demo.mp4。
最近,“視覺 o1” 開始進入人們的視野,期望這種慢思考的設計能夠解決視覺推理任務,尤其是幾何數學問題。然而,目前的大視覺語言模型(LVLMs)甚至難以準確複製一個幾何圖形,更不用說真正理解幾何形狀內部複雜的邏輯和空間關係。我們認為準確複製(強感知)是視覺 o1 的第一步。因此,我們引入“慢感知”(SP)的概念,引導模型逐步感知基本的點線組合,就像我們人類逐步重構複雜的幾何結構一樣。慢感知有兩個階段:a)感知分解。感知並非瞬間完成。在這個階段,將複雜的幾何圖形分解為基本的簡單單元,以統一幾何表示。b)感知流,承認準確追踪一條線並不是一個容易的任務。這個階段旨在通過使用提出的“感知尺”逐筆追踪每條線段,避免在回歸線段時出現“長距離的視覺跳躍”。令人驚訝的是,這種類似人類感知方式享有一個推論時間縮放定律——越慢越好。過去,研究人員努力加快模型的感知速度,但我們再次放慢它,讓模型逐步且仔細地閱讀圖像。
我們引入了自我調用程式碼生成,這是一項新任務,旨在評估LLMs的漸進推理和問題解決能力。在這個任務中,模型被呈現一個基本問題和一個相關的更複雜問題。它們必須解決基本問題,然後利用其解決方案來解決更複雜的問題。這項工作包含三個關鍵貢獻。首先,我們提出了一般的生成更具挑戰性版本現有基準的方法,結果產生了三個新基準:HumanEval Pro、MBPP Pro和BigCodeBench-Lite Pro,專門設計用於評估LLMs的自我調用程式碼生成。其次,通過對我們基準上二十個LLMs的實驗結果進行分析,我們有兩個重要觀察:(i) 大多數LLMs在傳統程式碼生成基準上表現出色,如HumanEval和MBPP,但在自我調用任務上表現下降。例如,o1-mini在HumanEval上達到96.2%的pass@1,但在HumanEval Pro上只有76.2%。(ii) 在自我調用程式碼生成任務中,經過指令調整的模型與基本模型相比僅有輕微改進。第三,我們揭示了存在於評估結果中的失敗模式類型。所有這些結果強調了對自我調用程式碼生成任務進一步進展的需求,並為未來研究提供了增強LLMs程式碼推理能力的新方向。