AI研究論文每日精選

每日精選AI研究論文及翻譯

解釋性指示：朝向統一的視覺任務理解和零樣本泛化
Explanatory Instructions: Towards Unified Vision Tasks Understanding and Zero-shot Generalization

Dec 24

ByYang Shen, Xiu-Shen Wei, Yifan Sun, Yuxin Song, Tao Yuan, Jian Jin, Heyang Xu, Yazhou Yao, Errui Ding

電腦視覺（CV）尚未完全實現自然語言處理（NLP）中觀察到的零-shot任務泛化，儘管採用了許多NLP中建立的里程碑，如大型Transformer模型、廣泛的預訓練和自回歸範式等。在本文中，我們探討了一個觀點，即CV採用離散和術語化的任務定義（例如，“圖像分割”），這可能是零-shot任務泛化的一個關鍵障礙。我們的假設是，由於這些術語化定義，深度模型在沒有真正理解先前見過的任務的情況下，很難對新任務進行泛化。為了驗證這一點，我們引入了解釋性指令，通過從輸入圖像到輸出的詳細語言轉換提供了一種直觀定義CV任務目標的方式。我們創建了一個包含1200萬個“圖像輸入到解釋性指令到輸出”三元組的大規模數據集，並訓練了一個基於自回歸的視覺語言模型（AR-based VLM），該模型將圖像和解釋性指令作為輸入。通過學習遵循這些指令，基於AR的VLM實現了對先前見過的任務的指令級零-shot能力，並展示了對未見CV任務的強大零-shot泛化。代碼和數據集將在我們的GitHub存儲庫中公開提供。

不要想太多，2+3=? 對於 o1-Like LLMs 的過度思考
Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs

Dec 30

ByXingyu Chen, Jiahao Xu, Tian Liang, Zhiwei He, Jianhui Pang, Dian Yu, Linfeng Song, Qiuzhi Liu, Mengfei Zhou, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu

像 OpenAI o1 這樣的模型表現出色，歸功於它們在推論過程中能夠模擬類似人類的長期思考能力。這些模型採用延伸的思維鏈 (CoT) 過程，探索多種策略以增強解決問題的能力。然而，一個關鍵問題仍然存在：如何在測試過程中智能且有效地擴展計算資源。本文首次全面研究了這些模型中普遍存在的過度思考問題，即為簡單問題分配過多計算資源而獲益微乎其微。我們從結果和過程的角度引入了新穎的效率指標，以評估類似 o1 模型對計算資源的合理使用。通過自我訓練範式，我們提出了減輕過度思考的策略，使推理過程更加流暢，同時不影響準確性。實驗結果表明，我們的方法成功減少了計算開銷，同時在各種難度不同的測試集（如 GSM8K、MATH500、GPQA 和 AIME）上保持了模型性能。

使用Certaindex高效地服務LLM推理程序
Efficiently Serving LLM Reasoning Programs with Certaindex

Dec 30

ByYichao Fu, Junda Chen, Siqi Zhu, Zheyu Fu, Zhongdongming Dai, Aurick Qiao, Hao Zhang

大型語言模型（LLMs）的快速演進已經展示了它們在高級推理任務中的能力，如數學問題解決、程式碼生成和法律分析。這一進展的核心是推理時間推理算法，通過探索多個解決方案路徑來優化輸出，但這會增加計算需求和響應延遲。現有的服務系統無法適應這些算法的擴展行為或查詢的不同難度，導致資源使用效率低下且無法滿足延遲目標。我們提出了Dynasor，這是一個針對LLM推理查詢優化推理時間計算的系統。與傳統引擎不同，Dynasor在推理查詢內部跟蹤和安排請求，並使用Certaindex，一個基於模型確定性測量統計推理進度的代理，來動態指導計算分配。Dynasor通過與推理進度共同適應安排：它為困難的查詢分配更多計算資源，為簡單的查詢減少計算資源，並及早終止無前途的查詢，平衡準確性、延遲和成本。在各種數據集和算法上，Dynasor在批處理中將計算資源減少了多達50％，同時在線服務中維持了3.3倍更高的查詢速率或4.7倍更緊湊的延遲SLOs。

使用SWE-Gym訓練軟體工程代理人和驗證器
Training Software Engineering Agents and Verifiers with SWE-Gym

Dec 30

ByJiayi Pan, Xingyao Wang, Graham Neubig, Navdeep Jaitly, Heng Ji, Alane Suhr, Yizhe Zhang

我們提出了 SWE-Gym，這是第一個用於訓練真實世界軟體工程 (SWE) 代理的環境。SWE-Gym 包含 2,438 個真實世界的 Python 任務實例，每個實例包括一個具有可執行運行環境、單元測試和以自然語言指定的任務的程式庫。我們使用 SWE-Gym 來訓練基於語言模型的 SWE 代理，實現在流行的 SWE-Bench Verified 和 Lite 測試集上高達 19% 的絕對改進率。我們還通過從 SWE-Gym 中抽樣的代理軌跡訓練驗證器，進行推論時間的擴展實驗。當與我們微調的 SWE 代理結合時，我們在 SWE-Bench Verified 和 Lite 上分別達到 32.0% 和 26.0%，反映了開放權重 SWE 代理的最新技術水準。為了促進進一步的研究，我們公開發布了 SWE-Gym、模型和代理軌跡。

TangoFlux：透過流匹配和拍手排序偏好優化，實現超快速且忠實的文本轉語音生成。
TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization

Dec 30

ByChia-Yu Hung, Navonil Majumder, Zhifeng Kong, Ambuj Mehrish, Rafael Valle, Bryan Catanzaro, Soujanya Poria

我們介紹了 TangoFlux，一個高效的文本轉語音（TTA）生成模型，擁有 5.15 億個參數，能夠在單個 A40 GPU 上僅需 3.7 秒內生成長達 30 秒的 44.1kHz 音頻。在對齊 TTA 模型時的一個關鍵挑戰在於創建偏好對，因為 TTA 缺乏像大型語言模型（LLMs）那樣的結構化機制，例如可驗證的獎勵或黃金標準答案。為了應對這一挑戰，我們提出了 CLAP-Ranked Preference Optimization（CRPO），一個新穎的框架，通過迭代生成和優化偏好數據來增強 TTA 對齊。我們展示了使用 CRPO 生成的音頻偏好數據優於現有的替代方案。通過這一框架，TangoFlux 在客觀和主觀基準測試中均實現了最先進的性能。我們開源所有代碼和模型，以支持進一步的 TTA 生成研究。

Edicho：實現野外環境下的一致性影像編輯
Edicho: Consistent Image Editing in the Wild

Dec 30

ByQingyan Bai, Hao Ouyang, Yinghao Xu, Qiuyu Wang, Ceyuan Yang, Ka Leong Cheng, Yujun Shen, Qifeng Chen

作為一項已驗證的需求，在真實場景圖像中實現一致性編輯仍是技術挑戰，這源於諸多不可控因素，如物體姿態、光照條件和拍攝環境。Edicho提出了一種基於擴散模型的免訓練解決方案，其核心設計原理是利用顯式圖像對應關係來指導編輯。具體而言，關鍵組件包括注意力操控模組和精心優化的無分類器引導（CFG）去噪策略，兩者均考量了預先估算的對應關係。這種推理階段的演算法具備即插即用特性，可兼容多數基於擴散的編輯方法（如ControlNet和BrushNet）。大量實驗結果證實Edicho在多種設定下實現跨圖像一致性編輯的有效性。我們將公開程式碼以促進後續研究。

PERSE：基於單張肖像的個人化3D生成化身技術
PERSE: Personalized 3D Generative Avatars from A Single Portrait

Dec 30

ByHyunsoo Cha, Inhee Lee, Hanbyul Joo

我們提出PERSE方法，能從參考肖像構建可動畫化的個人化生成式虛擬化身。該虛擬化身模型具備連續且解耦的潛在空間，可透過面部屬性編輯精確控制各項面部特徵，同時保持個體身份識別度。為實現此目標，我們首先生成大規模合成2D影片數據集，每段影片在保持面部表情與視角連貫變化的基礎上，結合原始輸入的特定面部屬性變異。我們提出創新流程來生成高品質、具照片真實感的2D面部屬性編輯影片。基於此合成屬性數據集，我們採用3D高斯潑濺技術開發個人化虛擬化身建構方法，透過學習連續解耦潛在空間實現直觀的面部屬性操控。為確保潛在空間中的平滑過渡，我們引入潛在空間正則化技術，以插值生成的2D面部作為監督信號。相較既有方法，PERSE能生成具有插值屬性的高品質虛擬化身，同時完美保留參考人物的身份特徵。

透過學習嵌入傳播促進大型語言模型的俄語適應
Facilitating large language model Russian adaptation with Learned Embedding Propagation

Dec 30

ByMikhail Tikhomirov, Daniil Chernyshev

大型語言模型（LLM）技術的快速進展導致強大的開源指導調整的LLM的推出，其文本生成質量與GPT-4等最先進的對應模型相同。雖然這些模型的出現加速了LLM技術在敏感信息環境中的應用，但這些模型的作者並未披露複製結果所需的訓練數據，因此使這些成就僅限於模型本身。由於這些開源模型也是多語言的，這反過來降低了訓練特定語言的LLM的好處，因為提高的推理計算效率成為這種昂貴程序的唯一確定優勢。由於缺乏高質量的指導調整數據，更具成本效益的選項，如詞彙擴展和隨後持續的預訓練，也受到限制，因為這是導致結果LLM任務解決能力的主要因素。為了應對這些限制並降低語言適應流程的成本，我們提出了學習嵌入傳播（LEP）。與現有方法不同，我們的方法由於對現有LLM知識的影響極小，因此對訓練數據量的要求較低，我們使用新型的特設嵌入傳播程序加以強化，該程序允許跳過指導調整步驟，而是將新的語言知識直接植入任何現有的指導調整變體中。我們對LLaMa-3-8B和Mistral-7B進行了四種俄語詞彙適應的評估，結果顯示LEP與傳統的指導調整方法競爭力相當，實現了與OpenChat 3.5和LLaMa-3-8B-Instruct相當的性能，通過自校準和持續調整進一步提高了任務解決能力。

OneKE：一個使用Docker容器化的基於Schema-Guided LLM代理的知識提取系統
OneKE: A Dockerized Schema-Guided LLM Agent-based Knowledge Extraction System

Dec 28

ByYujie Luo, Xiangyuan Ru, Kangwei Liu, Lin Yuan, Mengshu Sun, Ningyu Zhang, Lei Liang, Zhiqiang Zhang, Jun Zhou, Lanning Wei, Da Zheng, Haofen Wang, Huajun Chen

我們介紹了 OneKE，一個以 Docker 包裝的基於架構引導的知識提取系統，可以從網絡和原始 PDF 書籍中提取知識，並支持各種領域（科學、新聞等）。具體來說，我們設計了 OneKE，其中包括多個代理和配置知識庫。不同的代理執行其各自的角色，實現對各種提取場景的支持。配置知識庫促進了架構配置、錯誤情況的調試和修正，進一步提高了性能。對基準數據集的實證評估顯示了 OneKE 的有效性，而案例研究進一步闡明了其對多個領域的各種任務的適應性，突顯了其廣泛應用的潛力。我們已在 https://github.com/zjunlp/OneKE 上開源了代碼，並發布了一個視頻，網址為 http://oneke.openkg.cn/demo.mp4。

緩慢感知：讓我們逐步感知幾何圖形
Slow Perception: Let's Perceive Geometric Figures Step-by-step

Dec 30

ByHaoran Wei, Youyang Yin, Yumeng Li, Jia Wang, Liang Zhao, Jianjian Sun, Zheng Ge, Xiangyu Zhang

最近，“視覺 o1” 開始進入人們的視野，期望這種慢思考的設計能夠解決視覺推理任務，尤其是幾何數學問題。然而，目前的大視覺語言模型（LVLMs）甚至難以準確複製一個幾何圖形，更不用說真正理解幾何形狀內部複雜的邏輯和空間關係。我們認為準確複製（強感知）是視覺 o1 的第一步。因此，我們引入“慢感知”（SP）的概念，引導模型逐步感知基本的點線組合，就像我們人類逐步重構複雜的幾何結構一樣。慢感知有兩個階段：a）感知分解。感知並非瞬間完成。在這個階段，將複雜的幾何圖形分解為基本的簡單單元，以統一幾何表示。b）感知流，承認準確追踪一條線並不是一個容易的任務。這個階段旨在通過使用提出的“感知尺”逐筆追踪每條線段，避免在回歸線段時出現“長距離的視覺跳躍”。令人驚訝的是，這種類似人類感知方式享有一個推論時間縮放定律——越慢越好。過去，研究人員努力加快模型的感知速度，但我們再次放慢它，讓模型逐步且仔細地閱讀圖像。

HumanEval Pro 和 MBPP Pro：在自我調用程式碼生成上評估大型語言模型
HumanEval Pro and MBPP Pro: Evaluating Large Language Models on Self-invoking Code Generation

Dec 30

ByZhaojian Yu, Yilun Zhao, Arman Cohan, Xiao-Ping Zhang

我們引入了自我調用程式碼生成，這是一項新任務，旨在評估LLMs的漸進推理和問題解決能力。在這個任務中，模型被呈現一個基本問題和一個相關的更複雜問題。它們必須解決基本問題，然後利用其解決方案來解決更複雜的問題。這項工作包含三個關鍵貢獻。首先，我們提出了一般的生成更具挑戰性版本現有基準的方法，結果產生了三個新基準：HumanEval Pro、MBPP Pro和BigCodeBench-Lite Pro，專門設計用於評估LLMs的自我調用程式碼生成。其次，通過對我們基準上二十個LLMs的實驗結果進行分析，我們有兩個重要觀察：(i) 大多數LLMs在傳統程式碼生成基準上表現出色，如HumanEval和MBPP，但在自我調用任務上表現下降。例如，o1-mini在HumanEval上達到96.2%的pass@1，但在HumanEval Pro上只有76.2%。(ii) 在自我調用程式碼生成任務中，經過指令調整的模型與基本模型相比僅有輕微改進。第三，我們揭示了存在於評估結果中的失敗模式類型。所有這些結果強調了對自我調用程式碼生成任務進一步進展的需求，並為未來研究提供了增強LLMs程式碼推理能力的新方向。

AI研究論文每日精選

每日精選AI研究論文及翻譯

解釋性指示：朝向統一的視覺任務理解和零樣本泛化
Explanatory Instructions: Towards Unified Vision Tasks Understanding and Zero-shot Generalization

Dec 24

ByYang Shen, Xiu-Shen Wei, Yifan Sun, Yuxin Song, Tao Yuan, Jian Jin, Heyang Xu, Yazhou Yao, Errui Ding

不要想太多，2+3=? 對於 o1-Like LLMs 的過度思考
Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs

Dec 30

ByXingyu Chen, Jiahao Xu, Tian Liang, Zhiwei He, Jianhui Pang, Dian Yu, Linfeng Song, Qiuzhi Liu, Mengfei Zhou, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu

使用Certaindex高效地服務LLM推理程序
Efficiently Serving LLM Reasoning Programs with Certaindex

Dec 30

ByYichao Fu, Junda Chen, Siqi Zhu, Zheyu Fu, Zhongdongming Dai, Aurick Qiao, Hao Zhang

使用SWE-Gym訓練軟體工程代理人和驗證器
Training Software Engineering Agents and Verifiers with SWE-Gym

Dec 30

ByJiayi Pan, Xingyao Wang, Graham Neubig, Navdeep Jaitly, Heng Ji, Alane Suhr, Yizhe Zhang

TangoFlux：透過流匹配和拍手排序偏好優化，實現超快速且忠實的文本轉語音生成。
TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization

Dec 30

ByChia-Yu Hung, Navonil Majumder, Zhifeng Kong, Ambuj Mehrish, Rafael Valle, Bryan Catanzaro, Soujanya Poria

OneKE：一個使用Docker容器化的基於Schema-Guided LLM代理的知識提取系統
OneKE: A Dockerized Schema-Guided LLM Agent-based Knowledge Extraction System

Dec 28

ByYujie Luo, Xiangyuan Ru, Kangwei Liu, Lin Yuan, Mengshu Sun, Ningyu Zhang, Lei Liang, Zhiqiang Zhang, Jun Zhou, Lanning Wei, Da Zheng, Haofen Wang, Huajun Chen

緩慢感知：讓我們逐步感知幾何圖形
Slow Perception: Let's Perceive Geometric Figures Step-by-step

Dec 30

ByHaoran Wei, Youyang Yin, Yumeng Li, Jia Wang, Liang Zhao, Jianjian Sun, Zheng Ge, Xiangyu Zhang

HumanEval Pro 和 MBPP Pro：在自我調用程式碼生成上評估大型語言模型
HumanEval Pro and MBPP Pro: Evaluating Large Language Models on Self-invoking Code Generation

Dec 30

ByZhaojian Yu, Yilun Zhao, Arman Cohan, Xiao-Ping Zhang