ChatPaper.aiChatPaper.ai
首頁

arXiv

HuggingFace

定價賬戶工作台

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI研究論文每日精選

每日精選AI研究論文及翻譯

1

解釋性指示:朝向統一的視覺任務理解和零樣本泛化
Explanatory Instructions: Towards Unified Vision Tasks Understanding and Zero-shot Generalization

Dec 24
ByYang Shen, Xiu-Shen Wei, Yifan Sun, Yuxin Song, Tao Yuan, Jian Jin, Heyang Xu, Yazhou Yao, Errui Ding
75
2

電腦視覺(CV)尚未完全實現自然語言處理(NLP)中觀察到的零-shot任務泛化,儘管採用了許多NLP中建立的里程碑,如大型Transformer模型、廣泛的預訓練和自回歸範式等。在本文中,我們探討了一個觀點,即CV採用離散和術語化的任務定義(例如,“圖像分割”),這可能是零-shot任務泛化的一個關鍵障礙。我們的假設是,由於這些術語化定義,深度模型在沒有真正理解先前見過的任務的情況下,很難對新任務進行泛化。為了驗證這一點,我們引入了解釋性指令,通過從輸入圖像到輸出的詳細語言轉換提供了一種直觀定義CV任務目標的方式。我們創建了一個包含1200萬個“圖像輸入到解釋性指令到輸出”三元組的大規模數據集,並訓練了一個基於自回歸的視覺語言模型(AR-based VLM),該模型將圖像和解釋性指令作為輸入。通過學習遵循這些指令,基於AR的VLM實現了對先前見過的任務的指令級零-shot能力,並展示了對未見CV任務的強大零-shot泛化。代碼和數據集將在我們的GitHub存儲庫中公開提供。

2

論多模態大型語言模型在醫學影像中的組合泛化能力
On the Compositional Generalization of Multimodal LLMs for Medical Imaging

Dec 28
ByZhenyang Cai, Junying Chen, Rongsheng Wang, Weihong Wang, Yonglin Deng, Dingjie Song, Yize Chen, Zixu Zhang, Benyou Wang
45
4

多模態大型語言模型(MLLMs)在醫療領域具有顯著潛力,但其能力常因特定醫學領域數據不足而受限,這凸顯了需明確理解哪些類型的影像能被MLLMs用於泛化。現有研究表明,多任務訓練因不同任務可相互促進而優於單任務訓練,但這些研究往往忽略任務間的內在關聯,對如何選擇數據集以增強特定任務的指導有限。為分析此現象,我們嘗試採用組合泛化(CG)——即模型透過重組已學習元素來理解新穎組合的能力——作為指導框架。由於醫學影像可透過成像模態、解剖區域與任務目標進行精確定義,自然為探索CG提供了理想環境。為此,我們整合106個醫學數據集構建Med-MAT以進行全面實驗。實驗證實MLLMs能運用CG理解未見過的醫學影像,並確定CG是多任務訓練中觀察到泛化現象的主要驅動因素之一。進一步研究還表明,CG能有效支援數據量有限的數據集,並在不同骨幹網絡中保持穩定性能,彰顯其通用性與廣泛適用性。Med-MAT已公開於https://github.com/FreedomIntelligence/Med-MAT。

3

使用Certaindex高效地服務LLM推理程序
Efficiently Serving LLM Reasoning Programs with Certaindex

Dec 30
ByYichao Fu, Junda Chen, Siqi Zhu, Zheyu Fu, Zhongdongming Dai, Aurick Qiao, Hao Zhang
37
2

大型語言模型(LLMs)的快速演進已經展示了它們在高級推理任務中的能力,如數學問題解決、程式碼生成和法律分析。這一進展的核心是推理時間推理算法,通過探索多個解決方案路徑來優化輸出,但這會增加計算需求和響應延遲。現有的服務系統無法適應這些算法的擴展行為或查詢的不同難度,導致資源使用效率低下且無法滿足延遲目標。 我們提出了Dynasor,這是一個針對LLM推理查詢優化推理時間計算的系統。與傳統引擎不同,Dynasor在推理查詢內部跟蹤和安排請求,並使用Certaindex,一個基於模型確定性測量統計推理進度的代理,來動態指導計算分配。Dynasor通過與推理進度共同適應安排:它為困難的查詢分配更多計算資源,為簡單的查詢減少計算資源,並及早終止無前途的查詢,平衡準確性、延遲和成本。在各種數據集和算法上,Dynasor在批處理中將計算資源減少了多達50%,同時在線服務中維持了3.3倍更高的查詢速率或4.7倍更緊湊的延遲SLOs。

4

Edicho:實現野外環境下的一致性影像編輯
Edicho: Consistent Image Editing in the Wild

Dec 30
ByQingyan Bai, Hao Ouyang, Yinghao Xu, Qiuyu Wang, Ceyuan Yang, Ka Leong Cheng, Yujun Shen, Qifeng Chen
23
2

作為一項已驗證的需求,在真實場景圖像中實現一致性編輯仍是技術挑戰,這源於諸多不可控因素,如物體姿態、光照條件和拍攝環境。Edicho提出了一種基於擴散模型的免訓練解決方案,其核心設計原理是利用顯式圖像對應關係來指導編輯。具體而言,關鍵組件包括注意力操控模組和精心優化的無分類器引導(CFG)去噪策略,兩者均考量了預先估算的對應關係。這種推理階段的演算法具備即插即用特性,可兼容多數基於擴散的編輯方法(如ControlNet和BrushNet)。大量實驗結果證實Edicho在多種設定下實現跨圖像一致性編輯的有效性。我們將公開程式碼以促進後續研究。

5

PERSE:基於單張肖像的個人化3D生成化身技術
PERSE: Personalized 3D Generative Avatars from A Single Portrait

Dec 30
ByHyunsoo Cha, Inhee Lee, Hanbyul Joo
20
3

我們提出PERSE方法,能從參考肖像構建可動畫化的個人化生成式虛擬化身。該虛擬化身模型具備連續且解耦的潛在空間,可透過面部屬性編輯精確控制各項面部特徵,同時保持個體身份識別度。為實現此目標,我們首先生成大規模合成2D影片數據集,每段影片在保持面部表情與視角連貫變化的基礎上,結合原始輸入的特定面部屬性變異。我們提出創新流程來生成高品質、具照片真實感的2D面部屬性編輯影片。基於此合成屬性數據集,我們採用3D高斯潑濺技術開發個人化虛擬化身建構方法,透過學習連續解耦潛在空間實現直觀的面部屬性操控。為確保潛在空間中的平滑過渡,我們引入潛在空間正則化技術,以插值生成的2D面部作為監督信號。相較既有方法,PERSE能生成具有插值屬性的高品質虛擬化身,同時完美保留參考人物的身份特徵。

6

透過學習嵌入傳播促進大型語言模型的俄語適應
Facilitating large language model Russian adaptation with Learned Embedding Propagation

Dec 30
ByMikhail Tikhomirov, Daniil Chernyshev
18
2

大型語言模型(LLM)技術的快速進展導致強大的開源指導調整的LLM的推出,其文本生成質量與GPT-4等最先進的對應模型相同。雖然這些模型的出現加速了LLM技術在敏感信息環境中的應用,但這些模型的作者並未披露複製結果所需的訓練數據,因此使這些成就僅限於模型本身。由於這些開源模型也是多語言的,這反過來降低了訓練特定語言的LLM的好處,因為提高的推理計算效率成為這種昂貴程序的唯一確定優勢。由於缺乏高質量的指導調整數據,更具成本效益的選項,如詞彙擴展和隨後持續的預訓練,也受到限制,因為這是導致結果LLM任務解決能力的主要因素。為了應對這些限制並降低語言適應流程的成本,我們提出了學習嵌入傳播(LEP)。與現有方法不同,我們的方法由於對現有LLM知識的影響極小,因此對訓練數據量的要求較低,我們使用新型的特設嵌入傳播程序加以強化,該程序允許跳過指導調整步驟,而是將新的語言知識直接植入任何現有的指導調整變體中。我們對LLaMa-3-8B和Mistral-7B進行了四種俄語詞彙適應的評估,結果顯示LEP與傳統的指導調整方法競爭力相當,實現了與OpenChat 3.5和LLaMa-3-8B-Instruct相當的性能,通過自校準和持續調整進一步提高了任務解決能力。

7

OneKE:一個使用Docker容器化的基於Schema-Guided LLM代理的知識提取系統
OneKE: A Dockerized Schema-Guided LLM Agent-based Knowledge Extraction System

Dec 28
ByYujie Luo, Xiangyuan Ru, Kangwei Liu, Lin Yuan, Mengshu Sun, Ningyu Zhang, Lei Liang, Zhiqiang Zhang, Jun Zhou, Lanning Wei, Da Zheng, Haofen Wang, Huajun Chen
17
2

我們介紹了 OneKE,一個以 Docker 包裝的基於架構引導的知識提取系統,可以從網絡和原始 PDF 書籍中提取知識,並支持各種領域(科學、新聞等)。具體來說,我們設計了 OneKE,其中包括多個代理和配置知識庫。不同的代理執行其各自的角色,實現對各種提取場景的支持。配置知識庫促進了架構配置、錯誤情況的調試和修正,進一步提高了性能。對基準數據集的實證評估顯示了 OneKE 的有效性,而案例研究進一步闡明了其對多個領域的各種任務的適應性,突顯了其廣泛應用的潛力。我們已在 https://github.com/zjunlp/OneKE 上開源了代碼,並發布了一個視頻,網址為 http://oneke.openkg.cn/demo.mp4。

8

緩慢感知:讓我們逐步感知幾何圖形
Slow Perception: Let's Perceive Geometric Figures Step-by-step

Dec 30
ByHaoran Wei, Youyang Yin, Yumeng Li, Jia Wang, Liang Zhao, Jianjian Sun, Zheng Ge, Xiangyu Zhang
16
2

最近,“視覺 o1” 開始進入人們的視野,期望這種慢思考的設計能夠解決視覺推理任務,尤其是幾何數學問題。然而,目前的大視覺語言模型(LVLMs)甚至難以準確複製一個幾何圖形,更不用說真正理解幾何形狀內部複雜的邏輯和空間關係。我們認為準確複製(強感知)是視覺 o1 的第一步。因此,我們引入“慢感知”(SP)的概念,引導模型逐步感知基本的點線組合,就像我們人類逐步重構複雜的幾何結構一樣。慢感知有兩個階段:a)感知分解。感知並非瞬間完成。在這個階段,將複雜的幾何圖形分解為基本的簡單單元,以統一幾何表示。b)感知流,承認準確追踪一條線並不是一個容易的任務。這個階段旨在通過使用提出的“感知尺”逐筆追踪每條線段,避免在回歸線段時出現“長距離的視覺跳躍”。令人驚訝的是,這種類似人類感知方式享有一個推論時間縮放定律——越慢越好。過去,研究人員努力加快模型的感知速度,但我們再次放慢它,讓模型逐步且仔細地閱讀圖像。

9

HumanEval Pro 和 MBPP Pro:在自我調用程式碼生成上評估大型語言模型
HumanEval Pro and MBPP Pro: Evaluating Large Language Models on Self-invoking Code Generation

Dec 30
ByZhaojian Yu, Yilun Zhao, Arman Cohan, Xiao-Ping Zhang
14
3

我們引入了自我調用程式碼生成,這是一項新任務,旨在評估LLMs的漸進推理和問題解決能力。在這個任務中,模型被呈現一個基本問題和一個相關的更複雜問題。它們必須解決基本問題,然後利用其解決方案來解決更複雜的問題。這項工作包含三個關鍵貢獻。首先,我們提出了一般的生成更具挑戰性版本現有基準的方法,結果產生了三個新基準:HumanEval Pro、MBPP Pro和BigCodeBench-Lite Pro,專門設計用於評估LLMs的自我調用程式碼生成。其次,通過對我們基準上二十個LLMs的實驗結果進行分析,我們有兩個重要觀察:(i) 大多數LLMs在傳統程式碼生成基準上表現出色,如HumanEval和MBPP,但在自我調用任務上表現下降。例如,o1-mini在HumanEval上達到96.2%的pass@1,但在HumanEval Pro上只有76.2%。(ii) 在自我調用程式碼生成任務中,經過指令調整的模型與基本模型相比僅有輕微改進。第三,我們揭示了存在於評估結果中的失敗模式類型。所有這些結果強調了對自我調用程式碼生成任務進一步進展的需求,並為未來研究提供了增強LLMs程式碼推理能力的新方向。

Dec 30
Dec 31
Jan 1