AI研究論文每日精選

每日精選AI研究論文及翻譯

HuatuoGPT-o1，朝向具備醫學複雜推理能力的LLMs
HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs

Dec 25

ByJunying Chen, Zhenyang Cai, Ke Ji, Xidong Wang, Wanlong Liu, Rongsheng Wang, Jianye Hou, Benyou Wang

104

OpenAI o1的突破凸顯了增強推理以改進LLM的潛力。然而，大多數推理研究集中在數學任務上，使醫學等領域被忽視。醫學領域雖然與數學不同，但也需要堅固的推理能力以提供可靠答案，考慮到醫療保健的高標準。然而，驗證醫學推理是具有挑戰性的，不像數學中那樣容易。為了解決這個問題，我們提出了具有醫學驗證器的可驗證醫學問題，以檢查模型輸出的正確性。這種可驗證的特性通過兩階段方法促進醫學推理的進步：(1) 使用驗證器引導尋找複雜推理軌跡以微調LLM，(2) 應用強化學習（RL）與基於驗證器的獎勵來進一步增強複雜推理。最後，我們介紹了HuatuoGPT-o1，一個能夠進行複雜推理的醫學LLM，僅使用40K個可驗證問題就超越了一般和醫學特定基準。實驗表明，複雜推理改進了醫學問題解決能力，並且更多地受益於RL。我們希望我們的方法能激發醫學和其他專業領域推理的進步。

1. 58位元FLUX
1.58-bit FLUX

Dec 24

ByChenglin Yang, Celong Liu, Xueqing Deng, Dongwon Kim, Xing Mei, Xiaohui Shen, Liang-Chieh Chen

我們提出了1.58位元FLUX，這是第一個成功的方法，用於量化最先進的文本到圖像生成模型FLUX.1-dev，使用1.58位元權重（即值為{-1, 0, +1}），同時保持生成1024 x 1024圖像的可比性能。值得注意的是，我們的量化方法在沒有訪問圖像數據的情況下運作，僅依賴於FLUX.1-dev模型的自我監督。此外，我們開發了一個針對1.58位元操作進行優化的自定義核心，實現了模型存儲的7.7倍減少，推理內存的5.1倍減少，以及改進的推理延遲。在GenEval和T2I Compbench基準測試上進行了廣泛評估，證明了1.58位元FLUX在保持生成質量的同時顯著提高了計算效率。

走向多模態智能的下一個標記預測：一項全面調查
Next Token Prediction Towards Multimodal Intelligence: A Comprehensive Survey

Dec 16

ByLiang Chen, Zekun Wang, Shuhuai Ren, Lei Li, Haozhe Zhao, Yunshui Li, Zefan Cai, Hongcheng Guo, Lei Zhang, Yizhe Xiong, Yichi Zhang, Ruoyu Wu, Qingxiu Dong, Ge Zhang, Jian Yang, Lingwei Meng, Shujie Hu, Yulong Chen, Junyang Lin, Shuai Bai, Andreas Vlachos, Xu Tan, Minjia Zhang, Wen Xiao, Aaron Yee, Tianyu Liu, Baobao Chang

在自然語言處理的語言建模基礎上，下一個標記預測（NTP）已演變為機器學習任務的多功能訓練目標，跨越各種形式，取得了相當大的成功。隨著大型語言模型（LLMs）不斷發展，統一了文本形式中的理解和生成任務，最近的研究表明，來自不同形式的任務也可以有效地封裝在NTP框架中，將多模態信息轉換為標記，並根據上下文預測下一個標記。本調查通過NTP的角度引入了一個統一的分類法，將理解和生成統一在多模態學習中。所提出的分類法涵蓋了五個關鍵方面：多模態標記化、MMNTP模型架構、統一任務表示、數據集和評估，以及開放挑戰。這個新的分類法旨在幫助研究人員探索多模態智能。一個相關的 GitHub 存儲庫，收集最新的論文和存儲庫，可在 https://github.com/LMM101/Awesome-Multimodal-Next-Token-Prediction 找到。

從渲染3D模型中學習強健的物體方向估計
Orient Anything: Learning Robust Object Orientation Estimation from Rendering 3D Models

Dec 24

ByZehan Wang, Ziang Zhang, Tianyu Pang, Chao Du, Hengshuang Zhao, Zhou Zhao

方向是物體的關鍵屬性，對於理解它們在圖像中的空間姿態和排列至關重要。然而，從單張圖像準確估計方向的實用解決方案仍未得到充分探索。在這項工作中，我們介紹了 Orient Anything，這是第一個專業且基礎的模型，旨在估計單視角和自由視角圖像中的物體方向。由於標記數據稀缺，我們提出從 3D 世界中提取知識。通過開發一個流程來標註 3D 物體的正面並從隨機視角渲染圖像，我們收集了包含精確方向標註的 2M 張圖像。為了充分利用數據集，我們設計了一個強大的訓練目標，將 3D 方向建模為三個角度的概率分佈，並通過擬合這些分佈來預測物體方向。此外，我們採用了多種策略來改善從合成到真實的轉移。我們的模型在渲染和真實圖像中均實現了最先進的方向估計準確性，並展現了在各種情境中令人印象深刻的零樣本能力。更重要的是，我們的模型增強了許多應用，例如理解和生成複雜的空間概念和 3D 物體姿態調整。

任務偏好優化：通過視覺任務對齊改進多模式大型語言模型
Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment

Dec 26

ByZiang Yan, Zhilin Li, Yinan He, Chenting Wang, Kunchang Li, Xinhao Li, Xiangyu Zeng, Zilei Wang, Yali Wang, Yu Qiao, Limin Wang, Yi Wang

目前的多模式大型語言模型（MLLMs）雖然在視覺理解方面存在細緻或精確的困難，但在各種視覺應用中提供了全面的知覺和推理。最近的研究要麼發展工具使用，要麼將特定視覺任務統一到自回歸框架中，但這往往是以整體多模式性能為代價的。為了解決這個問題並以可擴展的方式增強具有視覺任務的MLLMs，我們提出了任務偏好優化（TPO），這是一種利用從典型的細粒度視覺任務中衍生的可微分任務偏好的新方法。TPO引入了可學習的任務標記，建立了多個任務特定頭部與MLLM之間的連接。通過在訓練過程中利用豐富的視覺標籤，TPO顯著增強了MLLM的多模式能力和任務特定性能。通過TPO中的多任務共同訓練，我們觀察到協同效應的好處，提高了單任務訓練方法無法達到的個別任務性能。我們將此方法與VideoChat和LLaVA結合，整體多模式性能相比基準模型提高了14.6%。此外，MLLM-TPO展示了在各種任務上的強大零-shot能力，表現與最先進的監督模型相當。代碼將在https://github.com/OpenGVLab/TPO 上發布。

從元素到設計：自動平面設計的分層方法構圖
From Elements to Design: A Layered Approach for Automatic Graphic Design Composition

Dec 27

ByJiawei Lin, Shizhao Sun, Danqing Huang, Ting Liu, Ji Li, Jiang Bian

在這項研究中，我們探討從多模態圖形元素進行自動設計合成。儘管最近的研究已經為圖形設計開發了各種生成模型，但它們通常面臨以下限制：它們僅專注於某些子任務，並且遠未達到設計合成任務；在生成過程中，它們並未考慮圖形設計的階層信息。為了應對這些問題，我們將分層設計原則引入大型多模態模型（LMMs），並提出一種新方法，稱為LaDeCo，以完成這一具有挑戰性的任務。具體來說，LaDeCo 首先針對給定元素集執行層規劃，根據其內容將輸入元素劃分為不同的語義層。基於規劃結果，它隨後以分層方式預測控制設計合成的元素屬性，並將先前生成的層的渲染圖像包含在上下文中。通過這種具洞察力的設計，LaDeCo將困難的任務分解為更小的可管理步驟，使生成過程更加順暢和清晰。實驗結果證明了LaDeCo在設計合成中的有效性。此外，我們展示了LaDeCo在圖形設計中實現一些有趣的應用，如分辨率調整、元素填充、設計變化等。此外，它甚至在某些設計子任務中優於專門模型，而無需進行任務特定的訓練。

使用Itô密度估計器對擴散模型進行叠加
The Superposition of Diffusion Models Using the Itô Density Estimator

Dec 23

ByMarta Skreta, Lazar Atanackovic, Avishek Joey Bose, Alexander Tong, Kirill Neklyudov

易於存取的多個預訓練擴散模型的寒武紀大爆發，顯示了對於結合多個不同預訓練擴散模型的方法的需求，而無需承擔重新訓練更大結合模型所帶來的顯著計算負擔。本文將在生成階段將結合多個預訓練擴散模型的問題，置於一個新提出的名為超位置的框架下。從著名的連續方程原理嚴謹地推導出超位置，並設計了兩種專為在SuperDiff中結合擴散模型而量身定制的新算法。SuperDiff利用一種新的可擴展It\^o密度估算器來計算擴散SDE的對數概似，與用於計算分歧的眾所周知的Hutchinson估算器相比，不會產生額外開銷。我們展示了SuperDiff在大型預訓練擴散模型上的可擴展性，因為超位置僅在推論過程中通過組合進行，並且在實現上也非常方便，因為它通過自動重新加權方案結合不同的預訓練向量場。值得注意的是，我們展示了SuperDiff在推論時的效率，並模擬了傳統的組合運算符，如邏輯OR和邏輯AND。我們在實驗中展示了使用SuperDiff在CIFAR-10上生成更多樣化圖像的效用，使用穩定擴散進行更忠實的提示條件圖像編輯，以及改進的蛋白質無條件全新結構設計。https://github.com/necludov/super-diffusion

VideoMaker：利用影片擴散模型的固有力量實現零樣本定制影片生成
VideoMaker: Zero-shot Customized Video Generation with the Inherent Force of Video Diffusion Models

Dec 27

ByTao Wu, Yong Zhang, Xiaodong Cun, Zhongang Qi, Junfu Pu, Huanzhang Dou, Guangcong Zheng, Ying Shan, Xi Li

零樣式定制視頻生成因其重要的應用潛力而受到廣泛關注。現有方法依賴額外模型來提取和注入參考主題特徵，假設僅靠視頻擴散模型（VDM）無法實現零樣式定制視頻生成。然而，這些方法常因特徵提取和注入技術不佳而難以保持主題外觀的一致性。本文揭示了VDM本身具有提取和注入主題特徵的能力。與以往的啟發式方法不同，我們提出了一個新的框架，利用VDM固有的力量實現高質量的零樣式定制視頻生成。具體而言，在特徵提取方面，我們將參考圖像直接輸入VDM並利用其內在的特徵提取過程，這不僅提供了細粒度特徵，還與VDM的預訓練知識顯著一致。對於特徵注入，我們通過VDM內的空間自注意力設計了一種創新的主題特徵和生成內容之間的雙向交互，確保VDM在保持生成視頻多樣性的同時具有更好的主題忠實度。對定制人類和物體視頻生成的實驗驗證了我們框架的有效性。

透過預調整和後調整模型合併來保護精細調整的LLMs
Safeguard Fine-Tuned LLMs Through Pre- and Post-Tuning Model Merging

Dec 27

ByHua Farn, Hsuan Su, Shachi H Kumar, Saurav Sahay, Shang-Tse Chen, Hung-yi Lee

對於下游任務，微調大型語言模型（LLMs）是一種廣泛採用的方法，但往往會導致安全導向的LLMs安全性下降。目前，許多解決方案通過納入額外的安全數據來解決這個問題，但在許多情況下這可能不切實際。本文探討了一個問題：在不依賴額外的安全數據的情況下，我們如何在LLMs中提高下游任務性能的同時保持安全性？我們提出了一種簡單而有效的方法，該方法保持LLMs的固有安全性，同時增強它們的下游任務性能：合併預微調和後微調的安全導向模型的權重。跨不同下游任務、模型和合併方法的實驗結果表明，這種方法有效地減輕了安全性下降，同時提高了下游任務的性能，為適應安全導向的LLMs提供了一個實用的解決方案。

CypherBench：朝向在LLM時代對全尺度現代知識圖進行精確檢索
CypherBench: Towards Precise Retrieval over Full-scale Modern Knowledge Graphs in the LLM Era

Dec 24

ByYanlin Feng, Simone Papicchio, Sajjadur Rahman

從圖形數據中檢索對於增強大型語言模型（LLM）具有關鍵意義，因為它能夠提供開放領域知識和私人企業數據，同時也是最近的GraphRAG系統（edge等，2024年）的關鍵組成部分。儘管在知識圖和知識庫問答方面進行了數十年的研究，但領先的LLM框架（例如Langchain和LlamaIndex）對於從現代百科知識圖（如Wikidata）中檢索僅提供了最低限度的支持。在本文中，我們分析了根本原因並建議，現代RDF知識圖（例如Wikidata、Freebase）對於LLM來說效率較低，原因在於其過於龐大的架構遠超過典型的LLM上下文窗口，使用資源識別符、重疊的關係類型和缺乏規範化。作為解決方案，我們提出在底層RDF圖之上的屬性圖視圖，可以通過使用Cypher有效地由LLM進行查詢。我們在Wikidata上實現了這一想法，並引入了CypherBench，這是第一個具有11個大規模、多領域屬性圖的基準測試，其中包含780萬個實體和超過10,000個問題。為實現此目標，我們應對了幾個關鍵挑戰，包括開發一個RDF到屬性圖轉換引擎、創建一個系統化的文本到Cypher任務生成流程，以及設計新的評估指標。

SBS 圖表：從階段合成圖像進行的預訓練圖像問答
SBS Figures: Pre-training Figure QA from Stage-by-Stage Synthesized Images

Dec 23

ByRisa Shinoda, Kuniaki Saito, Shohei Tanaka, Tosho Hirasawa, Yoshitaka Ushiku

建立一個大規模的圖形問答數據集需要大量的工作，從收集和選擇圖形到提取文本、數字和顏色等屬性，再到生成問答。儘管最近LLM的發展促使人們努力合成圖形，但大多數集中在問答生成方面。此外，使用LLM直接創建圖形時常遇到問題，如代碼錯誤、外觀相似的圖形和圖形中的重複內容。為了解決這個問題，我們提出了SBSFigures（逐階合成圖形），這是一個用於預訓練圖形問答的數據集。我們提出的流程使得能夠創建具有完整可視化數據標註和密集問答標註的圖表圖形，而無需進行任何手動標註過程。我們的逐階流程使得能夠高效地創建多樣的主題和外觀圖形，同時最大程度地減少代碼錯誤。我們的SBSFigures展示了強大的預訓練效果，使得能夠從我們的預訓練權重開始，僅使用有限量的真實圖表數據進行高效訓練。