AI研究論文每日精選

每日精選AI研究論文及翻譯

OmniHuman-1：重新思考單階段條件人類動畫模型的擴展
OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models

Feb 3

ByGaojie Lin, Jianwen Jiang, Jiaqi Yang, Zerong Zheng, Chao Liang

223

近年來，端對端人類動畫，如音訊驅動的說話人類生成，已經取得顯著進展。然而，現有方法仍然難以擴展為大型的一般視頻生成模型，限制了它們在實際應用中的潛力。在本文中，我們提出了一個名為 OmniHuman 的基於擴散 Transformer 的框架，通過將與運動相關的條件混合到訓練階段來擴展數據。為此，我們引入了兩個用於這些混合條件的訓練原則，以及相應的模型架構和推理策略。這些設計使 OmniHuman 能夠充分利用數據驅動的運動生成，最終實現高度逼真的人類視頻生成。更重要的是，OmniHuman 支持各種肖像內容（面部特寫、肖像、半身、全身），支持說話和唱歌，處理人與物體的互動和具有挑戰性的身體姿勢，並適應不同的圖像風格。與現有的端對端音訊驅動方法相比，OmniHuman 不僅能夠生成更逼真的視頻，還能夠在輸入方面提供更大的靈活性。它還支持多種驅動模式（音訊驅動、視頻驅動和組合驅動信號）。視頻樣本可在 ttfamily 項目頁面（https://omnihuman-lab.github.io）上找到。

直接對齊演算法之間的差異變得模糊。
The Differences Between Direct Alignment Algorithms are a Blur

Feb 3

ByAlexey Gorbatovski, Boris Shaposhnikov, Viacheslav Sinii, Alexey Malakhov, Daniil Gavrilov

113

直接對齊算法（DAAs）通過在從人類反饋中學習強化學習（RL）和獎勵建模（RM）的過程中使用直接策略優化，簡化了語言模型的對齊。DAAs可以通過它們的排名損失（成對vs.點對）、在這些損失中使用的獎勵（例如，政策和參考政策的可能性比或勝算比），或者是否需要監督微調（SFT）階段（兩階段vs.單階段）來進行分類。我們首先展示單階段方法表現不如兩階段方法。為了解決這個問題，我們將一個明確的SFT階段和引入控制偏好優化強度的beta參數納入單階段ORPO和ASFT中。這些修改提高了它們在Alpaca Eval 2中的性能，ORPO提高了+3.46，ASFT提高了+8.27，與DPO等兩階段方法相匹配。進一步的分析顯示，關鍵因素是方法使用成對還是點對目標，而不是具體的隱式獎勵或損失函數。這些結果突顯了仔細評估的重要性，以避免對對齊算法的性能提升或整體優越性作出過早的宣稱。

透過隱式獎勵進行強化學習
Process Reinforcement through Implicit Rewards

Feb 3

ByGanqu Cui, Lifan Yuan, Zefan Wang, Hanbin Wang, Wendi Li, Bingxiang He, Yuchen Fan, Tianyu Yu, Qixin Xu, Weize Chen, Jiarui Yuan, Huayu Chen, Kaiyan Zhang, Xingtai Lv, Shuo Wang, Yuan Yao, Xu Han, Hao Peng, Yu Cheng, Zhiyuan Liu, Maosong Sun, Bowen Zhou, Ning Ding

在大型語言模型（LLMs）的推論時間擴展中，密集過程獎勵已被證明是比稀疏結果級獎勵更有效的替代方案，特別是在需要複雜多步推理的任務中。儘管密集獎勵對於強化學習（RL）LLMs也是一個吸引人的選擇，因為它們精細的獎勵有潛力解決一些結果獎勵的固有問題，如訓練效率和信用分配，但這種潛力仍然很大程度上未被實現。這主要是由於在線訓練過程獎勵模型（PRMs）的挑戰，其中收集高質量的過程標籤成本過高，使其特別容易受到獎勵破解的影響。為了應對這些挑戰，我們提出了PRIME（通過隱式獎勵實現過程強化），它通過隱式過程獎勵使在線PRM更新僅使用策略展開和結果標籤成為可能。PRIME與各種優勢函數結合，並放棄現有方法所需的專用獎勵模型訓練階段，從而大幅降低了開發成本。我們展示了PRIME在競爭性數學和編碼方面的有效性。從Qwen2.5-Math-7B-Base開始，PRIME在幾個關鍵推理基準上實現了15.1%的平均改進，優於SFT模型。值得注意的是，我們的結果模型Eurus-2-7B-PRIME在七個推理基準上超越了Qwen2.5-Math-7B-Instruct模型，並僅使用其10%的訓練數據。

偏好洩漏：LLM作為法官中的污染問題
Preference Leakage: A Contamination Problem in LLM-as-a-judge

Feb 3

ByDawei Li, Renliang Sun, Yue Huang, Ming Zhong, Bohan Jiang, Jiawei Han, Xiangliang Zhang, Wei Wang, Huan Liu

大型語言模型（LLMs）作為評判和基於LLM的數據合成已成為模型開發中兩種基本的LLM驅動數據標註方法。儘管它們的結合顯著提高了模型訓練和評估的效率，但對這種新模型開發範式可能帶來的潛在污染卻鮮有關注。在這項工作中，我們揭示了偏好洩漏，這是由於合成數據生成器和基於LLM的評估器之間的相關性而在LLM作為評判中引起的污染問題。為了研究這個問題，我們首先定義了數據生成器LLM和評判LLM之間的三種常見相關性：相同模型、具有繼承關係和屬於同一模型家族。通過廣泛的實驗，我們在多個LLM基線和基準測試中實證了評判對其相關學生模型的偏好洩漏所導致的偏見。進一步的分析表明，相對於先前識別出的LLM作為評判場景中的偏見，偏好洩漏是一個更難檢測的普遍問題。所有這些發現都暗示了偏好洩漏在LLM作為評判領域是一個普遍且具有挑戰性的問題。我們在以下網址釋出所有代碼和數據：https://github.com/David-Li0406/Preference-Leakage。

AlignVLM：連接視覺和語言潛在空間以實現多模態理解
AlignVLM: Bridging Vision and Language Latent Spaces for Multimodal Understanding

Feb 3

ByAhmed Masry, Juan A. Rodriguez, Tianyu Zhang, Suyuchen Wang, Chao Wang, Aarash Feizi, Akshay Kalkunte Suresh, Abhay Puri, Xiangru Jian, Pierre-André Noël, Sathwik Tejaswi Madhusudhan, Marco Pedersoli, Bang Liu, Nicolas Chapados, Yoshua Bengio, Enamul Hoque, Christopher Pal, Issam H. Laradji, David Vazquez, Perouz Taslakian, Spandana Gella, Sai Rajeswar

在視覺語言模型（VLMs）中，將視覺特徵與語言嵌入進行對齊是一個關鍵挑戰。這類模型的表現取決於具有良好連接器，該連接器將由視覺編碼器生成的視覺特徵映射到與LLM共享的嵌入空間，同時保留語義相似性。現有的連接器，如多層感知器（MLPs），通常會產生超出分佈範圍或帶有噪音的輸入，導致模態之間的不對齊。在這項工作中，我們提出了一種新穎的視覺文本對齊方法AlignVLM，將視覺特徵映射到LLM文本嵌入的加權平均值。我們的方法利用LLM編碼的語言先驗，確保視覺特徵被映射到LLM能夠有效解釋的空間區域。AlignVLM對於文件理解任務特別有效，其中掃描的文件圖像必須準確映射到其文本內容。我們的廣泛實驗表明，與先前的對齊方法相比，AlignVLM實現了最先進的性能。我們進一步提供分析，展示了改善的視覺文本特徵對齊和對噪音的穩健性。

SafeRAG：在大型語言模型的檢索增強生成中進行安全性基準測試
SafeRAG: Benchmarking Security in Retrieval-Augmented Generation of Large Language Model

Jan 28

ByXun Liang, Simin Niu, Zhiyu Li, Sensen Zhang, Hanyu Wang, Feiyu Xiong, Jason Zhaoxin Fan, Bo Tang, Shichao Song, Mengwei Wang, Jiawei Yang

檢索增強生成（RAG）的索引-檢索-生成範式在解決知識密集任務方面取得了巨大成功，通過將外部知識整合到大型語言模型（LLMs）中。然而，外部和未經驗證知識的整合增加了LLMs的脆弱性，因為攻擊者可以通過操縱知識執行攻擊任務。本文介紹了一個名為SafeRAG的基準，旨在評估RAG的安全性。首先，我們將攻擊任務分為銀噪聲、跨上下文衝突、軟廣告和白色拒絕服務。接下來，我們為每個任務主要手動構建RAG安全性評估數據集（即SafeRAG數據集）。然後，我們利用SafeRAG數據集來模擬RAG可能遇到的各種攻擊情景。對14個代表性RAG組件進行的實驗表明，RAG對所有攻擊任務都表現出顯著的脆弱性，即使是最明顯的攻擊任務也可以輕鬆繞過現有的檢索器、過濾器或先進的LLMs，導致RAG服務質量下降。代碼可在以下鏈接找到：https://github.com/IAAR-Shanghai/SafeRAG。

SliderSpace：拆解擴散模型的視覺能力
SliderSpace: Decomposing the Visual Capabilities of Diffusion Models

Feb 3

ByRohit Gandikota, Zongze Wu, Richard Zhang, David Bau, Eli Shechtman, Nick Kolkin

我們提出了SliderSpace，這是一個框架，可以將擴散模型的視覺能力自動分解為可控且人類可理解的方向。與現有的控制方法不同，這些方法需要用戶為每個編輯方向單獨指定屬性，SliderSpace可以從單個文本提示中同時發現多個可解釋且多樣化的方向。每個方向都被訓練為低秩適配器，實現組合控制並發現模型潛在空間中的令人驚訝的可能性。通過對最先進的擴散模型進行大量實驗，我們展示了SliderSpace在三個應用中的有效性：概念分解、藝術風格探索和多樣性增強。我們的定量評估顯示，SliderSpace發現的方向有效地分解了模型知識的視覺結構，提供了有關擴散模型內部編碼的潛在能力的見解。用戶研究進一步驗證，與基準相比，我們的方法產生了更多樣化和有用的變化。我們的代碼、數據和訓練權重可在https://sliderspace.baulab.info獲得。

MM-IQ：在多模態模型中進行類人抽象和推理的基準測試
MM-IQ: Benchmarking Human-Like Abstraction and Reasoning in Multimodal Models

Feb 2

ByHuanqia Cai, Yijun Yang, Winston Hu

智商測試一直是評估人類認知能力的基礎方法，有意將評估與語言背景、語言能力或特定領域知識分離，以分離抽象和推理的核心能力。然而，目前人工智慧研究缺乏系統基準來量化多模式系統中這些關鍵認知維度。為了填補這一關鍵空白，我們提出了MM-IQ，這是一個全面的評估框架，包括2,710個精心挑選的測試項目，涵蓋8種不同的推理範式。通過對領先的開源和專有多模式模型進行系統評估，我們的基準測試顯示出顯著的局限性：即使是最先進的架構也僅實現比隨機機會略高的性能（27.49％比25％的基準準確度）。這種顯著的性能差距突顯了目前多模式系統在近似基本人類推理能力方面的不足，強調了需要進行開創性的進展來彌合這一認知差距。

DeepRAG：為大型語言模型逐步思考檢索
DeepRAG: Thinking to Retrieval Step by Step for Large Language Models

Feb 3

ByXinyan Guan, Jiali Zeng, Fandong Meng, Chunlei Xin, Yaojie Lu, Hongyu Lin, Xianpei Han, Le Sun, Jie Zhou

大型語言模型（LLMs）在推理方面展現出卓越的潛力，但由於參數化知識的時效性、準確性和覆蓋範圍，仍然存在嚴重的事實幻覺問題。同時，將推理與檢索增強生成（RAG）相結合仍然具有挑戰性，原因在於任務分解不夠有效以及檢索冗餘，這可能引入噪音並降低回應質量。本文提出了DeepRAG，一個將檢索增強推理建模為馬可夫決策過程（MDP）的框架，實現了策略性和適應性檢索。通過迭代地分解查詢，DeepRAG 在每個步驟動態確定是檢索外部知識還是依賴參數化推理。實驗表明，DeepRAG 提高了檢索效率，同時將答案準確性提高了 21.99%，展示了其在優化檢索增強推理方面的有效性。

語言模型中的嵌入層擴展
Scaling Embedding Layers in Language Models

Feb 3

ByDa Yu, Edith Cohen, Badih Ghazi, Yangsibo Huang, Pritish Kamath, Ravi Kumar, Daogao Liu, Chiyuan Zhang

我們提出了 SCONE（可擴展、情境化、卸載、N-gram 嵌入），這是一種擴展輸入嵌入層以增強語言模型性能的方法，隨著層大小的擴展。為了避免增加解碼成本，SCONE 保留了原始詞彙，同時為一組常見的 n-gram 引入了嵌入。這些嵌入為每個輸入標記提供了情境化表示，並在訓練期間使用獨立模型進行學習。在推理期間，它們被預先計算並存儲在加速器外的記憶體中，對推理速度幾乎沒有影響。SCONE 實現了兩種新的擴展策略：增加快取的 n-gram 嵌入數量和擴展用於學習它們的模型，同時保持固定的推理時浮點運算數。我們展示了通過擴展這兩個方面，SCONE 能夠在各種語料庫上優於具有 19 億參數基線，同時僅使用一半的推理時浮點運算數。

MakeAnything：利用擴散Transformer進行多領域程序序列生成
MakeAnything: Harnessing Diffusion Transformers for Multi-Domain Procedural Sequence Generation

Feb 3

ByYiren Song, Cheng Liu, Mike Zheng Shou

人類智慧的一個特徵是能夠通過結構化的多步驟過程創建複雜的工件。利用人工智能生成程序化教程是一個歷史悠久但具有挑戰性的目標，面臨三個關鍵障礙：（1）多任務程序數據集的稀缺性，（2）在步驟之間保持邏輯連貫性和視覺一致性，以及（3）在多個領域之間進行泛化。為應對這些挑戰，我們提出了一個涵蓋 21 項任務的多領域數據集，包含超過 24,000 個程序序列。在此基礎上，我們引入了基於擴散變換器（DIT）的 MakeAnything 框架，該框架利用微調來激活 DIT 的上下文能力，以生成一致的程序序列。我們引入了用於圖像生成的非對稱低秩適應（LoRA），通過凍結編碼器參數並自適應調整解碼器層來平衡泛化能力和任務特定性能。此外，我們的 ReCraft 模型通過時空一致性約束實現了從圖像到過程的生成，允許將靜態圖像分解為合理的創作序列。大量實驗表明，MakeAnything 超越了現有方法，為程序生成任務設定了新的性能基準。

ZebraLogic：關於LLM在邏輯推理中的擴展極限
ZebraLogic: On the Scaling Limits of LLMs for Logical Reasoning

Feb 3

ByBill Yuchen Lin, Ronan Le Bras, Kyle Richardson, Ashish Sabharwal, Radha Poovendran, Peter Clark, Yejin Choi

我們研究了大型語言模型（LLMs）的邏輯推理能力以及它們在複雜非單調推理中的可擴展性。為此，我們引入了ZebraLogic，這是一個全面的評估框架，用於評估LLM在從約束滿足問題（CSPs）衍生的邏輯網格謎題上的推理表現。ZebraLogic能夠生成具有可控和可量化複雜性的謎題，有助於系統性地研究Llama、o1模型和DeepSeek-R1等模型的擴展極限。通過涵蓋廣泛的搜索空間複雜性和多樣的邏輯約束，ZebraLogic提供了一個結構化環境，以評估在不斷增加的困難下的推理能力。我們的結果顯示，隨著問題複雜性的增加，準確性顯著下降，這種現象我們稱之為複雜性的詛咒。即使使用更大的模型和增加的推理時間計算，這種限制仍然存在，表明目前LLM推理能力中存在固有的限制。此外，我們探索了增強邏輯推理的策略，包括最佳N抽樣、回溯機制和自我驗證提示。我們的研究結果提供了對LLM推理可擴展性的關鍵見解，突出了基本限制，並概述了改進的潛在方向。

FastKV：KV快取壓縮，用於具有令牌選擇性傳播的快速長內容處理
FastKV: KV Cache Compression for Fast Long-Context Processing with Token-Selective Propagation

Feb 3

ByDongwon Jo, Jiwon Song, Yulhwa Kim, Jae-Joon Kim

儘管大型語言模型（LLMs）擅長處理長文本序列，但它們需要大量的鍵-值（KV）緩存來存儲上下文信息，這可能會嚴重影響計算效率和內存使用。先前壓縮這些KV緩存的努力主要集中在減少內存需求，但在提高延遲方面受到限制。為解決此問題，我們引入了FastKV，這是一種旨在提高長文本序列延遲的KV緩存壓縮方法。為了提高處理速度並保持準確性，FastKV採用了一種新穎的Token-Selective Propagation（TSP）方法，在LLMs的初始層中保留完整的上下文信息，並在更深的層中選擇性地傳播部分信息，即使在預填充階段也是如此。此外，FastKV還融入了分組查詢注意力（GQA）感知的KV緩存壓縮，以利用GQA在內存和計算效率方面的優勢。我們的實驗結果顯示，與當前最先進的KV緩存壓縮方法HeadKV相比，FastKV在首個標記到達時間（TTFT）和吞吐量方面分別實現了2.00倍和1.40倍的改進。此外，FastKV成功地在長文本基準測試中保持了與基準線相當的準確性水平。我們的代碼可在https://github.com/dongwonjo/FastKV 找到。

AIN：阿拉伯語INclusive大型多模型模型
AIN: The Arabic INclusive Large Multimodal Model

Jan 31

ByAhmed Heakl, Sara Ghaboura, Omkar Thawkar, Fahad Shahbaz Khan, Hisham Cholakkal, Rao Muhammad Anwer, Salman Khan

在大型語言模型（LLMs）迅速發展並演變為大型多模型模型（LMMs）的過程中，在高資源語言如英語和中文方面取得了顯著進展。儘管阿拉伯語LLMs取得了顯著進展，但阿拉伯語LMMs仍然很少被探索，通常僅專注於語言和視覺理解的一些特定方面。為彌合這一差距，我們介紹了AIN-阿拉伯語包容性多模型模型-旨在在各種領域表現卓越。AIN是一個英阿雙語LMM，旨在在英語和阿拉伯語方面表現卓越，利用精心構建的360萬高質量阿拉伯語-英語多模型數據樣本。AIN展示了最先進的阿拉伯語性能，同時具有強大的英語語言視覺能力。在最近的CAMEL-Bench基準測試中，包括多圖像理解、複雜視覺感知、手寫文件理解、視頻理解、醫學影像、植物疾病和基於遙感的土地利用理解等38個子領域，我們的AIN展示了強大的性能，7B模型在八個領域和38個子領域上的絕對增益超過了GPT-4o的3.4％。AIN優越的能力使其成為向阿拉伯語使用者提供先進多模型生成人工智能工具的重要一步，應用範圍涵蓋各種領域。

跳躍推理曲線？追蹤 GPT-[n] 和 o-[n] 模型在多模式拼圖上推理表現的演化
The Jumping Reasoning Curve? Tracking the Evolution of Reasoning Performance in GPT-[n] and o-[n] Models on Multimodal Puzzles

Feb 3

ByVernon Y. H. Toh, Yew Ken Chia, Deepanway Ghosal, Soujanya Poria

OpenAI 的 o1 和 o3 的发布標誌著大型語言模型向先進推理能力的重大範式轉變。值得注意的是，o3 在人工智能通用智能（ARC-AGI）的抽象和推理語料庫中，在新穎問題解決和技能獲取方面超越了人類。然而，這個基準僅限於符號模式，而人類通常感知和推理涉及視覺和語言數據的多模式情景。因此，迫切需要研究多模式任務中的先進推理能力。為此，我們追踪 GPT-[n] 和 o-[n] 系列模型在具有挑戰性的多模式拼圖上的演進，這需要細粒度的視覺感知和抽象或算法推理。o1 的卓越表現幾乎是 GPT-4o 的 750 倍計算成本，引發了對其效率的擔憂。我們的結果顯示，在模型迭代過程中，推理能力呈現明顯上升趨勢，GPT 系列模型和隨後的 o1 之間出現了顯著的性能提升。然而，我們觀察到 o1 模型在需要抽象推理的簡單多模式拼圖方面仍然存在困難。此外，它在算法拼圖中的表現仍然較差。我們計劃持續追踪系列中的新模型，並相應地在本文中更新我們的結果。本評估中使用的所有資源都可以在 https://github.com/declare-lab/LLM-PuzzleTest 上公開獲取。

推斷時間下大型語言模型的幾乎肯定安全對齊
Almost Surely Safe Alignment of Large Language Models at Inference-Time

Feb 3

ByXiaotong Ji, Shyam Sundhar Ramesh, Matthieu Zimmer, Ilija Bogunovic, Jun Wang, Haitham Bou Ammar

即使是功能強大的大型語言模型（LLMs）也可能產生偏見或不安全的回應，而針對緩解此問題的對齊技術，如RLHF，因重新訓練LLM而昂貴且容易過度擬合。本文介紹了一種新穎的推論時對齊方法，確保LLMs幾乎肯定生成安全回應，即以接近一的概率。我們通過將推論時回應的安全生成框架定義為LLM潛在空間內的受限馬可夫決策過程來實現這一點。至關重要的是，我們增加了一個安全狀態，用於跟踪安全約束的演變，並使我們能夠在解決潛在空間中的MDP時展示正式的安全保證。基於這一基礎，我們提出了InferenceGuard，這是一種實用的實現，可以安全地對齊LLMs而無需修改模型權重。在實證方面，我們展示了InferenceGuard有效地平衡了安全性和任務性能，在生成安全且對齊的回應方面優於現有的推論時對齊方法。

改進 Transformer 世界模型以提高資料效率的強化學習
Improving Transformer World Models for Data-Efficient RL

Feb 3

ByAntoine Dedieu, Joseph Ortiz, Xinghua Lou, Carter Wendelken, Wolfgang Lehrach, J Swaroop Guntupalli, Miguel Lazaro-Gredilla, Kevin Patrick Murphy

我們提出了一種基於模型的強化學習方法，該方法在具有挑戰性的Craftax-classic基準測試中實現了新的最先進表現。這是一款開放世界的2D生存遊戲，需要代理展示各種通用能力，如強大的泛化能力、深度探索和長期推理。通過一系列旨在提高樣本效率的精心設計選擇，我們的基於模型的強化學習算法在僅進行100萬環境步驟後就實現了67.4%的獎勵，顯著優於達到53.2%的DreamerV3，並且首次超過了人類的65.0%表現。我們的方法首先通過構建一個最先進的無模型基準線開始，使用結合了CNN和RNN的新型策略架構。然後，我們對標準基於模型的強化學習設置進行了三項改進：(a)“Dyna with warmup”，該方法在真實和虛擬數據上訓練策略，(b)圖像塊上的“最近鄰分詞器”，改進了創建變壓器世界模型（TWM）輸入的方案，以及(c)“區塊教師強迫”，該方法允許TWM聯合推理下一時間步的未來標記。

無需博士知識：大型語言模型的推理挑戰
PhD Knowledge Not Required: A Reasoning Challenge for Large Language Models

Feb 3

ByCarolyn Jane Anderson, Joydeep Biswas, Aleksander Boruch-Gruszecki, Federico Cassano, Molly Q Feldman, Arjun Guha, Francesca Lucchetti, Zixuan Wu

現有的前沿模型基準通常測試專業的「博士級」知識，對非專業人士來說難以理解。相較之下，我們提出了一個基於 NPR Sunday Puzzle Challenge 的基準，只需要一般性知識。我們的基準對人類和模型都具有挑戰性，然而正確解答容易驗證，模型的錯誤也容易辨識。我們的研究揭示了現有基準中未曾顯示的能力差距：OpenAI o1 在測試專業知識的基準上與其他推理模型相比表現顯著優越。此外，我們對推理輸出的分析揭示了新型失敗。例如，DeepSeek R1 在提供自知錯誤答案之前經常會說「我放棄了」。R1 的輸出也可能非常「不確定」，在罕見情況下，它可能不會「思考完畢」，這表明需要一種推理時技術在達到上下文窗口限制之前進行「結束」。我們還量化了使用 R1 和 Gemini Thinking 進行更長推理的效果，以確定超過某一點後進行更多推理不太可能提高我們基準的準確性。

RandLoRA：大型模型的全秩參數高效微調
RandLoRA: Full-rank parameter-efficient fine-tuning of large models

Feb 3

ByPaul Albert, Frederic Z. Zhang, Hemanth Saratchandran, Cristian Rodriguez-Opazo, Anton van den Hengel, Ehsan Abbasnejad

低秩適應（LoRA）及其變體在減少大型變壓器網絡的可訓練參數數量和內存需求方面取得了令人印象深刻的成果，同時保持了微調性能。然而，權重更新的低秩特性固有地限制了微調模型的表示能力，可能影響在複雜任務上的性能。這帶出了一個關鍵問題：當觀察到LoRA和標準微調之間的性能差距時，是由於可訓練參數數量減少還是秩缺陷？本文旨在通過引入RandLoRA來回答這個問題，這是一種參數高效的方法，使用學習的低秩、不可訓練隨機矩陣的線性組合執行全秩更新。我們的方法通過將優化限制在應用於固定隨機矩陣的對角縮放矩陣，限制了可訓練參數的數量，這使我們能夠在訓練過程中有效地克服低秩限制，同時保持參數和內存效率。通過在視覺、語言和視覺-語言基準測試中進行廣泛實驗，我們系統地評估了LoRA和現有隨機基礎方法的限制。我們的研究結果顯示，全秩更新在視覺和語言任務中分別是有益的，對於視覺-語言任務更是如此，其中RandLoRA顯著減少了標準微調和LoRA之間的性能差距，有時甚至消除了，展示了其有效性。

潛在一致性模型的改進訓練技術
Improved Training Technique for Latent Consistency Models

Feb 3

ByQuan Dao, Khanh Doan, Di Liu, Trung Le, Dimitris Metaxas

一致性模型是一類新的生成模型，能夠在單步或多步中生成高質量樣本。最近，一致性模型展現出令人印象深刻的性能，與像素空間中擴散模型取得了相當的成果。然而，將一致性訓練擴展至大規模數據集的成功，特別是對於文本到圖像和視頻生成任務，取決於潛在空間中的性能。在這項工作中，我們分析了像素空間和潛在空間之間的統計差異，發現潛在數據通常包含高度冲動的離群值，顯著降低了潛在空間中 iCT 的性能。為了應對這一問題，我們將偽胡伯損失替換為柯西損失，有效地減輕了離群值的影響。此外，我們在早期時間步引入擴散損失，並採用最優運輸（OT）耦合來進一步增強性能。最後，我們引入自適應縮放-c 調度器來管理強大的訓練過程，並在架構中採用非縮放層歸一化，以更好地捕捉特徵的統計信息並減少離群值的影響。通過這些策略，我們成功訓練了能夠在一步或兩步中進行高質量採樣的潛在一致性模型，顯著縮小了潛在一致性與擴散模型之間的性能差距。實現代碼在此處發布：https://github.com/quandao10/sLCT/

無模型退化的終身序列知識編輯
Lifelong Sequential Knowledge Editing without Model Degradation

Feb 3

ByAkshat Gupta, Phudish Prateepamornkul, Maochuan Lu, Ahmed Alaa, Thomas Hartvigsen, Gopala Anumanchipalli

先前在參數修改知識編輯方面的研究表明，大規模的順序編輯會導致模型明顯退化。本文研究了這背後的原因，並將順序知識編輯擴展到10,000個順序編輯，同時保持原始模型的下游性能。我們首先展示了定位-然後-編輯知識編輯方法導致對編輯事實的過度擬合。我們還展示了使用這些方法進行連續知識編輯導致編輯矩陣範數不成比例增長。然後，我們深入探討了定位-然後-編輯方法的內部運作。我們指出範數增長是這些方法使用的隱藏技巧，它使得從編輯層產生的輸出激活更加重要。通過這種“重要性黑客”，編輯層對模型輸出做出了更大的貢獻。為了緩解這些問題，我們提出了ENCORE - 早停止和範數受限的穩健知識編輯。ENCORE 控制過度擬合和不成比例的範數增長，實現長期的順序編輯，我們能夠進行多達10,000個順序編輯而不損失下游性能。ENCORE 在Llama3-8B上比MEMIT快61％，比AlphaEdit快64％。

學習生成單元測試以進行自動除錯
Learning to Generate Unit Tests for Automated Debugging

Feb 3

ByArchiki Prasad, Elias Stengel-Eskin, Justin Chih-Yao Chen, Zaid Khan, Mohit Bansal

單元測試（UTs）在評估程式碼正確性以及為大型語言模型（LLM）提供反饋方面發揮著重要作用，因為它在迭代調試有錯誤的程式碼時激勵自動測試生成。然而，我們發現在生成單元測試輸入時存在一個折衷，即在給定有錯誤的程式碼時揭示錯誤並正確預測單元測試輸出之間存在折衷，而沒有訪問黃金解決方案。為了應對這種折衷，我們提出了UTGen，它教導LLMs生成單元測試輸入，根據任務描述和候選程式碼揭示錯誤以及它們的正確預期輸出。我們將UTGen整合到UTDebug中，這是一個強大的調試流程，使用生成的測試來幫助LLMs有效調試。由於模型生成的測試可能提供噪聲信號（例如，來自錯誤預測的輸出），UTDebug（i）通過測試時計算來擴展UTGen以改進UT輸出預測，以及（ii）基於多個生成的UT驗證和回溯編輯以避免過度擬合。我們展示了UTGen在基於測量錯誤顯示UT輸入和正確UT輸出存在的指標上，優於UT生成基準7.59％。當與UTDebug一起使用時，我們發現UTGen的單元測試反饋提高了Qwen-2.5 7B在HumanEvalFix上的pass@1準確性，以及在我們自己更難的MBPP+調試分割上，分別比其他基於LLM的UT生成基準提高了3％和12.35％。

LongDPO：通過批判性增強的分步信息來解鎖LLM更好的長文生成能力。
LongDPO: Unlock Better Long-form Generation Abilities for LLMs via Critique-augmented Stepwise Information

Feb 4

ByBowen Ping, Jiali Zeng, Fandong Meng, Shuo Wang, Jie Zhou, Shanghang Zhang

長文生成對於學術寫作論文和程式碼生成在存儲庫級別上至關重要。儘管如此，包括 GPT-4o 在內的目前模型仍然表現不佳。現有方法利用偏好學習和結果監督，往往無法提供對於延長上下文的詳細反饋。這個缺陷可能導致內容未能完全滿足查詢要求，導致長度偏差和品質下降等問題。本文提出通過納入過程監督來增強長文生成。我們採用蒙特卡羅樹搜索來收集逐步偏好對，利用全局記憶池來保持一致性。為了解決次優候選選擇的問題，我們整合外部評論來完善和提高偏好對的品質。最後，我們應用收集的逐步偏好對來進行步級 DPO。實驗結果顯示，我們的方法在長文生成基準測試中改善了長度和品質，在各種模型骨幹上的一般基準測試中幾乎沒有損失性能。

語言模型偏好所熟悉的事物：透過信心偏好進行相對信心估計
Language Models Prefer What They Know: Relative Confidence Estimation via Confidence Preferences

Feb 3

ByVaishnavi Shrivastava, Ananya Kumar, Percy Liang

語言模型（LMs）應提供可靠的信心估計，以幫助使用者在偵測輸出中的錯誤並在必要時諮詢人類專家。要求語言模型評估其信心（"從0到1評分您的信心。"）是評估其不確定性的自然方式。然而，模型難以提供對信心的絕對評估（即獨立於其他問題回答問題時的信心評判），並且它們生成的粗粒度分數對於評估其答案的正確性並不有用。我們提出相對信心估計，其中我們將問題相互比較，要求模型對信心進行相對判斷（"您在回答正確哪個問題上更有信心？"）。將每個問題視為一個"選手"在與其他問題的一系列比賽中進行比較，並將模型的偏好視為比賽結果，我們可以使用Elo評分和Bradley-Terry等排名聚合方法將模型的信心偏好轉換為信心分數。我們在五個最先進的LM（GPT-4、GPT-4o、Gemini 1.5 Pro、Claude 3.5 Sonnet和Llama 3.1 405B）上對相對信心估計進行評估，涵蓋14個具有挑戰性的STEM、社會科學和常識推理問答任務。我們的結果表明，相對信心估計一致地提供比絕對信心估計更可靠的信心分數，對於直接絕對信心估計方法的選擇性分類AUC平均增益為3.5％，對於所有模型和數據集，相對於自一致性方法的增益為1.7％。

對於腹膜後腫瘤分割中 U-Net 修改版性能的研究
A Study on the Performance of U-Net Modifications in Retroperitoneal Tumor Segmentation

Feb 1

ByMoein Heidari, Ehsan Khodapanah Aghdam, Alexander Manzella, Daniel Hsu, Rebecca Scalabrino, Wenjin Chen, David J. Foran, Ilker Hacihaliloglu

腹膜後區域存在各種腫瘤，包括罕見的良性和惡性類型，由於其罕見性和與重要結構的接近，對其進行診斷和治療具有挑戰性。由於這些腫瘤形狀不規則，估算腫瘤體積很困難，而手動分割則耗時。使用 U-Net 及其變體進行自動分割，並納入 Vision Transformer (ViT) 元素，已顯示出有希望的結果，但面臨著高計算需求的困難。為了應對這一問題，像 Mamba State Space Model (SSM) 和 Extended Long-Short Term Memory (xLSTM) 這樣的架構提供了有效的解決方案，通過處理長距離依賴性來降低資源消耗。本研究評估了 U-Net 的增強功能，包括 CNN、ViT、Mamba 和 xLSTM，在一個新的內部 CT 資料集和一個公共器官分割資料集上。提出的 ViLU-Net 模型集成了 Vi-blocks 以改善分割效果。結果突出了 xLSTM 在 U-Net 框架中的效率。代碼可在 GitHub 上公開訪問。

目前的病理基礎模型對醫療中心的差異性缺乏魯棒性。
Current Pathology Foundation Models are unrobust to Medical Center Differences

Jan 29

ByEdwin D. de Jong, Eric Marcus, Jonas Teuwen

病理基礎模型（FMs）對醫療保健領域具有巨大潛力。在它們應用於臨床實踐之前，確保它們對醫療中心之間的變化具有韌性至關重要。我們衡量病理FMs是否專注於生物特徵，如組織和癌症類型，或者專注於由染色程序和其他差異引入的眾所周知的混淆醫療中心特徵。我們引入了韌性指數。這個新穎的韌性度量反映了生物特徵主導混淆特徵的程度。對十個當前公開可用的病理FMs進行評估。我們發現所有目前評估的病理基礎模型都很好地代表了醫療中心。觀察到韌性指數存在顯著差異。到目前為止，只有一個模型的韌性指數大於一，這意味著生物特徵主導混淆特徵，但僅輕微。描述了一種量化方法來衡量醫療中心差異對基於FM的預測性能的影響。我們分析了韌性對下游模型分類性能的影響，發現癌症類型分類錯誤並非隨機的，而是特別歸因於相同中心的混淆因素：來自同一醫療中心的其他類別的圖像。我們可視化FM嵌入空間，發現這些空間更多地由醫療中心而不是生物因素組織。因此，原始醫療中心比組織來源和癌症類型更準確地被預測。這裡介紹的韌性指數旨在推動向具有韌性和可靠性的病理FMs的臨床採用的進展。