AI研究論文每日精選

每日精選AI研究論文及翻譯

MPO：透過元計劃優化提升大型語言模型代理效能
MPO: Boosting LLM Agents with Meta Plan Optimization

Mar 4, 2025

Weimin Xiong, Yifan Song, Qingxiu Dong, Bingchan Zhao, Feifan Song, Xun Wang, Sujian Li

272

近期大型語言模型（LLMs）的進展使得基於LLM的代理能夠成功處理互動式規劃任務。然而，儘管取得了這些成功，現有方法常常面臨規劃幻覺問題，並且需要針對每個新代理進行重新訓練。為了解決這些挑戰，我們提出了元計劃優化（Meta Plan Optimization, MPO）框架，該框架通過直接整合明確指導來增強代理的規劃能力。與以往依賴複雜知識的方法不同，這些方法要么需要大量人力投入，要么缺乏質量保證，MPO則利用高層次的通用指導，通過元計劃來輔助代理規劃，並基於代理任務執行的反饋持續優化元計劃。我們在兩個代表性任務上進行的實驗表明，MPO顯著優於現有的基線方法。此外，我們的分析指出，MPO提供了一種即插即用的解決方案，能夠在先前未見的場景中提升任務完成效率和泛化能力。

MultiAgentBench：評估LLM代理的協作與競爭能力
MultiAgentBench: Evaluating the Collaboration and Competition of LLM agents

Mar 3, 2025

Kunlun Zhu, Hongyi Du, Zhaochen Hong, Xiaocheng Yang, Shuyi Guo, Zhe Wang, Zhenhailong Wang, Cheng Qian, Xiangru Tang, Heng Ji, Jiaxuan You

273

大型語言模型（LLMs）作為自主代理已展現出卓越的能力，然而現有的基準測試要么專注於單一代理任務，要么局限於狹窄的領域，未能捕捉多代理協調與競爭的動態。本文介紹了MultiAgentBench，這是一個全面的基準測試，旨在評估基於LLM的多代理系統在多樣化、互動場景中的表現。我們的框架不僅衡量任務完成度，還通過新穎的基於里程碑的關鍵性能指標來評估合作與競爭的質量。此外，我們評估了各種協調協議（包括星型、鏈型、樹型和圖形拓撲）以及創新策略，如群體討論和認知規劃。值得注意的是，gpt-4o-mini在研究場景中達到了平均最高的任務分數，圖形結構在協調協議中表現最佳，而認知規劃則將里程碑達成率提高了3%。代碼和數據集已公開於https://github.com/MultiagentBench/MARBLE。

SemViQA：面向越南語資訊事實查核的語義問答系統
SemViQA: A Semantic Question Answering System for Vietnamese Information Fact-Checking

Mar 2, 2025

Nam V. Nguyen, Dien X. Tran, Thanh T. Tran, Anh T. Hoang, Tai V. Duong, Di T. Le, Phuc-Lu Le

272

大型語言模型（LLMs）如GPT和Gemini的興起，加劇了錯誤信息的傳播，這要求我們開發出強大的事實核查解決方案，特別是針對像越南語這樣的低資源語言。現有方法在處理語義模糊、同音異義詞和複雜語言結構時往往力不從心，常常在準確性和效率之間做出妥協。我們引入了SemViQA，這是一個新穎的越南語事實核查框架，整合了基於語義的證據檢索（SER）和兩步裁決分類（TVC）。我們的方法在精確度和速度之間取得了平衡，在ISE-DSC01數據集上達到了78.97%的嚴格準確率，在ViWikiFC數據集上達到了80.82%，並在UIT數據科學挑戰賽中奪得第一名。此外，SemViQA Faster將推理速度提升了7倍，同時保持了競爭力的準確性。SemViQA為越南語事實核查設立了新的基準，推動了對抗錯誤信息的進程。源代碼可在此處獲取：https://github.com/DAVID-NGUYEN-S16/SemViQA。

LLM時代的維基百科：演進與風險
Wikipedia in the Era of LLMs: Evolution and Risks

Mar 4, 2025

Siming Huang, Yuliang Xu, Mingmeng Geng, Yao Wan, Dongping Chen

222

本文深入探討了大型語言模型（LLMs）對維基百科的影響，透過現有數據分析維基百科的演變，並利用模擬來探索潛在風險。我們首先分析頁面瀏覽量和文章內容，以研究維基百科近期的變化並評估LLMs的影響。隨後，我們評估了LLMs如何影響與維基百科相關的各種自然語言處理（NLP）任務，包括機器翻譯和檢索增強生成（RAG）。我們的研究結果和模擬數據顯示，維基百科文章已受到LLMs的影響，某些類別的影響程度約為1%-2%。如果基於維基百科的機器翻譯基準受到LLMs的影響，模型的得分可能會被誇大，模型之間的比較結果也可能發生變化。此外，如果知識庫被LLM生成的內容污染，RAG的效果可能會降低。儘管LLMs尚未完全改變維基百科的語言和知識結構，我們認為實證研究結果表明，需要謹慎考慮未來可能出現的風險。

LADDER：通過遞歸問題分解實現大型語言模型的自我提升
LADDER: Self-Improving LLMs Through Recursive Problem Decomposition

Mar 2, 2025

Toby Simonds, Akira Yoshiyama

222

我們介紹了LADDER（通過自主難度驅動的示例遞歸學習）框架，該框架使大型語言模型能夠通過自我引導學習，遞歸生成並解決複雜問題的逐步簡化變體，從而自主提升其問題解決能力。與以往需要精心策劃數據集或人類反饋的方法不同，LADDER利用模型自身的能力來生成更簡單的問題變體。我們在數學積分領域展示了LADDER的有效性，將Llama 3.2 3B在大學水平問題上的準確率從1%提升至82%，並使Qwen2.5 7B Deepseek-R1 Distilled在MIT積分蜜蜂資格考試中達到73%的準確率。此外，我們還引入了TTRL（測試時強化學習），在推理時對測試問題的變體進行強化學習。TTRL使Qwen2.5 7B Deepseek-R1 Distilled在MIT積分蜜蜂資格考試中取得了90%的頂尖成績，超越了OpenAI o1的表現。這些結果表明，自我導向的戰略學習能夠在不依賴架構擴展或人類監督的情況下，實現顯著的能力提升。

Mask-DPO：大型語言模型的通用細粒度事實性對齊
Mask-DPO: Generalizable Fine-grained Factuality Alignment of LLMs

Mar 4, 2025

Yuzhe Gu, Wenwei Zhang, Chengqi Lyu, Dahua Lin, Kai Chen

192

大型語言模型（LLMs）在作為各領域的AI助手時，會出現幻覺（即不真實或無意義的信息）。由於這些幻覺總是伴隨著LLM回應中的真實內容，以往基於回應層級偏好學習的事實對齊方法在訓練過程中不可避免地引入了噪音。因此，本文提出了一種基於直接偏好優化（DPO）的細粒度事實對齊方法，稱為Mask-DPO。通過將句子層級的事實性作為掩碼信號，Mask-DPO僅從偏好樣本中的事實正確句子中學習，並避免對非偏好樣本中的真實內容進行懲罰，從而解決了偏好學習中的模糊性。大量實驗結果表明，Mask-DPO能顯著提升LLMs對來自域內和域外數據集問題回應的事實性，儘管這些問題及其相關主題在訓練期間並未見過。僅在ANAH訓練集上訓練後，Llama3.1-8B-Instruct在ANAH測試集上的得分從49.19%提升至77.53%，甚至超過了Llama3.1-70B-Instruct的得分（53.44%），同時其在域外傳記數據集上的FactScore也從30.29%提升至39.39%。我們進一步研究了Mask-DPO在不同訓練樣本擴展策略下的泛化特性，發現擴展數據集中的主題數量比問題數量更為有效。我們提出了一個關於LLMs事實對齊作用的假設，探討了這一現象的意義，並進行了概念驗證實驗以驗證之。我們希望該方法及發現能為未來擴展事實對齊的研究鋪平道路。

社會對齊框架能提升大型語言模型的對齊效果
Societal Alignment Frameworks Can Improve LLM Alignment

Feb 27, 2025

Karolina Stańczak, Nicholas Meade, Mehar Bhatia, Hattie Zhou, Konstantin Böttinger, Jeremy Barnes, Jason Stanley, Jessica Montgomery, Richard Zemel, Nicolas Papernot, Nicolas Chapados, Denis Therien, Timothy P. Lillicrap, Ana Marasović, Sylvie Delacroix, Gillian K. Hadfield, Siva Reddy

172

近期大型語言模型（LLMs）的發展重點在於生成符合人類期望並與共享價值觀一致的響應——這一過程被稱為對齊。然而，由於人類價值的複雜性與旨在解決這些問題的技術方法的狹隘性之間存在固有的脫節，對齊LLMs仍然具有挑戰性。當前的對齊方法常常導致目標設定不當，這反映了更廣泛的不完全合約問題，即在LLM對齊中，模型開發者與模型之間無法為每一種情境制定合約的不可行性。本文主張，改進LLM對齊需要融入來自社會對齊框架的見解，包括社會、經濟和契約對齊，並探討從這些領域汲取的潛在解決方案。考慮到不確定性在社會對齊框架中的角色，我們進一步研究了它如何在LLM對齊中體現。我們以對LLM對齊的另一種視角結束討論，將其目標未充分指定的特性視為一個機會，而非追求其完美定義。除了LLM對齊的技術改進外，我們還討論了參與式對齊介面設計的必要性。

DoraCycle：多模态循环中面向领域的统一生成模型适配
DoraCycle: Domain-Oriented Adaptation of Unified Generative Model in Multimodal Cycles

Mar 5, 2025

Rui Zhao, Weijia Mao, Mike Zheng Shou

162

針對特定領域調整生成模型提供了一種滿足專業需求的有效解決方案。然而，適應某些複雜領域仍然具有挑戰性，尤其是當這些領域需要大量配對數據來捕捉目標分佈時。由於來自單一模態（如視覺或語言）的非配對數據更易獲取，我們利用統一生成模型學習到的視覺與語言之間的雙向映射，實現了基於非配對數據的領域適應訓練。具體而言，我們提出了DoraCycle，它整合了兩個多模態循環：文本到圖像再到文本，以及圖像到文本再到圖像。該模型通過在循環終點計算的交叉熵損失進行優化，其中兩個終點共享同一模態。這促進了模型的自進化，無需依賴註釋的文本-圖像對。實驗結果表明，對於獨立於配對知識的任務（如風格化），DoraCycle能夠僅使用非配對數據有效適應統一模型。對於涉及新配對知識的任務（如特定身份），結合少量配對圖像-文本示例和大規模非配對數據，足以實現有效的領域導向適應。代碼將發佈於https://github.com/showlab/DoraCycle。

PipeOffload：通過記憶體優化提升管道並行處理的可擴展性
PipeOffload: Improving Scalability of Pipeline Parallelism with Memory Optimization

Mar 3, 2025

Xinyi Wan, Penghui Qi, Guangxing Huang, Jialin Li, Min Lin

163

流水線並行（Pipeline Parallelism, PP）被廣泛用於訓練大型語言模型（LLMs），但其可擴展性往往受到高激活記憶體消耗的限制，因為隨著PP程度的增加，在處理中的微批次數量也會增長。本文聚焦於通過利用PP中尚未充分探索的記憶體卸載策略來應對這一挑戰。通過實證研究，我們發現，在大多數標準配置下，至少一半甚至全部的激活數據可以以可忽略的開銷進行卸載。在無法實現完全卸載的情況下，我們引入了一種新穎的選擇性卸載策略，該策略以優於線性的方式降低了峰值激活記憶體。此外，我們將記憶體卸載與其他技術相結合，綜合考慮整體吞吐量和記憶體限制。實驗證明，每設備的激活記憶體隨著總階段數的增加而有效減少，使得PP成為比張量並行（TP）更優的選擇，在記憶體消耗更低的情況下，最高可實現19%的加速。該實現已開源於https://github.com/sail-sg/zero-bubble-pipeline-parallelism{此網址}。

迭代價值函數優化引導解碼
Iterative Value Function Optimization for Guided Decoding

Mar 4, 2025

Zhenhua Liu, Lijun Li, Ruizhe Chen, Yuxian Jiang, Tong Zhu, Wenliang Chen, Jing Shao

152

儘管從人類反饋中進行強化學習（RLHF）已成為控制語言模型輸出的主流方法，但其存在計算成本高和訓練不穩定的問題。引導解碼，尤其是價值引導方法，提供了一種成本效益高的替代方案，它能在不重新訓練模型的情況下控制輸出。然而，價值函數的準確性對於價值引導解碼至關重要，因為不準確的估計可能導致次優決策和性能下降。現有方法在準確估計最佳價值函數方面存在困難，導致控制效果不佳。我們提出了迭代價值函數優化，這是一個新穎的框架，通過兩個關鍵組件來解決這些限制：蒙特卡洛價值估計，通過探索多樣化的軌跡來減少估計方差；以及迭代在線策略優化，通過收集來自價值引導策略的軌跡來逐步改進價值估計。在文本摘要、多輪對話和指令遵循等任務上的大量實驗證明了價值引導解碼方法在對齊語言模型方面的有效性。這些方法不僅實現了對齊，還通過利用基於原則的價值函數優化來實現高效且有效的控制，從而顯著降低了計算成本。

統一視頻動作模型
Unified Video Action Model

Feb 28, 2025

Shuang Li, Yihuai Gao, Dorsa Sadigh, Shuran Song

142

統一視訊與動作模型在機器人領域具有重要前景，其中視訊為動作預測提供了豐富的場景資訊，而動作則為視訊預測提供了動態資訊。然而，有效結合視訊生成與動作預測仍具挑戰性，且當前基於視訊生成的方法在動作準確性和推理速度上難以匹敵直接策略學習。為彌補這一差距，我們提出了統一視訊動作模型（UVA），該模型聯合優化視訊與動作預測，以實現高準確性和高效動作推理。其關鍵在於學習聯合視訊-動作潛在表徵並解耦視訊-動作解碼。聯合潛在表徵橋接了視覺與動作領域，有效建模了視訊與動作序列間的關係。同時，由兩個輕量級擴散頭驅動的解耦解碼，通過在推理過程中繞過視訊生成，實現了高速動作推理。此統一框架進一步通過遮罩輸入訓練實現了多功能性。通過選擇性地遮罩動作或視訊，單一模型可處理策略學習之外的多元任務，如正向與逆向動力學建模及視訊生成。通過一系列廣泛實驗，我們證明UVA可作為廣泛機器人任務的通用解決方案，如策略學習、正向/逆向動力學及視訊觀測預測，且與針對特定應用設計的方法相比，性能毫不遜色。最佳結果請參閱https://unified-video-action-model.github.io/。

RectifiedHR：通過能量校正實現高效的高分辨率圖像生成
RectifiedHR: Enable Efficient High-Resolution Image Generation via Energy Rectification

Mar 4, 2025

Zhen Yang, Guibao Shen, Liang Hou, Mushui Liu, Luozhou Wang, Xin Tao, Pengfei Wan, Di Zhang, Ying-Cong Chen

123

擴散模型在各種圖像生成任務中取得了顯著進展。然而，當生成分辨率高於訓練期間使用的圖像時，其性能顯著下降。儘管存在多種生成高分辨率圖像的方法，但它們要么效率低下，要么受到複雜操作的阻礙。在本文中，我們提出了RectifiedHR，這是一種高效且簡單的無訓練高分辨率圖像生成解決方案。具體來說，我們引入了噪聲刷新策略，理論上只需幾行代碼即可解鎖模型的高分辨率生成能力並提高效率。此外，我們首次觀察到在高分辨率圖像生成過程中可能導致圖像模糊的能量衰減現象。為了解決這個問題，我們提出了一種能量校正策略，通過修改無分類器引導的超參數，有效提升了生成性能。我們的方法完全無需訓練，且實現邏輯簡單。通過與多種基線方法的廣泛比較，我們的RectifiedHR展示了卓越的效果和效率。

AppAgentX：將GUI代理進化為熟練的智能手機用戶
AppAgentX: Evolving GUI Agents as Proficient Smartphone Users

Mar 4, 2025

Wenjia Jiang, Yangyang Zhuang, Chenxi Song, Xu Yang, Chi Zhang

112

近期大型語言模型（LLMs）的進展促成了基於LLM的智能代理的開發，這些代理能夠與圖形用戶界面（GUIs）進行互動。這些代理展現出強大的推理能力和適應性，使其能夠執行傳統上需要預定義規則的複雜任務。然而，基於LLM的代理依賴逐步推理，這往往導致效率低下，特別是在處理常規任務時。相比之下，傳統的基於規則的系統在效率上表現出色，但缺乏適應新場景的智能和靈活性。為了解決這一挑戰，我們提出了一種新穎的GUI代理進化框架，該框架在保持智能和靈活性的同時提升了操作效率。我們的方法引入了一種記憶機制，記錄代理的任務執行歷史。通過分析這些歷史，代理識別出重複的動作序列，並進化出高層次動作作為捷徑，取代這些低層次操作，從而提高效率。這使得代理能夠專注於需要更複雜推理的任務，同時簡化常規動作。在多個基準任務上的實驗結果表明，我們的方法在效率和準確性上均顯著優於現有方法。代碼將開源以支持進一步研究。

語言模型能夠自我提升狀態價值估計，以實現更優的搜索性能
Language Models can Self-Improve at State-Value Estimation for Better Search

Mar 4, 2025

Ethan Mendes, Alan Ritter

102

在多步推理任务中，收集地面真实的任务完成奖励或人类示范往往成本高昂且耗时，尤其是在网页任务等交互式领域。为解决这一瓶颈，我们提出了自教前瞻（self-taught lookahead），这是一种自监督方法，利用状态转移动态来训练一个能够有效指导语言模型控制搜索的价值模型。我们发现，通过自教前瞻改进的中等规模（80亿参数）开放权重价值模型，其性能可与使用前沿大语言模型（如gpt-4o）作为价值模型相媲美。此外，我们发现自教前瞻在不依赖地面真实奖励的情况下，相比之前基于大语言模型的树搜索，性能提升了20%，同时成本降低了37倍。

Q-Filters：利用QK幾何實現高效的KV緩存壓縮
Q-Filters: Leveraging QK Geometry for Efficient KV Cache Compression

Mar 4, 2025

Nathan Godey, Alessio Devoto, Yu Zhao, Simone Scardapane, Pasquale Minervini, Éric de la Clergerie, Benoît Sagot

102

自迴歸語言模型依賴於鍵值（KV）快取，這避免了在生成過程中重新計算過去的隱藏狀態，從而加快了速度。隨著模型規模和上下文長度的增長，KV 快取成為顯著的記憶體瓶頸，這就需要在生成過程中限制其大小的壓縮方法。在本文中，我們發現了查詢（Q）和鍵（K）向量的驚人特性，這些特性使我們能夠在不計算注意力圖的情況下高效地近似注意力分數。我們提出了 Q-Filters，這是一種無需訓練的 KV 快取壓縮方法，它基於單一的上下文無關投影過濾掉不太重要的鍵值對。與許多替代方案不同，Q-Filters 與 FlashAttention 兼容，因為它不需要直接訪問注意力權重。在長上下文設置中的實驗結果表明，Q-Filters 在檢索任務中與基於注意力的壓縮方法（如 SnapKV）競爭，同時在生成設置中始終優於高效的壓縮方案（如 Streaming-LLM）。值得注意的是，Q-Filters 在 x32 壓縮級別下在「大海撈針」任務中達到了 99% 的準確率，同時在文本生成中將生成困惑度下降減少了高達 65%，相比於 Streaming-LLM。

ATLaS：通過學習關鍵步驟進行智能體調優
ATLaS: Agent Tuning via Learning Critical Steps

Mar 4, 2025

Zhixun Chen, Ming Li, Yuxuan Huang, Yali Du, Meng Fang, Tianyi Zhou

大型語言模型（LLM）代理在多領域任務中展現了卓越的泛化能力。現有的代理調優方法通常對整個專家軌跡進行監督式微調。然而，對完整軌跡的行為克隆可能會引入專家偏見，並削弱對未涵蓋於專家數據中的狀態的泛化能力。此外，規劃、對中間子任務的複雜推理以及戰略決策等關鍵步驟對於代理任務的成功至關重要，因此學習這些步驟是提升LLM代理的關鍵。為了實現更有效且高效的代理調優，我們提出了ATLaS，該方法識別專家軌跡中的關鍵步驟，並僅對這些步驟進行LLM的微調，從而降低成本。通過將訓練重點集中在少數關鍵步驟上，我們的方法減少了對整個軌跡過擬合的風險，並促進了在不同環境和任務中的泛化能力。在大量實驗中，僅使用ATLaS選取的30%關鍵步驟進行微調的LLM，其表現優於對所有步驟進行微調的LLM以及近期開源的LLM代理。ATLaS保持並提升了基礎LLM作為與多樣環境交互的通用代理的技能。

UFO：一種通過開放式語言介面實現精細視覺感知的統一方法
UFO: A Unified Approach to Fine-grained Visual Perception via Open-ended Language Interface

Mar 3, 2025

Hao Tang, Chenwei Xie, Haiyang Wang, Xiaoyi Bao, Tingyu Weng, Pandeng Li, Yun Zheng, Liwei Wang

通用模型在語言和視覺-語言任務中取得了顯著成功，展示了統一建模的潛力。然而，將諸如檢測和分割等細粒度感知任務有效整合到這些模型中仍然是一個重大挑戰。這主要是因為這些任務通常嚴重依賴於任務特定的設計和架構，這可能會使建模過程變得複雜。為了解決這一挑戰，我們提出了\ours，這是一個通過開放式語言介面統一細粒度視覺感知任務的框架。通過將所有感知目標轉化為語言空間，\ours將物體級檢測、像素級分割和圖像級視覺-語言任務統一在單一模型中。此外，我們引入了一種新穎的嵌入檢索方法，該方法僅依賴於語言介面來支持分割任務。我們的框架彌合了細粒度感知與視覺-語言任務之間的差距，顯著簡化了架構設計和訓練策略，同時實現了與具有複雜任務特定設計的方法相當或更優的性能。在五個標準視覺感知數據集上進行多任務訓練後，\ours在COCO實例分割上比之前的最先進通用模型提高了12.3 mAP，在ADE20K語義分割上提高了3.3 mIoU。此外，我們的方法無縫整合了現有的多模態大語言模型（MLLMs），有效地將細粒度感知能力與其高級語言能力結合，從而實現更具挑戰性的任務，如推理分割。代碼和模型將公開提供。

FR-Spec：基於頻率排序的推測性採樣加速大詞彙量語言模型
FR-Spec: Accelerating Large-Vocabulary Language Models via Frequency-Ranked Speculative Sampling

Feb 20, 2025

Weilin Zhao, Tengyu Pan, Xu Han, Yudi Zhang, Ao Sun, Yuxiang Huang, Kaihuo Zhang, Weilun Zhao, Yuxuan Li, Jianyong Wang, Zhiyuan Liu, Maosong Sun

推測性採樣已成為加速大型語言模型（LLMs）自迴歸生成過程的重要技術，其通過採用“草擬後驗證”機制，在每次前向傳遞中生成多個詞元。雖然最先進的推測性採樣方法僅使用單一層和一個語言建模（LM）頭作為草擬模型，實現了顯著的層壓縮，但其效率提升在面對大詞彙量的LLMs（如擁有128k詞元的Llama-3-8B）時大幅降低。為解決這一問題，我們提出了FR-Spec，這是一種基於頻率排序的推測性採樣框架，通過詞彙空間壓縮來優化草擬候選詞的選擇。通過將草擬搜索限制在優先考慮頻率的詞元子集內，我們的方法在確保最終輸出分佈等價的同時，將LM頭的計算開銷降低了75%。多個數據集上的實驗表明，相較於最先進的推測性採樣方法EAGLE-2，FR-Spec平均實現了1.12倍的加速。

Q-Eval-100K：評估文本到視覺內容的視覺品質與對齊程度
Q-Eval-100K: Evaluating Visual Quality and Alignment Level for Text-to-Vision Content

Mar 4, 2025

Zicheng Zhang, Tengchuan Kou, Shushi Wang, Chunyi Li, Wei Sun, Wei Wang, Xiaoyu Li, Zongyu Wang, Xuezhi Cao, Xiongkuo Min, Xiaohong Liu, Guangtao Zhai

評估文本到視覺內容的質量主要依賴於兩個關鍵方面：視覺品質和對齊度。儘管在開發客觀模型來評估這些維度方面已取得顯著進展，但此類模型的性能很大程度上取決於人工標註的規模和質量。根據規模定律，增加人工標註的數量遵循一種可預測的模式，能夠提升評估模型的性能。因此，我們引入了一個全面的數據集，旨在評估文本到視覺內容的視覺品質和對齊水平（Q-EVAL-100K），該數據集包含了針對上述兩個方面最大規模的人工標註平均意見分數（MOS）。Q-EVAL-100K數據集涵蓋了文本到圖像和文本到視頻模型，擁有960K條專門針對100K個實例（60K張圖片和40K個視頻）的視覺品質和對齊度的人工標註。利用這一帶有上下文提示的數據集，我們提出了Q-Eval-Score，這是一個能夠評估視覺品質和對齊度的統一模型，特別改進了對長文本提示對齊的處理。實驗結果表明，所提出的Q-Eval-Score在視覺品質和對齊度上均達到了優異的性能，並在其他基準測試中展現出強大的泛化能力。這些發現凸顯了Q-EVAL-100K數據集的重大價值。數據和代碼將在https://github.com/zzc-1998/Q-Eval 上公開。

IterPref：通過迭代調試實現代碼生成的焦點偏好學習
IterPref: Focal Preference Learning for Code Generation via Iterative Debugging

Mar 4, 2025

Jie Wu, Haoling Li, Xin Zhang, Jianwen Luo, Yangyu Huang, Ruihang Chu, Yujiu Yang, Scarlett Li

偏好學習通過利用相對質量比較，使代碼大語言模型（Code LLMs）超越了監督式微調的範疇。現有方法基於測試案例的成功率構建偏好對，將通過率較高的樣本視為正面，較低的視為負面。然而，這種方法未能精確定位代碼中的具體錯誤，阻礙了模型學習更具信息量的錯誤修正模式，因為將失敗的代碼整體對齊缺乏捕捉有意義的錯誤解決關係所需的細粒度。為解決這些問題，我們提出了IterPref，一個新的偏好對齊框架，它模仿人類迭代調試過程來精煉Code LLMs。IterPref明確定位錯誤區域，並通過定制的DPO算法對齊相應的令牌。為了生成信息豐富的配對，我們引入了CodeFlow數據集，其中樣本會迭代改進直至通過測試，修改記錄捕捉了錯誤修正。大量實驗表明，配備IterPref的多樣化Code LLMs套件在代碼生成上取得了顯著的性能提升，並在BigCodeBench等挑戰性任務上有所進步。深入分析揭示，IterPref產生的錯誤更少。我們的代碼和數據將公開提供。

通過幾何約束改善不平衡回歸中的表示學習
Improve Representation for Imbalanced Regression through Geometric Constraints

Mar 2, 2025

Zijian Dong, Yilei Wu, Chongyao Chen, Yingtian Zou, Yichi Zhang, Juan Helen Zhou

在表徵學習中，均勻性指的是潛在空間（即單位超球面）內特徵的均勻分佈。先前的研究表明，提升均勻性有助於學習那些代表性不足的類別。然而，大多數先前的工作主要集中在分類問題上；對於不平衡迴歸的表徵空間仍未被探索。基於分類的方法不適用於迴歸任務，因為它們將特徵聚類成不同的組別，而沒有考慮到迴歸所必需的連續性和有序性。從幾何角度出發，我們獨特地專注於通過兩個關鍵損失來確保不平衡迴歸在潛在空間中的均勻性：包絡損失和同質性損失。包絡損失促使誘導的軌跡均勻地佔據超球面的表面，而同質性損失則確保平滑性，使表徵在一致的間隔下均勻分佈。我們的方法通過一個代理驅動的表徵學習（SRL）框架，將這些幾何原理整合到數據表徵中。在真實世界的迴歸和運算元學習任務中的實驗，突顯了均勻性在不平衡迴歸中的重要性，並驗證了我們基於幾何的損失函數的有效性。

SPIDER：一個全面的多器官監督式病理學數據集與基準模型
SPIDER: A Comprehensive Multi-Organ Supervised Pathology Dataset and Baseline Models

Mar 4, 2025

Dmitry Nechaev, Alexey Pchelnikov, Ekaterina Ivanova

在計算病理學中推進人工智慧技術，需要大量高品質且多樣化的數據集，然而現有的公開數據集往往在器官多樣性、類別覆蓋範圍或註釋質量上存在限制。為彌補這一差距，我們推出了SPIDER（監督式病理圖像描述庫），這是目前最大的公開可用的切片級數據集，涵蓋了包括皮膚、結直腸和胸腔在內的多種器官類型，並為每個器官提供了全面的類別覆蓋。SPIDER提供了由病理學專家驗證的高質量註釋，並包含周圍環境切片，這些切片通過提供空間上下文來增強分類性能。除了數據集，我們還展示了基於SPIDER訓練的基準模型，這些模型使用Hibou-L基礎模型作為特徵提取器，並結合了基於注意力的分類頭。這些模型在多個組織類別上達到了最先進的性能，為未來的數字病理學研究提供了強有力的基準。除了切片分類，該模型還能快速識別重要區域、量化組織指標，並為多模態方法奠定基礎。數據集和訓練好的模型均已公開，以促進研究、可重複性及AI驅動的病理學發展。訪問地址：https://github.com/HistAI/SPIDER

面向文檔理解的詞元級文本圖像基礎模型
A Token-level Text Image Foundation Model for Document Understanding

Mar 4, 2025

Tongkun Guan, Zining Wang, Pei Fu, Zhengtao Guo, Wei Shen, Kai Zhou, Tiezhu Yue, Chen Duan, Hao Sun, Qianyi Jiang, Junfeng Luo, Xiaokang Yang

近年來，通用視覺基礎模型（VFMs）的應用日益廣泛，尤其是在作為熱門多模態大型語言模型（MLLMs）的圖像編碼器方面。然而，在缺乏語義細粒度監督的情況下，這些模型在下游與文本圖像相關的任務中仍會遇到基本預測錯誤，即對包含細小密集文本的圖像進行感知、理解與推理時出現的問題。為彌補這一差距，我們開發了TokenOCR，這是首個專為文本圖像相關任務設計的令牌級視覺基礎模型，旨在支持多種傳統下游應用。為促進TokenOCR的預訓練，我們還設計了一個高質量的數據生成流程，構建了首個令牌級圖像文本數據集TokenIT，包含2000萬張圖像和18億個令牌-掩碼對。此外，利用這一具備卓越圖像即文本能力的基礎，我們無縫替換了先前的VFMs，構建了面向基於VQA的文檔理解任務的文檔級MLLM——TokenVL。最終，大量實驗證明了TokenOCR與TokenVL的有效性。代碼、數據集及權重將在https://token-family.github.io/TokenOCR_project上公開。

Tabby：基於語言模型的表格數據合成
Tabby: Tabular Data Synthesis with Language Models

Mar 4, 2025

Sonia Cromp, Satya Sai Srinath Namburi GNVV, Mohammed Alkhudhayri, Catherine Cao, Samuel Guo, Nicholas Roberts, Frederic Sala

儘管近年來大型語言模型（LLMs）的進步大幅提升了合成文本數據的質量，但表格數據的合成卻相對受到較少關注。我們針對這一差距提出了Tabby，這是一種對標準Transformer語言模型架構進行簡單但強大的訓練後修改，使其能夠用於表格數據集的合成。Tabby通過使用門控專家混合（Gated Mixture-of-Experts）來表示各列之間的差異，並為每列配備特定的參數集。實證結果顯示，Tabby生成的數據質量接近或等同於真實數據。通過將我們新穎的LLM表格訓練技術Plain與Tabby結合，我們觀察到數據質量相較於先前方法提升了高達44%。我們還展示了Tabby不僅限於表格數據，還能擴展到更一般的結構化數據，在一個嵌套的JSON數據集上也達到了與真實數據相當的水平。

多模態交響曲：透過生成式人工智慧整合味覺與聽覺
A Multimodal Symphony: Integrating Taste and Sound through Generative AI

Mar 4, 2025

Matteo Spanio, Massimiliano Zampini, Antonio Rodà, Franco Pierucci

近幾十年來，神經科學與心理學研究已揭示了味覺與聽覺感知之間的直接關聯。本文基於這一基礎研究，探討了能夠將味覺信息轉化為音樂的多模態生成模型。我們簡要回顧了該領域的最新進展，重點介紹了關鍵發現與方法論。我們進行了一項實驗，其中使用了一個經過微調的音樂生成模型（MusicGEN），根據每首音樂作品提供的詳細味覺描述來生成音樂。結果令人鼓舞：根據參與者（n=111）的評估，與未經微調的模型相比，微調後的模型生成的音樂更為一致地反映了輸入的味覺描述。這項研究代表了在理解與開發人工智能、聲音及味覺之間具身交互方面邁出的重要一步，為生成式人工智能領域開闢了新的可能性。我們在以下網址發布了我們的數據集、代碼及預訓練模型：https://osf.io/xs5jy/。

離散時間混合自動機學習：足式運動與滑板運動的交匯
Discrete-Time Hybrid Automata Learning: Legged Locomotion Meets Skateboarding

Mar 3, 2025

Hang Liu, Sangli Teng, Ben Liu, Wei Zhang, Maani Ghaffari

本文介紹了離散時間混合自動機學習（DHAL）框架，該框架利用在線強化學習來識別和執行模式切換，而無需進行軌跡分割或事件函數學習。混合動力系統包含連續流動和離散模式切換，能夠模擬如腿式機器人運動等機器人任務。基於模型的方法通常依賴於預定義的步態，而無模型方法則缺乏明確的模式切換知識。現有方法通過分割來識別離散模式，然後回歸連續流動，但在沒有軌跡標籤或分割的情況下學習高維複雜剛體動力學仍是一個具有挑戰性的開放性問題。我們的方法結合了貝塔策略分佈和多評論家架構，以模擬接觸引導的運動，並以具有挑戰性的四足機器人滑板任務為例。我們通過模擬和實際測試驗證了我們的方法，展示了其在混合動力系統中的穩健性能。