AI研究論文每日精選

每日精選AI研究論文及翻譯

GHOST 2.0：生成式高保真一次性頭像遷移
GHOST 2.0: generative high-fidelity one shot transfer of heads

Feb 25

ByAlexander Groshev, Anastasiia Iashchenko, Pavel Paramonov, Denis Dimitrov, Andrey Kuznetsov

儘管人臉交換任務近期在研究界引起了關注，但與之相關的頭部交換問題卻仍未被深入探討。除了膚色轉移外，頭部交換還面臨額外的挑戰，例如在合成過程中需保留整個頭部的結構信息，以及修補交換頭部與背景之間的縫隙。本文中，我們通過GHOST 2.0來應對這些問題，該系統包含兩個針對特定問題的模組。首先，我們引入了增強版的對齊模型（Aligner model）用於頭部重現，該模型能在多尺度上保留身份信息，並對極端姿態變化具有魯棒性。其次，我們採用了一個混合模組（Blender module），該模組通過轉移膚色和修補不匹配區域，將重現的頭部無縫整合到目標背景中。這兩個模組在各自任務上均超越了基準模型，從而實現了頭部交換領域的頂尖成果。我們還處理了諸如源頭與目標髮型差異顯著等複雜情況。相關代碼已發佈於https://github.com/ai-forever/ghost-2.0。

Kanana：高效能雙語語言模型
Kanana: Compute-efficient Bilingual Language Models

Feb 26

ByKanana LLM Team, Yunju Bak, Hojin Lee, Minho Ryu, Jiyeon Ham, Seungjae Jung, Daniel Wontae Nam, Taegyeong Eo, Donghun Lee, Doohae Jung, Boseop Kim, Nayeon Kim, Jaesun Park, Hyunho Kim, Hyunwoong Ko, Changmin Lee, Kyoung-Woon On, Seulye Baeg, Junrae Cho, Sunghee Jung, Jieun Kang, EungGyun Kim, Eunhwa Kim, Byeongil Ko, Daniel Lee, Minchul Lee, Miok Lee, Shinbok Lee, Gaeun Seo

我們推出Kanana系列雙語語言模型，其在韓語表現上超越同儕，在英語表現上亦具競爭力。Kanana的計算成本顯著低於同規模的頂尖模型。本報告詳述了在預訓練階段所採用的技術，以實現計算效率與性能兼備的模型，包括高品質數據過濾、分階段預訓練、深度擴展以及剪枝與蒸餾。此外，報告概述了Kanana模型在後訓練階段所採用的方法，涵蓋監督式微調與偏好優化，旨在提升其與用戶無縫互動的能力。最後，報告詳細闡述了將語言模型適應特定場景的可行方法，如嵌入、檢索增強生成及函數調用。Kanana模型系列參數量從21億至325億不等，其中21億參數的模型（基礎版、指令版、嵌入版）已公開發布，以促進韓語語言模型的研究。

邁向AI協作科學家
Towards an AI co-scientist

Feb 26

ByJuraj Gottweis, Wei-Hung Weng, Alexander Daryin, Tao Tu, Anil Palepu, Petar Sirkovic, Artiom Myaskovsky, Felix Weissenberger, Keran Rong, Ryutaro Tanno, Khaled Saab, Dan Popovici, Jacob Blum, Fan Zhang, Katherine Chou, Avinatan Hassidim, Burak Gokturk, Amin Vahdat, Pushmeet Kohli, Yossi Matias, Andrew Carroll, Kavita Kulkarni, Nenad Tomasev, Yuan Guan, Vikram Dhillon, Eeshit Dhaval Vaishnav, Byron Lee, Tiago R D Costa, José R Penadés, Gary Peltz, Yunhan Xu, Annalisa Pawlosky, Alan Karthikesalingam, Vivek Natarajan

科學發現依賴於科學家提出新穎假設並進行嚴格的實驗驗證。為增強這一過程，我們引入了一位AI合作科學家，這是一個基於Gemini 2.0的多智能體系統。該AI合作科學家旨在幫助揭示新的原創知識，並基於先前證據，結合科學家提供的研究目標和指導，制定可證明新穎的研究假設和提案。系統設計採用了生成、辯論和進化的假設生成方法，靈感來自科學方法，並通過擴展測試時計算資源來加速。關鍵貢獻包括：(1) 一個多智能體架構，配備異步任務執行框架，以實現靈活的計算擴展；(2) 一個錦標賽進化過程，用於自我改進的假設生成。自動化評估顯示，測試時計算資源的持續投入提高了假設質量。雖然系統具有通用性，但我們主要聚焦於三個生物醫學領域的開發和驗證：藥物再利用、新靶點發現以及解釋細菌進化和抗微生物耐藥性的機制。在藥物再利用方面，系統提出的候選藥物顯示出有前景的驗證結果，包括針對急性髓性白血病的候選藥物，其在臨床適用濃度下顯示出體外腫瘤抑制作用。在新靶點發現方面，AI合作科學家提出了肝纖維化的新表觀遺傳靶點，並通過人肝類器官中的抗纖維化活性和肝細胞再生得到驗證。最後，AI合作科學家通過並行的計算模擬發現了一種細菌進化中的新基因轉移機制，重現了未發表的實驗結果。這些結果，詳見同期發布的報告，展示了增強生物醫學和科學發現的潛力，並預示著AI賦能科學家時代的到來。

定理解釋代理：面向大語言模型定理理解的多模態解釋
TheoremExplainAgent: Towards Multimodal Explanations for LLM Theorem Understanding

Feb 26

ByMax Ku, Thomas Chong, Jonathan Leung, Krish Shah, Alvin Yu, Wenhu Chen

理解領域特定定理往往不僅需要基於文本的推理；通過結構化的視覺解釋進行有效溝通對於深入理解至關重要。儘管大型語言模型（LLMs）在基於文本的定理推理中表現出色，但其生成連貫且具有教學意義的視覺解釋的能力仍是一個未解決的挑戰。在本研究中，我們介紹了TheoremExplainAgent，這是一種利用Manim動畫生成長篇定理解釋視頻（超過5分鐘）的代理方法。為了系統評估多模態定理解釋，我們提出了TheoremExplainBench，這是一個涵蓋多個STEM學科240個定理的基準，並配備了5個自動化評估指標。我們的結果表明，代理規劃對於生成詳細的長篇視頻至關重要，而o3-mini代理的成功率達到了93.8%，總分為0.77。然而，我們的定量和定性研究顯示，大多數生成的視頻在視覺元素布局上存在小問題。此外，多模態解釋揭示了基於文本的解釋未能揭示的更深層次的推理缺陷，凸顯了多模態解釋的重要性。

Plutus：針對低資源希臘語金融領域的大型語言模型基準測試
Plutus: Benchmarking Large Language Models in Low-Resource Greek Finance

Feb 26

ByXueqing Peng, Triantafillos Papadopoulos, Efstathia Soufleri, Polydoros Giannouris, Ruoyu Xiang, Yan Wang, Lingfei Qian, Jimin Huang, Qianqian Xie, Sophia Ananiadou

儘管希臘在全球經濟中扮演著關鍵角色，但由於希臘語的語言複雜性及領域特定數據的稀缺，大型語言模型（LLMs）在希臘金融語境中的應用仍未被充分探索。先前在多語言金融自然語言處理（NLP）方面的努力已揭示了顯著的性能差異，然而至今尚未開發出專用的希臘金融基準測試或針對希臘語的金融LLMs。為彌補這一缺口，我們推出了Plutus-ben，首個希臘金融評估基準，以及Plutus-8B，首個基於希臘領域特定數據微調的希臘金融LLM。Plutus-ben涵蓋了希臘語中的五項核心金融NLP任務：數值與文本命名實體識別、問答、摘要生成及主題分類，從而促進了系統化且可重現的LLM評估。為支持這些任務，我們提出了三個全新、高質量的希臘金融數據集，這些數據集由精通希臘語的專家詳細註釋，並輔以兩個現有資源。我們對22個LLMs在Plutus-ben上的全面評估顯示，由於語言複雜性、領域特定術語及金融推理差距，希臘金融NLP仍具挑戰性。這些發現凸顯了跨語言遷移的局限性、希臘語訓練模型中金融專業知識的必要性，以及將金融LLMs適應於希臘文本的挑戰。我們公開釋出Plutus-ben、Plutus-8B及所有相關數據集，以促進可重現的研究並推動希臘金融NLP的發展，從而促進金融領域中更廣泛的多語言包容性。

語言模型的事實準確性取決於查詢所使用的語言
Language Models' Factuality Depends on the Language of Inquiry

Feb 25

ByTushar Aggarwal, Kumar Tanmay, Ayush Agrawal, Kumar Ayush, Hamid Palangi, Paul Pu Liang

多語言語言模型（LMs）理應能在不同語言間一致地回憶起事實知識，然而它們往往無法在語言間有效轉移知識，即使它們在其中一種語言中已擁有正確資訊。例如，我們發現當以阿拉伯語詢問時，一個語言模型可能正確識別出Rashed Al Shashai來自沙烏地阿拉伯，但在以英語或斯瓦希里語詢問時卻屢屢失敗。為系統性地探究這一限制，我們引入了一個涵蓋13種語言、包含10,000條國家相關事實的基準，並提出了三個新穎的指標：事實回憶分數、知識可轉移性分數及跨語言事實知識可轉移性分數，用以量化不同語言間LMs的事實回憶與知識轉移能力。我們的結果揭示了當今最先進LMs的根本弱點，特別是在跨語言泛化方面，模型未能有效跨語言轉移知識，導致其表現因使用語言不同而出現不一致性。這些發現強調了LMs需識別語言特定的事實可靠性，並利用跨語言中最可信資訊的重要性。我們公開發布了我們的基準與評估框架，以推動未來在多語言知識轉移領域的研究。

Rank1：資訊檢索中重排序的測試時計算
Rank1: Test-Time Compute for Reranking in Information Retrieval

Feb 25

ByOrion Weller, Kathryn Ricci, Eugene Yang, Andrew Yates, Dawn Lawrie, Benjamin Van Durme

我們推出了Rank1，這是首個利用測試時計算能力進行訓練的重排序模型。Rank1展示了在檢索中應用推理語言模型（如OpenAI的o1、Deepseek的R1等）進行蒸餾，以快速提升較小模型性能的可行性。我們收集並開源了一個包含超過60萬個來自MS MARCO查詢與段落R1推理軌跡的數據集。基於此數據集訓練的模型展現出：（1）在先進推理與指令遵循數據集上的頂尖性能；（2）由於能夠響應用戶輸入提示，在分佈外表現尤為出色；（3）擁有可解釋的推理鏈，可直接提供給用戶或基於RAG的系統。此外，我們還證明了這些模型的量化版本在減少計算/記憶體使用的情況下仍保持強勁性能。總體而言，Rank1證明了測試時計算能力為搜索提供了一種全新類型、可解釋且高效的重排序模型。

大型語言模型能否檢測長鏈思維推理中的錯誤？
Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning?

Feb 26

ByYancheng He, Shilong Li, Jiaheng Liu, Weixun Wang, Xingyuan Bu, Ge Zhang, Zhongyuan Peng, Zhaoxiang Zhang, Wenbo Su, Bo Zheng

近期，o1類模型引起了廣泛關注，這些模型通過生成長鏈思維（Chain-of-Thought, CoT）推理步驟來提升現有大型語言模型（Large Language Models, LLMs）的推理能力。本文中，為了理解這些長CoT的質量並衡量現有LLMs對這些長CoT的批判能力，我們引入了DeltaBench，其中包含了來自不同o1類模型（如QwQ、DeepSeek-R1）針對不同推理任務（如數學、編碼、通用推理）生成的長CoT，用以檢測長CoT推理中的錯誤。基於DeltaBench，我們首先對生成的長CoT進行細緻分析，以揭示不同o1類模型的有效性和效率。接著，我們對現有的過程獎勵模型（Process Reward Models, PRMs）和批判模型進行廣泛評估，以檢測每個標註過程中的錯誤，旨在探討現有PRMs和批判模型的邊界與限制。最後，我們希望DeltaBench能引導開發者更好地理解其模型的長CoT推理能力。

代理獎勵建模：整合人類偏好與可驗證的正確性信號，以建立可靠的獎勵系統
Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems

Feb 26

ByHao Peng, Yunjia Qi, Xiaozhi Wang, Zijun Yao, Bin Xu, Lei Hou, Juanzi Li

獎勵模型（RMs）對於大型語言模型（LLMs）的訓練及推論階段的擴展至關重要。然而，現有的獎勵模型主要聚焦於人類偏好，忽略了在訓練LLMs中展現出強大潛力的可驗證正確性信號。本文提出了一種主動式獎勵建模方法，該系統將獎勵模型與來自不同方面的可驗證正確性信號相結合，以提供更可靠的獎勵。我們實證性地實現了一個名為RewardAgent的獎勵代理，它結合了人類偏好獎勵與兩種可驗證信號：事實性與指令遵循，從而提供更為可靠的獎勵。我們在現有的獎勵模型基準上進行了全面的實驗，並在實際下游任務的推論階段進行了最佳n選搜索。RewardAgent顯著超越了基礎獎勵模型，證明了其有效性。我們進一步利用RewardAgent構建訓練偏好對，並採用DPO目標訓練了一個LLM，在多種NLP基準測試中相較於傳統獎勵模型取得了更優異的表現。我們的代碼已公開，以促進進一步研究（https://github.com/THU-KEG/Agentic-Reward-Modeling）。

亞歷山大計畫：透過大型語言模型解放科學知識的版權束縛
Project Alexandria: Towards Freeing Scientific Knowledge from Copyright Burdens via LLMs

Feb 26

ByChristoph Schuhmann, Gollam Rabby, Ameya Prabhu, Tawsif Ahmed, Andreas Hochlehnert, Huu Nguyen, Nick Akinci Heidrich, Ludwig Schmidt, Robert Kaczmarczyk, Sören Auer, Jenia Jitsev, Matthias Bethge

付費牆、許可證和版權規則往往限制了科學知識的廣泛傳播與再利用。我們主張，從法律和技術層面上，提取學術文本中的科學知識是可行的。現有的方法，如文本嵌入，未能可靠地保留事實內容，而簡單的改寫在法律上可能站不住腳。我們呼籲學界採納一個新理念：利用大型語言模型（LLMs）將學術文獻轉化為知識單元。這些單元採用結構化數據，捕捉實體、屬性及關係，而不包含風格化內容。我們提供的證據表明，知識單元：（1）基於對德國版權法和美國合理使用原則的法律分析，構建了一個在法律上可辯護的框架，用於分享受版權保護的研究文本中的知識；（2）通過對四個研究領域中原始版權文本事實的多項選擇題（MCQ）表現評估，保留了約95%的原始文本事實知識。將科學知識從版權束縛中解放出來，有望為科學研究和教育帶來變革性益處，使語言模型能夠重用受版權保護文本中的重要事實。為支持這一目標，我們分享了將研究文檔轉化為知識單元的開源工具。總體而言，我們的工作提出了在尊重版權的同時，實現科學知識民主化獲取的可行性。

語言模型能否進行反例構建？透過反例創建評估算法推理能力
Can Language Models Falsify? Evaluating Algorithmic Reasoning with Counterexample Creation

Feb 26

ByShiven Sinha, Shashwat Goel, Ponnurangam Kumaraguru, Jonas Geiping, Matthias Bethge, Ameya Prabhu

對於語言模型（LMs）加速科學發現的潛力，人們的熱情日益高漲。證偽假設是科學進步的關鍵，因為它使主張能夠隨著時間迭代精煉。這一過程需要研究者付出大量的努力、推理和創造力。然而，當前的語言模型基準主要評估其生成解決方案的能力，而非挑戰這些方案的能力。我們主張開發能評估這種逆向能力的基準——為微妙錯誤的解決方案創建反例。為展示這一方法，我們從算法問題解決領域入手，在此領域中，反例可通過代碼執行自動評估。具體而言，我們引入了REFUTE，這是一個動態更新的基準，包含來自編程競賽的最新問題及錯誤提交，其中人類專家成功識別了反例。我們的分析發現，即便是配備了代碼執行反饋的最優推理代理，如OpenAI o3-mini（高級版），也只能為REFUTE中不到9%的錯誤解決方案創建反例，儘管評分顯示其能從零開始解決高達48%的這些問題。我們希望這項工作能推動在評估和提升語言模型證偽錯誤解決方案能力方面的進展——這一能力對於加速研究以及使模型通過可靠的反思推理實現自我提升至關重要。

VEM：基於價值環境模型的無環境探索式GUI代理訓練
VEM: Environment-Free Exploration for Training GUI Agent with Value Environment Model

Feb 26

ByJiani Zheng, Lu Wang, Fangkai Yang, Chaoyun Zhang, Lingrui Mei, Wenjie Yin, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang

訓練用於圖形用戶界面（GUI）代理的視覺-語言模型（VLMs）通過強化學習（RL）面臨關鍵挑戰：基於環境的RL需要昂貴的交互，而無環境方法則在分佈偏移和獎勵泛化上遇到困難。我們提出了一種無環境的RL框架，該框架通過利用預訓練的價值環境模型（VEM）將價值估計與策略優化解耦。VEM直接從離線數據中預測狀態-動作值，提煉出類似人類對GUI交互結果的先驗知識，而無需預測下一個狀態或環境反饋。這避免了錯誤的累積，並通過專注於語義推理（例如，此動作是否推進用戶目標？）增強了對UI變化的適應性。該框架分兩個階段運行：(1) 預訓練VEM以估計長期動作效用，以及(2) 使用凍結的VEM信號指導策略探索，實現佈局無關的GUI自動化。在Android-in-the-Wild基準測試中，VEM在離線和在線設置下均達到了最先進的性能，顯著優於無環境基線，並在不產生交互成本的情況下與基於環境的方法相匹敵。重要的是，VEM證明了語義感知的價值估計可以實現與在線訓練方法相當的性能。

任何深度皆可蒸餾：蒸餾技術打造更強大的單目深度估計器
Distill Any Depth: Distillation Creates a Stronger Monocular Depth Estimator

Feb 26

ByXiankang He, Dongyan Guo, Hongji Li, Ruibo Li, Ying Cui, Chi Zhang

單目深度估計（MDE）旨在從單張RGB圖像預測場景深度，在3D場景理解中扮演著關鍵角色。近期，零樣本MDE的進展利用標準化深度表示和基於蒸餾的學習來提升對多樣場景的泛化能力。然而，當前用於蒸餾的深度標準化方法依賴於全局標準化，這可能放大噪聲偽標籤，降低蒸餾效果。本文系統分析了不同深度標準化策略對偽標籤蒸餾的影響。基於研究發現，我們提出了跨上下文蒸餾法，該方法整合全局與局部深度線索以提升偽標籤質量。此外，我們引入了一種多教師蒸餾框架，利用不同深度估計模型的互補優勢，從而實現更為穩健且準確的深度預測。在基準數據集上的廣泛實驗表明，我們的方法在定量與定性評估上均顯著優於現有最先進技術。

CritiQ：從人類偏好中挖掘數據質量標準
CritiQ: Mining Data Quality Criteria from Human Preferences

Feb 26

ByHonglin Guo, Kai Lv, Qipeng Guo, Tianyi Liang, Zhiheng Xi, Demin Song, Qiuyinzhe Zhang, Yu Sun, Kai Chen, Xipeng Qiu, Tao Gui

語言模型的高度依賴於高品質數據以實現最佳性能。現有方法依賴於手動設計的啟發式方法、現有模型的困惑度、訓練分類器或精心的提示工程，這些方法需要大量的專家經驗和人工註釋工作，同時引入了偏差。我們提出了CritiQ，一種新穎的數據選擇方法，能夠僅使用30對人工註釋的樣本自動從人類偏好中挖掘數據質量標準，並進行高效的數據選擇。其主要組件CritiQ Flow採用管理代理來演化質量標準，並由工作代理進行成對判斷。我們構建了一個知識庫，從先前的工作中提取質量標準以增強CritiQ Flow。與基於困惑度和分類器的方法相比，語言標準更具可解釋性並具有可重用的價值。在推導出標準後，我們訓練CritiQ評分器來給出質量分數並進行高效的數據選擇。我們在代碼、數學和邏輯領域展示了該方法的有效性，在人工註釋的測試集上達到了高準確率。為了驗證所選數據的質量，我們持續訓練Llama 3.1模型，並觀察到在下游任務上的性能相比均勻採樣有所提升。消融研究驗證了知識庫和反思過程的益處。我們分析了標準如何演化以及多數投票的有效性。

BIG-Bench 超難任務
BIG-Bench Extra Hard

Feb 26

ByMehran Kazemi, Bahare Fatemi, Hritik Bansal, John Palowitch, Chrysovalantis Anastasiou, Sanket Vaibhav Mehta, Lalit K. Jain, Virginia Aglietti, Disha Jindal, Peter Chen, Nishanth Dikkala, Gladys Tyen, Xin Liu, Uri Shalit, Silvia Chiappa, Kate Olszewska, Yi Tay, Vinh Q. Tran, Quoc V. Le, Orhan Firat

大型語言模型（LLMs）在日常應用中的部署日益增多，這要求其具備強大的通用推理能力和多樣化的推理技能。然而，現有的LLM推理基準主要集中於數學和編程能力，在評估更廣泛的推理熟練度方面存在空白。BIG-Bench數據集是一個特例，它作為評估LLM通用推理能力的關鍵基準，得益於其多樣化的挑戰性任務集，這些任務允許在統一框架內對各種技能進行全面的通用推理評估。然而，LLM的最新進展導致了在BIG-Bench及其更難版本BIG-Bench Hard（BBH）上的飽和。最先進的模型在BBH的許多任務上取得了接近完美的分數，從而削弱了其實用性。為解決這一限制，我們引入了BIG-Bench Extra Hard（BBEH），這是一個旨在突破LLM推理評估界限的新基準。BBEH將BBH中的每個任務替換為一個新穎的任務，這些任務探測相似的推理能力但顯著增加了難度。我們在BBEH上評估了各種模型，並觀察到最佳通用模型的（調和）平均準確率為9.8%，而最佳推理專用模型的平均準確率為44.8%，這表明仍有很大的改進空間，並突顯了在LLM中實現穩健通用推理的持續挑戰。我們在以下網址公開了BBEH：https://github.com/google-deepmind/bbeh。

MMKE-Bench：多元視覺知識的多模態編輯基準
MMKE-Bench: A Multimodal Editing Benchmark for Diverse Visual Knowledge

Feb 27

ByYuntao Du, Kailin Jiang, Zhi Gao, Chenrui Shi, Zilong Zheng, Siyuan Qi, Qing Li

知識編輯技術已成為更新大型語言模型（LLMs）和多模態模型（LMMs）事實知識的重要工具，使它們能夠在不重新訓練的情況下修正過時或錯誤的資訊。然而，現有的多模態知識編輯基準主要集中於以簡單三元組表示的實體層面知識，未能捕捉現實世界多模態資訊的複雜性。為解決這一問題，我們引入了MMKE-Bench，一個全面的多模態知識編輯基準，旨在評估LMMs在現實場景中編輯多樣化視覺知識的能力。MMKE-Bench通過整合三種類型的編輯任務來應對這些限制：視覺實體編輯、視覺語義編輯和用戶特定編輯。此外，MMKE-Bench使用自由形式的自然語言來表示和編輯知識，提供了一種更靈活且有效的格式。該基準包含33個廣泛類別中的2,940條知識和8,363張圖片，評估問題自動生成並經過人工驗證。我們在三個知名LMMs上評估了五種最先進的知識編輯方法，發現沒有任何方法在所有標準上表現出色，且視覺和用戶特定編輯尤其具有挑戰性。MMKE-Bench為評估多模態知識編輯技術的穩健性設定了新標準，推動了這一快速發展領域的進步。

FSPO：基於合成偏好數據的少樣本偏好優化，在大型語言模型中實現對真實用戶的有效個性化
FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users

Feb 26

ByAnikait Singh, Sheryl Hsu, Kyle Hsu, Eric Mitchell, Stefano Ermon, Tatsunori Hashimoto, Archit Sharma, Chelsea Finn

大型語言模型（LLMs）的有效個性化對於虛擬助手和內容策展等廣泛的用戶介面應用至關重要。受LLMs強大的上下文學習能力啟發，我們提出了少樣本偏好優化（Few-Shot Preference Optimization, FSPO），將獎勵建模重新定義為一個元學習問題。在此框架下，LLM通過少量來自用戶的標記偏好快速適應該用戶，為其構建個性化的獎勵函數。此外，由於現實世界中的偏好數據稀缺且難以大規模收集，我們提出了謹慎的設計選擇來構建用於個性化的合成偏好數據集，利用公開可用的LLMs生成了超過100萬條合成個性化偏好。特別是，為了成功將合成數據轉移到真實用戶，我們發現數據必須展現出高度多樣性以及連貫、自洽的結構。我們在三個領域（電影評論、基於教育背景的教學適應以及一般問答）中對多達1,500名合成用戶的個性化開放式生成進行了FSPO評估，並進行了受控的人類研究。總體而言，FSPO在為合成用戶生成個性化回應方面平均達到了87%的Alpaca Eval勝率，在開放式問答中與真實人類用戶的勝率為72%。

適應自動語音辨識技術於帶口音的空中交通管制通訊
Adapting Automatic Speech Recognition for Accented Air Traffic Control Communications

Feb 27

ByMarcus Yu Zhe Wee, Justin Juin Hng Wong, Lynus Lim, Joe Yu Wei Tan, Prannaya Gupta, Dillion Lim, En Hao Tew, Aloysius Keng Siew Han, Yong Zhi Lim

在航空交通管制（ATC）中，有效的溝通對於維持航空安全至關重要，然而，帶有口音的英語在自動語音識別（ASR）系統中所帶來的挑戰，至今仍大多未獲解決。現有的模型在處理東南亞口音（SEA-accented）語音，尤其是在噪音環境下的ATC語音時，轉錄準確度面臨困難。本研究展示了利用新創建的數據集，針對東南亞口音進行微調的ASR模型開發。我們的研究取得了顯著改進，在東南亞口音的ATC語音上達到了0.0982或9.82%的詞錯誤率（WER）。此外，本文強調了地區特定數據集和以口音為重點的培訓的重要性，為在資源有限的軍事行動中部署ASR系統提供了途徑。研究結果強調了需要噪音魯棒的培訓技術和地區特定數據集，以提高非西方口音在ATC通信中的轉錄準確度。

Drop-Upcycling：透過部分重新初始化訓練稀疏專家混合模型
Drop-Upcycling: Training Sparse Mixture of Experts with Partial Re-initialization

Feb 26

ByTaishi Nakamura, Takuya Akiba, Kazuki Fujii, Yusuke Oda, Rio Yokota, Jun Suzuki

專家混合（Mixture of Experts, MoE）架構相比同等容量的密集模型，顯著降低了訓練和推理成本。升級再利用（Upcycling）是一種利用預訓練密集模型來初始化和訓練MoE模型的方法。雖然升級再利用能帶來初始性能提升，但其訓練進展較從頭開始訓練更為緩慢，導致長期性能欠佳。我們提出了一種名為「Drop-Upcycling」的方法，有效解決了這一問題。Drop-Upcycling結合了兩種看似矛盾的方法：利用預訓練密集模型的知識，同時對部分權重進行統計上的重新初始化。這一策略性地促進了專家專業化，顯著提升了MoE模型在知識獲取上的效率。大規模實驗表明，Drop-Upcycling在長期訓練中，尤其是在數千億或更多標記的訓練場景下，顯著超越了以往的MoE構建方法。因此，我們的MoE模型僅使用5.9億活躍參數，就能在相同模型家族中實現與130億參數密集模型相當的性能，而所需的訓練浮點運算次數約為後者的四分之一。所有實驗資源，包括源代碼、訓練數據、模型檢查點和日誌，均已公開，以促進MoE研究的可重現性和未來探索。

AISafetyLab：一個全面的AI安全評估與改進框架
AISafetyLab: A Comprehensive Framework for AI Safety Evaluation and Improvement

Feb 24

ByZhexin Zhang, Leqi Lei, Junxiao Yang, Xijie Huang, Yida Lu, Shiyao Cui, Renmiao Chen, Qinglin Zhang, Xinyuan Wang, Hao Wang, Hao Li, Xianqi Lei, Chengwei Pan, Lei Sha, Hongning Wang, Minlie Huang

隨著人工智慧模型在各種現實場景中的應用日益廣泛，確保其安全性仍然是一個關鍵但尚未充分探索的挑戰。儘管在評估和提升AI安全性方面已投入大量努力，但缺乏標準化框架和全面工具包的問題，對系統性研究和實際應用構成了重大障礙。為彌補這一缺口，我們推出了AISafetyLab，這是一個整合了代表性攻擊、防禦及評估方法的統一框架與工具包。AISafetyLab具備直觀的介面，使開發者能夠無縫應用多種技術，同時保持程式碼庫的良好結構與可擴展性，以支持未來的技術進步。此外，我們對Vicuna進行了實證研究，分析了不同的攻擊與防禦策略，提供了關於其相對有效性的寶貴見解。為了促進AI安全領域的持續研究與發展，AISafetyLab已公開於https://github.com/thu-coai/AISafetyLab，我們承諾將持續維護並改進該平台。

MolSpectra：基於多模態能量譜的3D分子表徵預訓練
MolSpectra: Pre-training 3D Molecular Representation with Multi-modal Energy Spectra

Feb 22

ByLiang Wang, Shaozhen Liu, Yu Rong, Deli Zhao, Qiang Liu, Shu Wu, Liang Wang

建立三維結構與分子系統能量狀態之間的關係已被證明是學習三維分子表徵的一種有前景的方法。然而，現有方法僅限於從經典力學的角度建模分子能量狀態。這一限制導致了對量子力學效應（如量化（離散）能級結構）的顯著忽視，而這些效應能提供更精確的分子能量估計，並可通過能譜進行實驗測量。在本文中，我們提出利用能譜來增強三維分子表徵的預訓練（MolSpectra），從而將量子力學知識融入分子表徵中。具體而言，我們提出了SpecFormer，這是一種通過掩碼片段重建來編碼分子譜的多譜編碼器。通過進一步使用對比目標對齊三維編碼器和譜編碼器的輸出，我們增強了三維編碼器對分子的理解。在公開基準上的評估表明，我們的預訓練表徵在預測分子特性和建模動力學方面超越了現有方法。

邁向最優的多草稿推測解碼
Towards Optimal Multi-draft Speculative Decoding

Feb 26

ByZhengmian Hu, Tong Zheng, Vignesh Viswanathan, Ziyi Chen, Ryan A. Rossi, Yihan Wu, Dinesh Manocha, Heng Huang

大型語言模型（LLMs）已成為自然語言處理任務中不可或缺的一部分。然而，自回歸採樣已成為效率瓶頸。多草稿推測解碼（MDSD）是近期的一種方法，在生成每個詞元時，一個小型草稿模型會生成多個草稿，目標LLM則並行驗證這些草稿，確保最終輸出符合目標模型的分佈。MDSD中的兩個主要設計選擇是草稿採樣方法和驗證算法。對於固定的草稿採樣方法，最佳接受率是一個最優傳輸問題的解，但該問題的複雜性使得求解最佳接受率及衡量現有驗證算法與理論上限之間的差距變得困難。本文討論了最優傳輸問題的對偶問題，提供了一種高效計算最佳接受率的方法。我們首次測量了詞彙量在數千級別時MDSD效率的理論上限，並量化了現有驗證算法與此上限之間的差距。我們還基於最佳接受率比較了不同的草稿採樣方法。結果顯示，草稿採樣方法對最佳接受率有顯著影響，其中無放回採樣優於有放回採樣。此外，現有的驗證算法在無放回和有放回採樣下均未達到理論上限。我們的研究表明，精心設計的草稿採樣方法有可能提高最佳接受率，並促使開發出更接近理論上限的驗證算法。

PosterSum：一個多模態的科學海報摘要基準
PosterSum: A Multimodal Benchmark for Scientific Poster Summarization

Feb 24

ByRohit Saxena, Pasquale Minervini, Frank Keller

從多模態文件中生成準確且簡潔的文字摘要是一項挑戰，尤其是在處理視覺上複雜的內容（如科學海報）時。我們提出了PosterSum，這是一個新穎的基準，旨在推動視覺-語言模型的發展，使其能夠理解並將科學海報總結為研究論文摘要。我們的數據集包含16,305張會議海報，每張海報都配有其對應的摘要作為總結。每張海報以圖像形式提供，並呈現出多樣的視覺理解挑戰，如複雜的版面設計、密集的文字區域、表格和圖形。我們在PosterSum上對最新的多模態大型語言模型（MLLMs）進行了基準測試，結果顯示這些模型在準確解讀和總結科學海報方面存在困難。我們提出了分段與總結（Segment & Summarize）這一分層方法，該方法在自動化指標上超越了當前的MLLMs，ROUGE-L得分提升了3.14%。這將為未來關於海報摘要的研究提供一個起點。

DOEI：嵌入資訊的雙重優化用於注意力增強的類別激活映射
DOEI: Dual Optimization of Embedding Information for Attention-Enhanced Class Activation Maps

Feb 21

ByHongjie Zhu, Zeyu Zhang, Guansong Pang, Xu Wang, Shimin Wen, Yu Bai, Daji Ergu, Ying Cai, Yang Zhao

弱監督語義分割（WSSS）通常利用有限的語義註釋來獲取初始的類別激活圖（CAM）。然而，由於高維空間中類別激活響應與語義信息之間的耦合不足，CAM容易出現對象共現或激活不足的問題，導致識別精度不佳。為解決這一問題，我們提出了DOEI（雙重優化嵌入信息），這是一種新穎的方法，通過語義感知的注意力權重矩陣重構嵌入表示，以優化嵌入信息的表達能力。具體而言，DOEI在類別到圖塊的交互過程中，放大高置信度的標記並抑制低置信度的標記。這種激活響應與語義信息的對齊，增強了目標特徵的傳播與解耦，使生成的嵌入能夠更準確地表示高層語義空間中的目標特徵。此外，我們在DOEI中提出了一種混合特徵對齊模塊，結合了RGB值、嵌入引導特徵和自注意力權重，以提高候選標記的可靠性。全面的實驗表明，DOEI是一個有效的即插即用模塊，能夠顯著提升基於視覺Transformer的WSSS模型在流行基準測試（包括PASCAL VOC（+3.6%、+1.5%、+1.2% mIoU）和MS COCO（+1.2%、+1.6% mIoU））上的CAM質量和分割性能。代碼將在https://github.com/AIGeeksGroup/DOEI上提供。

AI研究論文每日精選

每日精選AI研究論文及翻譯

GHOST 2.0：生成式高保真一次性頭像遷移
GHOST 2.0: generative high-fidelity one shot transfer of heads

Feb 25

ByAlexander Groshev, Anastasiia Iashchenko, Pavel Paramonov, Denis Dimitrov, Andrey Kuznetsov

Kanana：高效能雙語語言模型
Kanana: Compute-efficient Bilingual Language Models

Feb 26

邁向AI協作科學家
Towards an AI co-scientist

Feb 26

定理解釋代理：面向大語言模型定理理解的多模態解釋
TheoremExplainAgent: Towards Multimodal Explanations for LLM Theorem Understanding

Feb 26

ByMax Ku, Thomas Chong, Jonathan Leung, Krish Shah, Alvin Yu, Wenhu Chen

Plutus：針對低資源希臘語金融領域的大型語言模型基準測試
Plutus: Benchmarking Large Language Models in Low-Resource Greek Finance

Feb 26

ByXueqing Peng, Triantafillos Papadopoulos, Efstathia Soufleri, Polydoros Giannouris, Ruoyu Xiang, Yan Wang, Lingfei Qian, Jimin Huang, Qianqian Xie, Sophia Ananiadou

語言模型的事實準確性取決於查詢所使用的語言
Language Models' Factuality Depends on the Language of Inquiry

Feb 25

ByTushar Aggarwal, Kumar Tanmay, Ayush Agrawal, Kumar Ayush, Hamid Palangi, Paul Pu Liang

Rank1：資訊檢索中重排序的測試時計算
Rank1: Test-Time Compute for Reranking in Information Retrieval

Feb 25

ByOrion Weller, Kathryn Ricci, Eugene Yang, Andrew Yates, Dawn Lawrie, Benjamin Van Durme

大型語言模型能否檢測長鏈思維推理中的錯誤？
Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning?

Feb 26

ByYancheng He, Shilong Li, Jiaheng Liu, Weixun Wang, Xingyuan Bu, Ge Zhang, Zhongyuan Peng, Zhaoxiang Zhang, Wenbo Su, Bo Zheng

代理獎勵建模：整合人類偏好與可驗證的正確性信號，以建立可靠的獎勵系統
Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems

Feb 26

ByHao Peng, Yunjia Qi, Xiaozhi Wang, Zijun Yao, Bin Xu, Lei Hou, Juanzi Li

亞歷山大計畫：透過大型語言模型解放科學知識的版權束縛
Project Alexandria: Towards Freeing Scientific Knowledge from Copyright Burdens via LLMs

Feb 26

ByChristoph Schuhmann, Gollam Rabby, Ameya Prabhu, Tawsif Ahmed, Andreas Hochlehnert, Huu Nguyen, Nick Akinci Heidrich, Ludwig Schmidt, Robert Kaczmarczyk, Sören Auer, Jenia Jitsev, Matthias Bethge

語言模型能否進行反例構建？透過反例創建評估算法推理能力
Can Language Models Falsify? Evaluating Algorithmic Reasoning with Counterexample Creation

Feb 26

ByShiven Sinha, Shashwat Goel, Ponnurangam Kumaraguru, Jonas Geiping, Matthias Bethge, Ameya Prabhu

VEM：基於價值環境模型的無環境探索式GUI代理訓練
VEM: Environment-Free Exploration for Training GUI Agent with Value Environment Model

Feb 26

ByJiani Zheng, Lu Wang, Fangkai Yang, Chaoyun Zhang, Lingrui Mei, Wenjie Yin, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang

任何深度皆可蒸餾：蒸餾技術打造更強大的單目深度估計器
Distill Any Depth: Distillation Creates a Stronger Monocular Depth Estimator

Feb 26

ByXiankang He, Dongyan Guo, Hongji Li, Ruibo Li, Ying Cui, Chi Zhang

CritiQ：從人類偏好中挖掘數據質量標準
CritiQ: Mining Data Quality Criteria from Human Preferences

Feb 26

ByHonglin Guo, Kai Lv, Qipeng Guo, Tianyi Liang, Zhiheng Xi, Demin Song, Qiuyinzhe Zhang, Yu Sun, Kai Chen, Xipeng Qiu, Tao Gui

BIG-Bench 超難任務
BIG-Bench Extra Hard

Feb 26

MMKE-Bench：多元視覺知識的多模態編輯基準
MMKE-Bench: A Multimodal Editing Benchmark for Diverse Visual Knowledge

Feb 27

ByYuntao Du, Kailin Jiang, Zhi Gao, Chenrui Shi, Zilong Zheng, Siyuan Qi, Qing Li

FSPO：基於合成偏好數據的少樣本偏好優化，在大型語言模型中實現對真實用戶的有效個性化
FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users

Feb 26

ByAnikait Singh, Sheryl Hsu, Kyle Hsu, Eric Mitchell, Stefano Ermon, Tatsunori Hashimoto, Archit Sharma, Chelsea Finn

DOEI：嵌入資訊的雙重優化用於注意力增強的類別激活映射
DOEI: Dual Optimization of Embedding Information for Attention-Enhanced Class Activation Maps

Feb 21

ByHongjie Zhu, Zeyu Zhang, Guansong Pang, Xu Wang, Shimin Wen, Yu Bai, Daji Ergu, Ying Cai, Yang Zhao