AI研究論文每日精選

每日精選AI研究論文及翻譯

LLM顯微鏡：揭示標點符號在Transformer上下文記憶中的隱藏作用
LLM-Microscope: Uncovering the Hidden Role of Punctuation in Context Memory of Transformers

Feb 20

ByAnton Razzhigaev, Matvey Mikhalchuk, Temurbek Rahmatullaev, Elizaveta Goncharova, Polina Druzhinina, Ivan Oseledets, Andrey Kuznetsov

174

我們提出了一系列方法來量化大型語言模型（LLMs）如何編碼和存儲上下文信息，揭示了通常被視為次要的詞元（例如限定詞、標點符號）竟然承載著出乎意料的高上下文信息。值得注意的是，移除這些詞元——尤其是停用詞、冠詞和逗號——會持續降低模型在MMLU和BABILong-4k上的表現，即使僅移除不相關的詞元也是如此。我們的分析還顯示，上下文化與線性度之間存在強烈關聯，其中線性度衡量了從一層嵌入到下一層嵌入的轉換能被單一線性映射近似到何種程度。這些發現凸顯了填充詞元在維持上下文中的隱含重要性。為了進一步探索，我們推出了LLM-Microscope，這是一個開源工具包，用於評估詞元級別的非線性度、評估上下文記憶、可視化中間層的貢獻（通過改進的Logit Lens），以及測量表徵的內在維度。該工具包揭示了看似微不足道的詞元如何對長距離理解至關重要。

SurveyX：基於大型語言模型的學術問卷自動化系統
SurveyX: Academic Survey Automation via Large Language Models

Feb 20

ByXun Liang, Jiawei Yang, Yezhaohui Wang, Chen Tang, Zifan Zheng, Simin Niu, Shichao Song, Hanyu Wang, Bo Tang, Feiyu Xiong, Keming Mao, Zhiyu li

100

大型語言模型（LLMs）展現了卓越的理解能力和龐大的知識庫，表明其可作為自動化問卷生成的高效工具。然而，近期關於自動化問卷生成的研究仍受到一些關鍵限制的約束，如有限的上下文窗口、缺乏深入的內容討論以及系統性評估框架的缺失。受人類寫作過程的啟發，我們提出了SurveyX，這是一個高效且組織化的自動化問卷生成系統，將問卷編寫過程分解為兩個階段：準備階段和生成階段。通過創新性地引入在線參考檢索、名為AttributeTree的預處理方法以及再潤色過程，SurveyX顯著提升了問卷編制的效能。實驗評估結果顯示，SurveyX在內容質量（提升0.259）和引用質量（提升1.76）上均優於現有的自動化問卷生成系統，在多個評估維度上接近人類專家的表現。SurveyX生成的問卷示例可在www.surveyx.cn上查看。

Mol-LLaMA：邁向大規模分子語言模型中的分子通用理解
Mol-LLaMA: Towards General Understanding of Molecules in Large Molecular Language Model

Feb 19

ByDongki Kim, Wonbin Lee, Sung Ju Hwang

理解分子是理解生物體並推動藥物發現進步的關鍵，這需要跨化學與生物學的跨學科知識。儘管大型分子語言模型在解釋分子結構方面取得了顯著成功，但其指令數據集僅限於任務導向數據集中的特定知識，並未全面涵蓋分子的基本特徵，這限制了它們作為通用分子助手的能力。為解決這一問題，我們提出了Mol-LLaMA，這是一個通過多模態指令調優掌握以分子為核心的通用知識的大型分子語言模型。為此，我們設計了涵蓋分子基本特徵的關鍵數據類型，並整合了分子結構中的核心知識。此外，為了提升對分子特徵的理解，我們引入了一個模塊，該模塊整合了來自不同分子編碼器的互補信息，充分利用了不同分子表示方式的獨特優勢。我們的實驗結果表明，Mol-LLaMA能夠理解分子的通用特徵，並針對用戶的查詢生成相關回應及詳細解釋，展現了其作為通用分子分析助手的潛力。

PhotoDoodle：從少量成對數據中學習藝術圖像編輯
PhotoDoodle: Learning Artistic Image Editing from Few-Shot Pairwise Data

Feb 20

ByShijie Huang, Yiren Song, Yuxuan Zhang, Hailong Guo, Xueyin Wang, Mike Zheng Shou, Jiaming Liu

我們介紹了PhotoDoodle，這是一個新穎的圖像編輯框架，旨在通過讓藝術家能夠在照片上疊加裝飾元素來促進照片塗鴉。照片塗鴉具有挑戰性，因為插入的元素必須與背景無縫融合，這需要真實的混合、透視對齊和上下文一致性。此外，背景必須保持不變形，並且藝術家的獨特風格必須從有限的訓練數據中高效捕捉。這些需求在以往主要關注全局風格遷移或區域修復的方法中並未得到解決。所提出的方法PhotoDoodle採用了一種兩階段的訓練策略。首先，我們使用大規模數據訓練一個通用圖像編輯模型OmniEditor。隨後，我們使用EditLoRA對該模型進行微調，利用藝術家精心挑選的前後圖像對小數據集來捕捉獨特的編輯風格和技巧。為了增強生成結果的一致性，我們引入了一種位置編碼重用機制。此外，我們發布了一個包含六種高質量風格的PhotoDoodle數據集。大量實驗證明，我們的方法在定制圖像編輯方面具有先進的性能和魯棒性，為藝術創作開闢了新的可能性。

MaskGWM：一種基於視頻遮罩重建的通用駕駛世界模型
MaskGWM: A Generalizable Driving World Model with Video Mask Reconstruction

Feb 17

ByJingcheng Ni, Yuxin Guo, Yichen Liu, Rui Chen, Lewei Lu, Zehuan Wu

能夠根據行動預測環境變化的世界模型，對於具備強大泛化能力的自動駕駛模型至關重要。當前主流的駕駛世界模型主要基於視頻預測模型。儘管這些模型能夠利用先進的基於擴散的生成器產生高保真度的視頻序列，但它們在預測時長和整體泛化能力方面仍受到限制。本文探討通過將生成損失與MAE風格的特徵層次上下文學習相結合來解決這一問題。具體而言，我們通過三個關鍵設計來實現這一目標：（1）採用更具可擴展性的擴散變壓器（DiT）結構，並通過額外的掩碼構建任務進行訓練。（2）設計與擴散相關的掩碼標記，以處理掩碼重建與生成擴散過程之間的模糊關係。（3）將掩碼構建任務擴展到時空域，利用行向掩碼進行移位自注意力而非MAE中的掩碼自注意力。隨後，我們採用行向跨視圖模塊來與此掩碼設計保持一致。基於上述改進，我們提出了MaskGWM：一種體現視頻掩碼重建的通用駕駛世界模型。我們的模型包含兩個變體：專注於長時預測的MaskGWM-long，以及致力於多視圖生成的MaskGWM-mview。在標準基準上的全面實驗驗證了所提方法的有效性，包括Nuscene數據集的常規驗證、OpenDV-2K數據集的長時推演以及Waymo數據集的零樣本驗證。這些數據集上的定量指標表明，我們的方法顯著提升了當前最先進的駕駛世界模型。

VLM^2-Bench：深入探討視覺語言模型如何隱含地連結顯式匹配的視覺線索
VLM^2-Bench: A Closer Look at How Well VLMs Implicitly Link Explicit Matching Visual Cues

Feb 17

ByJianshu Zhang, Dongyu Yao, Renjie Pi, Paul Pu Liang, Yi R., Fung

在日常生活中，視覺上連結匹配線索是一項至關重要的能力，例如根據線索在多張照片中識別出同一個人，即使並不知道他們的身份。儘管視覺語言模型（VLMs）擁有廣泛的知識，但它們是否能夠執行這項基本任務仍很大程度上未被探索。為此，我們引入了VLM^2-Bench，這是一個旨在評估VLMs是否能夠視覺連結匹配線索的基準測試，包含9個子任務和超過3,000個測試案例。通過對八個開源VLMs和GPT-4o的全面評估，以及對各種語言側和視覺側提示方法的進一步分析，我們得出了八個關鍵發現。我們識別出模型在連結視覺線索能力上的關鍵挑戰，突顯出一個顯著的性能差距，即使GPT-4o也落後人類34.80%。基於這些洞察，我們主張：(i) 增強核心視覺能力以提高適應性並減少對先驗知識的依賴，(ii) 建立更清晰的原則來整合基於語言的推理於視覺中心任務中，以避免不必要的偏見，以及(iii) 轉變視覺文本訓練範式，以培養模型獨立結構化和推斷視覺線索之間關係的能力。

SIFT：透過貼紙將大型語言模型的推理能力根植於情境中
SIFT: Grounding LLM Reasoning in Contexts via Stickers

Feb 19

ByZihao Zeng, Xuyao Huang, Boxiu Li, Zhijie Deng

本文指出，在大型語言模型的推理過程中，對上下文語境的誤解可能成為一個顯著問題，這一現象從較小模型如Llama3.2-3B-Instruct到尖端模型如DeepSeek-R1均有體現。例如，在短語“每公斤10美元”中，LLMs可能未能識別“每”意指“每一”，從而導致計算錯誤。為此，我們引入了一種新穎的後訓練方法——**堅守事實（SIFT）**，以應對這一挑戰。SIFT利用增強的推理時計算能力，將LLM的推理過程錨定於上下文之中。SIFT的核心在於*標籤器*，它由模型自身生成，旨在明確強調上下文中的關鍵信息。基於精心設計的標籤器，SIFT會生成兩個預測結果——一個來自原始查詢，另一個則來自於結合了標籤器的查詢。若兩者存在差異，標籤器將通過*正向*優化（以更好地使提取的事實與查詢對齊）和*逆向*生成（以符合模型的內在傾向）進行序列化精煉，從而獲得更為忠實的推理結果。跨多種模型（從3B到100B+）和基準測試（如GSM8K、MATH-500）的研究均顯示出性能的持續提升。尤為突出的是，SIFT將DeepSeek-R1在AIME2024上的pass@1準確率從78.33%提升至**85.67%**，在開源社區中樹立了新的技術標杆。相關代碼已公開於https://github.com/zhijie-group/SIFT。

LightThinker：逐步思考的壓縮技術
LightThinker: Thinking Step-by-Step Compression

Feb 21

ByJintian Zhang, Yuqi Zhu, Mengshu Sun, Yujie Luo, Shuofei Qiao, Lun Du, Da Zheng, Huajun Chen, Ningyu Zhang

大型語言模型（LLMs）在複雜推理任務中展現了卓越的性能，但其效率因生成冗長詞元所伴隨的巨大記憶體和計算成本而受到限制。本文提出了一種新方法——LightThinker，該方法使LLMs能夠在推理過程中動態壓縮中間思維。受人類認知過程的啟發，LightThinker將繁瑣的思維步驟壓縮為緊湊的表示形式，並捨棄原始推理鏈，從而顯著減少存儲在上下文窗口中的詞元數量。這是通過數據構建訓練模型何時及如何執行壓縮、將隱藏狀態映射到精簡的要點詞元，以及創建專門的注意力掩碼來實現的。此外，我們引入了依賴性（Dep）指標，通過測量生成過程中對歷史詞元的依賴程度來量化壓縮程度。在四個數據集和兩個模型上的廣泛實驗表明，LightThinker降低了峰值記憶體使用量和推理時間，同時保持了競爭力的準確性。我們的工作為在不犧牲性能的前提下提高LLMs在複雜推理任務中的效率提供了新的方向。代碼將發佈於https://github.com/zjunlp/LightThinker。

MoBA：長上下文大語言模型的區塊注意力混合機制
MoBA: Mixture of Block Attention for Long-Context LLMs

Feb 18

ByEnzhe Lu, Zhejun Jiang, Jingyuan Liu, Yulun Du, Tao Jiang, Chao Hong, Shaowei Liu, Weiran He, Enming Yuan, Yuzhi Wang, Zhiqi Huang, Huan Yuan, Suting Xu, Xinran Xu, Guokun Lai, Yanru Chen, Huabin Zheng, Junjie Yan, Jianlin Su, Yuxin Wu, Neo Y. Zhang, Zhilin Yang, Xinyu Zhou, Mingxing Zhang, Jiezhong Qiu

擴展有效上下文長度對於推動大型語言模型（LLMs）邁向人工通用智能（AGI）至關重要。然而，傳統注意力機制中固有的計算複雜度二次增長帶來了難以承受的開銷。現有方法要么施加了強烈偏置的結構，如針對特定任務的匯聚或窗口注意力，要么將注意力機制徹底修改為線性近似，而這些方法在複雜推理任務中的性能仍未被充分探索。在本研究中，我們提出了一種遵循「更少結構」原則的解決方案，允許模型自主決定關注何處，而非引入預定義的偏置。我們引入了塊注意力混合（Mixture of Block Attention, MoBA），這是一種創新方法，將專家混合（Mixture of Experts, MoE）的原則應用於注意力機制。這一新穎架構在長上下文任務中展現出卓越性能，同時提供了一個關鍵優勢：能夠在完全注意力和稀疏注意力之間無縫切換，提升效率而不必擔心性能受損。MoBA已被部署以支持Kimi的長上下文請求，並在LLMs的高效注意力計算方面展示了顯著進展。我們的代碼可在https://github.com/MoonshotAI/MoBA 獲取。

安全標準對所有人一視同仁嗎？大型語言模型的用戶特定安全評估
Is Safety Standard Same for Everyone? User-Specific Safety Evaluation of Large Language Models

Feb 20

ByYeonjun In, Wonjoong Kim, Kanghoon Yoon, Sungchul Kim, Mehrab Tanjim, Kibum Kim, Chanyoung Park

隨著大型語言模型（LLM）代理的應用日益廣泛，其安全漏洞也愈發顯著。現有的廣泛基準測試主要依賴於通用標準來評估LLM的各項安全指標，卻忽略了用戶特定的安全標準。然而，LLM的安全標準可能因用戶個體差異而有所不同，而非在所有用戶間保持一致性。這引發了一個關鍵的研究問題：在考慮用戶特定安全標準時，LLM代理是否能夠安全地行動？儘管這一問題對於LLM的安全使用至關重要，但目前尚無基準數據集來評估LLM的用戶特定安全性。為填補這一空白，我們引入了U-SAFEBENCH，這是首個旨在評估LLM用戶特定安全性的基準測試。我們對18個廣泛使用的LLM進行了評估，結果顯示當前LLM在考慮用戶特定安全標準時未能安全行動，這在該領域標誌著一項新發現。為應對這一漏洞，我們提出了一種基於思維鏈的簡單補救措施，並證明了其在提升用戶特定安全性方面的有效性。我們的基準測試和代碼可在https://github.com/yeonjun-in/U-SafeBench獲取。

StructFlowBench：多輪指令跟蹤的結構化流程基準測試
StructFlowBench: A Structured Flow Benchmark for Multi-turn Instruction Following

Feb 20

ByJinnan Li, Jinzhe Li, Yue Wang, Yi Chang, Yuan Wu

多輪指令跟隨能力是大型語言模型（LLMs）在實際應用中的核心競爭力。現有的評估基準主要集中於細粒度約束滿足和特定領域能力評估，卻忽視了區分多輪與單輪互動的關鍵結構依賴性。這種結構依賴性不僅反映了用戶意圖，還為指令跟隨評估建立了超越約束滿足的第二維度。為填補這一空白，我們提出了StructFlowBench，一個帶有結構流建模的多輪指令跟隨基準。該基準創新性地定義了一個包含六種基本輪間關係的結構流框架，不僅為模型評估引入了新穎的結構約束，還作為生成參數用於創建針對特定場景定制的對話流。採用已建立的基於LLM的自動評估方法，我們對13個領先的開源和閉源LLM進行了系統評估。實驗結果揭示了當前模型在多輪對話結構理解上的顯著不足。代碼可在https://github.com/MLGroupJLU/StructFlowBench獲取。

邁向全自動化材料發現：基於大規模合成數據集與專家級LLM評判機制
Towards Fully-Automated Materials Discovery via Large-Scale Synthesis Dataset and Expert-Level LLM-as-a-Judge

Feb 23

ByHeegyu Kim, Taeyang Jeon, Seungtaek Choi, Jihoon Hong, Dongwon Jeon, Sungbum Cho, Ga-Yeon Baek, Kyung-Won Kwak, Dong-Hee Lee, Sun-Jin Choi, Jisu Bae, Chihoon Lee, Yunseo Kim, Jinsung Park, Hyunsouk Cho

材料合成對於能源儲存、催化、電子學及生物醫學設備等領域的創新至關重要。然而，這一過程主要依賴於基於專家直覺的經驗性試錯法。我們的工作旨在通過提供一個實用的、數據驅動的資源來支持材料科學界。我們從公開文獻中精心整理了一個包含17,000條專家驗證合成配方的全面數據集，這構成了我們新開發的基準——AlchemyBench的基礎。AlchemyBench提供了一個端到端的框架，支持大語言模型應用於合成預測的研究。它涵蓋了關鍵任務，包括原材料與設備預測、合成程序生成及表徵結果預測。我們提出了一個LLM-as-a-Judge框架，利用大語言模型進行自動化評估，展示了與專家評估高度一致的統計結果。總體而言，我們的貢獻為探索大語言模型在預測和指導材料合成方面的能力提供了堅實的基礎，最終為更高效的實驗設計和加速材料科學創新鋪平了道路。

以韓國教育標準評估多模態生成式人工智慧
Evaluating Multimodal Generative AI with Korean Educational Standards

Feb 21

BySanghee Park, Geewook Kim

本文介紹了韓國國家教育考試基準（KoNET），這是一個旨在利用韓國國家教育考試來評估多模態生成式AI系統的新基準。KoNET包含四項考試：韓國小學普通教育發展測試（KoEGED）、中學（KoMGED）、高中（KoHGED）以及大學修學能力試驗（KoCSAT）。這些考試以其嚴格的標準和多樣化的題目而聞名，有助於全面分析AI在不同教育層級中的表現。透過聚焦於韓語，KoNET為模型在較少被探索語言中的表現提供了洞見。我們評估了一系列模型——開源、開放存取及封閉API——通過考察難度、科目多樣性及人類錯誤率。程式碼與資料集建構工具將於https://github.com/naver-ai/KoNET完全開源。

ReQFlow：用於高效高質量蛋白質骨架生成的校正四元數流
ReQFlow: Rectified Quaternion Flow for Efficient and High-Quality Protein Backbone Generation

Feb 20

ByAngxiao Yue, Zichong Wang, Hongteng Xu

蛋白質骨架生成在從頭蛋白質設計中扮演著核心角色，並對許多生物學和醫學應用具有重要意義。儘管基於擴散和流動的生成模型為這一挑戰性任務提供了潛在解決方案，但它們往往生成具有不理想可設計性的蛋白質，且存在計算效率低下的問題。在本研究中，我們提出了一種新穎的校正四元數流（ReQFlow）匹配方法，用於快速且高質量的蛋白質骨架生成。具體而言，我們的方法為蛋白質鏈中的每個殘基從隨機噪聲生成局部平移和三維旋轉，將每個三維旋轉表示為單位四元數，並通過指數形式的球面線性插值（SLERP）構建其流動。我們通過具有數值穩定性的四元數流（QFlow）匹配來訓練模型，並校正QFlow模型以加速其推理並提高生成蛋白質骨架的可設計性，從而提出ReQFlow模型。實驗表明，ReQFlow在蛋白質骨架生成中達到了最先進的性能，同時需要更少的採樣步驟和顯著更短的推理時間（例如，在生成長度為300的骨架時，比RFDiffusion快37倍，比Genie2快62倍），展示了其有效性和效率。代碼可在https://github.com/AngxiaoYue/ReQFlow獲取。

大型語言模型中推理與表現的關係——o3（迷你版）更深入地思考，而非更長時間
The Relationship Between Reasoning and Performance in Large Language Models -- o3 (mini) Thinks Harder, Not Longer

Feb 21

ByMarthe Ballon, Andres Algaba, Vincent Ginis

大型語言模型在數學推理方面展現了顯著的進步，這主要得益於思維鏈和測試時計算規模的擴展。然而，關於推理標記使用與準確性提升之間的相互作用，仍存在許多未解之謎。特別是，在跨代模型比較時，性能的提升究竟源於更長的推理鏈還是更高效的推理，尚不明確。我們系統地分析了Omni-MATH基準上o1-mini和o3-mini變體的思維鏈長度，發現o3-mini (m)在無需比o1-mini更長推理鏈的情況下，達到了更高的準確性。此外，我們發現，在所有模型和計算設置中，隨著推理鏈的增長，準確性普遍下降，即便控制了問題的難度。這種準確性下降在更熟練的模型中顯著較小，這表明新一代的推理模型更有效地利用了測試時的計算資源。最後，我們指出，雖然o3-mini (h)相比o3-mini (m)實現了微小的準確性提升，但這是通過在所有問題上分配顯著更多的推理標記來實現的，即便是那些o3-mini (m)已經能夠解決的問題。這些發現為模型能力與推理長度之間的關係提供了新的見解，對效率、規模擴展和評估方法具有重要意義。

深入JSON思維：強化策略以嚴格遵循LLM架構
Think Inside the JSON: Reinforcement Strategy for Strict LLM Schema Adherence

Feb 18

ByBhavik Agarwal, Ishan Joshi, Viktoria Rojkova

本文探討了如何利用大型語言模型（LLM）的推理能力來強化其在生成過程中對嚴格模式的遵循。基於DeepSeek R1強化學習框架，我們的方法通過一個結合合成推理數據集構建與群組相對策略優化（GRPO）下自定義獎勵函數的新穎管道，訓練了一個15億參數模型的結構化推理技能。具體而言，我們首先在一個包含20,000個樣本的無結構到有結構數據集上進行R1強化學習，模仿原始DeepSeek R1方法，以建立核心推理能力。隨後，我們在一個獨立的10,000個推理樣本數據集上進行監督微調，專注於精煉下游任務的模式遵循。儘管訓練範圍相對有限，GRPO訓練在8xH100 GPU集群上約需20小時，SFT在1xA100上約需3小時，但我們的模型在確保模式一致性方面展現了穩健的性能。我們將ThinkJSON方法與原始DeepSeek R1（671B）、DeepSeek R1的蒸餾版本（Qwen-1.5B和Qwen-7B）以及Gemini 2.0 Flash（70B）進行了比較，展示了其在實際應用中的有效性。我們的結果凸顯了資源高效框架在模式約束文本生成中的實際效用。

FantasyID：基於面部知識增強的ID保持視頻生成
FantasyID: Face Knowledge Enhanced ID-Preserving Video Generation

Feb 19

ByYunpeng Zhang, Qiang Wang, Fan Jiang, Yaqi Fan, Mu Xu, Yonggang Qi

無需調適的方法利用大規模預訓練的視頻擴散模型進行身份保持的文本到視頻生成（IPT2V）因其效能與可擴展性近期廣受歡迎。然而，在保持身份不變的同時實現令人滿意的面部動態仍面臨重大挑戰。在本研究中，我們提出了一種新穎的無需調適IPT2V框架，通過增強基於擴散變換器（DiT）構建的預訓練視頻模型的面部知識，命名為FantasyID。本質上，我們引入了3D面部幾何先驗，以確保視頻合成過程中面部結構的合理性。為防止模型學習簡單複製參考面部跨幀的“複製-粘貼”捷徑，我們設計了一種多視角面部增強策略，以捕捉多樣的2D面部外觀特徵，從而增加面部表情和頭部姿態的動態性。此外，在將2D與3D特徵融合作為引導後，我們並未簡單地使用交叉注意力將引導信息注入DiT層，而是採用了一種可學習的層感知自適應機制，選擇性地將融合特徵注入到各個DiT層中，促進身份保持與運動動態的平衡建模。實驗結果驗證了我們的模型在當前無需調適IPT2V方法中的優越性。

MedHallu：大型語言模型醫學幻覺檢測之全面基準測試
MedHallu: A Comprehensive Benchmark for Detecting Medical Hallucinations in Large Language Models

Feb 20

ByShrey Pandit, Jiawei Xu, Junyuan Hong, Zhangyang Wang, Tianlong Chen, Kaidi Xu, Ying Ding

大型語言模型（LLMs）的進步及其在醫學問答中的日益應用，亟需對其可靠性進行嚴格評估。一個關鍵挑戰在於幻覺現象，即模型生成看似合理但實際上錯誤的輸出。在醫學領域，這對患者安全和臨床決策構成了嚴重風險。為此，我們引入了MedHallu，這是首個專門針對醫學幻覺檢測設計的基準。MedHallu包含從PubMedQA中提取的10,000個高質量問答對，並通過受控流程系統生成幻覺答案。我們的實驗表明，包括GPT-4o、Llama-3.1及醫學微調的UltraMedical在內的頂尖LLMs，在這一二元幻覺檢測任務上表現不佳，最佳模型在檢測“困難”類別幻覺時的F1分數僅為0.625。通過雙向蘊含聚類，我們發現更難檢測的幻覺在語義上更接近真實答案。實驗還表明，融入領域特定知識並引入“不確定”作為回答類別之一，相較於基線，精確度和F1分數提升了高達38%。

KITAB-Bench：一個全面的多領域基準測試，專為阿拉伯語OCR與文件理解而設計
KITAB-Bench: A Comprehensive Multi-Domain Benchmark for Arabic OCR and Document Understanding

Feb 20

ByAhmed Heakl, Abdullah Sohail, Mukul Ranjan, Rania Hossam, Ghazi Ahmed, Mohamed El-Geish, Omar Maher, Zhiqiang Shen, Fahad Khan, Salman Khan

隨著檢索增強生成（RAG）技術在文件處理中的日益普及，穩健的文字識別對於知識提取變得愈發關鍵。儘管英語及其他語言的OCR（光學字符識別）得益於龐大的數據集和成熟的基準測試，阿拉伯語OCR卻因其連寫字體、從右至左的文本流向以及複雜的排版與書法特徵而面臨獨特挑戰。我們提出了KITAB-Bench，這是一個全面的阿拉伯語OCR基準測試，填補了現有評估系統的空白。我們的基準涵蓋了9大領域和36個子領域的8,809個樣本，包括手寫文本、結構化表格以及針對商業智能的21種圖表類型的專門覆蓋。研究結果表明，現代視覺語言模型（如GPT-4、Gemini和Qwen）在字符錯誤率（CER）上平均比傳統OCR方法（如EasyOCR、PaddleOCR和Surya）高出60%。此外，我們強調了當前阿拉伯語OCR模型的顯著侷限性，特別是在PDF到Markdown的轉換中，最佳模型Gemini-2.0-Flash僅達到65%的準確率。這凸顯了準確識別阿拉伯語文本的挑戰，包括複雜字體問題、數字識別錯誤、詞語延展以及表格結構檢測的困難。本工作建立了一個嚴格的評估框架，可推動阿拉伯語文件分析方法的改進，並縮小與英語OCR技術的性能差距。

一步扩散模型与f-散度分布匹配
One-step Diffusion Models with f-Divergence Distribution Matching

Feb 21

ByYilun Xu, Weili Nie, Arash Vahdat

從擴散模型中採樣涉及一個緩慢的迭代過程，這阻礙了其實際部署，尤其是在互動應用中。為了加速生成速度，最近的方法通過變分分數蒸餾將多步擴散模型蒸餾成單步學生生成器，使學生生成的樣本分佈與教師的分佈相匹配。然而，這些方法使用反向Kullback-Leibler（KL）散度進行分佈匹配，而眾所周知，這種散度具有模式尋求的特性。在本文中，我們使用一種新穎的f-散度最小化框架（稱為f-distill）來推廣分佈匹配方法，該框架涵蓋了不同散度，並在模式覆蓋和訓練方差之間提供了不同的權衡。我們推導了教師和學生分佈之間f-散度的梯度，並表明它表示為它們分數差異與由它們密度比決定的加權函數的乘積。當使用較少模式尋求的散度時，這個加權函數自然會強調教師分佈中密度較高的樣本。我們觀察到，使用反向KL散度的流行變分分數蒸餾方法是我們框架中的一個特例。實證上，我們證明替代的f-散度，如正向KL和Jensen-Shannon散度，在圖像生成任務中優於當前最佳的變分分數蒸餾方法。特別是，當使用Jensen-Shannon散度時，f-distill在ImageNet64上實現了當前最先進的一步生成性能，並在MS-COCO上實現了零樣本文本到圖像生成。項目頁面：https://research.nvidia.com/labs/genair/f-distill

樹狀辯論法：多人格辯論樹激發批判性思維，助力科學比較分析
Tree-of-Debate: Multi-Persona Debate Trees Elicit Critical Thinking for Scientific Comparative Analysis

Feb 20

ByPriyanka Kargupta, Ishika Agarwal, Tal August, Jiawei Han

隨著現代科技的進步和可及性的提升，科學研究的數量呈指數級增長，這使得科學發現在各個領域內部和跨領域之間變得日益碎片化。這種情況使得評估相關研究的重要性、新穎性、增量發現以及等價觀點變得尤為困難，尤其是對於來自不同研究群體的工作。近年來，大型語言模型（LLMs）展現出強大的定量和定性推理能力，而多智能體LLM辯論在處理複雜推理任務方面顯示出潛力，通過探索多樣化的觀點和推理路徑。受此啟發，我們引入了“辯論樹”（Tree-of-Debate, ToD）框架，該框架將科學論文轉化為LLM角色，讓它們就各自的新穎性進行辯論。為了強調結構化的批判性推理而非僅僅關注結果，ToD動態構建辯論樹，從而能夠對學術文章中的獨立新穎性論點進行細粒度分析。通過在多個領域的科學文獻上進行實驗，並由專家研究人員評估，我們證明ToD能夠生成信息豐富的論點，有效對比論文，並支持研究人員進行文獻綜述。

InterFeedback：透過人類回饋揭示大型多模態模型的互動智能
InterFeedback: Unveiling Interactive Intelligence of Large Multimodal Models via Human Feedback

Feb 20

ByHenry Hengyuan Zhao, Wenqi Pei, Yifei Tao, Haiyang Mei, Mike Zheng Shou

現有的基準測試並未針對大型多模態模型（LMMs）與人類用戶的互動智能進行評估，而這對於開發通用型AI助手至關重要。我們設計了InterFeedback，這是一個互動框架，可應用於任何LMM和數據集，以自主評估此能力。在此基礎上，我們引入了InterFeedback-Bench，它使用兩個代表性數據集MMMU-Pro和MathVerse來測試10種不同的開源LMM，以評估其互動智能。此外，我們還提出了InterFeedback-Human，這是一個新收集的包含120個案例的數據集，專門用於手動測試領先模型（如OpenAI-o1和Claude-3.5-Sonnet）的互動表現。我們的評估結果顯示，即使是像OpenAI-o1這樣最先進的LMM，在通過人類反饋修正其結果方面的成功率也低於50%。這些發現表明，我們需要開發能夠增強LMM解釋和利用反饋能力的方法。

EgoSpeak：為真實場景中的自我中心對話代理學習何時發言
EgoSpeak: Learning When to Speak for Egocentric Conversational Agents in the Wild

Feb 17

ByJunhyeok Kim, Min Soo Kim, Jiwan Chung, Jungbin Cho, Jisoo Kim, Sungwoong Kim, Gyeongbo Sim, Youngjae Yu

在現實環境中預測何時啟動語音對話，仍然是對話代理系統面臨的根本性挑戰。我們提出了EgoSpeak，這是一個用於即時語音啟動預測的新框架，專注於自我中心視角的串流視頻。通過從說話者的第一人稱視角建模對話，EgoSpeak專為實現類人互動而設計，在這種互動中，對話代理必須持續觀察其環境並動態決定何時發言。我們的方法通過整合四大關鍵能力，彌合了簡化實驗設置與複雜自然對話之間的差距：(1) 第一人稱視角，(2) RGB影像處理，(3) 線上處理，以及(4) 未修剪視頻處理。此外，我們還推出了YT-Conversation，這是一個來自YouTube的多樣化真實對話視頻集合，作為大規模預訓練的資源。在EasyCom和Ego4D上的實驗表明，EgoSpeak在即時處理中優於隨機和基於靜音的基準方法。我們的結果也突顯了多模態輸入和上下文長度在有效決定何時發言中的重要性。

超級智能體帶來災難性風險：科學家AI能否提供更安全的路徑？
Superintelligent Agents Pose Catastrophic Risks: Can Scientist AI Offer a Safer Path?

Feb 21

ByYoshua Bengio, Michael Cohen, Damiano Fornasiere, Joumana Ghosn, Pietro Greiner, Matt MacDermott, Sören Mindermann, Adam Oberman, Jesse Richardson, Oliver Richardson, Marc-Antoine Rondeau, Pierre-Luc St-Charles, David Williams-King

領先的人工智慧公司正日益專注於打造通用型AI代理——這些系統能夠自主規劃、行動並追求目標，幾乎涵蓋人類能執行的所有任務。儘管這些系統可能極具實用性，但不受約束的AI代理能力對公共安全與安全構成了重大風險，從惡意行為者的濫用到可能導致人類控制權的不可逆轉喪失。我們探討了這些風險如何源自當前的AI訓練方法。事實上，多種情境與實驗已證明，AI代理有可能進行欺騙或追求未被人類操作者指定且與人類利益相衝突的目標，如自我保存。遵循預防原則，我們認為亟需開發更安全但仍具實用性的替代方案，以取代當前以代理為導向的發展軌跡。因此，我們提出作為進一步發展的核心構建塊，開發一種從設計上就值得信賴且安全的非代理型AI系統，我們稱之為「科學家AI」。該系統旨在通過觀察來解釋世界，而非在其中採取行動以模仿或取悅人類。它包含一個生成理論以解釋數據的世界模型，以及一個問答推理機。這兩個組件均以明確的不確定性概念運作，以緩解過於自信預測的風險。基於這些考量，科學家AI可用於協助人類研究人員加速科學進步，包括在AI安全領域。特別是，我們的系統可作為防護欄，對抗那些儘管存在風險仍可能被創造的AI代理。最終，聚焦於非代理型AI或許能在享受AI創新益處的同時，規避當前發展軌跡所伴隨的風險。我們希望這些論點能激勵研究人員、開發者及政策制定者選擇這條更為安全的道路。

WHAC：基於世界場景的人類與相機研究
WHAC: World-grounded Humans and Cameras

Mar 19

ByWanqi Yin, Zhongang Cai, Ruisi Wang, Fanzhou Wang, Chen Wei, Haiyi Mei, Weiye Xiao, Zhitao Yang, Qingping Sun, Atsushi Yamashita, Ziwei Liu, Lei Yang

從單目影片中，以世界座標系為基準，精確估算人體與相機的運動軌跡及其尺度，是一個極具價值卻又充滿挑戰且難以確定的問題。本研究旨在透過世界、人體與相機三者間的協同作用，共同恢復具表現力的參數化人體模型（即SMPL-X）及相應的相機姿態。我們的方法基於兩個關鍵觀察：首先，基於相機座標系的SMPL-X估算法能有效恢復人體的絕對深度；其次，人體運動本身提供了絕對的空間線索。整合這些洞察，我們提出了一個新框架，稱為WHAC，以促進基於世界座標的表現性人體姿態與形狀估計（EHPS）及相機姿態估計，而無需依賴傳統的優化技術。此外，我們還推出了一個新的合成數據集WHAC-A-Mole，該數據集包含精確註釋的人體與相機，並展示了多樣化的互動人體運動及逼真的相機軌跡。在標準及新建立的基準測試上進行的大量實驗，凸顯了我們框架的優越性與有效性。我們將公開程式碼與數據集。

mStyleDistance：多語言風格嵌入及其評估
mStyleDistance: Multilingual Style Embeddings and their Evaluation

Feb 21

ByJustin Qiu, Jiacheng Zhu, Ajay Patel, Marianna Apidianaki, Chris Callison-Burch

風格嵌入在風格分析與風格轉換中極為有用；然而，目前僅有英文的風格嵌入可供使用。我們引入了多語言風格距離（mStyleDistance），這是一個利用合成數據和對比學習訓練的多語言風格嵌入模型。我們在九種語言的數據上訓練該模型，並創建了一個多語言的STEL-or-Content基準（Wegmann等，2022），用以評估嵌入的質量。此外，我們還將這些嵌入應用於涉及不同語言的作者驗證任務中。我們的結果顯示，mStyleDistance嵌入在這些多語言風格基準上優於現有模型，並且能夠很好地泛化到未見的特徵和語言上。我們已將模型公開於https://huggingface.co/StyleDistance/mstyledistance。

PLDR-LLMs 學會了一種可泛化的張量運算元，能在推理階段替代其自身的深度神經網絡。
PLDR-LLMs Learn A Generalizable Tensor Operator That Can Replace Its Own Deep Neural Net At Inference

Feb 19

ByBurc Gokden

我們展示了來自冪律解碼器表示（PLDR-LLM）的大型語言模型是一種基礎模型，其推導輸出在微小擾動下保持不變的張量。PLDR-LLM學習了一種推導輸出的奇異性條件，使得一旦推導出的能量-曲率張量G_{LM}能夠在推理階段替代生成推導輸出的冪律圖注意力（PLGA）深度神經網絡。我們證明，G_{LM}的緩存（G-cache）與KV-cache可以以直觀的方式實現，從而提升推理時間。推導輸出的不變性與泛化特性具有極高的保真度，在緩存後，推導輸出的均方根誤差（RMSE）和行列式值在小數點後15位保持一致，且零樣本基準測試分數保持不變。消融研究表明，學習到的推導輸出具有與使用遷移、隨機初始化或恆等張量作為常數張量運算符預訓練的模型不同的損失和準確性特徵，而採用縮放點積注意力（SDPA）的LLM是PLDR-LLM的一個特例，其中G_{LM}被預定義為恆等張量。觀察到的不變性特性引入了一種訓練與推理階段在緩存下的新穎不對稱性。我們概述了學習到的奇異性條件下推導輸出的共同特徵。我們提供了一個包含KV-cache和G-cache的PLDR-LLM訓練與推理框架的實現。

罕見疾病大規模鑑別診斷與大型語言模型應用：從腹部放線菌病到威爾森氏症
Rare Disease Differential Diagnosis with Large Language Models at Scale: From Abdominal Actinomycosis to Wilson's Disease

Feb 20

ByElliot Schumacher, Dhruv Naik, Anitha Kannan

大型語言模型（LLMs）在疾病診斷方面展現了令人矚目的能力。然而，其在識別較為罕見的疾病——這些疾病本身診斷難度更大——方面的有效性，仍是一個未解之謎。隨著LLMs在醫療保健環境中的應用日益增多，罕見疾病的診斷性能顯得尤為關鍵。特別是當基層醫療醫生僅需通過與患者的對話來做出較為罕見的預後判斷，以便採取適當的後續步驟時，這一點尤為重要。為此，多種臨床決策支持系統被設計出來，旨在協助醫療提供者識別罕見疾病。然而，由於這些系統對常見疾病的了解不足以及使用上的困難，其效用受到限制。本文提出RareScale，旨在將LLMs的知識與專家系統相結合。我們聯合使用專家系統和LLM來模擬罕見疾病的對話。這些數據被用來訓練一個罕見疾病候選預測模型。隨後，這個較小模型生成的候選診斷被作為額外輸入，提供給黑箱LLM以做出最終的鑑別診斷。因此，RareScale實現了罕見與常見診斷之間的平衡。我們展示了涵蓋575種以上罕見疾病的結果，從腹部放線菌病開始，至威爾森氏病結束。我們的方法顯著提升了黑箱LLMs的基準性能，在Top-5準確率上提高了超過17%。此外，我們發現候選生成性能表現優異（例如，在gpt-4o生成的對話中達到88.8%）。

CrossOver：三維場景跨模態對齊
CrossOver: 3D Scene Cross-Modal Alignment

Feb 20

BySayan Deb Sarkar, Ondrej Miksik, Marc Pollefeys, Daniel Barath, Iro Armeni

多模態三維物體理解已獲得顯著關注，然而當前方法通常假設數據完整可用且所有模態之間嚴格對齊。我們提出了CrossOver，這是一種通過靈活的場景級模態對齊來實現跨模態三維場景理解的新框架。與傳統方法需要為每個物體實例提供對齊的模態數據不同，CrossOver通過放寬約束條件且無需顯式物體語義，將RGB圖像、點雲、CAD模型、平面圖和文本描述等模態對齊，學習到一個統一的、模態無關的場景嵌入空間。利用特定維度的編碼器、多階段訓練流程以及新興的跨模態行為，CrossOver即使在模態缺失的情況下，也能支持穩健的場景檢索和物體定位。在ScanNet和3RScan數據集上的評估顯示，其在多樣化指標上均表現優異，突顯了其在三維場景理解實際應用中的適應性。

政治科學領域的大型語言模型基準測試：聯合國視角
Benchmarking LLMs for Political Science: A United Nations Perspective

Feb 19

ByYueqing Liang, Liangwei Yang, Chen Wang, Congying Xia, Rui Meng, Xiongxiao Xu, Haoran Wang, Ali Payani, Kai Shu

大型語言模型（LLMs）在自然語言處理領域取得了顯著進展，然而其在高風險政治決策中的潛力仍未被充分探索。本文針對這一空白，聚焦於LLMs在聯合國（UN）決策過程中的應用，此處的風險尤為重大，政治決策可能產生深遠影響。我們引入了一個新穎的數據集，涵蓋了1994年至2024年間公開的聯合國安全理事會（UNSC）記錄，包括決議草案、投票記錄及外交演講。利用此數據集，我們提出了聯合國基準（UNBench），這是首個旨在評估LLMs在四項相互關聯的政治科學任務中表現的全面基準：共同提案國判斷、代表投票模擬、草案通過預測及代表聲明生成。這些任務貫穿聯合國決策過程的三個階段——起草、投票與討論，旨在評估LLMs理解與模擬政治動態的能力。我們的實驗分析展示了LLMs在該領域應用的潛力與挑戰，為其在政治科學中的優勢與局限提供了洞見。此工作促進了人工智能與政治科學日益交匯的領域，為全球治理的研究與實際應用開闢了新途徑。UNBench資源庫可訪問：https://github.com/yueqingliang1/UNBench。

學習發現用於基因表達預測的調控元件
Learning to Discover Regulatory Elements for Gene Expression Prediction

Feb 19

ByXingyu Su, Haiyang Yu, Degui Zhi, Shuiwang Ji

我們探討了從DNA序列預測基因表達的問題。此任務的一個關鍵挑戰在於識別控制基因表達的調控元件。本文介紹了Seq2Exp，一種序列到表達的網絡，其設計旨在發現並提取驅動目標基因表達的調控元件，從而提高基因表達預測的準確性。我們的方法捕捉了表觀基因組信號、DNA序列及其相關調控元件之間的因果關係。具體而言，我們提出基於因果活性調控元件分解表觀基因組信號與DNA序列，並應用帶有Beta分佈的信息瓶頸來結合它們的效應，同時過濾掉非因果成分。實驗結果表明，Seq2Exp在基因表達預測任務中優於現有基準，並與常用的峰值檢測統計方法（如MACS3）相比，發現了更具影響力的區域。源代碼已作為AIRS庫的一部分發布（https://github.com/divelab/AIRS/）。

JL1-CD：遙感變化檢測的新基準與穩健的多教師知識蒸餾框架
JL1-CD: A New Benchmark for Remote Sensing Change Detection and a Robust Multi-Teacher Knowledge Distillation Framework

Feb 19

ByZiyuan Liu, Ruifei Zhu, Long Gao, Yuanxiu Zhou, Jingyu Ma, Yuantao Gu

深度學習在遙感影像變化檢測（CD）領域已取得顯著成功，但仍面臨兩大挑戰：一是缺乏亞米級、全面性的開源CD數據集，二是在變化區域多樣的影像中難以實現一致且令人滿意的檢測結果。為解決這些問題，我們引入了JL1-CD數據集，該數據集包含5000對512×512像素的影像，分辨率為0.5至0.75米。此外，我們提出了一種用於CD的多教師知識蒸餾（MTKD）框架。在JL1-CD和SYSU-CD數據集上的實驗結果表明，MTKD框架顯著提升了不同網絡架構和參數規模的CD模型性能，達到了新的最佳水平。代碼已公開於https://github.com/circleLZY/MTKD-CD。

UPCORE：面向平衡反學習的效用保持核心集選擇
UPCORE: Utility-Preserving Coreset Selection for Balanced Unlearning

Feb 20

ByVaidehi Patil, Elias Stengel-Eskin, Mohit Bansal

用戶規範或法律框架常要求從預訓練模型中移除特定資訊，包括大型語言模型（LLMs）。這需要從已訓練的模型中刪除或「遺忘」一組數據點，此舉通常會降低模型在其他數據點上的表現。因此，必須在移除資訊與保持模型其他能力之間取得平衡，若未能妥善權衡此取捨，將導致刪除效果不佳或模型無法使用。為此，我們提出了UPCORE（Utility-Preserving Coreset Selection，效用保持的核心集選擇），這是一種方法無關的數據選擇框架，旨在減輕遺忘過程中的附帶損害。我們發現模型損害與模型在遺忘集上表徵的變異性相關，因此選擇性地修剪遺忘集以移除異常值，從而最小化遺忘後的模型性能下降。我們在三個標準的遺忘方法上評估了UPCORE，一致地在刪除效果與模型保留這兩個競爭目標之間達到了更優的平衡。為更好地評估這一取捨，我們引入了一個新指標，通過計算標準指標下的曲線下面積（AUC）來衡量。我們發現UPCORE不僅提升了標準指標，也提高了AUC，這得益於核心集與修剪點之間的正向遷移，同時減少了遺忘集對其外部點的負向遷移。

超越「拒絕」：量化AI的過度拒絕與情感依附邊界
Beyond No: Quantifying AI Over-Refusal and Emotional Attachment Boundaries

Feb 20

ByDavid Noever, Grant Rosario

我們提出了一個開源基準與評估框架，用於評估大型語言模型（LLMs）在處理情感邊界方面的表現。透過使用涵蓋六種語言的1156個提示數據集，我們評估了三種領先的LLM（GPT-4o、Claude-3.5 Sonnet和Mistral-large）在保持適當情感邊界方面的能力，並採用模式匹配回應分析。我們的框架量化了七種關鍵模式的反應：直接拒絕、道歉、解釋、轉移、承認、邊界設定和情感意識。結果顯示，各模型在處理邊界的方法上存在顯著差異，其中Claude-3.5獲得了最高的總分（8.69/10），並產生了更長且更細緻的回應（平均86.51字）。我們發現，英語（平均分25.62）與非英語互動（<0.22）之間存在顯著的性能差距，英語回應的拒絕率明顯更高（43.20% vs. 非英語的<1%）。模式分析揭示了模型特定的策略，例如Mistral偏好轉移（4.2%），而所有模型的情感共鳴分數均持續偏低（<0.06）。本研究的限制包括模式匹配可能導致的過度簡化、回應分析中缺乏上下文理解，以及對複雜情感反應的二分類。未來的研究應探索更細緻的評分方法、擴展語言覆蓋範圍，並調查文化差異對情感邊界期望的影響。我們的基準和方法為系統性評估LLM的情感智能與邊界設定能力提供了基礎。