HuggingFace Daily Papers

每日論文

每日精選AI研究論文及翻譯

選擇日期

16 papers found

視覺語言模型是盲目的
Vision language models are blind

Jul 9

ByPooyan Rahmanzadehgervi, Logan Bolton, Mohammad Reza Taesiri, Anh Totti Nguyen

具有視覺能力的大型語言模型（VLMs），例如GPT-4o和Gemini 1.5 Pro，正在驅動無數的圖像文字應用程序，在許多視覺理解基準上得分很高。然而，我們發現VLMs在許多對人類來說極其簡單的視覺任務上表現不佳，例如識別（a）兩個圓是否重疊；（b）兩條線是否相交；（c）單詞中哪個字母被圈起來；以及（d）計算奧運會標誌中的圓圈數量。這四個最先進的VLMs的表現令人震驚地糟糕，表明它們的視覺能力最多只能被比作視力不佳的人看到細節模糊，最糟糕的情況下，就像一個聰明的盲人在做出合理的猜測。代碼可在以下網址找到：https://vlmsareblind.github.io/

AgentInstruct：朝向具有主動流的生成式教學
AgentInstruct: Toward Generative Teaching with Agentic Flows

Jul 3

ByArindam Mitra, Luciano Del Corro, Guoqing Zheng, Shweti Mahajan, Dany Rouhana, Andres Codas, Yadong Lu, Wei-ge Chen, Olga Vrousgos, Corby Rosset, Fillipe Silva, Hamed Khanpour, Yash Lara, Ahmed Awadallah

合成數據對於加速語言模型的開發變得日益重要，不論是大型還是小型模型。儘管有幾個成功的應用案例，研究人員也提出了關於模型崩潰和模仿其他模型的缺點的擔憂。這種差異可以歸因於合成數據在質量和多樣性上存在差異。有效利用合成數據通常需要大量人力來精心挑選數據。我們專注於將合成數據用於後訓練，具體來說是通過強大模型創建數據，來教授另一個模型新技能或行為，我們將這種情境稱為生成式教學。我們介紹了AgentInstruct，一個可擴展的主動框架，用於自動創建大量多樣且高質量的合成數據。AgentInstruct可以創建提示和回應，僅使用原始數據源，如文本文檔和代碼文件作為種子。我們通過創建一個後訓練數據集，包含2500萬對，來展示AgentInstruct的實用性，以教導語言模型不同的技能，如文本編輯、創意寫作、工具使用、編碼、閱讀理解等。該數據集可用於任何基礎模型的指導調整。我們使用這些數據對Mistral-7b進行後訓練。當將結果模型Orca-3與Mistral-7b-Instruct（使用相同基礎模型）進行比較時，我們觀察到在許多基準測試中取得了顯著的改善。例如，在AGIEval上有40%的改善，在MMLU上有19%的改善，在GSM8K上有54%的改善，在BBH上有38%的改善，在AlpacaEval上有45%的改善。此外，它在一致性上表現優於其他模型，如LLAMA-8B-instruct和GPT-3.5-turbo。

智能體的網絡：編織異質智能體的網絡以促進協作智能
Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence

Jul 9

ByWeize Chen, Ziming You, Ran Li, Yitong Guan, Chen Qian, Chenyang Zhao, Cheng Yang, Ruobing Xie, Zhiyuan Liu, Maosong Sun

大型語言模型（LLMs）的快速發展為高度能力的自主代理的發展鋪平了道路。然而，現有的多代理框架通常難以整合不同能力的第三方代理，因為它們依賴於在其自身生態系統中定義的代理。它們還面臨著在模擬分佈式環境方面的挑戰，因為大多數框架僅限於單設備設置。此外，這些框架通常依賴於硬編碼的通信管道，限制了它們對動態任務需求的適應能力。受互聯網概念的啟發，我們提出了代理互聯網（IoA），這是一個新穎的框架，通過提供一個靈活且可擴展的平台，用於基於LLM的多代理協作。IoA引入了代理集成協議、即時消息傳遞式的架構設計，以及用於代理組隊和對話流控制的動態機制。通過對一般助理任務、具體化AI任務和檢索增強生成基準的大量實驗，我們展示了IoA始終優於最先進的基準線，展示了其促進異質代理之間有效協作的能力。IoA代表了將不同代理連接在類似互聯網環境中的一步，代理可以無縫協作以實現更大的智能和能力。我們的代碼庫已在https://github.com/OpenBMB/IoA 上發布。

Video-STaR：自我訓練使得能夠利用任何監督進行視頻指導調整
Video-STaR: Self-Training Enables Video Instruction Tuning with Any Supervision

Jul 8

ByOrr Zohar, Xiaohan Wang, Yonatan Bitton, Idan Szpektor, Serena Yeung-Levy

大視覺語言模型（LVLMs）的表現取決於其訓練數據集的大小和質量。現有的視頻指導調整數據集缺乏多樣性，因為它們是通過提示大型語言模型使用視頻字幕生成問答對來衍生的，因此主要是描述性的。與此同時，存在許多帶有多標籤和監督的標記視頻數據集，但我們發現將它們整合到LVLMs中並不簡單。在這裡，我們提出了具有擴增推理的視頻自我訓練（Video-STaR），這是第一個視頻自我訓練方法。Video-STaR允許利用任何帶有標籤的視頻數據集進行視頻指導調整。在Video-STaR中，LVLM在指導生成和微調之間進行循環，我們展示（I）改善了一般視頻理解，並且（II）使LVLM適應了具有現有監督的新下游任務。在生成過程中，LVLM被提示提出答案。然後僅過濾包含原始視頻標籤的答案，然後對生成的數據集進行重新訓練。通過僅對包含正確視頻標籤的生成答案進行訓練，Video-STaR將這些現有視頻標籤作為視頻指導調整的弱監督。我們的結果表明，Video-STaR增強的LVLM在（I）一般視頻問答方面表現出改善，其中TempCompass的表現提高了10％，以及（II）在下游任務中，Video-STaR將Kinetics700-QA的準確性提高了20％，並將FineDiving的動作質量評估提高了15％。

RodinHD：使用擴散模型進行高保真度3D頭像生成
RodinHD: High-Fidelity 3D Avatar Generation with Diffusion Models

Jul 9

ByBowen Zhang, Yiji Cheng, Chunyu Wang, Ting Zhang, Jiaolong Yang, Yansong Tang, Feng Zhao, Dong Chen, Baining Guo

我們提出了RodinHD，它可以從肖像圖生成高保真度的3D頭像。現有方法無法捕捉複雜的細節，如髮型，在本文中我們解決了這個問題。我們首先識別了一個被忽視的問題，即在許多頭像上依次擬合三平面時出現的災難性遺忘問題，這是由MLP解碼器共享方案引起的。為了克服這個問題，我們提出了一種新的數據排程策略和一個權重合併正則項，這可以提高解碼器呈現更銳利細節的能力。此外，我們通過計算一個更細粒度的分層表示來優化肖像圖的引導效果，捕捉豐富的2D紋理提示，並通過交叉注意力將它們注入到3D擴散模型的多個層中。當在針對三平面進行優化的噪聲排程下對46K個頭像進行訓練時，生成的模型可以生成具有明顯更好細節的3D頭像，並且可以推廣到野外肖像輸入。

將LLMs調整至希伯來語：揭示具備增強詞彙和指導能力的DictaLM 2.0
Adapting LLMs to Hebrew: Unveiling DictaLM 2.0 with Enhanced Vocabulary and Instruction Capabilities

Jul 9

ByShaltiel Shmidman, Avi Shmidman, Amir DN Cohen, Moshe Koppel

在低資源語言（例如希伯來語）中訓練大型語言模型（LLMs）存在獨特挑戰。本文介紹了DictaLM2.0和DictaLM2.0-Instruct，這兩個LLMs源自Mistral模型，在希伯來語和英語的龐大語料庫中進行了訓練，總計約2000億個標記。將預訓練模型適應到新語言涉及專門的技術，與從頭開始訓練模型或進一步訓練現有模型以英語等資源豐富的語言有顯著不同。我們概述了這些新穎的訓練方法，有助於有效學習和適應希伯來語的語言特性。此外，我們在一個全面的指令數據集上對DictaLM2.0-Instruct進行了微調，以提高其在特定任務指令上的表現。為了嚴格評估我們的模型，我們引入了一個新的希伯來語LLM評估基準套件，涵蓋了各種任務，包括問答、情感分析、Winograd模式挑戰、翻譯和摘要。我們的工作不僅解決了在低資源語言中訓練LLMs的複雜性，還提出了一個框架，可用於將其他LLMs適應到各種非英語語言，從而為多語言自然語言處理的廣泛領域做出貢獻。

MiraData：具有長時間和結構化字幕的大規模視頻數據集
MiraData: A Large-Scale Video Dataset with Long Durations and Structured Captions

Jul 8

ByXuan Ju, Yiming Gao, Zhaoyang Zhang, Ziyang Yuan, Xintao Wang, Ailing Zeng, Yu Xiong, Qiang Xu, Ying Shan

Sora的高運動強度和長時間一致的影片顯著影響了影片生成領域，吸引了空前的關注。然而，現有的公開可用數據集對於生成類似Sora的影片是不足夠的，因為它們主要包含持續時間短、運動強度低和簡短標題的影片。為了應對這些問題，我們提出了MiraData，這是一個高質量的影片數據集，超越了先前的數據集在影片持續時間、標題細節、運動強度和視覺質量方面。我們從多樣的、手動選擇的來源中精心挑選和處理數據，以獲得語義一致的片段。我們使用GPT-4V來標註結構化標題，提供從四個不同角度的詳細描述以及總結的密集標題。為了更好地評估影片生成中的時間一致性和運動強度，我們引入了MiraBench，通過添加3D一致性和基於跟踪的運動強度指標來增強現有的基準。MiraBench包括150個評估提示和17個指標，涵蓋了時間一致性、運動強度、3D一致性、視覺質量、文本-影片對齊和分佈相似性。為了展示MiraData的實用性和有效性，我們使用基於DiT的影片生成模型MiraDiT進行實驗。在MiraBench上的實驗結果顯示了MiraData的優越性，特別是在運動強度方面。

BM25S：透過積極稀疏評分實現數量級更快速的詞彙檢索
BM25S: Orders of magnitude faster lexical search via eager sparse scoring

Jul 4

ByXing Han Lù

我們介紹了BM25S，這是一個高效的基於Python的BM25實現，僅依賴於Numpy和Scipy。相較於最流行的基於Python的框架，BM25S實現了高達500倍的加速，透過在索引期間積極計算BM25分數並將其存儲到稀疏矩陣中。它還實現了比高度優化的基於Java的實現更大的加速，這些實現被流行的商業產品使用。最後，BM25S通過將積極評分擴展到非稀疏變體，並使用一種新穎的分數偏移方法，重現了基於Kamphuis等人（2020年）的五種BM25變體的確切實現。代碼可在https://github.com/xhluca/bm25s 找到。

定理羊：將通用LLM轉換為Lean4專家
TheoremLlama: Transforming General-Purpose LLMs into Lean4 Experts

Jul 3

ByRuida Wang, Jipeng Zhang, Yizhen Jia, Rui Pan, Shizhe Diao, Renjie Pi, Tong Zhang

利用像 Lean 這樣的計算機可驗證形式語言證明數學定理，對數學推理產生了重大影響。一種形式定理證明的方法涉及使用基於自然語言 (NL) 證明的大型語言模型 (LLMs) 生成完整證明。類似方法在代碼生成方面已經顯示出有希望的結果。然而，由於 NL 與形式語言 (FL) 定理證明數據的匹配性不足，大多數現代 LLMs 表現出了次優異的性能。這種匱乏導致了訓練 LLMs 和充分利用其能力來構成形式證明的方法的不足。為應對這些挑戰，本文提出了 **TheoremLlama**，這是一個端到端框架，用於訓練通用 LLM 成為 Lean4 專家。該框架包括 NL-FL 對齊數據集生成方法、LLM形式定理證明器的訓練方法，以及LLM Lean4證明寫作技巧。通過數據集生成方法，我們提供了 *Open Bootstrapped Theorems* (OBT)，這是一個 NL-FL 對齊並啟動的數據集。該框架的一個關鍵創新是 NL-FL 啟動方法，其中 NL 證明被整合到 Lean4 代碼中用於訓練數據集，利用LLMs的 NL 推理能力進行形式推理。**TheoremLlama** 框架在 MiniF2F-Valid 和測試數據集上實現了 36.48% 和 33.61% 的累積準確率，分別超過了 GPT-4 的基準 22.95% 和 25.41%。我們還公開了我們的模型檢查點和生成的數據集，並將很快將所有代碼公開提供。

使用具有學習異向縮放的任務向量進行知識組合
Knowledge Composition using Task Vectors with Learned Anisotropic Scaling

Jul 3

ByFrederic Z. Zhang, Paul Albert, Cristian Rodriguez-Opazo, Anton van den Hengel, Ehsan Abbasnejad

預訓練模型產生強大的通用表示，可透過微調進行適應。相對於預訓練模型的學習權重差異，被稱為任務向量，描述了微調的方向和步幅。任務向量的重要性在於對其進行簡單算術運算，可以將來自不同領域的多樣表示結合在一起。本文基於這些任務向量的特性，旨在回答以下問題：(1) 任務向量的組成部分，特別是參數區塊，是否表現出類似特徵，以及 (2) 這些區塊如何用於增強知識組合和轉移。為此，我們引入了aTLAS，一種算法，它線性組合了具有不同學習係數的參數區塊，從而在任務向量層面實現各向異性縮放。我們展示這樣的線性組合明確利用了預訓練模型的低固有維度，僅有少量係數是可學習的參數。此外，參數區塊的組合利用了已經學習的表示，從而減少對大量數據的依賴。我們展示了我們的方法在任務算術、少樣本識別和測試時間適應中的有效性，具有監督或非監督目標。特別地，我們展示了 (1) 學習的各向異性縮放使得任務向量更具解耦性，組合時干擾較少；(2) 任務向量組合在稀缺或無標記數據時表現出色，並且不太容易受到領域轉移的影響，從而提高了泛化能力；(3) 在訓練之前混合來自不同任務向量的最具信息量的參數區塊可以減少記憶體占用量，並提高知識轉移的靈活性。此外，我們展示了aTLAS作為一種PEFT方法的潛力，特別是在數據較少時，並證明了其可擴展性。

回顧鏡頭：僅使用注意力地圖在大型語言模型中檢測和緩解情境幻覺
Lookback Lens: Detecting and Mitigating Contextual Hallucinations in Large Language Models Using Only Attention Maps

Jul 9

ByYung-Sung Chuang, Linlu Qiu, Cheng-Yu Hsieh, Ranjay Krishna, Yoon Kim, James Glass

當要求總結文章或根據一段文字回答問題時，大型語言模型（LLMs）可能會產生幻覺細節，並回答與輸入上下文不符的未經證實的答案。本文描述了一種檢測此類上下文幻覺的簡單方法。我們假設上下文幻覺與LLM對所提供上下文信息與其自身生成之間的關聯程度有關。基於這種直覺，我們提出了一種簡單的幻覺檢測模型，其輸入特徵由注意力權重在上下文與新生成標記（對於每個注意力頭）之間的比率組成。我們發現，基於這些回顧比特徵的線性分類器與利用LLM的整個隱藏狀態或基於文本的蘊涵模型的更豐富檢測器一樣有效。基於回顧比的檢測器——回顧鏡頭（Lookback Lens）被發現可以跨任務甚至模型進行轉移，使得一個在7B模型上訓練的檢測器可以應用（無需重新訓練）到一個更大的13B模型上。我們進一步應用此檢測器來減輕上下文幻覺，發現一種簡單的分類器引導解碼方法能夠減少幻覺的程度，例如在XSum總結任務中減少了9.6%。

基於圖形的標題生成：通過互連區域標題來增強視覺描述
Graph-Based Captioning: Enhancing Visual Descriptions by Interconnecting Region Captions

Jul 9

ByYu-Guan Hsieh, Cheng-Yu Hsieh, Shih-Ying Yeh, Louis Béthune, Hadi Pour Ansari, Pavan Kumar Anasosalu Vasu, Chun-Liang Li, Ranjay Krishna, Oncel Tuzel, Marco Cuturi

人類使用組合性以簡單文字描述複雜場景，並豐富其內容以連結和關係。儘管視覺語言研究旨在開發具有組成理解能力的模型，但現有數據集尚未反映這一點，因為大多數數據集仍然使用純文本描述圖像。在本研究中，我們提出了一種新的標註策略，即基於圖的標註（GBC），它使用帶有各種類型節點的標記圖結構來描述圖像。GBC中的節點是通過第一階段使用物體檢測和密集標註工具進行嵌套遞歸創建的，以揭示和描述實體節點，然後在第二階段通過突出使用新類型節點將這些實體進一步連接在一起，以突出實體之間的組合和關係。由於所有GBC節點都包含純文本描述，GBC保留了自然語言中發現的靈活性，但也可以在其邊緣中編碼層次信息。我們展示了GBC可以通過使用現成的多模式LLMs和開放詞彙檢測模型自動生成，並通過構建一個新數據集GBC10M，收集了CC12M數據集中約10M張圖像的GBC標註。我們使用GBC10M展示了GBC發現的節點標題的豐富性，並通過CLIP訓練進行了量化。我們展示了使用GBC節點的標註 - 尤其是存儲在組合和關係節點中的標註 - 與其他數據集格式相比，在下游模型上實現了顯著的性能提升。為了進一步探索GBC提供的機會，我們還提出了一種可以利用整個GBC圖的新注意機制，並展示了將圖結構納入其中的額外好處的鼓舞人心的實驗結果。我們的數據集已在https://huggingface.co/graph-based-captions 上發布。

VIMI：透過多模式指示來建立視頻生成
VIMI: Grounding Video Generation through Multi-modal Instruction

Jul 8

ByYuwei Fang, Willi Menapace, Aliaksandr Siarohin, Tsai-Shien Chen, Kuan-Chien Wang, Ivan Skorokhodov, Graham Neubig, Sergey Tulyakov

現有的文本轉視頻擴散模型僅依賴於僅有文本的編碼器進行預訓練。這種限制源於缺乏大規模多模態提示視頻數據集，導致缺乏視覺基礎並限制了其在多模態整合中的多樣性和應用。為了應對這一問題，我們通過利用檢索方法將上下文示例與給定的文本提示配對，構建了一個大規模多模態提示數據集，然後利用兩階段訓練策略實現同一模型內多樣的視頻生成任務。在第一階段，我們提出了一個多模態條件視頻生成框架，用於在這些擴增數據集上進行預訓練，為基於視覺基礎的視頻生成建立了基礎模型。其次，我們在三個視頻生成任務上對第一階段的模型進行微調，並納入多模態指令。這個過程進一步提升了模型處理多樣輸入和任務的能力，確保了多模態信息的無縫整合。經過這兩階段的訓練過程後，VIMI展現出多模態理解能力，生成基於提供的輸入的具有豐富上下文和個性化的視頻，如圖1所示。與先前的視覺基礎視頻生成方法相比，VIMI能夠合成具有大幅運動的一致且時間上連貫的視頻，同時保留語義控制。最後，VIMI還在UCF101基準測試中實現了最先進的文本轉視頻生成結果。

從迴圈到錯誤：語言模型在不確定性下的後備行為
From Loops to Oops: Fallback Behaviors of Language Models Under Uncertainty

Jul 8

ByMaor Ivgi, Ori Yoran, Jonathan Berant, Mor Geva

大型語言模型（LLMs）通常表現出不良行為，例如幻覺和序列重複。我們建議將這些行為視為模型在不確定情況下表現出的後備方案，並探討它們之間的聯繫。我們將後備行為歸類為序列重複、退化文本和幻覺，並在來自同一家族的模型中進行廣泛分析，這些模型在預訓練標記數量、參數數量或包含遵循指令的訓練方面存在差異。我們的實驗揭示了在所有這些軸上後備行為的清晰且一致的排序：LLM 越先進（即在更多標記上進行訓練、具有更多參數或調整指令），其後備行為從序列重複轉移到退化文本，然後再到幻覺。此外，即使對於表現最佳的模型，同樣的排序也在單個生成過程中觀察到；隨著不確定性的增加，模型從生成幻覺轉變為產生退化文本，然後是序列重複。最後，我們證明了，雖然常見的解碼技術（例如隨機抽樣）可能會緩解一些不需要的行為，如序列重複，但它們會增加更難檢測的幻覺。

你是怎麼知道的？教導生成式語言模型參考生物醫學問題的答案
How do you know that? Teaching Generative Language Models to Reference Answers to Biomedical Questions

Jul 6

ByBojana Bašaragin, Adela Ljajić, Darija Medvecki, Lorenzo Cassano, Miloš Košprdić, Nikola Milošević

大型語言模型（LLMs）最近已成為線上用戶問答的主要來源。儘管它們能提供流暢的答案，但其準確性和可靠性可能構成重大挑戰。這在生物醫學等敏感領域尤為明顯，因為對事實正確答案的需求更高。本文介紹了一個生物醫學檢索增強生成（RAG）系統，旨在提高生成回答的可靠性。該系統基於一個經過微調的LLM進行問答，通過提示將從PubMed檢索的相關摘要作為輸入傳遞給LLM的上下文。其輸出是基於PubMed摘要的答案，每個陳述均有相應參考，讓用戶可以驗證答案。我們的檢索系統相較於PubMed搜索引擎實現了23%的絕對改善。根據對一小樣本的手動評估，我們的經過微調的LLM組件在參考相關摘要方面與GPT-4 Turbo達到可比的結果。我們將用於微調模型的數據集以及基於Mistral-7B-instruct-v0.1和v0.2進行微調的模型公開提供。

基於語言嵌入的時間序列分類技術：LETS-C
LETS-C: Leveraging Language Embedding for Time Series Classification

Jul 9

ByRachneet Kaur, Zhen Zeng, Tucker Balch, Manuela Veloso

最近在語言建模方面的進展已經顯示出當應用於時間序列數據時具有令人期待的結果。特別是，對預先訓練的大型語言模型（LLMs）進行微調，用於時間序列分類任務已經在標準基準測試中實現了最先進的性能。然而，這些基於LLM的模型存在一個顯著的缺點，即由於模型大小龐大，可訓練參數數量達到百萬級。在本文中，我們提出了一種利用語言建模在時間序列領域取得成功的替代方法。我們並沒有對LLMs進行微調，而是利用一個語言嵌入模型來嵌入時間序列，然後將這些嵌入與由卷積神經網絡（CNN）和多層感知器（MLP）組成的簡單分類頭進行配對。我們對眾所周知的時間序列分類基準數據集進行了大量實驗。我們展示了LETS-C不僅在分類準確度方面優於當前的最先進技術，而且提供了一種輕量級解決方案，平均僅使用了SOTA模型可訓練參數的14.5％。我們的研究結果表明，利用語言編碼器將時間序列數據嵌入，結合一個簡單但有效的分類頭，為實現高性能時間序列分類提供了一個具有前景的方向，同時保持輕量級模型結構。

基於圖形的標題生成：通過互連區域標題來增強視覺描述
Graph-Based Captioning: Enhancing Visual Descriptions by Interconnecting Region Captions

Jul 9

ByYu-Guan Hsieh, Cheng-Yu Hsieh, Shih-Ying Yeh, Louis Béthune, Hadi Pour Ansari, Pavan Kumar Anasosalu Vasu, Chun-Liang Li, Ranjay Krishna, Oncel Tuzel, Marco Cuturi