AI研究論文每日精選

每日精選AI研究論文及翻譯

nabla^2DFT：一個包含類似藥物分子的通用量子化學數據集，並作為神經網絡潛力的基準。
nabla^2DFT: A Universal Quantum Chemistry Dataset of Drug-Like Molecules and a Benchmark for Neural Network Potentials

Jun 20

ByKuzma Khrabrov, Anton Ber, Artem Tsypin, Konstantin Ushenin, Egor Rumiantsev, Alexander Telepov, Dmitry Protasov, Ilya Shenbin, Anton Alekseev, Mikhail Shirokikh, Sergey Nikolenko, Elena Tutubalina, Artur Kadurin

102

計算量子化學方法提供了準確的分子性質近似值，對於計算輔助藥物發現和化學科學的其他領域至關重要。然而，高計算複雜度限制了其應用的可擴展性。神經網絡勢（NNPs）是量子化學方法的一個有前途的替代方案，但它們需要大量和多樣化的數據集進行訓練。本研究提出了一個基於nablaDFT的新數據集和基準，名為nabla^2DFT。它包含兩倍於分子結構、三倍於構象、新的數據類型和任務，以及最先進的模型。該數據集包括能量、力、17個分子性質、哈密頓和重疊矩陣，以及一個波函數對象。所有計算均在每個構象的DFT水平（omegaB97X-D/def2-SVP）下進行。此外，nabla^2DFT是第一個包含大量類似藥物分子鬆弛軌跡的數據集。我們還引入了一個新的基準，用於評估NNPs在分子性質預測、哈密頓預測和構象優化任務中的表現。最後，我們提出了一個可擴展的框架，用於訓練NNPs，並在其中實現了10個模型。

指令預訓練：語言模型是受監督的多任務學習者。
Instruction Pre-Training: Language Models are Supervised Multitask Learners

Jun 20

ByDaixuan Cheng, Yuxian Gu, Shaohan Huang, Junyu Bi, Minlie Huang, Furu Wei

無監督多任務預訓練一直是最近語言模型（LMs）取得成功的關鍵方法。然而，監督多任務學習仍然具有重要潛力，因為在後訓練階段對其進行擴展有助於更好的泛化。本文通過提出指導預訓練（Instruction Pre-Training）框架，探索了監督多任務預訓練，該框架可通過可擴展地增加龐大的原始語料庫中的指導-回應對來預訓練LMs。指導-回應對是通過基於開源模型構建的高效指導合成器生成的。在我們的實驗中，我們合成了涵蓋40多個任務類別的2億指導-回應對，以驗證指導預訓練的有效性。在從頭開始的預訓練中，指導預訓練不僅持續增強預訓練基本模型，而且更多地受益於進一步的指導調整。在持續預訓練中，指導預訓練使Llama3-8B能夠與甚至優於Llama3-70B。我們的模型、代碼和數據可在https://github.com/microsoft/LMOps 上獲得。

細節至關重要：用於細節豐富的StyleGAN反轉和高品質圖像編輯的StyleFeatureEditor
The Devil is in the Details: StyleFeatureEditor for Detail-Rich StyleGAN Inversion and High Quality Image Editing

Jun 15

ByDenis Bobkov, Vadim Titov, Aibek Alanov, Dmitry Vetrov

透過 StyleGAN 逆向操作來操控真實圖像屬性的任務已經得到廣泛研究。這個過程涉及從經過良好訓練的 StyleGAN 生成器中搜索潛在變數，這些變數可以合成一幅真實圖像，修改這些潛在變數，然後合成一幅具有所需編輯的圖像。必須在重建品質和編輯能力之間取得平衡。早期的研究利用低維度的 W 空間進行潛在搜索，這有助於有效編輯，但在重建精細細節方面遇到困難。最近的研究轉向高維度的特徵空間 F，成功地逆向輸入圖像，但在編輯過程中失去了許多細節。在本文中，我們介紹了 StyleFeatureEditor -- 一種新穎的方法，可以在 w-latents 和 F-latents 中進行編輯。這種技術不僅允許重建更細微的圖像細節，還確保在編輯過程中保留這些細節。我們還提出了一個新的訓練流程，專門設計來訓練我們的模型以準確編輯 F-latents。我們的方法與最先進的編碼方法進行了比較，表明我們的模型在重建品質方面表現優異，能夠編輯即使是具有挑戰性的跨領域示例。代碼可在 https://github.com/AIRI-Institute/StyleFeatureEditor 找到。

HARE：人類先驗，小型語言模型效率的關鍵
HARE: HumAn pRiors, a key to small language model Efficiency

Jun 17

ByLingyun Zhang, Bin jin, Gaojian Ge, Lunhui Liu, Xuewen Shen, Mingyong Wu, Houqian Zhang, Yongneng Jiang, Shiqi Chen, Shi Pu

人類先驗在深度學習中扮演著重要角色，能有效利用數據。然而，隨著大型語言模型（LLMs）的發展，越來越強調模型大小和數據量的擴展，這往往會降低人類先驗在數據構建中的重要性。受這些趨勢影響，現有的小型語言模型（SLMs）主要依賴於網絡抓取的大規模訓練數據，忽略了適當融入人類先驗的重要性。這一疏忽限制了語言模型在資源受限環境中的訓練效率。本文提出了一項利用人類先驗進行數據構建的原則。該原則強調通過在一個既包含語義多樣性又保持數據質量一致性的簡潔數據集上進行訓練，避免基準數據泄漏，以實現高性能SLMs。根據這一原則，我們訓練了一個名為HARE-1.1B的SLM。對大規模基準數據集的大量實驗表明，HARE-1.1B在性能上優於最先進的SLMs，驗證了所提出原則的有效性。此外，從人類先驗的角度提供了在資源受限環境中進行有效語言模型訓練的新見解。

Prism：一個用於解耦和評估VLMs能力的框架
Prism: A Framework for Decoupling and Assessing the Capabilities of VLMs

Jun 20

ByYuxuan Qiao, Haodong Duan, Xinyu Fang, Junming Yang, Lin Chen, Songyang Zhang, Jiaqi Wang, Dahua Lin, Kai Chen

視覺語言模型（VLMs）展現出在應對各種視覺問題方面的卓越能力，這需要強大的知覺和推理能力。為了模型的精煉，獨立評估這兩種能力至關重要，儘管由於現有VLMs中視覺感知和推理的緊密聯繫，這本身就是一個困難。為了應對這個問題，我們提出了Prism，這是一個創新的框架，旨在解開視覺問題解決中涉及的知覺和推理過程。Prism包括兩個獨立的階段：一個利用VLM來提取和闡述視覺信息的知覺階段，以及一個利用大型語言模型（LLM）根據提取的視覺信息制定回應的推理階段。這種模塊化設計使得可以系統性地比較和評估專有和開源VLM的知覺和推理優勢。我們的分析框架提供了一些有價值的見解，突顯了Prism作為視覺語言任務的成本效益解決方案的潛力。通過將專注於知覺的精簡VLM與專為推理而設的強大LLM結合，Prism在一般視覺語言任務中取得了優異的結果，同時大幅減少了培訓和運營成本。定量評估顯示，當配置為基於普通2B LLaVA和免費可訪問的GPT-3.5的Prism，在嚴格的多模式基準MMStar上提供了與規模大10倍的VLMs相當的性能。該項目已發布在：https://github.com/SparksJoe/Prism。

MMBench-Video：一個針對整體影片理解的長格式多鏡頭基準測試
MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding

Jun 20

ByXinyu Fang, Kangrui Mao, Haodong Duan, Xiangyu Zhao, Yining Li, Dahua Lin, Kai Chen

大視覺語言模型（LVLMs）的出現推動了對它們在多模態情境中的應用的研究，特別是在視頻理解方面。傳統的視頻問答基準盡管提供了量化指標，但往往無法涵蓋視頻內容的全部範疇，並且未能充分評估模型對時間的理解。為了解決這些限制，我們引入了MMBench-Video，這是一個設計用於嚴格評估LVLMs在視頻理解方面能力的量化基準。MMBench-Video包含來自YouTube的長視頻，並使用自由形式的問題，反映實際應用案例。這個基準被精心製作，以探究模型的時間推理能力，所有問題都是根據精心構建的能力分類人工標註的。我們使用GPT-4進行自動評估，展示了優於早期基於LLM的評估的準確性和韌性。利用MMBench-Video，我們進行了全面的評估，包括針對圖像和視頻的專有和開源LVLMs。MMBench-Video是研究社區的寶貴資源，有助於改進LVLMs的評估並促進視頻理解領域的進展。MMBench-Video的評估代碼將被整合到VLMEvalKit中：https://github.com/open-compass/VLMEvalKit。

模型合併與安全對齊：一個糟糕的模型會損害整體效果
Model Merging and Safety Alignment: One Bad Model Spoils the Bunch

Jun 20

ByHasan Abed Al Kader Hammoud, Umberto Michieli, Fabio Pizzati, Philip Torr, Adel Bibi, Bernard Ghanem, Mete Ozay

將大型語言模型（LLMs）合併是一種成本效益高的技術，可將多個專家LLMs結合成一個通用模型，保留原始模型的專業知識。然而，目前的方法常常忽略了在合併過程中安全對齊的重要性，導致高度不對齊的模型。本研究探討模型合併對對齊的影響。我們評估了幾種常見的模型合併技術，顯示現有方法不僅轉移領域專業知識，還會傳播不對齊。我們提出了一種簡單的兩步方法來解決這個問題：（i）生成合成的安全和領域特定數據，以及（ii）將這些生成的數據納入現有數據感知模型合併技術的優化過程中。這使我們能夠將對齊視為一種可以在最終合併的LLM中最大化的技能。我們的實驗說明了在合併過程中整合與對齊相關的數據的有效性，從而產生在領域專業知識和對齊方面表現出色的模型。

思緒白板：跨模態逐步思考
Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities

Jun 20

BySachit Menon, Richard Zemel, Carl Vondrick

當面對涉及視覺思維的問題時，人類自然會切換推理模式，常常形成心理圖像或繪製視覺輔助工具。大型語言模型在算術和符號推理方面展現出有希望的結果，通過將中間推理表達為一系列文字來進行，但在回答那些容易通過視覺推理解決的文本查詢時卻遇到困難，即使經過廣泛的多模態預訓練也難以做到。我們引入了一種簡單的方法，即“思維白板提示”，以解鎖多模態大型語言模型在各種模式下的視覺推理能力。思維白板提示為多模態大型語言模型提供了一個比喻性的“白板”，用於將推理步驟繪製成圖像，然後將這些圖像返回給模型進行進一步處理。我們發現，這可以在不需要演示或專門模塊的情況下完成，而是利用模型已有的使用Matplotlib和Turtle等庫來編寫代碼的能力。這種簡單方法在涉及視覺和空間推理的四個困難自然語言任務上展示出了最先進的結果。我們確定了多種情況，GPT-4o在其中使用思維鏈失敗嚴重，其中有一個情況下其準確率達到0％，而思維白板提示在這些相同情況下實現了高達92％的準確率。我們詳細探討了這種技術成功的場景以及其錯誤來源。

在約7個步驟中進行文本引導的圖像編輯的可逆一致性蒸餾
Invertible Consistency Distillation for Text-Guided Image Editing in Around 7 Steps

Jun 20

ByNikita Starodubcev, Mikhail Khoroshikh, Artem Babenko, Dmitry Baranchuk

擴散蒸餾代表著一個極具前景的方向，可以在少數取樣步驟中實現忠實的文本到圖像生成。然而，儘管最近取得成功，現有的蒸餾模型仍無法提供完整的擴散能力範疇，例如實際圖像反轉，這使得許多精確的圖像操作方法成為可能。本研究旨在豐富蒸餾文本到圖像擴散模型的能力，使其能夠有效地將真實圖像編碼到其潛在空間中。為此，我們引入了可逆一致性蒸餾（iCD），這是一個通用的一致性蒸餾框架，可以在僅需3-4個推論步驟中促進高質量圖像合成和準確圖像編碼。雖然文本到圖像擴散模型的反轉問題受到高無分類器引導尺度的加劇，但我們注意到動態引導顯著降低了重構錯誤，而在生成性能上幾乎沒有明顯的降級。因此，我們證明了搭配動態引導的iCD可能作為一個非常有效的工具，用於零樣本文本引導的圖像編輯，與更昂貴的最先進替代方案競爭。

GLiNER多任務：針對各種資訊提取任務的通用輕量級模型
GLiNER multi-task: Generalist Lightweight Model for Various Information Extraction Tasks

Jun 14

ByIhor Stepanov, Mykhailo Shtopko

資訊提取任務需要精確、高效且具有一般化的模型。傳統監督式深度學習方法可以達到所需的性能，但需要大量數據集，並且在適應不同任務方面存在限制。另一方面，大型語言模型（LLMs）展現出良好的泛化能力，意味著它們可以根據用戶的要求適應許多不同的任務。然而，LLMs在計算上昂貴且往往無法生成結構化輸出。在本文中，我們將介紹一種新型的GLiNER模型，可用於各種資訊提取任務，同時是一個小型編碼器模型。我們的模型在零-shot NER基準測試中取得了最先進的性能，並在問答、摘要和關係提取任務中表現卓越。此外，在本文中，我們將介紹使用GLiNER模型進行自我學習方法進行命名實體識別的實驗結果。

PIN：一個知識密集型的資料集，用於成對和交錯的多模態文件。
PIN: A Knowledge-Intensive Dataset for Paired and Interleaved Multimodal Documents

Jun 20

ByJunjie Wang, Yin Zhang, Yatai Ji, Yuxiang Zhang, Chunyang Jiang, Yubo Wang, Kang Zhu, Zekun Wang, Tiezhen Wang, Wenhao Huang, Jie Fu, Bei Chen, Qunshu Lin, Minghao Liu, Ge Zhang, Wenhu Chen

近期在大型多模型模型（LMMs）方面的最新進展已利用廣泛的多模型數據集來增強在複雜知識驅動任務中的能力。然而，感知和推理錯誤方面的持續挑戰限制了它們的效力，特別是在解釋複雜視覺數據和推斷多模型關係方面。為應對這些問題，我們引入了一種新的數據集格式，稱為PIN（配對和交錯多模型文檔），旨在顯著提高多模型訓練的深度和廣度。PIN格式建立在三個基本原則上：知識密度、可擴展性和對多樣訓練模式的支持。這種創新格式結合了markdown文件和全面的圖像，通過密集的知識結構和多樣的訓練策略豐富了訓練數據。我們提出了PIN-14M，這是一個開源數據集，包括了從各種中英文來源中獲得的1400萬樣本，旨在包含複雜的網絡和科學內容。這個數據集被精心構建，以確保數據質量和道德完整性，旨在促進先進的訓練策略，提高模型對常見多模型訓練陷阱的韌性。我們的初步結果奠定了這份技術報告的基礎，表明PIN格式在提升LMM性能方面具有顯著潛力，並計劃未來擴展和對其對模型能力的影響進行詳細評估。

DigiRL：使用自主強化學習訓練野外設備控制代理
DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning

Jun 14

ByHao Bai, Yifei Zhou, Mert Cemri, Jiayi Pan, Alane Suhr, Sergey Levine, Aviral Kumar

視覺語言模型（VLMs）的訓練語料庫通常缺乏足夠的以決策為中心的數據。這使得現成的VLMs在決策任務（例如通過圖形用戶界面（GUIs）進行野外設備控制）中表現不佳。雖然使用靜態演示進行訓練顯示出一些潛力，但我們發現這些方法在控制真實GUIs方面表現不佳，因為它們無法應對現實世界中的隨機性和非穩定性，這些因素在靜態觀察數據中無法捕捉。本文介紹了一種新的自主強化學習方法，稱為DigiRL，用於通過對預先訓練的VLM進行微調來訓練野外設備控制代理，該方法分為兩個階段：離線強化學習用於初始化模型，然後是離線到在線強化學習。為此，我們構建了一個可擴展且可並行化的Android學習環境，配備了基於VLM的評估器，並為在這個領域學習開發了一種簡單而有效的強化學習方法。我們的方法運行具有考慮隨機性的優勢估算器的優勢加權強化學習，以及一個用於獲取最大學習信號的自動課程。我們使用Android-in-the-Wild（AitW）數據集展示了DigiRL的有效性，我們的13億VLM在強化學習下實現了49.5％的絕對改善，成功率從17.7％提高到67.2％，超過了使用靜態人類演示數據進行監督微調的先前最佳代理，包括具有GPT-4V的AppAgent（8.3％成功率）和使用AitW數據訓練的17B CogAgent（38.5％），以及基於過濾行為克隆的先前最佳自主強化學習方法（57.8％），從而確立了野外設備控制的數字代理的新技術水平。

自我對弈與執行反饋：提升大型語言模型的指令遵循能力
Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models

Jun 19

ByGuanting Dong, Keming Lu, Chengpeng Li, Tingyu Xia, Bowen Yu, Chang Zhou, Jingren Zhou

大型語言模型（LLMs）的一個核心能力是遵循自然語言指令。然而，如何自動構建高質量的訓練數據，以增強LLMs的複雜指令遵循能力，而無需手動標註，這個問題仍未解決。本文介紹了AutoIF，這是第一個可擴展且可靠的方法，用於自動生成指令遵循訓練數據。AutoIF將指令遵循數據質量的驗證轉化為代碼驗證，要求LLMs生成指令、相應的代碼來檢查指令回應的正確性，以及單元測試樣本來驗證代碼的正確性。然後，基於執行反饋的拒絕抽樣可以生成用於監督微調（SFT）和來自人類反饋的強化學習（RLHF）訓練的數據。當應用於頂尖開源LLMs Qwen2和LLaMA3時，AutoIF在三種訓練算法（SFT、離線DPO和在線DPO）中實現了顯著改進，並且在自對齊和強到弱蒸餾設置中表現出色。我們的代碼可以在https://github.com/QwenLM/AutoIF 上公開獲取。

LiveMind：具有同時推論功能的低延遲大型語言模型
LiveMind: Low-latency Large Language Models with Simultaneous Inference

Jun 20

ByChuangtao Chen, Grace Li Zhang, Xunzhao Yin, Cheng Zhuo, Ulf Schlichtmann, Bing Li

本文介紹了一種新穎的用於大型語言模型（LLMs）推理的低延遲推理框架，使LLMs能夠在不完整提示的情況下進行推理。通過將計算過程重新分配到提示輸入階段，我們實現了顯著降低延遲，從而顯著提升了LLMs用戶的互動體驗。該框架巧妙地管理了流式提示對模型的可見性，使其能夠從不完整提示中推斷或等待額外提示。與利用完整提示的傳統推理方法相比，我們的方法在MMLU-Pro數據集上表現出59%的平均響應延遲減少，同時保持了可比的準確性。此外，我們的框架促進了跨不同模型的協作推理和輸出。通過使用LLM進行推理和小型語言模型（SLM）進行輸出，與SLM基準相比，我們在MMLU-Pro數據集上實現了平均68%的響應延遲減少，同時準確性提高了5.5%。對於超過20句的長提示，響應延遲可以減少高達93%。

通過多圖像生成改善語言模型中的視覺常識
Improving Visual Commonsense in Language Models via Multiple Image Generation

Jun 19

ByGuy Yariv, Idan Schwartz, Yossi Adi, Sagie Benaim

常識推理基本上是基於多模態知識。然而，現有的大型語言模型（LLMs）主要是使用文本數據進行訓練，限制了它們整合基本視覺信息的能力。相比之下，擅長視覺導向任務的視覺語言模型在非視覺任務，如基本常識推理方面通常表現不佳。這種分歧突顯了一個關鍵挑戰 - 將強大的視覺理解與基礎的基於文本的語言推理相結合。為此，我們提出了一種旨在增強LLMs視覺常識的方法。具體而言，我們的方法基於輸入文本提示生成多個圖像，並通過混合它們的預測概率將其整合到模型的決策過程中。為了促進多模態基礎語言建模，我們使用了一個後融合層，將投影的視覺特徵與僅條件於文本的預訓練LLM的輸出結合。這個後融合層使得可以基於全面的圖像-文本知識進行預測，同時在需要時僅使用文本。我們使用幾個視覺常識推理任務以及傳統的自然語言處理任務來評估我們的方法，包括常識推理和閱讀理解。我們的實驗結果表明，我們的方法明顯優於現有的基準。當應用於最新的頂尖LLMs（例如Llama3）時，我們觀察到不僅在視覺常識方面有所改善，而且在傳統的自然語言處理基準上也有所提升。代碼和模型可在https://github.com/guyyariv/vLMIG 下載。

迭代式長度正規化直接偏好優化：提升 7B 語言模型至 GPT-4 水平的案例研究
Iterative Length-Regularized Direct Preference Optimization: A Case Study on Improving 7B Language Models to GPT-4 Level

Jun 17

ByJie Liu, Zhanhui Zhou, Jiaheng Liu, Xingyuan Bu, Chao Yang, Han-Sen Zhong, Wanli Ouyang

直接偏好優化（DPO）是一種標準方法，用於將語言模型與人類偏好對齊，傳統上應用於離線偏好。最近的研究表明，DPO受益於通過經過訓練的獎勵模型標記的在線偏好進行迭代訓練。在這項工作中，我們識別了普通迭代DPO的一個陷阱 - 改進的回應質量可能導致冗長。為了解決這個問題，我們引入了迭代長度正則化DPO（iLR-DPO）來懲罰回應長度。我們的實證結果表明，iLR-DPO可以使一個7B模型在不增加冗長的情況下表現與GPT-4相當。具體而言，我們的7B模型在AlpacaEval 2.0上以50.5%的長度控制勝率擊敗了GPT-4預覽，並在MT-Bench、Arena-Hard和OpenLLM排行榜等標準基準上表現卓越。這些結果展示了迭代DPO在對齊語言模型與人類反饋方面的有效性。

REPOEXEC：使用存儲庫級可執行基準評估代碼生成
REPOEXEC: Evaluate Code Generation with a Repository-Level Executable Benchmark

Jun 17

ByNam Le Hai, Dung Manh Nguyen, Nghi D. Q. Bui

CodeLLM 的能力在存儲庫級別規模生成可執行且功能正確的代碼，目前仍然是一個未被充分探索的領域。我們引入了 RepoExec，這是一個用於評估存儲庫級別代碼生成的新型基準。RepoExec 主要關注三個方面：可執行性、通過自動測試用例生成實現高覆蓋率的功能正確性，以及精心設計的跨文件上下文，以準確生成代碼。我們的工作探索了一個受控情景，開發人員在其中指定必要的代碼依賴，挑戰模型準確整合這些依賴。實驗表明，預訓練的 LLM 在正確性方面優於指令調整模型，而後者在利用提供的依賴並展示調試能力方面表現出色。我們還引入了一個新的指令調整數據集，專注於代碼依賴性，並展示了在我們數據集上微調的 CodeLLM 具有更好地利用這些依賴性的能力。RepoExec 旨在全面評估代碼功能性和與開發人員意圖的一致性，為在現實場景中更可靠和適用的 CodeLLM 打下基礎。數據集和源代碼可在以下鏈接找到：https://github.com/FSoft-AI4Code/RepoExec。

ExVideo：通過參數高效調整擴展視頻擴散模型
ExVideo: Extending Video Diffusion Models via Parameter-Efficient Post-Tuning

Jun 20

ByZhongjie Duan, Wenmeng Zhou, Cen Chen, Yaliang Li, Weining Qian

最近，視頻合成方面取得了顯著進展，引起了廣泛關注。諸如AnimateDiff和Stable Video Diffusion等視頻合成模型展示了擴散模型在創建動態視覺內容方面的實際應用性。SORA的出現進一步突顯了視頻生成技術的潛力。然而，由於計算資源的限制，視頻長度的延伸受到了限制。大多數現有的視頻合成模型僅能生成短視頻片段。在本文中，我們提出了一種新的視頻合成模型後調整方法，名為ExVideo。該方法旨在增強當前視頻合成模型的能力，使其能夠在更長的時間範圍內生成內容，同時減少訓練成本。具體而言，我們分別設計了跨常見時間模型架構的擴展策略，包括3D卷積、時間注意力和位置嵌入。為了評估我們提出的後調整方法的有效性，我們對Stable Video Diffusion模型進行了擴展訓練。我們的方法增強了模型生成帧數的能力，最多可達到原始帧數的5倍，在包含40,000個視頻的數據集上僅需1.5k GPU小時的訓練。重要的是，視頻長度的大幅增加並不會損害模型固有的泛化能力，並且模型在生成各種風格和分辨率的視頻方面展示了其優勢。我們將公開發布源代碼和增強模型。

τ-bench：一個針對在真實世界領域中工具-代理人-使用者互動的基準測試。
τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains

Jun 17

ByShunyu Yao, Noah Shinn, Pedram Razavi, Karthik Narasimhan

現有的基準測試並未測試語言代理與人類用戶互動的能力，以及遵循特定領域規則的能力，這兩者對於將它們應用於現實應用中至關重要。我們提出 tau-bench，這是一個基準測試，模擬用戶（由語言模型模擬）與語言代理之間的動態對話，語言代理提供了特定領域的 API 工具和政策指南。我們採用高效且忠實的評估過程，將對話結束時的數據庫狀態與標註的目標狀態進行比較。我們還提出了一個新的指標（pass^k）來評估代理在多次試驗中的行為可靠性。我們的實驗表明，即使是最先進的函數調用代理（如 gpt-4o）也僅在不到 50% 的任務上成功，而且相當不一致（在零售領域 pass^8 <25%）。我們的研究結果指出了需要改進代理能夠一致行動並可靠遵循規則的方法。

基於模型內部的答案歸因，用於可信的檢索增強生成
Model Internals-based Answer Attribution for Trustworthy Retrieval-Augmented Generation

Jun 19

ByJirui Qi, Gabriele Sarti, Raquel Fernández, Arianna Bisazza

確保模型答案的可驗證性是檢索增強生成（RAG）在問答（QA）領域中的一個基本挑戰。最近，提出了自引用提示，以使大型語言模型（LLMs）生成支持文件的引用以及他們的答案。然而，自引用的LLMs常常難以符合所需格式，參考不存在的來源，並且無法忠實反映LLMs在生成過程中的上下文使用。在這項工作中，我們提出了MIRAGE--基於模型內部的RAG解釋--一種使用模型內部進行忠實答案歸因的即插即用方法。MIRAGE通過显著性方法檢測上下文敏感的答案標記，並將它們與通過檢索的文檔配對，這些文檔有助於通過檢索方法進行預測。我們在一個多語言抽取式QA數據集上評估了我們提出的方法，發現與人類答案歸因高度一致。在開放式QA上，MIRAGE實現了與自引用相當的引文質量和效率，同時還允許更精細地控制歸因參數。我們的定性評估突出了MIRAGE歸因的忠實性，並強調了將模型內部應用於RAG答案歸因的應用前景。

StableSemantics：一個合成的語言視覺資料集，其中包含自然圖像中的語義表示。
StableSemantics: A Synthetic Language-Vision Dataset of Semantic Representations in Naturalistic Images

Jun 19

ByRushikesh Zawar, Shaurya Dewan, Andrew F. Luo, Margaret M. Henderson, Michael J. Tarr, Leila Wehbe

在計算機視覺中，理解視覺場景的語義是一個基本挑戰。這個挑戰的一個關鍵方面是，具有相似語義含義或功能的物體可能呈現明顯的視覺差異，這使得準確識別和分類變得困難。最近在文本到圖像框架方面的進展已經導致了能夠隱含地捕捉自然場景統計信息的模型。這些框架考慮了物體的視覺變異性，以及複雜的物體共現和諸如多樣的光線條件之類的噪聲來源。通過利用大規模數據集和交叉注意力條件，這些模型生成了詳細且具有上下文豐富性的場景表示。這種能力為改善在各種具有挑戰性的環境中的物體識別和場景理解開辟了新的途徑。我們的工作提出了StableSemantics，這是一個包含224,000個人工精選提示、處理過的自然語言標題、超過2百萬張合成圖像以及對應於單個名詞塊的1千萬個注意力地圖的數據集。我們明確利用與視覺上有趣的穩定擴散生成相對應的人工生成提示，每個短語提供10代，並為每個圖像提取交叉注意力地圖。我們探索了生成圖像的語義分佈，檢查了圖像中物體的分佈，並在我們的數據上對標題和開放詞彙分割方法進行了基準測試。據我們所知，我們是第一個釋出具有語義歸因的擴散數據集。我們期望我們提出的數據集將推動視覺語義理解的進步，並為開發更複雜和有效的視覺模型奠定基礎。網站：https://stablesemantics.github.io/StableSemantics

從統計方法到大型語言模型：文本摘要的系統性調查
A Systematic Survey of Text Summarization: From Statistical Methods to Large Language Models

Jun 17

ByHaopeng Zhang, Philip S. Yu, Jiawei Zhang

隨著深度神經網絡、預訓練語言模型（PLMs）和最近的大型語言模型（LLMs）的出現，文本摘要研究經歷了幾次重大轉變。因此，本調查全面回顧了通過這些範式轉變的文本摘要研究進展和演變。它分為兩個主要部分：（1）在LLM時代之前對數據集、評估指標和摘要方法進行詳細概述，包括傳統統計方法、深度學習方法和PLM微調技術，以及（2）對LLM時代最新進展在基準設定、建模和評估摘要方面的首次詳細檢驗。通過綜合現有文獻並提供一個連貫的概述，本調查還討論了研究趨勢、開放挑戰並提出摘要研究中有前景的研究方向，旨在引導研究人員穿越摘要研究的不斷發展的領域。

從洞察到行動：可解釋性和分析對自然語言處理的影響研究
From Insights to Actions: The Impact of Interpretability and Analysis Research on NLP

Jun 18

ByMarius Mosbach, Vagrant Gautam, Tomás Vergara-Browne, Dietrich Klakow, Mor Geva

可解釋性和分析（IA）研究是自然語言處理（NLP）領域內一個日益發展的子領域，旨在深入了解NLP系統和方法的行為或內部運作。儘管對該子領域的興趣日益增長，但一個常見的批評是缺乏可操作的見解，因此對NLP的影響有限。在本文中，我們旨在量化IA研究對NLP更廣泛領域的影響。我們通過對以下兩種方法的混合分析來進行：（1）從2018年至2023年在ACL和EMNLP會議上發表的所有論文構建的包含185K+篇論文的引文圖，以及（2）對NLP社區的138名成員進行的調查。我們的定量結果顯示，IA工作在IA之外被廣泛引用，在NLP引文圖中處於核心位置。通過對調查回應的定性分析和對556篇論文的手動標註，我們發現NLP研究人員借鑒了IA工作的研究成果，認為這對NLP的進展、多個子領域至關重要，並依賴其研究成果和術語進行自身工作。許多新穎的方法是基於IA研究結果提出的，並受其極大影響，但高影響力的非IA工作引用了IA研究結果，卻不是由其驅動。最後，我們總結了當前IA工作中的缺失之處，提出號召行動，為IA研究的更有影響力的未來鋪平道路。

使用潛在擴散模型在幾秒內對3D高斯場景進行取樣
Sampling 3D Gaussian Scenes in Seconds with Latent Diffusion Models

Jun 18

ByPaul Henderson, Melonie de Almeida, Daniela Ivanova, Titas Anciukevičius

我們提出了一個潛在擴散模型，用於3D場景，可以僅使用2D圖像數據進行訓練。為了實現這一目標，我們首先設計了一個自編碼器，將多視圖圖像映射到3D高斯斑點，同時構建了這些斑點的壓縮潛在表示。然後，我們在潛在空間上訓練多視圖擴散模型，以學習一個高效的生成模型。這個流程不需要對象遮罩或深度，適用於具有任意相機位置的複雜場景。我們在兩個大規模複雜現實世界場景數據集MVImgNet和RealEstate10K上進行了仔細的實驗。我們展示了我們的方法能夠在短短0.2秒內生成3D場景，可以從頭開始生成，從單個輸入視圖生成，或者從稀疏輸入視圖生成。它生成多樣且高質量的結果，運行速度比非潛在擴散模型和早期基於NeRF的生成模型快一個數量級。