AI研究論文每日精選

每日精選AI研究論文及翻譯

ReFT：語言模型的表示微調
ReFT: Representation Finetuning for Language Models

Apr 4

ByZhengxuan Wu, Aryaman Arora, Zheng Wang, Atticus Geiger, Dan Jurafsky, Christopher D. Manning, Christopher Potts

101

參數高效微調（PEFT）方法旨在通過對少量權重進行更新來調整大型模型。然而，許多先前的可解釋性研究顯示，表示編碼了豐富的語義信息，暗示編輯表示可能是一種更強大的替代方案。在這裡，我們通過開發一系列表示微調（ReFT）方法來追求這一假設。ReFT方法在凍結的基本模型上運行，並學習對隱藏表示進行特定任務的干預。我們定義了ReFT家族的一個強實例，即低秩線性子空間ReFT（LoReFT）。LoReFT是現有PEFT的即插即用替代方案，學習的干預比先前最先進的PEFT高效10倍至50倍。我們展示了LoReFT在八個常識推理任務、四個算術推理任務、Alpaca-Eval v1.0和GLUE上的應用。在所有這些評估中，LoReFT提供了效率和性能的最佳平衡，幾乎總是優於最先進的PEFT。我們在https://github.com/stanfordnlp/pyreft 公開發布了一個通用的ReFT訓練庫。

CoMat：將文本到圖像擴散模型與圖像到文本概念對齊
CoMat: Aligning Text-to-Image Diffusion Model with Image-to-Text Concept Matching

Apr 4

ByDongzhi Jiang, Guanglu Song, Xiaoshi Wu, Renrui Zhang, Dazhong Shen, Zhuofan Zong, Yu Liu, Hongsheng Li

擴散模型在文本到圖像生成領域取得了巨大成功。然而，緩解文本提示與圖像之間的不一致仍然具有挑戰性。對於不一致的根本原因尚未得到廣泛的探討。我們觀察到，不一致是由於令牌注意力激活不足所致。我們進一步將這一現象歸因於擴散模型的條件利用不足，這是由其訓練範式引起的。為了解決問題，我們提出了CoMat，這是一種端對端的擴散模型微調策略，具有圖像到文本概念匹配機制。我們利用圖像字幕模型來衡量圖像到文本的對齊情況，並引導擴散模型重新訪問被忽略的令牌。同時，我們還提出了一個新的屬性集中模組來解決屬性綁定問題。在沒有圖像或人類偏好數據的情況下，我們僅使用了2萬個文本提示來微調SDXL，獲得了CoMat-SDXL。大量實驗表明，CoMat-SDXL在兩個文本到圖像對齊基準測試中顯著優於基線模型SDXL，並取得了最先進的性能。

AutoWebGLM：基於大型語言模型的網頁導航代理的啟動和強化
AutoWebGLM: Bootstrap And Reinforce A Large Language Model-based Web Navigating Agent

Apr 4

ByHanyu Lai, Xiao Liu, Iat Long Iong, Shuntian Yao, Yuxuan Chen, Pengbo Shen, Hao Yu, Hanchen Zhang, Xiaohan Zhang, Yuxiao Dong, Jie Tang

大型語言模型（LLMs）推動了許多智能代理任務，例如網頁導航，但大多數現有代理在真實網頁上的表現遠遠不滿意，原因有三：（1）網頁上的行動多樣性，（2）HTML 文本超過模型處理能力，以及（3）由於網頁的開放域性質，決策複雜性。鑒於這一挑戰，我們開發了AutoWebGLM，這是一個基於ChatGLM3-6B構建的GPT-4表現優越的自動網頁導航代理。受人類瀏覽模式的啟發，我們設計了一個HTML簡化算法來呈現網頁，簡潔地保留重要信息。我們採用混合人工智能方法來構建用於課程訓練的網頁瀏覽數據。然後，我們通過強化學習和拒絕抽樣來啟動模型，進一步促進網頁理解、瀏覽器操作以及有效的任務分解。為了測試，我們建立了一個雙語基準測試AutoWebBench，用於真實世界的網頁瀏覽任務。我們在各種網頁導航基準測試中評估了AutoWebGLM，揭示了它的改進，但也揭示了應對真實環境的潛在挑戰。相關代碼、模型和數據將在https://github.com/THUDM/AutoWebGLM 上發布。

MiniGPT4-Video：通過交錯視覺-文本標記來推進視頻理解的多模態LLM
MiniGPT4-Video: Advancing Multimodal LLMs for Video Understanding with Interleaved Visual-Textual Tokens

Apr 4

ByKirolos Ataallah, Xiaoqian Shen, Eslam Abdelrahman, Essam Sleiman, Deyao Zhu, Jian Ding, Mohamed Elhoseiny

本文介紹了MiniGPT4-Video，一種專為視頻理解而設計的多模式大型語言模型（LLM）。該模型能夠處理時間視覺和文本數據，使其擅長理解視頻的複雜性。在MiniGPT-v2取得成功的基礎上，該模型在將視覺特徵轉換為LLM空間以處理單張圖像方面表現出色，並在各種圖像-文本基準測試中取得了令人印象深刻的成果，本文將擴展模型的能力以處理一系列幀，使其能夠理解視頻。MiniGPT4-Video不僅考慮視覺內容，還融入了文本對話，使模型能夠有效回答涉及視覺和文本組件的查詢。所提出的模型優於現有的最先進方法，在MSVD、MSRVTT、TGIF和TVQA基準測試中分別取得了4.22％、1.13％、20.82％和13.1％的增益。我們的模型和代碼已公開提供，網址為https://vision-cair.github.io/MiniGPT4-video/

LVLM-Intrepret：用於大型視覺語言模型的可解釋性工具
LVLM-Intrepret: An Interpretability Tool for Large Vision-Language Models

Apr 3

ByGabriela Ben Melech Stan, Raanan Yehezkel Rohekar, Yaniv Gurwicz, Matthew Lyle Olson, Anahita Bhiwandiwalla, Estelle Aflalo, Chenfei Wu, Nan Duan, Shao-Yen Tseng, Vasudev Lal

在人工智慧快速發展的領域中，多模式大型語言模型正成為一個重要的研究領域。這些模型結合了各種形式的數據輸入，因此變得越來越受歡迎。然而，理解它們的內部機制仍然是一個複雜的任務。在可解釋性工具和機制的領域中已經取得了許多進展，但仍有許多待探索之處。在這項工作中，我們提出了一個新穎的互動應用程序，旨在理解大型視覺語言模型的內部機制。我們設計的界面旨在提高圖像補丁的可解釋性，這對於生成答案至關重要，並評估語言模型在圖像中基於其輸出的有效性。通過我們的應用程序，用戶可以系統地研究模型，揭示系統的局限性，為提升系統能力鋪平道路。最後，我們提出了一個案例研究，展示了我們的應用程序如何幫助理解一個流行的大型多模式模型LLaVA中的失敗機制。

在神經壓縮文本上訓練LLMs
Training LLMs over Neurally Compressed Text

Apr 4

ByBrian Lester, Jaehoon Lee, Alex Alemi, Jeffrey Pennington, Adam Roberts, Jascha Sohl-Dickstein, Noah Constant

本文探討在高度壓縮文本上訓練大型語言模型（LLMs）的概念。傳統的子詞分詞器通過輕微壓縮文本，而神經文本壓縮器可以實現更高比率的壓縮。如果能夠直接在神經壓縮文本上訓練LLMs，將在訓練和服務效率上帶來優勢，並更容易處理長文本範圍。實現這一目標的主要障礙是，強壓縮往往會產生不適合學習的不透明輸出。特別是，我們發現通過算術編碼天真地壓縮的文本對LLMs來說不容易學習。為了克服這一問題，我們提出了Equal-Info Windows，一種新穎的壓縮技術，其中文本被分割成每個壓縮到相同位長的區塊。使用這種方法，我們展示了在神經壓縮文本上的有效學習，隨著規模的擴大而改善，並在困惑度和推理速度基準上遠遠優於字節級基準。雖然我們的方法在具有相同參數計數的模型上交付的困惑度比子詞分詞器差，但它具有較短的序列長度的好處。較短的序列長度需要較少的自回歸生成步驟，並減少延遲。最後，我們對有助於可學習性的特性進行了廣泛分析，並提出了如何進一步改善高壓縮分詞器性能的具體建議。

CodeEditorBench：評估大型語言模型的程式碼編輯能力
CodeEditorBench: Evaluating Code Editing Capability of Large Language Models

Apr 4

ByJiawei Guo, Ziming Li, Xueling Liu, Kaijing Ma, Tianyu Zheng, Zhouliang Yu, Ding Pan, Yizhi LI, Ruibo Liu, Yue Wang, Shuyue Guo, Xingwei Qu, Xiang Yue, Ge Zhang, Wenhu Chen, Jie Fu

大型語言模型（LLMs）用於程式碼的應用正在迅速演進，程式碼編輯已成為一項關鍵能力。我們引入了 CodeEditorBench，這是一個旨在嚴謹評估LLMs在程式碼編輯任務中表現的評估框架，包括除錯、翻譯、修改和需求切換等任務。與現有僅關注程式碼生成的基準不同，CodeEditorBench強調現實世界情境和軟體開發的實際面向。我們從五個來源中精心挑選了多樣的編碼挑戰和情境，涵蓋各種程式語言、複雜度水平和編輯任務。對19個LLMs的評估顯示，封閉源模型（尤其是Gemini-Ultra和GPT-4）在CodeEditorBench中優於開源模型，突顯了基於問題類型和提示敏感性的模型表現差異。CodeEditorBench的目標是通過提供一個堅固的平台來評估程式碼編輯能力，以催生LLMs的進步。我們將釋出所有提示和資料集，以便社群擴展資料集並對新興LLMs進行基準測試。通過引入CodeEditorBench，我們促進了LLMs在程式碼編輯方面的進步，並為研究人員和從業者提供了寶貴的資源。

PointInfinity：解析度不變的點擴散模型
PointInfinity: Resolution-Invariant Point Diffusion Models

Apr 4

ByZixuan Huang, Justin Johnson, Shoubhik Debnath, James M. Rehg, Chao-Yuan Wu

我們提出了PointInfinity，一個高效的點雲擴散模型系列。我們的核心思想是使用基於Transformer的架構，具有固定大小、與解析度無關的潛在表示。這使得在低解析度點雲上進行高效訓練成為可能，同時允許在推論期間生成高解析度的點雲。更重要的是，我們展示了在訓練解析度之外擴展測試解析度可以提高生成的點雲和表面的保真度。我們分析了這一現象，並將其與擴散模型中常用的無分類器引導相關聯，表明兩者都允許在推論期間在保真度和變異性之間進行折衷。在CO3D上的實驗表明，PointInfinity能夠高效生成高解析度的點雲（高達131k個點，比Point-E多31倍），並具有最先進的質量。

RALL-E：具有思維鏈提示的強健編解碼器語言建模，用於文本轉語音合成。
RALL-E: Robust Codec Language Modeling with Chain-of-Thought Prompting for Text-to-Speech Synthesis

Apr 4

ByDetai Xin, Xu Tan, Kai Shen, Zeqian Ju, Dongchao Yang, Yuancheng Wang, Shinnosuke Takamichi, Hiroshi Saruwatari, Shujie Liu, Jinyu Li, Sheng Zhao

我們提出了 RALL-E，一種用於文本轉語音（TTS）合成的強健語言建模方法。儘管先前基於大型語言模型（LLMs）的工作在零-shot TTS上表現出色，但這類方法常常因語言模型的自回歸預測風格而遭遇到較差的魯棒性，例如不穩定的韻律（奇怪的音高和節奏/持續時間）和較高的詞錯誤率（WER）。RALL-E背後的核心思想是「思維鏈」（CoT）提示，將任務分解為更簡單的步驟以增強基於LLM的TTS的魯棒性。為實現這一思想，RALL-E首先預測輸入文本的韻律特徵（音高和持續時間），並將其用作在CoT風格中預測語音標記的中間條件。其次，RALL-E利用預測的持續時間提示來引導Transformer中自注意力權重的計算，以強制模型在預測語音標記時專注於相應的音素和韻律特徵。全面客觀和主觀評估的結果表明，與強大的基線方法VALL-E相比，RALL-E顯著改善了零-shot TTS的WER，分別從6.3%（無重新排序）和2.1%（重新排序）降至2.8%和1.0%。此外，我們展示了RALL-E能夠正確合成對VALL-E來說困難的句子，並將錯誤率從68%降低到4%。

紅隊測試 GPT-4V：GPT-4V 對抗單/多模態越獄攻擊安全嗎？
Red Teaming GPT-4V: Are GPT-4V Safe Against Uni/Multi-Modal Jailbreak Attacks?

Apr 4

ByShuo Chen, Zhen Han, Bailan He, Zifeng Ding, Wenqian Yu, Philip Torr, Volker Tresp, Jindong Gu

已提出各種越獄攻擊以紅隊 Large Language Models (LLMs) 並揭示了LLMs的弱點防護。此外，一些方法不僅限於文本模態，還通過扭曲視覺輸入將越獄攻擊擴展到 Multimodal Large Language Models (MLLMs)。然而，缺乏通用評估基準使性能再現和公平比較變得複雜。此外，對於封閉源最先進 (SOTA) 模型的全面評估存在不足，特別是對於 MLLMs，如 GPT-4V。為了解決這些問題，本研究首先建立了一個包含1445個有害問題、涵蓋11種不同安全策略的全面越獄評估數據集。基於此數據集，在11種不同的LLMs和MLLMs上進行了廣泛的紅隊實驗，包括 SOTA 專有模型和開源模型。然後對評估結果進行深入分析，發現 (1) GPT4 和 GPT-4V 在抵抗越獄攻擊方面表現比開源LLMs和MLLMs更為堅固。 (2) Llama2 和 Qwen-VL-Chat 相對於其他開源模型更為堅固。 (3) 與文本越獄方法相比，視覺越獄方法的可轉移性相對有限。數據集和代碼可在此處找到：https://anonymous.4open.science/r/red_teaming_gpt4-C1CE/README.md。

AI研究論文每日精選

每日精選AI研究論文及翻譯

ReFT：語言模型的表示微調
ReFT: Representation Finetuning for Language Models

Apr 4

ByZhengxuan Wu, Aryaman Arora, Zheng Wang, Atticus Geiger, Dan Jurafsky, Christopher D. Manning, Christopher Potts

101

CoMat：將文本到圖像擴散模型與圖像到文本概念對齊
CoMat: Aligning Text-to-Image Diffusion Model with Image-to-Text Concept Matching

Apr 4

ByDongzhi Jiang, Guanglu Song, Xiaoshi Wu, Renrui Zhang, Dazhong Shen, Zhuofan Zong, Yu Liu, Hongsheng Li

AutoWebGLM：基於大型語言模型的網頁導航代理的啟動和強化
AutoWebGLM: Bootstrap And Reinforce A Large Language Model-based Web Navigating Agent

Apr 4

ByHanyu Lai, Xiao Liu, Iat Long Iong, Shuntian Yao, Yuxuan Chen, Pengbo Shen, Hao Yu, Hanchen Zhang, Xiaohan Zhang, Yuxiao Dong, Jie Tang

MiniGPT4-Video：通過交錯視覺-文本標記來推進視頻理解的多模態LLM
MiniGPT4-Video: Advancing Multimodal LLMs for Video Understanding with Interleaved Visual-Textual Tokens

Apr 4

ByKirolos Ataallah, Xiaoqian Shen, Eslam Abdelrahman, Essam Sleiman, Deyao Zhu, Jian Ding, Mohamed Elhoseiny

RALL-E：具有思維鏈提示的強健編解碼器語言建模，用於文本轉語音合成。
RALL-E: Robust Codec Language Modeling with Chain-of-Thought Prompting for Text-to-Speech Synthesis

Apr 4

ByDetai Xin, Xu Tan, Kai Shen, Zeqian Ju, Dongchao Yang, Yuancheng Wang, Shinnosuke Takamichi, Hiroshi Saruwatari, Shujie Liu, Jinyu Li, Sheng Zhao

紅隊測試 GPT-4V：GPT-4V 對抗單/多模態越獄攻擊安全嗎？
Red Teaming GPT-4V: Are GPT-4V Safe Against Uni/Multi-Modal Jailbreak Attacks?

Apr 4

ByShuo Chen, Zhen Han, Bailan He, Zifeng Ding, Wenqian Yu, Philip Torr, Volker Tresp, Jindong Gu