每日精選AI研究論文及翻譯
多模式大型語言模型(MLLMs)在各種應用中展現了顯著的潛力,引起了研究人員和從業者的廣泛興趣。然而,對它們長文本能力的全面評估仍未得到充分探討。為填補這些空白,我們引入了MultiModal Needle-in-a-haystack(MMNeedle)基準測試,專門設計來評估MLLMs的長文本能力。除了多圖像輸入外,我們採用圖像拼接來進一步增加輸入內容的上下文長度,並制定了一個協議來自動生成子圖像級別的標籤以進行檢索。基本上,MMNeedle通過對圖像內容的文本指令和描述,測試MLLMs定位一個目標子圖像(針)在一組圖像(乾草堆)中的能力。這個設置需要對廣泛的視覺上下文和在長文本圖像輸入中有效的信息檢索有高級理解。通過這個基準測試,我們評估了最先進的MLLMs,包括基於API和開源模型。研究結果顯示,GPT-4o在長文本情境中持續優於其他模型,但在負樣本中存在幻覺問題,即當針不在乾草堆中時。我們對MLLMs的全面長文本評估還揭示了基於API和開源模型之間的顯著性能差距。重現主要結果所需的所有代碼、數據和說明都可以在https://github.com/Wang-ML-Lab/multimodal-needle-in-a-haystack找到。
如今,程式碼和自然語言處理領域正在迅速發展。特別是模型在處理長上下文窗口方面表現得越來越好 - 在過去幾年中,支持的上下文大小已經增加了數個數量級。然而,在程式碼處理方面,缺乏超越單個上下文文件的基準,而最受歡迎的基準僅限於單個方法。通過這項工作,我們旨在通過引入Long Code Arena 來彌補這一差距,這是一套包含六個基準的程式碼處理任務,需要整個專案範圍的上下文。這些任務涵蓋了程式碼處理的不同方面:基於庫的程式碼生成、CI 構建修復、專案級程式碼完成、提交消息生成、錯誤定位和模組摘要。對於每個任務,我們提供了經過手動驗證的測試數據集、評估套件,以及基於流行的LLM的開源基準解決方案,以展示數據集的使用方式,並簡化其他研究人員的採用。我們在 HuggingFace Spaces 上發布了基準頁面,其中包含排行榜、所有數據集的 HuggingFace Hub 鏈接,以及包含基準解決方案的 GitHub 存儲庫鏈接:https://huggingface.co/spaces/JetBrains-Research/long-code-arena。
視覺轉換器(ViTs)已成為一個重要的研究領域,特別是因為它們能夠與大型語言模型聯合訓練,並作為堅固的視覺基礎模型。然而,對於ViTs的可靠解釋方法的發展滯後,特別是在ViT預測的事後解釋方面。現有的子圖像選擇方法,如特徵歸因和概念模型,在這方面表現不佳。本文提出了解釋ViTs的五個期望條件--忠實性、穩定性、稀疏性、多級結構和簡潔性--並展示了目前方法在全面滿足這些標準方面的不足。我們引入了一個變分貝葉斯解釋框架,名為ProbAbilistic Concept Explainers(PACE),它模擬了補丁嵌入的分佈,以提供可信賴的事後概念解釋。我們的定性分析揭示了補丁級概念的分佈,藉此闡明了ViTs的有效性,通過對補丁嵌入和ViT預測的聯合分佈進行建模。此外,這些補丁級解釋填補了圖像級和數據集級解釋之間的差距,從而完成了PACE的多級結構。通過對合成和真實世界數據集的廣泛實驗,我們展示了PACE在所定義的期望條件方面超越了最先進的方法。
我們提出了Self-MoE,一種將單一的LLM轉換為由自我專業化專家組成的組合式模塊系統MiXSE(Self-specialized Experts混合體)。我們的方法利用自我專業化,使用自生成的合成數據構建專家模塊,每個模塊配備共享的基礎LLM並融入自我優化的路由。這使得能夠動態且能力特定地處理各種目標任務,增強整體能力,而無需大量人工標記的數據和添加參數。我們的實證結果顯示,專業化的LLM在非專業化任務上可能存在性能折衷。另一方面,我們的Self-MoE在各種基準測試中均顯示出明顯的改進,如知識、推理、數學和編碼。它還在設計上通過語義專家和路由提供更好的靈活性和可解釋性,並始終優於其他方法,包括實例合併和權重合併。我們的研究結果突顯了模塊化的關鍵作用以及自我改進在實現高效、可擴展和適應性系統方面的潛力。
預訓練語言模型(PLMs)如BERT和GPT的整合已經在自然語言處理(NLP)領域引起革命,尤其是對於英語,但也造成了語言上的不平衡。本文從策略角度指出了在多語境下檢視多種知識編輯技術以實現語言平等的需求。我們評估了Mistral、TowerInstruct、OpenHathi、Tamil-Llama和Kan-Llama等模型在包括英語、德語、法語、意大利語、西班牙語、印地語、泰米爾語和坎納達語在內的多種語言上的表現。我們的研究發現了關於跨語言一致性的正常模型和合併模型之間存在顯著差異。我們採用“每種語言為自己”(ELFI)和“每種語言為他人”(ELFO)等策略來對這些模型進行壓力測試。我們的研究結果顯示了大型語言模型(LLMs)克服語言障礙的潛力,為未來在實現AI技術中的語言包容性方面奠定了基礎。
最近,自監督語音(SSL)模型已被廣泛應用於許多下游語音處理任務。一般的使用模式是將SSL模型用作特徵提取器,然後訓練一個下游預測頭以解決特定任務。然而,已經顯示SSL模型的不同層捕獲了不同類型的信息,並且尚未深入研究如何結合這些信息。為此,我們通過提出連接上游和下游的界面來擴展SSL模型利用的一般框架。從這個角度來看,通過逐層加權和的主要技術可以被視為一個特定的界面。我們提出了幾種替代界面設計並證明,對許多任務來說,加權和界面並不是最佳選擇。特別是,我們展示了一種卷積界面,其深度與上游模型的深度呈對數比例,始終優於許多其他界面設計。
以人類反饋的強化學習(RLHF)已成為對齊大型模型至使用者偏好的主要方法。與微調不同,對於微調,有許多關於訓練數據記憶的研究,但目前尚不清楚記憶如何受到或在RLHF對齊過程中引入的影響。了解這種關係很重要,因為可能會收集並使用真實使用者數據來對齊大型模型;如果在RLHF過程中記憶使用者數據,並在後續重複,這可能引起隱私問題。在這項工作中,我們分析了訓練數據記憶如何在RLHF的每個階段中浮現並傳播。我們專注於代碼完成模型的研究,因為代碼完成是大型語言模型最受歡迎的用例之一。我們發現,與直接在這些數據上進行微調對齊相比,RLHF顯著降低了用於獎勵建模和強化學習的數據被記憶的機會,但在RLHF微調階段已經記憶的例子,在大多數情況下,在RLHF後仍將保持記憶。
最近,"取消學習"大型語言模型(LLMs)中某些概念的任務引起了廣泛關注,因為這對於減輕不良模型行為(例如生成有害、私密或不正確信息)至關重要。目前評估取消學習方法的協議主要依賴行為測試,而沒有監控模型參數中取消學習知識的存在。這種剩餘知識可能被敵對地利用,以在取消學習後恢復被刪除的信息。我們認為取消學習應該在內部進行評估,考慮取消學習概念的參數知識軌跡的變化。為此,我們提出了一種通用方法,用於引出參數空間中的方向(稱為"概念向量"),這些向量編碼具體概念,並構建了ConceptVectors,一個包含數百個常見概念及其在兩個開源LLMs中的參數知識軌跡的基準數據集。對ConceptVectors的評估顯示,現有的取消學習方法對概念向量的影響微乎其微,而直接刪除這些向量明顯地從LLMs中刪除了相關知識,並顯著降低了它們對敵對操縱的敏感性。我們的結果突顯了基於行為的取消學習評估的局限性,呼籲未來的工作應包括基於參數的評估。為了支持這一點,我們在https://github.com/yihuaihong/ConceptVectors 上發布了我們的代碼和基準。