每日精選AI研究論文及翻譯
GPT-4o的卓越多模式能力和互動體驗凸顯了它們在實際應用中的必要性,然而開源模型很少在這兩個領域表現出色。在本文中,我們介紹了VITA,這是第一個開源多模式大型語言模型(MLLM),擅長同時處理和分析視頻、圖像、文本和音頻模式,同時具有先進的多模式互動體驗。從以Mixtral 8x7B為語言基礎開始,我們擴展了其中文詞彙,並進行了雙語指導調整。我們通過兩階段多任務學習的多模式對齊和指導調整,進一步賦予語言模型視覺和音頻能力。VITA展示了多語言、視覺和音頻理解的堅實基礎能力,其在一系列單模式和多模式基準測試中表現出色。除了基礎能力外,我們在增強自然多模式人機交互體驗方面取得了顯著進展。據我們所知,我們是第一個在MLLM中利用非覺醒互動和音頻中斷的研究者。VITA是開源社區探索多模式理解和互動無縫整合的第一步。雖然在接近封閉源對應方面還有很多工作要做,但我們希望它作為先驅的角色可以成為後續研究的基石。項目頁面:https://vita-home.github.io。
稀疏自編碼器(SAEs)是一種無監督方法,用於學習神經網絡的潛在表示的稀疏分解,使其看起來具有可解釋的特徵。儘管最近對它們的潛力感到興奮,但在工業以外的研究應用受到訓練全面套件的SAEs成本高昂的限制。在這項工作中,我們介紹GemScope,這是一個開放套件,其中包括在Gemma 2 2B和9B的所有層和子層以及Gemma 2 27B基本模型的選擇層上訓練的JumpReLU SAEs。我們主要在Gem 2預訓練模型上訓練SAEs,但另外還釋出了在說明調整的Gemma 2 9B上訓練的SAEs,以供比較。我們根據標準指標評估每個SAE的質量並公佈這些結果。我們希望通過釋出這些SAE權重,能夠幫助社區更輕鬆地進行更具野心的安全性和可解釋性研究。權重和教程可在https://huggingface.co/google/gemma-scope找到,互動演示可在https://www.neuronpedia.org/gemma-scope找到。
多模式大型語言模型(MLLMs)已展現出在執行各種單圖任務指令方面的卓越能力。儘管取得了進展,但在建模長圖像序列方面仍存在重大挑戰。在這項工作中,我們介紹了多功能多模式大型語言模型 mPLUG-Owl3,它增強了對於包含檢索的圖像-文本知識、交錯的圖像-文本和冗長視頻的長圖像序列理解能力。具體來說,我們提出了新穎的超級注意力塊,以有效整合視覺和語言到一個共同的語言引導語義空間,從而促進對擴展的多圖像情境的處理。廣泛的實驗結果表明,mPLUG-Owl3在單圖像、多圖像和視頻基準測試中達到了同等大小模型中的最先進性能。此外,我們提出了一個具有挑戰性的長視覺序列評估,名為抗干擾能力,以評估模型在分心干擾中保持專注的能力。最後,通過所提出的架構,mPLUG-Owl3展現了在超長視覺序列輸入上的優異表現。我們希望 mPLUG-Owl3 能有助於更高效、更強大的多模式大型語言模型的發展。
為了擴展和改進視覺語言模型(VLM)的訓練方法,已經進行了重要的研究工作。然而,隨著基準測試數量不斷增加,研究人員面臨著實施每個協議的沉重負擔,承擔著相當大的計算成本,並理解所有這些基準測試如何轉化為有意義的進展軸。為了促進對VLM進展的系統評估,我們介紹了UniBench:一個統一的實現,包括50多個VLM基準測試,涵蓋從物體識別到空間感知、計數等一系列精心分類的能力。我們展示了UniBench在評估近60個公開可用的視覺語言模型方面的效用,這些模型的訓練規模可達到128億樣本。我們發現,雖然擴展訓練數據或模型大小可以提升許多視覺語言模型的能力,但對於推理或關係,擴展幾乎沒有好處。令人驚訝的是,我們還發現當今最好的VLM在簡單的數字識別和計數任務上遇到困難,例如MNIST,而更簡單的網絡可以解決這些任務。當規模不足時,我們發現更精確的干預措施,例如數據質量或定制的學習目標,提供了更多的希望。對於從業者,我們還提供了有關選擇適合特定應用的VLM的指導。最後,我們釋出了一個易於運行的UniBench代碼庫,其中包括完整的50多個基準測試和59個模型的比較,以及一組簡化的代表性基準測試,可在單個GPU上的5分鐘內運行。
最近大型語言模型(LLMs)的進步引發了對工具輔助LLMs解決現實世界挑戰的研究興趣不斷增加,這需要對工具使用能力進行全面評估。過去的研究主要集中在評估基於無狀態 Web 服務(RESTful API)的情況,基於單輪用戶提示,或者基於離線對話軌跡,而 ToolSandbox 則包括有狀態的工具執行、工具之間的隱式狀態依賴、內置用戶模擬器支持基於策略的對話評估,以及針對任意軌跡的中間和最終里程碑的動態評估策略。我們展示了開源和專有模型之間存在顯著的性能差距,並且像在 ToolSandbox 中定義的狀態依賴、規範化和信息不足等複雜任務,即使是最具備能力的 SOTA LLMs 也面臨挑戰,為工具使用LLMs能力提供了全新的見解。ToolSandbox 評估框架已在 https://github.com/apple/ToolSandbox 釋出。
儘管臉部影像超分辨率取得了令人期待的進展,但視頻臉部超分辨率仍相對未被充分探索。現有方法要麼將一般視頻超分辨率網絡適應於臉部數據集,要麼將已建立的臉部影像超分辨率模型獨立應用於個別視頻幀上。這些範式在重建面部細節或保持時間一致性方面均面臨挑戰。為解決這些問題,我們引入了一個名為Kalman靈感特徵傳播(KEEP)的新框架,旨在隨時間保持穩定的臉部先驗。Kalman濾波原則為我們的方法提供了一種遞歸能力,利用先前恢復的幀的信息來引導和調節當前幀的恢復過程。大量實驗證明了我們的方法在一致捕捉視頻幀間面部細節方面的有效性。代碼和視頻演示可在https://jnjaby.github.io/projects/KEEP找到。
文本反轉仍然是個人化擴散模型的一種流行方法,以教授模型新的主題和風格。我們注意到,使用與 UNet 不同的替代方法來探索文本反轉仍未被充分探討,並嘗試使用視覺Transformer進行文本反轉。我們還尋求優化文本反轉的策略,該策略不需要明確使用UNet及其特有的層,因此我們添加了獎勵標記並強制正交性。我們發現獎勵標記的使用改善了對源圖像的遵循,而使用視覺Transformer則改善了對提示的遵循。代碼可在 https://github.com/jamesBaker361/tex_inv_plus 找到。
本文介紹了 MooER,一個基於LLM的Moore Threads大規模自動語音識別(ASR)/自動語音翻譯(AST)模型。我們使用包含開源和自行收集的語音數據的5000小時標記偽標記數據集進行訓練。我們實現了與其他使用數十萬小時標記語音數據訓練的開源模型相當的性能。同時,在Covost2 Zh2en測試集上進行的實驗表明,我們的模型優於其他開源語音LLM。可以獲得25.2的BLEU分數。本文的主要貢獻概括如下。首先,本文提出了一種在語音相關任務(包括ASR和AST)上使用少量標記偽標記數據進行編碼器和LLM訓練的策略,而無需任何額外手動標註和選擇。其次,我們釋出了我們的ASR和AST模型,並計劃在不久的將來開源我們的訓練代碼和策略。此外,計劃稍後釋出在8wh規模訓練數據上訓練的模型。
語音轉換旨在修改源說話者的聲音,使其類似於目標說話者,同時保留原始語音內容。儘管語音轉換在近年取得顯著進展,多語言語音轉換(包括單語言和跨語言場景)尚未受到廣泛研究。它面臨兩個主要挑戰:1)不同語言之間韻律和發音習慣的相當變異性;以及2)來自同一說話者的多語言配對數據的稀缺性。在本文中,我們提出了MulliVC,一種新穎的語音轉換系統,僅轉換音色,保留原始內容和源語言韻律,而無需多語言配對數據。具體而言,MulliVC的每個訓練步驟包含三個子步驟:第一步中,模型使用單語言語音數據進行訓練;然後,第二步和第三步借鑒回譯的思想,構建一個循環過程,以在缺乏來自同一說話者的多語言數據的情況下區分音色和其他信息(內容、韻律和其他語言相關信息)。客觀和主觀結果均表明,MulliVC在單語言和跨語言情境中明顯優於其他方法,展示了系統的有效性以及具有循環一致性的三步驟方法的可行性。聽覺樣本可在我們的演示頁面(mullivc.github.io)找到。
神經網絡語言模型(LMs)已被證明成功捕捉複雜的語言知識。然而,它們在理解語言習得方面的效用仍存在爭議。我們通過提出一個案例研究來參與這場辯論,我們使用LMs作為模擬學習者,提出新的實驗假設,以供人類進行測試。我們應用這個範式來研究交互賓格概括(CDG):對於新動詞在交互賓格結構中的生產性概括(她把球扔給我/她把球扔給我)-- 其習得已知牽涉到大量的語境特徵空間 -- 使用在兒童對話中訓練的LMs。我們具體提出問題:"訓練曝光的特性如何促進新動詞對(未建模的)替代結構的概括?" 為了回答這個問題,我們系統地變化新交互賓格動詞出現的曝光語境,涉及主題和接受者的特性,然後分析LMs在未建模的交互賓格結構中使用新動詞的情況。我們發現LMs複製了兒童CDG的已知模式,作為探索新假設的先決條件。隨後的模擬揭示了新動詞曝光語境特性對LMs的CDG的微妙作用。我們發現當曝光語境的第一個動詞後論元是代詞、確定詞、簡短的,並符合曝光交互賓格的典型生命力期望時,CDG會得到促進。這些模式是交互賓格中的和諧對齊的特徵,其中具有較高談話突出性等級的特徵論元傾向於在其他論元之前出現。這產生了一個新的假設,即CDG在曝光語境的特性 -- 特別是其第一個動詞後論元 -- 和諧對齊的程度越高,CDG就越容易。我們最後提出未來可以在兒童中測試這個假設的實驗。