每日精選AI研究論文及翻譯
隨著預訓練語音識別模型的尺寸增加,將這些大型模型在低延遲或資源受限的環境中運行變得具有挑戰性。在這項工作中,我們利用虛標記技術來建立一個大規模的開源數據集,用於將 Whisper 模型提煉為一個較小的變體,稱為 Distil-Whisper。通過使用簡單的字錯率(WER)啟發式方法,我們僅選擇最高質量的虛標記進行訓練。提煉後的模型速度提高了 5.8 倍,參數減少了 51%,在零-shot轉移設置中,在分布外測試數據上的 WER 只有 1% 的差距。Distil-Whisper 保持了 Whisper 模型對困難聲學條件的韌性,同時在長篇音頻上較不容易出現幻聽錯誤。Distil-Whisper 設計用於與 Whisper 搭配進行推測解碼,實現了 2 倍的加速,同時在數學上確保了與原始模型相同的輸出。為了促進該領域的進一步研究,我們將我們的訓練代碼、推斷代碼和模型公開提供。
LLaVA-Interactive 是一個用於多模態人工智慧互動的研究原型。該系統可以通過接收多模態用戶輸入並生成多模態回應,與人類用戶進行多輪對話。重要的是,LLaVA-Interactive 超越了語言提示,啟用了視覺提示以對齊互動中的人類意圖。LLaVA-Interactive 的開發非常具有成本效益,因為該系統結合了三種預先建立的多模態技能的人工智慧模型,無需額外的模型訓練:LLaVA 的視覺聊天、SEEM 的圖像分割,以及 GLIGEN 的圖像生成和編輯。展示了多種應用場景,以展示 LLaVA-Interactive 的潛力,並激發未來多模態互動系統研究的靈感。
我們展示了如何從擴散模型進行條件生成,以應對製作44.1kHz立體音頻音樂的各種現實任務,並提供取樣時間指導。我們考慮的情境包括音樂音頻的延續、修補和再生,創建兩個不同音樂曲目之間的平滑過渡,以及將期望的風格特徵轉移到現有音頻片段。我們通過在取樣時間應用指導,在一個支持重建和分類損失,或兩者任意組合的簡單框架中實現了這一點。這種方法確保生成的音頻可以與其周圍上下文匹配,或者符合相對於任何適合的預先訓練分類器或嵌入模型指定的類分佈或潛在表示。
我們展示了文本作為一個強大的跨模態界面。與其依賴深度嵌入來將圖像和語言連接為界面表示,我們的方法將圖像表示為文本,從中我們享受到自然語言固有的可解釋性和靈活性。我們使用一個自編碼器,該編碼器使用預先訓練的文本到圖像擴散模型進行解碼。編碼器被訓練為將輸入圖像轉換為文本,然後將其餵入固定的文本到圖像擴散解碼器以重構原始輸入 -- 這一過程我們稱之為去擴散。實驗驗證了去擴散文本代表圖像的精確性和全面性,使其可以被現成的文本到圖像工具和LLM輕鬆接受,用於各種多模態任務。例如,單個去擴散模型可以泛化為為不同的文本到圖像工具提供可轉移的提示,並且通過僅使用少量示例提示大型語言模型,在開放式視覺語言任務上實現了一個新的最先進水平。
近來生成式人工智慧的浪潮引起了前所未有的全球關注,人們對於潛在超越專家人類能力的人工智慧水平感到興奮和擔憂:現在的模型只需幾秒鐘即可產生挑戰甚至超越專家人類能力的輸出。同時,這些模型仍然展示了基本的理解錯誤,這是即使在非專家人類身上也不會預期到的。這給我們帶來了一個明顯的悖論:我們如何調和看似超人類能力與少數人類會犯的錯誤之間的矛盾?在這項工作中,我們提出這種緊張關係反映了當今生成式模型中的智能配置與人類智能之間的分歧。具體而言,我們提出並測試生成式人工智慧悖論假說:生成式模型通過直接訓練以重現類似專家的輸出,獲得了不依賴於並且因此可能超越其理解這些類型輸出的能力。這與人類形成對比,對於人類來說,基本理解幾乎總是在能夠生成專家級輸出之前。我們通過對生成式模型在語言和圖像模式下的生成與理解進行對照實驗,來測試這一假說。我們的結果顯示,儘管模型在生成方面可以超越人類,但在理解能力方面始終遠遠不及人類,並且在生成和理解表現之間的相關性較弱,對對抗性輸入更加脆弱。我們的研究支持了模型的生成能力可能不依賴於理解能力的假說,並呼籲在將人工智慧類比於人類智能時要謹慎。
基於像素的語言模型處理以圖像呈現的文本,這使它們能夠處理任何書寫系統,這使其成為開放詞彙語言建模的一種有前途的方法。然而,最近的方法使用產生大量幾乎等效輸入補丁的文本渲染器,這可能對下游任務不利,因為輸入表示中存在冗餘。在本文中,我們研究了四種在 PIXEL 模型中呈現文本的方法(Rust 等人,2023年),發現簡單的字符二元渲染在句子級任務上帶來了改進的性能,而不會影響標記級或多語言任務的性能。這種新的渲染策略還使得可以僅使用 2200 萬參數來訓練一個與原始 8600 萬參數模型性能相當的更緊湊模型。我們的分析表明,字符二元渲染帶來了一個一致性更好的模型,但存在一個由補丁頻率偏差驅動的非各向同性補丁嵌入空間,突顯了基於圖像補丁和基於標記化的語言模型之間的聯繫。
大型語言模型在生成符合人類需求的程式碼方面表現出色。然而,用自然語言表達的人類需求可能模糊、不完整且含糊不清,這導致大型語言模型誤解人類需求並出現錯誤。更糟糕的是,人類用戶很難精煉需求。為了幫助人類用戶精煉其需求並提高大型語言模型的程式碼生成性能,我們提出了ChatCoder:通過與大型語言模型聊天來精煉需求的方法。我們設計了一種聊天方案,在這種方案中,大型語言模型將引導人類用戶精煉其需求的表達,使其比以前更加精確、明確和完整。實驗表明,ChatCoder大幅提高了現有大型語言模型的性能。此外,ChatCoder優於基於精煉的方法和通過人類回應進行微調的LLMs。
大型語言模型(LLMs)在各種下游任務中展現了令人印象深刻的性能。在訓練這些模型時,越來越傾向於在更大的訓練規模上處理更多的標記,但模型大小相對較小。零冗餘優化器(ZeRO),儘管在傳統的訓練環境中效果顯著,但在應對這種新興範式時面臨著擴展挑戰。為此,我們提出了一個新穎的LLM訓練框架AMSP,該框架對模型狀態進行了細粒度劃分,包括參數(P)、梯度(G)和優化器狀態(OS)。具體來說,AMSP:(1)構建了一個統一的劃分空間,實現了對P、G和OS的獨立劃分策略;(2)融入了一個具有規模感知能力的劃分器,自主搜索最佳劃分策略;(3)設計了一個專用的通信優化器,以確保有效管理由不同劃分策略引起的數據放置差異。我們的評估顯示,AMSP在1024個GPU上實現了高達90.3%的擴展效率。
視覺語言模型(VLMs)是通過人類捕捉的龐大數據訓練而成,模擬了我們對世界的理解。然而,人類對現實的感知並非始終忠實於物理世界,這種被稱為視覺錯覺。這帶出了一個關鍵問題:VLMs是否會像人類一樣產生錯覺,還是能忠實地學習表徵現實?為了探討這個問題,我們建立了一個包含五種類型視覺錯覺的數據集,並制定了四個任務來檢驗最先進的VLMs中的視覺錯覺。我們的研究結果表明,儘管整體對齊性較低,但較大的模型更接近人類感知並更容易受到視覺錯覺的影響。我們的數據集和初步研究結果將促進對人類和機器中的視覺錯覺有更好的理解,並為未來能更好地使人類和機器在感知和交流共享的視覺世界方面提供一個基礎。代碼和數據可在 https://github.com/vl-illusion/dataset 找到。