每日精選AI研究論文及翻譯
我們介紹 InternLM-XComposer-2.5(IXC-2.5),這是一個多才多藝的大視野語言模型,支援長文本輸入和輸出。IXC-2.5在各種文本-圖像理解和合成應用中表現出色,僅使用 7B LLM 後端即實現了 GPT-4V 級別的能力。通過使用 24K 交錯的圖像-文本上下文進行訓練,它可以通過 RoPE 外推擴展到 96K 的長上下文。這種長上下文能力使 IXC-2.5 在需要廣泛輸入和輸出上下文的任務中表現卓越。與其之前的 2.0 版本相比,InternLM-XComposer-2.5 在視覺-語言理解方面有三個主要升級:(1)超高分辨率理解,(2)細粒度視頻理解,以及(3)多輪多圖像對話。除了理解,IXC-2.5 通過使用額外的 LoRA 參數擴展到兩個引人注目的應用,用於文本-圖像合成:(1)製作網頁和(2)撰寫高質量的文本-圖像文章。IXC-2.5 在 28 個基準測試上進行了評估,在 16 個基準測試中優於現有的開源最先進模型。它還在 16 個關鍵任務中超越或與 GPT-4V 和 Gemini Pro 競爭激烈。InternLM-XComposer-2.5 可在 https://github.com/InternLM/InternLM-XComposer 公開獲取。
為了讓新的表格式機器學習(ML)研究能夠順利應用,具有密切反映下游應用場景的基準測試至關重要。本研究檢視現有的表格式基準測試,發現兩個在學術界可獲得的資料集中不足以代表產業級表格式資料的共同特點。首先,表格式資料在現實世界的部署場景中往往會隨著時間變化。這影響模型性能,需要基於時間的訓練和測試分割以進行正確的模型評估。然而,現有的學術界表格式資料集往往缺乏時間戳記元數據以支持此類評估。其次,在生產環境中,相當一部分資料集來自於大量的資料獲取和特徵工程流程。對於每個特定資料集,這可能對預測特徵、無信息特徵和相關特徵的絕對和相對數量產生不同影響,進而影響模型選擇。為填補學術基準測試中上述缺口,我們引入 TabReD -- 一組包含從金融到食品遞送服務等多個領域的八個產業級表格式資料集。我們在 TabReD 提供的功能豐富、隨時間演變的資料環境中評估大量表格式 ML 模型。我們展示基於時間分割資料進行評估導致不同方法排名,相較於學術基準測試中更常見的隨機分割評估。此外,在 TabReD 資料集中,類似 MLP 的架構和 GBDT 展現最佳結果,而更複雜的 DL 模型尚未證明其有效性。
無分類器引導(CFG)已成為增強條件擴散模型質量的標準方法。然而,使用CFG需要訓練一個無條件模型與主要擴散模型並行,或者修改訓練程序,定期插入空條件。對於無條件模型,CFG的擴展也不明確。在本文中,我們重新審視了CFG的核心原則,並引入了一種新方法,獨立條件引導(ICG),它提供了CFG的好處,而無需任何特殊的訓練程序。我們的方法簡化了條件擴散模型的訓練過程,並且還可以應用於對任何預先訓練的條件模型進行推斷。此外,通過利用所有擴散網絡中編碼的時間步信息,我們提出了一種CFG的擴展,稱為時間步引導(TSG),可以應用於任何擴散模型,包括無條件模型。我們的引導技術易於實施,並且具有與CFG相同的採樣成本。通過廣泛的實驗,我們證明了ICG在各種條件擴散模型上與標準CFG的性能相匹配。此外,我們展示了TSG通過提高生成質量,類似於CFG的方式,而無需依賴任何條件信息。
在多模式大型語言模型(MLLM)中,視覺投影器在視覺編碼器和大型語言模型(LLM)之間扮演著重要的橋樑角色。通常,MLLM採用簡單的多層感知器(MLP)通過一對一轉換來保留所有視覺上下文。然而,處理高分辨率圖像時,視覺標記是冗餘的並且可能會大幅增加,嚴重影響MLLM的效率。一些最近的研究引入了重新取樣器或摘要器來減少生成的視覺標記數量。不幸的是,它們無法捕捉更細微的細節,並削弱了MLLM的視覺推理能力。在這項工作中,我們提出了一種新穎的視覺投影器,採用從粗到細的方案,將豐富的特徵注入以生成簡化的視覺標記。具體而言,我們首先將視覺特徵插值為低分辨率點查詢,提供整體視覺表示作為基礎。然後,我們引入了一個區域到點的注入模塊,利用高分辨率、多級區域為細粒度參考鍵和值,使其完全被相應的局部上下文區域吸收。這一步有效地更新了粗糙的點查詢,將其轉換為豐富的查詢,以進行後續的LLM推理。大量實驗表明,我們的方法將視覺標記壓縮了75%~89%,同時在各種基準測試中實現了可比甚至更好的性能,並具有更高的效率。源代碼可在https://github.com/CircleRadon/TokenPacker 找到。
最近,音訊生成任務引起了相當多的研究興趣。精確的時間可控性對將音訊生成與實際應用整合至關重要。在這項工作中,我們提出了一個名為PicoAudio的時間可控音訊生成框架。PicoAudio通過量身定制的模型設計,整合時間信息來引導音訊生成。它利用數據爬取、分割、過濾以及模擬細粒度時間對齊的音訊文本數據。主客觀評估均顯示,PicoAudio在時間戳和事件發生頻率可控性方面遠遠超越了當前最先進的生成模型。生成的樣本可在演示網站https://PicoAudio.github.io 上找到。
擴散模型(DMs)已經徹底改革了生成式學習。它們利用擴散過程將數據編碼為簡單的高斯分佈。然而,將複雜、可能是多峰的數據分佈編碼為單一連續高斯分佈,可以說是一個不必要地具有挑戰性的學習問題。我們提出了離散-連續潛變量擴散模型(DisCo-Diff),通過引入互補的離散潛變量,來簡化這個任務。我們使用可學習的離散潛變量來擴充DMs,這些潛變量是由編碼器推斷出來的,並且對DM和編碼器進行端到端的訓練。DisCo-Diff不依賴預先訓練的網絡,使得這個框架具有普遍應用性。透過減少DM生成ODE的曲率,離散潛變量顯著簡化了學習DM的復雜噪聲到數據的映射。另外,一個自回歸變壓器模型了離散潛變量的分佈,這是一個簡單的步驟,因為DisCo-Diff只需要少量具有小碼本的離散變量。我們在玩具數據、幾個圖像合成任務以及分子對接上驗證了DisCo-Diff,並發現引入離散潛變量一致地提高了模型性能。例如,DisCo-Diff在具有ODE取樣器的類別條件ImageNet-64/128數據集上實現了最先進的FID分數。
大型語言模型(LLMs)以其出色的推理能力、泛化能力和在不同領域中的流暢度而聞名,為增強與語音相關任務的潛在途徑。本文專注於將僅解碼器的LLMs整合到語音轉文字翻譯(S2TT)任務中。我們提出了一種僅解碼器架構,使LLM能夠直接處理編碼的語音表示並生成文本翻譯。此外,我們研究了不同參數高效微調技術和任務制定的影響。我們的模型在未使用專有數據訓練的模型中在CoVoST 2和FLEURS上實現了最先進的性能。我們還進行分析來驗證我們提出的模型設計選擇,並為LLMs整合到S2TT中帶來見解。
大型語言模型(LLMs)容易受到越獄攻擊的威脅,即引發有害或一般不允許的輸出的方法。安全措施被開發並評估其在防禦越獄攻擊方面的有效性,表明安全等同於健壯性的信念。我們主張目前的防禦機制,如輸出過濾器和對齊微調,基本上是不足以確保模型安全的,並將繼續如此。這些防禦措施未能解決由雙重意圖查詢和組合無害輸出以實現有害目標所產生的風險。為了解決這一關鍵缺口,我們引入了一個名為推論對手的信息理論威脅模型,該對手利用模型輸出中的不允許信息洩漏來實現惡意目標。我們將這些對手與通常研究的只尋求迫使受害模型生成特定不允許輸出的安全對手區分開來。我們展示了通過問題分解和回應聚合自動化推論對手的可行性。為了提供安全保證,我們為審查機制定義了一個信息審查標準,限制不允許信息的洩漏。我們提出了一種防禦機制,確保這種限制,並揭示了一種固有的安全效用平衡。我們的工作首次在理論上深入理解了釋放安全LLMs所需的要求以及相應的效用成本。
現代語言模型(LM)中已被證實存在的一個普遍問題是位置偏差,即模型根據給定上下文中的位置優先處理內容。這種偏差通常導致意外的模型失敗,損害各種應用中的性能、韌性和可靠性。我們的機械分析將位置偏差歸因於幾乎所有最先進的LM中使用的兩個組件:因果關注和相對位置編碼。具體而言,我們發現因果關注通常會使模型偏好遠處的內容,而像RoPE這樣的相對位置編碼則根據檢索增強問答(QA)的分析偏好附近的內容。此外,我們對目標檢測的實證研究顯示,位置偏差也存在於視覺語言模型(VLM)中。 基於上述分析,我們提出以零訓練方式消除因不同輸入片段順序(例如LM作為評判中的選項、QA中檢索的文檔)引起的位置偏差。我們的方法將因果關注改為片段之間的雙向關注,並利用模型關注值來決定片段的相對順序,而不是使用輸入提示中提供的順序,從而實現片段級的位置不變推理(PINE)。通過消除位置偏差,模型在存在廣泛位置偏差的下游任務中(例如LM作為評判和檢索增強QA)實現更好的性能和可靠性。 值得注意的是,當適應LM以評估推理對時,PINE尤其有用:在大多數情況下,它始終提供8至10個百分點的性能增益,並使Llama-3-70B-Instruct在RewardBench推理子集上的表現甚至優於GPT-4-0125-preview。