每日精選AI研究論文及翻譯
我們提出了在多模態大型語言模型(MLLMs)中的「視覺表徵法則」。它揭示了跨模態對齊的組合、視覺表徵中的對應以及MLLM性能之間的強烈相關性。我們使用跨模態對齊和對應分數(AC分數)來量化這兩個因素。通過涉及十三種不同視覺表徵設置的廣泛實驗以及在八個基準測試中的評估,我們發現AC分數與模型性能呈線性相關。通過利用這種關係,我們能夠僅識別並訓練最佳的視覺表徵,而無需每次微調語言模型,從而使計算成本減少了99.7%。
從VisualGLM和CogVLM開始,我們不斷探索VLM以追求增強的視覺語言融合、高效的高分辨率架構,以及更廣泛的模態和應用。在這裡,我們提出CogVLM2家族,這是一代新的視覺語言模型,用於圖像和視頻理解,包括CogVLM2、CogVLM2-Video和GLM-4V。作為圖像理解模型,CogVLM2繼承了視覺專家架構,並在預訓練和後訓練階段提供改進的訓練配方,支持高達1344乘1344像素的輸入分辨率。作為視頻理解模型,CogVLM2-Video將多幀輸入與時間戳集成,並提出自動化的時間基準數據構建。值得注意的是,CogVLM2家族在MMBench、MM-Vet、TextVQA、MVBench和VCGBench等基準測試中取得了最先進的結果。所有模型均在https://github.com/THUDM/CogVLM2和https://github.com/THUDM/GLM-4上開源,有助於推動該領域的發展。
語言模型已被有效應用於建模自然信號,如圖像、視頻、語音和音頻。這些模型的一個關鍵組件是編碼令牌化器,它將高維自然信號壓縮為低維離散令牌。本文介紹了WavTokenizer,相對於先前在音頻領域的SOTA聲學編碼模型,它具有幾個優勢:1)極端壓縮。通過壓縮量化器的層和離散編碼的時間維度,24kHz採樣率的一秒音頻僅需要一個具有40或75個令牌的量化器。2)改善主觀質量。儘管令牌數量減少,WavTokenizer實現了具有傑出UTMOS分數的最先進的重建質量,並且內在包含更豐富的語義信息。具體來說,我們通過設計更廣泛的VQ空間、擴展的上下文窗口、改進的注意網絡,以及引入強大的多尺度鑑別器和反傅立葉變換結構來實現這些結果。我們在語音、音頻和音樂領域進行了廣泛的重建實驗。與最先進的模型相比,WavTokenizer在各種客觀和主觀指標上表現出色。我們還測試了語義信息、VQ利用率和對生成模型的適應性。全面的消融研究確認了WavTokenizer中每個模塊的必要性。相關代碼、演示和預訓練模型可在https://github.com/jishengpeng/WavTokenizer找到。
3D場景重建的進步已將現實世界的2D影像轉換為3D模型,從數百張輸入照片中產生逼真的3D結果。儘管在密集視角重建方案中取得了巨大成功,從不足的拍攝視角中呈現詳細場景仍然是一個不明確的優化問題,通常導致未知區域出現瑕疵和失真。本文提出了ReconX,一種新穎的3D場景重建範式,將模糊的重建挑戰重新定義為時間生成任務。關鍵見解在於利用大型預訓練視頻擴散模型的強大生成先驗進行稀疏視角重建。然而,直接生成的視頻幀往往無法準確保留3D視角一致性。為了解決這個問題,ReconX首先根據有限的輸入視角構建全局點雲,將其編碼為上下文空間作為3D結構條件。在此條件的引導下,視頻擴散模型合成出既保留細節又具有高度3D一致性的視頻幀,確保了從各種視角觀看時場景的一致性。最後,通過一個自信感知的3D高斯擴散優化方案,從生成的視頻中恢復3D場景。在各種真實世界數據集上進行的大量實驗表明,我們的ReconX在質量和泛化能力方面優於最先進的方法。
我們介紹 SAM2Point,這是對於零樣本和可提示的三維分割進行初步探索,將 Segment Anything Model 2 (SAM 2) 進行適應。SAM2Point將任何三維數據解釋為一系列多方向視頻,並利用SAM 2進行三維空間分割,無需進行進一步的訓練或二維至三維投影。我們的框架支持各種提示類型,包括三維點、框和遮罩,並且可以在各種場景中進行泛化,例如三維物體、室內場景、室外環境和原始稀疏的LiDAR。在多個三維數據集上的演示,例如Objaverse、S3DIS、ScanNet、Semantic3D和KITTI,突顯了SAM2Point的強大泛化能力。據我們所知,我們提出了在三維中最忠實的SAM實現,這可能成為未來可提示的三維分割研究的起點。在線演示:https://huggingface.co/spaces/ZiyuG/SAM2Point。代碼:https://github.com/ZiyuGuo99/SAM2Point。
語言模型在解決推理任務方面表現出色;然而,即使是最強大的模型偶爾仍會出現推理錯誤。最近,積極的研究旨在提高推理準確性,特別是通過使用預訓練語言模型來通過多輪提示“自我校正”其錯誤。本文沿著這一研究方向,但專注於理解直接將“錯誤校正”數據納入預訓練階段的有用性。這些數據包括錯誤的解決步驟,緊接著是它們的更正。通過使用合成數學數據集,我們展示了令人鼓舞的結果:這種預訓練數據可以幫助語言模型直接實現更高的推理準確性(即通過簡單的自回歸,而無需多輪提示),相較於在相同量的無錯誤數據上進行預訓練。我們還深入探討了許多細節,例如(1)這種方法與束搜索的區別,(2)如何準備這樣的數據,(3)錯誤標記是否需要屏蔽,(4)所需的錯誤量,(5)這類數據是否可以推遲到微調階段等等。
擴散模型在受控圖像生成方面展現出卓越的能力,進一步激發了對圖像風格轉移的興趣。現有研究主要集中在訓練基於自由的方法(例如圖像反演),這是由於特定數據稀缺所致。在本研究中,我們提出了一個用於生成並自動清理風格化數據三元組的數據構建流程。基於這個流程,我們建立了一個名為IMAGStyle的數據集,這是第一個包含210k圖像三元組的大規模風格轉移數據集,可供社區進行探索和研究。憑藉IMAGStyle,我們提出了一個基於端到端訓練的風格轉移模型CSGO,該模型明確地解耦了內容和風格特徵,採用獨立的特徵注入。統一的CSGO實現了基於圖像驅動的風格轉移、基於文本的風格化合成以及基於文本編輯的風格化合成。大量實驗證明了我們方法在增強圖像生成中風格控制能力方面的有效性。有關更多可視化和源代碼訪問,請查看項目頁面:https://csgo-gen.github.io/。
我們提出了Spann3R,一種從有序或無序圖像集合中進行密集3D重建的新方法。基於DUSt3R範式,Spann3R使用基於Transformer的架構,直接從圖像中回歸出點地圖,而無需任何有關場景或相機參數的先前知識。與DUSt3R不同,後者預測每對圖像的點地圖,每個點地圖都在其本地坐標系中表示,Spann3R可以預測以全局坐標系表示的每個圖像的點地圖,從而消除了基於優化的全局對齊的需求。Spann3R的關鍵思想是管理一個外部空間記憶體,該記憶體學習跟踪所有先前的相關3D信息。然後,Spann3R查詢這個空間記憶體,以在全局坐標系中預測下一幀的3D結構。利用DUSt3R的預訓練權重,並在數據集的子集上進一步微調,Spann3R在各種未見數據集上展現出競爭性的性能和泛化能力,並能夠實時處理有序圖像集合。項目頁面:https://hengyiwang.github.io/projects/spanner
作者身份混淆是一項重要但具有挑戰性的任務,指的是將文本重新編寫,以故意掩蓋作者的身份。目前使用大型語言模型(LLMs)的方法缺乏可解釋性和可控性,通常忽略特定作者的風格特徵,導致整體性能較差。 為了應對這一問題,我們開發了StyleRemix,這是一種適應性和可解釋性的混淆方法,它會干擾原始輸入文本的特定、細粒度的風格元素。StyleRemix 使用預先訓練的低秩適應(LoRA)模塊來重新編寫輸入文本,沿著各種風格軸(例如正式性和長度)進行調整,同時保持低計算成本。在自動和人工評估中,StyleRemix 在各種領域中均優於最先進的基準和更大的LLMs。 此外,我們還發布了AuthorMix,這是一個包含30,000篇高質量長文本的大型數據集,來自14位作者和4個領域,以及DiSC,這是一個包含1,500篇文本的平行語料庫,涵蓋了16個獨特方向上的七個風格軸。
對於表格式數據生成,新穎的機器學習方法通常在規模不符合科學應用所需的小數據集上開發。我們研究了最近提出的在表格式數據上使用 XGBoost 作為擴散和流匹配模型中的函數逼近器的方法,即使在微小數據集上也證明了極高的內存消耗。在這項工作中,我們從工程角度對現有實施進行了批判性分析,並表明這些限制並非是該方法的根本問題;通過更好的實施,它可以擴展到比以前使用的數據集大 370 倍的規模。我們的高效實施還可以將模型擴展到更大的尺寸,我們直接展示這將導致在基準任務上的性能改善。我們還提出了可以進一步改善資源使用和模型性能的算法改進,包括適合生成建模的多輸出樹。最後,我們展示了從實驗粒子物理學中衍生的大型科學數據集的結果,作為快速量能器模擬挑戰的一部分。代碼可在 https://github.com/layer6ai-labs/calo-forest 找到。
許多生物和物理過程可以被建模為隨時間持續演變的互動實體系統,例如通訊細胞或物理粒子的動態。學習這些系統的動態對於預測在新樣本和未見環境中人口的時間演變至關重要。基於流的模型允許在人口層面學習這些動態-它們模擬樣本整個分佈的演變。然而,目前的基於流的模型僅限於單個初始人口和一組預定義描述不同動態的條件。我們認為自然科學中的多個過程必須被表示為概率密度的Wasserstein流形上的向量場。也就是說,任何時間點人口的變化取決於人口本身,這是由於樣本之間的互動。特別是對於個性化醫學非常重要,疾病的發展及其相應的治療反應取決於每位患者特定的細胞微環境。我們提出了元流匹配(MFM),這是一種實際方法,通過攤銷初始人口上的流模型來整合Wasserstein流形上的這些向量場。換句話說,我們使用圖神經網絡(GNN)嵌入樣本人口,並使用這些嵌入來訓練流匹配模型。這使MFM能夠廣泛應用於初始分佈,不同於先前提出的方法。我們展示了MFM在大規模多患者單細胞藥物篩選數據集上改善個別治療反應預測的能力。