每日精選AI研究論文及翻譯
最近的研究提出了線性表示假說:語言模型通過在激活空間中操作概念(“特徵”)的一維表示來執行計算。相反,我們探討一些語言模型表示是否可能天生是多維的。我們首先通過制定嚴格的不可約多維特徵定義來開始,該定義基於它們是否可以分解為獨立或不共現的低維特徵。受這些定義的啟發,我們設計了一種可擴展的方法,該方法使用稀疏自編碼器自動發現GPT-2和Mistral 7B中的多維特徵。這些自動發現的特徵包括引人注目的可解釋示例,例如代表一周的日子和一年的月份的圓形特徵。我們識別了在這些確切圓形特徵用於解決涉及一周的模數算術和一年的月份的計算問題的任務。最後,我們通過對Mistral 7B和Llama 3 8B進行干預實驗,提供證據表明這些圓形特徵確實是這些任務中的計算基本單元,並且通過將這些任務的隱藏狀態分解為可解釋的組件,發現進一步的圓形表示。
像 Lean 這樣的證明助手已經徹底改變了數學證明的驗證,確保高準確性和可靠性。儘管大型語言模型(LLMs)在數學推理方面顯示出潛力,但它們在正式定理證明方面的進展受到訓練數據的不足所阻礙。為了解決這個問題,我們提出了一種方法,通過高中和大學水平的數學競賽問題生成廣泛的 Lean 4 證明數據。這種方法涉及將自然語言問題轉化為正式陳述,過濾掉低質量的陳述,並生成證明以創建合成數據。在對這個包含了 800 萬個帶有證明的正式陳述的合成數據集上對 DeepSeekMath 7B 模型進行微調後,我們的模型在 Lean 4 miniF2F 測試中以 64 個樣本達到了 46.3% 的整個證明生成準確率,累計達到了 52%,超過了基準 GPT-4 的 23.0%(64 個樣本)和樹搜索強化學習方法的 41.0%。此外,我們的模型成功證明了 Lean 4 正式國際數學奧林匹亞(FIMO)基準中的 148 個問題中的 5 個,而 GPT-4 則無法證明任何一個。這些結果展示了利用大規模合成數據來增強LLMs中定理證明能力的潛力。合成數據集和模型將提供以促進這一前景廣闊的領域的進一步研究。
儘管擴散模型在影片生成和編輯方面取得了顯著進展,實現準確且局部化的影片編輯仍然是一個重大挑戰。此外,大多數現有的影片編輯方法主要集中在改變視覺內容,對於動作編輯的研究有限。本文提出了一種新的嘗試,即重新製作影片(ReVideo),與現有方法有所不同,它通過指定內容和動作,實現對特定區域進行精確的影片編輯。通過修改第一幀來實現內容編輯,而基於軌跡的運動控制提供了直觀的用戶交互體驗。ReVideo解決了一個新的任務,涉及內容和運動控制之間的耦合和訓練不平衡。為了應對這一挑戰,我們制定了一個三階段的訓練策略,從粗糙到精細逐步解耦這兩個方面。此外,我們提出了一個時空自適應融合模塊,以在各種採樣步驟和空間位置上整合內容和運動控制。大量實驗表明,我們的ReVideo在幾個準確的影片編輯應用上表現出有希望的性能,即(1)在保持運動恆定的情況下局部更改影片內容,(2)保持內容不變並自定義新的運動軌跡,(3)修改內容和運動軌跡。我們的方法還可以無縫擴展這些應用到多區域編輯,而無需特定訓練,展示了其靈活性和韌性。
在多模式大型語言模型(MLLMs)中,我們是否充分發揮了視覺編碼器的潛力?MLLMs在多模式理解方面最近取得的優異表現引起了學術界和工業界的廣泛關注。在當前的MLLM競爭中,焦點似乎主要集中在語言方面。我們目睹了更大、更高質量的指導數據集的崛起,以及更大型LLMs的參與。然而,對MLLMs使用的視覺信號很少受到關注,通常被認為是凍結視覺編碼器提取的最終高級特徵。在本文中,我們介紹了密集連接器 - 一種簡單、有效且即插即用的視覺語言連接器,通過利用多層視覺特徵,極大地增強了現有的MLLMs,而額外的計算負擔則極小。此外,我們的模型僅通過圖像訓練,在視頻理解方面展示出卓越的零樣本能力。在各種視覺編碼器、圖像分辨率、訓練數據集規模、LLMs的不同大小(2.7B->70B)以及MLLMs的不同架構(例如LLaVA和Mini-Gemini)之間的實驗結果驗證了我們方法的多功能性和可擴展性,在19個圖像和視頻基準測試中實現了最先進的性能。我們希望這項工作將提供寶貴的經驗,並為未來MLLM發展提供基本模塊。
潛在擴散模型(LDMs)的進步已經徹底改變了高解析度圖像生成,但是這些系統核心的自編碼器的設計空間仍然未被充分探索。在本文中,我們介紹了LiteVAE,這是一個針對LDMs的自編碼器家族,利用2D離散小波變換來提高可擴展性和計算效率,而不會犧牲輸出質量。我們還研究了LiteVAE的訓練方法和解碼器架構,並提出了幾個增強措施,以改善訓練動態和重建質量。我們的基本LiteVAE模型在當前LDMs中與已建立的VAEs相匹配,同時減少了六倍的編碼器參數,從而實現更快的訓練速度和更低的GPU內存需求,而我們更大的模型在所有評估指標(rFID、LPIPS、PSNR和SSIM)上均優於具有相同複雜性的VAEs。
加速大型語言模型(LLMs)的推論是人工智慧中的一個重要挑戰。本文介紹了分佈式推測推論(DSI),這是一種新穎的分佈式推論算法,可以證明比推測推論(SI)[leviathan2023fast、chen2023accelerating、miao2023specinfer]和傳統的自回歸推論(非SI)更快。與其他SI算法一樣,DSI適用於凍結的LLMs,無需訓練或架構修改,並保留目標分佈。 先前有關SI的研究已經證明了實證加速(與非SI相比),但需要一個快速準確的起草LLM。在實踐中,現成的LLMs通常沒有足夠快速和準確的匹配起草者。我們展示了一個差距:當使用較慢或不夠準確的起草者時,SI比非SI更慢。我們通過證明DSI比SI和非SI更快,無論使用任何起草者,來彌合這一差距。通過協調目標和起草者的多個實例,DSI不僅比SI更快,而且支持無法通過SI加速的LLMs。 我們的模擬顯示在實際環境中現成的LLMs的加速效果:DSI比SI快1.29-1.92倍。
擴散模型在圖像生成方面取得了巨大成功,其基礎從 U-Net 演變為 Vision Transformers。然而,Transformer 的計算成本與 token 數量的平方成正比,導致在處理高分辨率圖像時面臨重大挑戰。在本研究中,我們提出了擴散瑪巴(DiM),將基於狀態空間模型(SSM)的 Mamba 的效率與擴散模型的表現力相結合,以實現高效的高分辨率圖像合成。為了解決 Mamba 無法泛化到 2D 信號的挑戰,我們進行了多個架構設計,包括多方向掃描、在每行和每列末尾使用可學習的填充 token,以及輕量級的局部特徵增強。我們的 DiM 架構實現了高分辨率圖像的推理效率。此外,為了進一步提高 DiM 在高分辨率圖像生成方面的訓練效率,我們研究了“由弱到強”的訓練策略,即在低分辨率圖像(256x256)上預訓練 DiM,然後在高分辨率圖像(512x512)上進行微調。我們進一步探索了無需訓練的上採樣策略,使模型能夠生成更高分辨率的圖像(例如1024x1024和1536x1536)而無需進行進一步微調。實驗證明了我們 DiM 的有效性和效率。
二階訓練方法比梯度下降具有更好的收斂特性,但由於其計算開銷,在大規模訓練中很少被實際使用。這可以被視為硬體限制(由數位電腦所施加)。在這裡,我們展示自然梯度下降(NGD),一種二階方法,當使用適當的硬體時,每次迭代的計算複雜度可以與一階方法相似。我們提出了一種新的混合數位-類比算法,用於訓練神經網絡,在某些參數範圍內等效於NGD,但避免了代價高昂的線性系統求解。我們的算法利用了類比系統在平衡時的熱力學特性,因此需要一個類比熱力學計算機。訓練發生在混合數位-類比迴圈中,梯度和Fisher信息矩陣(或任何其他半正定曲率矩陣)在特定時間間隔內被計算,同時類比動態發生。我們在分類任務和語言模型微調任務上,數值上展示了這種方法優於最先進的數位一階和二階訓練方法的優越性。
最近的研究方法展示了將擴散模型提煉為高效的單步生成器的潛力。其中,分布匹配提煉(Distribution Matching Distillation,DMD)產生與其教師在分布上匹配的單步生成器,而不要求與其教師的採樣軌跡一一對應。然而,為確保穩定的訓練,DMD需要使用大量由教師通過多步驟的確定性取樣器生成的噪聲-影像對進行計算的額外回歸損失。這對於大規模文本到圖像合成來說成本高昂,並限制了學生的質量,使其與教師的原始採樣路徑過於密切相關。我們介紹了DMD2,一組技術來消除這種限制並改善DMD訓練。首先,我們消除了回歸損失和昂貴數據集構建的需求。我們展示由於假評論者未準確估計生成樣本的分布而導致的不穩定性,並提出了雙時間尺度更新規則作為補救措施。其次,我們將生成對抗網絡(GAN)損失整合到提煉過程中,區分生成的樣本和真實圖像。這使我們能夠在真實數據上訓練學生模型,減輕教師模型對真實分數估計的不完美性,並提高質量。最後,我們修改了訓練程序以實現多步驟採樣。我們在這種情況下識別並解決了訓練-推理輸入不匹配的問題,通過在訓練時模擬推理時間生成器樣本。綜合而言,我們的改進在單步圖像生成中設立了新的基準,ImageNet-64x64的FID分數為1.28,在零樣本COCO 2014上為8.35,優於原始教師,儘管推理成本減少了500倍。此外,我們展示了我們的方法可以通過提煉SDXL生成百萬像素圖像,展示了在少步驟方法中出色的視覺質量。
近年來,隨著逼真的生成結果和廣泛的個性化應用,基於擴散的生成模型在視覺和音頻生成領域引起了廣泛關注。與在text2image或text2audio生成方面取得的相當大進展相比,audio2visual或visual2audio生成方面的研究進展相對緩慢。最近的音視頻生成方法通常倚賴龐大的大型語言模型或可組合的擴散模型。本文不是設計另一個龐大的模型來進行音視頻生成,而是退一步展示了一種簡單且輕量級的生成Transformer,在多模態生成中尚未得到充分研究,可以在image2audio生成上取得出色的結果。這個Transformer在離散音頻和視覺向量量化的GAN空間中運作,並以遮罩去噪的方式進行訓練。訓練後,無需分類器指導即可即插即用,實現更好的性能,無需任何額外的訓練或修改。由於Transformer模型是模態對稱的,因此也可以直接用於audio2image生成和共同生成。在實驗中,我們展示了我們的簡單方法超越了最近的image2audio生成方法。生成的音頻樣本可在以下鏈接找到:https://docs.google.com/presentation/d/1ZtC0SeblKkut4XJcRaDsSTuCRIXB3ypxmSi7HTY3IyQ
多模式大型語言模型(MLLMs)被廣泛認為在探索人工通用智能(AGI)方面至關重要。MLLMs 的核心在於其實現跨模態對齊的能力。為了實現這一目標,當前的 MLLMs 通常遵循兩階段訓練範式:預訓練階段和指導微調階段。儘管取得成功,這些模型在對齊能力建模方面存在一些缺陷。首先,在預訓練階段,模型通常假設所有圖像-文本對都是均勻對齊的,但實際上不同圖像-文本對之間的對齊程度是不一致的。其次,目前用於微調的指導中包含各種任務,不同任務的指導通常需要不同水平的對齊能力,但先前的 MLLMs 忽略了這些差異化的對齊需求。為了應對這些問題,我們提出了一種新的多模式大型語言模型 AlignGPT。在預訓練階段,我們不再將所有圖像-文本對一視同仁,而是為不同的圖像-文本對分配不同水平的對齊能力。然後,在指導微調階段,我們自適應地結合這些不同水平的對齊能力,以滿足不同指導的動態對齊需求。大量實驗結果顯示,我們的模型在 12 個基準測試上取得了競爭性的表現。
將擴散模型定制化以從用戶提供的參考圖像生成保持身份的圖像是一個引人入勝的新問題。目前的方法通常需要在大量特定領域的圖像上進行訓練,以實現身份保留,這缺乏跨不同用例的靈活性。為了解決這個問題,我們利用分類器引導,這是一種無需訓練的技術,用現有的分類器引導擴散模型進行個性化圖像生成。我們的研究表明,基於最近的矯正流框架,普通分類器引導在需要特殊分類器方面的主要限制可以通過一個簡單的固定點解決方案來解決,從而允許使用現成的圖像鑑別器進行靈活的個性化。此外,當錨定到參考流軌跡時,其求解過程被證明是穩定的,具有收斂保證。所得方法應用於具有不同現成圖像鑑別器的矯正流上,為人臉、真人主題和某些對象提供了有利的個性化結果。代碼可在 https://github.com/feifeiobama/RectifID 找到。
我們將多模態Transformer擴展,以包含3D攝影機運動作為生成視頻任務的條件信號。生成式視頻模型變得日益強大,因此研究工作集中在控制這些模型輸出的方法上。我們提議通過在生成的視頻上將虛擬3D攝影機控制條件添加到生成式視頻方法中,條件是在生成的視頻過程中對三維攝影機運動的編碼。結果表明,我們能夠成功控制視頻生成過程中的攝影機,從單幀和攝影機信號開始,並且我們展示了使用傳統計算機視覺方法驗證生成的3D攝影機路徑的準確性。
我們研究了將影像生成模型適應不同數據集的任務,而無需進行微調。為此,我們引入了Semantica,一種基於影像條件的擴散模型,能夠根據條件影像的語義生成影像。Semantica僅在網絡規模的影像對上進行訓練,即接收來自網頁的隨機影像作為條件輸入,並對同一網頁的另一個隨機影像進行建模。我們的實驗突出了預訓練影像編碼器的表達能力,以及實現高質量影像生成所需的基於語義的數據篩選的必要性。一旦訓練完成,它可以通過僅使用該數據集中的影像作為輸入,自適應地生成新影像。我們研究了Semantica在ImageNet、LSUN教堂、LSUN臥室和SUN397上的轉移特性。
神經輻射場(NeRFs)通常難以重建和渲染高度反射的物體,其外觀隨著視角的變化迅速變化。最近的研究改善了NeRF渲染遠處環境光照的詳細反射外觀的能力,但無法合成較近內容的一致反射。此外,這些技術依賴於大型計算昂貴的神經網絡來建模輻射輸出,這嚴重限制了優化和渲染速度。我們提出了一種基於光線追蹤的方法來解決這些問題:我們的模型不是向每條攝像機光線上的點查詢昂貴的神經網絡以獲取出射視角相關輻射,而是從這些點投射反射光線,並通過NeRF表示跟踪它們以渲染特徵向量,然後使用一個小型廉價的網絡將其解碼為顏色。我們展示了我們的模型在合成包含有光澤物體的場景的視圖合成方面優於先前的方法,並且它是唯一一種現有的NeRF方法,可以在現實場景中合成逼真的反射外觀和反射,同時需要與當前最先進的視圖合成模型相當的優化時間。
對於像是閃亮金屬或光澤油漆等具有鏡面特性的物體進行新視角合成仍然是一個重大挑戰。不僅是物體的光澤外觀,還有包括環境中其他物體的反射在內的全局照明效應,都是忠實再現場景所必需的關鍵元素。在本文中,我們提出了神經方向編碼(NDE),這是一種基於視角的外觀編碼方法,用於渲染具有鏡面特性的物體的神經輻射場(NeRF)。NDE將基於特徵網格的空間編碼概念轉移到角度領域,顯著提高了對高頻角度信號進行建模的能力。與先前僅使用角度輸入的編碼函數不同,我們額外地錐追蹤空間特徵,以獲得一種空間變化的方向編碼,這解決了具有挑戰性的互反射效應。對合成和真實數據集進行的大量實驗表明,具有NDE的NeRF模型(1)在鏡面物體的視角合成方面優於當前技術水平,並且(2)可使用小型網絡實現快速(實時)推斷。項目網頁和源代碼可在以下網址找到:https://lwwu2.github.io/nde/。
本文提出了一種低成本且高真實性的雙向遠程系統Tele-Aloha,針對點對點通信場景。與先前的系統相比,Tele-Aloha僅使用四個稀疏的RGB攝像頭、一個消費級GPU和一個自動立體顯示屏,實現高分辨率(2048x2048)、實時(30 fps)、低延遲(小於150毫秒)和穩健的遠程通信。作為Tele-Aloha的核心,我們提出了一種有效的新型視角合成算法,用於上半身。首先,我們設計了一個級聯視差估計器,用於獲得穩健的幾何線索。此外,通過高斯濺射引入了一個神經光柵化器,將潛在特徵投影到目標視角並將其解碼為降低的分辨率。此外,鑒於高質量的捕獲數據,我們利用加權混合機制將解碼後的圖像精煉為2K的最終分辨率。利用世界領先的自動立體顯示和低延遲的虹膜追踪,用戶即使沒有任何可穿戴的頭戴式顯示設備,也能體驗到強烈的立體感。總的來說,我們的遠程系統在現實實驗中展示了共存感,激發了下一代通信技術的靈感。