每日精選AI研究論文及翻譯
我們介紹了 LlamaGen,這是一個新的圖像生成模型系列,將大型語言模型原創的「下一個標記預測」範式應用到視覺生成領域。這是對於普通自回歸模型(例如 Llama)在視覺信號上沒有歸納偏差的問題,是否可以在適當的擴展下實現最先進的圖像生成性能的肯定回答。我們重新審視了圖像標記器的設計空間、圖像生成模型的可擴展性特性以及它們的訓練數據質量。這次探索的結果包括:(1)一個具有 16 倍採樣比率、0.94 rFID 重建質量和在 ImageNet 基準上使用 97% 碼本的圖像標記器。 (2)一系列從 1.11 億到 31 億參數的類條件圖像生成模型,在 ImageNet 256x256 基準上實現了 2.18 FID,優於流行的擴散模型,如 LDM、DiT。 (3)一個具有 7.75 億參數的文本條件圖像生成模型,通過在 LAION-COCO 和高美學質量圖像上進行兩階段訓練,展示了在視覺質量和文本對齊方面的競爭性性能。 (4)我們驗證了 LLM 服務框架在優化圖像生成模型推理速度方面的有效性,實現了 326% - 414% 的加速。我們釋出所有模型和代碼,以促進視覺生成和多模態基礎模型的開源社區。
語言代理人透過使用工具來精確執行每個步驟來執行複雜任務。然而,大多數現有的代理人都是基於專有模型或設計來針對特定任務,例如數學或多跳問答。我們介紹了 Husky,一個全面的、開源的語言代理人,它學會在統一的行動空間上進行推理,以應對涉及數值、表格和基於知識的推理的各種複雜任務。Husky在兩個階段之間進行迭代:1) 生成下一步行動以解決給定任務,2) 使用專家模型執行該行動並更新當前解決方案狀態。我們確定了一個全面的行動本體論,用於應對複雜任務,並整理高質量數據來訓練執行這些行動的專家模型。我們的實驗表明,Husky在14個評估數據集上優於先前的語言代理人。此外,我們介紹了 HuskyQA,一個新的評估集,用於對語言代理人進行混合工具推理的壓力測試,重點是檢索缺失知識和進行數值推理。儘管使用了 7B 模型,Husky在這些任務上與甚至超越了前沿的語言模型,如 GPT-4,展示了我們全面方法在應對複雜推理問題上的有效性。我們的代碼和模型可在 https://github.com/agent-husky/Husky-v1 找到。
在多模式學習方面的進展,尤其是在視頻理解和生成方面,需要高質量的視頻文本數據集以提高模型性能。Vript通過一個精心標註的語料庫來解決這個問題,其中包含12K個高分辨率視頻,為超過420K個片段提供了詳細、密集且類似腳本的字幕。每個片段都有約145個字的字幕,比大多數視頻文本數據集長10倍以上。與先前數據集中僅記錄靜態內容的字幕不同,我們通過記錄不僅內容,還包括鏡頭操作,如鏡頭類型(中景、特寫等)和鏡頭運動(平移、傾斜等),將視頻字幕增強為視頻腳本。通過利用Vript,我們探索了三種訓練範式,即將更多文本與視頻模態對齊,而不僅僅是片段-字幕對。這導致Vriptor,一個在開源模型中表現優異的視頻字幕模型,與GPT-4V性能相當。Vriptor還是一個強大的模型,能夠端到端生成長視頻的密集且詳細的字幕。此外,我們介紹了Vript-Hard,這是一個由三個比現有基準更具挑戰性的視頻理解任務組成的基準:Vript-HAL是第一個評估視頻LLM中動作和對象幻覺的基準,Vript-RR結合推理和檢索,解決長視頻QA中問題模糊性的基準,而Vript-ERO是一個新任務,用於評估長視頻中事件的時間理解,而不是先前作品中短視頻中的動作。所有代碼、模型和數據集均可在https://github.com/mutonix/Vript 上找到。
在健康領域中,大多數大型語言模型(LLM)的研究主要集中在臨床任務上。然而,移動和可穿戴設備很少整合到這些任務中,卻為個人健康監測提供豐富且長期的數據。在這裡,我們介紹了個人健康大型語言模型(PH-LLM),從Gemini進行了微調,用於理解和推理數值時間序列個人健康數據。我們創建並編輯了三個數據集,用於測試:1)從睡眠模式、身體活動和生理反應中生成個性化見解和建議,2)專業領域知識,以及3)預測自報睡眠結果。對於第一個任務,我們與領域專家合作設計了857個案例研究,以評估睡眠和健身領域中的現實情況。通過對領域特定評分標準的全面評估,我們觀察到Gemini Ultra 1.0和PH-LLM在健身方面與專家表現沒有統計學上的差異,而對於睡眠,專家仍然優於PH-LLM,但通過對PH-LLM進行微調,可以顯著改善運用相關領域知識和個性化信息以獲得睡眠見解。我們使用多項選擇睡眠醫學和健身考試來評估PH-LLM的領域知識。PH-LLM在睡眠方面達到79%,在健身方面達到88%,超過了一組人類專家的平均分數。最後,我們訓練PH-LLM來從可穿戴數據的文本和多模式編碼表示中預測自報睡眠質量結果,並展示多模式編碼是必要的,以匹配專門的區分模型的性能。儘管在關鍵的個人健康領域中需要進一步的開發和評估,但這些結果既展示了Gemini模型的廣泛知識和能力,也顯示了將生理數據情境化為個人健康應用的好處,就像PH-LLM所做的那樣。
基於體積渲染的方法,如NeRF,在從原始影像合成HDR視圖方面表現出色,尤其是在夜間場景中。然而,由於需要密集取樣,它們訓練時間長且無法進行實時渲染。3D高斯飛濺(3DGS)的出現實現了實時渲染和更快的訓練。然而,直接使用3DGS實現基於原始影像的視圖合成具有挑戰性,原因在於其固有缺點:1)在夜間場景中,極低信噪比導致遠景中結構運動估計不準確;2)球面調和(SH)函數的有限表示能力不適用於原始線性色彩空間;以及3)不準確的場景結構妨礙了後續任務,如重新對焦。為了應對這些問題,我們提出了LE3D(用3DGS照亮黑暗)。我們的方法提出了錐散射初始化,以豐富遠景的結構運動估計,並將SH替換為顏色MLP以表示原始線性色彩空間。此外,我們引入了深度失真和近遠規範化,以提高場景結構的準確性,以支持後續任務。這些設計使LE3D能夠實現實時新視角合成、HDR渲染、重新對焦和色調映射更改。與先前基於體積渲染的方法相比,LE3D將訓練時間降低到1%,將渲染速度提高了多達4,000倍,對於2K分辨率影像,FPS方面。代碼和查看器可在https://github.com/Srameo/LE3D 找到。
開發治療方法是一個漫長且昂貴的過程,需要滿足許多不同的標準,而能加快這個過程的人工智慧模型將是無價的。然而,目前大多數人工智慧方法僅涉及一組狹義定義的任務,通常僅限於特定領域。為了彌合這一差距,我們引入了Tx-LLM,這是一個通用的大型語言模型(LLM),從PaLM-2微調而來,它編碼了關於各種治療模式的知識。Tx-LLM使用一組包含709個數據集的訓練集,涵蓋了涵蓋了藥物發現管道各個階段的66個任務。Tx-LLM使用單一權重集同時處理各種化學或生物實體(小分子、蛋白質、核酸、細胞系、疾病)與自由文本,使其能夠預測各種相關屬性,並在43個任務中實現了與最先進性能(SOTA)相競爭的表現,並在22個任務中超越了SOTA。在這些任務中,Tx-LLM特別強大,並在平均分上超越了最佳表現,尤其是在結合分子SMILES表示和文本(如細胞系名稱或疾病名稱)的任務中,可能是由於預訓練期間學習的上下文。我們觀察到在涉及不同藥物類型的任務之間存在積極的轉移證據(例如,涉及小分子的任務和涉及蛋白質的任務),並研究了模型大小、領域微調和提示策略對性能的影響。我們認為Tx-LLM代表了一個重要的步驟,朝著編碼生物化學知識的LLM發展,並可能在整個藥物發現開發管道中擔任端對端工具的未來角色。
本文介紹了 VALL-E 2,這是神經編解碼器語言模型的最新進展,標誌著零-shot文本轉語音合成(TTS)領域的里程碑,首次實現了與人類的相等性。基於其前身 VALL-E,新版本引入了兩個重要的增強功能:重複感知取樣(Repetition Aware Sampling)通過考慮解碼歷史中的標記重複來優化原始核心取樣過程。它不僅穩定了解碼過程,還避免了無限循環問題。分組編碼建模(Grouped Code Modeling)將編碼器代碼組織成群組,以有效縮短序列長度,這不僅提高了推理速度,還應對了長序列建模的挑戰。我們在 LibriSpeech 和 VCTK 數據集上的實驗表明,VALL-E 2 在語音的穩健性、自然性和語者相似性方面超越了先前的系統。它是第一個在這些基準上達到人類相等性的模型。此外,VALL-E 2 在合成高質量語音方面表現一致,即使對於因複雜性或重複短語而傳統上具有挑戰性的句子也是如此。這項工作的優勢可能有助於寶貴的努力,例如為患失語症或肌萎縮性脊髓側索硬化症的人生成語音。VALL-E 2 的演示將發布在 https://aka.ms/valle2。
基於人類偏好的現代對齊技術,如RLHF和DPO,通常採用相對於參考模型的發散正則化來確保訓練穩定性。然而,這常常限制了模型在對齊期間的靈活性,特別是當偏好數據與參考模型之間存在明顯的分布差異時。本文專注於最近的文本到圖像擴散模型的對齊,如Stable Diffusion XL(SDXL),並發現這種“參考不匹配”確實是對齊這些模型時的一個重要問題,原因在於視覺模態的非結構化特性:例如,對特定風格方面的偏好可能很容易引起這種差異。受到這一觀察的啟發,我們提出了一種新穎且記憶友好的擴散模型偏好對齊方法,不依賴任何參考模型,稱為邊緣感知偏好優化(MaPO)。MaPO同時最大化了偏好和非偏好圖像集之間的可能性邊緣,以及偏好集的可能性,同時學習一般風格特徵和偏好。為了評估,我們引入了兩個新的成對偏好數據集,其中包括來自SDXL的自生成圖像對,模擬參考不匹配的各種情況,Pick-Style和Pick-Safety。我們的實驗證實,MaPO在Pick-Style和Pick-Safety以及與Pick-a-Pic v2一起使用時可以顯著改善對齊,超越基本的SDXL和其他現有方法。我們的代碼、模型和數據集通過https://mapo-t2i.github.io 公開提供。
大型語言模型(LLMs)在語言任務上表現出色,但在資源受限設備上部署時面臨挑戰,原因是其龐大的參數和對密集乘法的依賴,導致高內存需求和延遲瓶頸。位移和加法重新參數化提供了一個有前途的解決方案,通過在LLM的注意力和多層感知器(MLP)層中將昂貴的乘法替換為硬件友好的基元。然而,目前的重新參數化技術需要從頭開始訓練或進行完整的參數微調以恢復準確性,這對LLMs來說是資源密集型的。為了解決這個問題,我們提出了通過後訓練位移和加法重新參數化來加速預訓練的LLMs,創建高效的無乘法模型,稱為ShiftAddLLM。具體來說,我們將每個權重矩陣量化為與分組比例因子配對的二進制矩陣。相關的乘法被重新參數化為(1)激活和比例因子之間的位移和(2)根據二進制矩陣的查詢和添加。為了減少準確性損失,我們提出了一種多目標優化方法,以最小化權重和輸出激活重新參數化錯誤。此外,基於各層對重新參數化的敏感性不同,我們制定了一種自動位分配策略,進一步減少內存使用和延遲。對五個LLM系列和八個任務的實驗一致驗證了ShiftAddLLM的有效性,與3位和2位的最具競爭力的量化LLMs相比,在可比或更低的延遲下實現了平均困惑度提高了5.6和22.7個點,原始LLMs的內存和能源減少超過80%。代碼和模型可在https://github.com/GATECH-EIC/ShiftAddLLM找到。
人類如何有效且高效地獲取圖像一直是一個長期存在的問題。一個典型的解決方案是從現有數據庫中根據文本查詢進行文本到圖像檢索;然而,這種有限的數據庫通常缺乏創造力。相比之下,最近在文本到圖像生成方面取得的突破使得產生花俏且多樣化的視覺內容成為可能,但在合成知識密集型圖像方面面臨挑戰。在這項工作中,我們重新思考了文本到圖像生成和檢索之間的關係,並提出了一個統一的框架,放在多模態大型語言模型(MLLMs)的背景下。具體來說,我們首先探索了MLLMs的內在區分能力,並引入了一種生成式檢索方法,以無需訓練的方式進行檢索。隨後,我們以自回歸生成方式統一了生成和檢索,並提出了一個自主決策模塊,以選擇在生成和檢索的圖像中選擇最佳匹配的圖像作為對文本查詢的響應。此外,我們構建了一個名為TIGeR-Bench的基準,其中包括創意和知識密集領域,以標準化統一文本到圖像生成和檢索的評估。在TIGeR-Bench和兩個檢索基準,即Flickr30K和MS-COCO上的廣泛實驗結果證明了我們提出的方法的優越性和有效性。
現有的可重燈式視角合成方法是基於逆向渲染,利用一組物體在未知照明下的影像來恢復一個3D表示,該表示可以在目標照明下從新視角進行渲染。這些方法試圖將解釋輸入影像的物體幾何形狀、材料和照明分離開來。此外,通常通過可微分蒙特卡羅渲染進行優化,但這種方法脆弱且計算成本高昂。在本研究中,我們提出了一種更簡單的方法:首先使用一個受照明條件影響的影像擴散模型對每個輸入影像進行重燈,然後使用這些重燈影像重建神經輻射場(NeRF),從中在目標照明下渲染新視角。我們展示了這種策略出奇地具有競爭力,並在多個重燈基準測試中取得了最先進的結果。請參閱我們的項目頁面:https://illuminerf.github.io/。
將大型潛在擴散模型(LDMs)提煉成易於抽樣的模型正吸引越來越多的研究興趣。然而,現有方法大多面臨一個困境,要麼(i)依賴於多個個別提煉模型以滿足不同的抽樣預算,要麼(ii)犧牲生成質量,僅使用有限(例如2-4)和/或中等(例如5-8)的抽樣步驟。為了應對這些問題,我們將最近的多步一致性提煉(MCD)策略擴展到具有代表性的LDMs,建立了多步潛在一致性模型(MLCMs)方法,用於低成本高質量的圖像合成。MLCM作為統一模型,適用於各種抽樣步驟,這是由於MCD的潛力。我們進一步通過一個漸進式訓練策略來增強MCD,以加強分段間的一致性,從而提升少步生成的質量。我們將教師模型的抽樣軌跡狀態作為MLCM的訓練數據,以提高高質量訓練數據的要求,並彌合提煉模型的訓練和推斷之間的差距。MLCM與偏好學習策略兼容,以進一步提高視覺質量和美感吸引力。從實證角度看,MLCM可以僅使用2-8個抽樣步驟生成高質量、令人愉悅的圖像。在MSCOCO-2017 5K基準測試中,從SDXL提煉的MLCM在僅使用4個步驟時獲得了33.30的CLIP分數、6.19的美學分數和1.20的圖像獎勵,遠遠超過了4步LCM [23]、8步SDXL-Lightning [17]和8步HyperSD [33]。我們還展示了MLCM在包括可控生成、圖像風格轉移和中文到圖像生成等應用中的多功能性。
我們提出了ExtraNeRF,一種用於擴展神經輻射場(NeRF)處理的視角範圍的新方法。我們的主要想法是利用NeRF來建模特定場景的細節,同時利用擴散模型來對我們觀察到的數據進行外推。一個關鍵要素是跟蹤能見度,以確定場景的哪些部分尚未被觀察到,並專注於使用擴散模型一致地重建這些區域。我們的主要貢獻包括一個基於能見度的擴散式修補模組,通過對輸入影像進行微調,產生一個具有中等質量(通常模糊)修補區域的初始NeRF,然後通過第二個擴散模型對輸入影像進行訓練,以一致地增強修補過的影像,顯著地使其更加清晰。我們展示了高質量的結果,可以在少量(通常為六個或更少)輸入視角之外進行外推,有效地超越NeRF的外部重建,並對原始觀看體積內的新解蔽區域進行修補。我們在定量和定性上與相關工作進行比較,並展示了相對於先前技術的顯著增益。
我們提出了一種新穎的方法,用於從多視角圖像重建3D網格。我們的方法受到大型重建模型(如LRM)的啟發,該模型使用基於Transformer的三平面生成器和在多視角圖像上訓練的神經輻射場(NeRF)模型。然而,在我們的方法中,我們引入了幾個重要的修改,使我們能夠顯著提高3D重建質量。首先,我們檢查了原始LRM架構並找到了幾個缺點。隨後,我們對LRM架構進行了相應的修改,這些修改導致了改進的多視角圖像表示和更高效的訓練。其次,為了改善幾何重建並實現全圖像分辨率的監督,我們以可微分的方式從NeRF場中提取網格,並通過網格渲染微調NeRF模型。這些修改使我們能夠在2D和3D評估指標上實現最先進的性能,例如在Google掃描對象(GSO)數據集上達到28.67的PSNR。儘管取得了優異的結果,我們的前向模型仍然難以重建複雜的紋理,例如資產上的文本和肖像。為了解決這個問題,我們引入了一個輕量級的每個實例紋理細化程序。該程序通過僅使用4秒內的輸入多視角圖像,微調三平面表示和NeRF顏色估計模型在網格表面上。這種細化將PSNR提高到29.79,實現了對複雜紋理(如文本)的忠實重建。此外,我們的方法還支持各種下游應用,包括文本或圖像到3D生成。