每日精選AI研究論文及翻譯
在這份技術報告中,我們提出了 ChemVLM,這是首個針對化學領域而設計的開源多模態大型語言模型,旨在解決化學圖像理解與文本分析之間的不相容性。我們基於 VIT-MLP-LLM 架構構建了這個模型,並利用 ChemLLM-20B 作為基礎大型模型,賦予我們的模型在理解和應用化學文本知識方面強大的能力。此外,我們採用 InternVIT-6B 作為強大的圖像編碼器。我們從化學領域精心挑選了高質量的數據,包括分子、反應方程式和化學考試數據,並將其編制成雙語多模態問答數據集。我們在多個開源基準測試和三個自定義評估集上測試了我們模型的性能。實驗結果表明,我們的模型取得了出色的表現,在六個任務中的五個中取得了最先進的結果。我們的模型可以在 https://huggingface.co/AI4Chem/ChemVLM-26B 找到。
文字轉圖像模型是圖像創建的強大工具。然而,生成過程類似擲骰子,使得難以實現一幅完全滿足用戶需求的圖像。本文提出了一個框架,通過從生成圖像的各個部分合成圖像,從而創建所需的圖像,本質上形成一個生成式拼貼。給定一堆由ControlNet生成的圖像,這些圖像使用相同的輸入條件和不同的種子,我們讓用戶使用筆劃界面從生成結果中選擇所需的部分。我們引入了一種新技術,該技術接受用戶的筆劃,使用基於擴散特徵空間的圖形優化對生成的圖像進行分割,然後通過一種新的特徵空間混合方法合成分割區域。我們的方法在合成時忠實地保留了用戶選擇的區域,使它們和諧地組合在一起。我們展示了我們靈活框架可用於許多應用,包括生成新的外觀組合,修復不正確的形狀和瑕疵,以及改善提示對齊。我們展示了每個應用的引人注目的結果,並證明我們的方法優於現有的圖像混合方法和各種基準。
本文介紹了Aquila2系列,包括具有70、34和7十億參數大小的多種雙語模型。這些模型是基於一個名為HeuriMentor(HM)的創新框架進行訓練的,該框架提供了關於模型收斂的實時見解,增強了訓練過程和數據管理。HM系統包括自適應訓練引擎(ATE)、訓練狀態監控器(TSM)和數據管理單元(DMU),可精確監控模型的訓練進度,實現數據分發的高效優化,從而提高訓練效果。廣泛的評估顯示,Aquila2模型系列在英文和中文基準測試上表現出色。具體來說,當量化為Int4時,Aquila2-34B僅表現出輕微的性能下降。此外,我們已經將我們的訓練代碼(https://github.com/FlagOpen/FlagScale)和模型權重(https://github.com/FlagAI-Open/Aquila2)公開提供,以支持持續的研究和應用程序開發。
我們描述了一個大規模數據集--{\em DeepSpeak}--其中包含真實和深度偽造的人們在網絡攝像頭前說話和做手勢的影片。該數據集的第一個版本中,真實影片包括來自220位不同個體的9小時影片。偽造影片包括一系列不同的最先進的臉部交換和嘴唇同步深度偽造,具有自然和由人工智慧生成的聲音,總計超過25小時的影片。我們預計將來會釋出此數據集的不同和更新的深度偽造技術版本。該數據集可供研究和非商業用途免費使用;對於商業用途的請求將被考慮。
最近在思維鏈 (Chain-of-Thoughts, CoT) 和思維程序 (Program-of-Thoughts, PoT) 方法方面的進展大大增強了語言模型的數學推理能力,有助於將它們整合到具有LLMs的指導調整數據集中。然而,現有的大規模數據集創建方法需要大量種子數據和高計算成本進行數據合成,對可擴展性構成重大挑戰。我們引入了InfinityMATH,這是一個可擴展的用於程序化數學推理的指導調整數據集。構建流程強調將數字與數學問題解耦,以合成獨立於數字的程序,實現高效靈活的擴展,同時最大程度地減少對特定數值的依賴。使用開源語言和代碼模型(如Llama2和CodeLlama)進行微調實驗,展示了InfinityMATH的實際效益。這些微調模型在域內和域外基準測試中都顯示出顯著的相對改進,平均範圍從184.7%到514.3%。此外,這些模型在GSM8K+和MATH+基準測試中表現出很高的穩健性,這是具有僅數字變化的增強版本測試集。InfinityMATH確保模型在更廣泛範圍的數學問題上更加多才多藝和有效。數據可在https://huggingface.co/datasets/flagopen/InfinityMATH 上獲得。
從現實世界捕捉的3D場景的建模和操作在各種應用中至關重要,吸引了越來越多的研究興趣。儘管先前關於編輯的研究通過操作3D網格取得了有趣的結果,但它們通常需要精確重建的網格來執行編輯,這限制了它們在3D內容生成中的應用。為了填補這一差距,我們引入了一種基於3D高斯飄落的新型單圖驅動3D場景編輯方法,通過直接在2D圖像平面上編輯內容實現直觀操作。我們的方法學習優化3D高斯分佈,使其與從原始場景的用戶指定視角渲染的圖像的編輯版本對齊。為了捕捉長程物體變形,我們在3D高斯飄落的優化過程中引入位置損失,並通過重新參數化實現梯度傳播。為了處理從指定視角渲染時的遮蔽3D高斯分佈,我們構建了一個基於錨點的結構,並採用了粗到細的優化策略,能夠處理長程變形同時保持結構穩定性。此外,我們設計了一種新穎的遮罩策略,以自適應方式識別非剛性變形區域進行細節建模。大量實驗表明,我們的方法在處理幾何細節、長程和非剛性變形方面的有效性,展示了與先前方法相比更優的編輯靈活性和質量。
最近,人們開始研究在各種分布外情境下生成通用波形的任務。儘管基於 GAN 的方法在快速波形生成方面表現出強大的能力,但它們容易受到訓練-推斷不匹配情境的影響,例如兩階段文本轉語音。與此同時,基於擴散的模型展現了在其他領域中強大的生成性能;然而,在波形生成任務中由於推斷速度較慢而未受到關注。總而言之,目前還沒有一種生成器架構可以明確地解開高分辨率波形信號的自然周期特徵。在本文中,我們提出了一種新穎的通用波形生成模型 PeriodWave。首先,我們引入了一種能夠在估計向量場時捕捉波形信號的周期特徵的週期感知流匹配估計器。此外,我們利用多週期估計器避免重疊,以捕捉波形信號的不同週期特徵。雖然增加週期數量可以顯著提高性能,但這需要更多的計算成本。為了減少這個問題,我們還提出了一種單週期條件通用估計器,可以通過逐週期批量推斷進行前饋。此外,我們利用離散小波變換來無損解開波形信號的頻率信息以進行高頻建模,並引入 FreeU 以減少波形生成中的高頻噪音。實驗結果表明,我們的模型在 Mel 頻譜圖重建和文本轉語音任務中均優於先前的模型。所有源代碼將在 https://github.com/sh-lee-prml/PeriodWave 上提供。
理解場景的三維語義是各種情境的基本問題,例如具身代理。儘管 NeRFs 和 3DGS 在新視角合成方面表現出色,但先前用於理解其語義的方法僅限於不完整的三維理解:它們的分割結果是二維遮罩,監督則鎖定在二維像素上。本文重新審視問題集,以追求對由 NeRFs 和 3DGS 建模的場景進行更好的三維理解,具體如下:1)我們直接監督三維點以訓練語言嵌入字段。它實現了最先進的準確性,而無需依賴多尺度語言嵌入。2)我們將預先訓練的語言字段轉移到 3DGS,實現了首個實時渲染速度,而不會犧牲訓練時間或準確性。3)我們引入了一個用於評估重建幾何和語義的三維查詢和評估協議。代碼、檢查點和註釋將在線上提供。項目頁面:https://hyunji12.github.io/Open3DRF