每日精選AI研究論文及翻譯
預訓練語言模型支撐多項人工智慧應用,但其高訓練計算成本限制了可及性。BLOOM和StarCoder等倡議旨在民主化預訓練模型的訪問,以促進社區協作發展。然而,現有模型面臨著挑戰:多語言能力有限、持續預訓練導致災難性遺忘,而從頭開始預訓練計算成本高,且需遵守人工智慧安全和發展法規。本文介紹了Aurora-M,一個擁有 15B 參數的多語言開源模型,訓練語言包括英語、芬蘭語、印地語、日語、越南語和程式碼。Aurora-M 不斷從 StarCoderPlus 上額外的 4350 億標記進行持續預訓練,總訓練標記數超過 2 兆。它是第一個在人工審查的安全指示上進行微調的開源多語言模型,因此不僅符合傳統的紅隊考量,還符合拜登-哈里斯行政命令中關於人工智慧的安全、安全和可信發展和使用所表達的具體關切。Aurora-M 在各種任務和語言上經過嚴格評估,展現了對抗災難性遺忘的穩健性,並在多語言環境中表現優異,特別是在安全評估方面勝過其他選擇。為了促進負責任的開源大型語言模型發展,Aurora-M 及其變體已在以下網址釋出:https://huggingface.co/collections/aurora-m/aurora-m-models-65fdfdff62471e09812f5407。
目前文本到圖像(T2I)模型的一個主要缺陷是它們無法一貫地生成忠實地遵循文本提示中指定的空間關係的圖像。在本文中,我們對這一限制進行了全面調查,同時開發了能夠實現最先進性能的數據集和方法。首先,我們發現目前的視覺語言數據集未能很好地表示空間關係;為了減輕這一瓶頸,我們通過對來自4個廣泛使用的視覺數據集的600萬張圖像重新標題,創建了首個空間專注、大規模數據集SPRIGHT。通過三重評估和分析流程,我們發現SPRIGHT在很大程度上改進了現有數據集在捕捉空間關係方面的能力。為了證明其有效性,我們僅利用SPRIGHT的約0.25%,在生成空間準確圖像方面實現了22%的改進,同時提高了FID和CMMD分數。其次,我們發現在訓練包含大量物體的圖像時,空間一致性會顯著改善。值得注意的是,通過在不到500張圖像上進行微調,我們在T2I-CompBench上實現了0.2133的空間分數,達到了最先進水平。最後,通過一系列受控實驗和消融實驗,我們記錄了多個發現,這些發現我們認為將增進對影響文本到圖像模型中空間一致性的因素的理解。我們公開發布我們的數據集和模型,以促進這一領域的進一步研究。
最近,從文字提示或單張圖像生成3D內容的質量和速度有了顯著進展。其中一個主要範式涉及生成一致的多視角圖像,然後進行稀疏視角重建。然而,由於直接將網格表示形式變形以接近目標拓撲的挑戰,大多數方法學在稀疏視角重建期間學習隱式表示(如NeRF),並通過後處理提取獲取目標網格。儘管隱式表示可以有效地建模豐富的3D信息,但其訓練通常需要很長的收斂時間。此外,從隱式場進行後提取操作也會導致不良的視覺異常。在本文中,我們提出了一種新穎的單圖像到3D生成框架FlexiDreamer,以端到端的方式重建目標網格。通過利用一種靈活的基於梯度的提取,即FlexiCubes,我們的方法避免了後處理帶來的缺陷,並促進了對目標網格的直接獲取。此外,我們還融入了一種多分辨率哈希網格編碼方案,逐步激活FlexiCubes中的隱式場中的編碼級別,以幫助捕捉幾何細節以進行逐步優化。值得注意的是,FlexiDreamer在單個NVIDIA A100 GPU上從單視圖圖像中恢復出密集的3D結構,大約需要1分鐘的時間,遠遠優於以往的方法。
從使用者指定的條件生成3D場景為減輕3D應用程式中的製作負擔提供了一個有前途的途徑。先前的研究需要大量努力來實現所需的場景,這是由於受限的控制條件。我們提出了一種方法,使用部分圖像、在俯視圖中表示的佈局信息和文本提示來控制和生成多模態條件下的3D場景。將這些條件結合起來生成3D場景涉及以下重要困難:(1) 創建大型數據集,(2) 反映多模態條件的交互作用,以及(3) 佈局條件的領域依賴性。我們將3D場景生成過程分解為從給定條件生成2D圖像和從2D圖像生成3D場景。通過微調預訓練的文本到圖像模型,使用部分圖像和佈局的小型人工數據集實現2D圖像生成,並通過基於佈局的深度估計和神經輻射場(NeRF)實現3D場景生成,從而避免創建大型數據集。使用360度圖像來共同表示空間信息,有助於考慮多模態條件的交互作用,並減少佈局控制的領域依賴性。實驗結果在質量和量化上顯示,所提出的方法可以根據多模態條件在各種領域生成3D場景,從室內到室外。
生成模型現在被許多平面設計師和藝術家廣泛使用。先前的研究表明,這些模型在生成過程中記憶並經常複製訓練數據中的內容。因此,隨著它們的普及增加,逐次在將生成的圖像用於專業用途之前,進行數據庫搜索以確定圖像的特性是否可歸因於特定的訓練數據變得至關重要。目前用於此目的的現有工具專注於檢索具有相似語義內容的圖像。與此同時,許多藝術家關注文本到圖像模型中的風格複製。我們提出了一個框架,用於理解並從圖像中提取風格描述符。我們的框架包括一個新的數據集,根據一項洞察力精心策劃,即風格是圖像的一個主觀特性,捕捉到包括但不限於顏色、紋理、形狀等因素的複雜而有意義的交互作用。我們還提出了一種方法,用於提取風格描述符,這些描述符可用於將生成圖像的風格歸因於文本到圖像模型的訓練數據集中使用的圖像。我們展示了在各種風格檢索任務中的有希望的結果。我們還對Stable Diffusion模型中的風格歸因和匹配進行了定量和定性分析。代碼和工件可在https://github.com/learn2phoenix/CSD找到。
我們介紹了CosmicMan,一個專為生成高保真人類圖像而設計的文本到圖像基礎模型。與目前陷入人類圖像質量不佳和文本-圖像不對齊困境的通用基礎模型不同,CosmicMan能夠生成外貌精細、結構合理且文本-圖像精確對齊的逼真人類圖像,並配有詳細的密集描述。CosmicMan成功的核心在於對數據和模型的新反思和觀點:(1) 我們發現數據質量和可擴展的數據生成流對於訓練模型的最終結果至關重要。因此,我們提出了一種新的數據生成範式,名為Annotate Anyone,它作為一個永續的數據動力輪,隨著時間不斷生成具有準確且具有成本效益的標註高質量數據。基於此,我們構建了一個大規模數據集,CosmicMan-HQ 1.0,其中包含600萬張高質量的現實世界人類圖像,平均分辨率為1488x1255,並附有源自1.15億個不同細粒度屬性的精確文本標註。(2) 我們認為,一個專為人類而設的文本到圖像基礎模型必須是務實的——易於集成到下游任務中,同時能夠有效生成高質量人類圖像。因此,我們提出以分解方式建模密集文本描述和圖像像素之間的關係,並提出Decomposed-Attention-Refocusing(Daring)訓練框架。它無縫地分解現有文本到圖像擴散模型中的交叉注意力特徵,並在不添加額外模塊的情況下強化注意力重新聚焦。通過Daring,我們展示將連續文本空間明確離散化為幾個與人體結構對齊的基本群體是輕鬆解決不對齊問題的關鍵。
一個理想的密集影片字幕模型——能夠在影片中進行時間定位的字幕預測——應該能夠處理長輸入影片,預測豐富、詳細的文字描述,並且能夠在處理整個影片之前產生輸出。然而,目前最先進的模型處理一個固定數量的降採樣幀,並在看完整個影片後進行單一完整預測。我們提出了一個流式密集影片字幕模型,包括兩個新穎組件:首先,我們提出一個新的記憶模組,基於聚類傳入的標記,可以處理任意長度的影片,因為記憶是固定大小的。其次,我們開發了一個流式解碼算法,使我們的模型能夠在整個影片被處理之前進行預測。我們的模型實現了這種流式能力,並在三個密集影片字幕基準測試中顯著改進了最先進技術:ActivityNet、YouCook2 和 ViTT。我們的程式碼已在 https://github.com/google-research/scenic 釋出。
我們提出了一種新的方法,稱為條件感知神經網絡(CAN),用於為圖像生成模型添加控制。與先前的條件控制方法平行,CAN通過動態調整神經網絡的權重來控制圖像生成過程。這是通過引入一個條件感知權重生成模塊來實現的,該模塊根據輸入條件為卷積/線性層生成條件權重。我們在ImageNet上進行了類條件圖像生成和在COCO上進行了文本到圖像生成的CAN測試。CAN在擴散變壓器模型(包括DiT和UViT)上始終提供顯著的改進。特別是,CAN與EfficientViT(CaT)在ImageNet 512x512上實現了2.78的FID,超越了DiT-XL/2,同時每個採樣步驟需要的MAC數量減少了52倍。
偏好建模技術,如直接偏好優化(DPO),已證明在增強大型語言模型(LLM)的泛化能力方面非常有效。然而,在涉及視頻指示跟隨的任務中,特別是為了檢測生成的回應中的幻覺而提供信息反饋,仍然是一個重大挑戰。先前的研究已探索使用大型多模型模型(LMMs)作為獎勵模型來引導偏好建模,但相對應視頻的生成回應的事實性進行準確評估的能力尚未得出明確結論。本文介紹了一個新的框架,利用詳細的視頻字幕作為視頻內容的代理,使語言模型能夠將此信息作為支持證據,用於評分視頻問答(QA)預測。我們的方法展示了與OpenAI GPT-4V模型的獎勵機制的強大對齊,該機制直接將視頻幀作為輸入。此外,我們展示了通過DPO應用此定制獎勵,顯著提高了視頻LMM在視頻QA任務中的性能。
近年來大型語言模型(LLMs)的最新進展已經徹底改變了自然語言處理領域,逐漸擴大了它們的範圍至多模態感知和生成。然而,將聆聽能力有效地整合到LLMs中存在著重大挑戰,特別是在泛化各種情境並執行複雜聽覺任務方面。在這項工作中,我們介紹了WavLLM,這是一個具有雙編碼器和prompt-aware LoRA權重適配器的強大且適應性強的語音大型語言模型,通過兩階段課程學習方法進行優化。利用雙編碼器,我們將不同類型的語音信息解耦,利用Whisper編碼器處理語音的語義內容,並使用WavLM編碼器捕捉說話者身份的獨特特徵。在課程學習框架內,WavLLM首先通過優化混合基本單一任務來建立其基礎能力,然後在更複雜任務(如基本任務的組合)上進行高級多任務訓練。為了增強靈活性並遵循不同任務和指令,我們在第二個高級多任務訓練階段引入了prompt-aware LoRA權重適配器。我們在通用語音基準上驗證了所提出的模型,包括ASR、ST、SV、ER等任務,並將其應用於像高考英語聽力理解SQA和語音思維鏈(CoT)評估集這樣的專門數據集。實驗表明,所提出的模型在相同模型尺寸下在各種語音任務上實現了最先進的性能,展現了使用CoT方法執行複雜任務的強大泛化能力。此外,我們的模型成功完成了高考任務而無需專門訓練。代碼、模型、音頻和高考評估集可通過aka.ms/wavllm進行訪問。
一份視覺豐富的文件(VRD)利用視覺特徵和語言提示來傳播信息。訓練一個自定義的提取器,從文件中識別命名實體,需要大量標註在文本和視覺模式下的目標文件類型的實例。這是企業場景中的一個昂貴瓶頸,我們希望以可擴展的方式為成千上萬種不同的文件類型訓練自定義提取器。在這些情況下,對未標記的目標文件類型實例進行預訓練,然後在人工標記的實例上進行微調步驟是行不通的,因為這超出了為提取器分配的最大允許訓練時間。本文提出了一種噪聲感知訓練方法(NAT)來應對這種情況。NAT不是獲取昂貴的人工標記文件,而是利用弱標記文件以可擴展的方式訓練提取器。為了避免模型質量因嘈雜的弱標記樣本而下降,NAT估計每個訓練樣本的置信度,並在訓練過程中將其作為不確定性度量納入。我們使用NAT訓練了多個最先進的提取器模型。在許多公開可用和內部數據集上的實驗表明,NAT訓練的模型不僅在性能上更加穩健 - 在宏F1分數方面比轉移學習基線高達6%,而且更節省標籤 - 使獲得可比性能所需的人力工作量減少高達73%。
大型語言模型(LLMs)展示了在文本理解和生成方面的印著能力,促使研究工作轉向視頻LLMs,以促進在視頻層面上進行人工智能交互。然而,在基於視頻的對話系統中如何有效地編碼和理解視頻仍有待解決。在本文中,我們探討了一個直接但未被探索的問題:我們是否可以將所有時空標記餵入LLM,從而將視頻序列建模的任務委託給LLMs?令人驚訝的是,這種簡單的方法在視頻理解方面取得了顯著的改進。基於此,我們提出了ST-LLM,一種具有空間-時間序列建模的有效視頻-LLM基線。此外,為了應對LLMs內未壓縮視頻標記引入的開銷和穩定性問題,我們開發了一種具有量身定制訓練目標的動態遮罩策略。對於特別長的視頻,我們還設計了一個全局-局部輸入模塊,以平衡效率和有效性。因此,我們利用LLM進行熟練的空間-時間建模,同時保持效率和穩定性。大量的實驗結果證實了我們方法的有效性。通過更簡潔的模型和訓練流程,ST-LLM在VideoChatGPT-Bench和MVBench上建立了一個新的最先進結果。代碼已經在https://github.com/TencentARC/ST-LLM 上提供。