每日精選AI研究論文及翻譯
最近,利用深度學習技術進行音樂音頻的端對端生成活動呈現爆發式增長。然而,大多數模型集中於根據抽象條件信息生成完全混合的音樂。在本研究中,我們提出了一種用於生成音樂的替代範式,該範式可以聆聽並回應音樂背景。我們描述了如何使用非自回歸、基於Transformer的模型架構來構建這樣的模型,並提出了一些新穎的架構和採樣改進方法。我們在一個開源和一個專有數據集上訓練了所描述的架構。我們使用標準質量指標和基於音樂信息檢索描述符的新方法來評估所生成的模型。結果顯示,該模型在音頻質量方面達到了最先進的文本條件模型水準,同時在音樂連貫性方面表現出色。
小型模型提供各種計算優勢,但模型大小對於解決問題能力的重要性仍是一個懸而未決的問題。特別是在解決小學數學問題時,目前在GSM8K基準測試中需要的最小模型大小仍然是34B才能突破80%的閾值。我們的研究探討了高質量數據集如何成為小型語言模型獲得數學推理能力的關鍵。我們引入了TinyGSM,這是一個包含1230萬個小學數學問題及其對應Python解決方案的合成數據集,完全由GPT-3.5生成。在TinyGSM上進行微調後,我們發現一個由13億生成模型和13億驗證模型組成的雙模型組合可以實現81.5%的準確率,優於數量級更大的現有模型。這也與GPT-3.5的“教師”模型(77.4%)的性能相媲美,我們的模型訓練數據就是從該模型生成的。我們的方法簡單明瞭,包括兩個關鍵組件:1)高質量數據集TinyGSM,2)使用驗證器,從多個候選生成中選擇最終輸出。
人們花費大量時間在數字設備上,透過圖形使用者介面(GUI),例如電腦或智慧型手機屏幕。大型語言模型(LLMs)如ChatGPT可以協助人們完成像是寫郵件之類的任務,但在理解和互動GUI方面遇到困難,因此限制了它們提高自動化水平的潛力。在本文中,我們介紹了CogAgent,一個擁有180億參數的視覺語言模型(VLM),專門用於GUI理解和導航。通過利用低分辨率和高分辨率圖像編碼器,CogAgent支持以1120*1120的分辨率輸入,使其能夠識別微小的頁面元素和文本。作為通用的視覺語言模型,CogAgent在五個文本豐富和四個通用VQA基準上取得了最新成果,包括VQAv2、OK-VQA、Text-VQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet和POPE。CogAgent僅使用截圖作為輸入,在PC和Android GUI導航任務上勝過基於LLM的方法,這些方法消耗提取的HTML文本--Mind2Web和AITW,推動了技術的最新進展。模型和代碼可在https://github.com/THUDM/CogVLM找到。
一致性模型在高效圖像生成方面展現出強大能力,並允許在少數取樣步驟內進行合成,減輕擴散模型中的高計算成本。然而,在更具挑戰性和資源消耗大的視頻生成方面,一致性模型仍然較少被探索。在本報告中,我們提出了VideoLCM框架來填補這一空白,該框架借鑒了從圖像生成中的一致性模型的概念,以最少的步驟高效合成視頻並保持高質量。VideoLCM基於現有的潛在視頻擴散模型,並導入了一致性蒸餾技術來訓練潛在的一致性模型。實驗結果顯示了我們的VideoLCM在計算效率、保真度和時間一致性方面的有效性。值得注意的是,VideoLCM僅需四個取樣步驟即可實現高保真度和平滑的視頻合成,展示了實時合成的潛力。我們希望VideoLCM能成為後續研究的一個簡單而有效的基準。源代碼和模型將公開提供。
在大視覺-語言資料集的策展方法中,存在著資料集大小和質量之間的取捨。然而,即使是最高質量的現有策展標題也遠遠不足以捕捉圖像中豐富的視覺細節。為了展示密集且高度對齊的圖像-文字配對的價值,我們收集了包含8012張自然圖像的「密集標題圖像(DCI)」資料集,每張圖像都有人工標註的遮罩對齊描述,平均每個描述超過1000個字。通過與圖像特定部分相關聯的精確可靠的標題,我們可以評估視覺-語言模型(VLMs)對圖像內容的理解,並提出一個新的任務,將每個標題與其相應的子區域進行匹配。由於當前模型通常僅限於77個文本標記,因此我們還引入了一個總結版本(sDCI),其中限制了每個標題的長度。我們表明,在標準基準上取得進展的現代技術並不意味著在基於我們的sDCI基準上有顯著改進。最後,我們使用sDCI對CLIP進行微調,儘管訓練集很小,但相較於基準,顯示出顯著的改進。通過釋出第一個人工標註的密集圖像標題資料集,我們希望促進新基準或微調配方的開發,以應對即將到來的下一代VLMs。
目前用於3D形狀的擴散或基於流的生成模型可分為兩種:提煉預先訓練的2D圖像擴散模型,以及直接在3D形狀上進行訓練。在對3D形狀進行擴散或流模型訓練時,一個至關重要的設計選擇是形狀表示法。一種有效的形狀表示法需要遵循三個設計原則:它應允許將大型3D數據集有效轉換為表示形式;它應提供良好的近似能力與參數數量之間的折衷;並且它應具有與現有強大神經結構相容的簡單張量形式。儘管標準的3D形狀表示法,如體積網格和點雲,無法同時遵循所有這些原則,但我們在本文中提倡一種新的表示法,即Mosaic-SDF(M-SDF)。M-SDF是一種簡單的3D形狀表示法,通過使用分佈在形狀邊界附近的一組局部網格來近似給定形狀的符號距離函數(SDF)。M-SDF表示法對於每個形狀的計算速度快,使其易於並行化;它在參數效率上效果顯著,因為它僅涵蓋形狀周圍的空間;並且它具有簡單的矩陣形式,與基於Transformer的結構相容。我們通過使用M-SDF表示法來訓練一個包括類別條件生成的3D生成流模型來展示其有效性,其中使用了3D Warehouse數據集,以及使用約600k標題-形狀對的數據集進行文本到3D生成。
近年來,大型語言模型取得了巨大成功,同樣地,在視覺領域也有其變體。現有的視覺語言模型能夠用自然語言描述圖像,回答與視覺相關的問題,或對圖像進行複雜推理。然而,目前尚不清楚如何使用大型語言模型執行定位任務,例如詞語對應或參照定位。在這項工作中,我們旨在開發一個視覺語言模型,可以將位置,例如一組點或方框,作為輸入或輸出。當將位置作為輸入時,該模型執行基於位置的字幕生成,為指定的物體或區域生成字幕。當生成位置作為輸出時,我們的模型對語言模型生成的每個輸出詞進行像素坐標回歸,從而執行密集詞語對應。我們的模型在定位敘事數據集上進行了預訓練,該數據集包含來自人類注意力的像素-詞語對齊字幕。我們展示了我們的模型可以應用於各種位置感知的視覺語言任務,包括參照定位、基於位置的字幕生成和密集物體字幕生成,在 RefCOCO 和 Visual Genome 上實現了最先進的性能。項目頁面:https://jerryxu.net/PixelLLM。
本文介紹了一種新方法,以增強大型語言模型(LLMs)在處理和理解廣泛文本序列方面的能力,這在需要深度理解和綜合大量信息的應用中至關重要。我們意識到在擴展基於Transformer架構的LLMs的上下文窗口時存在的固有挑戰,因此提出了一種新的模型架構,稱為Zebra。該架構通過使用分組的局部-全局注意力層,有效地處理了Transformer中全注意力機制帶來的二次時間和內存複雜性問題。我們的模型,類似於斑馬的交替條紋,平衡了局部和全局注意力層,顯著降低了計算需求和內存消耗。我們進行了全面的實驗,包括從頭開始的預訓練、持續進行長上下文適應訓練以及長指導調整,以評估Zebra的性能。結果表明,Zebra在短序列和長序列基準測試中實現了可比或更優秀的性能,同時提高了訓練和推理效率。
憑藉大規模文本到圖像生成模型的支持,文本到3D頭像生成已取得令人期待的進展。然而,大多數方法無法產生逼真的結果,受限於不精確的幾何形狀和低質量外觀。為了更實用的頭像生成,我們提出了SEEAvatar,一種從文本生成逼真3D頭像的方法,該方法使用自我演進約束來解耦幾何形狀和外觀。對於幾何形狀,我們建議使用模板頭像將優化的頭像約束在一個合理的全局形狀中。模板頭像以人類先驗信息初始化,並可以定期由優化的頭像更新為演進模板,從而實現更靈活的形狀生成。此外,幾何形狀還受到靜態人體先驗信息的約束,例如臉部和手部,以保持精細的結構。對於外觀生成,我們使用擴散模型通過提示工程增強,引導基於物理的渲染管線生成逼真的紋理。對反照率紋理應用光線約束以抑制不正確的照明效果。實驗表明,我們的方法在全局和局部幾何形狀以及外觀質量上均遠遠優於先前的方法。由於我們的方法可以生成高質量的網格和紋理,這些資產可以直接應用於經典圖形管線中,在任何照明條件下進行逼真渲染。項目頁面位於:https://seeavatar3d.github.io。
在強化學習的研究前沿之一,是建立能夠在豐富且開放的環境中實現多個目標的通用智能體。建立具有強化學習的通用智能體的一個關鍵限制因素是需要大量的獎勵函數來實現不同的目標。我們研究了使用現成的視覺語言模型(VLMs)作為強化學習智能體的獎勵來源的可行性。我們展示了如何從 CLIP 模型系列中衍生視覺達成各種語言目標的獎勵,並用於訓練能夠實現多種語言目標的強化學習智能體。我們在兩個不同的視覺領域展示了這種方法,並呈現了一個規模化趨勢,顯示更大的 VLMs 導致更準確的視覺目標達成獎勵,進而產生更有能力的強化學習智能體。
最近推出的 ControlNet 具有引導以文本為驅動的圖像生成過程的能力,可以使用幾何輸入,如人類的 2D 姿勢或邊緣特徵。儘管 ControlNet 可以控制生成圖像中實例的幾何形式,但缺乏指導每個實例視覺外觀的能力。我們提出 FineControlNet,以提供對每個實例外觀的精細控制,同時保持精確的姿勢控制能力。具體而言,我們通過人類姿勢圖像實現幾何控制,並通過實例級文本提示實現外觀控制,展示並開發 FineControlNet。在潛在空間中實例特定文本提示和 2D 姿勢的空間對齊使 FineControlNet 具有精細控制能力。我們通過與最先進的姿勢條件文本到圖像擴散模型進行嚴格比較,評估了 FineControlNet 的性能。FineControlNet 在生成遵循用戶提供的實例特定文本提示和姿勢的圖像方面表現出優越性能,優於現有方法。專案網頁:https://samsunglabs.github.io/FineControlNet-project-page
擴散模型(DMs)因其能夠生成高質量、多樣化圖像而日益受到重視,尤其是在最近的文本到圖像生成方面取得了進展。研究重點現在正轉向於 DMs 的可控性。在這個領域中的一個重要挑戰是局部編輯,即修改圖像的特定區域而不影響其餘內容。本文介紹了用於擴散模型中的局部圖像編輯的 LIME,它不需要用戶指定的感興趣區域(RoI)或額外的文本輸入。我們的方法利用預先訓練方法的特徵和簡單的聚類技術來獲得精確的語義分割地圖。然後,通過利用交叉注意力地圖,對這些區段進行細化以進行局部編輯。最後,我們提出了一種新穎的交叉注意力正則化技術,在去噪步驟中懲罰 RoI 中不相關的交叉注意力分數,確保局部編輯。我們的方法在不重新訓練和微調的情況下,在各種編輯基準測試中始終提高現有方法的性能。
本文介紹了GLEE,一個用於在圖像和視頻中定位和識別物體的對象級基礎模型。通過統一框架,GLEE實現了對開放世界場景中任意物體的檢測、分割、跟蹤、定位和識別,適用於各種物體感知任務。通過採用一致的學習策略,GLEE從不同監督級別的多樣數據源中獲取知識,形成通用物體表示,在零樣本轉移到新數據和任務方面表現出色。具體來說,我們使用圖像編碼器、文本編碼器和視覺提示器來處理多模態輸入,實現同時解決各種以物體為中心的下游任務,同時保持最先進的性能。通過在來自不同基準測試的五百萬多圖像上進行廣泛訓練,GLEE展現出卓越的多功能性和改進的泛化性能,有效應對下游任務,無需特定於任務的適應。通過集成大量自動標記的數據,我們進一步增強了其零樣本泛化能力。此外,GLEE能夠集成到大型語言模型中,作為一個基礎模型,為多模態任務提供通用的對象級信息。我們希望我們方法的多功能性和通用性將標誌著為AGI系統開發高效視覺基礎模型的重要一步。模型和代碼將在https://glee-vision.github.io 上發布。
本研究探討了在大型語言模型(LLMs)中像GPTQ這樣的4位量化方法,突顯了GPTQ在零樣本任務中的過度擬合和有限的增強。儘管先前的研究僅關注零樣本測量,我們將任務範圍擴展到更具生成性的類別,如代碼生成和抽象摘要,我們發現INT4量化在這些任務中表現顯著不佳。然而,僅僅轉向更高精度格式,如FP6,特別具有挑戰性,因為目前AI硬件上缺乏複雜的整合和系統加速策略,因而被忽視。我們的結果顯示,即使使用粗粒度量化方案,FP6在各種算法和任務中表現穩健,展示了其在準確性和多功能性方面的優越性。值得注意的是,使用FP6量化,\codestar-15B模型在代碼生成方面的表現與其FP16對應物相當,對於較小的模型,如406M,在摘要中它與基準線的匹配程度接近。這是INT4無法實現的。為了更好地適應各種AI硬件並實現最佳系統性能,我們提出了一種新穎的4+2設計,用於FP6,以實現與最先進的INT4細粒度量化相似的延遲。通過我們的設計,FP6可以成為目前在LLMs中使用的4位量化方法的一個有前途的解決方案。
獎勵模型在對齊語言模型應用程序與人類偏好之間扮演著關鍵角色。然而,這種設置會激勵語言模型利用獎勵模型中的錯誤,以獲得高估獎勵,這種現象通常被稱為獎勵破解。一種自然的緩解方法是訓練一組獎勵模型,對模型輸出進行匯總,以獲得更穩健的獎勵估計。我們探討了將獎勵集成應用於訓練時間(通過強化學習)和推理時間(通過重新排序)的對齊。首先,我們指出獎勵模型存在欠定義問題:在分布內表現相似的獎勵模型在對齊時可能產生非常不同的獎勵,這是由於分布轉移引起的。其次,欠定義導致過度優化,對一個獎勵模型的對齊並不會提高獎勵,如同另一個在相同數據上訓練的獎勵模型所衡量的那樣。第三,過度優化可以通過使用獎勵集成來緩解,通過其預訓練種子不同的集成比僅通過微調種子不同的集成具有更好的泛化性能,而兩者均優於單個獎勵模型。然而,即使預訓練獎勵集成也無法消除獎勵破解:我們展示了幾種質性獎勵破解現象,這些現象通過集成也無法緩解,因為集成中的所有獎勵模型都表現出相似的錯誤模式。
最近在文字轉3D生成技術方面取得了顯著進展,大大提高了將文字描述轉換為具有想像力、幾何良好且紋理精細的3D物體的能力。儘管取得了這些進展,一個普遍存在的限制來自擴散或重建模型中RGB數據的使用,這往往導致模型具有固有的照明和陰影效果,從而削弱了其逼真度,從而限制了其在需要準確重照能力的應用中的可用性。為了彌合這一差距,我們提出了UniDream,這是一個通過整合統一擴散先驗知識的文字轉3D生成框架。我們的方法包括三個主要組件:(1) 雙相訓練過程,以獲得與反照率-法線對齊的多視圖擴散和重建模型,(2) 基於Score Distillation Sample (SDS)的幾何和反照率紋理的漸進生成過程,使用訓練好的重建和擴散模型,以及(3) 將SDS創新應用於最終確定PBR生成,同時基於穩定擴散模型保持固定的反照率。廣泛的評估表明,UniDream在生成具有更清晰反照率紋理、更平滑表面、增強逼真度和卓越重照能力的3D物體方面超越了現有方法。
在這份工作中,我們介紹了視覺-語言生成預訓練Transformer(VL-GPT),這是一種能夠同時感知和生成視覺和語言數據的Transformer模型。VL-GPT通過採用直觀的自回歸目標,實現了對圖像和文本模態的統一預訓練方法,從而使模型能夠像語言模型處理文本一樣無縫地處理圖像和文本。為了實現這一目標,我們首次提出了一種新穎的圖像分詞-去分詞框架,專門設計用於將原始圖像轉換為連續嵌入序列並相應地重構它們。結合現有的文本分詞器和去分詞器,這個框架允許將交錯的圖像-文本數據編碼為多模態序列,隨後可以輸入到Transformer模型中。因此,VL-GPT可以在多模態語料庫上進行大規模的預訓練,利用統一的自回歸目標(即下一個標記預測)。完成預訓練後,VL-GPT在各種視覺和語言理解和生成任務中展現出卓越的零樣本和少樣本性能,包括圖像標題生成、視覺問答、文本到圖像生成等。此外,當提供多模態提示時,預訓練模型還可以重新進行上下文學習能力的調整。我們進一步對VL-GPT進行指令微調,突顯其在多模態輔助方面的卓越潛力。源代碼和模型權重將被釋出。
我們提出了一種名為 Shap-Editor 的新型前饋 3D 編輯框架。 先前關於編輯 3D 物件的研究主要集中在通過利用現成的 2D 圖像編輯網絡來編輯單個物件。這是通過一個稱為蒸餾的過程實現的,該過程將知識從 2D 網絡轉移到 3D 資產。蒸餾需要每個資產至少幾十分鐘才能達到令人滿意的編輯結果,因此並不是非常實用。相比之下,我們探討了是否可以通過一個前饋網絡直接進行 3D 編輯,避免測試時間的優化。具體而言,我們假設通過首先在適當的潛在空間中對 3D 物件進行編碼,可以大大簡化編輯過程。我們通過構建在 Shap-E 的潛在空間之上來驗證這一假設。我們展示了在這個空間中進行直接 3D 編輯是可能且高效的,通過構建一個前饋編輯器網絡,每次編輯僅需要大約一秒的時間。我們的實驗表明,Shap-Editor 對於具有不同提示的分內資產和分外資產都具有良好的泛化能力,展現出與為每個編輯實例進行測試時間優化的方法相當的性能。
我們推出並介紹了TigerBot系列的大型語言模型(LLMs),包括基本模型和聊天模型,規模從70億到180億參數不等。我們從Llama-2和BLOOM開始開發我們的模型,並在數據、訓練算法、基礎設施和應用工具方面將界限推進。我們的模型在SOTA開源模型上取得了有意義的性能提升,例如在英語上提升了6%,在中文上提升了20%,如Llama-2。TigerBot模型系列還在主要的學術和工業基準測試和排行榜中取得了領先的性能。我們相信TigerBot僅代表了LLM開源社區中快速進展的一個瞬間。因此,我們很高興通過公開發布我們的模型並報告背後的方法,強調以民主化方式構建SOTA LLMs,並使LLMs在現實應用中有用。