每日精選AI研究論文及翻譯
許多人工智慧公司正在未經版權所有者許可的情況下,對大型語言模型(LLMs)進行訓練。這樣做的可行性因司法管轄範圍而異:在歐盟和日本等國家,這在一定限制下是被允許的,而在美國,法律環境則更加模糊。無論法律地位如何,來自創意生產者的擔憂已導致多起知名的版權訴訟,訴訟威脅通常被引用為最近限制企業和公眾利益行為者分享訓練數據集信息的趨勢的原因。這種限制數據信息的趨勢對於阻礙廣泛生態系統中的透明度、責任和創新造成了傷害,因為這樣做剝奪了研究人員、審計人員和受影響個人瞭解人工智慧模型所需信息的訪問權。 儘管這可能通過在開放訪問和公共領域數據上訓練語言模型來緩解,但在撰寫本文時,由於組建必要語料庫所面臨的重大技術和社會挑戰,目前尚無此類模型(在有意義的規模上進行訓練)。這些挑戰包括不完整和不可靠的元數據、將實體記錄數字化的成本和複雜性,以及確保在快速變化的環境中具有相關性和責任性所需的多樣化法律和技術技能。朝著未來的方向努力,人工智慧系統可以在負責任策劃和管理的開放許可數據上進行訓練,這需要跨法律、技術和政策領域的合作,以及對元數據標準、數字化和促進開放文化的投資。
多模態文件檢索旨在識別和檢索各種形式的多模態內容,例如圖片、表格、圖表和版面信息,以及來自大量文件的信息。儘管其重要性,目前尚缺乏一個強大的基準來有效評估多模態文件檢索系統的性能。為填補這一空白,本研究引入了一個新的基準,名為MMDocIR,包括兩個不同的任務:頁級和版面級檢索。前者專注於在長文檔中定位最相關的頁面,而後者則旨在檢測特定版面,提供比整頁分析更細緻的粒度。版面可以指各種元素,如文本段落、方程式、圖片、表格或圖表。MMDocIR基準包含一個豐富的數據集,其中專家標註了1,685個問題的標籤,並為173,843個問題提供了引導標籤,使其成為推進多模態文件檢索的重要資源,既可用於訓練也可用於評估。通過嚴格的實驗,我們揭示了:(i)視覺檢索器明顯優於其文本對應物,(ii)MMDocIR訓練集可以有效地促進多模態文件檢索的訓練過程,以及(iii)利用VLM-text的文本檢索器比使用OCR-text的檢索器表現更好。這些發現強調了整合視覺元素進行多模態文件檢索的潛在優勢。
近年來,3D場景生成受到越來越多的關注並取得了顯著進展。生成4D城市比3D場景更具挑戰性,因為其中包含結構複雜、視覺多樣的物體,如建築和車輛,以及人類對城市環境扭曲更敏感。為應對這些問題,我們提出了CityDreamer4D,一種專門為生成無限4D城市而設計的組合生成模型。我們的主要見解是:1)4D城市生成應將動態物體(例如車輛)與靜態場景(例如建築和道路)分開,以及2)4D場景中的所有物體應由不同類型的神經場組成,包括建築物、車輛和背景物品。具體而言,我們提出了交通情境生成器和無限佈局生成器,以使用高度緊湊的BEV表示來生成動態交通情境和靜態城市佈局。4D城市中的物體是通過結合面向物品和實例的神經場來生成的,用於背景物品、建築物和車輛。為了適應背景物品和實例的不同特徵,神經場採用定制的生成哈希網格和周期性位置嵌入作為場景參數化。此外,我們提供了一套全面的城市生成數據集,包括OSM、GoogleEarth和CityTopia。OSM數據集提供各種真實世界的城市佈局,而Google Earth和CityTopia數據集提供了包含3D實例標註的大規模高質量城市影像。借助其組合設計,CityDreamer4D支持一系列下游應用,如實例編輯、城市風格化和城市模擬,同時在生成逼真4D城市方面表現出色。
隨著擴散模型的引入,視頻生成取得了顯著的進展,大幅提升了生成視頻的質量。然而,近期的研究主要集中在擴大模型訓練規模,對表示對視頻生成過程的直接影響提供的洞察有限。本文首先探討中間層特徵的特性,發現不同層之間的注意力映射存在顯著變化。這些變化導致不穩定的語義表示,並導致特徵之間的累積差異,最終降低相鄰幀之間的相似性,並對時間一致性產生負面影響。為解決這一問題,我們提出了RepVideo,一種增強的表示框架,適用於文本到視頻擴散模型。通過從相鄰層累積特徵以形成豐富的表示,該方法捕獲更穩定的語義信息。這些增強的表示然後被用作注意機制的輸入,從而提高語義表達能力,同時確保相鄰幀之間的特徵一致性。大量實驗表明,我們的RepVideo不僅顯著增強了生成準確的空間外觀的能力,例如捕捉多個對象之間的復雜空間關係,還改善了視頻生成中的時間一致性。
建立在預訓練文本到影片模型基礎上的先進先出(FIFO)影片擴散,最近被證實是調整免費長影片生成的有效方法。該技術維護一個影片幀隊列,隨著噪音逐漸增加,持續在隊列頭部生成乾淨幀,同時在尾部加入高斯噪音。然而,FIFO-Diffusion常常難以保持生成影片中的長程時間一致性,這是因為缺乏跨幀之間的對應建模。在本文中,我們提出了Ouroboros-Diffusion,一個新穎的影片去噪框架,旨在增強結構和內容(主題)一致性,從而實現任意長度一致性影片的生成。具體來說,我們引入了一種新的潛在採樣技術,用於改善結構一致性,確保幀之間的感知平滑過渡。為了增強主題一致性,我們設計了一種主題感知跨幀注意(SACFA)機制,該機制在短片段內對幀之間的主題進行對齊,以實現更好的視覺連貫性。此外,我們引入了自遞歸引導。這種技術利用隊列前端所有先前更清晰幀的信息來引導結尾更嘈雜幀的去噪,促進豐富且上下文全局信息的交互。在VBench基準測試上進行的大量長影片生成實驗顯示了我們的Ouroboros-Diffusion的優越性,特別是在主題一致性、運動平滑度和時間一致性方面。
我們提出了第一項研究,探討多模態語言模型(Multimodal LLMs,MLLMs)的推理能力如何被喚起以評估藝術作品的美感。為了促進這一研究,我們建立了MM-StyleBench,這是一個用於評估藝術風格的新型高質量數據集。然後,我們開發了一種基於原則的人類偏好建模方法,並對MLLMs的回應與人類偏好之間進行系統性相關性分析。我們的實驗揭示了MLLMs在藝術評估中存在的固有幻覺問題,與回應主觀性相關。我們提出了ArtCoT,證明了藝術特定任務分解和具體語言的使用如何提升MLLMs在美感方面的推理能力。我們的研究結果為MLLMs在藝術領域提供了寶貴的見解,並且可以惠及各種下游應用,如風格轉移和藝術圖像生成。代碼可在https://github.com/songrise/MLLM4Art找到。
近年來,在影像合成和文本生成領域取得了顯著進展,人工智慧生成內容(AIGC)能夠生成與人類相媲美的內容。然而,人工智慧生成的音樂質量尚未達到這一水準,主要是由於有效控制音樂情感和確保高質量輸出的挑戰。本文提出了一個通用的符號音樂生成框架 XMusic,支持靈活的提示(例如圖像、視頻、文本、標籤和哼唱),以生成可控制情感且高質量的符號音樂。XMusic 包含兩個核心組件,XProjector 和 XComposer。XProjector 將各種形式的提示解析為符號音樂元素(例如情感、流派、節奏和音符),在投影空間內生成匹配的音樂。XComposer 包含一個生成器和一個選擇器。生成器基於我們創新的符號音樂表示生成可控制情感且旋律優美的音樂,而選擇器通過構建涉及質量評估、情感識別和流派識別任務的多任務學習方案來識別高質量的符號音樂。此外,我們構建了一個大規模的符號音樂數據集 XMIDI,其中包含 108,023 個帶有精確情感和流派標籤的 MIDI 文件。客觀和主觀評估顯示,XMusic 在音樂質量方面顯著優於當前最先進的方法。我們的 XMusic 被評為 2023 年 WAIC 的九大收藏品之一。XMusic 的項目主頁為 https://xmusic-project.github.io。
影像金字塔被廣泛應用於頂尖方法中,以獲取多尺度特徵,用於精確的視覺感知和理解。然而,目前的影像金字塔使用相同的大尺度模型來處理多個解析度的影像,導致顯著的計算成本。為了應對這一挑戰,我們提出了一種新穎的網絡架構,稱為參數反轉影像金字塔網絡(PIIP)。具體而言,PIIP使用預訓練模型(如ViTs或CNNs)作為分支,來處理多尺度影像,其中較高解析度的影像由較小的網絡分支處理,以平衡計算成本和性能。為了整合不同空間尺度的信息,我們進一步提出了一種新穎的跨分支特徵交互機制。為了驗證PIIP,我們將其應用於各種感知模型和一個名為LLaVA的代表性多模式大型語言模型,並在各種任務上進行了廣泛的實驗,如目標檢測、分割、影像分類和多模式理解。PIIP在計算成本更低的情況下,相較於單分支和現有的多解析度方法,實現了更優異的性能。當應用於InternViT-6B,一個大規模視覺基礎模型時,PIIP在檢測和分割方面的性能可以提高1%-2%,僅使用原始計算量的40%-60%,最終在MS COCO上實現了60.0的框AP和在ADE20K上實現了59.7的mIoU。對於多模式理解,我們的PIIP-LLaVA在TextVQA上實現了73.0%的準確率,在MMBench上實現了74.5%,僅使用了2.8M的訓練數據。我們的代碼已在https://github.com/OpenGVLab/PIIP 上發布。
我們經常與不受信任的對象互動。隱私優先原則可能限制這些互動的效果,因為實現某些目標需要共享私人數據。傳統上,應對這一挑戰通常涉及尋求可信中介或構建加密協議,限制數據揭露的範圍,例如多方計算或零知識證明。儘管加密方法取得了重大進展,但在可應用的應用程序規模和複雜性方面仍存在限制。本文主張,具有能力的機器學習模型可以擔任可信第三方的角色,從而實現以前難以實現的應用程序的安全計算。具體而言,我們描述了可信能力模型環境(TCME)作為擴展安全計算的替代方法,其中具有能力的機器學習模型在輸入/輸出約束下進行交互,具有明確的信息流控制和明確的無狀態性。這種方法旨在在隱私和計算效率之間取得平衡,實現私密推論,而傳統的加密解決方案目前難以實現。我們描述了TCME所啟用的一些用例,並展示即使是一些簡單的經典加密問題也可以使用TCME解決。最後,我們概述了目前的限制並討論實施的未來方向。
在多模態感知中,跨視角和跨模態的影像匹配扮演著至關重要的角色。在實踐中,由不同成像系統/風格引起的模態差異對匹配任務構成了巨大挑戰。現有作品試圖為特定模態提取不變特徵並在有限數據集上進行訓練,但顯示出較差的泛化能力。在本文中,我們提出了MINIMA,一個針對多種跨模態情況的統一影像匹配框架。我們的MINIMA旨在從數據擴展的角度提升通用性能,而非追求花俏的模組。為此,我們提出了一個簡單而有效的數據引擎,可以自由生成包含多種模態、豐富場景和準確匹配標籤的大型數據集。具體而言,我們通過生成模型將模態從僅包含豐富RGB匹配數據的便宜數據擴展,從而繼承了RGB數據集的匹配標籤和豐富多樣性。借助這一點,我們構建了MD-syn,一個填補一般多模態影像匹配數據差距的新綜合數據集。通過MD-syn,我們可以直接在隨機選擇的模態對上訓練任何先進的匹配管道,以獲得跨模態能力。在域內和零樣本匹配任務上進行了大量實驗,包括19個跨模態案例,結果表明我們的MINIMA可以顯著優於基線甚至超越特定模態的方法。數據集和代碼可在 https://github.com/LSXI7/MINIMA 找到。
與世界互動是一種多感官體驗:實現有效的通用互動需要利用所有可用的模態,包括視覺、觸覺和聲音,以填補部分觀察的空白。例如,當視覺被遮擋時,伸手進袋子,機器人應依賴觸覺和聲音感官。然而,目前最先進的通用機器人策略通常是通過大型數據集訓練,僅從視覺和本體感知觀察來預測機器人動作。在這項工作中,我們提出了一種名為FuSe的新方法,通過利用自然語言作為共同的跨模態基礎,使視覺運動通用策略在不readily可用大型數據集的異構感測器模態上進行微調。我們結合多模態對比損失和感官基礎語言生成損失,以編碼高層次語義。在機器人操作的背景下,我們展示了FuSe能夠執行需要在視覺、觸覺和聲音等模態之間進行聯合推理的具有挑戰性任務,例如多模態提示、組合跨模態提示和與物體互動的描述等。我們展示了相同的方法適用於廣泛不同的通用策略,包括基於擴散的通用策略和大型視覺-語言-動作(VLA)模型。在現實世界中進行的大量實驗表明,與所有考慮的基準相比,FuSe能夠將成功率提高超過20%。