每日精選AI研究論文及翻譯
隨著大規模語言和電腦視覺模型中的上下文學習範式取得成功,最近新興的上下文強化學習領域正在迅速增長。然而,由於缺乏具挑戰性的基準測試,其發展一直受到阻礙,因為所有實驗都在簡單環境和小規模數據集上進行。我們提出了XLand-100B,這是一個基於XLand-MiniGrid環境的大規模上下文強化學習數據集,作為緩解這個問題的第一步。它包含近30,000個不同任務的完整學習歷史,涵蓋100B個轉換和25億個情節。收集這個數據集耗費了50,000個GPU小時,這已經超出了大多數學術實驗室的能力範圍。除了數據集,我們還提供了工具,以再現或進一步擴展它。通過這一重大努力,我們的目標是使快速增長的上下文強化學習領域的研究民主化,並為進一步擴展奠定堅實基礎。代碼是開源的,並在Apache 2.0許可下提供,網址為https://github.com/dunno-lab/xland-minigrid-datasets。
儘管文本到圖像擴散模型取得了前所未有的成功,但使用文本控制所描繪物件的數量卻出奇地困難。這對於從技術文件到兒童書籍再到烹飪食譜的各種應用都很重要。生成正確的物件計數在根本上是具有挑戰性的,因為生成模型需要保持對每個物件實例的獨立身份感,即使有些物件看起來相同或重疊,然後在生成過程中隱含地進行全局計算。目前還不清楚這樣的表示是否存在。為了解決正確計數的生成問題,我們首先識別了擴散模型中能夠攜帶物件身份信息的特徵。然後在去噪過程中使用這些特徵來分離和計算物件的實例,並檢測過度生成和不足生成。我們通過訓練一個模型來修復後者,該模型基於現有物件的佈局預測缺失物件的形狀和位置,並展示了如何使用它來引導帶有正確物件計數的去噪。我們的方法 CountGen 不依賴外部來源來確定物件佈局,而是使用擴散模型本身的先驗,創建了取決於提示和種子的佈局。在兩個基準數據集上評估,我們發現 CountGen 在計數準確性方面明顯優於現有基準的表現。
我們引入了一個新的基準,名為ChartMimic,旨在評估大型多模態模型(LMMs)的視覺導向程式碼生成能力。ChartMimic利用資訊密集的視覺圖表和文字指示作為輸入,要求LMMs生成用於圖表呈現的相應程式碼。ChartMimic包含1,000個人工精選的(圖表,指示,程式碼)三元組,代表科學論文中各個領域(例如物理學,計算機科學,經濟學等)中發現的真實圖表使用案例。這些圖表涵蓋18種常規類型和4種高級類型,分為191個子類別。此外,我們提出了多級評估指標,以提供對輸出程式碼和呈現的圖表進行自動和全面評估。與現有的程式碼生成基準不同,ChartMimic著重評估LMMs協調一系列認知能力的能力,包括視覺理解、程式碼生成和跨模態推理。對3個專有模型和11個開放權重模型的評估突顯了ChartMimic帶來的重大挑戰。即使是先進的GPT-4V、Claude-3-opus的平均分別僅達到73.2和53.7,顯示有很大的改進空間。我們預期ChartMimic將激發LMMs的發展,推動人工通用智能的追求。
隨著多模態大型語言模型(MLLMs)的快速發展,它們的評估變得日益全面。然而,理解長篇多模態內容,作為現實應用的基礎能力,仍然未被充分探討。在這項工作中,我們提出了針對多模態大型語言模型理解長篇多模態文件能力的第一個基準測試,名為Needle In A Multimodal Haystack(MM-NIAH)。我們的基準測試包括三種類型的評估任務:多模態檢索、計數和推理。在每個任務中,模型需要根據給定的多模態文件中分散的不同關鍵信息來回答問題。通過在MM-NIAH上評估領先的MLLMs,我們觀察到現有模型在這些任務上仍有顯著的改進空間,特別是在以視覺為中心的評估上。我們希望這項工作能為進一步研究長篇多模態文件理解提供平台,並有助於推動MLLMs的發展。代碼和基準測試已在https://github.com/OpenGVLab/MM-NIAH 上發布。
近年來,大型語言模型(LLMs)的輸入上下文大小急劇增加。然而,現有的評估方法未能跟上步伐,未能全面評估模型處理長上下文的效率。為彌補這一差距,我們引入了BABILong基準,旨在測試語言模型在處理分佈在極長文檔中的事實時的推理能力。BABILong包括一系列多樣的20個推理任務,包括事實鏈接、簡單歸納、演繹、計數以及處理列表/集合。這些任務本身就具有挑戰性,當所需事實分佈在長篇自然文本中時,更加困難。我們的評估顯示,熱門的LLMs僅有效利用10-20%的上下文,隨著推理複雜度的增加,性能急劇下降。在與上下文推理相關的替代方法中,檢索增強生成方法在單事實問答上實現了60%的準確率,與上下文長度無關。在上下文擴展方法中,循環記憶變壓器展現了最佳性能,能夠處理長達1100萬標記的文本。BABILong基準可擴展到任意長度,以支持對具有增強功能的新模型的評估,我們提供了長達100萬標記長度的數據集。
東南亞(SEA)是一個語言多樣性和文化多樣性豐富的地區,擁有超過1,300種土著語言和6.71億人口。然而,現有的人工智慧模型在東南亞地區的文本、圖像和音頻數據集方面嚴重缺乏代表性,影響了針對該地區語言的人工智慧模型的質量。由於高質量數據集稀缺,再加上英語訓練數據的主導地位,評估東南亞語言模型具有挑戰性,引發對潛在文化誤代表的擔憂。為應對這些挑戰,我們引入SEACrowd,這是一個協作倡議,整合了一個全面的資源中心,通過提供標準化的語料庫,填補了近1,000種東南亞語言的資源空缺,涵蓋三種模式。通過我們的SEACrowd基準測試,我們評估了36種土著語言在13個任務上的人工智慧模型質量,為東南亞當前人工智慧格局提供了寶貴見解。此外,我們提出了促進更大人工智慧進步的策略,最大程度地發揮未來東南亞人工智慧的潛在效用和資源公平性。
圖像文本交錯數據是由多個圖像和文本以自然文件格式排列組合而成,符合互聯網數據呈現範式,並密切符合人類閱讀習慣。最近的研究表明,這樣的數據有助於多模態上下文學習,並在多模態微調期間保持大型語言模型的能力。然而,目前圖像文本交錯數據的規模和多樣性有限,限制了多模態大型語言模型的發展。在本文中,我們介紹了 OmniCorpus,一個規模達 100 億的圖像文本交錯數據集。通過高效的數據引擎,我們過濾並提取了包含 86 億圖像和 1,696 億文本標記的大規模高質量文檔。與同行(如 MMC4、OBELICS)相比,我們的數據集 1)規模大 15 倍,同時保持良好的數據質量;2)來源更加多樣,包括英語和非英語網站以及以視頻為中心的網站;3)更加靈活,可輕鬆從圖像文本交錯格式轉換為純文本語料庫和圖像文本對。通過全面分析和實驗,我們驗證了所提出數據集的質量、可用性和有效性。我們希望這可以為未來多模態模型研究提供堅實的數據基礎。代碼和數據已在 https://github.com/OpenGVLab/OmniCorpus 上發布。
智能手機用戶經常在多個應用程式之間導航,以完成諸如在社交媒體平台之間分享內容等任務。自主圖形使用者介面(GUI)導航代理可以通過簡化工作流程和減少手動干預來增強用戶在通訊、娛樂和生產力方面的體驗。然而,先前的GUI代理通常是使用包含可以在單個應用程式內完成的簡單任務的數據集進行訓練,這導致在跨應用程式導航方面表現不佳。為解決這個問題,我們引入了GUI Odyssey,這是一個用於訓練和評估跨應用程式導航代理的全面數據集。GUI Odyssey 包括來自6部移動設備的7,735個情節,涵蓋6種跨應用程式任務、201個應用程式和1.4K個應用程式組合。通過利用GUI Odyssey,我們開發了OdysseyAgent,一個多模式跨應用程式導航代理,通過對Qwen-VL模型進行微調並加入歷史重採樣模塊。大量實驗證明OdysseyAgent相對於現有模型具有更高的準確性。例如,OdysseyAgent在域內準確性方面超越了微調的Qwen-VL和零樣本GPT-4V分別達到1.44\%和55.49\%,在域外準確性方面平均分別達到2.29\%和48.14\%。數據集和代碼將在https://github.com/OpenGVLab/GUI-Odyssey 上發布。
最近,Glyph-ByT5 在圖形設計圖像中實現了高度準確的視覺文本呈現性能。然而,它仍然僅專注於英文,在視覺吸引力方面表現相對較差。在這項工作中,我們通過提出 Glyph-ByT5-v2 和 Glyph-SDXL-v2 來解決這兩個基本限制,這兩者不僅支持 10 種不同語言的準確視覺文本呈現,還實現了更好的美學質量。為了實現這一目標,我們做出了以下貢獻:(i) 創建了一個高質量的多語言字形文本和圖形設計數據集,包括超過 100 萬個字形文本對和 1000 萬個圖形設計圖像文本對,涵蓋其他九種語言,(ii) 構建了一個多語言視覺段落基準測試,包括 1000 個提示,每種語言 100 個,用於評估多語言視覺拼寫準確性,以及(iii) 利用最新的步驟感知偏好學習方法來增強視覺美學質量。通過這些技術的結合,我們提供了一個強大的定制多語言文本編碼器 Glyph-ByT5-v2,以及一個強大的美學圖形生成模型 Glyph-SDXL-v2,可以支持 10 種不同語言的準確拼寫。考慮到最新的 DALL-E3 和 Ideogram 1.0 仍然在多語言視覺文本呈現任勞任怨,我們認為我們的工作是一個重大的進步。
最近開發的大型語言模型(LLMs)如ChatGPT、Claude和Llama展示了令人印象深刻的能力,甚至在幾項任務中超越了人類水平的表現。儘管取得成功,這些模型對資源的需求巨大,需要大量的計算資源進行訓練和推理,限制了它們僅能部署在高性能伺服器上。此外,模型的廣泛計算需求通常導致回應時間的延遲增加。隨著對LLMs在CPU上高效運行的需求增加,出現了針對CPU推理進行優化的輕量級模型的研究。在這項工作中,我們介紹了GEB-1.3B,一個在中文和英文語言中訓練了5500億標記的輕量級LLM。我們採用了新穎的訓練技術,包括ROPE、Group-Query-Attention和FlashAttention-2,以加速訓練同時保持模型性能。此外,我們使用1000萬條指令數據樣本對模型進行微調以增強對齊。GEB-1.3B在MMLU、C-Eval和CMMLU等通用基準測試中表現優異,勝過MindLLM-1.3B和TinyLLaMA-1.1B等對比模型。值得注意的是,GEB-1.3B的FP32版本在CPU上實現了可觀的推理時間,並通過先進的量化技術不斷努力進一步提高速度。GEB-1.3B作為一個開源模型的釋出對輕量級LLMs的發展做出了重要貢獻,有望促進該領域進一步的研究和創新。
我們提出了一種無需訓練且穩健的解決方案,為現成的影片擴散模型提供攝影機移動控制。與先前的工作不同,我們的方法不需要在攝影機標註數據集上進行監督微調或通過數據擴增進行自監督訓練。相反,它可以與大多數預訓練的影片擴散模型相容,並且能夠通過單張圖像或文本提示生成可控攝影機的影片。我們的工作靈感來自中間潛變量對生成結果的佈局先驗,因此重新排列其中的噪點像素將使輸出內容重新分配。由於攝影機移動也可以被視為由於透視變化而導致的像素重新排列,如果它們的噪聲潛變量相應地改變,則影片可以按照特定攝影機運動重新組織。基於此,我們提出了我們的方法CamTrol,它實現了對影片擴散模型的穩健攝影機控制。這是通過兩階段過程實現的。首先,我們通過三維點雲空間中的明確攝影機移動來建模圖像佈局重新排列。其次,我們使用一系列重新排列的圖像形成的噪聲潛變量的佈局先驗來生成帶有攝影機運動的影片。大量實驗證明了我們的方法在控制生成影片的攝影機運動方面的穩健性。此外,我們展示了我們的方法在生成具有動態內容的三維旋轉影片方面能夠產生令人印象深刻的結果。項目頁面位於https://lifedecoder.github.io/CamTrol/。
對話式LLMs 作為黑盒系統運作,讓使用者猜測他們看到特定輸出的原因。這種缺乏透明度可能存在問題,尤其在關注偏見和真實性的情況下。為了解決這個問題,我們提出了一個端對端原型,將可解釋性技術與使用者體驗設計相結合,旨在使聊天機器人更加透明。我們首先展示了一個知名的開源LLM具有“使用者模型”的證據:通過檢查系統的內部狀態,我們可以提取與使用者年齡、性別、教育水平和社會經濟地位相關的數據。接下來,我們描述了一個附帶在聊天機器人界面中的儀表板的設計,實時顯示這個使用者模型。該儀表板還可用於控制使用者模型和系統行為。最後,我們討論了一項研究,其中使用者與該儀器化系統進行了對話。我們的結果表明,使用者喜歡看到內部狀態,這有助於他們揭露偏見行為並增加他們的控制感。參與者還提出了寶貴的建議,指出了未來設計和機器學習研究的方向。我們的TalkTuner系統的項目頁面和視頻演示可在https://bit.ly/talktuner-project-page 上找到。
圖形使用者介面(GUI)自動化對提升人類生產力具有重要潛力,可輔助電腦任務。現有任務制定主要集中在可以透過單一語言指令(例如“插入新投影片”)來指定的簡單任務上。在這項研究中,我們介紹了VideoGUI,這是一個新穎的多模態基準,旨在評估視覺中心的GUI任務上的GUI助手。從高質量的網絡教學視頻中獲取,我們的基準著重於涉及專業和新穎軟件(例如Adobe Photoshop或Stable Diffusion WebUI)以及複雜活動(例如視頻編輯)的任務。VideoGUI通過分層過程評估GUI助手,允許識別它們可能失敗的具體層次:(i)高層級規劃:從視覺條件中重建程序性子任務,而無需語言描述;(ii)中層級規劃:根據視覺狀態(即截圖)和目標生成精確動作敘述的序列;(iii)原子動作執行:執行特定動作,如準確點擊指定元素。對於每個層次,我們設計了跨個別維度的評估指標,以提供清晰的信號,例如在原子動作執行中點擊、拖動、打字和滾動的個別表現。我們在VideoGUI上的評估顯示,即使是最先進的大型多模態模型GPT4o在視覺中心的GUI任務上表現不佳,特別是在高層級規劃方面。
最近的文本轉視頻(T2V)技術進步,如Gen2、Pika和Sora等模型所展示的,顯著擴大了其應用範圍和受歡迎程度。儘管取得了這些進展,評估這些模型仍然面臨著重大挑戰。主要是由於自動指標固有的限制,手動評估通常被認為是評估T2V生成的一種更優越方法。然而,現有的手動評估協議存在著可重現性、可靠性和實用性問題。為了應對這些挑戰,本文介紹了文本轉視頻人工評估(T2VHE)協議,這是一個全面且標準化的T2V模型協議。T2VHE協議包括明確定義的指標、詳盡的標註者培訓以及一個有效的動態評估模塊。實驗結果表明,該協議不僅確保了高質量的標註,還可以將評估成本降低近50%。我們將開源T2VHE協議的整個設置,包括完整的協議工作流程、動態評估組件細節和標註界面代碼。這將幫助社群建立更複雜的人工評估協議。
大型語言模型可能會記憶並重複其訓練數據,導致隱私和版權風險。為了減輕記憶,我們引入了對下一令牌訓練目標的微妙修改,我們稱之為金魚損失。在訓練期間,從損失計算中排除了隨機抽樣的令牌子集。這些被放棄的令牌不會被模型記憶,這可以防止從訓練集中完全重現一整個令牌鏈。我們進行了大量實驗,訓練了十億規模的Llama-2模型,包括預訓練和從頭開始訓練,並展示了可提取記憶的顯著減少,對下游基準幾乎沒有影響。
儘管擴散模型在2D影像/影片生成方面表現出色,基於擴散的文本到多視角影片(T2MVid)生成仍未受到充分探索。T2MVid生成所帶來的新挑戰在於缺乏大量標註的多視角影片以及對建模此多維分佈的複雜性。為此,我們提出了一種新穎的基於擴散的流程,可以生成以動態3D物體為中心的高質量多視角影片,並從文本中生成。具體而言,我們將T2MVid問題分解為視角空間和時間組件。這種分解使我們能夠結合和重複使用先進的預訓練多視角影像和2D影片擴散模型的層,以確保生成的多視角影片具有多視角一致性和時間一致性,從而大大降低了訓練成本。我們進一步引入了對齊模組,以對齊來自預訓練多視角和2D影片擴散模型的層的潛在空間,解決了由於2D和多視角數據之間的領域差距而產生的重複使用層的不相容性。為了支持當前和未來的研究,我們進一步貢獻了一個帶標註的多視角影片數據集。實驗結果表明,我們的方法可以生成高質量的多視角影片,展現出生動的運動、時間一致性和多視角一致性,並給出各種文本提示。
新視角聲學合成(NVAS)旨在在任何目標視點呈現雙耳音頻,假設在3D場景中由聲源發出單聲道音頻。現有方法提出了基於NeRF的隱式模型,以利用視覺線索作為合成雙耳音頻的條件。然而,除了由於繁重的NeRF渲染而產生的效率低下外,這些方法都有限制能力來描述整個場景環境,如房間幾何形狀、材料特性以及聽眾與聲源之間的空間關係。為解決這些問題,我們提出了一個新的音視覺高斯點擴散(AV-GS)模型。為了獲得用於音頻合成的具有材料感知和幾何感知條件,我們學習了一個明確的基於點的場景表示,帶有一個在局部初始化的高斯點上的音頻引導參數,考慮了從聽眾到聲源的空間關係。為了使視覺場景模型具有音頻適應性,我們提出了一種點密集化和修剪策略,以最佳方式分佈高斯點,每個點在聲音傳播中的貢獻(例如,對於無紋理牆面,需要更多點,因為它們影響聲音路徑的轉向)。大量實驗驗證了我們的AV-GS在現實世界RWAS和基於模擬的SoundSpaces數據集上相對現有替代方案的優越性。
在這項工作中,我們研究如何建立一個機器人系統,能夠根據語言指示解決多個3D操作任務。為了在工業和家庭領域有所用途,這樣的系統應該能夠在少數示範中學習新任務並精確解決它們。之前的研究,如PerAct和RVT,已經研究過這個問題,然而,它們常常在需要高精度的任務上遇到困難。我們研究如何使它們更有效、更精確和更快速。通過結構和系統級別的改進結合,我們提出了RVT-2,一個多任務3D操作模型,其訓練速度提高了6倍,推論速度提高了2倍,比其前身RVT更快。RVT-2在RLBench上實現了新的最先進水平,將成功率從65%提高到82%。RVT-2在現實世界中也表現出色,它可以僅通過10次示範學習需要高精度的任務,如拾取和插入插頭。視覺結果、代碼和訓練模型可在以下網址找到:https://robotic-view-transformer-2.github.io/。
從低解析度的輸入視圖實現高解析度新視圖合成(HRNVS)是一項具有挑戰性的任務,原因在於缺乏高解析度的數據。先前的方法優化高解析度的神經輻射場(NeRF)以從低解析度的輸入視圖中獲得,但渲染速度較慢。在這項研究中,我們基於 3D 高斯飛濺(3DGS)的方法,因其能夠以更快的渲染速度生成高質量圖像。為了減輕高解析度合成所需數據的不足,我們提出利用現成的 2D 擴散先驗,通過使用得分蒸餾取得 2D 知識並轉化為 3D。然而,將得分蒸餾直接應用於基於高斯的 3D 超分辨率會導致不必要和冗餘的 3D 高斯基元,這是由生成先驗帶來的隨機性所導致的。為了緩解這個問題,我們引入了兩種簡單而有效的技術來減少得分蒸餾引入的隨機干擾。具體來說,我們 1)通過一種退火策略縮小 SDS 中擴散時間步的範圍;2)在密集化過程中隨機丟棄冗餘的高斯基元。大量實驗表明,我們提出的 GaussainSR 能夠在合成和真實世界數據集上僅使用低解析度輸入即可獲得 HRNVS 的高質量結果。項目頁面:https://chchnii.github.io/GaussianSR/
這篇綜述論文全面概述了印度語言中大型語言模型(LLM)的研究方向。印度語言是指印度次大陸地區的語言,包括印度、巴基斯坦、孟加拉、斯里蘭卡、尼泊爾和不丹等國家。這些語言擁有豐富的文化和語言遺產,全球有超過 15 億人口使用。隨著自然語言處理(NLP)應用在多種語言中市場潛力巨大且需求不斷增長,印度語言的生成應用為研究帶來獨特的挑戰和機遇。我們的論文深入探討了印度生成模型的最新進展,提出了一個研究方向的分類,列出了 84 篇近期出版物。本文調查的研究方向包括LLM的開發、微調現有LLM、語料庫的開發、基準測試和評估,以及針對特定技術、工具和應用的出版物。我們發現,各出版物中的研究人員都強調了有限數據可用性、缺乏標準化以及印度語言的獨特語言複雜性所帶來的挑戰。這項工作旨在成為NLP領域從事研究和實踐的價值資源,特別是那些專注於印度語言的人,並有助於為這些語言開發更準確和高效的LLM應用。
我們提出了 MaskLID,一種簡單而有效的代碼轉換(CS)語言識別(LID)方法。MaskLID 不需要任何訓練,旨在補充當前高性能的句級LID。句級LID 是在單語文本上訓練的分類器,通常使用 softmax 層將分數轉換為概率,以提供單一標籤。然而,在句子同時包含 L1 和 L2 語言的情況下,LID 分類器通常只返回主導標籤 L1。為解決這一限制,MaskLID 使用一種策略來遮蔽與 L1 相關的文本特徵,使得 LID 能在下一輪將文本分類為 L2。該方法利用 LID 本身來識別需要遮蔽的特徵,並不依賴任何外部資源。在這項工作中,我們探討了 MaskLID 在兩個基於 FastText 結構的開源 LID(GlotLID 和 OpenLID)上的應用。代碼和演示可在 https://github.com/cisnlp/MaskLID 上找到。