每日精選AI研究論文及翻譯
大型語言模型(LLMs)的開發和評估主要集中在個別能力上。然而,這忽略了跨越不同專業領域的多種能力交集,這些能力通常在現實任務中是必需的,我們稱之為跨能力。為了系統地探索這個概念,我們首先定義了七個核心個別能力,然後將它們配對形成七種常見的跨能力,每種都由手工構建的分類法支持。基於這些定義,我們引入了CrossEval,這是一個基準測試,包括1,400個人工標註提示,每種個別和跨能力各有100個提示。為了確保可靠的評估,我們邀請專家標註者評估4,200個模型回應,收集8,400個帶有詳細解釋的人工評分,作為參考示例。我們的研究發現,在靜態評估和優化特定能力的嘗試中,當前的LLMs一貫表現出“最弱環節法則”,即跨能力表現受到最弱環節的顯著限制。具體而言,在來自17個模型的58個跨能力得分中,有38個得分低於所有個別能力,而20個介於強和弱之間,但更接近較弱的能力。這些結果突顯了LLMs在跨能力任務中的表現不佳,使得識別和改進最弱能力成為未來研究中優化在複雜、多維場景中表現的關鍵重點。
由於對用戶互動數據隱私的擔憂,大型模型推理正從雲端轉向邊緣。然而,邊緣設備通常面臨著計算能力、內存和帶寬有限的問題,需要跨多個設備進行協作以運行和加速大型模型推理。管道並行,作為主流解決方案,對於單用戶場景效率低下,而張量並行則在頻繁通信方面遇到困難。本文主張在低資源設備上,張量並行可能比管道更有效,並提出了一個計算和內存高效的張量並行推理系統,名為TPI-LLM,以服務70B級模型。TPI-LLM將敏感原始數據保留在用戶設備本地,並引入滑動窗口內存調度器,在推理期間動態管理層權重,使磁盤I/O延遲與計算和通信重疊。這使得更大型的模型能夠在內存有限的設備上平穩運行。我們分析了通信瓶頸,發現鏈路延遲而非帶寬成為主要問題,因此實施了基於星型的全局歸納算法。通過對模擬和實際測試平臺進行廣泛實驗,TPI-LLM相比於Accelerate,首個令牌時間和令牌延遲減少了80%,相比於Transformers和Galaxy減少了90%,同時將Llama 2-70B的峰值內存占用減少了90%,僅需要3.1 GB的內存來運行70B級模型。
我們介紹了Atlas-Chat,這是專門為方言阿拉伯語開發的首個大型語言模型集合。我們專注於摩洛哥阿拉伯語,也被稱為Darija,通過整合現有的Darija語言資源、手動和合成創建新的數據集,以及進行嚴格的質量控制來構建我們的指令數據集。在該數據集上進行微調的Atlas-Chat-9B和2B模型展現出在遵循Darija指令和執行標準自然語言處理任務方面的優越能力。值得注意的是,我們的模型在DarijaMMLU上表現優於當前最先進的阿拉伯語專用LLM(如LLaMa、Jais和AceGPT),例如在我們新引入的Darija評估套件中,涵蓋了區分性和生成性任務,相對於更大的13B模型實現了13%的性能提升。此外,我們對各種微調策略和基本模型選擇進行了實驗分析,以確定最佳配置。我們所有的資源都是公開可訪問的,我們認為我們的工作提供了針對低資源語言變體的指令微調全面設計方法,這些語言在當代LLM中常常被忽視,因為現有豐富的數據語言。
從文字、單張圖片或稀疏視圖生成高質量的3D內容仍然是一項具有廣泛應用的具有挑戰性的任務。現有方法通常採用多視圖擴散模型來合成多視圖圖像,然後進行3D重建的前向過程。然而,這些方法通常受制於少量且固定的輸入視圖,限制了捕捉多樣觀點的能力,甚至更糟糕的是,如果合成的視圖質量不佳,將導致次優的生成結果。為了解決這些限制,我們提出了Flex3D,一種新穎的兩階段框架,能夠利用任意數量的高質量輸入視圖。第一階段包括候選視圖生成和整理流程。我們採用了經過微調的多視圖圖像擴散模型和視頻擴散模型來生成候選視圖池,實現對目標3D物體的豐富表示。隨後,視圖選擇流程根據質量和一致性篩選這些視圖,確保只有高質量和可靠的視圖用於重建。在第二階段,經過整理的視圖被餵入一個靈活的重建模型(FlexRM),該模型基於一個可以有效處理任意數量輸入的變壓器架構。FlexRM直接輸出3D高斯點,利用三平面表示,實現高效且詳細的3D生成。通過對設計和訓練策略的廣泛探索,我們優化了FlexRM,實現了在重建和生成任務中卓越的性能。我們的結果表明,與幾個最新的前向3D生成模型相比,Flex3D在3D生成任務中的用戶研究勝率超過92%,實現了最先進的性能。
我們介紹了VideoLISA,一個基於影片的多模態大型語言模型,旨在應對影片中基於語言指示的推理分割問題。利用大型語言模型的推理能力和世界知識,並借助Segment Anything模型的增強,VideoLISA根據語言指示在影片中生成時間上一致的分割遮罩。現有基於影像的方法,如LISA,由於額外的時間維度而在處理影片任務時遇到困難,這需要對時間動態進行理解並實現跨幀的一致分割。VideoLISA通過將稀疏密集採樣策略整合到影片-LLM中來應對這些挑戰,這有助於在計算限制內平衡時間上下文和空間細節。此外,我們提出了一種使用特殊設計的<TRK>標記的One-Token-Seg-All方法,使模型能夠跨多個幀分割和追蹤物件。在包括我們新引入的ReasonVOS基準測試在內的多個基準測試上進行了廣泛評估,顯示了VideoLISA在涉及複雜推理、時間理解和物件追蹤的影片物件分割任務中優異的性能。雖然針對影片進行了優化,但VideoLISA還展示了對圖像分割的潛在泛化能力,揭示了其作為語言指示物件分割的統一基礎模型的潛力。代碼和模型將在以下鏈接提供:https://github.com/showlab/VideoLISA。
在這份工作中,我們分享了實現我們的文本到圖像動漫生成模型Illustrious達到最先進品質的見解。為了實現高解析度、動態色彩範圍圖像和高還原能力,我們專注於三個關鍵方法以改進模型。首先,我們深入探討了批次大小和輸出層控制的重要性,這使得可控的基於標記的概念激活更快地學習。其次,我們提高了圖像的訓練解析度,影響了在更高解析度下對角色解剖的準確描述,並通過適當方法將其生成能力擴展到超過20MP。最後,我們提出了精煉的多級標題,涵蓋所有標籤和各種自然語言標題,作為模型發展的關鍵因素。通過廣泛的分析和實驗,Illustrious在動畫風格方面展現了最先進的性能,勝過插畫領域中廣泛使用的模型,推動更容易的定製和個性化,並具有開源性質。我們計劃按順序公開發布更新的Illustrious模型系列,以及持續改進的計劃。
擴散模型已成為一種強大的生成技術,並被發現適用於各種情境。大多數現有的基礎擴散模型主要設計用於文本引導的視覺生成,並不支援多模態條件,而這對於許多視覺編輯任務至關重要。這種限制阻礙了這些基礎擴散模型在視覺生成領域中像 GPT-4 在自然語言處理領域中一樣作為統一模型。在這項工作中,我們提出 ACE,一個全能創作者和編輯,其在各種視覺生成任務中實現了與專家模型相當的性能。為了實現這一目標,我們首先引入了統一的條件格式,稱為長上下文條件單元(LCU),並提出了一種使用 LCU 作為輸入的新型基於 Transformer 的擴散模型,旨在跨越各種生成和編輯任務進行聯合訓練。此外,我們提出了一種有效的數據收集方法來解決缺乏可用訓練數據的問題。它涉及使用基於合成或基於聚類的流水線獲取成對圖像,並通過利用微調的多模態大型語言模型為這些成對圖像提供準確的文本指令。為了全面評估我們模型的性能,我們建立了一個手動標註的成對數據基準,涵蓋各種視覺生成任務。廣泛的實驗結果顯示了我們模型在視覺生成領域的優越性。由於我們模型的全能功能,我們可以輕鬆構建一個多模態聊天系統,使用單一模型作為後端來回應任何關於圖像創建的互動請求,避免了通常在視覺代理中使用的繁瑣流水線。代碼和模型將在項目頁面上提供:https://ali-vilab.github.io/ace-page/。
自動駕駛技術的進步越來越依賴高質量的標註數據集,特別是在3D佔有預測任務中,佔有標籤需要密集的3D標註,需要大量人力。在本文中,我們提出了SyntheOcc,這是一種表示擴散模型,通過條件化駕駛場景中的佔有標籤,合成照片逼真且幾何可控的圖像。這為訓練感知模型和模擬等應用提供了無限量的多樣化、標註和可控數據集。SyntheOcc解決了一個關鍵挑戰,即如何將3D幾何信息有效編碼為2D擴散模型的條件輸入。我們的方法創新地將3D語義多平面圖像(MPIs)納入,以提供全面且空間對齊的3D場景描述進行條件化。因此,SyntheOcc能夠生成與給定幾何標籤(3D體素空間中的語義)忠實對齊的照片逼真的多視圖圖像和視頻。對nuScenes數據集上對SyntheOcc進行的廣泛定性和定量評估證明了它在生成可控佔有數據集方面的有效性,這對感知模型是一種有效的數據擴增。
大型多模型(LMMs)在短视频理解任務中展現出令人印象深刻的性能,但在應用於長視頻理解時面臨巨大挑戰。相比之下,大型語言模型(LLMs)在建模長文本方面表現出色。現有研究試圖通過在訓練期間引入長視頻文本對來解決此問題。然而,這些方法需要大量的計算和數據資源。本文從上下文窗口的角度來應對長視頻理解的挑戰,旨在將LMMs應用於長視頻任務,而無需對長視頻數據集進行重新訓練。我們首先深入分析了預訓練的LMMs為何難以理解冗長的視頻內容,發現視覺和語言模態之間的差異導致視覺和語言標記具有不同的上下文窗口,使得直接擴展視覺標記以匹配語言上下文窗口變得困難。基於此,我們提出通過擴展視覺上下文窗口來適應長視頻理解任務,消除對大規模長視頻數據集進行重新訓練的需求。為了進一步減輕由長序列引起的顯著內存消耗,我們引入了一種漸進式池化推理策略,通過選擇性調整幀嵌入的空間分辨率,減少視覺標記的數量,同時保留重要的空間信息。在多個長視頻理解基準測試中,我們的方法在視頻幀數增加時持續改善性能。在MLVU基準測試中,即使我們的模型大小僅為7B,我們的方法也優於GPT-4o。此外,在256幀設置中,我們的方法將內存使用量與基準相比約降低45%,而不會引入任何性能損失。
通常,逼真圖像修復演算法的評估是通過失真度量(例如 PSNR、SSIM)和感知質量度量(例如 FID、NIQE)來進行的,其中的目標是在不影響感知質量的情況下實現最低可能的失真。為了實現這一目標,目前的方法通常嘗試從後驗分佈中進行抽樣,或者優化失真損失(例如 MSE)和感知質量損失(例如 GAN)的加權和。與以往的研究不同,本文專注於在完美感知指數約束下最小化 MSE 的最優估計器,即重建圖像的分佈等於地面實況圖像的分佈。最近的理論結果表明,通過將後驗均值預測(MMSE 估計)最優地運輸到地面實況圖像的分佈,可以構建這樣的估計器。受此結果啟發,我們介紹了後驗均值矯正流(PMRF),這是一種簡單但非常有效的演算法,用於近似這種最優估計器。具體來說,PMRF 首先預測後驗均值,然後使用一個近似所需最優運輸映射的矯正流模型將結果運輸到高質量圖像。我們研究了 PMRF 的理論效用並證明它在各種圖像修復任務上始終優於以前的方法。
我們提出了一種從單眼視頻中重建時間一致的人體模型的方法,重點放在極鬆散的服裝或手持物體的互動上。先前的人體重建工作要麼僅限於緊身服裝且無物體互動,要麼需要校準的多視圖捕獲或個性化模板掃描,這在大規模收集時成本高昂。我們實現高質量且靈活重建的關鍵在於將有關人體骨架的通用先驗(從大規模訓練數據中學習)與視頻特定的關節“骨袋”變形(通過測試時優化適合單個視頻)巧妙結合。我們通過學習一個神經隱式模型來實現這一點,該模型將身體和服裝變形解開為獨立的運動模型層。為了捕捉服裝微妙的幾何形狀,我們在優化過程中利用基於圖像的先驗,如人體姿勢、表面法線和光流。生成的神經場可以提取為時間一致的網格,或進一步優化為明確的3D高斯函數,以進行高保真的交互式渲染。在具有極具挑戰性的服裝變形和物體互動的數據集上,DressRecon比先前的技術產生了更高保真度的3D重建。項目頁面:https://jefftan969.github.io/dressrecon/
基於學習的方法已經在四足動物的運動中取得了強大的表現。然而,有幾個挑戰阻礙了四足動物學習室內需要與環境和人類互動的有用技能:缺乏用於操作的末端效應器、僅使用模擬數據的有限語義理解,以及在室內環境中的低可穿透性和可達性。我們提出了一個用於室內四足移動操作的系統。它使用前置夾爪進行物體操作,通過在模擬中使用自我中心深度訓練的低層控制器實現敏捷技能,例如攀爬和全身傾斜,以及使用預先訓練的視覺語言模型(VLMs)配備第三人稱魚眼攝像頭和自我中心RGB攝像頭進行語義理解和命令生成。我們在兩個未知環境中評估了我們的系統,而無需進行任何真實世界的數據收集或訓練。我們的系統可以零樣本泛化到這些環境並完成任務,例如在爬過一張大床後按照用戶的命令找到一個隨機放置的玩具,成功率為60%。項目網站:https://helpful-doggybot.github.io/
機器翻譯(MT)中的性別偏見被認為是可能傷害人們和社會的問題。然而,在這個領域的進展很少涉及最終的MT使用者,或者告知他們可能受到偏見技術影響的方式。目前的評估通常僅限於自動方法,這些方法提供了對性別差異可能帶來的下游影響的不透明估計。我們進行了一項廣泛的以人為中心的研究,以檢驗MT中的偏見是否以及在多大程度上帶來了實際成本的危害,例如在女性和男性之間的服務質量差距。為此,我們從90名參與者收集行為數據,他們對MT輸出進行了後期編輯,以確保正確的性別翻譯。在多個數據集、語言和用戶類型中,我們的研究顯示,女性後期編輯需求明顯需要更多的技術和時間成本,這也對應著更高的財務成本。然而,現有的偏見測量未能反映出發現的差異。我們的研究結果主張採用以人為中心的方法,以便了解偏見的社會影響。
機器人在探索和學習方面沒有極限,但所有知識都需要是可搜索和可操作的。在語言研究中,檢索增強生成(RAG)已成為大規模非參數化知識的主要工具,但現有技術無法直接應用於具身域,該領域是多模態的,數據高度相關,並且感知需要抽象化。 為應對這些挑戰,我們引入了具身式RAG,這是一個框架,通過非參數化記憶系統增強了具身式代理的基礎模型,該系統能夠自主構建用於導航和語言生成的層次知識。具身式RAG處理各種環境和查詢類型的空間和語義分辨率範圍,無論是針對特定對象還是對環境氛圍的整體描述。在其核心,具身式RAG的記憶結構為語義樹,以不同細節層次存儲語言描述。這種層次組織使系統能夠在不同機器人平台上高效生成上下文敏感的輸出。我們展示了具身式RAG有效地將RAG橋接到機器人領域,成功處理了19個環境中超過200個解釋和導航查詢,凸顯了其作為具身式代理通用非參數系統的潛力。