每日精選AI研究論文及翻譯
大型語言模型(LLMs)和指導調整的興起導致了目前指導調整的大型語言和視覺模型(LLVMs)的趨勢。這一趨勢涉及精心策劃許多針對特定目標量身定制的指導調整數據集,或者擴大LLVMs以處理龐大的視覺語言(VL)數據量。然而,目前的LLVMs忽略了從專門的計算機視覺(CV)模型中獲得的詳盡和全面的現實場景理解,這些模型在視覺感知任務中,如分割、檢測、場景圖生成(SGG)和光學字符識別(OCR)方面具有豐富的信息。相反,現有的LLVMs主要依賴於其LLM骨幹的大容量和新興功能。因此,我們提出了一種新的LLVM,即全智能混合體(MoAI),它利用從外部分割、檢測、SGG和OCR模型的輸出中獲得的輔助視覺信息。MoAI通過兩個新引入的模塊運作:MoAI-壓縮器和MoAI-混合器。在將外部CV模型的輸出轉化為文字後,MoAI-壓縮器對其進行對齊和壓縮,以有效地利用相關的輔助視覺信息進行VL任務。MoAI-混合器然後通過利用專家混合的概念,混合三種智能(1)視覺特徵,(2)外部CV模型的輔助特徵,以及(3)語言特徵。通過這種整合,MoAI在眾多零樣本VL任務中明顯優於開源和封閉源LLVMs,特別是與現實場景理解相關的任務,如對象存在、位置、關係和OCR,而無需擴大模型大小或策劃額外的視覺指導調整數據集。
我們介紹了Chronos,一個簡單而有效的預訓練概率時間序列模型框架。Chronos將時間序列值使用縮放和量化分為固定詞彙,並通過交叉熵損失在這些被標記的時間序列上訓練現有基於Transformer的語言模型架構。我們基於T5系列(參數範圍從20M到710M)在大量公開數據集上預訓練了Chronos模型,這些數據集還包括我們通過高斯過程生成的合成數據集,以提高泛化能力。在包含42個數據集的全面基準測試中,涵蓋了傳統的本地模型和深度學習方法,我們展示了Chronos模型:(a)在訓練語料庫中的數據集上明顯優於其他方法;以及(b)在新數據集上具有可比甚至優越的零樣本性能,相對於專門針對它們進行訓練的方法。我們的結果表明,Chronos模型可以利用來自不同領域的時間序列數據,以提高在未見的預測任務上的零樣本準確性,將預訓練模型定位為極大簡化預測管道的可行工具。
我們研究了訓練大型語言模型(LLMs)在多個專業領域具有能力的高效方法,例如編碼、數學推理和世界知識。我們的方法名為Branch-Train-MiX(BTX),從一個種子模型開始,將其分支為專家,以尷尬地並行的方式進行高通量訓練,並降低通信成本。在個別專家異步訓練後,BTX將它們的前向參數作為專家組合在Mixture-of-Expert(MoE)層中,並平均剩餘參數,然後進行MoE微調階段以學習基於標記的路由。BTX泛化了兩種特殊情況,即Branch-Train-Merge方法,該方法沒有MoE微調階段來學習路由,以及稀疏升級,該方法省略了異步訓練專家的階段。與替代方法相比,BTX實現了最佳的準確性和效率的折衷。
在視覺語言模型(VLMs)的發展中,高質量的人工標註圖像語句數據集的創建是一個重要的瓶頸。我們提出了一種新方法,利用大型語言模型(LLMs)和圖像生成模型的優勢,為高效和有效的VLM訓練創建合成圖像文本對。我們的方法採用預訓練文本到圖像模型,從LLM生成的標題開始合成圖像嵌入。然後使用這些合成對來訓練VLM。廣泛的實驗表明,使用合成數據訓練的VLM在圖像標題上表現出色,同時所需的數據量僅為僅使用人工標註數據訓練的模型的一小部分。特別是,通過合成數據集的增強,我們超越了基準線17%。此外,我們展示,在圖像嵌入空間中進行合成比在像素空間中快25%。這項研究引入了一種有前途的技術,用於生成大規模、可定制的圖像數據集,從而提高VLM的性能並在各個領域中擁有更廣泛的應用,同時提高了數據效率和資源利用率。
在生成式電腦視覺中,人類動作生成被視為一個重要的追求,然而實現長序列和高效的動作生成仍然具有挑戰性。最近在狀態空間模型(SSMs)方面的進展,特別是Mamba,展示了在長序列建模方面具有顯著潛力,並具有高效的硬體感知設計,這似乎是構建動作生成模型的一個有前途的方向。然而,將SSMs適應到動作生成面臨困難,因為缺乏一個專門設計的架構來建模動作序列。為了應對這些挑戰,我們提出了Motion Mamba,這是一種簡單而高效的方法,提出了首創的動作生成模型,利用了SSMs。具體來說,我們設計了一個分層時間Mamba(HTM)塊,通過在對稱U-Net架構中組合不同數量的獨立SSM模塊來處理時間數據,旨在保持幀之間的動作一致性。我們還設計了一個雙向空間Mamba(BSM)塊,以雙向處理潛在姿勢,以增強在時間幀內的準確動作生成。我們提出的方法在HumanML3D和KIT-ML數據集上相比於先前最佳的基於擴散的方法,實現了高達50%的FID改進和高達4倍的速度提升,展示了高質量長序列動作建模和實時人類動作生成的強大能力。請參閱項目網站https://steve-zeyu-zhang.github.io/MotionMamba/
我們介紹了DragAnything,它利用實體表示來實現可控視頻生成中任何物體的運動控制。與現有的運動控制方法相比,DragAnything提供了幾個優勢。首先,基於軌跡的方法對於互動更加用戶友好,當獲取其他引導信號(例如遮罩、深度圖)需要耗費大量人力時。用戶只需在互動過程中畫一條線(軌跡)。其次,我們的實體表示作為一種開放域嵌入,能夠表示任何物體,實現對各種實體(包括背景)的運動控制。最後,我們的實體表示允許對多個物體進行同時且獨立的運動控制。大量實驗表明,我們的DragAnything在FVD、FID和用戶研究方面實現了最先進的性能,特別是在物體運動控制方面,我們的方法在人類投票方面超過了先前的方法(例如DragNUWA)26%。
我們介紹了 FAX,這是一個基於 JAX 設計的庫,旨在支持數據中心和跨設備應用中的大規模分佈式和聯邦計算。FAX利用 JAX 的分片機制,實現對 TPU 和最先進的 JAX 運行時(包括 Pathways)的本地定位。FAX將聯邦計算的構建模塊作為 JAX 中的原始操作內嵌。這帶來三個關鍵好處。首先,FAX計算可以轉換為 XLA HLO。其次,FAX提供了聯邦自動微分的完整實現,極大地簡化了聯邦計算的表達。最後,FAX計算可以解釋為現有生產跨設備聯邦計算系統。我們展示了 FAX 在數據中心提供了一個易於編程、高性能且可擴展的聯邦計算框架。FAX 可在 https://github.com/google-research/google-research/tree/master/fax 下載。
在移動操作中的一個開放問題是如何以統一的方式表示物體和場景,以便機器人既可以用於在環境中導航又可以用於操作物體。後者需要捕捉複雜的幾何形狀,同時理解細粒度的語義,而前者則涉及捕捉與廣泛物理尺度相關的複雜性。在這項工作中,我們提出了GeFF(通用特徵場),這是一種場景級通用的神經特徵場,可作為導航和操作的統一表示,實時執行。為此,我們將生成新視圖合成視為預訓練任務,然後通過CLIP特徵提煉將結果豐富的場景先驗與自然語言對齊。我們通過在配備機械手的四足機器人上部署GeFF,來展示此方法的有效性。我們評估GeFF在動態場景中進行開放詞彙移動操作時對開放集物體的泛化能力以及運行時間。