每日精選AI研究論文及翻譯
在這份工作中,我們提出了保留網絡(RetNet)作為大型語言模型的基礎架構,同時實現了訓練的並行性、低成本推斷和良好的性能。我們從理論上推導了循環和注意力之間的聯繫。然後,我們提出了用於序列建模的保留機制,支持三種計算範式,即並行、循環和分塊循環。具體而言,並行表示允許進行訓練的並行性。循環表示實現了低成本的O(1)推斷,從而提高了解碼吞吐量、延遲和GPU內存,而不會影響性能。分塊循環表示促進了具有線性複雜度的高效長序列建模,其中每個分塊在並行編碼的同時進行循環總結。語言建模的實驗結果顯示,RetNet實現了良好的擴展結果、並行訓練、低成本部署和高效推斷。這些引人入勝的特性使RetNet成為大型語言模型的強大後繼者。代碼將在https://aka.ms/retnet 上提供。
在現實世界的資料庫中,表格是普遍存在的,需要人類花費大量時間和精力來進行分析和操作。大型語言模型(LLMs)的進步使得使用自然語言輸入與表格進行交互成為可能,將這種能力更接近現實。本文介紹了TableGPT,這是一個統一的精細調校框架,使LLMs能夠理解並操作表格,並使用外部功能命令。它引入了與表格無縫交互的能力,實現了廣泛的功能,如問答、數據操作(例如插入、刪除、查詢和修改操作)、數據可視化、分析報告生成和自動預測。TableGPT旨在為用戶提供便利和可訪問性,使他們能夠輕鬆利用表格數據。TableGPT的核心是全局表格表示的新概念,它使LLMs能夠全面理解整個表格,超越元信息。通過同時訓練LLMs在表格和文本模態上,TableGPT實現了對表格數據的深入理解,以及通過命令鏈執行複雜操作的能力。重要的是,TableGPT具有自包含系統的優勢,而不是依賴外部API接口。此外,它支持高效的數據處理流程、查詢拒絕(在適當時)、私密部署,實現更快的領域數據精細調校,確保數據隱私,從而增強框架對特定用例的適應性。
LLM在與人類進行語言互動方面展現出卓越的能力,尤其是在使用遵循指示的數據方面。LLM的最新進展,如MiniGPT-4、LLaVA和X-LLM,通過整合多模輸入(包括圖像、視頻和語音)進一步擴大了它們的能力。儘管這些LLM在生成給定模態信號的精確和詳細語言理解方面非常有效,但它們放棄了將輸入的特定部分與基礎事實聯繫起來的能力,因此僅構建了粗粒度映射。然而,文本與其他模態之間的明確和信息豐富的對應不僅會改善用戶體驗,還將有助於擴展多模LLM的應用場景。因此,我們提出了BuboGPT,這是一種具有視覺基礎的多模LLM,可以在視覺、音頻和語言之間進行跨模態交互,提供對視覺對象和其他給定模態的細粒度理解。因此,BuboGPT能夠在為該對象生成響應或描述時指出圖像中對象的具體位置。我們的貢獻有兩個方面:1)基於SAM的即插即用視覺基礎模塊,可提取句子中的實體並在圖像中找到相應的遮罩。2)一種兩階段訓練方案和指示數據集,賦予聯合文本-圖像-音頻理解能力。我們的實驗表明,BuboGPT在與人類進行交互時實現了令人印象深刻的多模理解和視覺基礎能力。當提供任意模態組合(無論是對齊還是不對齊)時,它表現出色。我們的代碼、模型和數據集可在https://bubo-gpt.github.io 上獲得。
大型語言模型(LLMs)通過在監督指令/回應數據上進行指令微調(IFT)來獲得遵循指令的能力。然而,廣泛使用的IFT數據集(例如Alpaca的52k數據)驚人地包含許多質量低劣的實例,其回應不正確或無關,這些對IFT具有誤導性和有害性。在本文中,我們提出了一種簡單而有效的數據選擇策略,通過使用強大的LLM(例如ChatGPT)自動識別並刪除低質量數據。為此,我們引入了AlpaGasus,它僅在從52k Alpaca數據中篩選出的9k高質量數據上進行微調。AlpaGasus在多個測試集上明顯優於原始Alpaca,經GPT-4評估,其13B變體在測試任務上的性能與其教師LLM(即Text-Davinci-003)的性能匹配超過90%。它還提供了5.7倍更快的訓練速度,將7B變體的訓練時間從80分鐘(對於Alpaca)降至14分鐘。我們應用IFT進行相同數量的時代,如Alpaca(7B),但在更少的數據上,使用4倍NVIDIA A100(80GB)GPU,並遵循原始Alpaca設置和超參數。總的來說,AlpaGasus展示了一種新穎的以數據為中心的IFT範式,可以廣泛應用於指令微調數據,實現更快的訓練和更好的遵循指令模型。我們的項目頁面可在以下網址找到:https://lichang-chen.github.io/AlpaGasus/。
雖然許多非監督式學習模型專注於一類任務家族,無論是生成式或是判別式,我們探索了統一表示學習器的可能性:一個模型可利用單一預訓練階段同時應對這兩類任務家族。我們確認擴散模型是一個主要候選者。擴散模型已嶄露頭角,成為圖像生成、去噪、修補、超解析、操作等的最先進方法。這類模型包括訓練 U-Net 來迭代預測並去除噪聲,結果模型能夠合成高保真度、多樣性、新穎的圖像。作為基於卷積的結構,U-Net 架構以中間特徵圖的形式生成多樣的特徵表示。我們呈現了我們的發現,這些嵌入不僅在去噪任務中有用,因為它們包含判別信息,也可用於分類。我們探索了提取和使用這些嵌入進行分類任務的最佳方法,展示了在 ImageNet 分類任務上的有希望結果。我們發現,通過仔細的特徵選擇和池化,擴散模型在分類任務上勝過了類似的生成-判別方法,如 BigBiGAN。我們在轉移學習範疇中研究了擴散模型,檢驗了它們在幾個細粒度視覺分類數據集上的表現。我們將這些嵌入與競爭架構和預訓練生成的嵌入進行比較,用於分類任務。
視頻運動預測的方法可以通過光流估計給定視頻幀中所有點的瞬時運動,或者獨立跟踪整個視頻中各個點的運動。即使對於可以通過遮擋跟踪點的強大深度學習方法,後者也是真實的。獨立跟踪點忽略了點之間可能存在的強相關性,例如,因為它們屬於同一物理對象,這可能損害性能。因此,在本文中,我們提出了CoTracker,一種可以共同跟踪整個視頻中多個點的架構。該架構結合了光流和跟踪文獻中的幾個想法,設計靈活且強大。它基於一個可以通過專門的注意力層對不同時間點的點之間相關性進行建模的變壓器網絡。變壓器迭代更新多條軌跡的估計。它可以以滑動窗口的方式應用於非常長的視頻,我們為此設計了一個展開的訓練循環。它可以共同跟踪從一個到多個點,並支持隨時添加新的跟踪點。結果是一種靈活且強大的跟踪算法,在幾乎所有基準測試中都優於最先進的方法。
我們提出 SEED,一個精心設計的圖像標記器,賦予大型語言模型(LLMs)具有同時「看見」和「繪製」的新興能力。先前對圖像標記器的研究已經陷入僵局,因為採用量化視覺標記的框架由於在多模態理解(與 BLIP-2 等相比)或生成(與 Stable Diffusion 等相比)方面表現不佳而逐漸失去了重要性。儘管存在這些限制,我們仍對其自然能力以統一視覺和文本表示感到自信,有助於使用LLMs的原始配方進行可擴展的多模態訓練。在這項研究中,我們確定了兩個對於 SEED 的架構和訓練至關重要的原則,有效地促進了與LLMs的後續對齊。 (1)圖像標記應該獨立於2D物理補丁位置,而應該以1D因果依賴性生成,展現出與LLMs中從左到右自回歸預測機制一致的內在相互依賴性。 (2)圖像標記應捕捉與單詞中語義抽象程度一致的高層語義,並在標記器訓練階段優化以實現區分性和重建性。因此,現成的LLM能夠通過將我們的SEED納入進行高效的LoRA調整來執行圖像到文本和文本到圖像的生成。全面的多模態預訓練和指導調整,可能會產生更好的結果,將保留供未來研究。這個版本的SEED僅使用64個V100 GPU和500萬個公開可用的圖像-文本對在5.7天內進行訓練。我們的初步研究強調了離散視覺標記在多功能多模態LLMs中的巨大潛力,以及在更廣泛的研究中適當的圖像標記器的重要性。
我們提出了互動式神經視頻編輯(INVE),這是一個即時視頻編輯解決方案,可以通過將稀疏幀編輯一致地擴展到整個視頻剪輯,從而協助視頻編輯過程。我們的方法受到最近有關分層神經地圖(LNA)的工作的啟發。然而,LNA存在兩個主要缺點:(1)該方法對於互動式編輯來說速度太慢,(2)對於一些編輯用例,包括直接幀編輯和剛性紋理跟踪,提供的支持不足。為了應對這些挑戰,我們利用和採用高效的網絡架構,搭配哈希網格編碼,顯著提高處理速度。此外,我們學習了圖像地圖和引入了向量化編輯之間的雙向功能,這共同使得在地圖和幀直接上進行更多種類的編輯成為可能。與LNA相比,我們的INVE將學習和推理時間減少了5倍,並支持LNA無法實現的各種視頻編輯操作。我們通過全面的定量和定性分析展示了INVE在互動式視頻編輯中優於LNA的優越性,突出了其眾多優勢和改進的性能。有關視頻結果,請參見https://gabriel-huang.github.io/inve/
我們旨在研究是否可以通過通用神經網絡的視覺預訓練來實現端到端學習的視覺推理。積極的結果將推翻一個普遍的觀念,即明確的視覺抽象(例如物體檢測)對於視覺推理的合成泛化是必不可少的,並確認神經網絡“通才”解決視覺識別和推理任務的可行性。我們提出了一個簡單且通用的自監督框架,該框架使用變壓器網絡將每個視頻幀“壓縮”為一小組令牌,並基於壓縮的時間上下文重構其餘幀。為了最小化重構損失,網絡必須學習為每個圖像生成一個緊湊的表示,並從時間上下文中捕獲時間動態和對象恆久性。我們在兩個視覺推理基準測試集CATER和ACRE上進行評估。我們觀察到,預訓練對於實現端到端視覺推理的合成泛化至關重要。我們提出的框架在效能上優於傳統監督式預訓練,包括圖像分類和明確的物體檢測,優勢明顯。
本文提出了一種新的視覺Transformer,名為尺度感知調節Transformer(SMT),通過結合卷積網絡和視覺Transformer,能夠有效處理各種下游任務。SMT中提出的尺度感知調節(SAM)包括兩個主要的新設計。首先,我們引入了多頭混合卷積(MHMC)模塊,可以捕獲多尺度特徵並擴展感受野。其次,我們提出了輕量但有效的尺度感知聚合(SAA)模塊,實現跨不同頭部的信息融合。通過利用這兩個模塊,卷積調節進一步增強。此外,與以往利用調節在所有階段構建無關注網絡的作品相比,我們提出了一種進化混合網絡(EHN),可以有效模擬隨著網絡變得更深,從捕獲局部到全局依賴性的轉變,從而實現卓越性能。大量實驗表明,SMT在各種視覺任務中顯著優於現有的最先進模型。具體來說,SMT在ImageNet-1K上的11.5M / 2.4GFLOPs和32M / 7.7GFLOPs可以分別達到82.2%和84.3%的top-1準確率。在224^2分辨率的ImageNet-22K上預訓練後,當分別使用224^2和384^2分辨率進行微調時,其準確率分別達到87.1%和88.1%的top-1。對於使用Mask R-CNN進行對象檢測,與Swin Transformer相比,以1x和3x進度訓練的SMT基礎分別在COCO上表現優異,分別高出4.2和1.3 mAP。對於使用UPerNet進行語義分割,SMT基礎在單尺度和多尺度測試上均超越Swin,分別高出2.0和1.1 mIoU在ADE20K上。
模擬是現代自動駕駛開發的支柱。模擬器有助於開發、測試和改進駕駛系統,而無需將人類、車輛或其環境置於危險之中。然而,模擬器面臨一個重大挑戰:它們依賴逼真、可擴展且有趣的內容。雖然渲染和場景重建方面的最新進展在創建靜態場景資產方面取得了巨大進展,但對其佈局、動態和行為進行建模仍然具有挑戰性。在這項工作中,我們將語言作為動態交通場景生成的監督來源。我們的模型LCTGen結合了一個大型語言模型和基於Transformer的解碼器架構,從地圖數據集中選擇可能的地圖位置,並生成初始的交通分佈,以及每輛車輛的動態。在逼真度和忠實度方面,LCTGen在無條件和有條件的交通場景生成方面均優於先前的工作。代碼和視頻將可在https://ariostgx.github.io/lctgen 上找到。