每日精選AI研究論文及翻譯
BigCode 社群是一個開放科學合作組織,致力於負責任地開發用於程式碼的大型語言模型(Code LLMs),並推出了 StarCoder 和 StarCoderBase:擁有 155 億參數模型、8K 上下文長度、填充功能以及透過多查詢注意力實現快速大批量推論。StarCoderBase 是在來自 The Stack 的 1 兆令牌上進行訓練的,The Stack 是一個包含大量許可證容許的 GitHub 存儲庫、檢查工具和可選退出流程的集合。我們在 350 億 Python 令牌上對 StarCoderBase 進行了微調,從而創建了 StarCoder。我們對迄今為止最全面的 Code LLMs 進行了評估,並展示了 StarCoderBase 優於每個支持多種程式語言的開放 Code LLM,並與 OpenAI code-cushman-001 模型匹敵或優於其表現。此外,StarCoder 優於每個在 Python 上進行微調的模型,可以被提示達到 40% 的 HumanEval 通過率,並且仍保持其在其他程式語言上的性能。我們採取了幾個重要步驟來實現安全的開放模型釋出,包括改進的個人身份信息遮蔽管道和一個新穎的歸因追蹤工具,並將 StarCoder 模型以 Open 負責任 AI 模型許可證的更具商業可行性版本公開發布。
在這項研究中,我們通過引入VideoChat系統,一個以聊天為中心的端到端視頻理解系統,來探索視頻理解。該系統通過可學習的神經接口將視頻基礎模型和大型語言模型相結合,在時空推理、事件定位和因果關係推斷方面表現出色。為了有針對性地調整這個系統,我們提出了一個以視頻為中心的指導數據集,包含數千個視頻,配有詳細描述和對話。這個數據集強調時空推理和因果關係,為訓練以聊天為中心的視頻理解系統提供了寶貴資源。初步的定性實驗揭示了我們系統在各種視頻應用中的潛力,並為未來研究設定了標準。請訪問我們的代碼和數據,網址為https://github.com/OpenGVLab/Ask-Anything
生成式人工智慧(AIGC,又稱AI生成內容)在過去幾年取得了顯著進展,其中以文字引導的內容生成最為實用,因為它使人類指導與AIGC之間的互動成為可能。由於文字轉圖像以及三維建模技術(如NeRF)的發展,文字轉三維已成為新興且極具活力的研究領域。我們的工作對文字轉三維進行了首次且全面的調查,以幫助對這個方向感興趣的讀者迅速了解其快速發展。首先,我們介紹了三維數據表示,包括歐幾里得數據和非歐幾里得數據。在此基礎上,我們介紹了各種基礎技術,並總結了近期作品如何結合這些基礎技術來實現令人滿意的文字轉三維。此外,我們總結了文字轉三維技術在各種應用中的應用,包括頭像生成、紋理生成、形狀轉換和場景生成。
在各種應用中,如電影製作、電腦遊戲或視訊會議,以高保真度呈現人類表現是一個重要的基礎。為了縮小與製作級別品質之間的差距,我們引入了HumanRF,一種4D動態神經場景表示,從多視角視訊輸入中捕捉全身外觀運動,並實現從新的、未見視角進行播放。我們的新型表示作為動態視訊編碼,通過將時空分解為時間矩陣-向量分解,以高壓縮率捕捉精細細節。這使我們能夠獲得長序列的人類演員的時間上連貫的重建,同時在具有挑戰性運動背景下呈現高解析度細節。儘管大多數研究集中在合成4MP或更低分辨率,我們解決了在12MP操作的挑戰。為此,我們引入了ActorsHQ,一個新型多視角數據集,提供來自160台攝像機的16個序列的12MP畫面,具有高保真度的逐幀網格重建。我們展示了使用這種高解析度數據所產生的挑戰,並展示我們新引入的HumanRF有效地利用這些數據,往製作級別品質的新視角合成邁出了重要一步。
建立可動畫的3D模型具有挑戰性,因為需要進行3D掃描、繁瑣的註冊和手動設置骨骼,這些難以擴展到任意類別。最近,可微渲染提供了從單眼視頻中獲得高質量3D模型的途徑,但這些僅限於剛性類別或單個實例。我們提出了RAC,從單眼視頻中構建類別3D模型,同時將實例變化和時間運動分離。為解決此問題,引入了三個關鍵思想:(1)通過優化將骨架專門化到實例,(2)一種潛在空間正則化方法,鼓勵跨類別保持共享結構,同時保留實例細節,以及(3)使用3D背景模型將對象與背景分離。我們展示可以從50-100個互聯網視頻中學習人類、貓和狗的3D模型。
我們提出了整合多模感知(IMP),一種簡單且可擴展的多模多任務訓練和建模方法。IMP將包括圖像、視頻、文本和音頻在內的多模輸入整合到單個Transformer編碼器中,並最大程度地減少了與模態特定組件相關的部分。IMP利用一種新穎的設計,結合了交替梯度下降(AGD)和專家混合(MoE)以實現高效的模型和任務擴展。我們對IMP進行了廣泛的實證研究,揭示了以下關鍵見解:1)通過在不同異構模態、損失函數和任務之間交替進行梯度下降更新,同時變化輸入分辨率,有效提高了多模理解能力。2)在單一模態不可知編碼器上使用MoE進行模型稀疏化,顯著提高了性能,優於使用模態特定編碼器或額外融合層的密集模型,並極大地減輕了模態之間的衝突。IMP在包括圖像分類、視頻分類、圖像文本和視頻文本檢索在內的廣泛下游任務中實現了競爭性表現。特別是,我們訓練了一個針對視頻任務的稀疏IMP-MoE-L模型,在零樣本視頻分類方面實現了新的最先進水平。我們的模型在Kinetics-400上實現了77.0%,在Kinetics-600上實現了76.8%,在Kinetics-700上實現了76.8%的零樣本分類準確率,分別比以前的最先進水平提高了+5%,+6.7%和+5.8%,同時僅使用其總訓練計算成本的15%。
我們提出了一種新穎的方法,用於開發隱私保護的大規模推薦系統,採用差分隱私(DP)大型語言模型(LLMs),克服了在DP訓練這些複雜系統時的某些挑戰和限制。我們的方法特別適用於基於LLM的推薦系統新興領域,但也可以輕鬆應用於處理自然語言輸入表示的任何推薦系統。我們的方法涉及使用DP訓練方法對公開預訓練的LLM進行微調,用於查詢生成任務。生成的模型可以產生代表原始查詢的私有合成查詢,這些查詢可以自由共享,用於任何下游非私有推薦訓練程序,而不會產生任何額外的隱私成本。我們評估我們的方法在安全訓練有效的深度檢索模型方面的能力,我們觀察到與直接DP訓練檢索模型的方法相比,在不損害查詢級隱私保證的情況下,它們的檢索質量有顯著改善。
為了讓通用用途的機器人成為可能,我們需要讓機器人像人類一樣每天操作關節物體。目前機器人操作主要依賴於使用平行夾爪,這限制了機器人只能操作有限的一組物體。另一方面,使用多指機器人手操作將更好地模擬人類行為,並使機器人能夠操作各種關節物體。為此,我們提出了一個名為DexArt的新基準,其中涉及在物理模擬器中進行關節物體的熟練操作。在我們的基準中,我們定義了多個複雜的操作任務,機器人手將需要在每個任務中操作各種不同的關節物體。我們的主要重點是評估學習策略對未見過的關節物體的泛化能力。鑒於雙手和物體的高自由度,這是非常具有挑戰性的。我們使用強化學習與3D表示學習來實現泛化。通過廣泛的研究,我們提供了有關3D表示學習如何影響具有3D點雲輸入的強化學習中決策制定的新見解。更多詳細信息可在https://www.chenbao.tech/dexart/找到。
本文分析了多任務端到端Transformer模型在對話推薦任務上的表現,該任務旨在根據用戶在對話中表達的明確偏好提供推薦。儘管該領域的先前研究採用了複雜的多組件方法,其中對話管理和實體推薦任務由獨立組件處理,我們表明基於T5文本到文本Transformer模型的統一Transformer模型在推薦相關項目和生成對話對話方面可以有競爭力。我們在ReDIAL對話式電影推薦數據集上對我們的模型進行微調,並在多任務學習設置中創建源自MovieLens的額外訓練任務(例如基於輸入電影預測電影屬性和相關電影)。通過一系列探測性研究,我們展示了在額外任務中學到的知識如何轉移到對話設置中,其中每個任務都導致其相關探測分數增加了9%至52%。