每日精選AI研究論文及翻譯
大型語言模型(LLMs)通常在數十億個標記上進行預訓練,一旦有新數據可用,就重新開始這個過程。一種更有效的解決方案是持續對這些模型進行預訓練,與重新訓練相比節省了大量計算資源。然而,由新數據引起的分佈變化通常導致在先前數據上性能下降或對新數據適應不佳。在這項研究中,我們展示了一種簡單且可擴展的學習率(LR)重新升溫、LR重新衰減和重播先前數據的組合足以與完全從頭重新訓練在所有可用數據上的性能相匹配,這是通過最終損失和語言模型(LM)評估基準來衡量的。具體來說,我們展示了在兩個常用的LLM預訓練數據集(英文到英文)之間的弱但現實的分佈轉變,以及在405M參數模型規模上具有大型數據集大小(數千億個標記)的更強分佈轉變(英文到德文)。選擇較大規模實驗的弱但現實轉變,我們還發現我們的持續學習策略與10B參數LLM的重新訓練基線相匹配。我們的結果表明,LLMs可以通過簡單且可擴展的持續學習策略成功更新,僅使用部分計算資源即可與重新訓練基線相匹配。最後,受先前工作的啟發,我們提出了替代餘弦學習率表的方法,有助於避免LR重新升溫引起的遺忘,並且不受固定標記預算的限制。
本研究介紹了 Gemma,這是一系列輕量、最先進的開放模型,建立在用於創建 Gemini 模型的研究和技術基礎之上。Gemma 模型在語言理解、推理和安全性等學術基準上展現出優異的性能。我們釋出了兩種模型大小(20億和70億參數),並提供預訓練和微調後的檢查點。Gemma 在18個基於文本的任務中,有11個超越了相同大小的開放模型,我們對模型的安全性和責任方面進行了全面評估,並詳細描述了模型開發過程。我們認為負責任地釋出大型語言模型對於提升前沿模型的安全性以及推動下一波語言模型創新至關重要。
我們提出了 VLOGGER,這是一種從單張人物輸入圖像生成音頻驅動的人類視頻的方法,它建立在最近生成擴散模型的成功基礎上。我們的方法包括:1) 一個隨機的人體到三維運動擴散模型,和 2) 一種新穎的基於擴散的架構,通過空間和時間控制來擴充文本到圖像模型。這支持生成高質量、可變長度的視頻,通過人臉和身體的高層表示輕鬆可控。與以往的工作相比,我們的方法不需要為每個人進行訓練,不依賴於人臉檢測和裁剪,生成完整的圖像(不僅僅是臉部或嘴唇),並考慮到廣泛的場景(例如可見的軀幹或多樣的主題身份),這對正確合成進行溝通的人類至關重要。我們還精心籌劃了 MENTOR,這是一個新的多樣化數據集,具有 3D 姿勢和表情標註,比以前的數據集大一個數量級(800,000 個身份),並帶有動態手勢,我們在這個數據集上訓練和剔除我們的主要技術貢獻。 VLOGGER 在三個公共基準測試中表現優異,考慮到圖像質量、身份保留和時間一致性,同時生成上半身手勢。我們通過多個多樣性指標分析了 VLOGGER 的性能,顯示我們的架構選擇和使用 MENTOR 有助於在規模上訓練一個公平且無偏見的模型。最後,我們展示了在視頻編輯和個性化方面的應用。
人類通過模仿和社交互動來學習社交技能。這種社交學習過程在現有建構語言代理的研究中很大程度上被忽視。受到這一缺口的激勵,我們提出了一種互動學習方法,即SOTOPIA-pi,以提高語言代理的社交智能。該方法利用行為克隆和根據大型語言模型(LLM)評分對過濾的社交互動數據進行自我強化訓練。我們展示了我們的訓練方法使得一個7B的LLM能夠達到專家模型(基於GPT-4的代理)的社交目標完成能力,同時提高了語言代理的安全性,並在MMLU基準上保持了一般的問答能力。我們還發現,這種訓練範式揭示了LLM評估社交智能的一些困難:基於LLM的評估者高估了專門為社交互動訓練的語言代理的能力。
基礎模型是強大的技術:它們如何公開發布直接塑造了它們的社會影響。在這份立場文件中,我們專注於開放的基礎模型,這裡定義為具有廣泛可用的模型權重(例如Llama 2、Stable Diffusion XL)。我們確定了開放的基礎模型具有五個獨特特性(例如更大的可定製性、監控不足),這些特性既帶來了好處也帶來了風險。開放的基礎模型提供了顯著的好處,但也有一些注意事項,涵蓋了創新、競爭、決策權的分配以及透明度。為了了解它們被誤用的風險,我們設計了一個風險評估框架,用於分析它們的邊際風險。在多個誤用向量(例如網絡攻擊、生物武器)中,我們發現目前的研究不足以有效地表徵開放的基礎模型相對於現有技術的邊際風險。該框架有助於解釋為什麼在某些情況下邊際風險很低,通過揭示過去的工作集中在不同的框架子集上並具有不同的假設,澄清了有關誤用風險的爭議,並提出了更具建設性辯論的前進方向。總的來說,我們的工作有助於支持對開放基礎模型的社會影響進行更為扎實的評估,並概述了需要進行的研究以實證驗證它們的理論好處和風險。
面對數據稀缺和高級運動合成等挑戰,我們介紹了 TRUMANS 數據集以及一種新穎的 HSI 運動合成方法。TRUMANS 是目前最全面的運動捕捉 HSI 數據集,包含超過 15 小時的人類在 100 個室內場景中的互動。它精細地捕捉了全身人體動作和部分對象動態,著重於接觸的真實感。通過將物理環境轉換為精確的虛擬模型,並對人類和對象的外觀和運動進行廣泛增強,同時保持互動的忠實度,進一步擴大了這一數據集。利用 TRUMANS,我們設計了一種基於擴散的自回歸模型,可以高效生成任意長度的 HSI 序列,同時考慮場景背景和預期動作。在實驗中,我們的方法在一系列 3D 場景數據集(例如 PROX、Replica、ScanNet、ScanNet++)上展現了顯著的零樣本泛化能力,生成的動作與原始運動捕捉序列非常接近,經定量實驗和人類研究證實。
規模定律對於開發語言模型是有用的指南,但目前的規模研究與語言模型最終的訓練和評估之間仍存在差距。例如,通常在計算最佳訓練範疇(即“Chinchilla最佳”範疇)中研究規模,但在實踐中,模型通常會被過度訓練以降低推理成本。此外,規模定律主要預測下一個標記預測的損失,但最終模型是根據下游任務表現進行比較的。在本文中,我們解決了這兩個缺點。為此,我們建立了一個包含104個模型的測試平臺,這些模型具有從0.011B到6.9B個參數,在三種數據分佈上使用不同數量的標記進行訓練。首先,我們研究了過度訓練範疇中的規模。我們擬合了兩個規模定律,可以在模型參數數量和訓練標記與參數比之間進行外推。這使我們能夠預測一個擁有1.4B個參數、900B個標記運行(即32倍過度訓練)和一個擁有6.9B個參數、138B個標記運行的驗證損失,從而實驗所需的計算量減少300倍。其次,我們通過一個冪律將語言模型的困惑度與其下游任務表現相關聯。我們使用這個定律來預測這兩個模型在下游任務中的平均top-1錯誤,而實驗所需的計算量減少20倍。我們的實驗可在https://github.com/mlfoundations/scaling找到。
儘管近年來在影像轉視頻生成方面取得了進展,但更好的可控性和局部動畫卻鮮少被探索。大多數現有的影像轉視頻方法並不具備局部感知能力,往往會移動整個場景。然而,人類藝術家可能需要控制不同物體或區域的運動。此外,目前的影像轉視頻方法不僅要求用戶描述目標運動,還需要提供冗贅的對幀內容的詳細描述。這兩個問題阻礙了目前影像轉視頻工具的實際應用。本文提出了一個名為「Follow-Your-Click」的實用框架,通過簡單的用戶點擊(用於指定移動對象)和簡短的運動提示(用於指定如何移動)來實現影像動畫。技術上,我們提出了首幀遮罩策略,顯著提高了視頻生成質量,並配備了一個短運動提示數據集的運動增強模塊,以提高我們模型對短提示的跟隨能力。為了進一步控制運動速度,我們提出了基於流的運動幅度控制,以更精確地控制目標運動的速度。我們的框架具有更簡單但精確的用戶控制,並且比以前的方法具有更好的生成性能。與7個基準方法(包括商業工具和研究方法)在8個指標上進行的大量實驗表明了我們方法的優越性。項目頁面:https://follow-your-click.github.io/
最近,隱式神經表示(INRs)在圖像表示和壓縮方面取得了巨大成功,提供高視覺品質和快速渲染速度,達到每秒10-1000幀,假設有足夠的GPU資源可用。然而,這種要求通常阻礙了它們在內存有限的低端設備上的使用。為此,我們提出了一種名為GaussianImage的基於2D高斯擴散的圖像表示和壓縮的開創性範式。我們首先引入2D高斯來表示圖像,其中每個高斯具有8個參數,包括位置、協方差和顏色。隨後,我們揭示了一種基於累積求和的新型渲染算法。值得注意的是,我們的方法在GPU內存使用量至少低3倍且擬合時間快5倍,不僅在表示性能上與INRs(例如WIRE、I-NGP)不相上下,而且無論參數大小如何,渲染速度都達到每秒1500-2000幀。此外,我們整合現有的向量量化技術來構建圖像編解碼器。實驗結果表明,我們的編解碼器在速率失真性能上與基於壓縮的INRs(如COIN和COIN++)相當,同時實現了約每秒1000幀的解碼速度。此外,初步概念證明,我們的編解碼器在使用部分bits-back編碼時優於COIN和COIN++的性能。