每日精選AI研究論文及翻譯
近年來,大型語言模型(LLMs)在不同任務上取得了前所未有的性能,取得了巨大進展。然而,由於商業利益,像GPT、Gemini和Claude等最具競爭力的模型被封閉在專有界面後,未公開訓練細節。最近,許多機構已經將幾個強大的LLMs(如LLaMA-3)開源,與現有的封閉式LLMs相媲美。然而,這些模型僅提供模型權重,大部分細節(例如中間檢查點、預訓練語料庫和訓練代碼等)未公開。為了提高LLMs的透明度,研究界已經開始開源真正開放的LLMs(如Pythia、Amber、OLMo),提供更多細節(例如預訓練語料庫和訓練代碼)。這些模型極大地推動了對這些大型模型的科學研究,包括它們的優勢、劣勢、偏見和風險。然而,我們觀察到,目前在推理、知識和編碼任務上的現有真正開放的LLMs仍遜於具有相似模型大小的現有最先進LLMs。為此,我們開源了MAP-Neo,這是一個具有高度能力和透明度的雙語語言模型,擁有從頭開始訓練的70億參數,在45億高質量標記上進行訓練。我們的MAP-Neo是第一個完全開源的雙語LLM,具有與現有最先進LLMs相媲美的性能。此外,我們開源了所有細節以重現我們的MAP-Neo,提供了經過清理的預訓練語料庫、數據清理流程、檢查點以及經過良好優化的訓練/評估框架。最後,我們希望我們的MAP-Neo將增強和加強開放研究社區,激發更多創新和創意,促進LLMs的進一步改進。
偏好優化,特別是透過從人類反饋中進行強化學習(RLHF),已經在使大型語言模型(LLMs)符合人類意圖方面取得了顯著成功。與使用固定數據集的離線對齊不同,從人類或人工智能對模型生成的在線反饋通常通過迭代過程產生更具能力的獎勵模型和更好對齊的LLMs。然而,實現全局準確的獎勵模型需要系統性地探索以生成涵蓋自然語言廣闊空間的多樣性回應。僅從標準獎勵最大化的LLMs中隨機抽樣是不足以滿足此要求的。為了解決這個問題,我們提出了一種對潛在高獎勵回應樂觀偏向的雙層目標,以積極探索超出分布範圍的區域。通過使用重新參數化獎勵函數解決內部問題,所得到的算法,名為自我探索語言模型(SELM),消除了對單獨RM的需求,並通過簡單的目標迭代更新LLM。與直接偏好優化(DPO)相比,SELM目標減少了對未見外推的不加區分的偏愛,並增強了探索效率。我們的實驗結果表明,當在Zephyr-7B-SFT和Llama-3-8B-Instruct模型上進行微調時,SELM在指令遵循基準(如MT-Bench和AlpacaEval 2.0)以及不同設置中的各種標準學術基準上顯著提升了性能。我們的代碼和模型可在https://github.com/shenao-zhang/SELM 上獲得。
基於擴散的文本到視頻(T2V)模型取得了顯著成功,但仍受制於其迭代採樣過程的緩慢採樣速度。為應對這一挑戰,一些一致性模型被提出以促進快速推斷,儘管這是以樣本質量為代價。在這項工作中,我們旨在突破視頻一致性模型(VCM)的質量瓶頸,實現快速且高質量的視頻生成。我們引入了T2V-Turbo,將來自可微分獎勵模型混合的反饋整合到預訓練T2V模型的一致性蒸餾(CD)過程中。值得注意的是,我們直接優化與單步生成相關的獎勵,這些獎勵自然地產生於計算CD損失時,有效地通過繞過通過迭代採樣過程反向傳播梯度所施加的內存限制。顯著地,我們的T2V-Turbo的4步生成在VBench上獲得了最高總分,甚至超過了Gen-2和Pika。我們進一步進行人類評估以證實結果,驗證了我們的T2V-Turbo的4步生成優於其教師模型的50步DDIM樣本,實現了超過十倍的加速同時提高了視頻生成質量。
本文探討大型語言模型(LLMs)在發展高階心智理論(ToM)方面的程度;即人類推理多個心智和情感狀態的能力,以遞迴方式進行(例如,我認為你相信她知道)。本文在先前研究基礎上引入手寫測試套件--多階心智問答--並使用它來比較五個LLMs的表現與新收集的成年人基準。我們發現GPT-4和Flan-PaLM在整體ToM任務上達到成年水平和接近成年水平的表現,並且GPT-4在第六階推論上超過成年人的表現。我們的結果表明,模型大小和微調之間存在相互作用,以實現ToM能力,而表現最佳的LLMs已經發展出對ToM的通用能力。鑒於高階ToM在廣泛合作和競爭人類行為中的作用,這些發現對面向用戶的LLM應用具有重要意義。
對於大型語言模型(LLM)的對齊,無論是通過從人類反饋中進行強化學習還是直接偏好優化,主導框架是從偏好數據中學習。這涉及構建數據集,其中每個元素都是一個四元組,由提示、兩個獨立回應(提示的完成)和人類對這兩個獨立回應之間的偏好組成,得出一個偏好和一個不偏好的回應。這樣的數據通常稀缺且收集成本高昂。另一方面,單軌跡數據集,其中每個元素都是一個三元組,由提示、一個回應和人類反饋組成,自然更為豐富。這些數據集的典型元素例如是LLM對用戶提示的回應,然後是用戶的反饋,如點贊/差評。因此,在這項工作中,我們提出DRO,即直接獎勵優化,作為一個框架和相應的算法,不需要成對偏好。DRO使用一個簡單的均方目標,可以以各種方式實現。我們通過實證驗證了我們的發現,使用T5編碼器-解碼器語言模型,並展示了DRO相對於所選基準線(如Kahneman-Tversky Optimization (KTO))的性能。因此,我們確認DRO是一種簡單且在實證上具有說服力的單軌跡策略優化方法。
大型語言模型(LLMs)常常出現幻覺並且缺乏為其生成提供歸因的能力。半參數語言模型,如kNN-LM,通過在非參數數據存儲中使用其最近鄰匹配來改進對於給定提示的LM的輸出,以應對這些限制。然而,這些模型通常表現出較慢的推理速度並生成不流暢的文本。本文介紹了最近鄰推測解碼(NEST),這是一種新穎的半參數語言建模方法,能夠將任意長度的現實文本範圍納入LM生成中並為其來源提供歸因。NEST在每個推理步驟進行基於標記的檢索,以計算半參數混合分佈並識別語料庫中有前途的範圍延續。然後,它使用一個接受檢索範圍前綴或生成新標記的近似推測解碼過程。NEST顯著提高了基本LM在各種知識密集型任務中的生成質量和歸因率,超越了傳統的kNN-LM方法,並與上下文檢索增強方法競爭。此外,NEST大幅提高了生成速度,在應用於Llama-2-Chat 70B 時實現了1.8倍的推理時間加速。
本文介紹了EasyAnimate,一種先進的影片生成方法,利用Transformer架構的強大功能來獲得高性能的結果。我們擴展了最初為2D圖像合成設計的DiT框架,以容納3D影片生成的複雜性,並加入了運動模塊塊。該模塊用於捕捉時間動態,從而確保生成一致的幀和無縫的運動過渡。運動模塊可以適應各種DiT基準方法,以生成不同風格的影片。它還可以在訓練和推斷階段生成具有不同幀率和分辨率的影片,適用於圖像和影片。此外,我們引入了切片VAE,一種壓縮時間軸的新方法,有助於生成長時間影片。目前,EasyAnimate展現了生成具有144幀影片的能力。我們提供了基於DiT的影片生成的全面生態系統,包括數據預處理、VAE訓練、DiT模型訓練(基準模型和LoRA模型)、以及端到端的影片推斷。代碼可在以下網址找到:https://github.com/aigc-apps/EasyAnimate。我們將持續努力提升我們方法的性能。
將多個生成基礎模型整合在一起,特別是那些在不同模態上訓練的模型,以創造出比各個部分更為強大的整體,這帶來了重大挑戰。兩個關鍵障礙是對齊數據的可用性(包含相似含義但在不同模態中表達不同的概念),以及在跨領域生成任務中有效地利用單模態表示,同時不損害其原始單模態功能。 我們提出了Zipper,一種多塔解碼器架構,通過使用交叉注意力來靈活地組合從獨立預訓練的單模解碼器中生成的多模態生成模型,以應對這些問題。在我們融合語音和文本模態的實驗中,我們展示了所提出的架構在具有有限對齊文本-語音數據的情況下表現出色。我們還展示了我們模型的靈活性,可以通過凍結相應的模態塔(例如文本)來有選擇性地保持單模態(例如文本到文本生成)的生成性能。在輸出模態為文本的跨模態任務(例如自動語音識別(ASR))中,我們展示了凍結文本主幹導致性能幾乎不降。在輸出模態為語音的文本到語音生成(TTS)等跨模態任務中,我們展示了使用預訓練的語音主幹比基準模型具有更優異的性能。
在將虛擬元件進一步整合到我們日常生活中的過程中,創建高保真度的數位人頭版本是一個重要的步驟。構建這樣的化身是一個具有挑戰性的研究問題,因為對於逼真度和實時渲染性能有著很高的需求。在這項工作中,我們提出了神經參數高斯化身(NPGA),這是一種從多視角視頻錄製中創建高保真度、可控制化身的數據驅動方法。我們圍繞著三維高斯飛濺建立了我們的方法,因為它具有高效的渲染能力,並且繼承了點雲的拓撲靈活性。與以往的工作相比,我們將我們的化身動態條件建立在神經參數頭部模型(NPHM)豐富的表情空間上,而不是基於網格的三維形狀模型(3DMMs)。為此,我們將底層NPHM的反向變形場提煉為與光柵化渲染兼容的正向變形。所有其餘的細節和表情相關細節都是從多視角視頻中學習的。為了增加我們化身的表徵能力,我們使用每個基元潛在特徵來擴充規範高斯點雲,這些特徵控制其動態行為。為了規範這種增強的動態表達能力,我們提出了潛在特徵和預測動態的拉普拉斯項。我們在公開的NeRSemble數據集上評估了我們的方法,展示了NPGA在自我再現任務中比以前的最先進化身表現提高了2.6 PSNR。此外,我們展示了從現實單眼視頻中準確的動畫能力。
從人類反饋中學習的強化學習(RLHF)已展示出在對齊大型語言模型(LLMs)與人類偏好方面具有巨大潛力。根據偏好數據的可用性,線上和離線RLHF都是積極研究的領域。一個關鍵瓶頸是如何在從偏好數據學習的獎勵函數中,無論偏好數據如何收集,都要將不確定性估計納入RLHF中。儘管在標準強化學習(RL)中,樂觀或悲觀的不確定性原則已經得到確立,但對於大型語言模型來說,一種實際可實施且理論基礎良好的形式尚不可用,因為在任意策略參數化下,構建置信區間的標準技術變得棘手。 在本文中,我們介紹了一種統一的方法來進行線上和離線RLHF - 價值激勵偏好優化(VPO)- 通過將獎勵函數的最大似然估計與相應的值函數進行正則化,通過一個符號調節,以指示選擇樂觀還是悲觀。VPO還通過隱式獎勵建模直接優化策略,因此與直接偏好優化類似,共享一個更簡單的RLHF流程。VPO的理論保證適用於線上和離線設置,與它們的標準RL對應物的速率相匹配。此外,對於文本摘要和對話的實驗驗證了VPO的實用性和有效性。
聲音內容是多媒體作品(如視頻遊戲、音樂和電影)中不可或缺的元素。最近基於高質量擴散的聲音生成模型可以作為創作者寶貴的工具。然而,儘管能夠生成高質量的聲音,這些模型通常面臨推理速度緩慢的問題。這一缺點給創作者帶來負擔,他們通常通過試驗和錯誤來調整聲音,以使其符合他們的藝術意圖。為了解決這個問題,我們引入了聲音一致性軌跡模型(SoundCTM)。我們的模型實現了在高質量單步聲音生成和多步生成之間靈活過渡。這使創作者可以通過單步樣本最初控制聲音,然後通過多步生成進行調整。儘管CTM基本上實現了靈活的單步和多步生成,但其出色性能在很大程度上依賴於額外的預訓練特徵提取器和對抗損失,這些訓練費用高昂,並且在其他領域並非總是可用。因此,我們重新構架了CTM的訓練框架,並通過利用教師網絡的蒸餾損失引入了一種新的特徵距離。此外,通過蒸餾無分類器引導的軌跡,我們同時訓練有條件和無條件的學生模型,在推理過程中在這些模型之間進行插值。我們還提出了無需訓練的可控SoundCTM框架,利用其靈活的採樣能力。SoundCTM實現了有前途的單步和多步實時聲音生成,而無需使用任何額外的現成網絡。此外,我們展示了SoundCTM在無需訓練的情況下實現可控聲音生成的能力。
現有基於擴散的文本轉3D生成方法主要專注於產生外觀逼真的形狀和外貌,常常忽略下游任務所需的物理限制。生成的模型在放置在基於物理的模擬或3D列印中時,經常無法保持平衡。這種平衡對於滿足互動遊戲、具身體感知的人工智能和機器人技術中用戶設計意圖至關重要,需要穩定的模型以進行可靠的互動。此外,穩定的模型確保了3D列印的物件,例如家居裝飾用的小雕像,可以獨立站立而無需額外支撐。為填補這一空白,我們引入了Atlas3D,一種自動且易於實施的方法,可增強現有基於得分蒸餾採樣(SDS)的文本轉3D工具。Atlas3D確保生成符合重力、接觸和摩擦物理穩定性法則的自支撐3D模型。我們的方法結合了一種新穎的可微分基於模擬的損失函數和受物理啟發的正則化,可作為現有框架的精煉或後處理模塊。我們通過廣泛的生成任務驗證了Atlas3D的效能,並在模擬和現實環境中驗證了生成的3D模型。