每日精選AI研究論文及翻譯
大型語言模型(LLMs)在處理長文本方面取得了顯著進展,但仍然在長文本推理方面遇到困難。現有方法通常涉及使用合成數據對LLMs進行微調,這取決於人類專家的標註或像GPT-4這樣的先進模型,因此限制了進一步的發展。為解決這個問題,我們研究了LLMs在長文本推理中自我改進的潛力,並提出了\ours,這是專門為此目的設計的方法。這種方法很直接:我們為每個問題採樣多個輸出,用最小貝葉斯風險對它們進行評分,然後根據這些輸出應用監督微調或基於偏好的優化。對幾個領先的LLMs進行了大量實驗,證明了\ours的有效性,對於Llama-3.1-8B-Instruct來說,絕對改進了4.2個點。此外,與依賴人類專家或先進模型生成的數據的先前方法相比,\ours實現了更優異的性能。我們預計這項工作將為長文本情境中的自我改進技術開辟新途徑,這對LLMs的持續發展至關重要。
影片生成已成為一種有前景的工具,用於世界模擬,利用視覺數據來複製現實世界的環境。在這個背景下,以人類視角為中心的自我中心視頻生成具有顯著潛力,可增強虛擬現實、擴增現實和遊戲應用。然而,自我中心視頻的生成面臨著重大挑戰,這是由於自我中心視點的動態性、行動的複雜多樣性以及遇到的場景的複雜多樣性。現有的數據集無法有效應對這些挑戰。為了彌合這一差距,我們提出了EgoVid-5M,這是專門為自我中心視頻生成而精心策劃的第一個高質量數據集。EgoVid-5M 包含 500 萬個自我中心視頻片段,並附帶詳細的行動標註,包括細粒度的動力學控制和高級文本描述。為確保數據集的完整性和可用性,我們實施了一個複雜的數據清理流程,旨在在自我中心條件下保持幀一致性、行動連貫性和運動平滑度。此外,我們還引入了 EgoDreamer,它能夠同時受行動描述和動力學控制信號驅動生成自我中心視頻。EgoVid-5M 數據集、相關行動標註以及所有數據清理元數據將被釋放,以推動自我中心視頻生成研究的進展。
大型語言模型(LLMs)與人類偏好的對齊仍然是一個關鍵挑戰。雖然像是從人類反饋中進行強化學習(RLHF)和直接偏好優化(DPO)等訓練後技術已經取得顯著成功,但它們通常會引入計算效率低和訓練不穩定的問題。在本文中,我們提出了基於特徵約束的偏好優化(FPO),這是一種旨在簡化對齊過程並確保穩定性的新方法。FPO利用預先訓練的稀疏自編碼器(SAEs)並引入特徵級約束,從而實現高效、稀疏強制對齊。我們的方法通過使用在訓練良好的稀疏自編碼器中激活的稀疏特徵以及使用特徵級離線參考的順序KL散度,實現了效率。在基準數據集上的實驗結果表明,與最先進的基準相比,FPO在勝率上實現了5.08%的絕對改善,並且計算成本更低,這使其成為一種有效且可控的LLM對齊的有前途的解決方案。
法語語言模型,如CamemBERT,已被廣泛應用於各行業的自然語言處理(NLP)任務中,像CamemBERT這樣的模型每月下載量超過400萬次。然而,這些模型面臨時間概念漂移的挑戰,即過時的訓練數據導致性能下降,特別是在遇到新主題和術語時。這個問題強調了需要反映當前語言趨勢的更新模型。在本文中,我們介紹了CamemBERT基本模型的兩個新版本-CamemBERTav2和CamemBERTv2,旨在應對這些挑戰。CamemBERTav2基於DeBERTaV3架構,利用了替換標記檢測(RTD)目標以獲得更好的上下文理解,而CamemBERTv2則基於RoBERTa構建,使用了遮罩語言建模(MLM)目標。這兩個模型均在一個更大且更新的數據集上進行訓練,上下文長度更長,並使用了增強法語分詞性能的更新分詞器。我們對這些模型在通用領域NLP任務和特定領域應用(如醫學領域任務)上的性能進行評估,展示了它們在各種用例中的多功能性和有效性。我們的結果顯示,這些更新的模型遠遠優於它們的前身,使它們成為現代NLP系統的寶貴工具。我們所有的新模型以及中間檢查點都在Huggingface上公開提供。
轉向向量是控制大型語言模型行為的一種有前途的方法。然而,其基本機制仍然知之甚少。儘管稀疏自編碼器(SAEs)可能提供一種解釋轉向向量的潛在方法,但最近的研究發現,SAE 重建的向量通常缺乏原始向量的轉向特性。本文探討了為何直接應用 SAE 到轉向向量會產生誤導性的分解,並確定了兩個原因:(1)轉向向量落在 SAE 設計之外的輸入分佈之外,以及(2)轉向向量在特徵方向上可能具有有意義的負投影,而 SAE 並未設計來容納這種情況。這些限制阻礙了直接使用 SAE 來解釋轉向向量。
音樂生成已取得顯著進展,特別是在音頻生成領域。然而,生成既具有長期結構又具有表現力的象徵音樂仍然是一個重大挑戰。在本文中,我們提出了PerceiverS(分割和尺度),這是一種新穎的架構,旨在通過利用有效分割和多尺度注意機制來解決這個問題。我們的方法通過同時學習長期結構依賴性和短期表現細節來增強象徵音樂生成。通過在多尺度環境中結合交叉注意力和自注意力,PerceiverS捕捉了長程音樂結構,同時保留了表現細微差異。所提出的模型在Maestro等數據集上進行評估,展示了在生成具有結構一致性和表現變化的連貫且多樣化音樂方面的改進。項目演示和生成的音樂樣本可通過以下鏈接訪問:https://perceivers.github.io。
現有的文本轉視頻(T2V)模型通常在生成具有足夠明顯或複雜動作的視頻方面遇到困難。一個關鍵限制在於文本提示無法精確傳達複雜運動細節。為了應對這一問題,我們提出了一個新穎的框架,名為MVideo,旨在生成具有精確、流暢動作的長時視頻。MVideo通過將遮罩序列作為額外的運動條件輸入來克服文本提示的限制,提供更清晰、更準確地表示預期動作的方法。MVideo利用GroundingDINO和SAM2等基礎視覺模型,自動生成遮罩序列,提高了效率和韌性。我們的結果表明,在訓練後,MVideo能夠有效地將文本提示與運動條件對齊,以生成同時滿足兩者標準的視頻。這種雙重控制機制使得更動態的視頻生成成為可能,可以獨立修改文本提示或運動條件,或同時修改兩者。此外,MVideo支持運動條件的編輯和組合,有助於生成具有更複雜動作的視頻。因此,MVideo推動了T2V運動生成,為當前視頻傳播模型中改進動作描述設立了一個強有力的基準。我們的項目頁面可在https://mvideo-v1.github.io/找到。