每日精選AI研究論文及翻譯
我們提出了可駕駛的三維高斯化身(D3GA),這是第一個使用高斯斑點渲染的人體三維可控模型。目前逼真的可駕駛化身在訓練期間要求準確的三維配准、測試期間要求密集的輸入圖像,有時兩者兼具。基於神經輻射場的模型在遠程存在應用中往往速度過慢。本研究利用最近提出的三維高斯斑點(3DGS)技術,在實時幀速下渲染出逼真的人類形象,使用密集校準的多視角視頻作為輸入。為了變形這些基本形狀,我們不再使用常見的線性混合蒙皮(LBS)的點變形方法,而是採用經典的體積變形方法:籠狀變形。鑒於其較小的尺寸,我們使用關節角度和關鍵點來驅動這些變形,這對於通信應用更為適合。在九位具有不同體形、服裝和動作的受試者上進行的實驗表明,當使用相同的訓練和測試數據時,我們的方法獲得了比最先進方法更高質量的結果。
我們提出了一種方法,可以從單張輸入圖像生成一個具有一致、高分辨率外觀的人物360度視圖。NeRF及其變體通常需要來自不同視角的視頻或圖像。大多數現有方法接受單眼輸入,要麼依賴於地面真實的3D掃描來進行監督,要麼缺乏3D一致性。雖然最近的3D生成模型展示了3D一致的人體數字化的潛力,但這些方法對於不同服裝外觀的泛化能力不佳,且結果缺乏逼真感。與現有工作不同,我們利用了預先訓練用於一般圖像合成任務的高容量2D擴散模型作為穿著衣物的人類外觀先驗。為了實現更好的3D一致性並保留輸入身份,我們通過對輪廓和表面法向條件下的形狀引導擴散來逐步合成輸入圖像中人物的多個視圖,以修補缺失區域。然後,我們通過反向渲染將這些合成的多視圖圖像融合,以獲得給定人物的完全紋理化的高分辨率3D網格。實驗表明,我們的方法優於先前的方法,可以從單張圖像實現廣泛服裝人物的逼真360度合成,包括複雜紋理。
我們提出了DMV3D,一種新穎的3D生成方法,它使用基於Transformer的3D大型重建模型來去噪多視圖擴散。我們的重建模型融合了三平面NeRF表示法,可以通過NeRF重建和渲染去噪多視圖圖像,實現在單個A100 GPU上的單階段3D生成,耗時約30秒。我們在大規模多視圖圖像數據集上訓練DMV3D,這些數據集包含高度多樣化的物體,僅使用圖像重建損失,而無需訪問3D資產。我們展示了在需要對看不見的物體部分進行概率建模以生成具有清晰紋理的多樣重建的單圖重建問題上的最新成果。我們還展示了高質量的文本到3D生成結果,勝過先前的3D擴散模型。我們的項目網站位於:https://justimyhxu.github.io/projects/dmv3d/。
音頻擴散模型能夠合成各種各樣的聲音。現有模型通常在潛在域上運作,使用串聯的相位恢復模組來重建波形。這在生成高保真音頻時存在挑戰。本文提出了EDMSound,一種基於擴散的生成模型,位於頻譜圖域,採用闡明擴散模型(EDM)框架。結合高效確定性取樣器,我們僅通過10個步驟實現了與排名靠前基準相似的Fréchet音頻距離(FAD)分數,並在DCASE2023 foley聲音生成基準上通過50個步驟達到了最先進的性能。我們還揭示了一個潛在的問題,即基於擴散的音頻生成模型傾向於生成與訓練數據相似度高的樣本。項目頁面:https://agentcooper2002.github.io/EDMSound/
基於對話的角色扮演遊戲(RPG)需要強大的故事情節。這些故事情節可能需要數年才能完成,通常涉及一個龐大的創作團隊。在這項工作中,我們展示了大型生成文本模型協助這個過程的潛力。GRIM是一個原型系統,名為GRaph-based Interactive narrative visualization system for gaMes,它生成一個豐富的敘事圖,具有分支故事情節,符合設計師提供的高層次敘事描述和約束條件。遊戲設計師可以通過自動生成符合原始敘事和約束條件內容的新子圖來互動編輯該圖。我們演示了GRIM與GPT-4的應用,為四個知名故事生成具有不同情境約束的分支故事情節。
大型語言模型(LLM)的互補潛力假設是,現成的LLM在廣泛領域和任務中具有異質專業知識,因此LLM集成體能夠實現更一致優異的表現。現有的LLM集成方法主要集中在對輸出進行獎勵模型排名,導致顯著的計算開銷。為了應對這個問題,我們重新審視LLM的互補潛力,並通過利用現成的獎勵模型挖掘潛在專業知識來進行進一步闡述。我們提出了Zooter,一種基於獎勵引導的路由方法,通過將訓練查詢的獎勵提煉到一個路由函數上,該函數可以精確地將每個查詢分發給具有相關專業知識的LLM。我們還整合了基於標籤的標籤增強功能,以減輕在使用獎勵作為銀牌監督時來自不確定性的噪音。Zooter在推斷中顯示出計算效率,因為與獎勵模型排名方法相比,引入路由函數僅帶來輕微的計算開銷。我們在包含26個不同領域和任務子集的全面基準集上對Zooter進行評估。Zooter在平均表現上優於最佳單一模型,並在44%的任務中排名第一,甚至超越多個獎勵模型排名方法。
準確模擬事件動態的語言技術必須進行常識推理。現有的常識推理評估工作著重於對常見日常情況進行推論。為了探究模擬不尋常、意外和不太可能情況的能力,我們探索了非常識推理的任務。在給定一段具有意外結果的上下文時,這個任務要求進行演繹推理,生成一個自然語言解釋,使得上下文中的意外結果更有可能發生。為此,我們彙編並發布了一個名為UNcommonsense的新英語語料庫。我們對比了人類解釋者和表現最佳的大型語言模型的表現差異,發現模型增強的人工撰寫解釋通過在特定性和多樣性之間取得平衡,實現了最高質量。最後,我們嘗試了幾種在線模仿學習算法,以在這個任務上訓練開放且易於訪問的語言模型。與基本監督微調方法相比,這些方法在人類評估者評判的常識和非常識演繹推理中持續降低失敗率。
參數高效調整一直是適應大型語言模型到下游任務的一種重要方法。大多數先前的研究考慮添加密集可訓練參數,其中所有參數都用於適應特定任務。我們在實證中發現,以 LoRA 為例,引入更多可訓練參數並不有助於提高效果。受此啟發,我們探討了利用「稀疏」計算的重要性,並提出 SiRA:稀疏低秩適應的混合。SiRA 利用稀疏專家混合(SMoE)來提升 LoRA 的性能。具體而言,它強制實施頂部 k 專家路由,並通過容量限制來限制每個專家可以處理的最大標記數。我們提出了一種新穎且簡單的專家輸出層放棄機制,以減少過度擬合問題。通過大量實驗,我們驗證了 SiRA 在不同單一任務和多任務設置中表現優於 LoRA 和其他專家混合方法。
強大的大型語言模型已促進了寫作助手的發展,承諾顯著提高組成和溝通的質量和效率。然而,有效協助的一個障礙是大型語言模型輸出中缺乏對作者溝通風格和專業知識的個性化。本文通過提出 PEARL 來應對這一挑戰,這是一個使用生成校準檢索器個性化的擴充型大型語言模型寫作助手。我們的檢索器經過訓練,選擇歷史用戶撰寫的文件進行提示增強,從而最有可能為用戶請求最佳個性化大型語言模型生成。我們提出了兩個訓練檢索器的關鍵創新:1)識別可能受益於個性化的用戶請求和提供該益處的文件的訓練數據選擇方法;2)一個尺度校準的 KL 散度目標,確保我們的檢索器緊密跟踪文件對個性化生成的益處。我們展示了 PEARL 在生成個性化的工作場所社交媒體帖子和 Reddit 評論方面的有效性。最後,我們展示了生成校準檢索器作為性能預測器的潛力,並通過大型語言模型鏈接進一步改進低質量生成。
最近基於Transformer的大型語言模型取得了在自然語言生成方面的重大進展。然而,為了解碼K個標記,自回歸模型需要進行K個順序前向傳遞,這可能成為大型語言模型的性能瓶頸。許多非自回歸(NAR)研究致力於解決這種順序性瓶頸,儘管許多研究已專注於在監督基準測試中的專用架構。在這項研究中,我們通過展開去噪研究了非自回歸T5模型的無監督預訓練,並展示了其在下游生成任務(如SQuAD問題生成和XSum)中的最先進結果。
為了維護使用者的信任,大型語言模型(LLMs)應在答錯的情況下表達低信心,而不是誤導使用者。目前估計信心的標準方法是使用這些模型的軟最大化機率,但截至2023年11月,像是GPT-4和Claude-v1.3等最先進的LLMs並未提供這些機率的訪問。我們首先研究了語言上引出信心的方法--詢問LLM對其答案的信心--在12個問答數據集上表現合理(在GPT-4上平均為80.5%的AUC--比隨機基準高7%),但仍有改進的空間。然後,我們探索使用替代信心模型--使用我們有機率的模型來評估原模型對於特定問題的信心。令人驚訝的是,即使這些機率來自不同且通常較弱的模型,這種方法在12個數據集中有9個數據集的AUC高於語言信心。我們最佳的方法是結合語言信心和替代模型機率,可以在所有12個數據集上提供最先進的信心估計(在GPT-4上平均AUC為84.6%)。
大型語言模型(LLMs)已經引領了自然語言處理領域的一個轉型時代,在與文本理解和生成相關的任務中表現出色。然而,當面對混亂的情境(例如,分心因素而非長篇無關的內容)時,它們會遇到困難,導致在混亂的情境中無意中遺漏某些細節。為應對這些挑戰,我們引入了“思維之線”(ThoT)策略,該策略靈感來自人類的認知過程。ThoT系統地對擴展情境進行分段和分析,同時熟練地選擇相關信息。這一策略作為一個多功能的“即插即用”模組,能夠無縫地與各種LLMs和提示技術集成。在實驗中,我們利用了PopQA和EntityQ數據集,以及我們收集的多輪對話回應數據集(MTCR),以說明與其他提示技術相比,ThoT顯著改善了推理性能。
評估大型語言模型(LLMs)是一項複雜的任務,特別是考慮到自然語言理解的細微差異和對高層次推理的期望。傳統的評估通常依賴於基於人類、基於模型或基於自動指標的範式,每種方法都有其優點和缺點。我們引入了“Fusion-Eval”,這是一個系統,不僅僅利用LLMs進行直接評估,還巧妙地整合了來自不同評估者的見解。這使得Fusion-Eval具有靈活性,能夠有效地應用於各種任務,並充分利用多個參考資料。在SummEval數據集上的測試中,Fusion-Eval實現了0.96的Spearman相關性,優於其他評估者。Fusion-Eval的成功凸顯了LLMs產生與人類觀點密切一致的評估的潛力,在LLM評估領域設定了新的標準。