每日精選AI研究論文及翻譯
我們探索了一種用於擴展大型語言模型推論時間計算的演化搜索策略。所提出的方法名為「心靈進化」,利用語言模型生成、重組和優化候選回應。該方法避免了在解決方案評估器可用時需要對基礎推論問題進行形式化的必要性。在控制推論成本的情況下,我們發現「心靈進化」在自然語言規劃任務中明顯優於其他推論策略,如Best-of-N和Sequential Revision。在TravelPlanner和Natural Plan基準測試中,「心靈進化」使用Gemini 1.5 Pro解決了超過98%的問題實例,而無需使用正式求解器。
我們介紹了 PaSa,一個由大型語言模型驅動的先進論文檢索代理。PaSa能夠自主做出一系列決策,包括調用檢索工具、閱讀論文和選擇相關參考文獻,從而最終為複雜的學術查詢獲得全面且準確的結果。我們使用強化學習和一個合成數據集 AutoScholarQuery 來優化 PaSa,該數據集包括從頂級人工智能會議出版物中獲取的 35k 細緻的學術查詢和相應論文。此外,我們開發了 RealScholarQuery,一個收集真實世界學術查詢以評估 PaSa 在更現實情境下的表現的基準。儘管在合成數據上訓練,PaSa 在 RealScholarQuery 上明顯優於現有基準,包括 Google、Google Scholar、使用 GPT-4 進行釋義查詢的 Google、chatGPT(支持搜索的 GPT-4o)、GPT-o1 和 PaSa-GPT-4o(通過提示 GPT-4o 實現的 PaSa)。值得注意的是,PaSa-7B 在 recall@20 和 recall@50 上分別比最佳 Google 基準 Google with GPT-4o 高出 37.78% 和 39.90%。它還在召回率上超過 PaSa-GPT-4o 30.36%,在精確率上超過 4.25%。模型、數據集和代碼可在 https://github.com/bytedance/pasa 找到。
評估語言模型(LLM)最廣泛使用的方法之一是多選題(MCQ)測試。MCQ基準可讓在幾乎任何主題上以大規模進行LLM知識測試,因為結果可以自動處理。為了幫助LLM回答,提示中可以包含幾個稱為少量樣本的示例。此外,可以要求LLM直接回答問題並選擇選項,或者先提供推理,然後再選擇答案,這被稱為思維鏈。除了檢查所選答案是否正確外,評估還可以查看LLM對其回應的估計概率,作為LLM對回應的信心指標。在本文中,我們研究了LLM對其答案的信心如何取決於模型是否被要求直接回答或在回答之前提供推理。對七個不同模型中各種主題的問題進行評估的結果顯示,當LLM在回答之前提供推理時,他們對答案更有信心。這種情況發生在所選答案是否正確的情況下。我們的假設是,這種行為是由於推理修改了所選答案的概率,因為LLM根據輸入問題和支持所做選擇的推理來預測答案。因此,LLM估計的概率似乎具有固有的限制,應該了解這些限制以便在評估程序中使用它們。有趣的是,相同的行為也觀察到在人類中,解釋答案會增加對其正確性的信心。
2D卡通風格是數字角色創作中一種突出的藝術形式,特別受到年輕觀眾的喜愛。儘管數字人類技術的進步推動了對逼真數字人類和3D角色的廣泛研究,互動式2D卡通角色卻受到相對較少的關注。與需要複雜構建和資源密集渲染的3D對應物不同,Live2D是一種廣泛使用的2D卡通角色格式,提供了一種更有效的選擇,可以模擬3D運動的方式來為2D角色添加動畫,而無需構建完整的3D模型。此外,Live2D採用輕量級的HTML5(H5)渲染,提高了可訪問性和效率。在這份技術報告中,我們介紹了Textoon,一種基於文本描述生成多樣化2D卡通角色的創新方法,採用Live2D格式。Textoon利用尖端語言和視覺模型來理解文本意圖並生成2D外觀,能夠在一分鐘內創建各種令人驚嘆和互動式的2D角色。該項目的主頁是https://human3daigc.github.io/Textoon_webpage/。
透過即時應用程式介面(API)增強大型語言模型(LLMs)可以幫助生成更準確和最新的回應。然而,在真實世界情境中評估LLMs的函數呼叫能力仍未被充分探討,這是因為數據收集和評估的複雜性。在這項工作中,我們引入了ComplexFuncBench,這是一個涵蓋五個真實世界情境的複雜函數呼叫基準測試。與現有的基準測試相比,ComplexFuncBench包括多步驟和受限函數呼叫,需要長參數填寫、參數值推理和128k長內容。此外,我們提出了一個自動框架ComplexEval,用於定量評估複雜函數呼叫任務。通過全面的實驗,我們展示了最先進的LLMs在函數呼叫方面的不足之處,並提出了優化這些能力的未來方向。數據和程式碼可在https://github.com/THUDM/ComplexFuncBench找到。
我們介紹了 X-Dyna,一種新穎的零樣本、基於擴散的流程,用於通過從驅動視頻中提取的面部表情和身體動作來為單張人像圖像添加動畫效果,生成既真實又具有上下文感知的動態效果,涵蓋了主題及周圍環境。在以人體姿勢控制為中心的先前方法基礎上,X-Dyna 解決了導致動態細節丟失的主要缺陷,增強了人類視頻動畫的逼真特性。我們方法的核心是 Dynamics-Adapter,這是一個輕量級模塊,能夠有效地將參考外觀上下文整合到擴散主幹的空間關注中,同時保留運動模塊在合成流暢和複雜動態細節方面的能力。除了身體姿勢控制,我們還將本地控制模塊與我們的模型相連接,以捕獲與身份解耦的面部表情,從而實現準確的表情轉移,增強動畫場景的逼真感。這些組件共同構成了一個統一的框架,能夠從各種人類和場景視頻中學習人類運動和自然場景動態。全面的定性和定量評估表明,X-Dyna 優於最先進的方法,創建出高度逼真和富有表現力的動畫。代碼可在 https://github.com/bytedance/X-Dyna 找到。
本文探討開發大型語言模型(LLMs)在多語言理解和醫學知識方面的挑戰。我們證明僅簡單地將醫學數據翻譯並不能保證在目標語言上對臨床任務有較強的表現。我們的實驗顯示,在不同醫學任務中,訓練數據中的最佳語言組合差異顯著。我們發現,具有精心校準語言比例的更大模型在本地語言臨床任務上實現了更優異的表現。此外,我們的結果表明,僅依賴微調可能不是將新語言知識融入LLMs的最有效方法。相反,數據和計算密集型的預訓練方法仍然可能是在多語言醫學環境中實現最佳性能所必需的。這些發現為為不同語言社區構建有效和包容性醫學人工智能系統提供了寶貴的指導。
最近,生成對抗網絡(GANs)的應用已推動了基於中間表示(如mel-頻譜圖)的語音超分辨率(SR)技術。然而,現有的SR方法通常依賴獨立訓練和串聯的網絡,可能導致表示不一致和語音質量不佳,尤其在域外情況下。在本研究中,我們提出了HiFi-SR,一個統一的網絡,利用端到端的對抗訓練來實現高保真度的語音超分辨率。我們的模型具有一個統一的變壓器-卷積生成器,旨在無縫處理潛在表示的預測及其轉換為時域波形。變壓器網絡作為一個強大的編碼器,將低分辨率的mel-頻譜圖轉換為潛在空間表示,而卷積網絡則將這些表示升頻為高分辨率波形。為了增強高頻保真度,我們在對抗訓練過程中結合了多頻帶、多尺度時頻鑑別器,以及多尺度mel重構損失。HiFi-SR具有多功能性,能將4 kHz至32 kHz之間的任何輸入語音信號升頻至48 kHz的採樣率。實驗結果表明,HiFi-SR在客觀指標和ABX偏好測試中明顯優於現有的語音SR方法,無論是在域內還是域外情況下(https://github.com/modelscope/ClearerVoice-Studio)。
我們介紹了 GaussianAvatar-Editor,這是一個創新的框架,用於基於文本進行可動態控制的高斯頭像編輯,可以完全控制表情、姿勢和視角。與靜態 3D 高斯編輯不同,編輯可動態的 4D 高斯頭像面臨與運動遮擋和空間-時間不一致性相關的挑戰。為了應對這些問題,我們提出了加權 Alpha 混合方程(WABE)。該函數增強可見高斯的混合權重,同時抑制對不可見高斯的影響,有效處理編輯過程中的運動遮擋。此外,為了提高編輯質量並確保 4D 一致性,我們將條件對抗學習融入編輯過程中。這一策略有助於改進編輯結果並在整個動畫過程中保持一致性。通過整合這些方法,我們的 GaussianAvatar-Editor 在可動態的 4D 高斯編輯中實現了逼真且一致的結果。我們在各種主題上進行了全面的實驗,以驗證我們提出的技術的有效性,這證明了我們方法的優越性。更多結果和代碼可在以下項目鏈接中找到:[項目鏈接](https://xiangyueliu.github.io/GaussianAvatar-Editor/)。