每日精選AI研究論文及翻譯
近期大型語言模型(LLMs)的進展,使得自動化科學研究成為邁向人工超級智能的下一個前沿陣地。然而,這些系統要么局限於狹窄的任務範疇,要么受限於LLMs有限的創造能力。我們提出了Spacer,這是一個無需外部干預即可開發創意且基於事實的科學發現系統。Spacer試圖通過“刻意去情境化”來實現這一目標,該方法將信息分解為原子單元——關鍵詞,並從這些關鍵詞之間未被探索的聯繫中汲取創造力。Spacer由兩部分組成:(i) Nuri,一個構建關鍵詞集的靈感引擎,以及(ii) 將這些關鍵詞集精煉為詳盡科學陳述的顯化管道。Nuri從一個包含180,000篇生物學領域學術論文的關鍵詞圖譜中提取新穎且具有高潛力的關鍵詞集。顯化管道則尋找關鍵詞之間的聯繫,分析其邏輯結構,驗證其合理性,並最終起草原創的科學概念。根據我們的實驗,Nuri的評估指標能夠準確分類高影響力出版物,其AUROC得分為0.737。我們的顯化管道也成功地僅憑關鍵詞集重建了最新頂級期刊文章的核心概念。基於LLM的評分系統估計,這種重建在超過85%的情況下是可靠的。最後,我們的嵌入空間分析顯示,與當前最先進的LLMs相比,Spacer的輸出與領先出版物的相似度顯著更高。
本報告介紹了VibeVoice,這是一種新穎的模型,旨在通過採用下一令牌擴散技術來合成多說話者的長篇語音。這是一種通過擴散自迴歸生成潛在向量來建模連續數據的統一方法。為實現這一目標,我們引入了一種新型的連續語音令牌化器,與流行的Encodec模型相比,該令牌化器在保持可比性能的同時,將數據壓縮率提高了80倍。該令牌化器在有效保持音頻保真度的同時,顯著提升了處理長序列的計算效率。因此,VibeVoice能夠在64K上下文窗口長度內合成長達90分鐘的語音,最多支持4位說話者,捕捉真實的對話「氛圍」,並超越了開源和專有的對話模型。
現有的視頻化身模型雖能生成流暢的人體動畫,卻難以超越單純的形似,捕捉角色的真實本質。其動作通常僅與音頻節奏等低層次線索同步,缺乏對情感、意圖或語境的深層語義理解。為彌合這一差距,我們提出了一個框架,旨在生成不僅物理上合理,而且語義連貫且富有表現力的角色動畫。我們的模型OmniHuman-1.5基於兩項關鍵技術貢獻。首先,我們利用多模態大語言模型合成條件結構化文本表示,提供高層次語義指導。這一指導使我們的動作生成器超越了簡單的節奏同步,能夠生成與上下文和情感共鳴的動作。其次,為確保這些多模態輸入的有效融合並緩解模態間衝突,我們引入了一種專用的多模態DiT架構,配備新穎的偽最後幀設計。這些組件的協同作用使我們的模型能夠準確解讀音頻、圖像和文本的聯合語義,從而生成與角色、場景及語言內容深度一致的動作。大量實驗表明,我們的模型在包括唇形同步精度、視頻質量、動作自然度及與文本提示的語義一致性在內的綜合指標上均取得了領先性能。此外,我們的方法在涉及多人及非人主體的複雜場景中展現出顯著的可擴展性。主頁:https://omnihuman-lab.github.io/v1_5/
儘管專家混合(MoE)模型通過僅激活部分參數實現了顯著的效率,但這些模型在推理過程中面臨著高內存訪問成本的問題。內存層架構提供了一種具有極少內存訪問的吸引人替代方案,但之前的嘗試如UltraMem僅能匹配2專家MoE模型的性能,遠遠落後於最先進的8專家配置。我們提出了UltraMemV2,這是一種重新設計的內存層架構,彌補了這一性能差距。我們的方法引入了五項關鍵改進:將內存層集成到每個Transformer模塊中,通過單一線性投影簡化值擴展,採用來自PEER的基於FFN的值處理,實施原則性的參數初始化,以及重新平衡內存與FFN的計算比例。通過廣泛的評估,我們證明UltraMemV2在相同計算和參數條件下實現了與8專家MoE模型的性能持平,但顯著降低了內存訪問。值得注意的是,UltraMemV2在內存密集型任務上表現出優異性能,在長上下文記憶任務上提升了1.6分,在多輪記憶任務上提升了6.2分,在上下文學習任務上提升了7.9分。我們在規模上驗證了我們的方法,模型激活參數高達2.5B,總參數達120B,並確定了激活密度對性能的影響大於總稀疏參數數量。我們的工作使內存層架構達到了與最先進MoE模型相當的性能,為高效的稀疏計算提供了一個引人注目的替代方案。
三維局部編輯在遊戲產業和機器人互動中至關重要。現有方法通常對渲染的多視角圖像進行編輯後重建三維模型,但在精確保留未編輯區域和整體一致性方面面臨挑戰。受結構化三維生成模型的啟發,我們提出了VoxHammer,這是一種無需訓練的新方法,能在三維潛在空間中實現精確且連貫的編輯。給定一個三維模型,VoxHammer首先預測其反轉軌跡,並在每個時間步獲取其反轉潛在變量和鍵值對令牌。隨後,在去噪和編輯階段,我們將保留區域的去噪特徵替換為相應的反轉潛在變量和緩存的鍵值對令牌。通過保留這些上下文特徵,該方法確保了保留區域的一致重建以及編輯部分的連貫整合。為了評估保留區域的一致性,我們構建了Edit3D-Bench,這是一個包含數百個樣本的人工標註數據集,每個樣本都經過精心標記的三維編輯區域。實驗表明,VoxHammer在保留區域的三維一致性和整體質量方面均顯著優於現有方法。我們的方法有望合成高質量的編輯配對數據,從而為上下文內的三維生成奠定數據基礎。詳見我們的項目頁面:https://huanngzh.github.io/VoxHammer-Page/。
從視覺資訊推斷三維場景的物理屬性,是創建互動且逼真的虛擬世界的關鍵但具挑戰性的任務。雖然人類能直觀地理解如彈性或剛度等材料特性,現有方法通常依賴於緩慢的逐場景優化,限制了其通用性和應用範圍。為解決這一問題,我們提出了PIXIE,一種新穎的方法,它訓練一個可泛化的神經網絡,僅使用監督損失從三維視覺特徵預測多個場景的物理屬性。一旦訓練完成,我們的前饋網絡能夠快速推斷出合理的材料場,這與如高斯濺射等學習到的靜態場景表示相結合,能夠在外部力作用下實現逼真的物理模擬。為促進這項研究,我們還收集了PIXIEVERSE,這是已知最大的配對三維資產與物理材料註釋數據集之一。廣泛的評估表明,PIXIE比測試時優化方法優越約1.46至4.39倍,且速度快了數個數量級。通過利用如CLIP等預訓練的視覺特徵,我們的方法還能零樣本泛化到現實世界場景,儘管僅在合成數據上進行過訓練。https://pixie-3d.github.io/
具備鏈式思維推理能力的大型語言模型(LLMs)已展現出卓越的問題解決能力,但在實際部署中,控制其計算開銷仍是一大挑戰。近期如OpenAI的gpt-oss系列等專有系統引入了離散操作模式以實現直觀的推理控制,然而開源社區大多未能實現此類功能。本文中,我們介紹了ThinkDial,這是首個開源端到端框架,成功通過離散操作模式實現了gpt-oss風格的可控推理。我們的系統能夠在三個不同的推理模式間無縫切換:高級模式(完整推理能力)、中級模式(減少50%的token使用,性能下降<10%)和低級模式(減少75%的token使用,性能下降<15%)。我們通過一種端到端的訓練範式實現了這一點,該範式將預算模式控制整合到整個流程中:包括嵌入可控推理能力的預算模式監督微調,以及帶有自適應獎勵塑造的兩階段預算感知強化學習。大量實驗表明,ThinkDial在保持性能閾值的同時,實現了目標的壓縮與性能權衡,並顯著減少了響應長度。該框架在分佈外任務上也展現出強大的泛化能力。
當前最先進的音頻驅動角色動畫方法在主要涉及說話和歌唱的場景中展現出令人期待的表現。然而,在更為複雜的影視製作中,這些方法往往力有未逮,因為這些製作需要精細的角色互動、逼真的身體動作以及動態的攝影技巧。為了解決這一長期存在的挑戰,即實現電影級別的角色動畫,我們提出了一種基於Wan的音頻驅動模型,我們稱之為Wan-S2V。與現有方法相比,我們的模型在電影情境中顯著提升了表現力和真實感。我們進行了廣泛的實驗,將我們的方法與如Hunyuan-Avatar和Omnihuman等尖端模型進行了基準測試。實驗結果一致表明,我們的方法顯著優於這些現有解決方案。此外,我們還通過長視頻生成和精確的視頻唇形同步編輯等應用,探索了我們方法的廣泛適用性。
大型語言模型(LLMs)在可執行的運行時環境中訓練時,展現了卓越的能力,特別是在通過驗證反饋循環處理軟件工程任務方面表現突出。然而,可擴展且具普遍性的執行基礎環境仍然稀缺,這限制了訓練更強大機器學習代理的進展。我們推出了CTF-Dojo,這是首個專為訓練LLMs而設計的大規模可執行運行時環境,配備了658個完全功能的奪旗賽(CTF)式挑戰,這些挑戰被容器化在Docker中,確保了可重現性。為了實現無需人工干預的快速擴展,我們開發了CTF-Forge,這是一個自動化管道,能夠在幾分鐘內將公開可用的工件轉化為即用型執行環境,省去了傳統上需要數週專家配置的時間。我們僅使用來自CTF-Dojo的486條高質量、執行驗證的軌跡來訓練基於LLM的代理,在三個競爭性基準測試中取得了高達11.6%的絕對增益:InterCode-CTF、NYU CTF Bench和Cybench。我們表現最佳的32B模型達到了31.9%的Pass@1,創下了新的開放權重最先進水平,與DeepSeek-V3-0324和Gemini-2.5-Flash等前沿模型相媲美。通過將CTF式任務定位為可執行代理學習的基準,CTF-Dojo證明了基於執行的訓練信號不僅有效,而且對於推進高性能機器學習代理的發展至關重要,而無需依賴昂貴的專有系統。
視覺擴散模型取得了顯著進展,但由於缺乏高分辨率數據和受限的計算資源,它們通常只能在有限的分辨率下進行訓練,這阻礙了其在更高分辨率下生成高保真圖像或視頻的能力。最近的研究探索了無需調優的策略,以展現預訓練模型在更高分辨率視覺生成方面的潛力。然而,這些方法仍容易產生具有重複模式的低質量視覺內容。關鍵障礙在於,當模型生成超出其訓練分辨率的視覺內容時,高頻信息的不可避免增加會導致累積誤差,從而產生不理想的重複模式。在本研究中,我們提出了CineScale,一種新穎的推理範式,以實現更高分辨率的視覺生成。為應對兩種視頻生成架構引入的各種問題,我們提出了針對每種架構的專用變體。與現有的僅限於高分辨率文本到圖像(T2I)和文本到視頻(T2V)生成的基線方法不同,CineScale通過在頂尖的開源視頻生成框架上實現高分辨率圖像到視頻(I2V)和視頻到視頻(V2V)合成,擴展了應用範圍。大量實驗驗證了我們範式在擴展圖像和視頻模型更高分辨率視覺生成能力方面的優越性。值得注意的是,我們的方法無需任何微調即可實現8k圖像生成,並僅需少量LoRA微調即可實現4k視頻生成。生成的視頻樣本可在我們的網站上查看:https://eyeline-labs.github.io/CineScale/。
近年來的網格生成方法通常將三角形網格轉換為一系列標記,並訓練自回歸模型來依次生成這些標記。儘管取得了顯著進展,但這類標記序列不可避免地會重複使用頂點以完整表示流形網格,因為每個頂點被多個面共享。這種冗餘導致標記序列過長,生成過程效率低下。本文提出了一種高效框架,通過分別處理頂點和面來生成藝術網格,顯著減少了冗餘。我們僅使用自回歸模型生成頂點,將所需標記數量減少至現有最緊湊標記器的約23%。接著,我們利用雙向變壓器捕捉頂點間的關係,並構建定義網格面的鄰接矩陣,從而一步完成網格生成。為了進一步提升生成質量,我們引入了一種保真度增強器來精煉頂點位置,使其排列更加自然,並提出了一種後處理框架以去除不良的邊連接。實驗結果表明,與最先進的方法相比,我們的網格生成速度提高了8倍以上,同時生成更高質量的網格。
大型語言模型(LLMs)透過從科學發現、醫學診斷到聊天機器人等廣泛應用,在科學、工程和社會領域帶來了顯著進步,重塑了我們的世界。儘管它們無處不在且實用性高,但LLM的運作機制仍隱藏在數十億參數和複雜結構之中,使其內部架構和認知過程難以理解。我們通過借鑒生物學中理解新興認知的方法,並開發一個基於網絡的框架來彌補這一差距,該框架將認知技能、LLM架構和數據集聯繫起來,從而引領基礎模型分析的範式轉變。模塊社群中的技能分佈表明,雖然LLMs並未嚴格對應於特定生物系統中觀察到的集中專化,但它們展現了獨特的模塊社群,其湧現的技能模式部分反映了鳥類和小型哺乳動物大腦中分佈式卻相互連接的認知組織。我們的數值結果突顯了從生物系統到LLMs的一個關鍵差異,即技能獲取在很大程度上受益於動態的跨區域互動和神經可塑性。通過將認知科學原理與機器學習相結合,我們的框架為LLM的可解釋性提供了新的見解,並表明有效的微調策略應利用分佈式學習動態,而非僵化的模塊干預。