每日精選AI研究論文及翻譯
本報告介紹了VibeVoice,這是一種新穎的模型,旨在通過採用下一令牌擴散技術來合成多說話者的長篇語音。這是一種通過擴散自迴歸生成潛在向量來建模連續數據的統一方法。為實現這一目標,我們引入了一種新型的連續語音令牌化器,與流行的Encodec模型相比,該令牌化器在保持可比性能的同時,將數據壓縮率提高了80倍。該令牌化器在有效保持音頻保真度的同時,顯著提升了處理長序列的計算效率。因此,VibeVoice能夠在64K上下文窗口長度內合成長達90分鐘的語音,最多支持4位說話者,捕捉真實的對話「氛圍」,並超越了開源和專有的對話模型。
近期,通過強化學習對齊大型語言模型的技術取得了顯著進展,在解決複雜推理問題方面獲得了顯著提升,但這也伴隨著昂貴的在線策略展開和對多樣化推理路徑探索的局限。本研究提出了TreePO,引入了一種自我引導的展開算法,將序列生成視為樹結構的搜索過程。TreePO結合了動態樹採樣策略和固定長度片段解碼,利用局部不確定性來保證額外分支的生成。通過在共同前綴上分攤計算並早期剪枝低價值路徑,TreePO本質上減少了每次更新的計算負擔,同時保持或增強了探索的多樣性。主要貢獻包括:(1) 一種分段採樣算法,通過連續片段減輕KV緩存的負擔,並伴隨早期停止機制生成新分支;(2) 基於樹的片段級優勢估計,考慮了全局和局部的近端策略優化;(3) 對概率和質量驅動的動態分歧及回退策略有效性的分析。我們在系列推理基準上實證驗證了TreePO的性能提升,並展示了訓練模型採樣設計的GPU小時效率節省從22%到43%,同時現有模型在軌跡級和令牌級採樣計算上分別減少了40%和35%。在提供推理效率的“免費午餐”的同時,TreePO揭示了一條實用路徑,即通過更少的樣本和計算來擴展基於強化學習的後訓練。主頁位於https://m-a-p.ai/TreePO。
我們推出了CMPhysBench,這是一個旨在評估大型語言模型(LLMs)在凝聚態物理學領域能力的新穎基準。CMPhysBench由超過520道研究生級別精心策劃的問題組成,涵蓋了凝聚態物理學的代表性子領域和基礎理論框架,如磁性、超導性、強關聯系統等。為了確保對問題解決過程的深入理解,我們專注於計算問題,要求LLMs獨立生成全面的解決方案。同時,利用表達式的樹狀表示,我們引入了可擴展表達式編輯距離(SEED)分數,該分數提供了細粒度的(非二元的)部分分數,並能更準確地評估預測與真實值之間的相似性。我們的結果顯示,即使是表現最佳的模型Grok-4,在CMPhysBench上的平均SEED分數僅為36,準確率為28%,這凸顯了在這一實用且前沿的領域相對於傳統物理學的顯著能力差距。代碼和數據集已公開於https://github.com/CMPhysBench/CMPhysBench。
三維局部編輯在遊戲產業和機器人互動中至關重要。現有方法通常對渲染的多視角圖像進行編輯後重建三維模型,但在精確保留未編輯區域和整體一致性方面面臨挑戰。受結構化三維生成模型的啟發,我們提出了VoxHammer,這是一種無需訓練的新方法,能在三維潛在空間中實現精確且連貫的編輯。給定一個三維模型,VoxHammer首先預測其反轉軌跡,並在每個時間步獲取其反轉潛在變量和鍵值對令牌。隨後,在去噪和編輯階段,我們將保留區域的去噪特徵替換為相應的反轉潛在變量和緩存的鍵值對令牌。通過保留這些上下文特徵,該方法確保了保留區域的一致重建以及編輯部分的連貫整合。為了評估保留區域的一致性,我們構建了Edit3D-Bench,這是一個包含數百個樣本的人工標註數據集,每個樣本都經過精心標記的三維編輯區域。實驗表明,VoxHammer在保留區域的三維一致性和整體質量方面均顯著優於現有方法。我們的方法有望合成高質量的編輯配對數據,從而為上下文內的三維生成奠定數據基礎。詳見我們的項目頁面:https://huanngzh.github.io/VoxHammer-Page/。
現有的視頻化身模型雖能生成流暢的人體動畫,卻難以超越單純的形似,捕捉角色的真實本質。其動作通常僅與音頻節奏等低層次線索同步,缺乏對情感、意圖或語境的深層語義理解。為彌合這一差距,我們提出了一個框架,旨在生成不僅物理上合理,而且語義連貫且富有表現力的角色動畫。我們的模型OmniHuman-1.5基於兩項關鍵技術貢獻。首先,我們利用多模態大語言模型合成條件結構化文本表示,提供高層次語義指導。這一指導使我們的動作生成器超越了簡單的節奏同步,能夠生成與上下文和情感共鳴的動作。其次,為確保這些多模態輸入的有效融合並緩解模態間衝突,我們引入了一種專用的多模態DiT架構,配備新穎的偽最後幀設計。這些組件的協同作用使我們的模型能夠準確解讀音頻、圖像和文本的聯合語義,從而生成與角色、場景及語言內容深度一致的動作。大量實驗表明,我們的模型在包括唇形同步精度、視頻質量、動作自然度及與文本提示的語義一致性在內的綜合指標上均取得了領先性能。此外,我們的方法在涉及多人及非人主體的複雜場景中展現出顯著的可擴展性。主頁:https://omnihuman-lab.github.io/v1_5/
儘管專家混合(MoE)模型通過僅激活部分參數實現了顯著的效率,但這些模型在推理過程中面臨著高內存訪問成本的問題。內存層架構提供了一種具有極少內存訪問的吸引人替代方案,但之前的嘗試如UltraMem僅能匹配2專家MoE模型的性能,遠遠落後於最先進的8專家配置。我們提出了UltraMemV2,這是一種重新設計的內存層架構,彌補了這一性能差距。我們的方法引入了五項關鍵改進:將內存層集成到每個Transformer模塊中,通過單一線性投影簡化值擴展,採用來自PEER的基於FFN的值處理,實施原則性的參數初始化,以及重新平衡內存與FFN的計算比例。通過廣泛的評估,我們證明UltraMemV2在相同計算和參數條件下實現了與8專家MoE模型的性能持平,但顯著降低了內存訪問。值得注意的是,UltraMemV2在內存密集型任務上表現出優異性能,在長上下文記憶任務上提升了1.6分,在多輪記憶任務上提升了6.2分,在上下文學習任務上提升了7.9分。我們在規模上驗證了我們的方法,模型激活參數高達2.5B,總參數達120B,並確定了激活密度對性能的影響大於總稀疏參數數量。我們的工作使內存層架構達到了與最先進MoE模型相當的性能,為高效的稀疏計算提供了一個引人注目的替代方案。
從視覺資訊推斷三維場景的物理屬性,是創建互動且逼真的虛擬世界的關鍵但具挑戰性的任務。雖然人類能直觀地理解如彈性或剛度等材料特性,現有方法通常依賴於緩慢的逐場景優化,限制了其通用性和應用範圍。為解決這一問題,我們提出了PIXIE,一種新穎的方法,它訓練一個可泛化的神經網絡,僅使用監督損失從三維視覺特徵預測多個場景的物理屬性。一旦訓練完成,我們的前饋網絡能夠快速推斷出合理的材料場,這與如高斯濺射等學習到的靜態場景表示相結合,能夠在外部力作用下實現逼真的物理模擬。為促進這項研究,我們還收集了PIXIEVERSE,這是已知最大的配對三維資產與物理材料註釋數據集之一。廣泛的評估表明,PIXIE比測試時優化方法優越約1.46至4.39倍,且速度快了數個數量級。通過利用如CLIP等預訓練的視覺特徵,我們的方法還能零樣本泛化到現實世界場景,儘管僅在合成數據上進行過訓練。https://pixie-3d.github.io/
近期大型語言模型(LLMs)的進展,使得自動化科學研究成為邁向人工超級智能的下一個前沿陣地。然而,這些系統要么局限於狹窄的任務範疇,要么受限於LLMs有限的創造能力。我們提出了Spacer,這是一個無需外部干預即可開發創意且基於事實的科學發現系統。Spacer試圖通過“刻意去情境化”來實現這一目標,該方法將信息分解為原子單元——關鍵詞,並從這些關鍵詞之間未被探索的聯繫中汲取創造力。Spacer由兩部分組成:(i) Nuri,一個構建關鍵詞集的靈感引擎,以及(ii) 將這些關鍵詞集精煉為詳盡科學陳述的顯化管道。Nuri從一個包含180,000篇生物學領域學術論文的關鍵詞圖譜中提取新穎且具有高潛力的關鍵詞集。顯化管道則尋找關鍵詞之間的聯繫,分析其邏輯結構,驗證其合理性,並最終起草原創的科學概念。根據我們的實驗,Nuri的評估指標能夠準確分類高影響力出版物,其AUROC得分為0.737。我們的顯化管道也成功地僅憑關鍵詞集重建了最新頂級期刊文章的核心概念。基於LLM的評分系統估計,這種重建在超過85%的情況下是可靠的。最後,我們的嵌入空間分析顯示,與當前最先進的LLMs相比,Spacer的輸出與領先出版物的相似度顯著更高。
近期如SAM2等视频基础模型通过将掩码视为通用原语,在提示式视频分割任务中表现出色。然而,许多现实场景需要无提示分割,旨在无需外部线索即可检测并追踪视频中的所有对象,这使得当前领域被分割为针对特定任务的模型和流程。我们将流式视频分割重新定义为序列掩码预测,类似于语言建模,并引入了自回归通用分割模型(AUSM),这一单一架构统一了提示式与无提示式视频分割。基于最新的状态空间模型,AUSM维持固定大小的空间状态,并能适应任意长度的视频流。此外,AUSM的所有组件均设计为跨帧并行训练,相较于迭代训练实现了显著的加速。在标准基准测试(DAVIS17、YouTube-VOS 2018 & 2019、MOSE、YouTube-VIS 2019 & 2021及OVIS)中,AUSM超越了先前的通用流式视频分割方法,并在16帧序列上实现了高达2.5倍的训练速度提升。
視覺擴散模型取得了顯著進展,但由於缺乏高分辨率數據和受限的計算資源,它們通常只能在有限的分辨率下進行訓練,這阻礙了其在更高分辨率下生成高保真圖像或視頻的能力。最近的研究探索了無需調優的策略,以展現預訓練模型在更高分辨率視覺生成方面的潛力。然而,這些方法仍容易產生具有重複模式的低質量視覺內容。關鍵障礙在於,當模型生成超出其訓練分辨率的視覺內容時,高頻信息的不可避免增加會導致累積誤差,從而產生不理想的重複模式。在本研究中,我們提出了CineScale,一種新穎的推理範式,以實現更高分辨率的視覺生成。為應對兩種視頻生成架構引入的各種問題,我們提出了針對每種架構的專用變體。與現有的僅限於高分辨率文本到圖像(T2I)和文本到視頻(T2V)生成的基線方法不同,CineScale通過在頂尖的開源視頻生成框架上實現高分辨率圖像到視頻(I2V)和視頻到視頻(V2V)合成,擴展了應用範圍。大量實驗驗證了我們範式在擴展圖像和視頻模型更高分辨率視覺生成能力方面的優越性。值得注意的是,我們的方法無需任何微調即可實現8k圖像生成,並僅需少量LoRA微調即可實現4k視頻生成。生成的視頻樣本可在我們的網站上查看:https://eyeline-labs.github.io/CineScale/。
當前最先進的音頻驅動角色動畫方法在主要涉及說話和歌唱的場景中展現出令人期待的表現。然而,在更為複雜的影視製作中,這些方法往往力有未逮,因為這些製作需要精細的角色互動、逼真的身體動作以及動態的攝影技巧。為了解決這一長期存在的挑戰,即實現電影級別的角色動畫,我們提出了一種基於Wan的音頻驅動模型,我們稱之為Wan-S2V。與現有方法相比,我們的模型在電影情境中顯著提升了表現力和真實感。我們進行了廣泛的實驗,將我們的方法與如Hunyuan-Avatar和Omnihuman等尖端模型進行了基準測試。實驗結果一致表明,我們的方法顯著優於這些現有解決方案。此外,我們還通過長視頻生成和精確的視頻唇形同步編輯等應用,探索了我們方法的廣泛適用性。
近年來的網格生成方法通常將三角形網格轉換為一系列標記,並訓練自回歸模型來依次生成這些標記。儘管取得了顯著進展,但這類標記序列不可避免地會重複使用頂點以完整表示流形網格,因為每個頂點被多個面共享。這種冗餘導致標記序列過長,生成過程效率低下。本文提出了一種高效框架,通過分別處理頂點和面來生成藝術網格,顯著減少了冗餘。我們僅使用自回歸模型生成頂點,將所需標記數量減少至現有最緊湊標記器的約23%。接著,我們利用雙向變壓器捕捉頂點間的關係,並構建定義網格面的鄰接矩陣,從而一步完成網格生成。為了進一步提升生成質量,我們引入了一種保真度增強器來精煉頂點位置,使其排列更加自然,並提出了一種後處理框架以去除不良的邊連接。實驗結果表明,與最先進的方法相比,我們的網格生成速度提高了8倍以上,同時生成更高質量的網格。
具備鏈式思維推理能力的大型語言模型(LLMs)已展現出卓越的問題解決能力,但在實際部署中,控制其計算開銷仍是一大挑戰。近期如OpenAI的gpt-oss系列等專有系統引入了離散操作模式以實現直觀的推理控制,然而開源社區大多未能實現此類功能。本文中,我們介紹了ThinkDial,這是首個開源端到端框架,成功通過離散操作模式實現了gpt-oss風格的可控推理。我們的系統能夠在三個不同的推理模式間無縫切換:高級模式(完整推理能力)、中級模式(減少50%的token使用,性能下降<10%)和低級模式(減少75%的token使用,性能下降<15%)。我們通過一種端到端的訓練範式實現了這一點,該範式將預算模式控制整合到整個流程中:包括嵌入可控推理能力的預算模式監督微調,以及帶有自適應獎勵塑造的兩階段預算感知強化學習。大量實驗表明,ThinkDial在保持性能閾值的同時,實現了目標的壓縮與性能權衡,並顯著減少了響應長度。該框架在分佈外任務上也展現出強大的泛化能力。
深度研究代理的出現大幅縮短了進行廣泛研究任務所需的時間。然而,這些任務本質上要求嚴格的事實準確性和全面性,因此在廣泛採用之前需要進行徹底的評估。在本文中,我們提出了ReportBench,這是一個系統化的基準,旨在評估由大型語言模型(LLMs)生成的研究報告的內容質量。我們的評估聚焦於兩個關鍵維度:(1)引用文獻的質量和相關性,以及(2)生成報告中陳述的真實性和準確性。ReportBench利用arXiv上發表的高質量綜述論文作為黃金標準參考,通過逆向提示工程從中提取特定領域的提示,並建立一個全面的評估語料庫。此外,我們在ReportBench中開發了一個基於代理的自動化框架,該框架系統地分析生成報告,通過提取引用和陳述,檢查引用內容與原始來源的真實性,並使用基於網絡的資源驗證非引用聲明。實證評估表明,由OpenAI和Google等開發的商業深度研究代理比配備搜索或瀏覽工具的獨立LLMs生成更全面和可靠的報告。然而,在研究覆蓋的廣度和深度以及事實一致性方面仍有顯著的改進空間。完整的代碼和數據將在以下鏈接發布:https://github.com/ByteDance-BandAI/ReportBench。
藥物發現是一個複雜且資源密集的過程,因此早期預測批准結果對於優化研究投資至關重要。雖然傳統的機器學習和深度學習方法在藥物批准預測方面顯示出潛力,但其有限的解釋性限制了其影響力。在此,我們介紹了DrugReasoner,這是一個基於LLaMA架構並通過群組相對策略優化(GRPO)微調的推理型大型語言模型(LLM),用於預測小分子藥物獲批的可能性。DrugReasoner整合了分子描述符,並通過與結構相似的已批准和未批准化合物進行比較推理,生成預測結果,同時提供逐步推理過程和置信度評分。DrugReasoner在驗證集上取得了穩健的性能,AUC為0.732,F1分數為0.729;在測試集上分別為0.725和0.718。這些結果超越了包括邏輯回歸、支持向量機和k近鄰在內的傳統基線模型,並與XGBoost相比具有競爭力。在一個外部獨立數據集上,DrugReasoner超越了基線模型和最近開發的ChemAP模型,AUC達到0.728,F1分數為0.774,同時保持了高精度和平衡的敏感性,展示了其在真實場景中的穩健性。這些發現表明,DrugReasoner不僅提供了具有競爭力的預測準確性,還通過其推理輸出增強了透明度,從而解決了AI輔助藥物發現中的一個關鍵瓶頸。本研究強調了推理增強型LLM作為可解釋且有效的藥物決策工具的潛力。
實證規模法則推動了大規模語言模型(LLMs)的演進,然而每當模型架構或數據管道變更時,其係數便會發生偏移。專家混合模型(Mixture-of-Experts, MoE)作為現今頂尖系統中的標準配置,引入了一種新的稀疏維度,這是當前密集模型前沿所忽視的。我們探討了MoE稀疏性如何影響兩種不同的能力範疇:記憶與推理。我們訓練了一系列MoE Transformer模型,這些模型在保持計算預算不變的同時,系統性地改變了總參數量、激活參數量以及top-k路由策略。對於每一個模型,我們記錄了預訓練損失、下游任務損失及任務準確率,從而能夠將訓練-測試泛化差距與損失-準確率差距分離開來。記憶基準測試隨著總參數量的增加而單調提升,與訓練損失的變化相呼應。相比之下,推理性能會達到飽和,甚至在總參數量和訓練損失持續改善的情況下也可能出現倒退。當激活參數量保持不變時,僅改變top-k策略影響甚微,而學習率和初始化等經典超參數則以與稀疏性相同的方向調節泛化差距。無論是訓練後的強化學習(GRPO)還是額外的測試時計算資源,都無法挽救過於稀疏模型在推理能力上的不足。我們的模型檢查點、代碼及日誌已開源於https://github.com/rioyokotalab/optimal-sparsity。
科學問題解決對大型語言模型(LLMs)提出了獨特的挑戰,既需要深厚的領域知識,又需具備通過複雜推理應用這些知識的能力。儘管自動化科學推理器在輔助人類科學家方面展現出巨大潛力,但目前尚無廣泛採用的全面基準來評估科學推理能力,且少有方法能系統性地區分知識與推理在這些任務中的不同角色。為填補這些空白,我們引入了SciReas,這是一套多樣化的現有科學推理任務基準集,以及SciReas-Pro,一個需要更複雜推理的選擇性子集。我們的全面評估揭示了僅依賴單一基準時無法察覺的科學推理性能洞察。隨後,我們提出了KRUX,這是一個探針框架,用於研究科學任務中推理與知識的各自作用。結合兩者,我們進行了深入分析,得出了幾個關鍵發現:(1) 從模型參數中檢索任務相關知識是LLMs在科學推理中的關鍵瓶頸;(2) 推理模型在推理增強基礎上,持續受益於上下文添加的外部知識;(3) 增強言語化推理能提升LLMs提取任務相關知識的能力。最後,我們進行了一項輕量級分析,將我們以科學為中心的數據構成與同期長鏈思維微調(CoT SFT)的努力進行比較,並發布了SciLit01,一個用於科學推理的強大8B基線模型。
三維修復通常依賴於多視角二維圖像修復,然而不同修復視圖之間固有的不一致性可能導致紋理模糊、空間不連續以及視覺偽影等問題。這些不一致性在追求精確且逼真的三維物體補全時,尤其是在要求高保真度和結構連貫性的應用中,構成了重大挑戰。為克服這些限制,我們提出了ObjFiller-3D,一種專為高質量且一致的三維物體補全與編輯而設計的新方法。與傳統的二維圖像修復模型不同,我們的方法利用精選的頂尖視頻編輯模型來填充三維物體的遮罩區域。我們分析了三維與視頻之間的表示差距,並提出了一種適用於三維場景修復的視頻修復模型改進方案。此外,我們引入了一種基於參考的三維修復方法,以進一步提升重建質量。多樣化數據集上的實驗表明,與先前方法相比,ObjFiller-3D產生了更為忠實且細緻的重建結果(PSNR為26.6對比NeRFiller的15.9,LPIPS為0.19對比Instant3dit的0.25)。此外,它展現了在實際三維編輯應用中部署的強大潛力。項目頁面:https://objfiller3d.github.io/ 代碼:https://github.com/objfiller3d/ObjFiller-3D。
大型語言模型(LLMs)在通用問答任務中表現出色,但在特定領域場景中往往表現不佳。檢索增強生成(RAG)引入了外部知識,但由於檢索結果的噪音,容易產生幻覺並導致延遲。持續預訓練雖然能內化領域知識,但成本高昂且缺乏跨領域的靈活性。我們將這一挑戰歸因於領域知識的長尾分佈,這使得部分有用但未被充分利用的內部知識未能發揮作用。我們進一步主張,知識獲取應是漸進式的,模仿人類的學習過程:先理解概念,再將其應用於複雜推理。為解決這一問題,我們提出了Selct2Know(S2K),這是一個成本效益高的框架,通過內部-外部知識自選策略和選擇性監督微調來內化領域知識。我們還引入了一個結構化推理數據生成管道,並整合GRPO以增強推理能力。在醫學、法律和金融問答基準測試中的實驗表明,S2K始終優於現有方法,並以顯著更低的成本匹配了領域預訓練的LLMs。
本文介紹了MovieCORE,一個新穎的視頻問答(VQA)數據集,旨在深入探討電影內容的認知理解。與現有數據集專注於表面層次的理解不同,MovieCORE強調那些激發系統二思維的問題,同時保持對視頻材料的針對性。我們提出了一種創新的主動性頭腦風暴方法,利用多個大型語言模型(LLMs)作為思維代理,生成並精煉高質量的問答對。為了評估數據集質量,我們開發了一套認知測試,評估深度、啟發潛力和句法複雜性。我們還提出了一個全面的評估方案,用於評估VQA模型在更深層次認知任務上的表現。針對現有視頻語言模型(VLMs)的局限性,我們引入了一個主動性增強模塊——主動選擇增強(ACE),該模塊在訓練後將模型推理能力提升高達25%。我們的工作有助於推進AI系統對電影的理解,並為當前VQA模型在面對更具挑戰性、更細膩的電影內容問題時的能力和局限性提供了寶貴的見解。我們的項目頁面、數據集和代碼可在https://joslefaure.github.io/assets/html/moviecore.html找到。
大型語言模型(LLMs)在可執行的運行時環境中訓練時,展現了卓越的能力,特別是在通過驗證反饋循環處理軟件工程任務方面表現突出。然而,可擴展且具普遍性的執行基礎環境仍然稀缺,這限制了訓練更強大機器學習代理的進展。我們推出了CTF-Dojo,這是首個專為訓練LLMs而設計的大規模可執行運行時環境,配備了658個完全功能的奪旗賽(CTF)式挑戰,這些挑戰被容器化在Docker中,確保了可重現性。為了實現無需人工干預的快速擴展,我們開發了CTF-Forge,這是一個自動化管道,能夠在幾分鐘內將公開可用的工件轉化為即用型執行環境,省去了傳統上需要數週專家配置的時間。我們僅使用來自CTF-Dojo的486條高質量、執行驗證的軌跡來訓練基於LLM的代理,在三個競爭性基準測試中取得了高達11.6%的絕對增益:InterCode-CTF、NYU CTF Bench和Cybench。我們表現最佳的32B模型達到了31.9%的Pass@1,創下了新的開放權重最先進水平,與DeepSeek-V3-0324和Gemini-2.5-Flash等前沿模型相媲美。通過將CTF式任務定位為可執行代理學習的基準,CTF-Dojo證明了基於執行的訓練信號不僅有效,而且對於推進高性能機器學習代理的發展至關重要,而無需依賴昂貴的專有系統。
大型語言模型(LLMs)透過從科學發現、醫學診斷到聊天機器人等廣泛應用,在科學、工程和社會領域帶來了顯著進步,重塑了我們的世界。儘管它們無處不在且實用性高,但LLM的運作機制仍隱藏在數十億參數和複雜結構之中,使其內部架構和認知過程難以理解。我們通過借鑒生物學中理解新興認知的方法,並開發一個基於網絡的框架來彌補這一差距,該框架將認知技能、LLM架構和數據集聯繫起來,從而引領基礎模型分析的範式轉變。模塊社群中的技能分佈表明,雖然LLMs並未嚴格對應於特定生物系統中觀察到的集中專化,但它們展現了獨特的模塊社群,其湧現的技能模式部分反映了鳥類和小型哺乳動物大腦中分佈式卻相互連接的認知組織。我們的數值結果突顯了從生物系統到LLMs的一個關鍵差異,即技能獲取在很大程度上受益於動態的跨區域互動和神經可塑性。通過將認知科學原理與機器學習相結合,我們的框架為LLM的可解釋性提供了新的見解,並表明有效的微調策略應利用分佈式學習動態,而非僵化的模塊干預。
大型語言模型(LLMs)的高級推理能力導致了幻覺現象的普遍增加;然而,大多數緩解工作集中在事後過濾而非塑造觸發這些幻覺的查詢。我們引入了QueryBandits,這是一個基於多臂賭博機框架的系統,旨在設計重寫策略以最大化獎勵模型,該模型基於輸入查詢的17種語言特徵的敏感性來封裝幻覺傾向,從而主動引導LLMs遠離生成幻覺。在13個多樣的問答基準測試和每個數據集1,050個詞彙擾動查詢中,我們的最佳上下文QueryBandit(湯普森採樣)相較於無重寫基線實現了87.5%的勝率,並且分別比零樣本靜態提示(“改寫”或“擴展”)高出42.6%和60.3%。因此,我們通過查詢重寫形式的干預,實證了QueryBandits在緩解幻覺方面的有效性。有趣的是,某些靜態提示策略,這些策略構成了當前查詢重寫文獻的相當一部分,其累積遺憾比無重寫基線更高,表明靜態重寫可能加劇幻覺。此外,我們發現,收斂的每臂迴歸特徵權重向量證實了沒有一種重寫策略對所有查詢都是最優的。在這種情況下,通過QueryBandits利用語義特徵進行引導重寫,可以通過前向傳遞機制顯著改變輸出行為,無需重新訓練或基於梯度的適應。
大型語言模型(LLMs)在眾多生成任務中展現了卓越的性能。然而,如何有效地將其與期望行為對齊仍是一大挑戰。激活引導是一種高效且成本低廉的方法,它直接在推理階段修改LLMs的激活值,從而使其回應與期望行為保持一致,並避免了微調的高昂成本。現有方法通常不加區別地對所有生成進行干預,或僅依賴問題來決定干預時機,這限制了對干預強度的精確評估。為此,我們提出了帶有回溯機制的靈活激活引導(FASB)框架,該框架通過追蹤LLMs在生成過程中的內部狀態,結合問題與生成內容,動態決定干預的必要性及強度。由於在檢測到偏離期望行為後再進行干預往往為時已晚,我們進一步提出了回溯機制,以糾正偏離的詞彙並引導LLMs朝向期望行為。在TruthfulQA數據集及六個多選題數據集上的大量實驗表明,我們的方法優於基準模型。我們的代碼將發佈於https://github.com/gjw185/FASB。
本研究評估了深度神經網絡在預測金融收益概率分佈方面的應用。研究採用一維卷積神經網絡(CNN)和長短期記憶(LSTM)架構來預測三種概率分佈的參數:正態分佈、學生t分佈和偏態學生t分佈。通過自定義的負對數似然損失函數,直接優化分佈參數。模型在六個主要股票指數(標普500、巴西BOVESPA、德國DAX、波蘭WIG、日經225和韓國KOSPI)上進行測試,並使用概率評估指標,包括對數預測分數(LPS)、連續排序概率分數(CRPS)和概率積分變換(PIT)。結果表明,深度學習模型提供了準確的分佈預測,並在風險價值(VaR)估計方面與傳統的GARCH模型表現相當。其中,採用偏態學生t分佈的LSTM模型在多個評估標準中表現最佳,能夠捕捉金融收益的厚尾特性和不對稱性。這項工作表明,深度神經網絡是金融風險評估和投資組合管理中傳統計量經濟模型的可行替代方案。
法律訴求指的是案件中原告的主張,對於引導司法推理和案件解決至關重要。儘管許多研究致力於提升法律專業人士的工作效率,但針對幫助非專業人士(如原告)的研究仍屬空白。本文探討了基於給定案件事實生成法律訴求的問題。首先,我們從多種現實法律糾紛中構建了ClaimGen-CN,這是首個用於中文法律訴求生成任務的數據集。此外,我們設計了一種專門用於評估生成訴求的指標,該指標涵蓋了兩個關鍵維度:事實性和清晰性。基於此,我們對當前最先進的通用及法律領域大型語言模型進行了全面的零樣本評估。我們的研究結果凸顯了現有模型在事實精確性和表達清晰性方面的局限,表明這一領域需要更有針對性的發展。為鼓勵對這一重要任務的進一步探索,我們將公開該數據集。