每日精選AI研究論文及翻譯
本文介绍了群组序列策略优化(Group Sequence Policy Optimization, GSPO),这是一种稳定、高效且性能卓越的强化学习算法,专为训练大规模语言模型而设计。与以往采用词元级别重要性比率的算法不同,GSPO基于序列似然性定义重要性比率,并实施序列级别的裁剪、奖励与优化。我们证明,相较于GRPO算法,GSPO在训练效率与性能上均展现出显著优势,特别是在稳定专家混合(Mixture-of-Experts, MoE)强化学习训练方面,并具备简化强化学习基础设施设计的潜力。GSPO的这些优点,为最新Qwen3模型的显著提升做出了重要贡献。
近期,基於Transformer架構的進展在視頻生成任務中展現了顯著的成功。然而,全注意力機制的二次方複雜度仍是一個關鍵瓶頸,特別是在高分辨率與長時間序列的視頻處理上。本文提出了一種新穎的鄰域自適應塊級注意力機制——NABLA,它能夠動態適應視頻擴散Transformer(DiTs)中的稀疏模式。通過利用帶有自適應稀疏驅動閾值的塊級注意力,NABLA在保持生成質量的同時,降低了計算開銷。我們的方法無需定製底層運算符設計,並能無縫集成於PyTorch的Flex Attention運算符中。實驗表明,與基線相比,NABLA在幾乎不影響定量指標(CLIP分數、VBench分數、人類評估分數)及視覺質量下降的情況下,實現了最高達2.7倍的訓練與推理速度提升。代碼及模型權重可在此獲取:https://github.com/gen-ai-team/Wan2.1-NABLA。
大型語言模型(LLMs)在推理密集型任務上已展現出令人印象深刻的性能,然而優化其推理效率仍是一個開放性挑戰。雖然測試時擴展(TTS)提升了推理質量,但它往往導致過度思考,浪費了過多計算資源。本研究探討如何在不進行額外訓練的情況下,高效且自適應地引導LLM的測試時擴展。受物理學中動量概念的啟發,我們提出了動量不確定性引導推理(MUR),該方法通過追蹤並聚合逐步的不確定性,動態地將思考預算分配給關鍵推理步驟。為了支持靈活的推理時控制,我們引入了gamma控制,這是一種通過單一超參數調節推理預算的簡單機制。我們提供了深入的理論證明,以支持MUR在穩定性和偏差方面的優越性。MUR在多個具有挑戰性的基準測試(MATH-500、AIME24、AIME25和GPQA-diamond)上,使用不同規模的最新Qwen3模型(1.7B、4B和8B)進行了全面評估。結果表明,MUR平均減少了超過50%的計算量,同時將準確率提升了0.62-3.37%。
我們推出「Captain Cinema」,這是一個專為短片生成而設計的框架。在給定電影情節的詳細文字描述後,我們的方法首先生成一系列關鍵幀,這些關鍵幀勾勒出整個敘事,確保了故事線和視覺呈現(如場景和角色)的長程一致性。我們將此步驟稱為自上而下的關鍵幀規劃。這些關鍵幀隨後作為條件信號,輸入到一個支持長上下文學習的視頻合成模型中,以生成它們之間的時空動態。此步驟被稱為自下而上的視頻合成。為了支持多場景長敘事電影作品的穩定高效生成,我們引入了一種交錯訓練策略,專門針對長上下文視頻數據的多模態擴散變壓器(MM-DiT)進行了適配。我們的模型在一個特別策劃的電影數據集上進行訓練,該數據集由交錯的數據對組成。實驗結果表明,「Captain Cinema」在自動創建視覺連貫、敘事一致的高質量短片方面表現優異,且效率出眾。項目頁面:https://thecinema.ai
大型推理模型通过延长的思维链序列取得了显著的性能,然而这种计算自由度导致即使对于简单问题也会产生过多的标记生成。我们提出了长度自适应策略优化(LAPO),这是一个将推理长度控制从外部约束转化为模型内在能力的新颖框架。与现有方法中施加刚性限制或依赖事后干预不同,LAPO通过两阶段强化学习过程使模型内化对适当推理深度的理解。在第一阶段,模型通过发现成功解答长度的统计分布来学习自然的推理模式。第二阶段则利用这些模式作为元认知指导,将其直接嵌入模型的推理上下文中,以确保推理时的灵活性。在数学推理基准测试上的实验表明,LAPO将标记使用量减少了高达40.9%,同时准确率提高了2.3%。我们的分析揭示,经过LAPO训练的模型发展出了根据问题复杂性分配计算资源的涌现能力,实现了高效推理而不牺牲质量。
尽管近期三维生成技术取得了显著进展,但将这些方法扩展至地理尺度——例如模拟地球表面数千平方公里的区域——仍是一个未解的难题。我们通过数据基础设施与模型架构的双重创新来应对这一挑战。首先,我们推出了迄今为止最大的三维航空数据集Aerial-Earth3D,该数据集包含在美国本土拍摄的5万幅精选场景(每幅场景覆盖600米×600米区域),共计4500万帧多视角谷歌地球图像。每个场景均提供带有姿态标注的多视角图像、深度图、法线图、语义分割及相机姿态,并通过严格的质量控制确保地形多样性。基于此,我们提出了EarthCrafter,一个专为大规模三维地球生成设计的框架,采用稀疏解耦潜在扩散技术。我们的架构将结构与纹理生成分离:1)双稀疏三维变分自编码器(3D-VAEs)将高分辨率几何体素与纹理二维高斯泼溅(2DGS)压缩至紧凑的潜在空间,大幅减轻了因地理尺度庞大而带来的高昂计算成本,同时保留了关键信息。2)我们提出了条件感知流匹配模型,该模型在混合输入(语义、图像或无输入)上训练,能够灵活地独立建模潜在几何与纹理特征。大量实验表明,EarthCrafter在超大规模生成任务中表现显著更优。该框架进一步支持多样化应用,从语义引导的城市布局生成到无条件地形合成,同时通过Aerial-Earth3D提供的丰富数据先验,保持了地理合理性。我们的项目页面位于https://whiteinblue.github.io/earthcrafter/。
視覺生成模型的擴展對於現實世界的內容創作至關重要,但這需要大量的訓練和計算資源。作為替代方案,測試時擴展因其資源效率和出色的性能而受到越來越多的關注。在本研究中,我們提出了TTS-VAR,這是首個針對視覺自迴歸(VAR)模型的通用測試時擴展框架,將生成過程建模為路徑搜索問題。為了在計算效率與探索能力之間實現動態平衡,我們首先在因果生成過程中引入了自適應遞減批量大小調度。此外,受VAR從粗到細的多尺度分層生成啟發,我們的框架整合了兩個關鍵組件:(i)在粗尺度上,我們觀察到生成的標記難以評估,可能導致錯誤地接受劣質樣本或拒絕優質樣本。注意到粗尺度包含足夠的結構信息,我們提出了基於聚類的多樣性搜索。它通過語義特徵聚類來保持結構多樣性,從而能夠在後期選擇具有更高潛力的樣本。(ii)在細尺度上,基於重採樣的潛力選擇利用潛力分數優先考慮有前景的候選者,這些分數被定義為包含多尺度生成歷史的獎勵函數。在強大的VAR模型Infinity上的實驗顯示,GenEval分數顯著提高了8.7%(從0.69提升至0.75)。關鍵洞察表明,早期階段的結構特徵有效影響最終質量,且重採樣效果在生成尺度間存在差異。代碼可在https://github.com/ali-vilab/TTS-VAR獲取。
大型推理模型通过广泛的思维链生成取得了显著性能,但由于无论问题复杂度如何都采用统一的推理策略,表现出显著的计算效率低下。我们提出了分层预算策略优化(HBPO),这是一个强化学习框架,使模型能够在不牺牲能力的情况下学习特定问题的推理深度。HBPO解决了效率导向训练中探索空间崩溃的根本挑战,其中对长输出长度的惩罚系统地使模型偏离必要的长推理路径。通过分层预算探索,我们的方法将滚动样本划分为具有不同令牌预算的多个子组,旨在实现资源的高效分配,同时防止能力下降。我们引入了差异化的奖励机制,创建与问题复杂度相一致的预算感知激励,使模型能够发现任务需求与计算努力之间的自然对应关系。大量实验表明,HBPO在四个推理基准上将平均令牌使用量减少了高达60.6%,同时将准确率提高了3.14%。与现有方法不同,HBPO不施加外部约束或依赖离散模式选择,而是表现出一种新兴的自适应行为,模型根据问题复杂度自动调整推理深度。我们的结果表明,推理效率和能力并非本质冲突,通过适当结构化的分层训练,可以在保持探索多样性的同时同时优化两者。
資訊抽取(IE)是眾多自然語言處理(NLP)應用的基礎,然而現有的解決方案往往需要針對不同任務專門設計模型,或依賴於計算成本高昂的大型語言模型。我們提出了GLiNER2,這是一個統一框架,它增強了原始GLiNER架構,以支持在單一高效模型中進行命名實體識別、文本分類及層次化結構數據抽取。基於預訓練的Transformer編碼器架構,GLiNER2在保持CPU效率與緊湊體積的同時,通過直觀的基於模式的接口引入了多任務組合能力。我們的實驗表明,在抽取與分類任務上,GLiNER2展現了競爭力的性能,並在部署便捷性方面相較於基於LLM的替代方案有顯著提升。我們將GLiNER2作為一個開源、可通過pip安裝的庫發布,並提供了預訓練模型與文檔,詳見https://github.com/fastino-ai/GLiNER2。
從非平穩數據流中學習並應對概念漂移,需要模型能夠在保持資源效率的同時進行即時適應。現有的自適應集成方法通常依賴於粗粒度的適應機制或簡單的投票方案,這些方法未能充分利用專業知識。本文介紹了DriftMoE,一種在線的專家混合(MoE)架構,通過新穎的協同訓練框架解決了這些限制。DriftMoE配備了一個緊湊的神經路由網絡,該網絡與一組增量霍夫丁樹專家共同訓練。其關鍵創新在於一個促進專家專業化的共生學習循環:路由網絡選擇最適合的專家進行預測,相關專家根據真實標籤進行增量更新,而路由網絡則使用一個多熱正確性掩碼來強化每個準確的專家,從而精煉其參數。這一反饋循環為路由網絡提供了清晰的訓練信號,同時加速了專家的專業化。我們在九個最先進的數據流學習基準上評估了DriftMoE的性能,這些基準涵蓋了突變、漸變和現實世界的漂移,並測試了兩種不同的配置:一種是專家專注於數據區域(多類變體),另一種是專家專注於單類專業化(基於任務的變體)。我們的結果表明,DriftMoE在與最先進的流學習自適應集成方法相比時,取得了競爭性的結果,為概念漂移適應提供了一種原則性和高效的方法。所有代碼、數據管道和可重現性腳本均可在我們的公共GitHub倉庫中獲取:https://github.com/miguel-ceadar/drift-moe。
我們隆重推出最新系列的TeleChat模型:TeleChat2、TeleChat2.5及T1,這些模型相較於前代TeleChat實現了顯著的性能提升。儘管模型架構僅作了微調,但通過在預訓練與後訓練階段採用的強化訓練策略,新系列模型取得了實質性的進步。該系列首發的TeleChat2,經過了對10萬億高質量且多樣化語料的預訓練,隨後進行了監督微調(SFT)與直接偏好優化(DPO),以進一步提升其能力。TeleChat2.5和T1則在流程中增加了針對特定領域數據集的持續預訓練階段,並結合強化學習(RL)技術,以增強在代碼生成與數學推理任務中的表現。其中,T1版本專為複雜推理設計,支持長鏈式思維(CoT)推理,在數學與編程方面展現出顯著改進;而TeleChat2.5則側重於速度,提供快速推理能力。T1與TeleChat2.5這兩款旗艦模型均基於密集Transformer架構,擁有1150億參數,相比原版TeleChat,在推理與通用任務性能上均有重大突破。值得一提的是,T1-115B在性能上超越了如OpenAI的o1-mini及GPT-4o等專有模型。我們公開釋出TeleChat2、TeleChat2.5及T1,包括擁有350億與1150億參數的後訓練版本,旨在為開發者與研究人員提供針對多樣化應用場景量身定制的前沿語言模型。
近期,文本到圖像合成技術的顯著進步主要得益於精細的採樣策略和無分類器指導(CFG),以確保生成高品質的圖像。然而,CFG依賴於兩次前向傳播,尤其是在結合複雜的採樣算法時,導致了極高的推理成本。為解決這一問題,我們引入了TeEFusion(文本嵌入融合),這是一種新穎且高效的蒸餾方法,它直接將指導幅度融入文本嵌入中,並蒸餾教師模型的複雜採樣策略。通過簡單地使用線性操作融合條件與非條件文本嵌入,TeEFusion在不增加額外參數的情況下重建了所需的指導,同時使學生模型能夠從教師模型通過其精細採樣方法產生的輸出中學習。在如SD3等最先進模型上的廣泛實驗表明,我們的方法使學生模型能夠以更簡單且更高效的採樣策略緊密模仿教師模型的表現。因此,學生模型的推理速度比教師模型快達6倍,同時保持的圖像質量與通過教師模型複雜採樣方法獲得的水平相當。代碼已公開於https://github.com/AIDC-AI/TeEFusion{github.com/AIDC-AI/TeEFusion}。
本報告記錄、描述並評估了2024年新版英文GloVe(詞語表示全局向量)模型。雖然2014年構建的原始GloVe模型已被廣泛使用並被證明具有實用價值,但語言與世界持續演進,我們認為更新模型將有益於當前的應用。此外,2014年的模型在所用數據版本及預處理細節上缺乏詳盡記錄,我們通過對這些新模型的文檔化來彌補這一不足。我們利用維基百科、Gigaword以及Dolma的一個子集訓練了兩組詞嵌入。通過詞彙對比、直接測試及命名實體識別(NER)任務的評估表明,2024版向量融入了新的文化和語言相關詞彙,在類比和相似性等結構性任務上表現相當,並在依賴時間性的最新NER數據集(如非西方新聞數據)上展現出性能提升。
在計算機視覺中,圖像分割通常基於語義考量,並高度依賴於特定類別的慣例。相比之下,發展心理學表明,人類是以斯佩爾克物體(Spelke objects)來感知世界的——這些物體是由物理力作用下可靠地共同移動的物理事物組成的群體。因此,斯佩爾克物體基於與類別無關的因果運動關係,這可能更有利於支持如操作和規劃等任務。本文首先對斯佩爾克物體概念進行基準測試,引入了SpelkeBench數據集,該數據集包含自然圖像中多種定義明確的斯佩爾克分割。接著,為了從圖像中算法性地提取斯佩爾克分割,我們構建了SpelkeNet,這是一類視覺世界模型,訓練用於預測未來運動的分佈。SpelkeNet支持估計斯佩爾克物體發現的兩個關鍵概念:(1) 運動可能性圖,識別在戳刺下可能移動的區域;(2) 預期位移圖,捕捉場景中其他部分將如何移動。這些概念用於“統計反事實探測”,在具有高運動可能性的區域上應用多樣化的“虛擬戳刺”,並利用產生的預期位移圖將斯佩爾克分割定義為相關運動統計量的統計聚合。我們發現,SpelkeNet在SpelkeBench上的表現優於如SegmentAnything(SAM)等有監督基線模型。最後,我們展示了斯佩爾克概念在實際應用中的實用性,在多種現成的物體操作模型中使用時,在3DEditBench物理物體操作基準測試中表現出更優的性能。
基於擴散模型的文字轉語音(TTS)系統在零樣本語音合成方面取得了顯著進展,然而針對感知指標優化所有組件仍具挑戰性。先前的研究DMOSpeech展示了對語音生成組件進行直接指標優化的方法,但時長預測部分仍未得到優化。本文提出了DMOSpeech 2,通過強化學習方法將指標優化擴展至時長預測器。該系統採用了一種新穎的時長策略框架,利用群組相對偏好優化(GRPO),並以說話者相似度和詞錯誤率作為獎勵信號。通過優化這一先前未經優化的組件,DMOSpeech 2構建了一個更為完整的指標優化合成流程。此外,本文還引入了教師引導採樣,這是一種混合方法,利用教師模型進行初始去噪步驟,然後轉換到學生模型,在保持效率的同時顯著提升了輸出多樣性。全面評估顯示,與之前的系統相比,DMOSpeech 2在所有指標上均表現出優異性能,同時將採樣步驟減少了一半且未造成質量下降。這些進展代表了在實現多組件指標優化的語音合成系統方面邁出的重要一步。音頻樣本、代碼及預訓練模型可於https://dmospeech2.github.io/獲取。
大型语言模型(LLMs)在金融应用领域展现出显著潜力;然而,现有模型在面对需要复杂推理能力、严格可信度标准及高效适应领域特定需求的场景时,常显露出局限性。我们推出了基于Qwen3基础模型专门设计的Agentar-Fin-R1系列金融大语言模型(8B与32B参数),旨在增强金融应用中的推理能力、可靠性及领域专精性。我们的优化策略融合了一套高质量、系统化的金融任务标签体系与一个全面的多层次可信保障框架,该框架囊括了高质量可信知识工程、多智能体可信数据合成以及严格的数据验证治理。通过标签引导的自动化难度感知优化、两阶段训练管道及动态归因系统,我们实现了训练效率的显著提升。我们的模型在包括Fineva、FinEval和FinanceIQ在内的主流金融基准测试,以及如MATH-500和GPQA-diamond等通用推理数据集上接受了全面评估。为深入评估实际部署能力,我们创新性地提出了Finova评估基准,专注于智能体级别的金融推理与合规性验证。实验结果表明,Agentar-Fin-R1不仅在金融任务上达到了业界领先水平,还展现了卓越的通用推理能力,验证了其作为高风险金融应用可信解决方案的有效性。Finova基准测试平台可访问https://github.com/antgroup/Finova。
我們介紹了Iwin Transformer,這是一種無需位置嵌入的層次化視覺Transformer,它能夠通過創新的交錯窗口注意力與深度可分離卷積的協作,直接從低分辨率到高分辨率進行微調。該方法利用注意力連接遠距離的標記,並應用卷積來連結相鄰的標記,從而在單一模塊內實現全局信息交換,克服了Swin Transformer需要連續兩個區塊來近似全局注意力的限制。在視覺基準上的大量實驗表明,Iwin Transformer在圖像分類(在ImageNet-1K上達到87.4的top-1準確率)、語義分割和視頻動作識別等任務中展現出強大的競爭力。我們還驗證了Iwin核心組件作為獨立模塊的有效性,它可以無縫替換類條件圖像生成中的自注意力模塊。Iwin Transformer引入的概念和方法具有激發未來研究的潛力,例如在視頻生成中的Iwin 3D Attention。代碼和模型可在https://github.com/cominder/Iwin-Transformer獲取。
部分相關視頻檢索(PRVR)致力於解決一個關鍵挑戰,即如何將未經剪輯的視頻與僅描述部分內容的文本查詢相匹配。現有方法在歐幾里得空間中常遭遇幾何失真,這有時會誤導視頻內在的層次結構,並忽略某些層次語義,最終導致時間建模效果不佳。為解決這一問題,我們提出了首個針對PRVR的雙曲建模框架,名為HLFormer,該框架利用雙曲空間學習來彌補歐幾里得空間在層次建模能力上的不足。具體而言,HLFormer整合了洛倫茲注意力塊和歐幾里得注意力塊,在混合空間中編碼視頻嵌入,並採用均值引導的自適應交互模塊動態融合特徵。此外,我們引入了部分序保持損失,通過洛倫茲錐約束來強化“文本<視頻”的層次關係。這一方法進一步增強了視頻內容與文本查詢之間的部分相關性,從而提升了跨模態匹配的效果。大量實驗表明,HLFormer在性能上超越了現有的最先進方法。相關代碼已發佈於https://github.com/lijun2005/ICCV25-HLFormer。
醫學影像分割對於許多醫療任務至關重要,包括疾病診斷和治療規劃。其中一個關鍵領域是皮膚病變的分割,這對於診斷皮膚癌和監測患者狀況極為重要。在此背景下,本文介紹了SegDT,這是一種基於擴散變換器(DiT)的新型分割模型。SegDT專為低成本硬體設計,並結合了整流流(Rectified Flow),這在減少推理步驟的同時提高了生成質量,並保持了標準擴散模型的靈活性。我們的方法在三個基準數據集上進行了評估,並與多個現有工作進行了比較,在保持快速推理速度的同時取得了最先進的結果。這使得所提出的模型在實際醫療應用中具有吸引力。這項工作提升了深度學習模型在醫學影像分析中的性能和能力,為醫療專業人員提供了更快、更準確的診斷工具。代碼已公開於https://github.com/Bekhouche/SegDT{GitHub}。
本文提出了一種基於深度學習的新方法,用於從面部圖像中同時進行年齡和性別分類,旨在提升定向廣告活動的效果。我們設計了一種定制的卷積神經網絡(CNN)架構,針對這兩項任務進行了優化,充分利用了面部特徵中存在的年齡與性別信息之間的內在關聯。與現有方法通常將這些任務獨立處理不同,我們的模型學習共享表示,從而提高了性能。該網絡在一個大型且多樣化的面部圖像數據集上進行訓練,並經過仔細的預處理,以確保對光照、姿態和圖像質量變化的魯棒性。實驗結果顯示,性別分類準確率顯著提升,達到95%,而年齡估計的平均絕對誤差為5.77年,表現具有競爭力。重要的是,我們分析了不同年齡組的性能,發現了在準確估計年輕人年齡方面的特定挑戰。這一分析揭示了需要針對性的數據增強和模型改進來解決這些偏差。此外,我們探討了不同CNN架構和超參數設置對整體性能的影響,為未來研究提供了寶貴的見解。
基於強大語言架構構建的多模態大型語言模型(MLLMs),已實現了多模態情境學習(MICL)——即通過包含圖像、問題和答案的少量多模態示範來適應新任務。儘管在標準視覺語言數據集上顯示出顯著改進,當前的MLLMs在利用示範中的視覺信息方面仍存在困難。具體而言,這些模型往往忽視視覺線索,過度依賴文本模式,導致僅是文本模仿而非真正的多模態適應。這種行為使得MICL仍停留在單模態層面,大大限制了其實際應用價值。更重要的是,這一限制常被那些無需理解視覺背景的任務性能提升所掩蓋。因此,如何有效增強MICL能力並可靠評估其性能仍待深入探索。針對這些問題,我們首先引入了動態注意力重分配(DARA),這是一種高效的微調策略,通過重新平衡視覺與文本標記間的注意力,鼓勵模型關注視覺背景。此外,我們提出了TrueMICL,這是一個專為MICL設計的數據集,包含支持集和測試集,明確要求整合多模態信息——特別是視覺內容——以正確完成任務。大量實驗證明了我們整體方案的有效性,展示了在多模態情境學習能力上的實質性提升。代碼和數據集可在https://chenxshuo.github.io/true-micl-colm 獲取。