每日精選AI研究論文及翻譯
我們推出MiniMax-Speech,這是一款基於自迴歸Transformer架構的文本轉語音(TTS)模型,能夠生成高品質語音。其核心創新在於我們的可學習說話者編碼器,該編碼器能從參考音頻中提取音色特徵,而無需其轉錄文本。這使得MiniMax-Speech能夠以零樣本方式生成與參考音頻音色一致且極富表現力的語音,同時也支持一次樣本語音克隆,實現與參考聲音極高的相似度。此外,通過提出的Flow-VAE,合成音頻的整體質量得到了提升。我們的模型支持32種語言,並在多項客觀和主觀評估指標上展現出卓越性能。值得注意的是,它在客觀語音克隆指標(詞錯誤率和說話者相似度)上達到了業界領先水平(SOTA),並在公開的TTS Arena排行榜上位居榜首。MiniMax-Speech的另一大優勢,得益於說話者編碼器提供的強大且解耦的特徵表示,是其無需修改基礎模型即可擴展的能力,支持多種應用場景,例如:通過LoRA實現任意語音情感控制;通過直接從文本描述合成音色特徵實現文本到語音(T2V);以及通過額外數據微調音色特徵進行專業語音克隆(PVC)。我們鼓勵讀者訪問https://minimax-ai.github.io/tts_tech_report以獲取更多示例。
文本轉音頻系統雖然性能日益提升,但在推理時速度緩慢,使得其延遲時間在許多創意應用中不切實際。我們提出了對抗性相對論對比(ARC)後訓練,這是首個不基於蒸餾技術的擴散/流模型的對抗性加速算法。儘管以往的對抗性後訓練方法在與昂貴的蒸餾方法對比時表現不佳,ARC後訓練則是一個簡單的流程,它(1)將最新的相對論對抗性公式擴展到擴散/流模型的後訓練中,並(2)結合了一種新穎的對比判別器目標,以促進更好的提示遵循。我們將ARC後訓練與Stable Audio Open的多項優化相結合,構建了一個模型,該模型在H100上能夠在約75毫秒內生成約12秒的44.1kHz立體聲音頻,在移動邊緣設備上則約為7秒,這是我們所知最快的文本轉音頻模型。
我们推出AM-Thinking-v1,这是一款32B密集语言模型,它推动了推理技术的前沿,体现了开源创新的协作精神。AM-Thinking-v1在性能上超越了DeepSeek-R1,并与领先的专家混合模型(MoE)如Qwen3-235B-A22B和Seed1.5-Thinking相媲美,在AIME 2024上取得了85.3分,在AIME 2025上取得了74.4分,在LiveCodeBench上取得了70.3分,展示了在相似规模的开源模型中顶尖的数学和编程能力。 AM-Thinking-v1完全基于开源Qwen2.5-32B基础模型和公开可用的查询构建,通过精心设计的后训练流程——结合了监督微调和强化学习——提供了卓越的推理能力。这项工作表明,开源社区能够在32B规模上实现高性能,这是一个适合部署和微调的实用甜点。通过在顶级性能和实际可用性之间取得平衡,我们希望AM-Thinking-v1能激发更多合作努力,利用中等规模模型,推动推理边界,同时将可访问性置于创新的核心。我们已在Hugging Face平台上开源了我们的模型,网址为https://huggingface.co/a-m-team/AM-Thinking-v1。
构建多模态语言模型从根本上来说具有挑战性:它需要对齐视觉与语言模态,精心策划高质量的指令数据,并在引入视觉后避免现有纯文本能力的退化。这些困难在多语言环境中进一步放大,其中对不同语言的多模态数据的需求加剧了现有的数据稀缺问题,机器翻译往往扭曲意义,而灾难性遗忘现象更为显著。为应对上述挑战,我们引入了一系列涵盖数据与建模的新技术。首先,我们开发了一个合成标注框架,用于策划高质量、多样化的多语言多模态指令数据,使Aya Vision模型能够针对多种语言的多模态输入生成自然、符合人类偏好的响应。作为补充,我们提出了一种跨模态模型融合技术,以减轻灾难性遗忘,有效保留纯文本能力的同时,提升多模态生成性能。与强大的多模态模型如Qwen-2.5-VL-7B、Pixtral-12B乃至规模更大的Llama-3.2-90B-Vision相比,Aya-Vision-8B实现了业界领先的性能。我们进一步通过Aya-Vision-32B扩展了这一方法,其表现超越了规模是其两倍以上的模型,如Molmo-72B和LLaMA-3.2-90B-Vision。我们的工作推动了多模态前沿的多语言进展,并提供了在实现极高性能的同时有效降低计算需求的技术洞见。
指令遵循评估旨在检验大型语言模型(LLMs)在生成符合用户定义约束的输出方面的能力。然而,现有的基准测试往往依赖于模板化的约束提示,这些提示缺乏现实世界应用的多样性,限制了细粒度性能的评估。为填补这一空白,我们提出了一个多维约束框架,涵盖三种约束模式、四类约束类别以及四个难度等级。基于此框架,我们开发了一个自动化指令生成管道,执行约束扩展、冲突检测和指令重写,生成了1,200个可代码验证的指令遵循测试样本。我们对来自七个模型家族的19个LLMs进行了评估,发现不同约束形式下的性能存在显著差异。例如,平均性能从第一级的77.67%降至第四级的32.96%。此外,我们通过利用该方法生成强化学习数据,展示了其实际效用,在指令遵循方面取得了显著提升,且未降低模型的整体性能。深入分析表明,这些提升主要源于模型注意力模块参数的调整,增强了约束的识别与遵循能力。代码与数据可在https://github.com/Junjie-Ye/MulDimIF获取。
我們推出了gg-bench,這是一套專為評估語言模型通用推理能力而設計的遊戲環境集合。與大多數靜態基準測試不同,gg-bench是一個數據生成過程,能夠按需生成新的評估實例。具體而言,gg-bench是通過以下步驟合成生成的:(1) 使用大型語言模型(LLM)生成新穎遊戲的自然語言描述,(2) 利用LLM將每個遊戲以代碼形式實現為Gym環境,以及(3) 通過自我對弈在生成的遊戲上訓練強化學習(RL)代理。我們通過讓語言模型與這些RL代理對戰的勝率來評估其性能,方法是向模型提供遊戲描述、當前棋盤狀態及有效移動列表,隨後模型輸出其希望執行的移動。gg-bench具有挑戰性:使用上下文學習時,如GPT-4o和Claude 3.7 Sonnet等頂尖LLM在gg-bench上的勝率僅為7-9%,而如o1、o3-mini和DeepSeek-R1等推理模型的平均勝率則達到31-36%。我們公開了生成的遊戲、數據生成過程及評估代碼,以支持未來的模型開發工作及我們基準測試的擴展。
視覺語言模型(VLMs)將視覺感知與大型語言模型(LLMs)的通用能力(如推理)相結合。然而,這兩種能力如何結合並發揮作用的機制仍鮮為人知。在本研究中,我們探索通過模型合併來構建感知與推理,這種方法連接了不同模型的參數。與以往研究多專注於同類模型的合併不同,我們提出跨模態的模型合併,從而將LLMs的推理能力融入VLMs中。通過大量實驗,我們證明模型合併提供了一種無需訓練即可將推理能力從LLMs轉移至VLMs的成功途徑。此外,我們利用合併後的模型來理解感知與推理的內部機制,以及合併如何影響這些機制。我們發現,感知能力主要編碼於模型的早期層,而推理則主要由中後層促進。合併後,我們觀察到所有層開始對推理有所貢獻,而感知能力在各層的分佈則基本保持不變。這些發現揭示了模型合併作為多模態整合與解釋工具的潛力。
本研究針對阿拉伯語自然語言處理中的關鍵空白,開發了一種高效的阿拉伯語反向詞典(RD)系統,使用戶能夠根據描述或含義查找詞語。我們提出了一種基於變壓器的新穎方法,採用半編碼器神經網絡架構,其層數呈幾何級數遞減,在阿拉伯語RD任務中達到了最先進的成果。我們的方法包含全面的數據集構建過程,並為阿拉伯語詞典學定義建立了正式的質量標準。通過對多種預訓練模型的實驗表明,阿拉伯語專用模型顯著優於通用的多語言嵌入模型,其中ARBERTv2獲得了最佳排名分數(0.0644)。此外,我們提供了反向詞典任務的形式化抽象,增強了理論理解,並開發了一個模塊化、可擴展的Python庫(RDTL),具有可配置的訓練管道。我們對數據集質量的分析揭示了改進阿拉伯語定義構建的重要見解,從而提出了構建高質量反向詞典資源的八項具體標準。這項工作對阿拉伯語計算語言學做出了重要貢獻,並為阿拉伯語的語言學習、學術寫作和專業交流提供了寶貴的工具。
在動態開放世界環境中學習導航是機器人一項重要但具挑戰性的技能。大多數先前的方法依賴於精確的定位與地圖構建,或從昂貴的真實世界示範中學習。本文提出了一種名為導航擴散策略(NavDP)的端到端框架,該框架僅在模擬環境中訓練,並能零樣本遷移到不同實體在多樣化真實世界環境中。NavDP網絡的關鍵要素是結合了基於擴散的軌跡生成和用於軌跡選擇的評價函數,這些都僅基於由共享策略變壓器編碼的局部觀測令牌。利用模擬中全局環境的特權信息,我們擴展了高質量示範來訓練擴散策略,並通過對比負樣本制定評價函數目標。我們的示範生成方法每天可產生約2,500條軌跡/GPU,效率比真實世界數據收集高出20倍,並生成了一個包含1244個場景、總長363.2公里軌跡的大規模導航數據集。使用此模擬數據集訓練的NavDP,在四足、輪式和類人機器人在多樣化的室內外環境中均達到了最先進的性能,並展現出持續優異的泛化能力。此外,我們初步嘗試使用高斯濺射進行域內真實到模擬的微調,以進一步縮小模擬與真實之間的差距。實驗表明,添加此類真實到模擬的數據可將成功率提高30%,而不損害其泛化能力。
隨著代理工作流程在各個領域的日益普及,迫切需要一種可擴展且系統化的方法來評估這些系統生成的複雜軌跡。目前的評估方法依賴於人工、特定領域的專家對冗長工作流程軌跡進行分析——這種方法無法應對代理輸出日益增長的複雜性和規模。在這些情境下,錯誤分析因外部工具輸出與語言模型推理的交互作用而變得更加複雜,使其比傳統的軟件調試更具挑戰性。在本研究中,我們(1)闡述了對代理工作流程軌跡進行穩健且動態評估的必要性,(2)引入了一個針對代理系統中常見錯誤類型的正式分類法,以及(3)基於該分類法並結合既有的代理基準,提出了一組包含148條人工註釋軌跡的數據集(TRAIL)。為了確保生態效度,我們從單代理和多代理系統中精選了軌跡,聚焦於軟件工程和開放世界信息檢索等實際應用場景。我們的評估結果顯示,現代長上下文LLM在軌跡調試方面表現不佳,其中表現最佳的Gemini-2.5-pro模型在TRAIL上的得分僅為11%。我們公開了數據集和代碼,以支持和加速未來在代理工作流程可擴展評估方面的研究。
我們從理論上證明,泛化能力的提升不僅依賴於數據規模的擴大,還可通過壓縮內部表徵來實現。為將這一洞見付諸實踐,我們引入了信息瓶頸語言建模(IBLM)目標,該目標將語言建模重新定義為一個約束優化問題:在保證最佳預測性能的前提下,最小化表徵熵。實證研究中,我們觀察到在大型語言模型(LLM)預訓練過程中出現了一種記憶-壓縮的循環現象,這通過交叉熵與基於矩陣的熵(MBE,衡量表徵熵的一種指標)之間正負梯度對齊的振盪得以證實。這一模式與IBLM所預測的預測-壓縮權衡高度吻合,同時也與生物體在清醒學習與睡眠鞏固之間的交替相平行。基於此觀察,我們提出了門控相變(GAPT)訓練算法,該算法能夠自適應地在記憶與壓縮階段之間切換。將GAPT應用於GPT-2在FineWeb數據集上的預訓練時,MBE降低了50%,交叉熵提升了4.8%。在算術乘法預訓練任務中,GAPT使OOD泛化能力提升了35%。在模擬災難性遺忘的設置中,GAPT通過壓縮與分離表徵,減少了干擾,分離效果提升了97%,這與睡眠鞏固的功能性作用相呼應。
評估人類在複雜活動中的技能水平是一個具有挑戰性的問題,在體育、康復和訓練等領域具有廣泛應用。在本研究中,我們提出了SkillFormer,這是一種參數高效的架構,用於從第一人稱和第三人稱視角視頻中進行統一的多視角熟練度估計。基於TimeSformer骨幹網絡,SkillFormer引入了CrossViewFusion模塊,該模塊利用多頭交叉注意力、可學習門控和自適應自校準來融合特定視角的特徵。我們採用低秩適應技術,僅微調一小部分參數,顯著降低了訓練成本。事實上,在EgoExo4D數據集上的評估顯示,SkillFormer在多視角設置中達到了最先進的準確性,同時展現出顯著的計算效率,使用的參數比先前基線少4.5倍,訓練周期少3.75倍。它在多種結構化任務中表現優異,證明了多視角整合在細粒度技能評估中的價值。
大型語言模型在任務執行上表現出色,卻常伴隨著虛構或依賴過時知識的問題。檢索增強生成(RAG)技術通過將生成過程與外部搜索相結合,有效彌補了這些不足。本研究深入探討了超參數如何影響RAG系統的速度與質量,涵蓋了Chroma與Faiss向量存儲、分塊策略、交叉編碼器重排序及溫度參數,並評估了六項指標:忠實度、答案正確性、答案相關性、上下文精確度、上下文召回率及答案相似性。結果顯示,Chroma處理查詢速度提升13%,而Faiss則展現出更高的檢索精確度,揭示了速度與準確性之間的明顯權衡。採用小窗口且最小重疊的固定長度分塊策略,不僅優於語義分割,還保持了最快的處理速度。重排序雖能小幅提升檢索質量,但會使運行時間增加約五倍,因此其實用性取決於延遲限制。這些發現有助於實踐者在調校RAG系統時,在計算成本與準確性之間找到平衡,以實現透明且最新的響應。最後,我們通過糾正式RAG工作流重新評估了頂尖配置,並證明當模型能迭代請求額外證據時,其優勢依然存在。我們獲得了近乎完美的上下文精確度(99%),這表明RAG系統在恰當的超參數組合下,能夠實現極高的檢索準確性,這對於檢索質量直接影響下游任務表現的應用領域,如醫療保健中的臨床決策支持,具有重大意義。
多模態評論有用性預測(MRHP)是推薦系統中的一項關鍵任務,尤其在電子商務平台上尤為重要。判斷用戶生成評論的有用性不僅能提升用戶體驗,還能改善消費者的決策過程。然而,現有的數據集主要集中於英語和印尼語,導致語言多樣性不足,特別是對於越南語等低資源語言而言。本文介紹了ViMRHP(越南語多模態評論有用性預測),這是一個針對越南語MRHP任務的大規模基準數據集。該數據集涵蓋四個領域,包含2,000種產品及46,000條評論。同時,構建大規模數據集需要投入大量時間和成本。為優化標註流程,我們利用人工智能輔助標註人員構建ViMRHP數據集。在AI的協助下,標註時間從每項任務90至120秒縮短至20至40秒,同時保持了數據質量,並將總成本降低了約65%。然而,AI生成的標註在複雜標註任務中仍存在局限性,我們通過詳細的性能分析進一步探討了這一點。在ViMRHP的實驗中,我們評估了基於人工驗證和AI生成標註的基準模型,以評估其質量差異。ViMRHP數據集已公開於https://github.com/trng28/ViMRHP。
我們推出了WebApp1K,這是一個新穎的基準測試,用於評估大型語言模型(LLMs)在測試驅動開發(TDD)任務中的表現,其中測試案例既作為提示也作為代碼生成的驗證。與依賴自然語言提示的傳統方法不同,我們的基準測試強調LLMs直接從測試案例中解釋和實現功能的能力,這反映了現實世界中的軟件開發實踐。該基準測試包含20個應用領域中的1000個多樣化挑戰,評估LLMs在上下文長度和多功能複雜性約束下生成簡潔、功能性代碼的能力。我們的研究結果表明,指令遵循和上下文學習是TDD成功的關鍵能力,超越了通用編碼熟練度或預訓練知識的重要性。通過對19個前沿模型的全面評估,我們揭示了性能瓶頸,例如長提示中的指令丟失,並提供了涵蓋多個根本原因的詳細錯誤分析。這項工作強調了TDD特定基準測試的實際價值,並為在嚴格的、應用驅動的編碼場景中提升LLM能力奠定了基礎。