每日精選AI研究論文及翻譯
我們隆重推出MiniMax-M1,這是全球首個開放權重、大規模混合注意力推理模型。MiniMax-M1由混合專家系統(MoE)架構與閃電注意力機制共同驅動。該模型基於我們先前的MiniMax-Text-01模型開發,後者總計擁有4560億參數,每令牌激活459億參數。M1模型原生支持100萬令牌的上下文長度,是DeepSeek R1上下文大小的8倍。此外,MiniMax-M1中的閃電注意力機制實現了測試時計算的高效擴展。這些特性使得M1特別適合於需要處理長輸入和深度思考的複雜任務。MiniMax-M1通過大規模強化學習(RL)在多樣化問題上進行訓練,包括基於沙盒的真實世界軟件工程環境。除了M1在RL訓練中固有的效率優勢外,我們還提出了CISPO,一種新穎的RL算法,以進一步提升RL效率。CISPO通過裁剪重要性採樣權重而非令牌更新,超越了其他競爭性RL變體。結合混合注意力與CISPO,MiniMax-M1在512臺H800 GPU上的完整RL訓練僅需三週即可完成,租賃成本僅為534,700美元。我們發布了兩個版本的MiniMax-M1模型,分別擁有40K和80K的思考預算,其中40K模型代表80K訓練的中間階段。在標準基準測試上的實驗表明,我們的模型與諸如原始DeepSeek-R1和Qwen3-235B等強勁的開放權重模型相當或更優,尤其在複雜軟件工程、工具利用和長上下文任務中表現突出。我們已在https://github.com/MiniMax-AI/MiniMax-M1公開發布MiniMax-M1。
科學發現日益依賴於基於信息密集的科學數據和領域專業知識的複雜多模態推理。藉助專家級科學基準的賦能,科學多模態大語言模型(MLLMs)有望在實際工作流程中顯著提升這一發現過程。然而,當前的科學基準主要集中於評估MLLMs的知識理解能力,導致對其感知和推理能力的評估不足。為填補這一空白,我們提出了“科學家首次考試”(SFE)基準,旨在通過三個相互關聯的層次來評估MLLMs的科學認知能力:科學信號感知、科學屬性理解、科學比較推理。具體而言,SFE包含830個專家驗證的視覺問答對,涵蓋三種問題類型,跨越五個高價值學科的66個多模態任務。大量實驗表明,當前最先進的GPT-3和InternVL-3在SFE上的得分僅為34.08%和26.52%,凸顯了MLLMs在科學領域仍有顯著的提升空間。我們希望通過SFE獲得的洞見能夠推動AI增強科學發現的進一步發展。
深度研究代理(Deep Research Agents, DRAs)是基于大型语言模型(LLM)代理的重要类别。通过自主编排多步骤的网络探索、定向检索及高阶综合,它们将海量在线信息转化为分析师级别、引用丰富的报告——将数小时的手动案头研究压缩至几分钟内完成。然而,目前尚缺乏一个系统评估这些代理能力的全面基准。为填补这一空白,我们提出了DeepResearch Bench,这是一个包含100个博士级别研究任务的基准,每个任务均由22个不同领域的专家精心设计。评估DRAs本质上是复杂且劳动密集型的,因此我们提出了两种新颖的方法论,以实现与人类判断的高度一致。第一种是基于参考的方法,采用自适应标准来评估生成的研究报告质量。另一种框架则通过评估有效引用数量及整体引用准确性,来衡量DRA的信息检索与收集能力。我们已在https://github.com/Ayanami0730/deep_research_bench开源了DeepResearch Bench及这些框架的关键组件,以加速实用型LLM代理的发展。
我們推出了TransDiff,這是首個將自回歸(AR)Transformer與擴散模型相結合的圖像生成模型。在此聯合建模框架中,TransDiff將標籤和圖像編碼為高層次語義特徵,並利用擴散模型來估計圖像樣本的分佈。在ImageNet 256x256基準測試中,TransDiff顯著超越了基於獨立AR Transformer或擴散模型的其他圖像生成模型。具體而言,TransDiff實現了1.61的Fréchet Inception Distance(FID)和293.4的Inception Score(IS),並且相比基於AR Transformer的最新方法,推理延遲快了2倍,相比僅使用擴散模型的方案,推理速度更是提升了112倍。此外,基於TransDiff模型,我們引入了一種名為多參考自回歸(MRAR)的新穎圖像生成範式,該範式通過預測下一張圖像來執行自回歸生成。MRAR使模型能夠參考多個先前生成的圖像,從而促進學習更多樣化的表示,並在後續迭代中提升生成圖像的質量。應用MRAR後,TransDiff的性能得到提升,FID從1.61降低至1.42。我們期待TransDiff能為圖像生成領域開闢新的前沿。
本文介紹了DoTA-RAG(動態思維聚合檢索增強生成系統),這是一個針對高吞吐量、大規模網絡知識索引優化的檢索增強生成系統。傳統的RAG管道在處理海量、多樣化數據集時,常面臨高延遲和精度受限的問題。DoTA-RAG通過三階段管道應對這些挑戰:查詢重寫、動態路由至專用子索引,以及多階段檢索與排序。我們進一步通過評估並選擇更優的嵌入模型,對大型FineWeb-10BT語料庫進行重新嵌入,從而增強了檢索效果。此外,我們利用DataMorgana設置生成了一個包含500個問題的多樣化問答數據集,涵蓋了WebOrganizer的廣泛主題和格式。DoTA-RAG將答案正確率從0.752(基線,使用LiveRAG預構建的向量存儲)提升至1.478,同時保持低延遲,並在Live Challenge Day上取得了0.929的正確率。這些結果凸顯了DoTA-RAG在需要快速、可靠訪問大規模且不斷演進的知識源領域中的實際部署潛力。
近期,大型推理模型的進展已能實現複雜的逐步推理,但往往伴隨著顯著的過度思考,導致冗長且重複的輸出,從而影響效率。本研究探討了以“等待”和“嗯”等標記為信號的顯式自我反思是否為高級推理所必需。我們提出了NoWait,這是一種簡單而有效的方法,通過在推理過程中抑制這些標記來禁用顯式自我反思。在涵蓋文本、視覺及視頻推理任務的十個基準上的廣泛實驗表明,NoWait在五個R1系列模型中,將思維鏈軌跡長度縮短了高達27%-51%,且不損害模型效用。因此,NoWait為高效且保持效用的多模態推理提供了一種即插即用的解決方案。
我們推出Ego-R1,這是一個針對超長(即數天至數週)第一人稱視角影片進行推理的新穎框架,該框架利用由強化學習(RL)訓練的Ego-R1代理協調的結構化工具思維鏈(CoTT)過程。受人類問題解決策略的啟發,CoTT將複雜推理分解為模組化步驟,RL代理在每一步調用特定工具,以迭代和協作的方式回答子問題,處理諸如時間檢索和多模態理解等任務。我們設計了一個兩階段訓練範式,包括使用CoTT數據對預訓練語言模型進行監督微調(SFT)以及RL,使我們的代理能夠動態提出逐步工具,以進行長範圍推理。為了促進訓練,我們構建了一個名為Ego-R1 Data的數據集,其中包含用於SFT的Ego-CoTT-25K和用於RL的Ego-QA-4.4K。此外,我們的Ego-R1代理在一個新策劃的為期一週的影片問答基準Ego-R1 Bench上進行評估,該基準包含來自混合來源的人類驗證問答對。大量結果表明,我們的Ego-R1代理通過動態、工具增強的思維鏈推理,能夠有效應對理解超長第一人稱視角影片的獨特挑戰,顯著將時間覆蓋範圍從幾小時延長至一週。
在本研究中,我们对离散扩散语言模型(dLLMs)及离散扩散多模态语言模型(dMLLMs)进行了系统性综述。与自回归(AR)模型不同,dLLMs和dMLLMs采用了一种多令牌并行解码范式,利用全注意力机制和基于去噪的生成策略。这一范式天然支持并行生成、细粒度输出控制以及动态响应感知能力,这些特性在以往的自回归模型中难以实现。近年来,越来越多的工业级专有d(M)LLMs以及大量开源学术d(M)LLMs展现了与自回归模型相媲美的性能,同时实现了高达10倍的推理速度提升。 离散扩散LLMs和MLLMs的进步主要得益于两大领域的进展。首先是自回归LLMs和MLLMs的发展,为训练和推理积累了海量数据、基准测试及基础设施。其次,离散扩散背后的数学模型不断演进。这些进展共同推动了2025年初dLLMs和dMLLMs研究热潮的兴起。 本研究全面概述了dLLM和dMLLM领域的研究成果。我们追溯了dLLMs和dMLLMs的历史发展脉络,形式化了其背后的数学框架,并对代表性模型进行了分类。进一步,我们分析了训练与推理的关键技术,并总结了在语言、视觉-语言及生物领域的新兴应用。最后,我们探讨了未来研究与应用部署的方向。 论文合集请访问:https://github.com/LiQiiiii/DLLM-Survey
數據在語言模型獲取技能和知識的過程中扮演著最為關鍵的角色。缺乏大規模且組織良好的預訓練數據集,導致數據管道成本高昂且難以獲取。我們推出了Essential-Web v1.0,這是一個包含24萬億個標記的數據集,其中每個文檔都標注了一個包含十二個類別的分類體系,涵蓋主題、格式、內容複雜性和質量。這些分類標籤由EAI-Distill-0.5b生成,這是一個經過微調的0.5億參數模型,其標注一致性與Qwen2.5-32B-Instruct的差距在3%以內。僅需使用SQL風格的過濾器,我們就能在數學(相對於SOTA降低8.0%)、網絡代碼(提升14.3%)、STEM(提升24.5%)和醫學(提升8.6%)領域獲得具有競爭力的網絡精選數據集。Essential-Web v1.0現已於HuggingFace平台開放:https://huggingface.co/datasets/EssentialAI/essential-web-v1.0。
代理任务,即需要自主性、工具使用和适应性推理的多步骤问题解决,正日益成为推动自然语言处理(NLP)和人工智能(AI)发展的核心。然而,现有的指令数据缺乏工具交互,且当前的代理基准依赖于成本高昂的人工标注,限制了其可扩展性。我们引入了TaskCraft,一个自动化工作流程,用于生成难度可扩展、多工具且可验证的代理任务及其执行轨迹。TaskCraft通过基于深度和广度的扩展,将原子任务扩展为结构和层次上复杂的挑战。实证结果表明,这些任务在生成工作流程中优化了提示,并增强了代理基础模型的监督微调。我们提供了一个包含约36,000个不同难度任务的大规模合成数据集,以支持未来关于代理调优和评估的研究。
我們提出了自迴歸檢索增強(Autoregressive Retrieval Augmentation, AR-RAG),這是一種新穎的範式,通過在圖像生成過程中自迴歸地融入基於補丁層面的k近鄰檢索來增強圖像生成效果。與先前方法在生成前進行單次靜態檢索並將整個生成過程固定於參考圖像不同,AR-RAG在每個生成步驟中執行上下文感知的檢索,利用先前生成的補丁作為查詢來檢索並整合最相關的補丁級視覺參考,使模型能夠響應不斷變化的生成需求,同時避免現有方法中普遍存在的問題(如過度複製、風格偏見等)。為實現AR-RAG,我們提出了兩個並行框架:(1)解碼中的分佈增強(Distribution-Augmentation in Decoding, DAiD),這是一種無需訓練的即插即用解碼策略,直接將模型預測補丁的分佈與檢索補丁的分佈進行融合;(2)解碼中的特徵增強(Feature-Augmentation in Decoding, FAiD),這是一種參數高效的微調方法,通過多尺度卷積操作逐步平滑檢索補丁的特徵,並利用這些特徵來增強圖像生成過程。我們在廣泛採用的基準測試(包括Midjourney-30K、GenEval和DPG-Bench)上驗證了AR-RAG的有效性,展示了其相較於最先進圖像生成模型的顯著性能提升。
如DUSt3R這類密集匹配方法,通過回歸成對點雲圖來進行三維重建。然而,依賴於成對預測及其有限的泛化能力,本質上限制了全局幾何一致性。在本研究中,我們提出了Test3R,一種出奇簡單的測試時學習技術,顯著提升了幾何精度。利用圖像三元組(I_1,I_2,I_3),Test3R從成對圖像(I_1,I_2)和(I_1,I_3)生成重建結果。其核心思想是通過自監督目標在測試時優化網絡:最大化相對於共同圖像I_1的這兩次重建之間的幾何一致性。這確保了模型無論輸入如何,都能產生跨對一致的輸出。大量實驗證明,我們的方法在三維重建和多視圖深度估計任務上顯著超越了以往最先進的方法。此外,它具備通用性且幾乎無需額外成本,使其易於應用於其他模型,並以最小的測試時訓練開銷和參數佔用實現。代碼已公開於https://github.com/nopQAQ/Test3R。
在本研究中,我們探討了監督微調(SFT)與強化學習(RL)在開發強大推理模型中的協同效應。我們首先通過兩種擴展策略來策劃SFT訓練數據:增加收集的提示數量以及每個提示生成的響應數量。這兩種方法均顯著提升了推理性能,其中擴展提示數量帶來了更為顯著的增益。隨後,我們深入探討了關於SFT與RL協同效應的以下問題:(i) 一個更強的SFT模型是否在經過大規模RL訓練後始終能帶來更好的最終性能?(ii) 在RL訓練過程中,如何為給定的SFT初始化確定合適的採樣溫度,以有效平衡探索與利用?我們的研究發現表明,只要進行有效的RL訓練,特別是當採樣溫度被精心選擇以保持溫度調整後的熵值在0.3左右時,這一設置能在探索與利用之間取得良好平衡,條件(i)成立。值得注意的是,初始SFT模型之間的性能差距在RL過程中顯著縮小。憑藉堅實的SFT基礎以及對SFT與RL協同作用的深入理解,我們的AceReason-Nemotron-1.1 7B模型顯著超越了AceReason-Nemotron-1.0,並在基於Qwen2.5-7B的推理模型中,於具有挑戰性的數學和代碼基準測試上達到了新的頂尖水平,從而證明了我們後訓練方案的有效性。我們在以下鏈接發布了模型和數據:https://huggingface.co/nvidia/AceReason-Nemotron-1.1-7B。
随着大语言模型(LLM)整体能力的迅速提升,LLM个性化——即如何构建能够生成针对不同用户角色定制化响应或服务的LLM系统——已成为一个日益重要的研究与工程课题。然而,与评估通用/推理能力的众多新挑战性基准测试不断发布形成鲜明对比的是,高质量评估LLM个性化能力的基准测试的缺失,极大地阻碍了该领域的进展。为此,我们引入了PersonaFeedback,这是一个直接评估LLM在给定预设用户角色和查询条件下提供个性化响应能力的新基准。与现有要求模型从历史交互中推断隐含用户角色的基准不同,PersonaFeedback将角色推断与个性化分离,专注于评估模型针对明确角色生成定制化响应的能力。PersonaFeedback包含8298个人工标注的测试案例,这些案例根据用户角色的上下文复杂性及区分两个个性化响应间细微差异的难度,被划分为易、中、难三个等级。我们对多种模型进行了全面评估,实证结果显示,即便是能够解决复杂现实世界推理任务的最先进LLM,在PersonaFeedback的困难等级上也可能表现不佳,这些等级甚至对人类评估者而言也颇具挑战性。此外,我们对各类系统的失败模式进行了深入分析,表明当前的检索增强框架不应被视为个性化任务的事实解决方案。所有基准数据、标注协议及评估流程将公开,以促进未来关于LLM个性化的研究。
在多模態思維鏈(CoT)推理領域,現有方法主要依賴於純語言空間的推理,這本質上存在語言偏見,且大多局限於數學或科學領域。這種狹窄的關注點限制了它們處理需要全面理解圖像細節的複雜視覺推理任務的能力。為解決這些限制,本文介紹了VGR,一種具有增強細粒度視覺感知能力的新型多模態大語言模型(MLLM)。與傳統的MLLM僅在語言空間回答問題或進行推理不同,我們的VGR首先檢測可能有助於解決問題的相關區域,然後基於重播的圖像區域提供精確答案。為實現這一點,我們構建了一個名為VGR-SFT的大規模SFT數據集,其中包含混合視覺基礎和語言推導的推理數據。VGR的推理管道允許模型選擇視覺參考的邊界框,並引入重播階段將相應區域整合到推理過程中,從而增強多模態理解。在LLaVA-NeXT-7B基線上的實驗表明,VGR在需要全面理解圖像細節的多模態基準測試中表現優異。與基線相比,VGR僅使用30%的圖像標記數量,卻在MMStar上提升了4.1分,在AI2D上提升了7.1分,在ChartQA上提升了12.9分。
大型語言模型(LLMs)在跨任務與跨語言的泛化能力上展現了顯著的成就,革新了自然語言處理領域。本文探討了LLMs中自然湧現的表徵對齊現象,特別是在中間層次,及其對解耦語言特定與語言無關信息的意義。我們實證確認了此對齊的存在,並與專門設計的對齊模型進行行為比較分析,展示了其在保持語義不降級的前提下進行語言特定操控的潛力。基於這些發現,我們提出了推理時語言控制(ITLC),一種新穎的方法,利用潛在注入實現精確的跨語言控制,並減輕LLMs中的語言混淆問題。我們的實驗突顯了ITLC在保持目標語言語義完整性的同時,具備強大的跨語言控制能力。此外,我們展示了其在緩解跨語言混淆問題上的有效性,該問題即便在當前大規模LLMs中仍持續存在,導致語言生成的不一致性。本研究增進了我們對LLMs中表徵對齊的理解,並為提升其跨語言性能提供了一種實用解決方案。
追求多樣化、複雜且大規模的指令數據對於自動對齊大型語言模型(LLMs)至關重要。雖然存在能夠大規模生成合成指令的方法,但它們要么受限於有限的基礎來源,導致分佈狹窄,要么依賴於無法在複雜性方面產生有意義軌跡的簡單擴展。相比之下,有助於高效對齊的指令通常基於認知洞察力精心設計,並紮根於現實世界的使用案例。在本文中,我們利用屬性基礎來合成這類指令,該方法包括:1)自上而下的屬性過程,將一組精選的真實指令與特定用戶情境相結合;2)自下而上的合成過程,利用網絡文檔首先生成情境,再生成有意義的指令。這一框架使我們能夠利用廣泛的網絡文檔,大規模地收穫多樣且複雜的指令。具體而言,我們構建了一個包含100萬條指令的數據集,名為SynthQuestions,並證明基於其訓練的模型在多個常見基準測試中取得了領先性能,且隨著更多網絡語料庫的加入,性能持續提升。數據、模型和代碼將在https://github.com/Ignoramus0817/SynthQuestions 上公開。
近期,利用预训练的视觉-语言模型(VLMs)构建视觉-语言-动作(VLA)模型已成为实现高效机器人操作学习的一种有前景的方法。然而,仅有少数方法将3D信号整合到VLMs中以进行动作预测,且它们未能充分利用3D数据中固有的空间结构,导致样本效率低下。本文中,我们提出了BridgeVLA,一种新颖的3D VLA模型,它(1)将3D输入投影为多幅2D图像,确保输入与VLM骨干网络对齐;(2)利用2D热图进行动作预测,将输入和输出空间统一在一个一致的2D图像空间内。此外,我们提出了一种可扩展的预训练方法,使VLM骨干网络在下游策略学习之前就具备预测2D热图的能力。大量实验表明,所提方法能够高效且有效地学习3D操作。BridgeVLA在三个仿真基准测试中均超越了最先进的基线方法。在RLBench中,它将平均成功率从81.4%提升至88.2%。在COLOSSEUM中,它在具有挑战性的泛化设置中表现出显著更优的性能,将平均成功率从56.7%提高至64.0%。在GemBench中,它在平均成功率方面超越了所有对比的基线方法。在真实机器人实验中,BridgeVLA平均比最先进的基线方法高出32%。它在多种分布外设置中展现出强大的泛化能力,包括视觉干扰和未见过的指令。尤为突出的是,它能够在每项任务仅需3条轨迹的情况下,在10+项任务中达到96.8%的成功率,彰显了其卓越的样本效率。项目网站:https://bridgevla.github.io/
近期大型語言模型(LLMs)的進展,促成了展現出日益類人行為的AI代理的開發,這些行為包括在多樣化、互動性及開放式情境中的規劃、適應與社交動態。這些行為不僅是底層模型內部架構的產物,更源於它們被整合到在特定情境下運作的代理系統中,其中環境因素、社交信號及互動反饋隨時間塑造行為。這一演變催生了一種新的科學視角:AI代理行為科學。此視角不僅關注內部機制,更強調對行為的系統性觀察、設計干預以驗證假設,以及理論指導下對AI代理如何行動、適應和互動的解釋。我們系統化整理了在單一代理、多代理及人機互動場景中日益增長的研究,並進一步展示了這一視角如何通過將公平性、安全性、可解釋性、責任性及隱私視為行為屬性,來指導負責任的AI實踐。通過整合最新發現並規劃未來方向,我們將AI代理行為科學定位為傳統以模型為中心方法的必要補充,為理解、評估和治理日益自主的AI系統在現實世界中的行為提供了關鍵工具。
語言模型的不斷演進促成了大規模架構的發展,這些架構在廣泛任務中展現出卓越的性能。然而,這些模型伴隨著顯著的計算和能源需求,以及潛在的隱私問題。在此背景下,參數量約為5億的小型推理語言模型(SRLMs)因其顯著的計算效率和成本效益,特別是在資源受限的環境中,成為了一個引人注目的替代方案。儘管具有這些優勢,5億參數模型的有限能力在處理複雜任務(如數學推理和代碼生成)時仍面臨挑戰。本研究探討了多種訓練策略,包括監督式微調(SFT)、知識蒸餾(KD)和強化學習(RL),以及它們的混合實現,以提升5億參數SRLMs的性能。我們分析了有效的方法來縮小SRLMs與更大模型之間的性能差距,並提出了針對這些小型架構的最佳訓練流程的見解。通過廣泛的實驗驗證與分析,我們的工作旨在為最大化5億參數模型的推理能力提供可行的建議。
基於觀察與語言反饋的互動式學習,隨著大型語言模型(LLM)代理的興起,已成為日益受到關注的研究領域。儘管已有令人印象深刻的實證展示,但迄今為止,這些決策問題的理論框架仍顯不足。本文中,我們正式定義了“從語言反饋中學習”(LLF)問題,提出了足以在隱含獎勵條件下實現學習的充分假設,並引入轉移困惑維度作為衡量LLF問題難度的複雜性指標。我們證明,轉移困惑維度能夠捕捉到反饋信息改變LLF問題學習複雜度的直覺。我們展示了在某些情況下,從豐富的語言反饋中學習可以比從獎勵中學習快指數級。我們開發了一種名為HELiX的無悔算法,該算法通過序列交互可證明地解決LLF問題,其性能保證與問題的轉移困惑維度成正比。在多個實證領域中,我們展示了即使反覆提示LLM無法可靠工作時,HELiX仍能表現出色。我們的貢獻標誌著設計基於通用語言反饋的理論化互動學習算法邁出了第一步。
在包裹配送路線規劃、機組人員排班、工廠生產計劃以及電網平衡等領域的困難優化問題上,人工智慧系統的演算法工程表現如何?我們引入了ALE-Bench,這是一個新的基準測試,用於評估基於分數的演算法程式設計競賽中的人工智慧系統。ALE-Bench借鑒了AtCoder啟發式競賽中的真實任務,提出了計算上困難且目前尚無已知精確解的優化問題。與短時間內以通過/失敗為評判標準的編碼基準不同,ALE-Bench鼓勵在長時間範圍內進行迭代式的解決方案改進。我們的軟體框架支援利用測試運行反饋和視覺化的互動式代理架構。我們對前沿大型語言模型的評估顯示,儘管它們在特定問題上表現出色,但在跨問題的一致性和長期問題解決能力方面,與人類相比仍存在顯著差距。這凸顯了該基準測試在推動未來人工智慧進步方面的必要性。
大型語言模型(LLMs)正日益融入日常應用中。隨著其影響力的增長,理解其決策過程及內在性格變得至關重要。在本研究中,我們利用提出的超新星事件數據集來解讀模型性格,這是一個包含傳記、歷史事件、新聞和科學發現等多樣化文章的新穎數據集。我們使用此數據集來評估LLMs從文本中提取和排序關鍵事件的能力,這是一項需要長程上下文推理和因果鏈建模的主觀且複雜的挑戰。我們評估了如Phi-4、Orca 2和Qwen 2.5等小型模型,以及Claude 3.7、Gemini 2.5和OpenAI o3等更強大的大型模型,並提出了一個框架,其中另一個LLM作為評判者,根據模型對事件的選擇和分類來推斷其性格。我們的分析揭示了不同的性格特質:例如,Orca 2展現了關注人際動態的情感推理,而Qwen 2.5則表現出更具戰略性和分析性的風格。在分析科學發現事件時,Claude Sonnet 3.7強調概念框架,Gemini 2.5 Pro優先考慮實證驗證,而o3則偏愛逐步的因果推理。此分析提升了模型的可解釋性,使其更適合廣泛多樣的應用場景。
現實世界中的時間序列往往受到複雜的非線性動力學所支配。理解這些潛在的動力學對於精確預測未來至關重要。儘管深度學習在時間序列預測方面取得了重大成功,但許多現有方法並未明確地對這些動力學進行建模。為彌補這一差距,我們引入了DeepEDM,這是一個將非線性動力系統建模與深度神經網絡相結合的框架。受經驗動力建模(EDM)的啟發並基於Takens定理,DeepEDM提出了一種新穎的深度模型,該模型從時間延遲嵌入中學習潛在空間,並利用核回歸來近似底層動力學,同時利用softmax注意力的高效實現,從而實現對未來時間步的準確預測。為了評估我們的方法,我們在非線性動力系統的合成數據以及跨領域的現實世界時間序列上進行了全面的實驗。我們的結果表明,DeepEDM對輸入噪聲具有魯棒性,並且在預測準確性方面優於最先進的方法。我們的代碼可在以下網址獲取:https://abrarmajeedi.github.io/deep_edm。
近期深度思考的大型語言模型常透過廣泛推理來提升效能,然而此類冗長的推理並非總是理想,因其會導致過高的推論成本,卻僅帶來不成比例的效能增益。因此,在無損效能的前提下控制推理長度至關重要,但這仍具挑戰性,特別是在嚴格的思考預算下。我們提出預算引導法,這是一種無需對大型語言模型進行微調即可引導其推理過程朝向目標預算的簡單而有效的方法。我們的方法引入了一個輕量級預測器,該預測器在生成下一個詞元時對剩餘的思考長度建模為伽馬分佈。此信號隨後用於以柔和的、詞元級別的方式引導生成,確保整體的推理軌跡符合指定的思考預算。預算引導法實現了對思考長度的自然控制,並在具挑戰性的數學基準測試上相較於基線方法顯著提升了詞元效率。例如,在嚴格預算下,它在MATH-500基準測試上實現了高達26%的準確率提升,同時僅使用完整思考模型63%的思考詞元,仍保持了競爭力的準確率。預算引導法亦能泛化至更廣泛的任務領域,並展現出如估計問題難度等新興能力。源代碼可於以下網址獲取:https://github.com/UMass-Embodied-AGI/BudgetGuidance。
由於Transformer中的自注意力層在設計上具有排列不變性,因此必須顯式地引入位置編碼以實現空間理解。然而,傳統可學習位置嵌入(PEs)中使用的固定大小查找表限制了在預訓練序列長度之外的推斷能力。專家設計的方法如ALiBi和RoPE雖緩解了這一限制,但在適應新模態時需要大量修改,凸顯了適應性和可擴展性方面的根本挑戰。在本研究中,我們提出了SeqPE,這是一個統一且完全可學習的位置編碼框架,它將每個n維位置索引表示為符號序列,並採用輕量級序列位置編碼器以端到端的方式學習其嵌入。為了規範SeqPE的嵌入空間,我們引入了兩個互補的目標:一個對比目標,使嵌入距離與預定義的位置距離函數對齊;以及一個知識蒸餾損失,將分佈外位置嵌入錨定到分佈內教師表示,進一步提升推斷性能。在語言建模、長上下文問答和二維圖像分類等任務上的實驗表明,SeqPE不僅在困惑度、精確匹配(EM)和準確率上超越了強基線——特別是在上下文長度推斷下——而且能夠無需手動架構重設計即可無縫泛化到多維輸入。我們在https://github.com/ghrua/seqpe上發布了代碼、數據和檢查點。
使用端到端反向傳播訓練大型神經網絡會造成顯著的記憶體瓶頸,限制了對尖端人工智慧研究的可及性。我們提出了DiffusionBlocks,這是一種新穎的訓練框架,將神經網絡區塊解釋為在連續時間擴散過程中執行去噪操作。通過將網絡劃分為可獨立訓練的區塊,並基於等累積概率質量優化噪聲水平分配,我們的方法在生成任務中實現了顯著的記憶體效率,同時保持了與傳統反向傳播相當的競爭性能。在圖像生成和語言建模任務上的實驗表明,記憶體減少與區塊數量成正比,同時實現了更優異的性能。DiffusionBlocks為在有限計算資源下普及大規模神經網絡訓練提供了一條有前景的途徑。
近期大型語言模型(LLMs)的進展展現了精確且高效時間序列分析的新可能性,但先前的研究往往需要大量微調,且/或忽略了序列間的相關性。在本研究中,我們探索了簡單而靈活的基於提示的策略,使LLMs能夠進行時間序列預測,而無需大量重新訓練或使用複雜的外部架構。通過探索利用時間序列分解、基於片段的標記化及基於相似性的鄰域增強的專門提示方法,我們發現可以在保持簡便性的同時提升LLM的預測質量,且僅需最少的數據預處理。為此,我們提出了自己的方法——PatchInstruct,該方法使LLMs能夠做出精確且有效的預測。
本研究聚焦于教学视频的多模态摘要生成,其目标在于为用户提供一种高效的学习技能方式,通过文本指令与关键视频帧的形式呈现。我们观察到,现有基准数据集主要关注通用的语义层面视频摘要,并不适用于提供逐步可执行的指令与图解,而这两者对于教学视频至关重要。为此,我们提出了一种新颖的用户界面(UI)教学视频摘要基准,以填补这一空白。我们收集了一个包含2,413个UI教学视频的数据集,总时长超过167小时。这些视频经过人工标注,包括视频分割、文本摘要及视频摘要,从而支持对简洁且可执行视频摘要的全面评估。我们在自建的MS4UI数据集上进行了大量实验,结果表明,当前最先进的多模态摘要方法在处理UI视频摘要时面临挑战,凸显了开发针对UI教学视频摘要新方法的重要性。
在這個以網絡上錯誤和虛假信息泛濫為特徵的時代,賦予讀者理解所閱內容的能力至關重要。此方向的重要努力依賴於手動或自動的事實核查,這對於信息有限的新興主張來說可能具有挑戰性。此類情況可以通過評估主張來源的可靠性和政治偏見來處理,即對整個新聞機構而非個別主張或文章進行特徵描述。這是一個重要但研究不足的方向。雖然先前的工作已經探討了語言和社會背景,但我們並不分析社交媒體中的個別文章或信息。相反,我們提出了一種新穎的方法論,模仿專業事實核查員用於評估整個機構事實性和政治偏見的標準。具體而言,我們基於這些標準設計了多種提示,並從大型語言模型(LLMs)中獲取回應,然後將其匯總以做出預測。除了通過多個LLMs的廣泛實驗展示相對於強基線的顯著改進外,我們還深入分析了媒體流行度和地區對模型性能的影響。此外,我們進行了消融研究,以突出我們數據集中促成這些改進的關鍵組成部分。為了促進未來的研究,我們在https://github.com/mbzuai-nlp/llm-media-profiling發布了我們的數據集和代碼。
大型語言模型(LLMs)的最新進展對從通用領域到專業領域的廣泛範圍產生了重大影響。然而,這些進展也顯著增加了惡意用戶利用有害和越獄提示進行惡意攻擊的可能性。儘管已有許多努力來防止有害提示和越獄提示,保護LLMs免受此類惡意攻擊仍然是一項重要且具挑戰性的任務。在本文中,我們提出了QGuard,一種簡單而有效的安全防護方法,利用問題提示以零樣本方式阻擋有害提示。我們的方法不僅能防禦基於文本的有害提示,還能防禦多模態有害提示攻擊。此外,通過多樣化和修改防護問題,我們的方法在無需微調的情況下仍能對抗最新的有害提示。實驗結果顯示,我們的模型在純文本和多模態有害數據集上均表現出色。此外,通過提供對問題提示的分析,我們實現了對用戶輸入的白盒分析。我們相信,我們的方法為現實世界中的LLM服務在減輕與有害提示相關的安全風險方面提供了寶貴的見解。
隨著穿戴式攝影機的快速普及,關於第一人稱視角影片的隱私問題引起了廣泛關注,然而先前的研究大多忽略了對攝影機佩戴者本身的獨特隱私威脅。本研究探討了一個核心問題:從佩戴者的第一人稱視角影片中,能夠推斷出多少關於其隱私的資訊?我們引入了EgoPrivacy,這是首個用於全面評估第一人稱視覺隱私風險的大規模基準。EgoPrivacy涵蓋了三類隱私(人口統計、個人和情境),定義了七項任務,旨在從細粒度(如佩戴者身份)到粗粒度(如年齡段)恢復隱私資訊。為了進一步強調第一人稱視覺固有的隱私威脅,我們提出了檢索增強攻擊,這是一種新穎的攻擊策略,利用從外部第三人稱視角影片池中進行的第一人稱到第三人稱檢索,來提升人口統計隱私攻擊的效果。我們對所有威脅模型下可能的不同攻擊進行了廣泛比較,結果顯示佩戴者的隱私資訊極易洩露。例如,我們的研究發現表明,基礎模型即使在零樣本設置下,也能有效危及佩戴者隱私,通過恢復身份、場景、性別和種族等屬性,準確率達到70-80%。我們的代碼和數據可在https://github.com/williamium3000/ego-privacy獲取。
語言模型主要依賴於來自互聯網的大量文本數據進行訓練,因此理解這一數據源變得日益重要。精確匹配搜索引擎能夠在大型文本語料庫中進行搜索——統計字符串出現次數並檢索包含這些字符串的文檔——然而,高存儲開銷限制了其在互聯網規模數據上的應用。我們提出了Infini-gram mini,這是一個高效且可擴展的系統,能夠使PB級別的文本語料庫可搜索。基於FM-index數據結構(Ferragina和Manzini,2000年),該結構同時實現了文本的索引和壓縮,我們的系統創建的索引大小僅為語料庫的44%。Infini-gram mini在索引速度(提升18倍)和索引及查詢過程中的內存使用(索引時減少3.2倍,查詢時降至可忽略水平)方面,極大地優化了現有FM-index的最佳實現。我們使用單個128核CPU節點在50天內索引了46TB的互聯網文本(若使用75個此類節點,則僅需19小時)。我們展示了Infini-gram mini在大規模基準污染分析中的一個重要應用案例。我們發現,幾個核心語言模型評估基準在互聯網抓取數據中受到了嚴重污染(如SQuAD中高達40%),如果在此類數據上訓練語言模型,可能會高估其能力。我們設立了一個基準污染公告板,分享許多核心及社區貢獻的基準的污染率。此外,我們還發布了一個網頁界面和API端點,以支持對Infini-gram mini索引的一般搜索查詢。
自我調節學習(SRL)對於大學生應對日益增加的學業要求和獨立性至關重要。SRL技能的不足可能導致學習習慣混亂、動機低落以及時間管理不善,從而削弱學習者在挑戰性環境中茁壯成長的能力。通過一項涉及59名大學生的形成性研究,我們發現了學生在發展SRL技能時面臨的關鍵挑戰,包括目標設定、時間管理和反思學習方面的困難。為應對這些挑戰,我們引入了SRLAgent,這是一個由大型語言模型(LLMs)輔助的系統,通過遊戲化和LLMs的適應性支持來培養SRL技能。基於Zimmerman的三階段SRL框架,SRLAgent使學生能夠在互動的遊戲化環境中進行目標設定、策略執行和自我反思。該系統提供由LLMs驅動的即時反饋和支架,以支持學生的獨立學習努力。我們使用受試者間設計評估了SRLAgent,將其與基線系統(無Agent功能的SRL)和傳統的多媒體學習條件進行比較。結果顯示,SRLAgent組在SRL技能上有顯著提升(p < .001,Cohen's d = 0.234),並且與基線相比具有更高的參與度。這項工作強調了在遊戲化環境中嵌入SRL支架和即時AI支持的價值,為旨在促進深度學習和元認知技能發展的教育技術提供了設計啟示。
儘管語言模型在材料科學中的應用日益廣泛,但典型的模型仍依賴於最初為自然語言處理開發的基於頻率的標記化方法。然而,這些方法常常導致過度的碎片化和語義損失,無法保持材料概念的結構和語義完整性。為解決這一問題,我們提出了MATTER,一種將材料知識整合到標記化過程中的新穎方法。基於在我們材料知識庫上訓練的MatDetector以及一種在標記合併中優先考慮材料概念的重新排序方法,MATTER在標記化過程中保持了識別出的材料概念的結構完整性,防止了碎片化,確保其語義意義得以保留。實驗結果表明,MATTER在生成和分類任務中分別實現了平均4%和2%的性能提升,優於現有的標記化方法。這些結果凸顯了領域知識在科學文本處理標記化策略中的重要性。我們的代碼可在https://github.com/yerimoh/MATTER獲取。
大型語言模型(LLMs)通常通過下一詞預測(NWP)進行訓練,這種方法提供了強大的表面流暢性,但往往缺乏對穩健推理的支持。我們提出了瓶頸式下一詞探索(BOW),這是一種新穎的強化學習框架,它通過引入一個推理瓶頸來重新思考NWP,其中策略模型首先生成一個推理路徑,而不是直接預測下一個詞元,然後一個凍結的評判模型僅基於此推理路徑來預測下一個詞元的分布。我們使用GRPO訓練策略模型,並以量化推理路徑如何有效促進下一詞恢復的獎勵來進行訓練。與其他持續預訓練基線相比,我們展示了BOW在多種基準測試中提升了基礎模型的通用和下一詞推理能力。我們的研究結果表明,BOW可以作為一種有效且可擴展的替代方案,取代傳統的NWP。
從圖像預測與死亡率相關的結果,提供了可及性高、非侵入性且可擴展的健康篩查前景。我們提出了一種方法,利用預訓練的視覺變換器基礎模型,從面部及全身圖像中估算剩餘壽命,並進行穩健的不確定性量化。我們展示了預測不確定性會隨著真實剩餘壽命而系統性地變化,且這種不確定性可通過為每個樣本學習高斯分佈來有效建模。我們的方法在一個已建立的數據集上達到了7.48年的平均絕對誤差(MAE)的頂尖水平,並在本研究整理並發布的兩個更高質量的新數據集上進一步將MAE提升至4.79年和5.07年。重要的是,我們的模型提供了校準良好的不確定性估計,如分桶預期校準誤差為0.62年所示。雖然這些結果並非旨在臨床應用,但它們凸顯了從圖像中提取醫學相關信號的潛力。我們公開了所有代碼和數據集,以促進進一步的研究。
我們提出並評估了一套概念驗證(PoC)結構化工作流程提示,旨在引導大型語言模型(LLMs)在學術文稿的高層次語義和語言分析中,激發類人的層次化推理。這些提示針對兩項非平凡的解析任務:識別摘要中未經證實的主張(信息完整性)以及標記模糊的代詞指代(語言清晰度)。我們在兩種前沿模型(Gemini Pro 2.5 Pro 和 ChatGPT Plus o3)上,於多種上下文條件下進行了系統性的多輪評估。在信息完整性任務的結果中,我們發現模型表現存在顯著差異:雖然兩模型均成功識別了名詞短語中未經證實的核心部分(成功率達95%),但ChatGPT在識別未經證實的形容詞修飾語時始終失敗(成功率為0%),而Gemini則正確標記了此類修飾語(成功率達95%),這引發了關於目標句法角色可能影響的疑問。在語言分析任務中,兩模型在完整文稿上下文條件下均表現良好(成功率80-90%)。然而,在僅提供摘要的設定下,ChatGPT達到了完美的成功率(100%),而Gemini的表現則大幅下降。我們的研究結果表明,結構化提示是一種適用於複雜文本分析的可行方法,但提示的表現可能高度依賴於模型、任務類型與上下文之間的相互作用,這凸顯了進行嚴格的模型特定測試的必要性。
現有的自動音樂生成研究主要集中於端到端系統,這些系統能夠產生完整的作品或延續部分。然而,由於音樂創作通常是一個迭代過程,此類系統難以實現人機之間的互動,而這種互動對於計算機輔助創作至關重要。在本研究中,我們探討了個性化、多軌道、長上下文且可控的符號音樂填充任務,以增強計算機輔助作曲的過程。我們提出了MIDI-RWKV,這是一種基於RWKV-7線性架構的新模型,旨在實現邊緣設備上高效且連貫的音樂共同創作。我們還展示了MIDI-RWKV在極少樣本情況下,通過微調其初始狀態來實現個性化的有效方法。我們在多個定量和定性指標上評估了MIDI-RWKV及其狀態微調,並在https://github.com/christianazinn/MIDI-RWKV上發布了模型權重和代碼。
語言隨著時間不斷演變,包括仇恨言論領域,其變化速度緊跟社會動態與文化轉變。儘管自然語言處理(NLP)研究已探討了語言演變對模型訓練的影響,並提出了多種應對方案,但其對模型基準測試的影響仍未被充分探索。然而,仇恨言論基準測試在確保模型安全性方面扮演著至關重要的角色。本文中,我們通過兩項涉及仇恨言論演變的實驗,對20種語言模型的魯棒性進行了實證評估,並揭示了靜態評估與時間敏感性評估之間的時間錯位。我們的研究結果呼籲建立時間敏感的語言基準,以便在仇恨言論領域正確且可靠地評估語言模型。