每日精選AI研究論文及翻譯
在本技術報告中,我們介紹了Ring-linear模型系列,具體包括Ring-mini-linear-2.0和Ring-flash-linear-2.0。Ring-mini-linear-2.0擁有160億參數和9.57億激活數,而Ring-flash-linear-2.0則包含1040億參數和61億激活數。這兩款模型均採用了混合架構,有效整合了線性注意力與softmax注意力機制,在長上下文推理場景中顯著降低了I/O和計算開銷。與一款擁有320億參數的密集模型相比,該系列將推理成本降低至1/10,與原始Ring系列相比,成本也減少了超過50%。此外,通過系統探索混合架構中不同注意力機制之間的比例,我們已識別出當前最優的模型結構。同時,借助我們自主研發的高性能FP8運算庫——linghe,整體訓練效率提升了50%。得益於訓練與推理引擎運算器之間的高度對齊,這些模型在強化學習階段能夠進行長期、穩定且高效的優化,在多個具有挑戰性的複雜推理基準測試中持續保持SOTA性能。
強化學習(RL)最近已成為對齊和強化大型語言模型(LLMs)的核心範式。然而,在離策略(off-policy)設置中應用RL——即使用過去策略的陳舊數據進行訓練——雖然提高了樣本效率,但仍然面臨挑戰:策略熵急劇下降,優化過程往往變得不穩定,甚至可能崩潰。通過理論和實證分析,我們識別出兩個關鍵洞察:(i) 優化中的不平衡,即負優勢樣本主導了策略梯度,抑制了有用行為並可能導致梯度爆炸;(ii) 推導出的熵剪裁規則(Entropy-Clip Rule),揭示了類似PPO目標中的固定剪裁機制系統性地阻礙了增加熵的更新,從而驅使策略過度利用而犧牲探索。基於這些洞察,我們提出了帶有自適應剪裁的平衡策略優化(BAPO),這是一種簡單而有效的方法,能動態調整剪裁界限,自適應地重新平衡正負貢獻,保持熵,並穩定RL優化。在多樣的離策略場景中——包括樣本回放和部分滾動——BAPO實現了快速、穩定且數據高效的訓練。在AIME 2024和AIME 2025基準測試中,我們的7B BAPO模型超越了開源對手如SkyWork-OR1-7B,而我們的32B BAPO模型不僅在同規模模型中達到了最先進的成果,還超越了領先的專有系統如o3-mini和Gemini-2.5-Flash-Thinking。
在大型語言模型中,長上下文推理至關重要。雖然強化學習(RL)通過在思維鏈中誘發「頓悟」時刻來增強短上下文推理,但長上下文推理所需的高級思維模式仍大多未被探索,且高難度的RL數據稀缺。本文介紹了LoongRL,這是一種數據驅動的RL方法,專為高級長上下文推理而設計。LoongRL的核心是KeyChain,這是一種合成方法,通過插入UUID鏈將短的多跳問答轉化為高難度的長上下文任務,這些鏈將真實問題隱藏在大量干擾文檔中。解決這些任務需要模型逐步追踪正確的鏈條,識別真實問題,檢索相關事實並進行推理以正確回答。在KeyChain數據上進行RL訓練會誘發一種新興的計劃-檢索-推理-復查的推理模式,這種模式遠遠超越了訓練長度的泛化能力。在16K長度上訓練的模型能有效解決128K的任務,而無需承擔過高的全長度RL展開成本。在Qwen2.5-7B和14B上,LoongRL顯著提升了長上下文多跳問答的準確率,分別實現了+23.5%和+21.1%的絕對增益。由此產生的LoongRL-14B達到了74.2的分數,與更大規模的前沿模型如o3-mini(74.5)和DeepSeek-R1(74.9)相媲美。它還提升了長上下文檢索能力,通過了所有128K的「大海撈針」壓力測試,並保留了短上下文推理能力。
訓練通用機器人的視覺-語言-動作(VLA)模型通常需要大規模的真實世界機器人數據,這些數據的收集既昂貴又耗時。物理數據收集的低效性嚴重限制了當前VLA系統的可擴展性和泛化能力。為應對這一挑戰,我們引入了GigaBrain-0,這是一種新型的VLA基礎模型,其能力來自於世界模型生成的數據(例如,視頻生成、真實到真實轉移、人類轉移、視角轉移、模擬到真實轉移數據)。通過利用世界模型大規模生成多樣化數據,GigaBrain-0顯著減少了對真實機器人數據的依賴,同時提升了跨任務的泛化能力。我們的方法通過RGBD輸入建模和具身思維鏈(CoT)監督進一步提升了策略的魯棒性,使模型在任務執行過程中能夠推理空間幾何、物體狀態和長期依賴關係。這在靈巧操作、長期規劃和移動操作任務的實際表現中帶來了顯著的提升。大量實驗表明,GigaBrain-0在外觀(例如,紋理、顏色)、物體擺放和攝像機視角變化方面展現出卓越的泛化能力。此外,我們還推出了GigaBrain-0-Small,這是一個優化的輕量級變體,專為在NVIDIA Jetson AGX Orin等設備上高效運行而設計。
Transformer组件如非线性激活函数和归一化操作本质上是非单射的,这意味着不同的输入可能映射到相同的输出,从而阻碍从模型的表示中精确恢复输入。在本文中,我们对此观点提出挑战。首先,我们从数学上证明了将离散输入序列映射到其对应连续表示序列的Transformer语言模型是单射的,因此是无损的,这一性质在初始化时确立并在训练过程中得以保持。其次,我们通过对六个最先进的语言模型进行数十亿次碰撞测试,实证验证了这一结果,且未观察到任何碰撞。第三,我们将单射性付诸实践:我们引入了SipIt,这是首个能够从隐藏激活中可证明且高效地重构出精确输入文本的算法,确立了线性时间保证,并在实践中展示了精确的可逆性。总体而言,我们的工作确立了单射性作为语言模型的一个基本且可被利用的属性,对透明度、可解释性及安全部署具有直接意义。
訓練電腦使用代理需要大量的圖形用戶界面(GUI)互動數據,但大規模手動標註動作軌跡的成本過高。我們提出了VideoAgentTrek,這是一個可擴展的管道,能夠從公開可用的屏幕錄製視頻中自動挖掘訓練數據,從而消除手動標註的需求。我們的方法解決了一個關鍵挑戰:原始視頻包含隱含的示範,但缺乏明確的動作標籤。為此,我們開發了Video2Action,這是一個逆向動力學模塊(IDM),包含兩個組件:(1) 一個視頻定位模型,能夠檢測並定位具有精確時間邊界和上下文的GUI動作;(2) 一個動作內容識別器,能夠高保真地提取結構化參數,如點擊座標和輸入的文本。應用於39,000個YouTube教學視頻,我們的管道自動生成了152萬個互動步驟。我們通過持續預訓練和監督微調來利用這些數據。在OSWorld-Verified上,我們的方法將任務成功率從9.3%(僅SFT基線)提高到15.8%,相對提升了70%。在AgentNetBench上,步驟準確率從64.1%提高到69.3%。我們的結果表明,被動的互聯網視頻可以轉化為高質量的電腦使用代理監督數據,提供了一種可擴展的替代方案,以取代昂貴的手動標註。
移动电话代理(MPAs)因其在多样化场景中的广泛应用而成为一个极具前景的研究方向。尽管多模态大语言模型(MLLMs)构成了MPAs的基础,但它们在同时处理多项移动电话任务时的效能仍显不足。虽然多任务监督微调(SFT)被广泛用于多任务学习,现有方法在确定最佳训练数据组合以实现峰值性能方面仍面临挑战。为解决这一难题,我们提出了DaMo(数据混合优化器)——一种创新解决方案,它采用可训练网络,通过预测任何给定数据集比例下的下游任务性能来优化数据混合。为支持全面评估,我们引入了PhoneAgentBench,这是首个专门评估MLLMs在多模态移动电话任务上的基准,包含1235个问答对,覆盖多样化的现实工业移动应用场景。在小规模试点实验中,DaMo展现出强大的预测能力(R^2=0.81),能够高效外推最佳数据混合配置。我们的结果显示,与替代方法相比,DaMo在PhoneAgentBench上实现了3.38%的性能提升。此外,在包括BFCL-v3、MME-Reasoning、MME-Perception和OCRBench在内的多个成熟基准上的广泛实验表明,DaMo具有卓越的泛化能力,在平均得分上超越其他方法2.57%。当仅用于优化BFCL-v3任务中的MLLM时,DaMo将指标提升了12.47%。值得注意的是,DaMo保持了强大的可扩展性,在应用于其他模型架构时仍能保持其有效性。代码和数据集可在https://github.com/OPPO-Mente-Lab/DaMo.git获取。
視覺語言模型(VLMs)已取得顯著進展,但其龐大規模往往使其在資源受限的環境中難以實用。本文介紹了一種新穎且高效的訓練算法——統一強化與模仿學習(RIL),旨在創建強大而輕量級的VLMs。RIL獨特地結合了強化學習與對抗性模仿學習的優勢,使較小的學生VLMs不僅能模仿大型教師模型的複雜文本生成,還能通過強化信號系統性地提升其生成能力。我們模仿框架的關鍵在於一個基於LLM的判別器,它能夠熟練地區分學生與教師的輸出,並輔以多個大型教師VLMs的指導,以確保學習的多樣性。這種統一學習策略,結合了強化與模仿,使學生模型能夠實現顯著的性能提升,使其與領先的閉源VLMs相媲美。在各種視覺語言基準上的廣泛實驗表明,RIL顯著縮小了與最先進的開源和閉源VLMs的性能差距,並在多個案例中超越了它們。
近期多模態模型的進展展現了卓越的文本引導圖像編輯能力,如GPT-4o和Nano-Banana等系統設定了新的基準。然而,研究界的進步仍受限於缺乏大規模、高質量且開放可用的真實圖像數據集。我們推出了Pico-Banana-400K,這是一個包含40萬張圖像的指令型圖像編輯綜合數據集。該數據集通過利用Nano-Banana從OpenImages集合中的真實照片生成多樣化的編輯對來構建。Pico-Banana-400K與以往合成數據集的不同之處在於我們對質量和多樣性的系統化處理。我們採用細粒度的圖像編輯分類法,確保全面覆蓋編輯類型,同時通過基於MLLM的質量評分和精心策劃,保持內容的精確保留和指令的忠實性。除了單次編輯,Pico-Banana-400K還支持複雜編輯場景的研究。數據集包含三個專門子集:(1) 一個7.2萬例的多輪編輯集合,用於研究連續修改中的序列編輯、推理和規劃;(2) 一個5.6萬例的偏好子集,用於對齊研究和獎勵模型訓練;(3) 配對的長短編輯指令,用於開發指令重寫和摘要能力。通過提供這一規模龐大、質量上乘且任務豐富的資源,Pico-Banana-400K為訓練和評估下一代文本引導圖像編輯模型奠定了堅實基礎。
生成專業的財務報告是一項耗時且對智力要求極高的過程,當前的人工智慧系統難以完全自動化這一任務。為應對這一挑戰,我們引入了FinSight(Financial InSight),這是一個新穎的多代理框架,用於生成高品質、多模態的財務報告。FinSight的核心是帶有可變記憶的程式碼代理(CAVM)架構,該架構將外部數據、設計工具和代理統一在一個可程式化的變數空間中,透過可執行程式碼實現靈活的數據收集、分析和報告生成。為確保專業級的視覺化效果,我們提出了一種迭代視覺增強機制,逐步將原始視覺輸出精煉為精緻的財務圖表。此外,一個兩階段的寫作框架將簡潔的分析鏈段擴展為連貫、引用意識強且多模態的報告,確保了分析的深度和結構的一致性。在多種公司和行業層面的任務實驗中,FinSight在事實準確性、分析深度和呈現品質方面均顯著優於所有基準系統,包括領先的深度研究系統,展示了生成接近人類專家品質報告的清晰路徑。
随着大型语言模型(LLMs)在人类与AI交互中的使用日益增多,其在人际情境下的社会推理能力变得至关重要。我们引入了SCRIPTS,一个包含1000个对话的数据集,涵盖英语和韩语,数据源自电影剧本。该任务旨在评估模型通过对话推断说话者之间人际关系(如朋友、姐妹、恋人)的社会推理能力。每个对话均由来自韩国和美国的母语(或同等水平)韩语和英语使用者标注了概率关系标签(极有可能、较不可能、不太可能)。在对九种模型进行评估时,当前专有的LLMs在英语数据集上的表现约为75-80%,而在韩语数据集上的表现则降至58-69%。更为显著的是,模型在其10-25%的响应中选择“不太可能”的关系。此外,我们发现,对于一般推理有效的思维模型和链式思维提示,在社会推理方面提供的帮助微乎其微,有时甚至放大了社会偏见。我们的研究揭示了当前LLMs在社会推理能力上的显著局限,强调了开发具备社会意识的语言模型的必要性。
自動駕駛世界模型被期望在三個核心維度上有效運作:狀態、動作和獎勵。然而,現有模型通常受限於有限的狀態模態、短視頻序列、不精確的動作控制以及缺乏獎勵意識。本文介紹了OmniNWM,一種全知全景導航世界模型,它在統一框架內解決了這三個維度。在狀態方面,OmniNWM聯合生成了RGB、語義、度量深度和3D佔用的全景視頻。靈活的強制策略實現了高質量的長時序自迴歸生成。在動作方面,我們引入了一種標準化的全景Plucker射線圖表示,將輸入軌跡編碼為像素級信號,從而實現對全景視頻生成的高度精確和可泛化的控制。關於獎勵,我們超越了使用外部基於圖像的模型學習獎勵函數的做法:相反,我們利用生成的3D佔用來直接定義基於規則的密集獎勵,以確保駕駛合規性和安全性。大量實驗表明,OmniNWM在視頻生成、控制精度和長時序穩定性方面達到了最先進的性能,同時通過基於佔用的獎勵提供了一個可靠的閉環評估框架。項目頁面可在https://github.com/Arlo0o/OmniNWM獲取。
掩碼擴散語言模型(DLMs)近期作為傳統自回歸模型(ARMs)的一種有前景的替代方案而嶄露頭角。DLMs採用具有雙向注意力機制的變壓器編碼器,實現了並行詞元生成,同時保持了競爭力的性能。儘管其效率與效能已得到廣泛研究,但支配DLMs的內部機制仍大多未被探索。在本研究中,我們對DLM的注意力模式進行了實證分析,重點關注了先前在多種基於變壓器的架構中觀察到的注意力下沉現象。我們的研究發現,DLMs同樣展現出注意力下沉,但具有獨特的特徵。首先,與ARMs不同,DLMs中的下沉位置在生成過程中傾向於移動,表現出動態行為。其次,雖然ARMs對移除注意力下沉極為敏感,但DLMs卻表現出穩健性:遮蔽下沉僅導致性能的輕微下降。這些結果為基於擴散的語言模型的內部運作提供了新的見解,並凸顯了其在注意力分配與利用方面與自回歸模型之間的根本差異。
我們推出Chart2Code,這是一個用於評估大型多模態模型(LMMs)圖表理解與代碼生成能力的新基準。Chart2Code從用戶驅動的角度精心設計,涵蓋多樣化的現實場景並逐步提升任務難度。它包含三個層次:第一層(圖表複製)根據參考圖像和用戶查詢複製圖表;第二層(圖表編輯)涉及複雜的修改,如更改圖表類型或添加元素;第三層(長表至圖表生成)要求模型根據用戶指令將信息密集的長表轉化為忠實的圖表。據我們所知,這是首個反映實際chart2code應用並系統性提升任務複雜度的層次化基準。Chart2Code總共包含22種圖表類型的2,023項任務,並配備了多層次評估指標,既評估代碼的正確性,也評估渲染圖表的視覺保真度。我們對25個最先進的(SoTA)LMMs進行了基準測試,包括專有模型及最新開源模型如GPT-5、Qwen2.5-VL、InternVL3/3.5、MiMo-VL和Seed-1.6-VL。實驗結果顯示,即使在SoTA模型GPT-5中,基於代碼的評估平均僅為0.57,圖表質量評估在編輯任務中平均僅為0.22,這凸顯了Chart2Code的難度。我們預期這一基準將推動多模態推理的進步,並促進開發更為強大且通用的LMMs。我們的代碼和數據可在Chart2Code上獲取。
大型多模态模型在其预训练权重中编码了广泛的事实知识。然而,这些知识保持静态且有限,无法跟上现实世界的发展,这阻碍了持续的知识获取。因此,有效的知识注入变得至关重要,涉及两个目标:知识适应(注入新知识)和知识保留(保留旧知识)。现有方法往往难以学习新知识,并遭受灾难性遗忘的困扰。为了解决这一问题,我们提出了KORE,一种协同的知识导向增强和约束方法,用于在保留旧知识的同时向大型多模态模型注入新知识。与一般的文本或图像数据增强不同,KORE自动将单个知识项转换为结构化和全面的知识,以确保模型准确学习新知识,从而实现精确的适应。同时,KORE将先前的知识存储在LMM线性层激活的协方差矩阵中,并通过将原始权重投影到矩阵的零空间来初始化适配器,定义一个微调方向,最大限度地减少对先前知识的干扰,从而实现强大的保留。在包括LLaVA-v1.5-7B、LLaVA-v1.5-13B和Qwen2.5-VL-7B在内的各种LMM上的广泛实验表明,KORE在注入新知识方面表现出色,并有效缓解了灾难性遗忘。
我们隆重推出olmOCR 2,这是我们家族中最新一代强大的光学字符识别(OCR)系统,专为将数字化印刷文档(如PDF)转换为整洁、自然顺序的纯文本而设计。olmOCR 2的核心动力源自olmOCR-2-7B-1025,这是一款经过强化学习与可验证奖励(RLVR)训练的专业化7B视觉语言模型(VLM),其中我们的奖励机制基于一系列多样化的二元单元测试。为了扩大单元测试的创建规模,我们开发了一套流程,用于生成具有多样性和挑战性布局的合成文档,这些文档附有已知的真实HTML源代码及提取的测试案例。我们证明,在这些测试案例上进行RL训练,使得olmOCR 2在olmOCR-Bench——我们的英语OCR基准测试中,达到了业界领先的性能,尤其是在数学公式转换、表格解析以及多栏布局处理方面,相较于前代版本实现了最大幅度的提升。我们以宽松的开源许可发布了我们的模型、数据及代码。
自模型上下文协议(Model Context Protocol, MCP)引入以来,针对大型语言模型(LLMs)的可用工具数量显著增加。这些特定任务工具集为通用工具(如网页浏览器)提供了替代方案,同时比图形用户界面(GUIs)更易于开发和维护。然而,当前的通用代理主要依赖网页浏览器与环境交互。在此,我们介绍TheMCPCompany,这是一个用于评估调用工具代理在与各种现实世界服务交互任务中的基准。我们利用这些服务的REST API创建了MCP服务器,其中包含超过18,000种工具。我们还为每个任务提供了手动标注的真实工具。在实验中,我们使用真实工具展示了调用工具代理在假设完美工具检索情况下,既能提升性能又能降低成本的潜力。接着,我们通过工具检索探索代理性能,以研究基于工具代理的实际应用性。虽然所有具备工具检索的模型表现与基于浏览器的代理相似或更优,但较小模型无法通过检索充分利用可用工具。另一方面,GPT-5在工具检索下的表现非常接近其使用真实工具的表现。总体而言,我们的工作表明,最先进的推理模型在简单环境中能有效发现工具,但在复杂的企业环境中导航时却面临严重挑战。TheMCPCompany揭示,对于当前模型而言,导航数以万计的工具并以非平凡方式组合它们来解决复杂问题仍是一项艰巨任务,这需要更好的推理和检索模型。
多模態大型語言模型(MLLMs)通過關注與文本查詢相關的視覺標記,展現出強大的視頻理解能力。為了以無需訓練的方式直接適應定位任務,我們將視頻推理分割視為視頻問答任務,並通過滾動機制提取注意力圖。然而,原始注意力圖噪聲較大,且與物體區域對齊不佳。我們提出了分解注意力融合(DecAF),該方法通過兩種機制精煉這些圖:(1) 對比物體-背景融合和 (2) 互補視頻幀融合。此方法抑制了不相關的激活並增強了物體聚焦的線索,使得注意力圖能夠直接轉換為粗分割掩碼。此外,我們引入了注意力引導的SAM2提示,以獲取細粒度掩碼。與現有方法不同,這些方法需要將MLLMs與SAM聯合訓練,而我們的方法完全無需重新訓練。DecAF在無訓練方法中表現優異,並在參考和推理視頻對象分割基準上達到了與基於訓練方法相當的性能。代碼將在https://github.com/HYUNJS/DecAF上提供。
随着硬件、软件及大型语言模型技术的进步,人类与操作系统之间的交互已从命令行界面演进至迅速兴起的智能代理互动。构建一个能够执行用户指令并忠实遵循用户意愿的操作系统(OS)代理正逐渐成为现实。在本技术报告中,我们介绍了ColorAgent,这是一款旨在与环境进行长期、稳健交互,同时实现个性化与主动性用户互动的OS代理。为了支持与环境的长期交互,我们通过分步强化学习与自我进化训练增强了模型的能力,并开发了一套定制的多代理框架,确保其通用性、一致性与鲁棒性。在用户交互方面,我们探索了个性化用户意图识别与主动参与,将OS代理定位为不仅是一个自动化工具,更是一个温暖、协作的伙伴。我们在AndroidWorld与AndroidLab基准测试上对ColorAgent进行了评估,分别取得了77.2%与50.7%的成功率,确立了新的技术前沿。然而,我们指出当前基准测试尚不足以全面评估OS代理,并建议未来工作中进一步探索评估范式、代理协作及安全等领域的方向。我们的代码公开于https://github.com/MadeAgents/mobile-use。
大型多模态模型(LMMs)通过跨模态预训练编码了丰富的知识,然而其静态表征难以准确理解时效性知识。现有基准测试仍受限于静态设计,无法充分评估LMMs对时效性知识的理解能力。为填补这一空白,我们提出了MINED,一个综合性的基准测试,从认知、意识、可信度、理解、推理和鲁棒性这六个关键维度和十一项挑战性任务来评估时间感知能力。MINED由两位专业标注者基于维基百科构建,包含2,104个时效性知识样本,涵盖六种知识类型。在MINED上评估15个广泛使用的LMMs显示,Gemini-2.5-Pro以63.07的平均CEM得分位居榜首,而大多数开源LMMs仍缺乏时间理解能力。同时,LMMs在组织知识上表现最佳,而在体育知识上表现最弱。针对这些挑战,我们探讨了通过知识编辑方法更新LMMs中时效性知识的可行性,并观察到在单一编辑场景下,LMMs能够通过知识编辑方法有效更新知识。
優化建模在各行業中支持關鍵決策,但其自動化仍具挑戰:需將非正式語言轉化為精確的數學表達式及可執行的求解器代碼。先前的大型語言模型(LLM)方法,要么依賴於脆弱的提示機制,要么需要成本高昂的再訓練且泛化能力有限。我們提出了AlphaOPT,這是一個自我提升的經驗庫,它使LLM能夠從有限的示範(僅答案即可,無需黃金標準程序)和求解器反饋中學習——無需註釋的推理軌跡或參數更新。AlphaOPT在一個持續的兩階段循環中運作:(i) 庫學習階段,反思失敗嘗試,提取求解器驗證的結構化洞見,形成{分類、條件、解釋、示例};(ii) 庫進化階段,診斷檢索偏差並精煉存儲洞見的適用條件,提升跨任務的遷移能力。此設計(1) 無需精心策劃的推理過程,即可從有限示範中高效學習,(2) 通過更新庫而非模型權重,實現持續擴展而無需昂貴的再訓練,(3) 使知識顯式且可解釋,便於人類審查與干預。實驗表明,AlphaOPT隨數據量增加穩步提升(從100到300個訓練項,準確率從65%升至72%),在僅基於答案訓練的情況下,於分佈外數據集OptiBench上超越最強基線7.7%。代碼與數據見:https://github.com/Minw913/AlphaOPT。
現有的參數高效微調(PEFT)方法主要分為兩類:基於添加的方法和選擇性原位適應方法。前者,如LoRA,通過引入額外模組來使模型適應下游任務,具有較高的記憶體效率。然而,其表示能力往往受限,使其不太適合細粒度的適應。相比之下,後者直接微調原始模型參數中精心選擇的子集,允許更精確和有效的適應,但代價是顯著增加的記憶體消耗。為了解決這一權衡問題,我們提出了NeuroAda,這是一種新穎的PEFT方法,能夠在保持高記憶體效率的同時實現細粒度的模型微調。我們的方法首先像選擇性適應一樣識別重要參數(即網絡內的連接),然後為這些選定的參數引入旁路連接。在微調過程中,僅更新旁路連接,保持原始模型參數凍結。在涵蓋自然語言生成和理解等23+個任務上的實驗結果表明,NeuroAda僅需leq 0.02%的可訓練參數即可實現最先進的性能,同時將CUDA記憶體使用量減少高達60%。我們在此發布我們的代碼:https://github.com/FightingFighting/NeuroAda.git。
多模态大型語言模型(MLLMs)正迅速發展,但其推理能力往往落後於僅基於文本的強大模型。現有彌合這一差距的方法依賴於對大規模多模態推理數據進行監督微調或強化學習,這兩種方式均需耗費大量資源。模型融合作為一種有前景的替代方案,通過在推理增強型LLMs與多模態變體之間進行參數插值來實現。然而,我們的分析表明,簡單的融合並非總是“免費午餐”:其效果在不同模型家族間差異顯著,某些模型(如LLaVA、Idefics)受益,而其他模型(如Qwen)則遭遇性能下降。為解決此問題,我們提出了針對微調的定向推理注入(DRIFT)MLLMs,這是一種輕量級方法,在梯度空間中傳遞推理知識,而不破壞多模態對齊。DRIFT預先計算推理先驗作為推理與多模態變體間的參數空間差異,隨後在多模態微調過程中利用該先驗來偏置梯度。此方法在保持標準監督微調流程簡便性的同時,實現了高效的推理知識遷移。在多模態推理基準(包括MathVista和MathVerse)上的廣泛實驗證明,DRIFT相較於簡單融合和監督微調,能持續提升推理性能,並以極低的成本匹配甚至超越訓練密集型方法。
高品質的預訓練數據對於大型語言模型至關重要,其中品質體現了事實可靠性和語義價值,而多樣性則確保了廣泛的覆蓋面和分佈異質性。現有方法通常依賴於單一或多維度基於分數的選擇。然而,直接選擇最高分數據往往會降低性能,需要從更廣泛的範圍中抽樣以恢復結果。數據集分數與下游基準結果之間的非單調性揭示了一個根本性偏差:基於分數的方法會壓縮相關維度,導致最高分數據看似高品質,卻系統性地忽視了多樣性。我們認為,確保多樣性需要將相關指標分解為正交的特徵維度,從中可以直接選擇最高分數據。因此,我們提出了正交多樣性感知選擇(ODiS)算法,該算法在數據選擇過程中同時保留了品質和多樣性。首先,ODiS從多個維度評估數據,涵蓋語言品質、知識品質和理解難度。然後,通過主成分分析(PCA)對多維度分數進行去相關,得到正交的評估維度。對於每個維度,訓練一個基於Roberta的評分器,將數據回歸到PCA投影分數上,從而實現對大規模語料庫的可擴展推理。最後,ODiS通過在每個正交維度內選擇最高分數據來構建訓練數據集,從而確保品質和多樣性。實驗結果顯示,ODiS選擇的數據在維度間的重疊率低於2%,證實了維度之間的正交性。更重要的是,使用ODiS選擇的數據訓練的模型在下游基準測試中顯著優於其他基線,凸顯了正交、多樣性感知數據選擇對於大型語言模型的必要性。
房間脈衝響應是去混響、魯棒語音識別、聲源定位以及房間聲學估計的核心資源。我們推出了RIR-Mega,這是一個包含大量模擬RIRs的數據集,這些RIRs通過一個緊湊且對機器友好的元數據模式進行描述,並配備了簡單的工具以支持驗證和重用。該數據集附帶了Hugging Face Datasets加載器、用於元數據檢查和校驗的腳本,以及一個參考回歸基線,該基線能夠從波形中預測RT60類目標。在36,000個訓練樣本和4,000個驗證樣本的劃分下,基於輕量級時間和頻譜特徵的小型隨機森林模型達到了接近0.013秒的平均絕對誤差和接近0.022秒的均方根誤差。我們在Hugging Face上托管了一個子集,包含1,000個線性陣列RIRs和3,000個圓形陣列RIRs,以便於流式傳輸和快速測試,並將完整的50,000個RIR檔案保存在Zenodo上。數據集和代碼均公開,以支持可重複的研究。
評估大型語言模型(LLMs)的進展常受限於驗證回應的挑戰,這使得評估僅能侷限於數學、程式設計及簡短問答等任務。然而,許多實際應用場景要求評估LLMs在處理專業文件、整合資訊以及生成全面報告以回應使用者查詢的能力。我們推出了ProfBench:一套包含超過7000個由具備專業知識的人類專家(涵蓋物理學博士、化學博士、財務MBA及諮詢MBA)評估的回應-標準配對。我們構建了既穩健又經濟的LLM評判者來評估ProfBench的評分標準,通過減輕自我提升偏見並將評估成本降低2至3個數量級,使其對更廣泛的社群而言既公平又可及。我們的研究發現,ProfBench對即便是最先進的LLMs也構成了重大挑戰,表現最佳的模型如GPT-5-high的整體表現僅達65.9%。此外,我們觀察到專有模型與開源權重模型之間存在顯著的性能差距,並深入探討了延伸思維在解決複雜專業領域任務中所扮演的角色。數據來源:https://huggingface.co/datasets/nvidia/ProfBench 及代碼:https://github.com/NVlabs/ProfBench
人們視文字為視覺對象,通過識別其形狀、佈局和模式來閱讀,並將其與意義相連接,從而有效處理錯別字、變形字體及多種文字系統。然而,現代大型語言模型(LLMs)依賴於子詞分詞技術,將文本從固定詞彙表中分割成片段。雖然這種方法對高資源語言有效,但對低資源語言則過度分割,產生冗長且無語言學意義的序列,並增加了計算量。在本研究中,我們挑戰這一根深蒂固的範式,轉向以視覺為中心的替代方案。我們的方法SeeTok將文本渲染為圖像(視覺文本),並利用預訓練的多模態LLMs來解讀這些圖像,重用了從大規模多模態訓練中學到的強大OCR和文本-視覺對齊能力。在三種不同的語言任務中,SeeTok與子詞分詞器相比,不僅匹配甚至超越了其性能,同時所需的分詞數量減少了4.43倍,浮點運算次數(FLOPs)降低了70.5%,並在跨語言泛化、對印刷噪聲的魯棒性以及語言層次結構方面取得了額外的增益。SeeTok標誌著從符號分詞向類人視覺閱讀的轉變,邁向了更自然、更受認知啟發的語言模型。
文本到圖像(T2I)模型已迅速發展,但它們仍易受語義洩漏的影響,即不同實體之間無意中傳遞語義相關特徵。現有的緩解策略通常基於優化或依賴外部輸入。我們引入了DeLeaker,這是一種輕量級、無需優化的推理時方法,通過直接干預模型的注意力圖來緩解洩漏。在擴散過程中,DeLeaker動態重新加權注意力圖,以抑制過度的跨實體交互,同時強化每個實體的身份。為了支持系統性評估,我們引入了SLIM(圖像中的語義洩漏),這是首個專注於語義洩漏的數據集,包含1,130個經過人工驗證的樣本,涵蓋多種場景,並配備了一個新穎的自動評估框架。實驗表明,DeLeaker始終優於所有基線方法,即使這些方法提供了外部信息,也能在不影響保真度或質量的情況下有效緩解洩漏。這些結果凸顯了注意力控制的價值,並為更語義精確的T2I模型鋪平了道路。
儘管成員推斷攻擊(MIAs)與機器生成文本檢測針對不同的目標——識別訓練樣本與合成文本,但它們的方法往往基於語言模型的概率分佈,利用相似的訊號。儘管存在這種共同的方法論基礎,這兩項任務卻被獨立研究,這可能導致結論忽略了在另一任務中開發的更強方法和有價值的見解。在本研究中,我們從理論和實證兩方面探討了MIAs與機器文本檢測之間的可遷移性,即原本為一項任務開發的方法在另一任務上的表現如何。作為我們的理論貢獻,我們證明了在兩項任務上達到漸近最高性能的指標是相同的。我們在這一最優指標的背景下統一了大量現有文獻,並假設給定方法逼近這一指標的準確度與其可遷移性直接相關。我們的大規模實證實驗,涵蓋了7種最先進的MIA方法和5種最先進的機器文本檢測器,跨越13個領域和10種生成器,展示了跨任務性能中非常強的秩相關性(rho > 0.6)。值得注意的是,我們發現最初為機器文本檢測設計的Binoculars,在MIA基準測試中也達到了最先進的性能,這證明了可遷移性的實際影響。我們的研究結果強調了兩個研究社群之間需要更多的跨任務意識與合作。為了促進跨任務發展和公平評估,我們引入了MINT,一個用於MIAs和機器生成文本檢測的統一評估套件,其中實現了來自兩項任務的15種最新方法。
Transformer模型往往难以学习到可推广的算法,而是依赖于脆弱的启发式方法。以图连通性为测试平台,我们从理论和实证两方面解释了这一现象。我们考虑了一种简化的Transformer架构——解耦Transformer,并证明了L层模型能够精确解决直径不超过3^L的图问题,其实现的算法等同于计算邻接矩阵的幂次。我们分析了训练动态,发现学习策略的关键在于大多数训练实例是否处于模型的能力范围内。对于能力范围内的图(直径≤3^L),模型能够学习到正确的算法解决方案;而对于超出能力范围的图,模型则倾向于学习基于节点度的简单启发式方法。最后,我们通过实验证明,将训练数据限制在模型能力范围内,无论是标准Transformer还是解耦Transformer,都能学习到精确的算法,而非基于节点度的启发式方法。