每日精選AI研究論文及翻譯
在本研究中,我們介紹了Qwen模型家族的最新版本——Qwen3。Qwen3包含一系列大型語言模型(LLMs),旨在提升性能、效率及多語言能力。該系列涵蓋了密集架構與專家混合(MoE)架構的模型,參數規模從0.6億到2350億不等。Qwen3的一項關鍵創新在於將思維模式(用於複雜的多步推理)與非思維模式(用於快速的上下文驅動響應)整合到一個統一框架中。這消除了在不同模型間切換的需求——例如聊天優化模型(如GPT-4o)與專用推理模型(如QwQ-32B)——並能根據用戶查詢或聊天模板動態切換模式。同時,Qwen3引入了思維預算機制,允許用戶在推理過程中自適應地分配計算資源,從而根據任務複雜度平衡延遲與性能。此外,通過利用旗艦模型的知識,我們大幅減少了構建小規模模型所需的計算資源,同時確保其具有高度競爭力的性能。實證評估顯示,Qwen3在多樣化的基準測試中取得了領先成果,包括代碼生成、數學推理、代理任務等,與更大的MoE模型及專有模型相比具有競爭力。相較於前代Qwen2.5,Qwen3將多語言支持從29種擴展至119種語言和方言,通過提升跨語言理解與生成能力增強了全球可訪問性。為促進可重現性及社區驅動的研究與開發,所有Qwen3模型均在Apache 2.0許可下公開提供。
為提升視覺語言模型(VLM)的安全性,本文提出了一種新型基於推理的VLM守護模型,命名為GuardReasoner-VL。其核心思想是通過線上強化學習(RL)激勵守護模型在做出審核決策前進行深思熟慮的推理。首先,我們構建了GuardReasoner-VLTrain,這是一個包含123K樣本和631K推理步驟的推理語料庫,涵蓋文本、圖像及文本-圖像輸入。基於此,我們通過監督微調(SFT)冷啟動模型的推理能力。此外,我們進一步通過線上RL增強了審核相關的推理能力。具體而言,為提升樣本的多樣性和難度,我們進行了拒絕採樣,並通過提出的安全感知數據拼接進行數據增強。同時,我們採用動態剪裁參數來鼓勵早期階段的探索和後期階段的利用。為平衡性能與令牌效率,我們設計了一種長度感知的安全獎勵,整合了準確性、格式和令牌成本。大量實驗證明了我們模型的優越性。值得注意的是,其平均F1分數超越第二名達19.27%。我們在https://github.com/yueliu1999/GuardReasoner-VL/ 發布了GuardReasoner-VL的數據、代碼及模型(3B/7B)。
大型語言模型(LLMs)及其多模態擴展(MLLMs)的最新進展,顯著提升了機器在各種任務中的推理能力。然而,這些模型主要依賴純文本作為表達和結構化推理的媒介,即使視覺信息存在時也是如此。在本研究中,我們主張語言可能並非總是進行推理最自然或最有效的模態,尤其是在涉及空間和幾何信息的任務中。基於此,我們提出了一種新範式——視覺規劃,它允許通過純視覺表示進行規劃,獨立於文本。在這一範式中,規劃是通過一系列圖像來執行的,這些圖像在視覺領域中編碼了逐步推理的過程,類似於人類繪製或可視化未來行動的方式。我們引入了一種新穎的強化學習框架——基於強化學習的視覺規劃(VPRL),並利用GRPO對大型視覺模型進行後訓練,從而在代表性視覺導航任務(如FrozenLake、Maze和MiniBehavior)中大幅提升了規劃能力。我們的視覺規劃範式在僅依賴文本空間進行推理的所有規劃變體中表現最佳。研究結果確立了視覺規劃作為基於語言推理的一種可行且前景廣闊的替代方案,為那些受益於直覺、基於圖像推理的任務開闢了新途徑。
大型视觉语言模型上下文窗口的迅速扩展催生了长上下文视觉语言模型(LCVLMs),这些模型能够在单次前向传播中处理数百张图像与交错文本标记。在本研究中,我们引入了MMLongBench,这是首个涵盖多种长上下文视觉语言任务的基准测试,旨在有效且全面地评估LCVLMs。MMLongBench由13,331个样本组成,跨越了如视觉RAG和多示例ICL等五大类下游任务,并广泛覆盖了包括各类自然与合成图像在内的图像类型。为了评估模型对不同输入长度的鲁棒性,所有样本均通过结合视觉补丁与文本标记的跨模态标记化方案,以五种标准化输入长度(8K至128K标记)呈现。通过对46个闭源与开源LCVLMs的深入基准测试,我们提供了当前模型在视觉语言长上下文能力方面的全面分析。研究结果表明:i)单一任务上的表现难以全面反映长上下文能力;ii)无论是闭源还是开源模型,在长上下文视觉语言任务中均面临挑战,表明未来改进空间巨大;iii)具备更强推理能力的模型往往展现出更优的长上下文性能。通过提供广泛的任务覆盖、多样的图像类型以及严格的长度控制,MMLongBench为诊断与推进下一代LCVLMs的发展奠定了不可或缺的基础。
近期大型語言模型(LLMs)的進展展示了通過自我生成的思維鏈進行推理的強大能力。多個推理代理可以協作,將聯合推理質量提升至超越個體結果的水平。然而,這些代理通常以輪流方式互動,以增加延遲為代價來提升質量。在本文中,我們提出了「群體思維」(Group Think)——一個單一的LLM,扮演多個並發推理代理或思考者的角色。通過共享彼此部分生成進程的可見性,群體思維引入了一種新的並發推理範式,其中多個推理軌跡在令牌級別上動態相互適應。例如,一個推理線程在檢測到另一個線程更適合繼續時,可能會在中途改變其生成內容。這種細粒度的、令牌級別的協作使群體思維能夠減少冗餘推理,提升質量,同時顯著降低延遲。此外,其並發性質允許高效利用閒置的計算資源,使其特別適合邊緣推理,在這種場景下,極小的批次大小往往導致本地GPU的利用率不足。我們提供了一種簡單且可普遍應用的修改方案,使任何現有的LLM都能在本地GPU上執行群體思維。我們還提出了一種評估策略來基準測試推理延遲,並使用未經群體思維專門訓練的開源LLM實證展示了延遲的改善。我們希望這項工作能為未來LLM展現更複雜、更高效的協作行為,以實現更高質量的生成鋪平道路。
視覺語言模型(VLMs)通過利用豐富的文本信息並以最少的標記數據,在多樣化的任務中取得了顯著成功。然而,在資源受限的環境中部署這類大型模型仍然具有挑戰性。知識蒸餾(KD)為這一問題提供了一種成熟的解決方案;然而,近期從VLMs中提取知識的KD方法通常涉及多階段訓練或額外的調優,這增加了計算開銷和優化複雜性。在本文中,我們提出了\texttt{D}ual-\texttt{H}ead \texttt{O}ptimization(\texttt{DHO})——一種簡單而有效的KD框架,在半監督設置下將知識從VLMs轉移到緊湊的任務特定模型中。具體而言,我們引入了雙預測頭,它們分別從標記數據和教師預測中獨立學習,並在推理過程中線性組合其輸出。我們觀察到,DHO緩解了監督信號與蒸餾信號之間的梯度衝突,使得特徵學習比單頭KD基線更為有效。因此,大量實驗表明,DHO在多個領域和細粒度數據集上始終優於基線。值得注意的是,在ImageNet上,它達到了最先進的性能,在使用1%和10%標記數據時,分別將準確率提高了3%和0.1%,同時使用了更少的參數。
模型融合技術允許將現有模型的能力結合到一個新模型中——無需額外訓練,即可事後完成。這項技術因其低成本及支援消費級GPU融合的函式庫普及而日益流行。近期研究顯示,將融合與進化算法配對可提升性能,但目前尚無框架支援在語言模型中靈活實驗此類策略。我們介紹了Mergenetic,一個用於進化模型融合的開源函式庫。Mergenetic不僅簡化了融合方法與進化算法的組合,還整合了輕量級適應度評估器以降低評估成本。我們闡述了其設計,並展示Mergenetic在適度硬體條件下,跨任務與語言均能產出競爭力十足的成果。
多令牌预测作为一种提升语言模型预训练效果的有前景目标已崭露头角,但其优势并未一贯地推广至诸如微调等其他场景。本文提出MuToR,一种简单而有效的多令牌预测方法,该方法将可学习的寄存器令牌交错嵌入输入序列中,每个令牌负责预测未来目标。与现有方法相比,MuToR具备几大关键优势:它仅引入极少量的额外参数,无需改动模型架构——确保了与现成预训练语言模型的兼容性——并且与下一令牌预训练目标保持一致,使其特别适用于监督微调。此外,它天然支持可扩展的预测视野。我们通过一系列用例,包括监督微调、参数高效微调(PEFT)及预训练,在语言与视觉领域内的挑战性生成任务上,展示了MuToR的有效性与多功能性。我们的代码将发布于:https://github.com/nasosger/MuToR。
大型語言模型(LLMs)在多種程式設計任務中展現了卓越的性能,但其在程式碼優化方面的潛力仍未被充分探索。本研究探討了LLMs是否能夠優化組合語言程式碼的性能,其中對執行的細粒度控制使得改進難以在高階語言中表達。我們提出了一個強化學習框架,使用近端策略優化(PPO)來訓練LLMs,並以一個獎勵函數為指導,該函數考慮了通過測試案例驗證的功能正確性,以及相對於業界標準編譯器gcc -O3的執行性能。為了支持這項研究,我們引入了一個包含8,072個真實世界程式的基準測試集。我們的模型Qwen2.5-Coder-7B-PPO達到了96.0%的測試通過率,並且相較於gcc -O3基準線平均加速了1.47倍,超越了包括Claude-3.7-sonnet在內的所有20個評估模型。這些結果表明,強化學習能夠釋放LLMs作為組合語言程式碼性能有效優化器的潛力。
在形式語言中的自動定理證明(Automated Theorem Proving, ATP)仍然是人工智慧領域中的一項艱鉅挑戰,它要求嚴密的邏輯推理並需在龐大的搜索空間中導航。儘管大型語言模型(LLMs)已展現出令人鼓舞的表現,現有的逐步證明器常因搜索指導的偏差而效率低下,導致證明策略次優。本文介紹了多視角搜索證明器(Multi-Perspective Search Prover, MPS-Prover),這是一種新穎的逐步ATP系統,旨在克服這些限制。MPS-Prover融合了兩項關鍵創新:一種高效的訓練後數據策展策略,能夠在不犧牲性能的情況下修剪約40%的冗餘訓練數據;以及一種多視角樹搜索機制。該搜索機制將學習到的評判模型與策略性設計的啟發式規則相結合,以多樣化戰術選擇,避免陷入無效狀態,並增強搜索的魯棒性。廣泛的評估表明,MPS-Prover在多個具有挑戰性的基準測試中,包括miniF2F和ProofNet,達到了最先進的性能,超越了之前擁有70億參數的模型。此外,我們的分析揭示,與現有的逐步和全證明方法相比,MPS-Prover生成的證明顯著更短且更多樣,突顯了其效率和有效性。我們的工作提升了基於LLM的形式推理能力,並為開發更強大的定理證明器提供了一個堅實的框架和全面的分析。
儘管生成模型的能力迅速提升,預訓練的文本到圖像模型在捕捉由複雜提示傳達的語義方面仍然存在困難,這些提示通常包含多個對象和實例級別的屬性。因此,我們看到越來越多的人對整合額外的結構約束感興趣,通常以粗略的邊界框形式出現,以更好地指導在這些具有挑戰性的情況下的生成過程。在這項工作中,我們將結構引導的想法更進一步,通過觀察到當代圖像生成模型可以直接提供一個合理的細粒度結構初始化。我們提出了一種技術,將這種基於圖像的結構引導與基於大語言模型(LLM)的實例級別指令相結合,從而生成符合文本提示所有部分的輸出圖像,包括對象數量、實例級別屬性以及實例之間的空間關係。
近期關於大型語言模型(LLM)推理能力的研究顯示,通過在推理過程中利用冗長的思考過程和額外的計算資源,模型性能得到了顯著提升,這主要體現在涉及數學推理的任務中(Muennighoff等,2025)。然而,尚不確定更長的推理鏈是否本質上能提高事實準確性,尤其是在數學之外的領域。在本研究中,我們深入探討了LLM在複雜開放域問答(QA)場景中的推理能力。我們首先從先進的大規模推理模型(QwQ-32B和DeepSeek-R1-671B)中提取推理軌跡,然後對一系列模型進行微調,這些模型從較小的指令微調變體到基於Qwen2.5的更大架構不等。為了豐富推理軌跡,我們將知識圖譜中的事實信息以路徑形式引入推理軌跡中。我們的實驗設置包括四種基線方法和六種不同的指令微調模型,這些模型在包含超過22.6K問題的六個數據集基準上進行評估。總體而言,我們進行了168次實驗運行,並分析了約170萬條推理軌跡。研究結果表明,在單次運行中,較小的推理模型在事實準確性方面相比其原始指令微調版本取得了顯著提升。此外,我們的分析顯示,增加測試時的計算資源和令牌預算,事實準確性持續提高了2-8%,進一步證明了測試時擴展對於提升性能的有效性,從而提高了開放域QA任務中的推理準確性。我們將所有實驗成果公開以供進一步研究。
大型語言模型(LLMs)在材料科學問題上的應用日益廣泛,包括文獻理解、性質預測、材料發現及合金設計。與此同時,基於物理的計算方法也得到廣泛發展,可用於計算材料特性。本文提出了一項基準應用,旨在評估LLMs通過生成並安全執行基於此類物理計算材料科學套件的代碼來回答材料科學問題的能力。MatTools建立在兩個互補組件之上:一個材料模擬工具問答(QA)基準和一個現實世界工具使用基準。我們設計了一種自動化方法,以高效收集現實世界材料科學工具使用範例。QA基準源自pymatgen(Python材料基因組)代碼庫及文檔,包含69,225個QA對,用於評估LLM理解材料科學工具的能力。現實世界基準包含49項任務(138個子任務),要求生成用於材料性質計算的功能性Python代碼。我們對多種LLMs的評估得出了三個關鍵見解:(1)通才勝於專才;(2)AI了解AI;(3)簡約為上。MatTools為評估和提升LLM在材料科學工具應用中的能力提供了一個標準化框架,促進了更有效AI系統在材料科學及一般科學研究中的發展。
隨著大型語言模型(LLMs)融入我們的社會與經濟互動中,我們需要深入理解人類在策略性情境下如何應對LLMs的對手。我們首次進行了一項受控且有金錢激勵的實驗室研究,探討人類在多玩家p-選美競賽中對抗其他玩家與LLMs時的行為差異。我們採用受試者內設計,以便在個體層面上比較行為。我們發現,在此環境下,人類受試者在對抗LLMs時選擇的數字顯著低於對抗人類時,這主要是由於「零」納什均衡選擇的普遍性增加所致。這一轉變主要由具有高策略推理能力的受試者驅動。選擇零納什均衡策略的受試者,其動機源自於對LLMs推理能力的感知,以及出乎意料地,對其合作傾向的考量。我們的研究結果為多人類-LLM在同步選擇遊戲中的互動提供了基礎性洞察,揭示了受試者行為的異質性以及他們對LLMs遊戲策略的信念,並對混合人類-LLM系統中的機制設計提出了重要啟示。
利用自然語言指令編輯圖像已成為修改視覺內容的一種自然而富於表現力的方式;然而,評估此類模型的性能仍具挑戰性。現有的評估方法通常依賴於如CLIP等圖像-文本相似度指標,這些指標缺乏精確性。在本研究中,我們引入了一個新的基準,旨在更為紮實地評估文本引導圖像編輯模型,沿著兩個關鍵維度進行:(i) 功能正確性,通過自動生成的多項選擇題來驗證是否成功應用了預期的更改;(ii) 圖像內容保留,使用對象感知的遮罩技術和保留評分來確保圖像的非目標區域在視覺上保持一致。該基準包括超過1000個高質量編輯示例,涵蓋20個不同的內容類別,每個示例都附有詳細的編輯指令、評估問題和空間對象遮罩。我們進行了一項大規模研究,將文本引導圖像編輯領域的最新旗艦模型GPT-Image-1與多種最先進的編輯模型進行比較,並將我們的自動指標與人類評分進行驗證。結果顯示,GPT-Image-1在指令遵循準確性方面領先,但經常過度修改不相關的圖像區域,凸顯了當前模型行為中的一個關鍵權衡。GIE-Bench提供了一個可擴展、可重複的框架,以推動文本引導圖像編輯的更精確評估。
手是人類互動的關鍵,理解手與世界之間的接觸有助於全面認識其功能。近年來,涵蓋與物體、另一隻手、場景及身體互動的手部交互數據集日益增多。儘管這一任務的重要性與日俱增,且高質量數據不斷積累,如何有效學習密集手部接觸估計仍是一個尚未充分探索的領域。學習密集手部接觸估計面臨兩大挑戰:首先,手部接觸數據集中存在類別不平衡問題,大多數樣本並未發生接觸;其次,這些數據集還存在空間分佈不均的問題,大部分手部接觸集中於指尖,這導致對其他手部區域接觸的泛化能力面臨挑戰。為解決這些問題,我們提出了一個從不平衡數據中學習密集手部接觸估計(HACO)的框架。針對類別不平衡問題,我們引入了平衡接觸採樣方法,該方法構建並從多個採樣組中抽取樣本,這些採樣組公平地代表了接觸與非接觸樣本的多樣化統計特性。此外,為應對空間不平衡問題,我們提出了頂點級別類別平衡(VCB)損失函數,它通過根據每個頂點在數據集中的接觸頻率單獨重新加權其損失貢獻,從而納入了空間變化的接觸分佈。因此,我們能夠在不受到類別和空間不平衡問題困擾的情況下,利用大規模手部接觸數據有效預測密集手部接觸估計。相關代碼將被公開。
精確分割生物醫學影像中的感興趣區域在影像分析中具有重要價值。儘管目前已有若干基礎模型在特定數據集上取得了優異的分割性能,但這些模型在未見過的領域數據上通常表現欠佳。我們將此不足歸因於分割前缺乏視覺-語言知識。多模態大型語言模型(MLLMs)為多模態任務帶來了卓越的理解與推理能力,這啟發我們利用MLLMs注入視覺-語言知識(VLK),從而讓視覺模型在跨域數據集上展現出優越的泛化能力。本文中,我們提出使用MLLMs指導SAM學習顯微鏡跨域數據,統一顯微鏡下的任意分割,命名為uLLSAM。具體而言,我們提出了視覺-語言語義對齊(VLSA)模塊,將VLK注入到任意分割模型(SAM)中。我們發現,SAM在接收全局VLK提示後,其性能顯著提升,但在邊界輪廓感知上存在不足。因此,我們進一步提出語義邊界正則化(SBR)來提示SAM。我們的方法在9個域內顯微鏡數據集上實現了Dice係數7.71%和SA 12.10%的性能提升,達到了最先進的水平。同時,在10個域外數據集上,我們的方法也展示了Dice係數6.79%和SA 10.08%的改進,展現出強大的泛化能力。代碼可在https://github.com/ieellee/uLLSAM獲取。
我們推出CheXGenBench,這是一個嚴謹且多面向的評估框架,用於合成胸部X光片的生成,同時評估最先進的文本到圖像生成模型在逼真度、隱私風險和臨床實用性方面的表現。儘管生成式AI在現實世界圖像領域取得了快速進展,但醫學領域的評估一直受到方法學不一致、過時的架構比較以及評估標準脫節的阻礙,這些標準很少涉及合成樣本的實際臨床價值。CheXGenBench通過標準化的數據分割和包含超過20個量化指標的統一評估協議,克服了這些限制,系統地分析了11種領先的文本到圖像架構的生成質量、潛在隱私漏洞以及下游臨床應用性。我們的結果揭示了現有評估協議中的關鍵低效性,特別是在評估生成逼真度方面,導致了不一致且無信息量的比較。我們的框架為醫學AI社區建立了一個標準化的基準,使客觀且可重現的比較成為可能,同時促進了現有和未來生成模型的無縫整合。此外,我們發布了一個高質量的合成數據集SynthCheX-75K,包含75,000張由我們基準測試中表現最佳的模型(Sana 0.6B)生成的X光片,以支持這一關鍵領域的進一步研究。通過CheXGenBench,我們確立了新的最先進水平,並在https://raman1121.github.io/CheXGenBench/上發布了我們的框架、模型和SynthCheX-75K數據集。
大型語言模型(LLMs)的興起加劇了對AI生成文本濫用的擔憂,使得浮水印技術成為一項頗具前景的解決方案。目前主流的LLM浮水印方案主要分為兩類:基於logits的和基於採樣的。然而,現有方案在魯棒性、文本質量和安全性之間存在權衡。為緩解這一問題,我們整合了基於logits和基於採樣的方案,發揮各自優勢以實現協同效應。本文提出了一種多功能共生浮水印框架,包含三種策略:串聯、並聯和混合。該混合框架根據詞元熵和語義熵自適應地嵌入浮水印,優化了可檢測性、魯棒性、文本質量和安全性之間的平衡。此外,我們通過在多種數據集和模型上的全面實驗驗證了我們的方法。實驗結果表明,我們的方法優於現有基準,並達到了最先進(SOTA)的性能。我們相信這一框架為多樣化的浮水印範式提供了新穎的見解。我們的代碼可在https://github.com/redwyd/SymMark{https://github.com/redwyd/SymMark}獲取。
風格轉移與推理時間優化(ST-ITO)是一種新近的方法,用於將參考音頻的應用效果轉移到原始音頻軌道上。該方法通過優化效果參數來最小化處理後音頻與參考音頻在風格嵌入空間中的距離。然而,這種方法平等對待所有可能的配置,並僅依賴於嵌入空間,這可能導致不切實際或偏頗的結果。我們通過在參數空間中引入基於人聲預設數據集DiffVox的高斯先驗來解決這一缺陷。由此產生的優化等同於最大後驗估計。在MedleyDB數據集上對人聲效果轉移的評估顯示,與基線方法相比,包括盲音頻效果估計器、最近鄰方法以及未校準的ST-ITO,該方法在各項指標上均有顯著提升。所提出的校準方法將參數均方誤差降低了最多33%,並更好地匹配了參考風格。16名參與者的主觀評估證實了我們方法的優越性,特別是在數據有限的情況下。這項工作展示了如何在推理時間內融入先驗知識以增強音頻效果轉移,為更有效和逼真的音頻處理系統鋪平了道路。