每日精選AI研究論文及翻譯
大型语言模型(LLMs)的推理能力一直是研究的重要焦点。近期研究通过强化学习(RL)进一步提升了这些能力,许多新方法声称在极少或无需外部监督的情况下取得了显著进步。令人惊讶的是,一些研究甚至表明随机或错误的奖励信号也能提升推理性能。然而,这些突破大多在Qwen2.5模型家族上报告,并在MATH-500、AMC和AIME等知名基准测试中评估,而在Llama等其他模型上未能取得类似成果,这值得进一步探究。我们的分析显示,尽管Qwen2.5在数学推理上表现出色,但其在大规模网络语料库上的预训练使其在流行基准测试中易受数据污染的影响。因此,基于这些基准测试得出的结果可能不可靠。为解决这一问题,我们引入了一个生成器,能够生成任意长度和难度的完全合成的算术问题,产生了一个我们称为RandomCalculation的干净数据集。使用这些无泄漏的数据集,我们发现只有准确的奖励信号能持续提升性能,而噪声或错误的信号则不能。我们主张在无污染的基准测试上评估RL方法,并跨越多种模型家族,以确保结论的可信度。
擴展語言模型釋放了令人矚目的能力,但伴隨而來的計算與記憶體需求使得訓練與部署成本高昂。現有的效率提升措施通常專注於參數共享或自適應計算,而如何同時實現這兩者仍是一個未解之題。我們引入了遞迴混合(Mixture-of-Recursions, MoR),這是一個統一框架,在單一的遞迴Transformer內結合了這兩種效率維度。MoR通過在遞迴步驟間重複使用共享的層堆疊來實現參數效率,而輕量級路由器則通過動態為個別詞元分配不同的遞迴深度,實現了自適應的詞元級思考。這使得MoR能夠僅在特定遞迴深度下仍活躍的詞元間進行二次方注意力計算,並通過選擇性僅緩存這些詞元的鍵值對,進一步提升了記憶體存取效率。除了這些核心機制外,我們還提出了一種鍵值共享變體,該變體重複利用首次遞迴的鍵值對,專門設計用於減少預填充延遲和記憶體佔用。在從1.35億到17億參數的模型規模範圍內,MoR構建了一條新的帕累托前沿:在相同的訓練浮點運算次數和更小的模型尺寸下,它顯著降低了驗證困惑度並提升了少樣本準確率,同時相比於基礎及現有的遞迴基準模型,提供了更高的吞吐量。這些成果表明,MoR是實現大模型質量而不承擔大模型成本的有效途徑。
大規模模型的快速發展,已催化了數位人領域的重大突破。這些先進方法為虛擬形象驅動與渲染提供了高保真解決方案,促使學術界聚焦於下一個主要挑戰:視聽雙向互動虛擬人。為推動這一新興領域的研究,我們推出了SpeakerVid-5M數據集,這是首個專為視聽雙向互動虛擬人生成而設計的大規模高質量數據集。總計超過8,743小時,SpeakerVid-5M包含超過520萬段人像視頻片段,涵蓋了多種規模與互動類型,包括單向講話、聆聽及雙向對話。關鍵在於,該數據集沿兩個核心維度構建:互動類型與數據質量。首先,根據互動場景,將其分為四類(對話分支、單向分支、聆聽分支及多輪分支)。其次,分層為大規模預訓練子集與精選高質量子集,用於監督微調(SFT)。此雙重結構適應了廣泛的二維虛擬人任務。此外,我們基於此數據訓練了一個自回歸(AR)視頻聊天基線,並配套了一套專用指標與測試數據,作為未來工作的基準VidChatBench。數據集及相應的數據處理代碼將公開釋出。項目頁面:https://dorniwang.github.io/SpeakerVid-5M/
近期先進的視覺-語言模型(VLMs)在被動、離線的圖像和視頻理解任務中展現了強大的性能。然而,在需要線上互動和主動場景理解的具身環境中,其效能仍然有限。在此類情境下,智能體以第一人稱視角感知環境,每個動作都會動態地影響後續的觀察。即使是如GPT-4o、Claude 3.5 Sonnet和Gemini 2.5 Pro等最先進的模型,在開放環境的互動中也表現出明顯的局限性,尤其是在空間推理和長時程規劃方面。為填補這一差距,我們引入了EmRACE-3K,這是一個包含超過3,000個語言引導任務的數據集,這些任務設置於使用Unreal Engine和UnrealCV-Zoo框架構建的多樣化、逼真的環境中。這些任務涵蓋了廣泛的具身挑戰,包括導航、物體操作和多階段目標執行。每個任務都作為一個多步驟的軌跡展開,將第一人稱視覺觀察與高層次指令、具體動作以及表達智能體每一步意圖的自然語言理由配對。利用EmRACE-3K,我們建立了一個基準,用於評估VLMs在三個關鍵維度上的具身推理能力:探索、動態空間-語義推理和多階段目標執行。在零樣本設置下,所有模型的成功率均低於20%,這凸顯了我們基準所帶來的挑戰以及VLMs在互動環境中的當前局限性。為展示EmRACE-3K的實用性,我們進一步使用監督學習和強化學習對Qwen2.5-VL-7B進行微調。這一方法在所有三個挑戰類別中均取得了顯著的改進,凸顯了該數據集在促進具身推理能力發展方面的有效性。
近期的大型推理模型(LRMs)在特定任务基准测试中取得了显著进展,然而其评估方法仍受限于孤立的问题解决范式。现有基准测试主要通过顺序测试评估单一问题的推理能力,导致以下关键局限:(1)易受数据污染影响且挑战性不足(例如,DeepSeek-R1在MATH500上达到97.0%),迫使需要耗费大量人力持续创建新问题;(2)无法在多情境压力下评估模型,而这正是实际部署中的关键要求。为弥补这一差距,我们提出了REST(通过同步测试进行推理评估),这是一个压力测试框架,能够同时向LRMs暴露多个问题。除了基本推理能力外,REST特别评估了几项未充分测试的能力:情境优先级分配、跨问题干扰抵抗以及动态认知负荷管理。我们的评估揭示了几项引人注目的发现:即使是最先进的(SOTA)模型如DeepSeek-R1,在压力测试下也表现出显著的性能下降。重要的是,REST展现出比现有基准测试更强的区分能力,揭示了在单一问题评估中表现相近、接近天花板水平的模型之间的显著性能差异。我们的分析得出了一些关键的机制性见解:(1)“过度思考陷阱”是导致性能下降的关键因素;(2)采用“长到短”技术训练的模型在REST下保持了更高的单问题性能准确度,优于标准训练的模型。这些结果表明,REST作为一种成本效益高、面向未来的评估范式,能更好地反映现实世界的推理需求,同时减少对持续人工标注的依赖。
大型語言模型(LLMs)在自然語言理解與生成方面表現卓越,但在處理事實性錯誤方面仍顯脆弱,這限制了其在知識密集型任務中的可靠性。儘管解碼時策略提供了一種無需訓練的高效解決方案,現有方法通常將詞元層級與層級信號孤立處理,忽視了它們之間的聯合動態。本研究引入了一種詞元感知、層級定位的對比解碼方法,該方法將特定類型的詞元與其最具影響力的變壓器層對齊,以提升事實生成能力。通過實證注意力分析,我們識別出兩個關鍵模式:標點符號詞元在早期層級中佔據主導注意力,而概念詞元則在中間層級中主導語義推理。通過在相應深度選擇性地抑制對這些詞元類型的注意力,我們實現了受控事實退化的誘導,並提取出對比信號以指導最終的事實解碼。我們的方法無需額外訓練或模型修改,實驗結果表明,該方法在多個LLMs及多種基準測試中均能持續提升事實準確性。
我們提出MoVieS,這是一種新穎的前饋模型,能夠在一秒內從單目視頻合成四維動態新視角。MoVieS利用像素對齊的高斯基元網格來表示動態三維場景,並對其時變運動進行顯式監督。這首次實現了外觀、幾何與運動的統一建模,並在單一學習框架內支持視角合成、重建及三維點追蹤。通過將新視角合成與動態幾何重建相結合,MoVieS能夠在多樣化數據集上進行大規模訓練,且對任務特定監督的依賴極小。因此,它自然支持廣泛的零樣本應用,如場景流估計和運動物體分割。大量實驗驗證了MoVieS在多任務中的有效性和效率,在保持競爭性能的同時,實現了數個數量級的加速。
近期,LLM-as-judge在评估大型语言模型中的作用日益凸显。然而,当前的评判模型存在专业领域狭窄和鲁棒性有限的问题,这削弱了其进行全面评估的能力。在本研究中,我们提出了CompassJudger-2,一种新型的通用评判模型,通过任务驱动、多领域数据策展策略克服了这些局限。我们方法的核心在于利用可验证的奖励监督评判任务,通过拒绝采样引导内在的批判性推理,以培养稳健且可推广的评判能力。我们引入了一种改进的学习目标,即边际策略梯度损失,以提升性能。实证表明,CompassJudger-2在多个评判和奖励基准测试中取得了优异成果,我们的7B模型在评判准确性上展现了与DeepSeek-V3和Qwen3-235B-A22B等显著更大模型相竞争的实力。此外,我们提出了JudgerBenchV2,一个评估跨领域评判准确性和排名一致性的综合基准,旨在标准化评判模型的评估。这些贡献推动了鲁棒、可扩展的LLM评判发展,并确立了新的性能与评估标准。
大型語言模型(LLMs)的發展需要涵蓋學術領域與產業領域的穩健基準,以有效評估其在現實場景中的適用性。本文中,我們介紹了兩個韓國專家級基準。KMMLU-Redux 是基於現有 KMMLU 重建而成,包含韓國國家技術資格考試的題目,並移除了關鍵錯誤以提高可靠性。KMMLU-Pro 則基於韓國國家專業執照考試,以反映韓國的專業知識。我們的實驗表明,這些基準全面代表了韓國的產業知識。我們已將數據集公開釋出。
主題一致性生成(Subject-consistent Generation, SCG)——旨在跨多樣場景保持主體身份的一致性——對於文本到圖像(Text-to-Image, T2I)模型而言仍是一大挑戰。現有的免訓練SCG方法往往以犧牲佈局和姿態多樣性為代價來實現一致性,這限制了視覺敘事的表現力。為解決這一局限,我們提出了一種主題一致且姿態多樣的T2I框架,命名為CoDi,該框架能夠在保持多樣姿態和佈局的同時生成一致的主體。受擴散過程漸進特性的啟發,即粗結構早期顯現而細節後期精煉,CoDi採用了兩階段策略:身份傳輸(Identity Transport, IT)和身份精煉(Identity Refinement, IR)。IT在早期去噪步驟中運作,利用最優傳輸以姿態感知的方式將身份特徵傳遞至每個目標圖像,從而促進主體一致性同時保留姿態多樣性。IR則應用於後期去噪步驟,選取最顯著的身份特徵以進一步精煉主體細節。在主題一致性、姿態多樣性及提示忠實度方面的大量定性與定量結果表明,CoDi在所有指標上均實現了更佳的視覺感知與更強的表現力。代碼已提供於https://github.com/NJU-PCALab/CoDi。
我們推出DreamPoster,這是一個文本到圖像生成框架,能夠智慧地從用戶提供的圖像和文本提示中合成高品質海報,同時保持內容的忠實度,並支持靈活的解析度和佈局輸出。具體而言,DreamPoster基於我們的T2I模型Seedream3.0,統一處理不同類型的海報生成任務。在數據集構建方面,我們提出了一個系統化的數據註釋流程,精確標註海報圖像中的文本內容和排版層次信息,並採用全面的方法來構建包含源材料(如原始圖形/文本)及其對應最終海報輸出的配對數據集。此外,我們實施了一種漸進式訓練策略,使模型能夠分層次地獲得多任務生成能力,同時保持高品質的生成效果。在我們的測試基準上的評估顯示,DreamPoster在現有方法中表現優異,達到了88.55%的高可用率,相比之下,GPT-4o為47.56%,SeedEdit3.0為25.96%。DreamPoster將在吉夢及其他字節跳動應用中上線。
提升大型语言模型(LLMs)的数学推理能力,是推动人工智能能力发展的关键挑战。尽管监督微调(SFT)与强化学习(RL)作为主流训练范式,但如何系统地将二者结合以最大化准确性与效率,仍是一个尚未充分探索的领域。本文提出了一种实用且高效的训练方案,该方案策略性地将扩展的SFT与基于在线推理的强化学习(GRPO)相结合。我们主张这些方法扮演着互补而非竞争的角色:首先,通过延长SFT阶段将模型的准确性推向极限,随后,GRPO阶段在保持这一巅峰性能的同时,显著提升了令牌效率。实验表明,将SFT扩展至多达10个周期对于性能突破至关重要,而GRPO在此框架中的主要作用在于优化解答长度。我们的方案效能通过在一系列高难度基准测试中的顶尖表现得到了严格验证,包括在严格防泄漏的人工智能数学奥林匹克(AIMO)竞赛中,从超过2200支队伍中脱颖而出,获得高排名。本工作为社区提供了一个经过实战检验的蓝图,用于开发既异常准确又实际高效的顶尖数学推理器。为确保完全可复现性并赋能未来研究,我们将在https://github.com/analokmaus/kaggle-aimo2-fast-math-r1开源整个框架,包括所有代码、模型检查点及训练配置。
本文提出了一種新穎的可執行隱寫術方法,利用ICO圖像文件的Alpha透明層在網頁瀏覽器中嵌入並傳遞自解壓的JavaScript有效載荷。通過針對非透明Alpha層圖像值的最低有效位(LSB),該方法成功地在favicon圖像中隱藏了壓縮的JavaScript代碼,而不影響視覺保真度。全球網絡流量每天加載2940億個favicon,消耗0.9拍字節的網絡帶寬。概念驗證實現表明,一個64x64的ICO圖像可以嵌入最多512字節的未壓縮數據,或在使用輕量級雙重壓縮時嵌入0.8千字節。在頁面加載時,瀏覽器作為標準行為的一部分獲取favicon,允許嵌入的加載腳本使用原生JavaScript API和畫布像素訪問在內存中提取並執行有效載荷。這創建了一個兩階段的隱蔽通道,無需額外的網絡或用戶請求。在多個瀏覽器的桌面和移動環境中的測試確認了嵌入腳本的成功且無聲的執行。我們評估了威脅模型,將其與規避基於favicon檢測的多態釣魚攻擊相關聯,並分析了對內容安全策略和防病毒掃描器的規避。我們將九個MITRE ATT&CK框架目標映射到單行JavaScript,以在ICO文件中任意執行。現有的隱寫分析和消毒防禦被討論,突出了在檢測或中和Alpha通道利用方面的局限性。結果展示了一個隱蔽且可重用的攻擊面,模糊了靜態圖像和可執行內容之間的傳統界限。由於現代瀏覽器在開發者特別未能加載ICO文件時報告無聲錯誤,這個攻擊面提供了一個有趣的例子,說明了必要的網絡行為反過來會損害安全性。
作為珍貴的數字資產,深度神經網絡亟需強健的所有權保護,這使得神經網絡水印技術(NNW)成為一項頗具前景的解決方案。在眾多NNW方法中,基於權重的方法因其簡便性和實用性而備受青睞;然而,它們仍易受偽造和覆寫攻擊的威脅。為應對這些挑戰,我們提出了NeuralMark,這是一種圍繞哈希水印濾波器構建的魯棒方法。具體而言,我們利用哈希函數從密鑰生成不可逆的二進制水印,隨後將其作為濾波器來選擇嵌入的模型參數。這一設計巧妙地將嵌入參數與哈希水印交織在一起,為抵禦偽造和覆寫攻擊提供了堅固的防線。此外,還引入了平均池化以抵抗微調和剪枝攻擊。更重要的是,該方法能夠無縫集成到多種神經網絡架構中,確保了廣泛的適用性。理論上,我們分析了其安全邊界。在實踐中,我們在13種不同的卷積和Transformer架構上驗證了其有效性和魯棒性,涵蓋了五種圖像分類任務和一項文本生成任務。源代碼已公開於https://github.com/AIResearch-Group/NeuralMark。
大型語言模型(LLMs)在自然語言理解與生成方面展現了令人矚目的能力,但其生成的輸出在邏輯一致性上存在問題。儘管LLMs存在不一致性,我們如何能在形式推理中利用其廣泛覆蓋的參數化知識?我們提出了一種方法,直接將LLM整合到一種次協調邏輯的形式語義解釋函數中。通過使用基於多個短篇事實性基準創建的數據集對該函數進行評估,我們提供了該方法可行性的實驗證據。與先前的研究不同,我們的方法提供了一個理論框架,用於神經符號推理,該框架在利用LLM知識的同時,保持了底層邏輯的健全性和完備性。