每日精選AI研究論文及翻譯
我們夢想一個未來,所有領域的點雲數據都能匯聚成形,共同構建一個惠及全域的單一模型。為實現此目標,我們推出Utonia——這是邁向跨領域訓練單一自監督點雲Transformer編碼器的第一步,涵蓋遙感探測、室外LiDAR、室內RGB-D序列、以物體為中心的CAD模型,以及從純RGB影片提取的點雲數據。儘管這些數據存在感測幾何、密度與先驗知識的差異,Utonia仍能學習到跨領域通用的表徵空間。此統一性不僅提升感知能力,更揭示了僅在跨領域聯合訓練時才會湧現的驚人突現行為。除了感知任務,我們發現Utonia表徵亦能促進具身與多模態推理:將視覺-語言-動作策略以Utonia特徵為條件,可提升機器人操作效能;將其整合至視覺-語言模型後,更能增強空間推理能力。我們期盼Utonia能成為稀疏3D數據基礎模型的奠基之作,為AR/VR、機器人學與自動駕駛等下游應用提供支持。
視覺世界為推動基礎模型超越語言範疇提供了關鍵軸線。儘管此方向日益受到關注,原生多模態模型的設計空間仍不明朗。我們透過受控的從零開始預訓練實驗提供實證清晰度,在排除語言預訓練干擾的條件下,釐清主導多模態預訓練的關鍵因素。採用Transfusion框架(語言模組使用下一詞預測,視覺模組使用擴散模型),我們對文本、影片、圖文配對乃至動作條件影片等多元數據進行訓練。實驗得出四項核心發現:(i)表徵自編碼器(RAE)憑藉其在視覺理解與生成方面的雙重優勢,可提供最優的統一視覺表徵;(ii)視覺與語言數據具有互補性,能為下游能力產生協同效應;(iii)統一多模態預訓練自然導向世界建模,通用訓練中會湧現相關能力;(iv)專家混合模型(MoE)既能實現高效的多模態擴展,又會自然誘發模態專精化。透過等運算量分析,我們計算出雙模態的擴展律,並揭示擴展不對稱性:視覺的數據需求遠高於語言。我們證明MoE架構可通過提供語言所需的高模型容量,同時滿足視覺的數據密集型特性,從而協調此擴展不對稱性,為真正統一的跨模態模型鋪平道路。
近期,統一多模態模型展現出強大的生成能力,但生成是否以及何時能提升理解能力仍不明確。現有基準缺乏對生成促進理解的具體任務進行系統性探索。為此,我們提出UniG2U-Bench——一個將生成到理解(G2U)評估劃分為7大範疇、30項子任務的綜合基準,這些任務需要不同程度的隱性或顯性視覺轉換。透過對超過30個模型的大規模評估,我們發現三個核心結論:1)統一模型整體表現遜於其基礎視覺語言模型,且「生成後回答」推理方式通常會比直接推理降低性能;2)在空間智能、視覺錯覺或多輪推理子任務中出現持續性提升,其中增強的空間與形狀感知能力以及多步驟中間圖像狀態被證實具有益處;3)具有相似推理結構的任務與共享架構的模型會呈現相關行為,表明生成與理解的耦合會對任務、預訓練數據和模型架構產生類別一致的歸納偏置。這些發現凸顯了需要更多樣化的訓練數據與新範式,才能充分釋放統一多模態建模的潛能。
我们推出Qwen3-Coder-Next——专为代码智能体设计的开放权重语言模型。该模型拥有800亿参数规模,在推理时仅激活30亿参数,既能实现强大的代码能力,又具备高效的推理效率。本研究旨在探索:通过强化训练方法,小参数规模模型的性能极限能被提升至何种程度。为此,我们通过大规模合成可验证编程任务与可执行环境进行智能体训练,使模型能通过训练中期的环境反馈和强化学习直接获取知识。在SWE-Bench、Terminal-Bench等以智能体为核心的基准测试中,Qwen3-Coder-Next在其激活参数量级上展现出卓越的竞争力。我们同步开放基础版和指令微调版的开放权重模型,以支持学术界与工业界的代码智能体研发工作。
當前針對程式碼代理的基準測試主要聚焦於倉庫內部的局部修復評估,未能涵蓋真實場景中的關鍵挑戰,例如跨倉庫推理、領域專精問題解決、依賴驅動的遷移以及完整倉庫生成。為填補此空白,我們推出BeyondSWE——一個沿著解析範圍與知識範圍雙維度拓展的綜合基準測試,採用涵蓋四種不同場景的500個真實案例進行評估。實驗結果顯示存在顯著的能力差距:即便前沿模型的成功率也停滯在45%以下,且沒有任何單一模型能在所有任務類型中保持穩定表現。為系統性探究外部知識的作用,我們開發了SearchSWE框架,將深度搜索與編碼能力相結合。實驗表明,搜索增強策略帶來的效能提升並不穩定,甚至可能導致性能下降,這凸顯了在編碼任務中模擬開發者交錯進行搜索與推理工作流程的難度。本研究不僅提供了具現實意義的挑戰性評估基準,更提出了一個靈活框架,以推動建構更強大程式碼代理的相關研究。
近期生成式獎勵模型(GRM)的研究進展表明,擴展思維鏈(CoT)推理的長度能顯著提升評估的可靠性。然而,現有研究主要依賴非結構化的長度擴展策略,忽略了不同推理機制的差異化效能:廣度思維鏈(B-CoT,即多維度原則覆蓋)與深度思維鏈(D-CoT,即實質判斷嚴謹性)。為此,我們提出Mix-GRM框架,透過模組化合成流程將原始推理重構為結構化的B-CoT與D-CoT,並結合監督微調(SFT)與可驗證獎勵的強化學習(RLVR)來內化與優化這些機制。全面實驗證實,Mix-GRM在五項基準測試中創下最新性能紀錄,平均超越主流開源獎勵模型達8.2%。我們的研究揭示推理機制的明確分化:B-CoT利於主觀偏好型任務,而D-CoT擅長客觀正確性任務。若推理機制與任務類型錯配,將直接導致性能下降。此外,我們發現RLVR具有開關放大器效應,會誘發模型根據任務需求自發分配推理風格的極化現象。合成數據與模型已發佈於https://huggingface.co/collections/DonJoey/mix-grm,程式碼公開於https://github.com/Don-Joey/Mix-GRM。
人物動畫旨在透過將驅動影片中的運動動態遷移至參考圖像,來生成栩栩如生的影片。近期生成模型的突破為高擬真度人物動畫開闢了道路。本文提出Kling-MotionControl——一個基於DiT的統一框架,專為實現強健、精確且富有表現力的整體人物動畫而設計。該模型在協同系統中採用分治策略,針對身體、面部和手部的不同特徵協調異構運動表徵,有效平衡大尺度結構穩定性與細粒度關節表現力。為確保跨身份泛化能力,我們引入自適應身份無關學習機制,實現從真實人類到風格化卡通等多元角色的自然運動重定向。同時透過精細的身份注入與融合設計,結合利用完整參考上下文的主題庫機制,確保外觀特徵的忠實還原。為提升實用性,我們採用基於多階段蒸餾的先進加速框架,將推理速度提升逾10倍。Kling-MotionControl憑藉智能語義運動理解與精準文本響應能力脫穎而出,可實現超越視覺輸入的靈活控制。人工偏好評估表明,Kling-MotionControl在整體運動控制、開放域泛化及視覺質量連貫性方面均優於主流商業與開源方案,展現出卓越的擬真度。這些成果確立了Kling-MotionControl作為高質量、可控且生動的人物動畫的強健解決方案。
大型語言模型(LLMs)在社會敏感領域的應用日益廣泛,但其不可預測的行為——從意圖偏離到人格不一致——構成了重大風險。我們提出SteerEval,一個分層評估基準,用於檢驗LLM在語言特徵、情感和人格三大領域的可控性。每個領域均設有三層規範架構:L1(表達內容)、L2(表達方式)與L3(實例化方式),將高層次行為意圖與具體文本輸出相連結。透過SteerEval,我們系統性評估當代導向方法,發現控制精細度常隨層級深入而衰減。本基準為實現安全可控的LLM行為提供原則性與可解釋的框架,為未來研究奠定基礎。
基于指令的视频编辑技术虽发展迅速,但现有方法常因自然语言在描述复杂视觉细节时的固有局限而难以实现精准的视觉控制。尽管参考引导编辑提供了可靠解决方案,但其潜力目前受限于高质量配对训练数据的稀缺。为弥补这一缺口,我们提出了一种可扩展的数据生成流程,通过图像生成模型创建合成参考支架,将现有视频编辑对转换为高保真训练四元组。基于此流程,我们构建了专为指令-参考跟随任务设计的大规模数据集RefVIE,并建立RefVIE-Bench进行综合评估。此外,我们提出统一编辑架构Kiwi-Edit,通过可学习查询与潜在视觉特征的协同实现参考语义引导。采用渐进式多阶段训练策略后,我们的模型在指令跟随与参考保真度方面取得显著提升。大量实验表明,我们的数据与架构开创了可控视频编辑的新标杆。所有数据集、模型及代码均已发布于https://github.com/showlab/Kiwi-Edit。
在部分可观测的高维领域中,捕捉时间依赖性对于基于模型的强化学习(MBRL)至关重要。我们提出NE-Dreamer——一种无解码器的MBRL智能体,它利用时序变换器从潜在状态序列预测下一时刻的编码器嵌入,直接在表征空间中对齐时序预测目标。该方法使NE-Dreamer无需重构损失或辅助监督即可学习具有一致性的预测状态表征。在DeepMind控制套件测试中,NE-Dreamer达到或超越了DreamerV3及主流无解码器智能体的性能。在涉及记忆与空间推理的DMLab挑战任务子集上,NE-Dreamer实现了显著性能提升。这些成果确立了基于时序变换器的下一嵌入预测框架,为复杂部分可观测环境中的MBRL提供了高效可扩展的解决方案。
DEEPTHINK方法通過生成、精煉和聚合候選解決方案群體來提升推理能力,使其在複雜數學與科學任務中表現卓越。然而現有框架在推理過程中往往缺乏可靠的正確性信號,這導致了群體增強瓶頸——更深層的審議反而會放大錯誤、壓制正確的少數解,並使額外計算投入的回報遞減。本文提出對DEEPTHINK系統進行功能分解,並引入PRISM算法:一種基於過程獎勵模型(PRM)的推理指引機制,利用步驟級驗證來指導群體精煉與解決方案聚合。在精煉階段,PRISM將候選解視為PRM定義的能量場中的粒子,通過分數引導的重採樣與隨機優化重塑群體分佈,從而將概率質量集中於更高質量的推理路徑,同時保持多樣性。在數學與科學基準測試中,PRISM與現有DEEPTHINK方法相比具有競爭優勢或更優表現:使用gpt-oss-20b模型時,在AIME25、HMMT25和GPQA Diamond數據集上分別達到90.0%、75.4%和71.4%的準確率,且匹配甚至超越gpt-oss-120b的表現。此外,我們的分析表明PRISM在精煉過程中能實現持續的淨方向校正,在初始群體正確候選較少時仍保持可靠性,並常位於計算量-準確率的帕累托最優前沿。
随着大型语言模型(LLM)的数学能力向国际数学奥林匹克竞赛(IMO)水平迈进,训练与评估所需的高难度、高质量数学问题的稀缺性已成为显著瓶颈。与此同时,新一代代码智能体在自主编程与推理方面展现出卓越能力,表明代码执行可作为数学实验的可扩展环境。本文研究代码智能体将现有数学问题自主演化成更复杂变体的潜力,提出一种多智能体框架,该框架在生成问题变异体的同时能验证其可解性与难度提升。实验表明,在充分测试探索的情况下,代码智能体能够合成结构新颖且难度超越原题的可解新问题。本工作通过实证说明,在可扩展计算环境中,代码驱动的智能体可作为生成高难度数学推理问题的有效机制。相关数据已发布于 https://github.com/TarferSoul/Code2Math。
人類推理常需基於有限信息得出概率性結論。其最簡形式涉及從前提推導出非必然性、僅具可能性的推論。儘管推理型大語言模型在邏輯與數學任務中表現卓越,但其在開放式非確定性推理中的行為仍鮮有研究。我們推出ProbCOPA數據集——包含210個人工構建的英文概率推理案例,每個案例均獲25至30位人類參與者對推論可能性進行標註。研究發現人類反應呈現梯度化與多樣性,揭示了數據集中推論的概率判斷特徵。通過將這些判斷與八個前沿推理型大語言模型的回應對比,我們發現模型始終無法生成類人的概率分佈。最後,通過分析大語言模型的推理鏈,我們發現其評估此類推論時存在共性思維模式。本研究揭示了人類與大語言模型之間持續存在的差異,強調了在非確定性情境中評估推理能力的必要性。
代理型语言模型在安全机制上与聊天模型存在根本差异:它们需进行规划、调用工具并执行长程动作,其中任何一步失误(如访问文件或输入凭证)都可能导致不可逆的损害。现有对齐方法主要针对静态生成和任务完成进行优化,由于序列决策、对抗性工具反馈及过度自信的中间推理,在这些场景中往往失效。我们提出MOSAIC后训练框架,通过将安全决策显式化与可学习化,实现代理在多步骤工具使用中的安全对齐。该框架将推理结构化为“规划-检查-执行/拒绝”的循环流程,将显式安全推理和拒绝作为首要行动。为摆脱轨迹级标签依赖,我们采用基于偏好的强化学习与轨迹对比方法,捕捉标量奖励常忽略的安全差异。我们在Qwen2.5-7B、Qwen3-4B-Thinking和Phi-4三大模型家族上开展零样本评估,测试范围涵盖有害任务、提示注入、良性工具使用及跨域隐私泄露等分布外基准。MOSAIC将有害行为降低达50%,在注入攻击场景下有害任务拒绝率提升超20%,有效遏制隐私泄露,同时保持或提升良性任务性能,展现出跨模型、跨领域及代理场景的强健泛化能力。
从单目视频中估计每个像素的三维轨迹,对于全面理解视频的三维动态至关重要且前景广阔。近期单目三维跟踪研究展现了令人瞩目的性能,但仅限于跟踪首帧的稀疏点或采用缓慢的基于优化的稠密跟踪框架。本文提出一种前馈模型Track4World,能够以世界坐标系实现高效的全像素三维整体跟踪。该模型基于VGGT风格视觉Transformer编码的全局三维场景表示,采用新颖的三维关联机制,可同步估计任意帧对间的像素级二维与三维稠密流。估算出的场景流与重建的三维几何结构相结合,支持对该视频所有像素进行后续高效三维跟踪。在多基准测试上的广泛实验表明,我们的方法在二维/三维流估计和三维跟踪任务中持续超越现有方法,凸显了其在真实世界四维重建任务中的鲁棒性与可扩展性。
我們將大型語言模型(LLM)最終的softmax分類器重新解讀為能量基模型(EBM),在推理過程中把序列到序列的機率鏈分解為多個相互作用的EBM。這種基於原理的方法使我們能夠追蹤解碼過程中的"能量溢出",並通過實驗證明其與事實錯誤、偏見及故障存在相關性。與Orgad等人(2025)的研究類似,我們的方法能定位具體答案標記並檢測幻覺現象。但關鍵區別在於,我們無需訓練探測分類器或進行激活值消融即可實現此目標。我們引入了兩種完全無需訓練的指標,直接從輸出邏輯值推導:捕獲連續生成步驟間理論上應匹配的能量值差異的"溢出能量",以及可在單一步驟測量的"邊際化能量"。在九個基準測試(涵蓋LLaMA、Mistral、Gemma等頂尖LLM)和代數運算合成數據(Qwen3)上的評估表明,我們的方法在幻覺檢測和跨任務泛化方面表現出強健的競爭力。值得注意的是,這些結果同時適用於預訓練模型和指令微調模型,且不產生任何訓練開銷。代碼發佈於:github.com/OmnAI-Lab/spilled-energy
通过后训练增强大型语言模型(LLM)的推理能力常受效率与灾难性遗忘之间的权衡制约。尽管现有研究强调在策略数据对缓解遗忘的作用,我们首次从理论与实证层面揭示并验证了一个被忽视的关键机制:直接偏好优化(DPO)奖励估计中固有的隐式正则化效应。基于此,我们提出外科手术式后训练(SPoT)新范式,在高效优化推理能力的同时保留既有知识。SPoT包含两大核心组件:(1)数据校正流程:通过"先知"模块对错误推理步骤进行最小化编辑的外科手术式修正,生成贴近模型分布的数据;(2)基于奖励的二元交叉熵目标:不同于DPO的相对排序机制,该目标将推理正确性视为二元分类问题,实施解耦的监督信号。实证表明,仅使用4k组校正后的数学数据对,SPoT即可在8×H800 GPU上以28分钟训练时长,将Qwen3-8B模型在领域内与分布外任务中的平均准确率提升6.2%。代码地址:https://github.com/Visual-AI/SPoT
文本到图像模型在真实感和可控性方面发展迅速,近期方法通过利用长篇幅的细节描述文本来支持细粒度生成。然而,参数化鸿沟依然存在:现有模型依赖描述性语言,而专业工作流程需要对物体位置、尺寸和颜色进行精确的数值控制。本研究提出BBQ模型——一种基于统一结构化文本框架的大型文本到图像模型,可直接通过数值化边界框和RGB三原色进行条件生成。我们通过训练带有参数化标注的增强描述文本,在不改变模型架构或进行推理时优化的前提下,实现了精确的空间与色彩控制。该方法还支持直观的用户界面(如物体拖拽功能和颜色选择器),用精准且符合用户习惯的控件取代了模糊的迭代式提示词输入。综合评估表明,BBQ在边界框对齐方面表现优异,并在RGB色彩保真度上超越了现有先进基线模型。更广泛而言,我们的研究成果印证了一种新范式:将用户意图转化为中间结构化语言,由充当渲染器的流式Transformer进行解析,从而自然兼容数值化参数控制。
现实世界中用户对LLM智能体的请求往往存在信息不完整的问题。智能体必须通过交互获取缺失信息以做出正确的下游决策。然而当前基于多轮GRPO的方法通常依赖轨迹级奖励计算,这会导致信用分配问题且在 rollout 组内优势信号不足。一种可行方案是以细粒度识别有价值的交互轮次,从而驱动更具针对性的学习。为此,我们提出信息驱动策略优化(InfoPO),将多轮交互构建为主动不确定性降低的过程,通过计算信息增益奖励来量化那些能显著改变智能体后续行动分布的反馈轮次(相较于掩码反馈的反事实基准)。该机制通过自适应方差门控融合将此信号与任务结果相结合,在保持任务导向的同时识别信息重要性。在意图澄清、协同编程和工具增强决策等多样化任务中,InfoPO均持续优于提示学习与多轮强化学习基线方法。该模型还展现出用户模拟器偏移下的鲁棒性,并能有效泛化至环境交互任务。总体而言,InfoPO为优化复杂人机协作提供了原则性可扩展机制。代码已开源:https://github.com/kfq20/InfoPO。
当前视频编辑模型虽已取得显著成果,但多数仍依赖大规模配对数据集。然而大规模采集自然对齐的视频配对数据极具挑战性,尤其对于局部视频编辑数据而言,这已成为关键瓶颈。现有解决方案通过全局运动控制将图像编辑技术迁移至视频领域,实现无配对数据编辑,但此类设计难以保持背景与时间一致性。本文提出NOVA框架:稀疏控制与稠密合成,一种面向非配对视频编辑的新方法。具体而言,稀疏分支通过用户编辑的视频关键帧提供语义指导,稠密分支则持续融合原始视频的运动与纹理信息以维持高保真度与连贯性。此外,我们引入退化模拟训练策略,通过人工退化视频训练使模型学习运动重建与时间一致性,从而摆脱对配对数据的依赖。大量实验表明,NOVA在编辑保真度、运动保持和时间连贯性方面均优于现有方法。
视觉-语言-动作(VLA)模型是实现具身智能的重要路径,但现有模型往往忽略视觉动态背后的预测性与时序因果结构。世界模型类VLA通过预测未来帧来解决这一问题,但会浪费容量重构冗余背景。潜在动作类VLA能紧凑编码帧间转换,却缺乏时序连续的动态建模与世界知识。为突破这些局限,我们提出CoWVLA(世界链VLA),这是一种融合世界模型时序推理与解耦潜在运动表征的"世界链"新范式。首先,采用预训练视频VAE作为潜在运动提取器,将视频片段显式解耦为结构与运动潜变量;接着在预训练阶段,VLA根据指令与初始帧推断连续潜在运动链并预测片段终止帧;最后在协同微调阶段,通过统一自回归解码器联合建模稀疏关键帧与动作序列,实现潜在动态与离散动作预测的对齐。该设计既保留了世界模型的时序推理与世界知识优势,又兼具潜在动作的紧凑性与可解释性,实现了高效视觉运动学习。在机器人仿真基准上的大量实验表明,CoWVLA超越现有世界模型与潜在动作方法,并展现出可观的计算效率,凸显其作为更有效VLA预训练范式的潜力。项目网站详见https://fx-hit.github.io/cowvla-io。
大型语言模型从探索性工具转变为社会科学研究中主动的"硅基主体"的过程,尚缺乏操作有效性的广泛验证。本研究提出条件化评论预测任务,通过比较模型生成内容与真实数字痕迹,评估模型对给定刺激下用户评论行为的预测能力。该框架为当前LLM模拟社交媒体用户行为的能力提供了严谨的评估方法。我们在英语、德语和卢森堡语场景下评估了开源8B模型,通过系统比较提示策略与监督微调的影响,发现低资源环境中存在形式与内容的脱钩现象:虽然SFT能调整文本输出的表层结构,却会削弱语义基础。研究还表明,在微调条件下显式条件设置会变得冗余,因为模型能直接从行为历史中进行潜在推理。这些发现对当前"朴素提示"范式提出挑战,为高保真模拟提供了优先采用真实行为痕迹而非描述性人格的操作指南。
在多模态学习领域,如何将视觉表征学习与文本到图像生成统一于单一模型仍是核心挑战。我们提出DREAM框架,通过联合优化判别式与生成式目标实现统一建模,同时学习强视觉表征。该框架基于两项关键技术:训练阶段采用"掩码预热"策略,通过渐进式掩码调度机制,初期低掩码率建立表征学习所需的对比对齐,后期过渡至全掩码以稳定生成训练;推理阶段运用"语义对齐解码",将部分掩码的候选图像与目标文本对齐并优选最佳样本进行解码,在无外部重排器情况下提升图文保真度6.3%。仅使用CC12M数据训练,DREAM在ImageNet线性探测准确率达72.7%(较CLIP提升1.1%),FID指标为4.25(较FLUID优化6.2%),并在小样本分类、语义分割及深度估计任务中持续领先。结果表明判别式与生成式目标具有协同效应,可构建兼具视觉理解与生成能力的统一多模态模型。
基於大型語言模型的自動化科學發現正在重塑從構思到實驗的完整研究週期,然而現有智能體仍難以自主處理科學實驗收集的原始數據。我們推出以數據為核心的端到端系統SciDER,實現研究週期的全流程自動化。有別於傳統框架,本系統通過專業化智能體協作解析分析原始科學數據,基於特定數據特徵生成假說與實驗設計,並撰寫執行對應代碼。在三個基準測試中的評估表明,SciDER憑藉其自我進化的記憶模塊與評判主導的反饋迴路,在專業化數據驅動的科學發現任務中表現卓越,其性能超越通用型智能體與現有最先進模型。該系統以模塊化Python套件形式分發,我們同時提供帶輕量級網頁界面的易用PyPI軟體包,旨在加速自主數據驅動的科研進程,讓所有研究人員與開發者都能無門檻使用。
无分类器引导(CFG)已成为提升基于流的扩散模型语义对齐效果的核心方法。本文提出统一框架CFG-Ctrl,将CFG重新诠释为对一阶连续时间生成流的控制,利用条件-无条件差异作为误差信号来调整速度场。基于此视角,我们将原始CFG归纳为固定增益的比例控制器(P控制),而典型后续变体则衍生出扩展的控制律设计。然而现有方法主要依赖线性控制,固有地导致不稳定、超调及语义保真度下降等问题,在大引导尺度下尤为明显。为此,我们提出滑模控制CFG(SMC-CFG),通过强制生成流向快速收敛的滑模流形逼近来解决上述问题。具体而言,我们基于语义预测误差定义指数型滑模面,并引入切换控制项以建立非线性反馈引导校正。此外,我们提供李雅普诺夫稳定性分析,从理论上支持有限时间收敛性。在Stable Diffusion 3.5、Flux和Qwen-Image等文生图模型上的实验表明,SMC-CFG在语义对齐方面优于标准CFG,并在宽泛的引导尺度范围内增强鲁棒性。项目页面:https://hanyang-21.github.io/CFG-Ctrl
随着大语言模型(LLM)在基础评测集上趋近性能饱和,研究前沿已从生成能力转向自动化评估的可靠性。我们发现,当标准"LLM即评委"协议应用于高年级本科至研究生低年级数学领域时,会出现系统性对齐差距。为量化这一现象,我们推出QEDBench——首个大规模双标尺对齐基准,通过对比课程特定评分标准与专家常识性准则,系统化衡量大学数学证明任务中模型与人类专家的对齐程度。通过部署双评估矩阵(7种评委模型×5种求解模型)并对标1,000余小时的人工评估,我们揭示某些前沿评估模型(如Claude Opus 4.5、DeepSeek-V3、Qwen 2.5 Max和Llama 4 Maverick)存在显著正向偏差(平均分数膨胀率分别达+0.18、+0.20、+0.30、+0.36)。更重要的是,我们发现了离散数学领域的核心推理缺陷:虽然Gemini 3.0 Pro达到顶尖水平(人类评估均分0.91),但其他推理模型(如GPT-5 Pro和Claude Sonnet 4.5)在离散领域表现显著下滑,其在离散数学的人类评估均分分别降至0.72和0.63,在图论中更是跌至0.74和0.50。除研究成果外,我们同步开放QEDBench作为公共基准,用于评估和改进AI评委系统。本基准已发布于https://github.com/qqliu/Yale-QEDBench。
基於大型語言模型(LLM)的多智能體系統(MAS)通過預定義的交互拓撲協調專業化智能體,在競賽級代碼生成等複雜任務中展現出巨大潛力。近期研究表明,精心設計的多智能體工作流與通信圖能通過協作推理顯著提升代碼生成性能。然而,現有方法既未根據任務難度自適應調整拓撲密度,也未利用執行反饋在實例內迭代優化拓撲結構,導致通信冗餘和性能瓶頸。為解決這些問題,我們提出AgentConductor:一個以基於LLM的編排智能體為核心的強化學習優化MAS,可實現端到端反饋驅動的動態交互拓撲生成。針對每個查詢,AgentConductor通過兩項核心創新推斷智能體角色與任務難度,進而構建任務自適應的密度感知分層有向無環圖(DAG)拓撲:首先設計了新型拓撲密度函數,從數學表徵層面刻畫多智能體交互的通信特性;其次採用難度區間劃分策略,避免過度剪枝以實現精確的拓撲密度上界測量與更細粒度的控制。在三個競賽級和兩個基礎代碼數據集上的實驗表明,AgentConductor在準確率上達到最優水平,相較最強基線模型在pass@1準確率上最高提升14.6%,拓撲密度降低13%,令牌成本減少68%。
大型语言模型展现出复杂精妙的能力,但理解其内部运作机制仍是核心挑战。根本性难题在于:训练过程筛选的是行为表现而非电路结构,因此众多权重配置均可实现同一功能。哪些内部结构反映计算本质,哪些又只是特定训练过程中的偶然产物?本研究提出算法核心的概念——即紧凑且对任务性能必要而充分的子空间。独立训练的Transformer模型虽学习到不同权重,却收敛至相同的算法核心。马尔可夫链Transformer模型将三维核心嵌入近乎正交的子空间,却能复现相同的转移谱;模数加法Transformer在顿悟期发现紧凑循环算子,后期发生膨胀,由此建立了记忆到泛化转变的预测模型。GPT-2语言模型通过单一轴线控制主谓一致关系,当该轴线数值翻转时,会在不同规模下全面逆转生成文本的语法数。这些研究结果揭示了跨越训练过程和模型规模的低维不变量,表明Transformer的计算是围绕紧凑共享的算法结构组织的。针对此类计算本质(而非具体实现细节)的不变量进行研究,或将推动机械可解释性领域的发展。
从串行计算到并行计算的转型对现代高性能应用至关重要,但并发编程的陡峭学习曲线阻碍了这一进程。这一挑战在非规则数据结构(如稀疏图、不平衡树和非均匀网格)中尤为突出——静态调度在此类场景下失效,数据依赖关系也难以预测。当前的大语言模型在处理这类任务时往往表现不佳,生成的代码常存在隐蔽的竞态条件、死锁及次优扩展性问题。 我们提出的ParEVO框架填补了这一空白,该框架专为合成非规则数据的高性能并行算法而设计。我们的贡献包括:(1)Parlay-Instruct语料库:通过"批判-优化"流程合成的13,820项任务数据集,明确筛选出能有效利用工作-跨度并行原语且经验证高效的算法;(2)专精优化的DeepSeek、Qwen和Gemini模型:通过微调使概率生成与ParlayLib库的严谨语义对齐;(3)进化编码代理:利用编译器、动态竞态检测器和性能分析器的反馈迭代修复代码,提升"最后一公里"的正确性。 在ParEval基准测试中,ParEVO实现了平均106倍(最高1103倍)的整体加速比,在复杂非规则图问题上更获得稳健的13.6倍加速,显著优于当前最先进的商业模型。此外,我们的进化方法在特定高度非规则内核上实现了最高4.1倍的加速,与顶尖人类专家基线持平。源代码与数据集详见https://github.com/WildAlg/ParEVO。
具備可驗證獎勵的強化學習(RLVR)在改進自迴歸模型方面取得了顯著成功,特別是在需要正確性的領域(如數學推理和代碼生成)。然而,將此類範式直接應用於擴散大型語言模型(dLLMs)存在根本性障礙,因為精確似然計算的不可行性迫使現有方法依賴高方差近似。為彌合這一差距,我們提出無似然策略優化(LFPO),這是一個將向量場流匹配概念映射到離散標記空間的原生框架。具體而言,LFPO將對齊問題表述為幾何速度校正,通過對比更新直接優化去噪邏輯值。此設計有效繞過似然近似固有的誤差,實現精確的梯度估計。此外,LFPO通過從中間步驟預測最終解來強化一致性,有效拉直概率流路徑,從而能以顯著更少的迭代次數實現高質量生成。大量實驗表明,LFPO不僅在代碼和推理基準測試中超越現有最先進基線模型,更通過減少擴散步驟將推理速度提升約20%。
混合专家(MoE)架构已成为在保持计算效率的同时扩展神经网络规模的重要范式。然而,标准MoE实现依赖两个刚性设计假设:(1)采用固定Top-K路由机制,每个令牌始终激活K个专家;(2)所有网络层采用均匀的专家分配策略。本文提出DynaMoE新型框架,通过动态令牌级专家激活与分层自适应容量分配,突破了这两项约束。该框架引入基于输入复杂度动态调整每个令牌激活专家数量的原理性路由机制,同时实施六种差异化调度策略(包括递减式、递增式、金字塔式与波浪式)在网络深度维度分配专家容量。我们理论分析了动态路由的表达能力增益,并推导出计算效率的边界。通过在MNIST、Fashion-MNIST、CIFAR-10(图像分类)和Recycling-the-Web(语言建模)数据集上开展多规模模型实验,证明DynaMoE相较静态基线具有更优的参数效率。关键发现表明:最优专家调度策略具有任务与规模依赖性——图像分类任务中递减调度(将容量集中于浅层)优于均匀基线;语言建模任务的最优策略随模型规模变化,Tiny模型适用递减式,Small模型适合递增式,Medium模型则需均匀分配。动态路由机制还能降低训练过程中的梯度方差,提升收敛稳定性。DynaMoE为神经网络自适应计算建立了新框架,为MoE架构设计提供了原理性指导。
科學發現必須通過清晰傳播才能充分實現其潛在價值。若缺乏有效溝通,即便是最具突破性的研究成果也可能面臨被忽視或誤解的風險。目前科學家主要通過同行評審機制來交流研究成果並獲取學界反饋,但現行體系常因評審意見存在分歧,反而阻礙論文的完善進程並限制其潛在影響力。本文提出一種基於大語言模型的新型方法APRES,可根據評估標準自動優化學術論文文本。該自動化方法能挖掘出對未來引用量具有高預測效度的評估體系,並將其與APRES整合為自動修訂系統,以提升論文質量與影響力。關鍵在於,這一優化過程需在不改變核心科學內容的前提下實現。實驗結果表明:APRES將未來引用量的平均絕對誤差預測精度較次優基準提升19.6%;經修訂的論文在人類專家評審中獲得79%的偏好率。本研究為將大語言模型作為作者投稿前的論證壓力測試工具提供了實證支持。我們的最終目標是增強而非取代人類專家的核心評審作用——畢竟唯有人類才能甄別真正重要的科學發現,引導科學朝著增進知識、豐富生活的方向邁進。
機器遺忘技術旨在使模型能夠遺忘特定數據,對於保障數據隱私和模型可靠性至關重要。然而在現實場景中,模型可能從數據的虛假相關性中習得非預期偏差,這會嚴重削弱遺忘效能。本文深入探討了從此類帶偏見模型中實施遺忘的獨特挑戰。我們發現了一種稱為「捷徑遺忘」的新現象:模型呈現出「易學難忘」的特性。具體而言,模型難以遺忘易於學習且符合偏差特徵的樣本;它們非但不會遺忘類別屬性,反而會消除偏差屬性,這種悖論性現象甚至可能提升本應被遺忘類別的準確率。為解決此問題,我們提出CUPID框架,其靈感來源於不同偏差特徵的樣本在損失景觀銳度上呈現的差異性。該方法首先根據樣本銳度將待遺忘集劃分為因果近似子集和偏差近似子集,接著將模型參數解耦至因果路徑與偏差路徑,最後通過將精煉後的因果梯度與偏差梯度分別導入對應路徑來實現定向更新。在Waterbirds、BAR和Biased NICO++等帶偏見數據集上的大量實驗表明,我們的方法能實現最優的遺忘性能,並有效緩解捷徑遺忘問題。
空间可变动态卷积为将空间自适应性融入深度神经网络提供了原理性方法。然而医学分割领域的主流设计通常通过平均池化生成动态卷积核,这种做法会隐式地将高频空间细节压缩为粗糙的空间紧凑表示,导致预测结果过度平滑,从而降低细粒度临床结构的分割保真度。为解决这一局限,我们提出了一种新颖的结构引导动态卷积(SGDC)机制,该机制通过显式监督的结构提取分支来引导动态卷积核和门控信号的生成,实现结构感知的特征调制。具体而言,该辅助分支提取的高保真边界信息将与语义特征融合,以实现空间精确的特征调制。通过用像素级结构引导替代上下文聚合,所提设计有效避免了平均池化引起的信息损失。实验结果表明,SGDC在ISIC 2016、PH2、ISIC 2018和CoNIC数据集上实现了最先进性能:通过将豪斯多夫距离(HD95)降低2.05个点显著提升边界保真度,并在基于池化的基线模型上获得0.99%-1.49%的稳定交并比提升。此外,该机制展现出扩展至其他细粒度、结构敏感视觉任务(如小目标检测)的强大潜力,为医学图像分析中的结构完整性保持提供了原理性解决方案。为促进可复现性并推动后续研究,我们的SGE和SGDC模块实现代码已公开于https://github.com/solstice0621/SGDC。
尽管当前文本到图像生成模型具备卓越能力,但仍易产生不安全及有害内容。虽然激活导向技术为推理阶段干预提供了可行方案,但我们发现线性激活导向在应用于良性提示词时往往会降低图像质量。为解决这一权衡问题,我们首先构建了SafeSteerDataset——一个包含2300组高余弦相似度的安全/不安全提示词对的对比数据集。基于此数据,我们提出条件激活迁移框架,该框架采用基于几何学的条件机制与非线性迁移映射。通过将迁移映射限定在有害激活区域内生效,我们最大限度地减少对良性查询的干扰。我们在Z-Image和Infinity两种前沿架构上验证了该方法。实验表明,CAT能有效适配不同骨干网络,在保持未导向生成图像保真度的同时显著降低攻击成功率。警告:本文包含可能引发不适的文本与图像内容。
近年來大型語言模型(LLM)的突破顯著提升了聊天機器人的能力。然而現有系統多專注於單用戶場景,難以適應多人群組聊天的複雜需求——在動態演變的對話情境中,智能體需具備更主動且精準的介入能力。傳統方法通常依賴單一LLM同時進行推理與生成,導致令牌消耗量大、可擴展性受限,並存在潛在隱私風險。為解決這些挑戰,我們提出GroupGPT:一種面向多用戶聊天場景的令牌高效型隱私保護智能體框架。該框架採用「小模型-大模型」協作架構,將介入時機判斷與回應生成解耦,實現高效精準的決策機制,同時支持表情包、圖像、視頻及語音訊息等多模態輸入。我們進一步構建MUIR基準數據集,包含2,500段帶有介入標籤與推理依據的標注群聊片段,用於評估介入時機準確性與回應質量。在MUIR上對從大型語言模型到輕量模型的對比實驗表明,GroupGPT能產生時機恰當的精準回應,在LLM評估中獲得4.72/5.0的平均分,並在多元群組場景中獲得用戶積極反饋。相較基準方法,GroupGPT可降低最高3倍的令牌消耗,且在雲端傳輸前對用戶訊息進行隱私過濾。項目代碼已開源於:https://github.com/Eliot-Shen/GroupGPT。
我们推出Whisper-RIR-Mega基准数据集,该数据集包含成对的纯净与混响语音,用于评估自动语音识别(ASR)系统对房间声学的鲁棒性。每个样本将纯净的LibriSpeech语音片段与经过RIR-Mega语料库中真实房间冲激响应卷积处理的同语句进行配对,并按照混响时间(RT60)和直达混响比(DRR)进行分层划分。我们在1600个测试样本上评估了五种Whisper模型(从tiny到large-v3),并报告了纯净与混响条件下的词错误率(WER)和字错误率(CER)。实验表明混响会持续降低所有规模模型的性能,其导致的WER惩罚值根据模型不同在0.12至1.07个百分点之间浮动。我们公开该数据集、评估代码及基线结果,以支持鲁棒ASR的可复现研究。
微妙且间接的仇恨言论仍是网络安全研究中尚未充分探索的挑战,尤其当恶意意图潜藏于误导性或操纵性叙事之中时。现有仇恨言论数据集主要捕捉显性毒性内容,未能充分体现错误信息煽动或常态化仇恨的微妙方式。为填补这一空白,我们推出HateMirage——一个由虚假仇恨评论构成的新型数据集,旨在推进针对虚假或扭曲叙事所引发仇恨的推理与可解释性研究。该数据集通过核查事实来源机构已广泛辟谣的错误主张,并追踪相关YouTube讨论构建而成,最终收录4,530条用户评论。每条评论均沿三个可解释维度进行标注:目标(受影响群体)、意图(评论背后的潜在动机或目的)及影响(潜在社会后果)。与HateXplain和HARE等仅提供词元级或单维度推理的现有可解释数据集不同,HateMirage引入了多维解释框架,能捕捉错误信息、危害与社会后果之间的相互作用。我们使用ROUGE-L F1和Sentence-BERT相似度对多个开源语言模型进行基准测试,评估解释连贯性。结果表明解释质量可能更依赖于预训练数据的多样性及面向推理的数据构建,而非仅取决于模型规模。通过将错误信息推理与危害归因相结合,HateMirage为可解释仇恨检测与负责任AI研究设立了新基准。
針對多輪互動的測試時策略適應(T2PAM)對於在推理階段使大型語言模型(LLM)與動態使用者需求保持一致至關重要。然而現有範式普遍將測試時適應視為單軸問題,要麼純粹優化指令(提示工程),要麼僅調整權重(測試時訓練),忽略了互動失敗實則源於模糊性與能力不足的耦合作用。我們主張這兩條優化路徑並非簡單疊加而是相輔相成:語義清晰度扮演著有效參數更新的前置調節器。為此,我們提出ROSA2框架,將互動重新定義為在「詞語」與「權重」異構空間上的聯合優化問題。通過數學分解誤差信號,ROSA2利用文本梯度校正意圖模糊性,並通過參數更新彌補能力缺口。理論上我們證明這種協同適應能嚴格收斂所需的參數偏移量。實證中ROSA2在MATH數據集上以30%優勢超越現有頂尖基準,同時將互動輪次減少40%,證實上下文優化能真正釋放參數更新的潛能。
视频大语言模型(VLLMs)虽展现出强大的视频理解能力,却因冗余视觉标记存在效率低下的问题。现有剪枝方法主要针对帧内空间冗余或在LLM浅层进行内部剪枝,导致时空维度缩减欠佳,且未能充分利用长上下文压缩潜力。这些方法往往在合并或剪枝过程中丢弃了细微但富含信息的上下文。本文提出新视角,通过局部-全局最优传输(AOT)在帧内与帧间精细构建标记锚点,以全面聚合信息上下文。具体而言,我们首先在注意力机制引导下建立每帧内局部与全局感知的标记锚点,再通过最优传输从被剪枝标记中聚合信息上下文,构建帧内标记锚点。接着基于时序视频片段,将每个片段首帧设为关键帧锚点,通过最优传输聚合连续帧中的相似信息,同时保留差异化标记以表征时序动态,从而实现无需训练的高效标记缩减。大量实验表明,我们提出的AOT方法在主流视频LLMs的各类长短视频基准测试中均取得优异性能,在保持时序与视觉保真度的同时显著提升计算效率。项目页面:https://tyroneli.github.io/AOT{AOT}。
本文提出了一种基于翻转图法的开源C++框架,用于探索快速矩阵乘法方案。该框架支持多种系数环——二元环(Z_2)、模三环(Z_3)和整数三元环(Z_T = {-1,0,1}),并实现了固定维度和元维度两种搜索算子。通过采用高效的系数向量比特级编码和OpenMP并行技术,该工具可在商用硬件上实现大规模探索。研究覆盖了从(2×2×2)到(16×16×16)的680种方案,其中276个方案采用Z_T系数,117个采用整数系数。借助该框架,79个矩阵乘法方案的乘法复杂度(秩)得到改进。特别值得一提的是,新发现的4×4×10方案仅需115次乘法运算,实现ω≈2.80478,在该特定维度上超越了Strassen指数。此外,在 ternary 系数下重新发现了93个先前仅存在于有理数或整数域的方案,并在整数系数下重现了68个原本需要分数运算的方案。所有工具及发现的方案均已公开,以确保研究的可复现性。
多領域圖預訓練通過整合來自不同領域的知識來提升目標領域的性能,這對於構建圖基礎模型至關重要。儘管已取得初步成功,但現有解決方案往往難以回答一個根本性問題:知識是如何跨領域整合或遷移的?這一理論侷限性促使我們重新思考模型預訓練與領域適應之間的一致性和可遷移性。本文提出了一種全新的黎曼幾何視角,其核心思想是將任意圖數據集合併到統一、光滑的黎曼流形中,從而實現對知識整合與遷移的系統性理解。為實現這一目標,我們的關鍵貢獻是理論上建立了神經流形粘合技術——首先通過自適應正交標架表徵局部幾何特徵,再將局部片段「粘合」成連貫的整體。基於該理論,我們提出了GraphGlue框架,該框架支持帶有指數移動平均原型生成的批量預訓練,並提供基於幾何一致性的可遷移性度量。大量實驗表明該框架在多樣化圖領域中均表現出卓越性能。此外,我們通過實證驗證了GraphGlue的幾何尺度定律,證明更大規模的數據集能通過生成更光滑的流形來提升模型可遷移性。代碼已開源於https://github.com/RiemannGraph/GraphGlue。
射线追踪技术虽已成为精确无线电波传播建模的标准方法,但其计算复杂度呈指数级增长——候选路径数量随物体数量呈相互作用阶数的幂次增长。这一瓶颈限制了其在大规模或实时场景中的应用,迫使传统工具依赖启发式方法来减少候选路径数量,但可能牺牲精度。为突破此局限,我们提出一个综合性机器学习辅助框架,通过生成流网络以智能采样替代穷举式路径搜索。将此类生成模型应用于该领域面临重大挑战,尤其是有效路径稀缺导致的奖励稀疏问题,在复杂环境中评估高阶相互作用时易引发收敛失败和平凡解。为确保稳健学习与高效探索,本框架包含三大核心架构组件:首先采用经验回放缓冲区捕获并保留稀有有效路径;其次采用均匀探索策略以提升泛化能力,防止模型对简单几何结构过拟合;第三应用基于物理规则的动作掩码策略,在模型评估前过滤物理不可行路径。实验验证表明,所提模型在GPU上较穷举搜索加速高达10倍,CPU上加速达1000倍,同时保持高覆盖精度并能成功发现复杂传播路径。完整源代码、测试案例及教程详见https://github.com/jeertmans/sampling-paths。