每日精選AI研究論文及翻譯
基於可驗證獎勵的強化學習(RLVR)通常依賴群組抽樣來估計優勢函數並穩定策略更新。實際應用中,由於計算資源限制,大規模群組並不可行,這會使學習過程偏向已具高概率的軌跡。較小的群組則往往遺漏罕見的正確軌跡,同時仍包含混合獎勵信號,導致概率質量集中於常見解。我們推導出更新過程遺漏罕見正確模式的概率與群組大小的函數關係,揭示其非單調性特徵,並刻畫更新如何在正確集合內重新分配概率質量,發現未抽樣正確軌跡的質量可能隨總正確質量增長而收縮。基於此分析,我們受焦點損失啟發提出難度感知的優勢縮放係數,該係數能對高成功率提示的更新進行降權處理。這種輕量級改進可直接整合至任何群組相對RLVR算法(如GRPO、DAPO、CISPO)。在Qwen2.5-7B模型上的領域內外基準測試表明,我們的方法將pass@256從64.1提升至70.3(GRPO)、69.3提升至72.5(DAPO)、73.2提升至76.8(CISPO),同時保持或提升pass@1指標,且無需增加群組規模或計算成本。
稀疏自編碼器(SAE)是詮釋神經表徵的強大工具,但其在音頻領域的應用仍待探索。我們在Whisper和HuBERT的所有編碼器層上訓練SAE,對其穩定性與可解釋性進行全面評估,並展示其實用價值。超過50%的特徵在不同隨機種子下保持一致性,且重建品質得以維持。SAE特徵不僅能捕捉一般聲學與語義資訊,還能識別特定事件(如環境噪音和副語言聲音:笑聲、耳語等),並有效解耦這些特徵——僅需移除19-27%的特徵即可消除特定概念。透過特徵引導技術,Whisper的虛假語音檢測錯誤率降低70%,且字錯誤率(WER)僅有可忽略的增長,展現其實際應用潛力。最後,我們發現SAE特徵與人類在語音感知過程中的腦電圖(EEG)活動存在相關性,暗示其與人類神經處理機制具有對應關係。程式碼與訓練節點已公開於:https://github.com/audiosae/audiosae_demo。
我們推出Baichuan-M3——一款醫療增強型大語言模型,旨在將被動問答模式轉變為主動的臨床級決策支持系統。針對現有系統在開放式諮詢中的局限性,Baichuan-M3通過專業化訓練流程模擬醫師的系統性工作流。核心能力包括:(一)主動信息獲取以消除歧義;(二)長視距推理能力,能將零散證據整合為連貫診斷;(三)自適應幻覺抑制機制確保事實可靠性。實證評估顯示,Baichuan-M3在最新推出的HealthBench、HealthBench-Hallu及ScanBench基準測試中取得最優異成果,在臨床問診、健康諮詢與安全性方面顯著超越GPT-5.2。模型已公開於https://huggingface.co/collections/baichuan-inc/baichuan-m3。
大型語言模型(LLM)的快速發展推動了能夠在複雜環境中自主導航的智能代理技術。然而,現有評估方法主要採用演繹範式:代理通常在有限的規劃視野內,基於明確給定的規則與靜態目標執行任務。這種模式關鍵性地忽略了代理從經驗中自主歸納潛在轉換規律的能力——此能力正是實現代理前瞻性與維持策略連貫性的基石。為彌合這一差距,我們提出OdysseyArena框架,將代理評估重心重新定位於長時程、主動性與歸納性交互。我們通過形式化定義並實例化四種核心要素,將抽象的狀態轉換動態轉化為具體可交互的環境。基於此,我們建立OdysseyArena-Lite標準化基準測試平台,提供120項任務以量化代理的歸納效率與長時程規律發現能力。進一步地,我們推出OdysseyArena-Challenge,用於壓力測試代理在極端交互跨度(如超過200步)下的穩定性。對15餘種前沿LLM的大規模實驗表明,即使最先進的模型在歸納場景中仍存在明顯缺陷,這揭示了複雜環境下實現自主發現能力的關鍵瓶頸。相關代碼與數據已開源於:https://github.com/xufangzhi/Odyssey-Arena
熵作為衡量大型語言模型(LLM)輸出多樣性的關鍵指標,為理解其探索能力提供了重要視角。儘管近期研究日益關注在強化微調(RFT)過程中監控與調整熵值以平衡探索與利用,但對該過程中熵動態的系統性理解仍有待深入探討。本文建立了一個理論框架來分析RFT過程中的熵動態,首先提出了一個用於量化單次邏輯更新下熵變化的判別式。基於此推導出熵變化的一階表達式,並進一步延伸至群組相對策略優化(GRPO)的更新公式。理論分析所推導的推論與洞見不僅啟發了熵控制方法的設計,也為解讀現有研究中各類基於熵的方法提供了統一視角。我們通過實證研究支持主要結論,並驗證所推導的熵判別器截斷方法的有效性。本研究為RFT訓練動態提供了新見解,在理論支持與實踐策略層面為LLM微調過程中優化探索-利用平衡提供了新路徑。
能夠在多元環境中模擬行動結果,將徹底改變規模化通用智能體的開發進程。然而,由於數據覆蓋範圍有限和動作標註稀缺,對這類世界動態進行建模(尤其是靈巧機器人任務)面臨重大挑戰。為此,我們推出 DreamDojo——一個基於 44,000 小時第一視角人類影片學習多樣化互動與精細控制的基礎世界模型。我們的混合數據集涵蓋廣泛的日常場景與多樣化物件技能,是迄今為止用於世界模型預訓練的最大規模影片數據集。為解決動作標註稀缺問題,我們引入連續潛在動作作為統一代理動作,增強未標註影片中的互動知識遷移能力。經過小規模目標機器人數據的後訓練,DreamDojo 展現出對物理規律的深刻理解與精準動作控制能力。我們還設計了蒸餾流水線,將 DreamDojo 加速至 10.81 FPS 的實時推斷速度,並進一步提升上下文一致性。本研究實現了基於生成式世界模型的多項重要應用,包括實時遙操作、策略評估和基於模型的規劃。在多個具挑戰性的分佈外基準測試中的系統性評估,驗證了我們的方法在模擬開放世界、高接觸密度任務方面的顯著優勢,為通用機器人世界模型的發展開闢了新路徑。
本研究提出一套面向科學家與記者的語音轉文字系統「Pisets」,該系統採用三組件架構,旨在提升語音辨識準確度,同時減少Whisper模型常見的錯誤與幻覺問題。此架構包含基於Wav2Vec2的初級辨識、透過音頻譜圖轉換器(AST)的偽陽性過濾,以及最終由Whisper執行的語音辨識。課程學習方法的實施與多樣化俄語語料庫的運用,顯著提升了系統效能。此外,引入先進的不確定性建模技術,進一步優化了轉錄品質。相較於WhisperX與標準Whisper模型,本研究所提方法能於各類聲學條件下,對長音頻資料實現強健的轉錄效果。「Pisets」系統源代碼已公開於GitHub:https://github.com/bond005/pisets。
訓練不穩定性仍是大型語言模型預訓練的關鍵挑戰,常表現為突發的梯度爆炸並浪費大量計算資源。我們透過μP縮放的5M參數NanoGPT模型研究訓練失敗案例,發現崩潰前會出現兩種關鍵現象:(1) 權重矩陣穩定秩(Frobenius範數平方與譜範數平方之比)急遽下降;(2) 相鄰層雅可比矩陣間對齊度持續增強。我們從理論上證明這兩種條件共同導致梯度範數隨網絡深度呈指數增長。為打破此不穩定機制,我們提出MSign優化器,透過週期性應用矩陣符號運算來恢復穩定秩。在5M至3B參數模型上的實驗表明,MSign能以低於7.0%的計算開銷有效預防訓練失敗。
對世界的內部建模——預測在行動Z作用下從先前狀態X到後繼狀態Y的轉變——對大型語言模型和視覺語言模型的推理與規劃至關重要。學習這類模型通常需要耗費大量資源的行動標註軌跡數據。我們提出SWIRL框架,通過將行動視為潛在變量,並交替進行前向世界建模P_θ(Y|X,Z)與逆向動力學建模Q_φ(Z|X,Y),實現僅從狀態序列中學習的自我改進機制。SWIRL迭代執行兩個階段:(1) 變分信息最大化:更新前向世界模型,使其生成能最大化潛在行動與先前狀態條件互信息的後繼狀態,強化可識別一致性;(2) ELBO最大化:更新逆向動力學模型以解釋觀測到的狀態轉變,實質上執行坐標上升法。兩模型均採用強化學習(具體為GRPO算法)進行訓練,以對立凍結模型的對數概率作為獎勵信號。我們為兩階段的更新提供了理論可學習性保證,並在多種環境中評估SWIRL:針對物理、網絡及工具調用的單輪/多輪開放世界視覺動態環境與合成文本環境。SWIRL在AURORABench提升16%,ByteMorph提升28%,WorldPredictionBench提升16%,StableToolBench提升14%。
近期推理模型的進展表明,生成研究級數學問題的合理解答可能已觸手可及,但驗證環節仍是瓶頸,消耗著稀缺的專家資源。我們提出假設:一個有意義的解決方案應包含足夠的方法層級資訊,使其在應用於相關問題族時,能比錯誤方案產生更優異的下游表現。基於此理念,我們提出「基於後效的效用評估法」——一種無需人工標註的評估器,通過檢驗候選方案在解決相關可驗證問題時作為上下文範例的價值來進行評分。我們的方法在自建的研究級數學問題集上進行評估,每道題目均配備一個專家撰寫的解答與九個LLM生成的解答。值得注意的是,基於後效的效用評估法在排序品質上持續優於獎勵模型、生成式獎勵模型及LLM評判器。具體而言,在GPT-OSS-120B模型上,其Acc@1從67.2提升至76.3,AUC從71.4提升至79.6;在GPT-OSS-20B模型上同樣實現AUC大幅增長(從69.0至79.2)。此外,相較於LLM評判器,該方法還展現出更大的求解器-評估器差距,即使在底層求解器經常失敗的實例中,仍能保持更強的正誤區分能力。
长推理模型在多语言场景中常面临挑战:针对非英语问题,模型倾向于使用英语进行推理;若强制要求使用问题语言推理,准确率则会大幅下降。这种困境源于模型在多语言问题理解与多语言推理两方面的能力局限。为同时解决这两个问题,我们提出TRIT(翻译-推理联合训练)框架——一种通过整合翻译训练来实现多语言推理自我提升的方案。在无需外部反馈或额外多语言数据的情况下,本方法能协同增强多语言问题理解与回答生成能力。在MMATH数据集上,我们的方法以平均7个百分点的优势超越多个基线模型,同时提升了答案正确率与语言一致性。进一步分析表明,翻译训练的整合使跨语言问题对齐度提升超过10个百分点,并显著提升数学问题及通用领域文本的翻译质量,在FLORES-200数据集上COMET指标最高提升达8.4分。
視覺語言模型的快速發展催生了圖形用戶界面(GUI)代理的興起,這類代理在自動化複雜任務(從網購到航班預訂)方面展現巨大潛力,從而有效減輕重複性數字工作流程的負擔。作為基礎能力,GUI定位通常被確立為端到端任務執行的先決條件,使模型能精確定位文本、圖標等界面元素,以執行點擊、輸入等精準操作。有別於以往對已具備強空間感知能力模型(如Qwen3-VL)進行微調的研究,我們旨在通過從定位能力最基礎的模型(如POINTS-1.5)起步,掌握完整技術鏈路。我們推出的POINTS-GUI-G-8B模型實現了業界領先性能:在ScreenSpot-Pro得分59.9、OSWorld-G得分66.0、ScreenSpot-v2得分95.7、UI-Vision得分49.9。該模型的成功源於三大關鍵因素:(1)精細化數據工程:統一多源開源數據集格式,並採用數據增強、篩選與難度分級的綜合策略;(2)優化訓練策略:通過對視覺編碼器持續微調提升感知精度,保持訓練與推理階段的解析度一致性;(3)可驗證獎勵的強化學習(RL)。傳統RL主要用於增強推理能力,我們則證實其在感知密集的GUI定位任務中能顯著提升精度。此外,GUI定位為RL提供了天然優勢,因其獎勵機制易於驗證且具備高準確性。
大型语言模型(LLMs)的规模化发展推动了对基于矩阵的优化器(如Shampoo、Muon、SOAP)的关注,因其收敛效率优势显著;然而这类优化器要求整体参数更新的特性,与Megatron等分布式框架中张量碎片化的存储方式存在根本矛盾。现有解决方案均存在局限:同步更新方案会产生计算冗余,而分层分区策略虽能缓解矛盾,却会破坏高效通信原语的几何约束。为弥合这一鸿沟,我们提出Canzona——一个统一、异步且负载均衡的框架,其核心在于将逻辑优化器分配与物理参数分布解耦。针对数据并行场景,我们提出α均衡静态分区策略,在保持参数原子性的同时消除负载不均。针对张量并行场景,我们设计基于微组调度的异步计算流水线,通过批量处理碎片化更新隐藏重构开销。在256张GPU上对Qwen3模型族(最高达320亿参数)的广泛实验表明,我们的方案在保持现有并行架构效率的同时,相比基线实现了端到端迭代时间1.57倍加速,并将优化器步进延迟降低5.8倍。
基于可验证奖励的强化学习(RLVR)已成为增强大语言模型推理能力的关键范式。然而,标准策略优化方法(如分组相对策略优化GRPO)常收敛至低熵策略,导致严重的模式坍塌和输出多样性受限。本文从采样概率动态的视角分析该问题,发现标准目标函数会过度强化最高似然路径,从而抑制有效的替代推理链。为此,我们提出新颖的优势重加权机制(ARM),通过将提示困惑度与答案置信度融入优势估计,动态重塑奖励信号以削弱过度自信推理路径的梯度更新,同时将概率质量重新分配至未被充分探索的正确解。实证结果表明,该方法在保持竞争力的准确率同时显著提升生成多样性和响应熵,有效实现了推理任务中探索与利用的更优平衡。在Qwen2.5和DeepSeek模型上的数学与编程基准测试表明,ProGRPO能显著缓解熵坍塌现象。具体而言,在Qwen2.5-7B模型上,本方法在Pass@1指标上超越GRPO达5.7%,而在Pass@32指标上更显著提升13.9%,凸显其生成多样化正确推理路径的卓越能力。
大型推理模型通过扩展推理时的思维链实现了强劲性能,但这种范式存在二次方成本增长、上下文长度限制以及因中间信息丢失效应导致的推理质量下降等问题。迭代式推理通过定期总结中间思路来缓解这些问题,然而现有方法依赖于监督学习或固定启发式规则,未能优化总结时机、信息保留内容和推理重启策略。我们提出InftyThink+强化学习框架,该框架基于模型控制的迭代边界和显式摘要机制,通过端到端强化学习优化整个迭代推理轨迹。InftyThink+采用监督式冷启动与轨迹级强化学习相结合的两阶段训练方案,使模型能够学习策略性摘要生成和推理续作决策。在DeepSeek-R1-Distill-Qwen-1.5B上的实验表明,InftyThink+在AIME24上的准确率提升21%,显著优于传统长思维链强化学习方法,同时在分布外基准测试中展现出更好的泛化能力。此外,InftyThink+大幅降低推理延迟并加速强化学习训练,在提升推理性能的同时显著提高了推理效率。
当前移动端GUI智能体基准测试系统性地缺失对记忆能力的评估,其中仅包含5.2%-11.8%的记忆相关任务且缺乏跨会话学习评估。我们推出MemGUI-Bench——一个采用pass@k指标和分阶段LLM即评判员评估机制的综合性记忆中心化基准测试。我们的贡献包括:(1) 涵盖5种架构下11个智能体的系统性记忆分类体系;(2) 跨26个应用的128项任务,其中89.8%通过跨时空信息保持机制挑战记忆能力;(3) MemGUI-Eval自动化评估流水线,配备渐进式审查机制和7个层级化指标;(4) 基于研究问题的11个前沿智能体评估。实验结果表明所有被测系统均存在显著记忆缺陷,我们识别出5类典型失效模式并总结出5项可落地的设计启示。所有资源(包括代码、基准测试及评估结果)将通过https://lgy0404.github.io/MemGUI-Bench/ 平台实现完全开源与持续维护。
理解自我中心视频对具身智能至关重要。近期出现的多模态大语言模型(MLLMs)已能同时接收视觉与听觉输入。然而,由于获取具有连贯跨模态信息的文本标注存在挑战,MLLMs能否联合理解自我中心视频中的双模态信息仍待探索。针对此问题,我们提出EgoAVU——一个可自动生成自我中心视听叙事、问题及答案的可扩展数据引擎。该框架通过多模态上下文增强人工叙事,并借助跨模态关联建模生成视听叙事。基于令牌的视频过滤与模块化图结构筛选机制确保了数据多样性与质量。基于EgoAVU,我们构建了包含300万样本的大规模训练数据集EgoAVU-Instruct,以及涵盖多类任务的人工验证评估集EgoAVU-Bench。EgoAVU-Bench清晰揭示了现有MLLMs的局限:它们严重偏向视觉信号,常忽视音频线索或无法将声音与视觉源对应。在EgoAVU-Instruct上微调MLLMs可有效解决此问题,使EgoAVU-Bench上的性能提升最高达113%。这种增益还能迁移至EgoTempo、EgoIllusion等其他基准测试,实现最高28%的相对性能提升。代码将向社区开源。
生成式獎勵模型(GenRMs)與「LLM即評判」機制表現出虛假對齊現象——它們因錯誤的理由產生正確判斷,這是由於其訓練與評估過度側重結果準確性,從而削弱了在RLHF過程中的泛化能力。我們提出「理據一致性」這一細粒度指標,用於量化模型推理過程與人類判斷的對齊程度。對前沿模型的評估表明,理據一致性能有效區分頂尖模型並檢測虛假對齊,而結果準確性在兩方面均存在不足。為彌合此差距,我們引入結合理據一致性與結果準確性的混合信號用於GenRM訓練。我們的訓練方法在RM-Bench(87.1%)和JudgeBench(82%)上達到頂尖性能,較僅基於結果的基線平均提升5%。在RLHF過程中應用該獎勵模型時,我們的方法顯著提升表現(如Arena Hard v2測驗中創意寫作任務提高7%)。進一步分析證實,該方法能逃離虛假對齊陷阱,有效逆轉純結果訓練中觀察到的理據一致性下降趨勢。
专家混合模型(MoE)架构正朝着更精细的粒度演进以提升参数效率。然而,现有MoE设计面临专家 specialization 粒度与硬件执行效率之间的固有权衡。我们提出OmniMoE——一种系统算法协同设计框架,将专家粒度推向逻辑极致。该框架引入向量级原子专家,在单一MoE层内实现可扩展的路由与执行,同时保留共享的稠密MLP分支进行通用处理。尽管这种原子设计最大化模型容量,但给路由复杂度和内存访问带来严峻挑战。为此,OmniMoE采用系统算法协同设计:(1)笛卡尔积路由器通过分解巨大索引空间,将路由复杂度从O(N)降至O(√N);(2)以专家为中心的重排调度通过反转执行顺序,将分散的内存受限查找转化为高效的稠密矩阵运算。在七项基准测试中,OmniMoE(激活参数17亿)零样本准确率达50.9%,优于粗粒度(如DeepSeekMoE)与细粒度(如PEER)基线。关键的是,相较PEER模型,OmniMoE将推理延迟从73毫秒降至6.7毫秒(加速10.9倍),证明超大规模细粒度MoE可实现速度与精度兼得。代码已开源于https://github.com/flash-algo/omni-moe。
尽管人类通过多种协同运作的感知模态来认知世界,从而实现对环境的整体理解,但现有的全模态视频模型在视听理解任务中仍面临重大挑战。本文提出OmniVideo-R1这一新型强化框架,通过两项关键策略提升混合模态推理能力:基于自监督学习范式的密集查询定位机制,以及建立在对比学习范式之上的模态注意力融合机制。在多个基准测试上的广泛实验表明,OmniVideo-R1持续超越强基线模型,彰显了其有效性与强大的泛化能力。
大型语言模型(LLMs)已展现出卓越的推理能力,在广泛任务中取得令人瞩目的成果。然而即便在看似简单的场景中,显著的推理缺陷依然存在。为系统化理解并解决这些不足,我们首次推出专注于LLM推理失败的综合研究综述。我们提出一种新型分类框架,将推理区分为具身与非具身两种类型,其中非具身推理进一步细分为非形式化(直觉性)推理与形式化(逻辑性)推理。同时,我们沿互补维度将推理失败归为三类:广泛影响下游任务的LLM架构固有根本性缺陷、在特定领域显现的应用场景局限性,以及因细微变动导致性能波动的鲁棒性问题。针对每类推理失败,我们明确定义、分析现有研究、探究根本原因并提出改进策略。通过整合碎片化研究,本综述为LLM系统性推理弱点提供了结构化视角,为构建更强健、可靠且具备鲁棒性的推理能力指明研究方向。我们同步发布了关于LLM推理失败的专题研究集合,可通过GitHub仓库(https://github.com/Peiyang-Song/Awesome-LLM-Reasoning-Failures)获取,为该领域研究提供便捷入口。
开放式自我改进智能体能够自主修改其自身结构设计,以提升能力并突破预定义架构的限制,从而减少对人类干预的依赖。我们提出群体进化智能体(GEA)这一开放式自我改进新范式,将智能体群体作为基本进化单元,实现进化过程中群体内显性的经验共享与复用。与现有采用树状进化结构的开放式自我进化范式不同,GEA克服了因进化分支孤立而导致的探索多样性利用低效的局限。我们在具有挑战性的编程基准测试中评估GEA,其表现显著优于最先进的自我进化方法(在SWE-bench Verified上达到71.0%对比56.7%,在Polyglot上达到88.3%对比68.3%),并与顶尖人工设计的智能体框架持平或更优(在两个基准测试中分别达到71.8%和52.0%)。分析表明,GEA能更有效地将早期探索多样性转化为持续的长期进步,在相同进化智能体数量下实现更强性能。此外,GEA在不同编程模型间展现出稳定的可迁移性及更强鲁棒性,平均仅需1.4次迭代即可修复框架级错误,而自我进化方法需要5次迭代。
僅權重量化對於壓縮大型語言模型至關重要。受經典幅度剪枝思想啟發,我們探究在推理激勵微調過程中,權重更新的幅度是否能為大型推理模型的量化提供有價值的信號。我們提出假設:微調期間最小和最大的權重更新比中等幅度的更新更為重要,此現象稱為「兩端保護」。經假設驗證後,我們提出QuantLRM——基於微調信號的大型推理模型權重量化方法。通過擬合簡單的受限二次函數來保護權重更新的兩端,並將通道的二次函數均值與零權重更新次數相乘,計算出比激活值或二階信息更有效的通道重要性。我們在四個推理基準測試集(AIME-120、FOLIO、時間序列和GPQA-Diamond)上對多種微調模型(包括監督學習、直接偏好優化和強化學習微調)進行量化實驗,實證表明QuantLRM能持續提升大型推理模型的量化效果,其中強化學習微調模型平均提升達6.55%。該方法還支持未經微調的大型推理模型,通過偽微調收集有效信號,顯著增強了適用性。
大型语言模型(LLM)的高效部署需要极端量化技术,这迫使研究者在低比特效率与模型性能之间进行关键权衡。残差二值化方法通过堆叠二元(±1)层实现了硬件友好且无需矩阵乘法的推理,但一直受困于病态特征共适应问题。我们发现了一种关键失效模式——路径间适应:在量化感知训练(QAT)过程中,并行的残差二元路径会学习冗余特征,从而破坏误差补偿结构并限制模型表达能力。现有研究多依赖启发式解决方案(如路径冻结)来约束解空间,而本文提出创新量化框架RaBiT,通过算法强制建立残差层级结构来解决共适应问题。其核心机制是从单一共享全精度权重中顺序推导每个二元路径,确保每条路径都能修正前一条路径的误差。该过程通过稳健初始化实现稳定化,其优先考虑功能保持而非单纯权重近似。RaBiT重新定义了2比特精度-效率边界:在RTX 4090上实现了领先性能,媲美硬件密集型矢量量化(VQ)方法,并将推理速度较全精度模型提升4.49倍。
大型语言模型(LLMs)在非英语语境中常表现出性能下降、文化适应性不足及安全鲁棒性减弱等问题,部分原因在于预训练数据与人类偏好对齐数据集均以英语为主导。基于人类反馈的强化学习(RLHF)和直接偏好优化(DPO)等训练方法需要人类偏好数据,但除英语外的多数语言仍面临此类数据稀缺且非公开的困境。为填补这一空白,我们推出compar:IA——一项由法国政府内部开发的开源数字公共服务,旨在从以法语使用者为主的普通受众中收集大规模人类偏好数据。该平台采用盲选成对比较界面,在保持低参与门槛和隐私保护自动过滤的同时,采集涵盖多样化语言模型的真实场景无约束提示词及用户评判。截至2026年2月7日,compar:IA已收集超过60万条自由形式提示词和25万次偏好投票,其中约89%数据为法语。我们以开放许可形式发布三个互补数据集(对话记录、投票数据及互动反馈),并呈现初步分析成果,包括法语模型排行榜和用户交互模式。超越法国本土语境,compar:IA正逐步发展为国际数字公共产品,为多语言模型训练、评估及人机交互研究提供可复用基础设施。
我们研究了大语言模型多目标对齐中一个持续存在的失效模式:训练仅提升部分目标的性能,却导致其他目标性能下降。我们将这种现象形式化为跨目标干扰,并对经典标量化算法进行了首次系统性研究,结果表明干扰现象普遍存在且表现出强烈的模型依赖性。 为解释这一现象,我们推导出局部协方差定律,证明当目标奖励与标量化得分呈现正协方差时,该目标在一阶意义上会得到改进。我们将此分析延伸至现代对齐中使用的裁剪替代目标,证明在温和条件下尽管存在裁剪操作,协方差定律仍然成立。基于此分析,我们提出协方差定向权重自适应(CTWA)这一即插即用方法,通过维持目标奖励与训练信号之间的正协方差来有效缓解跨目标干扰。最后,我们结合Polyak-Łojasiewicz条件对这些局部改进条件进行了全局收敛性分析,确立了非凸标量化优化实现全局收敛的条件,并揭示了跨目标干扰如何依赖于特定的模型几何特性。
多輪越獄攻擊捕捉了安全對齊聊天機器人的真實威脅模型,而單輪攻擊僅是其中一種特殊案例。然而現有方法在探索複雜性和意圖漂移問題上存在侷限。我們提出SEMA——一個無需依賴現有策略或外部數據即可訓練多輪攻擊者的簡潔高效框架。該框架包含兩個階段:前綴自調優通過對自我生成的、具備非拒絕性且結構良好的多輪對抗提示進行微調(僅需極小前綴),實現可用的推演軌跡,從而穩定後續學習過程;基於意圖漂移感知獎勵的強化學習則訓練攻擊者生成有效的多輪對抗提示,同時保持固定的有害目標。我們通過融合意圖對齊度、合規風險與細節層級的意圖漂移感知獎勵機制,在多輪越獄中錨定有害意圖。所採用的開環攻擊機制避免依賴受害者反饋,統一了單輪與多輪攻擊場景,並降低探索複雜度。在多個數據集、受害者模型和越獄評測環境中,本方法實現了最優的攻擊成功率,不僅超越所有單輪基準方法,也勝過手動編寫和模板驅動的多輪基準方法,以及我們的監督微調和直接偏好優化變體。例如在AdvBench數據集上,SEMA對三個閉源與開源受害者模型達到平均80.1%的ASR@1指標,較之前最優方法提升33.9%。該方法具有輕量化、可復現和跨目標遷移的特性,能為大語言模型安全提供更強勁且逼真的壓力測試,並通過自動化紅隊測試暴露和定位失效模式。代碼已開源於:https://github.com/fmmarkmq/SEMA。
强化学习(RL)已成为训练基于大语言模型(LLM)的智能代理的主流范式。然而,现有骨干RL算法在代理场景中缺乏经过验证的收敛保证,尤其在多轮交互设置下,这会导致训练不稳定及无法收敛至最优策略。 本文系统分析了策略更新机制与优势估计方法的不同组合在单轮/多轮场景中的收敛特性。研究发现:采用组相对优势估计(GRAE)的REINFORCE算法在无折扣条件下可收敛至全局最优,但PPO与GRAE的组合会破坏PPO原有的单调改进特性。此外,我们证明主流骨干RL算法在多轮场景中无法同时实现无评论员架构与收敛保证。 为此,我们提出SeeUPO(序列级顺序更新策略优化),这是一种具备收敛保证的无评论员方法,适用于多轮交互。SeeUPO将多轮交互建模为顺序执行的多智能体赌博机问题,通过逆序逐轮顺序更新策略,借助逆向归纳法确保单调改进并收敛至全局最优解。 在AppWorld和BFCL v4上的实验表明,SeeUPO相较现有骨干算法取得显著提升:Qwen3-14B模型相对增益达43.3%-54.6%,Qwen2.5-14B模型相对增益达24.1%-41.9%(基准测试平均值),同时展现出更优的训练稳定性。
大型语言模型(LLM)的标准训练流程通常是单向的,从预训练阶段推进至后训练阶段。然而,双向训练流程的潜力——即后训练阶段的洞见反向优化预训练基础模型——仍未被探索。我们致力于构建一个自我强化的飞轮机制:通过强化学习(RL)微调的模型能够增强基础模型,而基础模型的提升又会优化后续后训练表现,且无需专门训练的教师模型或参考模型。为实现这一目标,我们分析了训练动态,发现模型能力发展的关键转折点出现在训练中期(退火阶段)。该阶段通常位于预训练尾声,采用高质量语料库并配合快速衰减的学习率。基于此发现,我们提出ReMiT(强化学习引导的中期训练)方法。具体而言,ReMiT利用RL微调模型的推理先验,在中期训练阶段动态调整词汇权重,优先关注对推理至关重要的词汇。实验表明,ReMiT在数学、编程和通用推理等10项预训练基准任务中平均提升3%,且在后训练全流程中持续保持超过2%的增益。这些结果验证了迭代反馈循环的有效性,为LLM实现持续自我强化的演进提供了可能。
统一多模态模型(UMMs)在生成自然图像和支持多模态推理方面展现出卓越能力,然而其在贴近日常生活的计算机使用规划任务中的潜力仍待挖掘。计算机使用任务中的图像生成与编辑需要空间推理、流程理解等能力,目前尚不清楚UMMs是否具备完成此类任务的能力。为此,我们提出PlanViz——一个专为评估计算机使用任务中图像生成与编辑能力而设计的新基准。为实现评估目标,我们聚焦于日常生活中频繁涉及且需要规划步骤的子任务,具体设计了三个新子任务:路径规划、工作流程图绘制以及网页与界面展示。通过人工标注的问题集、参考图像及质量控制流程,我们解决了数据质量保障的挑战;针对全面精准评估的难题,提出了任务自适应评分标准PlanScore,该评分有助于理解生成图像的正确性、视觉质量与效率。实验结果表明了该研究领域的关键局限性与未来机遇。
Transformer架构的平滑性已在泛化能力、训练稳定性和对抗鲁棒性等场景中得到广泛研究,但其在迁移学习中的作用仍鲜为人知。本文通过分析视觉Transformer组件的输出适应输入变化的能力(即其可塑性)来填补这一空白。该指标定义为平均变化率,能够捕捉模型对输入扰动的敏感度——高可塑性即对应低平滑度。我们通过理论分析和系统实验证明,这一视角能为迁移适配过程中的组件优先级选择提供理论指导。对实践者的关键启示在于:注意力模块和前馈层的高可塑性始终能带来更优的微调性能。这一发现突破了“平滑性必然有益”的主流认知,为Transformer的功能特性提供了新视角。代码已开源:https://github.com/ambroiseodt/vit-plasticity。
密集变换器语言模型长期以来一直遵循着统一的架构形态:每个层由注意力模块后接前馈网络(FFN)构成,其中FFN采用窄-宽-窄结构的多层感知机(MLP),并以2至4的扩展比将大部分参数分配给MLP。受近期研究成果启发——残差连接的宽-窄-宽(沙漏形)MLP具有更优异的函数逼近能力,我们重新审视了变换器中长期沿用的MLP形态惯例,对窄-宽-窄设计的必要性提出质疑。为此,我们开发了一种变换器变体,用更深的沙漏形FFN替代传统FFN,该结构通过残差路径连接多个沙漏形子MLP堆叠而成。我们提出假设:更轻量但更深的沙漏形FFN可作为传统FFN的竞争性替代方案,且通过使用轻量化沙漏FFN节省的参数能更有效地被利用(例如在固定预算下扩大模型隐藏维度)。我们通过不同模型规模的实证验证证实了这些观点:沙漏FFN在4亿参数规模以下优于传统FFN,在10亿参数规模达到相当性能;在同等预算下,减少FFN参数并增加注意力参数的沙漏FFN变体相较传统配置持续表现出改进。这些发现为近期研究提供了新视角,促使我们重新思考窄-宽-窄MLP的惯例设计,以及注意力与FFN间的平衡关系,以构建更高效、表达能力更强的现代语言模型。
全切片图像预处理作为AI驱动计算病理学工作流程的基础环节,通常包含组织检测与组织块提取两个步骤。由于现有工具或依赖不精确的启发式阈值法进行组织检测,或采用基于有限多样性数据训练的补丁级AI方法导致计算复杂度激增,该环节仍是主要计算瓶颈。我们提出AtlasPatch——一种高效可扩展的切片预处理框架,能以最小计算开销实现精准组织检测与高通量组织块提取。该框架的组织检测模块通过对约3万张异质性半人工标注的WSI缩略图数据集进行Segment-Anything模型的高效微调训练,能够将组织掩模从缩略图外推至全分辨率切片,在用户指定放大倍数下提取组织块坐标,并支持将组织块直接流式传输至通用图像编码器生成嵌入向量或存储为图像文件,所有操作均实现在CPU与GPU上的高效并行处理。我们在分割精度、计算复杂度及下游多示例学习任务中对AtlasPatch进行全面评估,结果表明其在仅需极低计算成本的前提下即可达到业界领先性能。本工具已开源发布于https://github.com/AtlasAnalyticsLab/AtlasPatch。
大型语言模型在开放域对话中展现出卓越能力,但在服务型对话场景下,当前基于嘈杂低质量人类对话数据的方法表现欠佳。这一局限源于数据稀缺性以及模拟真实目标导向用户行为的难度。为解决这些问题,我们提出SEAD(服务对话自演进智能体)框架,该框架使智能体无需大规模人工标注即可学习有效策略。SEAD将用户建模解耦为两个组件:用于生成多样化用户状态以管理训练课程的档案控制器,以及专注于逼真角色扮演的用户模拟模型。该设计确保环境提供自适应训练场景,而非充当不公平的对抗方。实验表明,SEAD显著优于开源基础模型与闭源商业模型,任务完成率提升17.6%,对话效率提高11.1%。代码已开源:https://github.com/Da1yuqin/SEAD。
尽管近期取得了一些成功,但测试时动态扩展(即在推理过程中根据需要动态增加令牌预算)对于视觉语言模型(VLM)而言仍显脆弱:关于图像的非结构化思维链会将感知与推理纠缠在一起,导致生成冗长混乱的上下文,其中微小的感知错误可能级联成完全错误的答案。此外,需要采用人工设计奖励的昂贵强化学习才能实现良好性能。本文提出SPARC(分离感知与推理电路),一种显式解耦视觉感知与推理的模块化框架。受大脑中序列化感觉-认知处理机制的启发,SPARC采用两阶段流程:模型先执行显式视觉搜索以定位问题相关区域,随后基于这些区域进行条件化推理生成最终答案。这种分离机制支持非对称计算分配的独立测试时扩展(例如在分布偏移时优先处理感知阶段),可实现选择性优化(例如当感知阶段成为端到端性能瓶颈时单独优化该阶段),并能通过低分辨率全局搜索配合仅对选定区域进行高分辨率处理来压缩上下文,从而减少视觉令牌总量与计算开销。在多项挑战性视觉推理基准测试中,SPARC均优于单体基线模型和强视觉定位方法。例如在V^* VQA基准上,SPARC将Qwen3VL-4B的准确率提升6.7个百分点;在挑战性OOD任务中,其表现较"基于图像的思维"方法高出4.6个百分点,而所需令牌预算仅为后者的1/200。
现有分析神经网络激活的方法(如主成分分析和稀疏自编码器)依赖于强结构性假设。生成模型提供了另一种路径:它们无需此类假设即可揭示结构,并可作为提升干预保真度的先验模型。我们通过在一亿个残差流激活上训练扩散模型来探索这一方向,构建了学习网络内部状态分布的"元模型"。研究发现,扩散损失随计算量增加而平滑下降,并能可靠预测下游效用。特别是将元模型习得的先验应用于导向干预时,可提升生成流畅度,且损失越低改善幅度越大。此外,元模型的神经元会逐渐将概念分离至独立单元,其稀疏探测分数随损失下降而提升。这些结果表明,生成式元模型为无需限制性结构假设的可解释性研究提供了可扩展路径。项目页面:https://generative-latent-prior.github.io。
当前的信息检索智能体在长周期探索中难以保持专注度与连贯性,因为将搜索状态(包括规划流程和海量搜索结果)记录于单一纯文本语境存在固有脆弱性。为此,我们提出表格式搜索框架,该结构化规划框架将信息检索任务重新定义为表格填充任务。该框架将每个查询映射至外部数据库维护的结构化表格模板中:行代表搜索候选项,列表示约束条件或所需信息。这种表格能精准管理搜索状态:已填充单元格严格记录历史搜索记录与结果,而未填充单元格则构成显式搜索计划。关键的是,该框架统一了三种不同的信息检索任务:深度搜索、广度搜索以及具有挑战性的深度广度联合搜索。大量实验表明,在包含多智能体框架和商业系统的三类基准测试中,该框架显著优于众多先进基线方法。此外,我们的分析验证了该框架在长周期信息检索中具有卓越的鲁棒性,同时兼具高效性、可扩展性和灵活性。代码与数据集已开源:https://github.com/AIDC-AI/Marco-Search-Agent。
基于语言的图像分割一直是计算机视觉领域的热门研究方向。尽管多模态大语言模型(MLLMs)的最新进展为分割系统赋予了推理能力,但这些尝试仍受限于MLLMs固有的固化知识体系,难以适应需要实时信息或领域特定概念的现实场景。本研究提出Seg-ReSearch这一新型分割范式,通过交织推理与外部检索突破现有方法的知识瓶颈。该范式使分割系统能够处理超越MLLMs固化知识范畴的动态开放世界查询任务。为有效训练这种能力,我们设计了分层奖励机制,将初始引导与渐进激励相融合,缓解了稀疏结果信号与僵化分步监督之间的冲突。针对评估需求,我们构建了OK-VOS基准数据集,该数据集明确要求视频对象分割任务具备外部知识支持。在OK-VOS和两个现有推理分割基准上的实验表明,Seg-ReSearch显著提升了先进方法的性能。相关代码与数据将在https://github.com/iSEE-Laboratory/Seg-ReSearch 发布。
知識蒸餾已成為將強大大型語言模型的知識遷移至更小型高效模型的關鍵技術。然而,傳統蒸餾方法在利用多教師模型時面臨知識衝突與高資源消耗的挑戰。本文提出「知識純化」概念,通過整合多個教師大模型的推理邏輯為單一推理鏈,有效緩解衝突並提升效率。為驗證知識純化的有效性,我們從多維度提出五種純化方法。實驗表明,這些方法不僅提升蒸餾模型的性能,還能顯著減輕知識衝突。此外,基於路由器的純化方法展現出優異的泛化能力,印證了創新純化技術在優化多教師蒸餾、推動強大輕量模型實際部署方面的巨大潛力。
真正的自我进化要求智能体作为终身学习者,通过内化新经验来解决未来问题。然而,这一基础能力的严谨评估面临两大障碍:先验知识的纠缠性(即"新"知识可能已存在于预训练数据中)与推理复杂性的纠缠性(即失败可能源于问题难度而非知识回忆能力)。我们推出SE-Bench诊断环境,通过将NumPy库及其API文档混淆为随机命名的伪新包,构建出纯净测试场景:智能体需内化该包后在不查阅文档的情况下完成基础编码任务——这些任务在使用新API文档时极为简单,但基础模型若无此知识则无法解决。研究发现三大关键洞见:(1)开卷训练悖论:使用参考文档的训练会抑制知识留存,必须采用"闭卷训练"强制知识压缩至权重;(2)强化学习鸿沟:标准RL因PPO裁剪和负梯度问题难以完整内化新知识;(3)自我博弈的可行性:模型能通过SFT从自生成的噪声任务中学习知识,但RL方法无效。SE-Bench为知识内化的自我进化研究建立了严谨诊断平台,代码与数据集详见https://github.com/thunlp/SE-Bench。
可微分匹配层与残差连接范式(通常通过熵正则化最优传输实现)是结构预测和架构扩展中的关键机制。然而,通过将ε退火至零来恢复离散排列或保持恒等映射的方法存在显著的不稳定性。本研究揭示了该失效的根本机制:早熟模态坍缩。通过分析Sinkhorn定点映射的非正规动力学,我们发现了理论上的热力学速度极限——标准指数冷却速度超过了推断算子的收缩率(该收缩率以O(1/ε)退化)。针对此问题,我们提出高效分段混合自适应稳定性控制(EPH-ASC),该自适应调度算法通过监控推断过程的稳定性,在FineWeb-Edu数据集的大规模训练中有效稳定流形约束超连接(mHC),通过强制执行线性稳定性定律来防止后期梯度爆炸。
气候危害通过损毁房屋存量、破坏基础设施及降低路网可达性,正日益加剧对城市交通与应急响应系统的干扰。本文提出Skjold-DiT——一种融合异构时空城市数据的扩散-变换器框架,能够预测建筑级气候风险指标,并显式整合与智能车辆相关的交通路网结构与可达性信号(如应急可达范围与疏散路线约束)。具体而言,该框架通过生成经校准且具备不确定性感知的可达性图层(可达范围、行程时间膨胀率及路线冗余度),为智能车辆路径规划与应急调度系统提供灾害条件约束下的路由方案。Skjold-DiT集成三大核心组件:(1)Fjell-Prompt:支持跨城市迁移的提示式条件接口;(2)Norrland-Fusion:通过跨模态注意力机制将灾害地图/影像、建筑属性、人口统计与交通基础设施统一为共享潜在表征;(3)Valkyrie-Forecast:基于干预提示生成概率性风险轨迹的反事实模拟器。我们同步发布波罗的-里海城市韧性(BCUR)数据集,涵盖六座城市847,392条建筑级观测记录,包含多重灾害标注(如洪水与热浪指标)及交通可达性特征。实验评估涵盖预测质量、跨城市泛化能力、校准效果及下游交通相关指标,包括反事实干预下的可达性与灾害条件行程时间。
訓練後量化技術雖能降低大型語言模型的運算成本,卻會從根本上改變其社會偏見,這種變化是聚合指標無法捕捉的。我們針對50個量化模型進行首項大規模研究,並採用統一基準PostTrainingBiasBench——涵蓋13個封閉式與開放式偏見數據集。我們發現一種稱為「量化誘發掩蔽偏見翻轉」的現象:即便聚合偏見分數未變,高達21%的模型回應會在量化後於偏見與無偏見狀態間翻轉。這種翻轉強烈受模型不確定性驅動,高不確定性回應的翻轉機率比確定性回應高出3-11倍。量化強度會放大此效應,4位元量化模型的行為變化量是8位元模型的4-6倍。關鍵在於,這些變化對不同人口群體產生不對稱影響——某些群體的偏見惡化程度最高達18.6%,而其他群體卻改善14.1%,導致聚合結果呈現誤導性的中立。大型模型未展現一致的穩健性優勢,且群體特定偏移在不同模型家族間呈現不可預測的波動。我們的研究證實:模型壓縮會從本質上改變偏見模式,必須進行關鍵的量化後評估與干預,方能確保實際應用的可靠性。