每日精選AI研究論文及翻譯
近期多模態大型語言模型的突破性進展,為圖形使用者介面自動化開創了前所未有的機遇。然而,核心挑戰依然存在:如何在保持標註可靠性的前提下,高效獲取高品質訓練資料?我們提出由校準步進獎勵系統驅動的自演化訓練管線,通過軌跡級校準將模型生成軌跡轉化為可靠訓練信號,實現超過90%的標註準確率,同時將成本降低10-100倍。基於此管線,我們推出Step-GUI模型系列(4B/8B),在保持強大通用能力的同時達成業界頂尖的GUI效能(8B模型:AndroidWorld 80.2%、OSWorld 48.5%、ScreenShot-Pro 62.6%)。隨著GUI智慧體能力提升,實際部署需在異構設備間建立標準化介面,同時保障使用者隱私。為此,我們提出首個GUI自動化專用的模型情境協定GUI-MCP,採用結合底層原子操作與高層任務委派給本地專用模型的分層架構,實現敏感資料全程駐留設備的高隱私執行方案。最後,為評估智慧體處理真實日常使用場景的能力,我們建立基於實際手機使用模式的AndroidDaily基準測試,包含3146項靜態操作與235個端到端任務,覆蓋高頻日常情境(8B模型:靜態任務89.91%,端到端任務52.50%)。本研究推動實用型GUI智慧體的發展,並展現其在日常數位互動中實際部署的強大潛力。
效率作為大型語言模型驅動的智能體與推理系統的關鍵實踐挑戰,正日益受到自迴歸解碼固有延遲的制約。推測解碼通過草案-驗證機制緩解此成本,但現有方法依賴自迴歸草案模型(即草案生成器),存在兩個根本性問題:(1)逐步累積的不確定性導致目標模型與草案生成器間的信任度遞減;(2)自迴歸草案器固有的序列化解碼特性。這些因素共同導致加速效果有限。本文提出擴散大型語言模型草案器能通過其根本不同的概率建模與高效並行解碼策略,自然克服上述缺陷。基於此洞見,我們推出DEER框架——採用擴散模型生成草案、自迴歸模型驗證的高效推測解碼方案。為實現高質量草案生成,DEER通過兩階段訓練流程對齊基於dLLM的草案器與目標自迴歸模型,並採用單步解碼策略生成長草案段落。實驗顯示DEER的草案接受長度達32個詞元,遠超EAGLE-3的10個詞元。在HumanEval基準測試中,搭配Qwen3-30B-A3B模型時,DEER實現5.54倍加速,而EAGLE-3僅達2.41倍。程式碼、模型及演示等資源將於https://czc726.github.io/DEER/公開。
多詞元生成已成為加速基於Transformer的大型模型推理的潛力範式。近期研究主要探索擴散式大型語言模型(dLLM)的平行解碼技術以降低推理延遲。為達到自迴歸級別的生成品質,現有技術多將AR模型改造成dLLM以實現平行解碼,但由於預訓練與後訓練間的失配問題,其加速效果仍受限於AR模型。具體而言,後訓練中使用的掩碼數據分佈與預訓練階段的真實數據分佈存在顯著偏差,且dLLM依賴的雙向注意力機制與預訓練習得的因果先驗相衝突,阻礙了精確KV快取重用的實現。為此,我們提出雅可比強迫法——一種漸進式蒸餾範式,通過在模型自身生成的平行解碼軌跡上進行訓練,平滑地將AR模型轉化為高效平行解碼器,同時保留其預訓練的因果推理特性。基於此範式訓練的雅可比強迫模型在編程與數學基準測試中實現3.8倍實時加速,且性能損失極小。針對該模型的軌跡特性,我們進一步提出帶拒絕回收機制的多區塊解碼法,使單次迭代的詞元接受數量提升至4.5倍,實時加速比接近4.0倍,有效實現計算資源與推理延遲的權衡。程式碼已開源於:https://github.com/hao-ai-lab/JacobiForcing。
當前多模態大語言模型雖具備強大的感知與推理能力,但高昂的計算與記憶體需求使其難以直接部署於端側設備環境。儘管小參數模型正逐步被賦予強大的通用能力,標準視覺Transformer(ViT)編碼器仍是關鍵瓶頸,在處理高解析度輸入時面臨過高的延遲與記憶體消耗。為應對這些挑戰,我們提出HyperVL——一款專為端側推理設計的高效多模態大語言模型。HyperVL採用圖像分塊策略以限制峰值記憶體使用,並引入兩項創新技術:(1)視覺解析度壓縮器(VRC),能自適應預測最佳編碼解析度以消除冗餘計算;(2)雙重一致性學習(DCL),通過統一框架對齊多尺度ViT編碼器,實現共享大語言模型下視覺分支的動態切換。大量實驗表明,HyperVL在多個基準測試中均達到同規模模型的頂尖性能,並在真實行動裝置上顯著降低延遲與功耗,證實其對端側多模態推理的實用性。
近期如成果監督式GRPO等強化學習方法雖在視覺語言模型的思維鏈推理方面取得進展,但關鍵問題仍存:(一)依賴昂貴且帶噪聲的人工標註或外部驗證器;(二)GRPO中平坦稀疏的獎勵機制;(三)推理鏈與最終答案間的邏輯不一致性。我們提出謎題課程化GRPO(PC-GRPO),這是一種具可驗證獎勵的無監督強化學習方案,能在無需標註或外部驗證器的情況下強化VLMs的視覺推理能力。PC-GRPO通過三種自監督謎題環境替代標註:PatchFit、旋轉謎題(採用二元獎勵)和拼圖謎題(通過分級部分獎勵緩解獎勵稀疏性)。為應對平坦獎勵與消失的群組相對優勢,我們引入難度感知課程機制,動態加權樣本難度並在中等難度區間達到峰值。我們在後訓練階段持續監控推理-答案一致性(RAC):與大型語言模型中原始GRPO的報告相呼應,RAC通常先升後降;我們的課程設計延遲了這種衰退,而強制一致性獎勵機制進一步提升RAC。RAC與下游任務準確率呈現相關性。在多元基準測試中,基於Qwen-7B和Qwen-3B架構的PC-GRPO顯著提升了推理質量、訓練穩定性及終端任務準確率,為VLMs提供了一條可擴展、可驗證且可解釋的強化學習後訓練路徑。
通用變換器(UT)在複雜推理任務(如ARC-AGI和數獨求解)中已獲廣泛應用,然其性能提升的具體來源仍待深入探究。本研究系統性分析多種UT變體,發現ARC-AGI任務的性能改善主要源於變換器的循環歸納偏置與強大非線性組件,而非精細的架構設計。基於此發現,我們提出通用推理模型(URM),通過引入短卷積與截斷反向傳播機制增強UT架構。該方法顯著提升推理性能,在ARC-AGI 1和ARC-AGI 2數據集上分別達到53.8%和16.0%的pass@1最佳成績。程式碼已開源於:https://github.com/zitian-gao/URM。
當前視覺生成模型在圖像編輯時常因點陣圖的固有特性而面臨一致性難題——所有視覺內容被融合至單一畫布導致相互纏結。與此相反,專業設計工具採用分層表徵技術,可在保持整體一致性的前提下實現局部獨立編輯。受此啟發,我們提出Qwen-Image-Layered:一種端到端的擴散模型,能將單張RGB圖像解構為多個語義解耦的RGBA圖層,從而實現內生可編輯性——每個RGBA圖層均可獨立操作而不影響其他內容。為支持可變數量圖層的解構,我們引入三大核心組件:(1)RGBA-VAE統一RGB與RGBA圖像的潛在表徵;(2)VLD-MMDiT(可變層解構MMDiT)架構支持解構可變數量的圖像層;(3)多階段訓練策略將預訓練圖像生成模型適配為多層圖像解構器。此外,針對高質量多層訓練數據稀缺的問題,我們構建了從Photoshop文檔(PSD)提取並標註多層圖像的流水線。實驗表明,本方法在解構質量上顯著超越現有方案,為一致性圖像編輯建立了新範式。相關代碼與模型已開源於:https://github.com/QwenLM/Qwen-Image-Layered
我們提出IC-Effect——一個基於DiT的指令引導式少樣本影片視覺特效編輯框架,能合成複雜特效(如火焰、粒子與動畫角色),同時嚴格保持空間與時間一致性。影片視覺特效編輯極具挑戰性,因為注入的特效必須與背景無縫融合、背景需完全保持原狀,且特效模式需從有限的配對資料中高效學習。然而,現有影片編輯模型均無法滿足這些要求。IC-Effect將原始影片作為乾淨的上下文條件,利用DiT模型的上下文學習能力,實現精準的背景保留與自然的特效注入。透過兩階段訓練策略(先進行通用編輯適應,再經由Effect-LoRA進行特效專項學習),確保模型具備強指令遵循能力與穩健的特效建模效果。為進一步提升效率,我們引入時空稀疏標記化技術,以大幅降低計算量的同時實現高擬真度。我們還發布了涵蓋15種高品質視覺風格的配對視覺特效編輯資料集。大量實驗表明,IC-Effect能提供高品質、可控且時序一致的視覺特效編輯,為影片創作開闢新可能。
空间理解能力对于多模态大语言模型在物理环境中进化为通用助手至关重要。然而目前仍缺乏全面评估该目标进展的综合基准。本研究推出MMSI-Video-Bench——首个全人工标注的视频空间智能基准,通过感知、规划、预测和跨视频推理的四层框架,基于25个数据集及自采视频的1,278个片段构建了1,106道 grounded 问题。每个题目均由三维视觉专家精心设计并复核,附带解释性依据以确保精准无歧义。借助多样化数据源和全任务覆盖,本基准还支持室内场景感知、机器人操作和实体定位三大领域专项评估。我们对25个开源与商业模型进行测试,发现显著的人机差距:多数模型表现接近随机猜测,最佳推理模型落后人类近60%。研究进一步表明,经过空间微调的模型仍难以有效泛化至本基准。细粒度错误分析揭示了几何推理、运动定位、长时程预测和跨视频关联的系统性缺陷。典型帧采样策略在推理密集型任务中迁移效果不佳,三维空间线索与思维链提示均未带来显著提升。本基准有望为推进视频空间智能研究建立坚实的测试平台。
AI驅動的影片生成技術的濫用已引發嚴重的社會憂慮,凸顯了對可靠AI生成影片檢測器的迫切需求。然而現有方法大多侷限於二元分類,且缺乏可供人類解讀的必要解釋。本文提出Skyra——一個專用的多模態大型語言模型(MLLM),該模型能識別AI生成影片中人類可感知的視覺偽影,並將其作為檢測與解釋的實證依據。為實現此目標,我們構建了首個具備細粒度人工標註的大規模AI生成影片偽影數據集ViF-CoT-4K用於監督微調(SFT),進而開發出兩階段訓練策略,系統性提升模型在時空偽影感知、解釋能力及檢測準確度方面的表現。為全面評估Skyra,我們建立了包含逾十種頂尖影片生成器所產出的3K高質量樣本的基準測試集ViF-Bench。大量實驗表明,Skyra在多項基準測試中均超越現有方法,而我們的評估結果為推進可解釋性AI生成影片檢測提供了寶貴洞見。
生成式模型能合成高度逼真的內容(即所謂的深度偽造內容),這類技術已被大規模濫用,破壞數位媒體的真實性。現有的深度偽造檢測方法不可靠的原因有二:其一,事後區分非真實內容往往不可行(例如對已記憶樣本的檢測),導致假陽性率無上限;其二,檢測缺乏穩健性,對手僅需極少計算資源即可針對已知檢測器實現近乎完美的規避準確度。為解決這些局限,我們提出一種重合成框架,用於判定樣本是否真實,或是否可合理否認其真實性。我們針對高效能(即計算受限)對手,聚焦高精確度、低召回率的設定,做出兩項關鍵貢獻:首先,我們證明校準後的重合成方法在維持可控低假陽性率的同時,是驗證真實樣本最可靠的方法;其次,我們展示在相同計算預算下,現有方法易被規避,而我們的方法能實現對高效能對手的對抗穩健性。本方法支援多模態應用,並運用最先進的反轉技術。
作为人类,我们是天生的任意时间跨度推理者——即针对特定任务需求,我们能够自主决定是快速浏览长视频还是完整观看短视频。基于这一认知,人们自然期望视频推理模型具备跨时长灵活推理的能力。然而,当前最先进的模型仍采用单轮推理范式处理海量帧序列(如同完整观看长视频),需要消耗大量计算资源。这引发了一个关键问题:能否开发出高性能的任意时间跨度视频推理系统?受人类行为启发,我们首先提出SAGE智能体系统,该系统既能对长视频进行多轮推理,又能以单轮方式处理简单问题。其次,我们利用Gemini-2.5-Flash构建了轻量化的合成数据生成流程,用以训练SAGE的核心调度器SAGE-MM。我们还设计了有效的强化学习微调方案,该方案对培养SAGE-MM的任意时间跨度推理能力至关重要。第三,我们构建了平均时长超过700秒的SAGE-Bench基准数据集,用于评估真实娱乐场景下的视频推理能力。最后,我们通过实证研究验证了系统架构、数据生成方法和强化学习方案的有效性:在开放式视频推理任务中实现最高6.1%的性能提升,针对超过10分钟的长视频更取得8.2%的显著进步。
在近期多模态研究中,扩散范式因其独特的解码优势,已成为自回归范式(AR)的重要替代方案。然而受基础扩散语言模型的能力限制,扩散视觉语言模型(dVLM)的性能仍显著落后于主流模型。这引出一个简单而根本的问题:能否基于现有强大的AR模型构建dVLM?对此,我们提出DiffusionVL——一个可从任意强大AR模型转换而来的dVLM家族。通过简单微调,我们成功将AR预训练模型适配至扩散范式,并得出两个关键发现:(1)从基于AR的多模态模型向扩散范式的转换异常高效;(2)将AR语言模型直接转换为dVLM具有可行性,其性能可与LLaVA风格的视觉指令调优相媲美。此外,我们在dVLM中引入支持任意长度生成和KV缓存复用的分块解码设计,实现了推理速度的显著提升。大量实验表明:尽管训练数据量不足现有方法的5%,DiffusionVL在MMMU-Pro(视觉)基准上提升34.4%,在MME(认知)基准上提升37.5%,同时实现2倍推理加速。模型与代码已发布于https://github.com/hustvl/DiffusionVL。
強化學習已成為提升大型語言模型推理能力的關鍵手段,然而現有的探索機制從根本上與模型的實際學習方式存在錯位。熵獎勵和外部語義比較器雖能激發表面層次的變化,但無法保證採樣軌跡在影響優化方向的更新維度上產生實質差異。我們提出梯度引導強化學習(G2RL)框架,其探索驅動力並非來自外部啟發式規則,而是源於模型自身的一階更新幾何。針對每個回應,G2RL 從模型最後一層的敏感度中提取序列級特徵(該特徵可通過標準前向傳播以可忽略的成本獲取),並通過在採樣組內比較這些特徵來衡量每條軌跡對策略的重塑作用。引入新梯度方向的軌跡將獲得有界的乘積獎勵係數,而冗餘或偏離流形的更新則會被抑制,從而產生與 PPO 風格穩定性及 KL 控制自然契合的自指涉探索信號。在 Qwen3 基礎版 1.7B 和 4B 模型上進行的數學與通用推理基準測試(MATH500、AMC、AIME24、AIME25、GPQA、MMLUpro)表明,G2RL 在 pass@1、maj@16 和 pass@k 指標上均穩定優於基於熵的 GRPO 及外部嵌入方法。透過分析誘導出的幾何特徵,我們發現 G2RL 在保持語義連貫性的同時,將探索範圍擴展至更多正交且常呈對立的梯度方向,這揭示出策略自身的更新空間能為大型語言模型強化學習提供更精準有效的探索指導基礎。
近期多语言命名实体识别研究显示,大型语言模型能提供有效的合成监督数据,但这类数据集大多作为广泛实验的副产品出现,而非系统化、可复用的资源。我们推出FiNERweb数据集构建流程,将师生范式扩展至91种语言和25种文字体系。基于FineWeb-Edu框架,该方法训练回归模型识别NER相关文本段落,并通过多语言LLM进行标注,最终生成约22.5万段文本、包含23.5万个独立实体标签。实验表明:回归模型F1值超过84%;使用FiNERweb训练的模型在英语、泰语和斯瓦希里语的零样本迁移场景中,仅用强基线1/19的数据量即获得相当或更优性能。通过LLM即评判员的质量评估显示,标注的忠实度(3.99/5)与完整度(4.05/5)持续保持高分,表明标注结果可靠且信息丰富。鉴于当前最优模型使用目标语言标签评估时F1值会下降0.02至0.09,我们同时发布含英文标签及目标语言翻译标签的数据集。现向学界开放FiNERweb及全部配套资源,以促进多语言命名实体识别领域更高效的师生训练范式发展。
大型语言模型正被越来越多地用于生成合成数据集,以评估和训练下游模型。然而,已有研究指出此类生成数据存在多样性不足的问题。本文提出Voyager——一种基于数学原理的新型数据集多样性生成方法。该方法采用迭代优化策略,直接利用行列式点过程机制优化表征数据集多样性的数学指标。该方案无需训练过程、适用于闭源模型且具备可扩展性。我们不仅从理论层面论证了方法的有效性,还通过全面实验证明:Voyager在多样性指标上显著优于主流基线方法,提升幅度达1.5至3倍。
自回归视频扩散模型在仿真世界方面前景广阔,但存在训练测试失配导致的曝光偏差问题。现有研究虽能通过后训练方式缓解此问题,但通常依赖双向教师模型或在线判别器。为实现端到端解决方案,我们提出重采样强制——一种无需教师模型的框架,支持从零开始大规模训练自回归视频模型。该方法的核心理念是自重采样机制,在训练过程中模拟推理阶段历史帧的模型误差。基于这些退化历史帧,稀疏因果掩码在保持时序因果关系的同时,支持结合帧级扩散损失的并行训练。为提升长序列生成效率,我们进一步提出历史路由机制:这种无参数方法能动态检索与每个查询帧最相关的k个历史帧。实验表明,本方法在达到与基于蒸馏的基线相当性能的同时,因采用原生长度训练,在长视频上展现出更优的时序一致性。
自動駕駛長期依賴模組化的「感知-決策-行動」流水線架構,其手工構建的接口與基於規則的組件在複雜或長尾場景中往往失效。這種級聯設計還會傳播感知誤差,導致下游規劃與控制性能衰退。視覺-行動模型通過學習從視覺輸入到動作的直接映射解決了部分局限,但仍存在可解釋性差、對分佈偏移敏感、缺乏結構化推理與指令跟隨能力等問題。近期大型語言模型與多模態學習的進展推動了視覺-語言-行動框架的興起,該框架將感知與基於語言的決策相融合。通過統一視覺理解、語言推理與可執行輸出,VLA為實現更具可解釋性、泛化性且符合人類意圖的駕駛策略開闢了新路徑。本文對新興的自動駕駛VLA領域進行系統化梳理:追溯從早期VA方法到現代VLA框架的演進歷程,將現有方法歸納為兩大範式——整合感知、推理與規劃的端到端VLA,以及將慢速決策(通過視覺語言模型)與快速安全關鍵執行(通過規劃器)分離的雙系統VLA。在此基礎上進一步區分文本型/數值型動作生成器、顯式/隱式引導機制等子類,總結用於評估VLA駕駛系統的代表性數據集與基準,並重點闡述包括魯棒性、可解釋性與指令保真度在內的關鍵挑戰與開放方向。本研究旨在為推進人機協同的自動駕駛系統建立統一的理論基礎。
近期视频生成技术取得了显著进展,使得模型能够生成具有同步音频的视觉吸引力视频。尽管现有视频生成基准测试提供了视觉质量的综合评估指标,但缺乏对音视频生成能力的可信评估,特别是针对同步音视频输出模型的评测。为填补这一空白,我们推出VABench——一个多维度综合基准测试框架,旨在系统评估同步音视频生成能力。该框架涵盖三大任务类型:文本到音视频生成(T2AV)、图像到音视频生成(I2AV)以及立体声音视频生成,并建立了两大评估模块共15个维度。这些维度专门评估文本-视频、文本-音频、视频-音频的成对相似度、音视频同步性、唇语-语音一致性,以及精心设计的音视频问答对等指标。此外,VABench覆盖七大内容类别:动物声效、人声、音乐、环境音、同步物理音效、复杂场景和虚拟世界。我们通过系统化结果分析与可视化呈现,旨在为具备同步音频能力的视频生成模型建立新的评估标准,推动该领域的全面发展。
在最基本的層面上,像素是構成我們感知世界的視覺信息之源。像素包含從低階屬性到高階概念的全面信息。自動編碼器作為經典且歷久彌新的範式,始終是從像素或其他原始輸入中學習表徵的重要方法。本研究證實,基於自動編碼器的自監督學習在當下仍具競爭力,能為下游任務生成強健的表徵,同時保持簡潔性、穩定性與高效性。我們代號為"Pixio"的模型是一種增強型掩碼自動編碼器(MAE),具備更具挑戰性的預訓練任務和更強大的架構。該模型通過自主篩選策略在20億網絡圖像上進行訓練,極少依賴人工標註。Pixio在開放環境下的多項下游任務中表現卓越,包括單目深度估計(如Depth Anything)、前饋式三維重建(即MapAnything)、語義分割及機器人學習,其性能超越或持平同等規模訓練的DINOv3。實驗結果表明,像素空間的自監督學習可作為潛在空間方法極具前景的替代方案與補充手段。
文本到图像生成模型的快速发展正在彻底改变视觉内容创作方式。尽管Nano Banana Pro等商业产品已获得广泛关注,但其作为传统低层级视觉挑战通用解决方案的潜力仍待深入探索。本研究旨在回答一个关键问题:Nano Banana Pro是否堪称低层级视觉全能选手?我们通过对涵盖40个异构数据集的14类低层级任务进行系统化零样本评估,在未经微调的情况下使用简易文本提示,将Nano Banana Pro与最先进的专项模型进行对标。深入分析揭示出显著的性能二分现象:虽然Nano Banana Pro展现出卓越的主观视觉质量,其生成的高频细节甚至优于专项模型,但在传统基于参考图像的量化指标上表现欠佳。我们将此差异归因于生成模型固有的随机性特性,使其难以满足传统指标对像素级一致性的严苛要求。本报告确认Nano Banana Pro作为低层级视觉任务零样本解决方案的竞争力,同时指出要达到领域专家级保真度仍面临重大挑战。
我们推出FrontierCS基准测试集,该集合包含156个涵盖计算机科学各领域的开放式问题,由包括计算机科学博士、顶尖竞技编程选手与命题专家在内的团队设计并审核。与现有聚焦已知最优解任务的基准不同,FrontierCS针对的是最优解未知但解决方案质量可客观评估的难题。模型需通过实现可执行程序(而非直接输出答案)来求解这些问题。该基准包含两类问题:一类是常为NP难问题的竞技编程变体题,采用客观部分评分机制;另一类是具有相同特性的研究型问题。每个问题均配备专家参考解决方案和自动评估器。通过融合开放式设计、可量化进展与专家评审机制,FrontierCS构建了处于计算机科学难度前沿的评估基准。实证研究表明:在算法与研究双轨任务中,前沿推理模型仍远落后于人类专家;单纯增加推理预算无法弥合这一差距;模型常过度追求生成勉强可运行的代码,而非探索高质量算法与系统设计。
大型语言模型(LLM)扩展上下文窗口所带来的计算与内存开销严重制约了其可扩展性。视觉文本压缩(VTC)作为一种值得关注的解决方案,通过DeepSeek-OCR和Glyph等框架将长文本转化为密集的二维视觉表征,实现了3至20倍的标记压缩率。然而,这种高信息密度对视觉语言模型(VLM)核心长上下文能力的影响尚未得到充分研究。为填补这一空白,我们首次提出VTC专项评测基准,系统评估VLM在三种长上下文理解场景下的表现:VTC检索(评估模型检索与整合信息的能力)、VTC推理(要求模型通过潜在关联推断定位词汇重叠度最低的事实)以及VTC记忆(衡量长期对话记忆中的综合问答能力)。此外,我们还构建了VTCBench-Wild以模拟多样化输入场景。通过对主流开源与商业模型的全面评测,研究发现尽管大多数VLM能良好解码文本信息(如OCR),但在处理VTC压缩信息时表现出惊人的长上下文理解缺陷,难以捕捉上下文中的长程关联与依赖。本研究为深入理解VTC提供了重要依据,并为设计更高效、可扩展的VLM奠定了理论基础。
大型语言模型智能体正越来越多地被部署在产生海量动态情境的环境中。然而一个关键瓶颈依然存在:虽然智能体能够获取这些情境信息,但其静态提示词缺乏有效管理机制,导致校正性和增强性故障反复出现。为弥补这一能力缺口,我们提出了SCOPE(基于提示词进化的自演化情境优化)框架。该框架将情境管理构建为在线优化问题,通过综合分析执行轨迹生成指导原则,实现智能体提示词的自动化演进。我们设计了双流机制来平衡战术特异性(解决即时错误)与战略通用性(演进长期原则),并引入视角驱动探索机制以最大化策略覆盖范围,提升智能体针对特定任务具备正确策略的概率。在HLE基准测试上的实验表明,SCOPE框架将任务成功率从14.23%提升至38.64%且无需人工干预。项目代码已开源:https://github.com/JarvisPei/SCOPE。
自动识别系统(AIS)虽能实现数据驱动的海事监控,但存在可靠性不足与数据间隔不规则的问题。针对全球范围AIS数据的船舶目的地估计任务,我们提出一种差异化方法,将长距离港到港轨迹重构为嵌套式序列结构。该方法通过空间网格化在保持精细分辨率的同时缓解时空偏差,并创新性地设计了WAY深度学习架构来处理重构轨迹,实现提前数天至数周的长期目的地预测。WAY架构包含轨迹表征层和通道聚合序列处理(CASP)模块:表征层从运动学与非运动学特征生成多通道向量序列;CASP模块采用多头通道注意力与自注意力机制实现特征聚合与序列信息传递。此外,我们提出专用于本任务的梯度丢弃(GD)技术,通过基于样本长度随机阻断梯度流,在单标签训练中实现多对多映射,避免偏差反馈激增。基于五年AIS数据的实验表明,WAY在不同轨迹进度下均优于传统空间网格方法;结果同时验证GD技术能带来性能提升。最后,我们通过ETA估计的多任务学习探索了WAY在现实场景中的应用潜力。
强化学习(RL)智能体的性能关键取决于底层特征表示的质量。双曲特征空间特别适合这一用途,因其能自然捕捉复杂RL环境中普遍存在的层次化与关联性结构。然而由于RL的非平稳性,利用这些空间通常面临优化挑战。本研究揭示了决定双曲深度RL智能体训练成败的关键因素。通过分析庞加莱球模型和双曲面模型中核心运算的梯度,我们发现大范数嵌入会破坏基于梯度的训练稳定性,导致近端策略优化(PPO)中的信任域违例。基于这些发现,我们提出Hyper++新型双曲PPO智能体,其包含三大组件:(i)通过分类值损失函数替代回归实现稳定的评论家训练;(ii)特征正则化在保证范数有界的同时避免梯度裁剪引发的维度灾难;(iii)采用优化友好的双曲网络层形式。在ProcGen平台的实验中,Hyper++能确保稳定学习,性能超越现有双曲智能体,并将挂钟时间缩短约30%。在Atari-5环境配合Double DQN算法时,Hyper++显著优于欧几里得与双曲基线方法。代码已发布于https://github.com/Probabilistic-and-Interactive-ML/hyper-rl。
小型語言模型(SLMs)在需要低延遲和輕量級部署的任務中(尤其是分類任務)得到廣泛應用。隨著可解釋性與魯棒性日益受到重視,解釋引導學習已成為一種有效框架——通過在訓練過程中引入基於歸因的監督機制;然而,如何獲取通用且可靠的歸因先驗仍是重大挑戰。通過對分類場景中代表性歸因方法的分析,我們發現儘管這些方法能可靠地標註與類別相關的語彙單元,但它們往往聚焦於語義相似類別間共有的關鍵詞。由於這類別在標準訓練下本就難以區分,此類歸因無法提供足夠的區分性線索,從而限制了其提升模型區分能力的效果。為突破這一局限,我們提出類別感知歸因先驗(CAP),這是一種新穎的歸因先驗提取框架,可引導語言模型捕捉細粒度類別差異,並生成更顯著、更具區分度的歸因先驗。基於此思路,我們進一步提出CAP混合框架(CAP Hybrid),將CAP生成的先驗與現有歸因技術的先驗相結合,形成更全面均衡的監督信號。通過使模型的自歸因與這些增強型先驗保持一致,我們的方法能促進對多樣化決策相關特徵的學習。在全數據、少樣本對抗場景下的廣泛實驗表明,該方法能持續提升模型的可解釋性與魯棒性。
混合專家模型已成為在不顯著增加計算成本的前提下擴展語言模型的實際架構。近期MoE模型呈現出明確的技術趨勢:高專家粒度化(更小的專家中間維度)與更高稀疏度(固定激活專家數量配合更多總專家數),這使得每FLOP的模型質量得到提升。然而細粒度MoE面臨激活記憶體佔用增加與因更高IO成本導致的硬體效率下降,而更稀疏的MoE則因分組GEMM核心中的填充操作產生計算浪費。為此,我們提出一種記憶體高效演算法,能以最小化反向傳播激活快取的方式計算MoE的前向與反向傳播。同時設計了能重疊記憶體IO與計算的GPU核心,使所有MoE架構受益。最後,我們創新型「token取整」方法可最大限度減少分組GEMM核心中填充操作導致的計算浪費。實驗結果表明,對於細粒度70億參數MoE模型,我們的SonicMoE方法相比ScatterMoE的BF16 MoE核心,可降低45%激活記憶體佔用,並在Hopper GPU上實現1.86倍計算吞吐量提升。具體而言,在64張H100上運行的SonicMoE每日訓練吞吐量達2130億token,與在96張H100上使用FSDP-2和lm-engine程式庫訓練70億參數MoE模型的ScatterMoE(2250億token/日)相當。在高MoE稀疏度設定下,我們具備分塊感知的token取整演算法相較傳統top-K路由機制,在保持相近下游性能的同時,可實現核心執行時間額外1.16倍加速。我們已開源所有核心程式碼以促進更高效的MoE模型訓練。
个性化大型语言模型应能记住用户事实、准确应用这些信息,并随时间推移不断调整以提供符合用户偏好的回应。现有LLM个性化基准主要围绕两个维度展开:准确回忆用户信息,以及在下游任务中准确应用已记忆信息。我们认为第三个维度——好感度——既具有主观性又是用户体验的核心,却在当前基准测试中未被充分衡量。为全面评估好感度,我们提出LikeBench这一多轮次动态评估框架,通过衡量LLM随时间推移适应用户偏好以提供更受欢迎回应的能力,从多维度评估好感度。在该框架中,LLM与模拟用户对话,仅通过持续交流学习偏好。随着互动推进,模型尝试调整回应策略,并在每轮对话后由同一模拟用户从七个维度进行好感度评估。据我们所知,我们首次将好感度分解为七项诊断性指标:情感适配度、正式度匹配度、知识适配度、指代理解度、对话长度契合度、幽默契合度及话题回调能力,从而更精准定位模型短板。为使模拟用户更具真实性与区分度,LikeBench采用基于心理学原理的细粒度描述性人格画像,而非既往研究中粗粒度的"高/低特质评分"式人格设定。我们的基准测试表明,强记忆性能并不保证高好感度:DeepSeek R1的记忆准确率较低(86%,每档案17条事实),但其好感度得分反超Qwen3达28%,尽管后者的记忆准确率更高(93%,每档案43条事实)。即便是GPT-5等前沿模型,在简短交流中表现良好,但在更长、更具噪声的互动中仅展现出有限鲁棒性。
机器人操作既需要丰富的多模态感知能力,也需有效的学习框架以应对复杂现实任务。融合触觉与视觉感知的透皮(STS)传感器展现出卓越的传感潜力,而现代模仿学习为策略获取提供了强大工具。然而,现有STS设计无法实现同步多模态感知,且存在触觉追踪不可靠的问题。此外,如何将这些丰富的多模态信号整合至基于学习的操作流程中仍是待解难题。我们提出具备同步视觉感知与鲁棒触觉信号提取能力的TacThru传感器,以及利用多模态信号进行操作的TacThru-UMI模仿学习框架。该传感器采用全透明弹性体、持久照明、新型标记线与高效追踪算法,学习系统则通过基于Transformer的扩散策略整合多模态信号。在五项现实挑战性任务中的实验表明,TacThru-UMI平均成功率达85.5%,显著优于交替触觉-视觉(66.3%)和纯视觉(55.4%)基线。该系统在薄软物体接触检测、需多模态协同的精密操作等关键场景中表现优异。本研究证明,将同步多模态感知与现代学习框架相结合,可实现更精准、自适应强的机器人操作。
人类对话包含言语与非语言信号的持续交流,如传递注意力和情绪的点头、视线转移及面部表情。在三维空间中建模这种双向动态对于构建具有表现力的虚拟形象和交互式机器人至关重要。然而现有框架常将说话与倾听视为独立过程,或依赖非因果的全序列建模,导致跨对话轮次的时间连贯性受阻。我们提出TIMAR(轮次级交错掩码自回归)框架,该因果推理框架通过将对话建模为交错的多模态上下文,实现三维对话头部动作生成。它在每个轮次内融合多模态信息,应用轮次级因果注意力积累对话历史,同时采用轻量级扩散头预测连续三维头部动态,兼顾协调性与表现力变化。在DualTalk基准测试中,TIMAR将测试集的弗雷谢距离和均方误差降低15-30%,在分布外数据上也取得相近提升。源代码将发布于GitHub仓库https://github.com/CoderChen01/towards-seamleass-interaction。