每日精選AI研究論文及翻譯
隨著高品質公開文本趨於耗盡(即所謂的「數據牆」現象),預訓練正從追求更多標記轉向追求更優質的標記。然而,現有方法要么依賴於忽略訓練動態的啟發式靜態篩選器,要么使用基於原始梯度、具動態性但與優化器無關的標準。我們提出OPUS(優化器驅動的投影效用選擇),這是一種動態數據選擇框架,其將效用定義於優化器驅動的更新空間中。OPUS通過將候選數據經現代優化器塑造的有效更新,投影到從穩定、同分布代理目標推導出的方向上,從而對候選數據進行評分。為確保可擴展性,我們採用基於CountSketch的Ghost技術以提升計算效率,並結合Boltzmann採樣保障數據多樣性,僅產生4.7%的額外計算開銷。OPUS在多樣化語料庫、質量層級、優化器及模型規模下均取得顯著成果。在FineWeb與FineWeb-Edu數據集上對GPT-2 Large/XL進行300億標記的預訓練時,OPUS不僅超越工業級基線,甚至優於完整2000億標記的訓練效果。此外,當與工業級靜態篩選器結合使用時,OPUS能進一步提升預訓練效率,即使面對低質量數據亦然。更進一步,在Qwen3-8B-Base模型於SciencePedia上的持續預訓練中,OPUS僅使用5億標記即達到優於完整30億標記訓練的性能,展現了在專業領域中顯著的數據效率提升。
自主GUI代理通過感知介面並執行操作來與環境互動。GUI世界模型作為虛擬沙盒,透過動作條件預測使代理具備類人預見能力。然而現有基於文本和像素的方法難以同時實現高視覺保真度與細粒度結構可控性。為此,我們提出Code2World——一種透過可渲染代碼生成來模擬下一視覺狀態的視覺語言編碼器。具體而言,為解決數據稀缺問題,我們構建AndroidCode數據集:將GUI軌跡轉譯為高保真HTML,並透過視覺反饋修正機制精煉合成代碼,最終獲得包含8萬餘高質量螢幕-動作對的語料庫。為使現有VLM適應代碼預測任務,我們首先進行SFT作為格式佈局跟蹤的冷啟動,隨後應用渲染感知強化學習——以渲染結果作為獎勵信號,強化視覺語義保真度與動作一致性。大量實驗表明,Code2World-8B在下一代UI預測任務中表現頂尖,可與競爭對手GPT-5和Gemini-3-Pro-Image相媲美。值得注意的是,Code2World以靈活方式顯著提升下游導航成功率,在AndroidWorld導航任務中將Gemini-2.5-Flash的性能提升9.5%。代碼已開源於:https://github.com/AMAP-ML/Code2World。
圖形使用者介面代理已成為自動化數位環境互動的強大範式,然而要同時實現廣泛通用性與穩定高效的任務執行能力仍具挑戰性。本報告提出UI-Venus-1.5——專為強健現實應用設計的統一端到端GUI代理。該模型系列包含兩個稠密版本(2B與8B)及一個專家混合版本(30B-A3B),以滿足各類下游應用場景需求。相較前代版本,UI-Venus-1.5引入三大關鍵技術突破:(1)透過整合30餘個數據集、百億標記量的綜合中期訓練階段,建立基礎GUI語義理解;(2)採用全軌跡推演的線上強化學習,使訓練目標與大規模環境中的長時程動態導航需求對齊;(3)透過模型融合技術構建統一GUI代理,將領域專精模型(基礎定位、網頁端與移動端)整合為協同運作的單一檢查點。大量實驗表明,UI-Venus-1.5在ScreenSpot-Pro(69.6%)、VenusBench-GD(75.0%)和AndroidWorld(77.6%)等基準測試中創下最新性能紀錄,顯著超越先前強基線模型。此外,該模型在多元中文移動應用場景中展現出穩健的導航能力,可於真實環境中有效執行使用者指令。程式碼:https://github.com/inclusionAI/UI-Venus;模型:https://huggingface.co/collections/inclusionAI/ui-venus
人類解決問題的過程從不是單一思維模式的機械重複——這裡的「思維模式」特指一種獨特的認知處理方式。在處理具體任務時,我們並非依賴單一思維模式,而是將多種思維模式整合於單一解決流程中。然而,現有的大型語言模型推理方法普遍陷入一個誤區:它們在所有步驟中套用相同的固定思維模式,忽略了解決同一問題的不同階段需要根本性差異化的思維模式。這種單一化假設阻礙了模型實現更高層級的智能。為突破此限制,我們提出思維鏈框架——一種免訓練的智能體框架,可實現步驟級自適應思維模式協調。該框架將推理分解為四種功能異構的思維模式:空間思維、聚合思維、發散思維與算法思維。元智能體根據動態演進的推理狀態實時選擇最優思維模式,雙向上下文閘門則通過過濾跨模塊信息流來維持推理效能與效率。在涵蓋數學、代碼生成、科學問答及空間推理的六大挑戰性基準測試中,思維鏈框架均取得最先進性能:在Qwen3-VL-32B-Instruct和Gemini-2.0-Flash模型上分別以4.96%和4.72%的整體準確率優勢超越最強基線模型,同時保持推理效率平衡。相關代碼已公開於https://github.com/QuantaAlpha/chain-of-mindset。
大型語言模型(LLM)代理在複雜任務中展現出驚人成效,卻常因孤立運作而無法從過往經驗中學習。現有基於記憶的方法主要儲存原始軌跡,但這些數據往往存在冗餘與雜訊,阻礙代理提取對泛化至關重要的高階可重複行為模式。本文提出SkillRL框架,透過自動技能發現與遞迴演化機制,在原始經驗與策略提升之間建立橋樑。我們的方法包含三項創新:基於經驗的蒸餾機制構建分層技能庫SkillBank、適用通用與特定任務啟發的自適應檢索策略,以及使技能庫能在強化學習過程中與代理策略協同演化的遞迴進化機制。這些設計在提升推理效用的同時顯著降低標記使用量。在ALFWorld、WebShop及七項搜索增強任務上的實驗表明,SkillRL以超過強基線15.3%的優勢達成頂尖性能,並在任務複雜度增加時保持穩健性。程式碼已開源於:https://github.com/aiming-lab/SkillRL。
從符號操作到科學級推理的轉變,代表著大型語言模型(LLM)發展的關鍵前沿,而物理學正是將抽象邏輯與物理現實綁定的核心試驗場。物理學要求模型必須與宇宙運作法則保持物理一致性,這項任務從根本上需要多模態感知能力來將抽象邏輯落地於現實。在奧林匹克競賽層級,圖示往往具有構成性而非僅是輔助說明,其中包含文本未提及的關鍵約束條件,例如邊界條件和空間對稱性。為彌合這種視覺-邏輯鴻溝,我們推出P1-VL系列開源視覺語言模型,專為高階科學推理設計。我們的方法融合課程強化學習(通過漸進式難度擴展穩定訓練後階段)與智能體增強技術(實現推理時的迭代自我驗證)。在涵蓋2024-2025年13場競賽的嚴苛基準HiPhO上評估,旗艦模型P1-VL-235B-A22B成為首個斬獲12面金牌的開源視覺語言模型(VLM),並在開源模型中實現最先進性能。我們的智能體增強系統位列全球總排名第二,僅次於Gemini-3-Pro。在物理學之外,P1-VL更展現出卓越的科學推理能力與泛化性,在STEM基準測試中相較基礎模型建立顯著優勢。通過開源P1-VL,我們為實現通用物理智能邁出奠基性一步,使機器科學發現能更好地將視覺感知與抽象物理法則對齊。
近年來大型語言模型(LLM)的突破性進展,使自主代理能夠執行需要與工具及環境進行多輪互動的複雜任務。然而,由於缺乏多樣化且可靠的環境資源,這類代理訓練的規模化發展受到限制。本文提出代理世界模型(AWM)——一個完全合成式的環境生成流程。通過該流程,我們成功構建了涵蓋日常場景的1,000個環境,代理可在其中與豐富的工具集(平均每個環境35種工具)互動並獲取高質量觀測數據。值得注意的是,這些環境由代碼驅動並以數據庫為支撐,相較於LLM模擬的環境能提供更可靠、一致的狀態轉換。此外,與從真實環境收集軌跡數據相比,該方法能實現更高效的代理互動。為驗證此資源的有效性,我們針對多輪工具使用代理進行大規模強化學習訓練。得益於完全可執行的環境與可訪問的數據庫狀態,我們還能設計出可靠的獎勵函數。在三個基準測試上的實驗表明,僅在合成環境中訓練(而非針對特定基準環境)能產生強大的分佈外泛化能力。程式碼已開源於:https://github.com/Snowflake-Labs/agent-world-model。
區塊稀疏注意力機制在加速長文本LLM預填充階段展現潛力,但如何高效識別相關區塊仍是瓶頸。現有方法通常採用粗粒度注意力作為區塊重要性評估的代理指標,卻往往依賴昂貴的詞元級搜索或評分機制,導致顯著的選擇開銷。本文通過理論分析指出,標準基於均值池化的粗粒度注意力不準確性根源在於:均值池化與旋轉位置編碼(RoPE)的交互作用。我們證明均值池化相當於低通濾波器,會在高頻維度引發破壞性干涉,從而對局部位置信息(如斜線模式)形成「盲區」。為解決此問題,我們提出無需訓練的頻譜感知方法Prism,將區塊選擇分解為高頻與低頻雙分支。通過基於能量的溫度校準技術,Prism能直接從池化表徵中恢復衰減的位置信號,實現純區塊級操作的區塊重要性評估,從而提升效率。大量實驗驗證表明,Prism在保持與全注意力機制精度相當的同時,可實現最高5.1倍的加速比。
近日,扩散大语言模型(dLLM)凭借其固有的并行解码机制和灵活的生成范式,展现出独特的效率优势。与此同时,尽管搜索智能体发展迅速,但其实际部署仍受限于两大核心挑战:1)延迟挑战:在ReAct智能体范式下,多轮推理、工具调用及工具响应等待的串行执行会导致严重的端到端延迟。理论上,dLLM可凭借其独特优势优化ReAct范式下智能体的运行效率。但实践中,现有dLLM骨干模型面临2)智能体能力挑战:即现有dLLM表现出明显薄弱的推理与工具调用能力,致使这些优势无法有效落地。本文提出DLLM-Searcher这一基于dLLM的搜索智能体优化框架。针对智能体能力挑战,我们设计包含智能体监督微调(Agentic SFT)与智能体方差缩减偏好优化(Agentic VRPO)的两阶段后训练流程,增强骨干dLLM的信息检索与推理能力。为缓解延迟挑战,我们利用dLLM的灵活生成机制,提出名为并行推理与执行(P-ReAct)的新型智能体范式。P-ReAct引导模型优先解码工具调用指令,使模型在等待工具返回时可持续进行思考。实验结果表明,DLLM-Searcher达到与主流基于LLM的搜索智能体相当的性能,且P-ReAct可实现约15%的推理加速。代码已开源:https://anonymous.4open.science/r/DLLM-Searcher-553C
動作可控世界模型的規模化拓展受制於動作標籤的稀缺性。雖然潛在動作學習有望從未標註影片中提取控制介面,但習得的潛在表徵常難以跨情境遷移:它們會與場景特定線索糾纏,且缺乏統一的座標系。這一問題的根源在於標準優化目標僅在單一影片片段內生效,缺乏跨情境對齊動作語義的機制。我們的核心洞見是:儘管動作本身不可觀測,但其語義效果可被觀測並作為共享參照基準。我們提出SeqΔ-REPA——一種序列層級的控制效果對齊目標,通過凍結的自監督影片編碼器產生的時序特徵差異來錨定整合潛在動作。基於此,我們開發了Olaf-World流程,能夠從大規模被動觀測影片中預訓練動作條件化的影片世界模型。大量實驗表明,相較於現有頂尖基線方法,我們的方法能學習到更具結構化的潛在動作空間,在零樣本動作遷移任務中表現優異,並能更高效地適應新型控制介面。
我们在专业工作流下研究基于指令的图像编辑,发现存在三个持续存在的挑战:(i) 编辑器常出现过度编辑,修改内容超出用户意图;(ii)现有模型多为单轮编辑,而多轮编辑可能破坏对象保真度;(iii)约1K分辨率下的评估与真实工作流脱节,后者常需处理超高清图像(如4K)。为此提出Agent Banana——一种用于高保真、对象感知、审慎编辑的分层智能体规划-执行框架。该框架引入两大核心机制:(1)上下文折叠:将长交互历史压缩为结构化记忆,实现稳定的长程控制;(2)图像图层分解:基于局部化图层进行编辑,在保持非目标区域的同时支持原生分辨率输出。为支撑严谨评估,我们构建了HDD-Bench高清对话式基准数据集,包含可验证的渐进式目标及原生4K图像(1180万像素),用于诊断长程编辑失败案例。在HDD-Bench上,Agent Banana在保持指令跟随竞争力的同时,实现了最佳的多轮一致性及背景保真度(如IC 0.871、SSIM-OM 0.84、LPIPS-OM 0.12),并在标准单轮编辑基准上表现强劲。本研究有望推动可靠的专业级智能体图像编辑技术及其在实际工作流中的集成应用。
自回归视频生成技术通过将新生成的帧序列迭代地基于先前生成内容进行条件化,实现了长视频合成。然而近期研究表明,此类流程存在严重的时间漂移问题——误差会随时间推移不断累积放大。我们提出假设:这种漂移现象主要并非源于模型容量不足,而是由推理过程中的误差传播导致。具体而言,我们认为漂移源于自回归推理过程中被污染潜变量条件标记的不可控重复使用。为纠正这种误差累积,我们提出一种简单的推理阶段修正方法,通过在重复使用条件标记前识别并移除不稳定潜变量标记来抑制时间漂移。我们将不稳定标记定义为表征向量与前一生成批次显著偏离的潜变量标记,这种偏离暗示着可能存在数据污染或语义漂移。通过从自回归上下文中显式剔除受损潜变量标记(而非修改整个空间区域或模型参数),本方法能阻止不可靠的潜在信息影响后续生成步骤。实验表明,该方法无需修改模型架构、训练流程或脱离潜空间,即可显著提升长序列生成的时间一致性。
近期研究已探索自回归模型在图像生成领域的应用并取得显著成果,同时将扩散模型与自回归框架相结合,通过扩散损失优化图像生成。本研究针对采用扩散损失的扩散模型与自回归模型展开理论分析,重点揭示后者的优势。我们通过理论对比证明,自回归扩散模型中的块去噪优化能有效抑制条件误差,形成稳定的条件分布。分析还发现自回归条件生成过程可精炼条件信息,使条件误差影响呈指数级衰减。此外,我们基于最优传输理论提出新型条件精炼方法,以解决"条件不一致"问题。理论分析表明,将条件精炼建模为Wasserstein梯度流可确保收敛至理想条件分布,有效缓解条件不一致现象。实验结果表明,本方法优于采用扩散损失的扩散模型与自回归模型。
视觉-语言-动作(VLA)模型已成为通用机器人控制领域的重要范式,其中测试时扩展(TTS)技术通过增强训练外场景的鲁棒性而备受关注。然而,现有VLA的TTS方法需额外训练、验证器及多次前向传播,难以实际部署。此外,这些方法仅干预动作解码而保持视觉表征固定——这在感知模糊场景中存在局限,因为重新评估感知方式与决策行动同等重要。为解决这些问题,受主动推理理论中不确定性驱动探索的启发,我们提出SCALE:一种基于"自我不确定性"联合调节视觉感知与动作的简易推理策略。该方法无需额外训练、无需验证器,且仅需单次前向传播。SCALE能在高不确定性时拓宽感知与动作的探索空间,在置信度高时聚焦于利用策略,从而实现跨场景的自适应执行。仿真与真实场景实验表明,SCALE不仅能提升前沿VLA模型性能,在保持单次推理效率的同时也优于现有TTS方法。
將大型語言模型(LLM)轉化為視覺語言模型(VLM)可通過將視覺編碼器產生的視覺標記映射至LLM的嵌入空間來實現。有趣的是,這種映射僅需一個淺層多層感知機(MLP)變換即可完成。為理解LLM為何能如此順暢地處理視覺標記,我們需要可解釋性方法來揭示LLM每一層處理過程中視覺標記表徵所編碼的內容。本研究提出LatentLens——一種將潛在表徵映射至自然語言描述的新方法。該方法通過編碼大規模文本語料庫,並存儲語料中每個標記的上下文表徵來實現。隨後將視覺標記表徵與其上下文文本表徵進行比對,並通過Top-k最近鄰表徵生成視覺標記的描述。我們在10種不同VLM上評估該方法,結果表明常用方法(如LogitLens)會嚴重低估視覺標記的可解釋性。而使用LatentLens時,所有研究模型和所有層級中的多數視覺標記均具備可解釋性。定性分析顯示,LatentLens生成的描述具有語義相關性,且相比單個標記能為人類提供更細粒度的解釋。更廣泛而言,我們的研究為視覺與語言表徵的對齊性提供了新證據,為分析潛在表徵開闢了新方向。
为实现通用操作能力,赋予具身智能体任务推理、物理结果预测和精确动作生成的能力至关重要。尽管当前视觉-语言-动作模型已利用预训练基础模型,但它们通常孤立地关注语言规划或视觉预测单一维度。这些方法很少能同时整合双重能力来指导动作生成,导致在复杂长程操作任务中表现欠佳。为弥补这一缺陷,我们提出BagelVLA——一个在统一框架中集成语言规划、视觉预测与动作生成的融合模型。该模型基于预训练的统一理解与生成模型进行初始化,通过训练将文本推理和视觉预测直接嵌入动作执行循环。为实现多模态高效耦合,我们引入残差流引导技术:该方法从当前观测状态初始化,利用单步去噪提取预测性视觉特征,以极低延迟指导动作生成。大量实验表明,BagelVLA在多个仿真与真实环境基准测试中显著超越现有基线模型,尤其在需要多阶段推理的任务中表现突出。
训练能够适应多样化场景的通才智能体,需要可供自主探索的交互式环境。然而当前交互环境仍极度匮乏,且现有合成方法在环境多样性与可扩展性方面存在显著局限。为应对这些挑战,我们提出ScaleEnv框架,该框架能够从零开始构建完全交互式的环境与可验证任务。具体而言,ScaleEnv通过程序化测试确保环境可靠性,并借助工具依赖图扩展与可执行动作验证来保证任务完整性与可解性。通过让智能体在ScaleEnv中进行探索式学习,我们在τ^2-Bench和VitaBench等未见过的多轮工具使用基准测试中实现了显著性能提升,展现出强大的泛化能力。此外,我们探究了领域数量增加与模型泛化性能之间的关系,通过实证证明扩展环境多样性对于实现稳健的智能体学习至关重要。
在互联网规模的视频数据上预训练视觉-语言-动作(VLA)策略具有吸引力,但当前的潜在动作目标往往存在学习偏差:这些方法仍受限于像素变化而非与动作相关的状态转换,导致其易受外观偏差、干扰运动和信息泄漏的影响。我们提出VLA-JEPA,一种基于联合嵌入预测架构(JEPA)的预训练框架,其设计原理能有效规避上述缺陷。核心思想是实现无泄漏的状态预测:目标编码器从未来帧生成潜在表征,而学生通路仅接收当前观测——未来信息仅作为监督目标,绝不作为输入。通过在潜在空间而非像素空间进行预测,VLA-JEPA能学习对相机运动和无关背景变化具有鲁棒性的动态抽象表征。由此形成简单的两阶段方案——JEPA预训练后接动作头微调——无需传统潜在动作流程的多阶段复杂性。在LIBERO、LIBERO-Plus、SimplerEnv仿真环境及真实世界操作任务上的实验表明,VLA-JEPA在泛化性和鲁棒性上均优于现有方法。
当前机器人学习的主流范式试图通过运行时语言提示来实现跨环境、具身形态和任务的泛化。但这种方法存在一个根本矛盾:语言往往过于抽象,难以指导稳健操作所需的具体物理理解。本研究提出接触锚定策略(CAP),用空间物理接触点替代语言条件约束。同时,我们将CAP构建为模块化功能模型库而非单一通用策略。这种分解式设计使我们能够实施实境-仿真迭代循环:通过构建轻量级仿真基准EgoGym,在真实场景部署前快速识别故障模式并优化模型与数据集。实验表明,基于接触条件约束和仿真迭代的CAP仅需23小时演示数据即可实现三种基础操作技能的新环境与新具身形态开箱泛化,在零样本评估中优于当前最先进的大规模视觉语言动作模型56%。所有模型检查点、代码库、硬件方案、仿真环境及数据集将全面开源。项目页面:https://cap-policy.github.io/
多智能体大语言模型系统通过角色分工实现了高级推理与工具调用能力,但针对此类系统的强化学习后训练仍存在稳定性难题。本文从理论层面揭示了将分组强化学习扩展至多智能体系统时训练不稳定的关键原因:在GRPO式优化过程中,全局归一化基线可能偏离异构智能体的奖励分布,最终引发梯度范数失稳。基于此发现,我们提出Dr. MAS——一种简洁稳定的多智能体大语言模型强化学习训练方案。该方法采用智能体级修正策略:利用各智能体自身的奖励统计量分别进行优势归一化,从而在理论与实证层面同步校准梯度规模,显著提升训练稳定性。除核心算法外,Dr. MAS构建了端到端的多智能体大语言模型强化学习框架,支持可扩展的系统编排、灵活的智能体级模型服务与优化配置,以及大语言模型执行后端的资源共享调度。基于Qwen2.5和Qwen3系列模型在多智能体数学推理与多轮搜索基准上的实验表明,Dr. MAS相较原始GRPO实现显著提升(数学任务平均指标提升5.6%、通过率提升4.6%;搜索任务平均指标提升15.2%、通过率提升13.1%),同时基本消除梯度尖峰现象。该方案在异构智能体模型分配场景下仍保持高效,并进一步提升系统效率。
从无标注视频数据中学习可迁移知识并应用于新环境,是智能体应具备的基础能力。本研究提出VideoWorld 2框架,在VideoWorld基础上首次探索直接从原始真实世界视频中学习可迁移知识。该框架的核心是动态增强的隐式动态模型(dLDM),其将动作动态与视觉外观解耦:通过预训练视频扩散模型处理视觉外观建模,使dLDM能够专注于学习紧凑且具任务相关性的动态隐式编码。这些隐式编码通过自回归建模学习任务策略,并支持长时序推理。我们在具有挑战性的真实世界手工艺制作任务上评估VideoWorld 2,而现有视频生成与隐式动态模型在此类任务中难以稳定运行。值得注意的是,VideoWorld 2实现了任务成功率最高70%的提升,并生成连贯的长时序执行视频。在机器人领域,我们证明VideoWorld 2能从Open-X数据集中获取有效的操作知识,显著提升在CALVIN基准上的任务表现。本研究揭示了直接从原始视频学习可迁移世界知识的潜力,所有代码、数据及模型将开源以促进后续研究。
高質量開放數據集仍是文本到圖像生成模型微調的主要瓶頸。儘管模型架構和訓練流程快速進步,但大多數公開微調數據集仍存在分辨率低、圖文對齊差或多樣性有限的問題,導致開源研究模型與企業級模型存在明顯性能差距。本研究推出Fine-T2I——一個大規模、高質量、完全開放的T2I微調數據集。該數據集涵蓋10種任務組合、32種提示詞類別、11種視覺風格和5種提示模板,融合了現代強模型生成的合成圖像與專業攝影師精心策展的真實圖像。所有樣本均經過圖文對齊度、視覺保真度和提示詞質量的嚴格篩選,初始候選樣本淘汰率超過95%。最終數據集包含逾600萬個圖文對,磁盤佔用約2TB,在保持微調級質量的同時接近預訓練數據集的規模。經人為評估、視覺比對和自動指標驗證,在各類預訓練擴散模型與自回歸模型上,使用Fine-T2I進行微調均能持續提升生成質量與指令遵循能力。我們以開放許可協議發布Fine-T2I,旨在助力開源社區彌合T2I微調領域的數據鴻溝。
针对终端任务训练智能体模型,关键在于获取能够捕捉跨领域真实长程交互的高质量终端轨迹数据。然而大规模构建此类数据仍面临两大挑战:\emph{可执行性}——每个实例都需要适配独特且适宜的Docker环境;\emph{可验证性}——异构任务输出难以进行统一标准化验证。为此我们提出TerminalTraj可扩展流水线,通过(一)筛选高质量代码库构建Docker化执行环境,(二)生成与Docker对齐的任务实例,(三)合成含可执行验证代码的智能体轨迹。基于该方案,我们构建了3.2万个Docker镜像,在八大领域生成50,733条经过验证的终端轨迹。采用Qwen2.5-Coder架构的模型在此数据上训练后,在TerminalBench(TB)评估中持续提升:TB~1.0提升幅度达20%,TB~2.0提升10%。值得注意的是,TerminalTraj-32B在百亿参数以下模型中表现强劲,TB~1.0达到35.30%,TB~2.0达到22.00%,并展现出更优的测试时扩展特性。所有代码与数据详见https://github.com/Wusiwei0410/TerminalTraj。
大型语言模型(LLMs)在处理长上下文时面临显著挑战,包括二次计算成本、信息遗忘以及检索增强生成(RAG)固有的上下文碎片化问题。我们提出一种受认知启发的长上下文高效推理框架,其核心在于基于分块压缩与选择性记忆提取,而非处理所有原始词元。该框架将长输入分割为文本块,通过学习型压缩器将每个块编码为压缩记忆表征。门控模块动态选择相关记忆块,随后由推理模块结合动态演进的工作记忆进行迭代处理以解决下游任务。压缩器与推理器通过端到端强化学习联合优化,而门控模块则作为分类器单独训练。实验结果表明,该方法在RULER-HQA等多跳推理基准测试中达到具有竞争力的准确率,上下文长度外推能力从7K词元提升至175万词元,且相较于强长上下文基线模型展现出更优的准确率-效率平衡。特别值得注意的是,其峰值GPU内存使用量较MemAgent降低达2倍,推理速度提升达6倍。
激活导向技术已成为高效调整大语言模型以适应下游行为的有效方法。然而现有导向方法大多依赖每个任务或概念的单一静态方向,导致其难以应对任务变化,也无法胜任需要多维度协调能力的复杂任务。为此,我们提出STEER2ADAPT轻量级框架,通过组合导向向量而非从头学习新向量来实现大语言模型适配。在推理、安全等诸多领域,不同任务往往共享少量底层概念维度。STEER2ADAPT将这些维度捕获为可复用的低维语义先验子空间,仅需少量示例即可通过动态发现基向量的线性组合来适应新任务。在推理与安全领域的9项任务和3种模型上的实验表明,STEER2ADAPT平均性能提升达8.2%。深入分析进一步揭示,该框架是一种数据高效、稳定性强且透明度高的大语言模型推理时适配方法。
扩散变换器通常通过注意力层和基于池化文本嵌入的调制机制来整合文本信息。然而,近期方法摒弃了基于调制的文本条件处理,完全依赖注意力机制。本文旨在探究基于调制的文本条件处理是否必要,以及其是否能带来性能优势。我们的分析表明,在传统应用场景中,池化嵌入对整体性能贡献甚微,这说明仅靠注意力机制通常足以准确传递提示信息。但我们发现,当从不同视角利用池化嵌入时——将其作为引导信号以实现向更理想属性的可控偏移——它能带来显著性能提升。这种方法无需重新训练、实现简单、运行时开销可忽略不计,可应用于各类扩散模型,在文本到图像/视频生成及图像编辑等多种任务中均能带来改进。
本研究推出Covo-Audio——一个拥有70亿参数、可直接处理连续音频输入并在单一架构内生成音频的端到端语言增强音频模型(LALM)。通过大规模精选预训练与针对性后训练,该模型在语音-文本建模、口语对话、语音理解、音频理解及全双工语音交互等广泛任务中,实现了同规模模型中最先进或具有竞争力的性能。大量评估表明,该预训练基础模型在多个基准测试中展现出强大的语音-文本理解与语义推理能力,优于同规模代表性开源模型。此外,面向对话优化的变体Covo-Audio-Chat表现出卓越的口语对话能力,包括理解、情境推理、指令遵循及生成情境适配的共情回应,验证了其在现实对话助手场景的适用性。进阶版全双工模型Covo-Audio-Chat-FD在口语对话能力与全双工交互行为上均实现显著提升,展现出实际应用中的强健性。为降低端到端LALMs在自然对话系统中的部署成本,我们提出智能-语音解耦策略,将对话智能与语音渲染分离,仅需少量文本转语音(TTS)数据即可实现灵活语音定制,同时保持对话性能。总体而言,我们的成果彰显了70亿参数模型融合精密音频智能与高层语义推理的巨大潜力,为构建更强大、通用的LALMs提供了可扩展路径。
思维链推理及其变体方法显著提升了语言模型在复杂推理任务中的表现,但不同策略促进泛化能力的具体机制尚未明晰。现有解释多指向测试时计算量的增加或结构化引导,然而要确立这些因素与泛化能力之间的量化关联仍具挑战。本研究提出以内在维度作为量化指标来刻画推理链的有效性——该指标指模型在特定任务上达到给定准确率阈值所需的最小维度数。通过固定模型架构而改变任务表述方式(采用不同推理策略),我们证明有效的推理策略能持续降低任务的内在维度。基于Gemma-3 1B和4B模型在GSM8K数据集上的验证表明,推理策略的内在维度与其在分布内和分布外数据上的泛化性能呈强负相关。这些发现揭示:有效的推理链通过以更少参数实现任务信息的更好压缩来促进学习,从而为分析推理过程提供了新的量化指标。
大型语言模型(LLMs)在解决复杂数学问题方面展现出潜力,但其生成方案的准确性与一致性仍有不足。强化学习(RL)作为一种框架,可通过任务特定奖励对齐模型,从而提升整体质量与可靠性。群体相对策略优化(GRPO)作为近端策略优化(PPO)的高效无价值函数替代方案,采用群体相对奖励归一化机制。我们提出迭代式群体相对策略优化(iGRPO),该两阶段扩展方法在GRPO基础上通过模型生成草稿实现动态自条件调节。第一阶段,iGRPO采样多个探索性草稿,并采用与优化过程相同的标量奖励信号选取最优草稿;第二阶段,将最优草稿附加至原始提示词后,对基于草稿条件的优化结果实施GRPO式更新,训练策略突破既往最佳尝试。在相同计算预算下,iGRPO在多个基础模型(如Nemotron-H-8B-Base-8K与DeepSeek-R1 Distilled)上均稳定超越GRPO,在多样化推理基准测试中验证了其有效性。此外,将iGRPO应用于经AceReason-Math数据集训练的OpenReasoning-Nemotron-7B模型后,在AIME24和AIME25分别达到85.62%与79.64%的最新顶尖水平。消融实验进一步表明:优化封装器具备超越GRPO变体的泛化能力,生成式评判器能提升性能,且该方法通过延迟熵崩溃改变学习动态。这些成果彰显了基于迭代式自反馈的强化学习在推进可验证数学推理方面的潜力。
有效扩展图形用户界面自动化对计算机使用代理至关重要,但现有工作主要聚焦于界面定位的扩展,而非更需要复杂数据收集的界面规划。现实中,代理在跨应用/桌面/网页的探索过程通常呈现树状结构,早期功能入口点往往被更频繁探索。因此将大规模轨迹组织为树状结构可降低数据成本,并优化界面规划的数据扩展。本文提出TreeCUA框架,通过树状可验证演化实现高效界面自动化扩展。我们设计多智能体协同框架,通过环境探索、动作验证、轨迹总结和质量评估来生成高质量可扩展的界面轨迹。为提升效率,创新性地采用基于树的拓扑结构存储并复现重复探索节点,并设计自适应探索算法平衡深度(即轨迹难度)与广度(即轨迹多样性)。此外,通过世界知识引导和全局记忆回溯机制避免低质量生成。最后基于丰富树节点信息自然延伸出TreeCUA-DPO方法,通过参考相邻轨迹的分支信息提升界面规划能力。实验表明TreeCUA与TreeCUA-DPO均取得显著提升,域外研究进一步验证了强泛化能力。所有轨迹节点信息与代码将发布于https://github.com/UITron-hub/TreeCUA。
针对真实桌面环境的端到端图形用户界面智能体需要大量高质量交互数据,但人工演示数据采集成本高昂,现有合成流程常受限于任务多样性不足或存在目标偏移的嘈杂轨迹。我们提出轨迹扩展框架Anchor,通过少量已验证种子演示实现桌面交互数据的可扩展自举生成。该框架从每个种子轨迹出发,识别引发界面状态关键变化的分支点,并基于当前图形界面上下文生成状态锚定的新任务变体。执行智能体随后遵循指令生成新轨迹,验证器则通过状态感知检查和轨迹级一致性确保任务完成度。为提升监督信号质量,我们进一步采用任务条件化的步骤级过滤机制剔除无锚定动作,并对分支后轨迹段进行降噪处理以保持意图连贯性。在OSWorld和WindowsAgentArena标准桌面基准测试中,基于本框架扩展数据微调的模型相比零样本智能体和代表性合成基线均取得稳定提升,且能跨应用程序和操作系统实现泛化。
面向具身智能体的真实世界数据采集仍存在成本高昂与安全风险,亟需可扩展、高拟真且适配仿真器的三维环境。然而现有场景生成系统多依赖基于规则或任务特定的流程,易产生伪影及物理无效场景。我们提出SAGE——一种智能体框架,可在用户指定具身任务(如“拿起碗放在桌上”)后理解意图,并自动生成规模化、仿真就绪的环境。该智能体耦合了布局与物体组合的多重生成器,以及评估语义合理性、视觉真实感与物理稳定性的评判模块。通过迭代推理与自适应工具选择,系统持续自我优化场景直至满足用户意图与物理有效性。生成的环境兼具真实性与多样性,可直接部署于现代仿真器进行策略训练。基于此数据的纯仿真训练策略展现出显著的比例扩展趋势,并能泛化至未见过的物体与布局,印证了仿真驱动规模化在具身AI领域的潜力。代码、演示及SAGE-10k数据集详见项目页面:https://nvlabs.github.io/sage。
本文对视觉生成领域连续管道的统治地位提出了挑战。我们系统性地研究了离散与连续方法之间的性能差异。与"离散分词器本质逊色"的普遍认知相反,我们证明这种差异主要源于潜在空间中分配的比特总数(即压缩比)。通过扩大码本规模可有效弥合该差距,使离散分词器能够媲美甚至超越连续模型。然而现有离散生成方法难以利用这一发现,在码本扩展时面临性能退化或训练成本过高的问题。为此,我们提出掩码比特自回归建模(BAR)——支持任意码本规模的可扩展框架。通过为自回归变换器配备掩码比特建模头,BAR通过逐位生成离散令牌的组成比特来实现预测。该方法在ImageNet-256数据集上创下0.99的gFID新纪录,在连续与离散范式下均超越主流方法,同时显著降低采样成本并较先前连续方法收敛更快。项目页面详见https://bar-gen.github.io/。
平行思维已成为大型推理模型(LRMs)处理复杂问题的新范式。近期研究通过强化学习增强平行思维,旨在解决监督微调方法在计算资源与效能方面的局限。然而现有工作主要聚焦于聚合阶段的优化,对路径探索环节的关注不足。本文从可验证奖励强化学习(RLVR)框架出发,对平行思维的优化进行理论分析,发现探索路径间的互信息瓶颈是制约整体性能的关键因素。为此,我们提出大纲引导的路径探索(OPE)方法,通过在并行路径推理前生成多样化推理大纲来显式划分解空间,从而降低信息冗余并提升路径间信息捕获的多样性。我们采用迭代式强化学习策略实现OPE,分别优化大纲规划与大纲引导推理。在多个高难度数学基准测试上的实验表明,OPE能有效提升不同聚合策略下的推理性能,使LRMs更可靠地发现正确解。
規劃能力已成為當代智能體系統處理複雜長期任務的核心能力,然而現有方法主要依賴固定的人工設計規劃結構,缺乏適應開放式問題結構多樣性的靈活性。為解決這一局限性,我們提出TodoEvolve——一種能夠自主合成並動態修正任務特定規劃架構的元規劃範式。具體而言,我們首先構建PlanFactory模塊化設計空間,將多種規劃範式統一規範於包含拓撲結構、初始化、適應性與導航機制的代碼庫中,從而為異構規劃模式提供通用接口。基於PlanFactory,我們採集高質量規劃軌跡數據,並通過阻抗導向偏好優化(IGPO)訓練Todo-14B模型。該多目標強化學習框架能激勵生成兼具高性能、穩定性與令牌效率的規劃系統,適用於任意任務與智能體架構。在五項智能體基準測試上的實證研究表明,TodoEvolve在保持經濟的API成本與運行開銷的同時,持續超越精心設計的規劃模塊。
語言模型中的激勵分解方法與概念如何在激勵空間中實現的幾何假設密切相關。現有方法通常搜索單個全局方向,隱含地假設線性可分性,這種做法忽略了具有非線性或多維結構的概念。本研究採用因子分析器混合模型(MFA)作為可擴展的無監督替代方案,將激勵空間建模為具有局部協方差結構的高斯區域集合。MFA將激勵分解為兩個組合幾何對象:區域在激勵空間中的質心,以及相對於質心的局部變異。我們針對Llama-3.1-8B和Gemma-2-2B訓練大規模MFA模型,證明其能捕捉激勵空間中的複雜非線性結構。此外,在定位與導引基準測試中的評估表明,MFA不僅勝過無監督基線方法,在定位性能上可與監督式方法競爭,且其導引效果常優於稀疏自編碼器。這些發現共同表明,通過子空間呈現的局部幾何結構,能有效作為可擴展概念發現與模型控制的分析單元,並能捕捉孤立方向無法表徵的複雜結構。
平行扩散解码技术通过每步同时预测多个词元来加速扩散语言模型的推理过程,但过度追求并行度往往会损害输出质量。可撤销式解码通过重新校验早期词元来缓解这一问题,然而我们发现现有校验方案常引发"反复振荡"现象——即词元被重新掩码后又恢复原状。这种行为从两方面拖慢推理速度:对已校验位置的重新掩码会削弱并行草稿生成的语境条件,而反复的掩码循环会消耗修订预算却收效甚微。我们提出COVER(基于缓存覆盖的高效修订验证)算法,通过单次前向传播同时完成留一验证与稳定草稿生成。该技术利用KV缓存覆盖构建双重注意力视图:验证时掩码选定种子词元,同时将其缓存的关键值状态注入其他所有查询以保持上下文信息,并通过闭式对角校正防止种子位置的自泄露。COVER进一步采用兼顾不确定性、下游影响和缓存漂移的稳定性感知评分来优先选择种子,并动态调整每步验证的种子数量。在多组基准测试中,COVER显著减少了不必要的修订次数,在保持输出质量的同时实现了更快的解码速度。
大型语言模型(LLMs)在软件开发中的应用日益广泛,但其生成不安全代码的倾向仍是实际部署的主要障碍。现有安全代码对齐方法常陷入功能性与安全性的悖论——以显著牺牲实用性为代价来提升安全性。我们提出SecCoderX,一种基于在线强化学习的功能保持型安全代码生成框架。该框架通过两种方式整合成熟的漏洞检测资源,构建漏洞检测与安全代码生成之间的桥梁:(i)合成多样化、基于真实场景的漏洞诱导型编程任务,用于在线强化学习的轨迹推演;(ii)训练基于推理的漏洞奖励模型,提供可扩展且可靠的安全监督。这些组件通过在线强化学习循环统一协作,使代码LLMs生成兼具安全性与功能性的代码。大量实验表明,SecCoderX实现了最先进的性能,将有效安全率(ESR)较未对齐模型提升约10%,而现有方法往往会使ESR降低14-54%。相关代码、数据集及模型检查点已发布于https://github.com/AndrewWTY/SecCoderX。
尽管流匹配方法具有优雅的理论形式,但其对单样本条件速度的依赖会导致高方差训练目标,从而破坏优化稳定性并减缓收敛速度。通过显式刻画这种方差特性,我们发现了两个关键区域:1)在先验分布附近的高方差区域,该区域的优化极具挑战性;2)在数据分布附近的低方差区域,此处条件速度与边际速度几乎重合。基于这一发现,我们提出了稳定速度(Stable Velocity)这一统一框架,可同时改进训练与采样过程。在训练方面,我们引入了无偏方差缩减目标——稳定速度匹配(StableVM),以及方差感知表示对齐(VA-REPA)方法,后者能在低方差区域自适应增强辅助监督。在推理方面,我们证明低方差区域的动力学过程存在闭式简化形式,由此实现了无需微调的加速采样方法——稳定速度采样(StableVS)。在ImageNet 256×256数据集及SD3.5、Flux、Qwen-Image、Wan2.2等大型预训练文本-图像/文本-视频模型上的大量实验表明,该方法能持续提升训练效率,并在低方差区域内实现超过2倍的采样加速,且不损失样本质量。代码已开源:https://github.com/linYDTHU/StableVelocity。
自我校正在视觉语言模型(VLM)解决复杂推理问题中至关重要。然而现有强化学习方法难以习得该能力,因为有效的自我校正行为仅偶发出现,导致学习信号极度稀疏。为应对这一挑战,我们提出校正导向的轨迹重组框架Octopus,通过重组现有轨迹来合成密集的自我校正样本。这种增强方法既通过轨迹复用提高了样本效率,又通过均衡监督稳定了强化学习优化过程。此外,我们引入响应掩码策略,将自我校正与直接推理解耦,避免信号冲突并使两种行为都能有效学习。基于此,我们开发出具备可控自我校正能力的推理模型Octopus-8B。在7个基准测试中,该模型在开源视觉语言模型中实现最先进性能,以仅需0.72倍单步训练时间的代价,较最佳RLVR基线模型提升1.0个性能分。
本文旨在将测试时训练与一种新型参数化内存相融合,该内存可灵活地从模型参数中卸载或合并。我们提出Locas——一种局部支持的参数化内存,其共享现代Transformer中前馈网络块的设计,既能灵活持久化融入模型参数,又支持高效的持续学习。我们探讨了Locas的两种主要变体:一种采用传统双层MLP设计,具备更明确的理论保证;另一种与前沿大语言模型共享GLU-FFN结构,可便捷附加于现有模型,实现参数高效与计算高效兼备的持续学习。关键的是,我们通过原理性方法(重用模型参数、激活值和/或梯度)证明,对此类低秩侧向FFN式内存进行恰当初始化,对实现快速收敛、提升泛化能力及防止灾难性遗忘至关重要。我们在PG-19全书语言建模和LoCoMo长上下文对话问答任务上验证了所提内存机制。在最低仅增加0.02%参数量的情况下,Locas-GLU既能存储历史上下文信息,又可维持极小的上下文窗口。此外,通过对比性MMLU评估,我们还测试了模型在使用Locas记忆整本书后的通用能力损失。结果表明,Locas能够将历史上下文持久化为参数化知识,并最大程度减少对模型现有内部知识的灾难性遗忘。
基于大语言模型的代码代理在自动化问题解决基准测试中展现出强劲性能,但现有评估主要关注最终任务成功率,对代理在问题解决过程中如何检索和利用代码语境的洞察有限。我们推出ContextBench——一个面向代码代理语境检索过程的评估框架。该框架包含来自8种编程语言66个代码库的1,136个问题解决任务,每个任务均辅以人工标注的黄金语境标准。我们进一步实现了自动化评估框架,可追踪代理执行轨迹并全程测量问题解决过程中的语境召回率、精确率和效率。通过ContextBench,我们评估了4个前沿大语言模型和5个代码代理。研究结果表明:复杂代理框架对语境检索的提升有限(印证代码代理领域的"苦涩教训");大语言模型持续呈现重召回轻精确的倾向;已探索语境与实际使用语境之间存在显著差距。ContextBench通过引入可解构问题解决过程的黄金语境中间指标,对现有端到端基准测试形成有效补充。这些语境为软件任务中引导大语言模型推理提供了宝贵的中间信号。
強化學習能顯著提升大語言模型的推理能力,但同時也會延長思維鏈的輸出長度,增加訓練與推論階段的計算成本。儘管已有學者提出長度控制方法,但如何平衡效率與性能的最佳輸出長度仍不明確。本研究在Qwen3-1.7B Base和DeepSeek-R1-Distill-Qwen-1.5B兩個模型上比較了多種長度控制方法。結果表明,長度懲罰機制可能阻礙推理能力的習得,而經過適當調校的長度控制能提升具備先驗推理能力模型的效率。通過將既有研究擴展至強化學習訓練的策略,我們發現兩種失效模式:1)過長輸出會增加答案離散度,2)過短輸出導致思考不足。
基础模型的无状态特性制约了智能体系统持续学习的能力,而这一能力正是实现长程推理与适应的核心。为突破此限制,智能体系统通常通过引入记忆模块来保存和复用过往经验,以期在测试阶段实现持续学习。然而现有记忆设计大多依赖人工构建且结构固定,难以适应现实任务中的多样性与非平稳性特征。本文提出ALMA(面向智能体系统的自动化记忆设计元学习框架),该框架通过元学习生成记忆设计以替代人工工程方案,从而最大限度减少人力投入,使智能体系统成为跨领域持续学习者。我们的方法采用元代理对可执行代码形式的记忆设计进行开放式搜索,理论上能够发现任意记忆设计方案(包括数据库模式及其检索更新机制)。在四个序列决策领域的广泛实验表明,相较于所有基准测试中最先进的人工设计记忆方案,通过ALMA习得的记忆设计能实现更高效的经验学习。在安全开发部署的前提下,ALMA标志着人工智能系统向自我改进方向迈出重要一步——这类系统能够学会成为具有适应性的持续学习者。
具备工具调用能力的AI智能体易受间接提示注入(IPI)攻击。此类攻击场景中,潜藏于非可信内容中的恶意指令会诱使智能体执行未授权操作。现有防御方案虽能降低攻击成功率,但常陷入过度防御困境:无论实际威胁是否存在,均部署高成本的持续净化机制,导致即使在良性场景下也会牺牲系统效用与响应速度。本文从因果消融视角重新审视IPI攻击:成功注入表现为支配权转移——用户请求不再对智能体的特权操作产生决定性影响,而某个非可信片段(如检索文档或工具输出)却产生不成比例的归因影响。基于此特征,我们提出CausalArmor选择性防御框架,其(i)在特权决策点计算轻量级的留一法消融归因值,(ii)仅当非可信片段支配用户意图时触发定向净化。此外,CausalArmor采用追溯式思维链掩码机制,防止智能体基于"中毒"推理轨迹执行操作。理论分析表明,基于归因裕度的净化机制能以指数级小概率上界条件性地约束恶意操作选择。在AgentDojo和DoomArena平台的实验证明,CausalArmor在保持激进防御方案安全性的同时,显著提升可解释性,并维护AI智能体的实用性与响应速度。
間接提示注入通過將惡意指令嵌入外部內容來威脅大型語言模型智能體,導致未授權操作和數據竊取。LLM智能體通過上下文窗口維持工作記憶,該窗口存儲交互歷史以支持決策。傳統智能體無差別地將所有工具輸出和推理痕跡累積於此記憶中,從而產生兩大關鍵漏洞:(1)注入指令在工作流程中持續存在,使攻擊者獲得多次操縱行為的機會;(2)冗長的非必要內容會降低決策能力。現有防禦方案將膨脹的記憶體視為既定事實,專注於保持韌性而非減少不必要的累積來預防攻擊。 我們提出AgentSys框架,通過顯式記憶體管理防禦間接提示注入。受操作系統中進程記憶體隔離機制啟發,AgentSys採用分層架構:主智能體為工具調用生成工作智能體,每個工作智能體在隔離上下文中運行並可為子任務生成嵌套工作體。外部數據和子任務痕跡從不進入主智能體記憶體,只有通過模式驗證的返回值能通過確定性JSON解析跨邊界傳輸。消融實驗表明,僅憑隔離機制就能將攻擊成功率降至2.19%,而添加驗證器/清理器後可通過事件觸發檢查進一步提升防禦效果——其開銷隨操作數而非上下文長度擴展。 在AgentDojo和ASB基準測試中,AgentSys分別實現0.78%和4.25%的攻擊成功率,同時在良性效用上較無防護基線略有提升。該框架對自適應攻擊者及多種基礎模型均保持穩健性,證明顯式記憶體管理能實現安全動態的LLM智能體架構。代碼已開源於:https://github.com/ruoyaow/agentsys-memory。
视觉语言模型(VLMs)在文本与视觉输入的跨模态理解方面已取得显著成果,但现有基准测试主要聚焦于纯文本查询。现实场景中,语言常以嵌入图像的可视化文本形式出现,这引发了当前VLMs能否同等处理此类输入请求的思考。我们推出VISTA-Bench——一个涵盖多模态感知、推理到单模态理解领域的系统性基准测试。该基准通过对比受控渲染条件下的纯文本与可视化文本问题,评估模型的可视化文本理解能力。对20余个代表性VLMs的大规模评估揭示出显著的模态鸿沟:在纯文本查询中表现优异的模型,当相同语义内容以可视化文本呈现时,性能往往大幅下降。随着感知难度的增加,这种差距进一步扩大,表明尽管语义未变,模型对渲染差异仍具有高度敏感性。总体而言,VISTA-Bench提供了一个原则性评估框架,可用于诊断此类局限性,并推动符号化文本与像素级语言表征走向更统一的演进。源数据集已发布于https://github.com/QingAnLiu/VISTA-Bench。
测试时训练(TTT)通过基于梯度的推理时更新来调整语言模型。但适应策略是否恰当?我们研究了可验证执行驱动(VEG)任务的计算最优测试策略,这类领域(如GPU内核优化)具有确定性评估器提供的密集连续奖励信号。以KernelBench为测试平台并采用1200亿参数模型(经LoRA适配的GPT-OSS-120B),我们发现搜索策略优于最小化适应(1-5个梯度步):在完整KernelBench L1评估集上,当K=64时N选最优采样达成90%任务成功率(18/20任务),而TTT最佳检查点仅达30.6%(三种子均值),其"等效K值"低于1,逊于单样本推理。失败模式源于过度锐化:梯度更新使多样性坍缩至平庸解而非发现最优解。我们的核心贡献是惊异值引导选择:选取最高惊异值(最低置信度)的正确样本可实现80%成功率,相较最置信选择的50%提升30%。扩展至惊异值引导前三选可匹配100%的预言机性能。这种零成本策略经长度控制分析验证,能复现预言机性能。对于密集奖励的VEG任务,计算资源应分配给样本多样性和智能选择而非梯度适应。惊异值引导选择原则或可推广至其他最优解位于分布尾部的执行驱动领域。
连续时间生成模型(如扩散模型、流匹配和修正流)通过学习时间依赖的向量场进行建模,但传统训练目标通常将不同时间步视为独立处理,导致估计量方差过高和采样效率低下。现有方法通过显式平滑惩罚、轨迹正则化或修改概率路径与求解器来缓解此问题。我们提出时序配对一致性(TPC),这是一种轻量级的降方差原理:通过耦合同一概率路径上配对时间步的速度预测,完全在估计量层面实现优化,无需改变模型架构、概率路径或求解器。理论分析表明,TPC会诱导出二次型的轨迹耦合正则化,在保持流匹配目标不变的同时可证明降低梯度方差。在流匹配框架中实例化TPC后,在CIFAR-10和ImageNet多个分辨率下的实验表明,该方法在相同或更低计算成本下能获得更优的样本质量与效率,其FID指标优于现有方法,并可无缝扩展至现代SOTA风格流程(含噪声增强训练、基于分数的去噪和修正流技术)。
大型语言模型正日益部署于高风险领域,其罕见但严重的失效可能导致不可逆的损害。然而主流评估基准常将复杂的社会风险简化为以均值为核心的标量分数,从而模糊了分布结构、跨维度交互作用及最差情形行为。本文提出基于风险画像的社会危害分析框架,通过多维度、分布感知的评估方法对社会危害进行建模。该框架将危害构建为多元随机变量,整合了针对偏见、公平性、伦理和认知可靠性的显式分解,并通过加性累积对数风险重构的"失效并集"聚合方法进行综合评估。该框架进一步采用风险敏感型分布统计量,以条件风险价值作为核心指标,以刻画模型的最差情形行为。应用该框架对11个前沿大模型开展评估(基于固定语料库中901个社会敏感性提示词),发现具有相似平均风险的模型在尾部风险暴露和波动性上可能呈现两倍以上差异。跨模型分析显示,各危害维度的边际尾部行为呈现系统性差异:偏见维度表现出最强的尾部严重性,认知与公平风险处于中等区间,而伦理失准风险持续较低;这些模式共同揭示了标量基准所掩盖的异质性、模型依赖型失效结构。研究结果表明,对大模型的责任评估与治理需超越标量均值,转向多维度、尾部敏感的风险画像分析。
现代部署要求大语言模型大规模实施安全策略,但现有控制方案多依赖推理时干预,这会增加持续的计算成本与服务复杂度。激活导向技术虽被广泛采用,但需要运行时钩子且成本随生成次数线性增长;条件导向变体通过门控机制提升选择性,却仍保留推理时控制路径。我们提出核心问题:能否将选择性拒绝完全移至离线阶段?即能否将对特定类别拒绝机制的机理理解,蒸馏为可部署为标准检查点的电路约束权重更新?我们提出C-Δθ:电路约束权重演算法,其(i)通过EAP-IG定位拒绝因果计算为稀疏电路,(ii)仅基于该电路(通常<5%参数)计算约束权重更新ΔθC。应用ΔθθC可生成即插即用的编辑检查点,无需推理时钩子,将成本从逐请求干预转移至一次性离线更新。我们在拒绝与效用基准测试中评估了类别靶向选择性与能力保留效果。
随着计算机使用代理(CUA)在复杂现实环境中的广泛部署,普遍存在的长期风险往往会导致严重且不可逆的后果。现有CUA防护机制大多采用被动响应模式,仅能在当前观察空间内约束代理行为。这类防护机制虽能防范即时短期风险(如点击钓鱼链接),却无法主动规避长期风险:看似合理的行为可能引发延迟显现的高风险后果(如清理日志导致后续审计无法溯源),而被动防护机制在当前观察空间内无法识别此类风险。为突破这些局限,我们提出了一种预测性防护机制,其核心思想是将预测的未来风险与当前决策对齐。基于该方法,我们设计了SafePred框架——一种面向CUA的预测性防护体系,通过建立风险-决策闭环确保代理行为安全。SafePred具备两大核心能力:(1)短期与长期风险预测:以安全策略为风险预测基础,利用世界模型的预测能力生成短期与长期风险的语义表征,从而识别并剪枝导致高风险状态的行为;(2)决策优化:通过步进级干预与任务级重规划,将预测风险转化为可执行的安决策指导。大量实验表明,SafePred能显著减少高风险行为,在实现97.6%安全性能的同时,相较被动基线将任务效用提升最高达21.4%。
利用表徵編碼器進行生成式建模為實現高效、高保真合成提供了可行路徑。然而,標準擴散變換器無法直接收斂於此類表徵。儘管近期研究將其歸因於容量瓶頸,並提出計算成本高昂的擴散變換器寬度擴展方案,我們通過實證表明該失效本質源於幾何特性。我們發現「幾何干擾」是根本原因:標準歐幾里得流匹配迫使概率路徑穿過表徵編碼器超球形特徵空間的低密度內域,而非沿流形表面行進。為解決此問題,我們提出帶有雅可比正則化的黎曼流匹配(RJF)。該方法通過將生成過程約束於流形測地線並修正曲率導致的誤差傳播,使標準擴散變換器架構無需寬度擴展即可收斂。我們的RJF方法使標準DiT-B架構(1.31億參數)實現有效收斂,在已有方法無法收斂的場景下達到3.37的FID指標。代碼地址:https://github.com/amandpkr/RJF
在每個問題上運行具備擴展推理能力的大語言模型成本高昂,但如何判定哪些輸入真正需要額外計算資源仍是難題。我們研究模型在生成答案前,能否從其內部表徵中提取自身成功概率的訊號,並探討此訊號能否引導更高效的推理。通過在生成前激活值上訓練線性探針,我們成功預測了數學與程式設計任務中特定策略的成功率,其表現顯著優於問題長度、TF-IDF等表層特徵。利用E2H-AMC框架(可提供人類與模型在相同問題上的表現數據),我們發現模型編碼了有別於人類難度認知的模型專屬難度概念,且這種差異會隨擴展推理而擴大。基於這些探針,我們證實透過在模型池中智能分配查詢任務,不僅能超越單一最佳模型的性能,更在MATH數據集上實現推理成本降低最高達70%。這表明即使內部表徵與人類難度直覺存在分歧,仍能實現顯著的實用效能提升。相關程式碼已開源於:https://github.com/KabakaWilliam/llms_know_difficulty
属性图聚类(AGC)是一项基础性无监督学习任务,通过融合图结构拓扑与节点属性来揭示图结构数据中的潜在模式。尽管该技术在欺诈检测、用户分群等工业应用中具有重要意义,但学术研究与实际部署之间仍存在显著鸿沟。当前评估方案受限于小规模高同质性引文数据集、不可扩展的全批次训练范式,以及对无法反映标签稀缺环境下性能的有监督指标的依赖。为弥合这些差距,我们推出PyAGC——一个面向生产环境的综合性基准测试框架与算法库,旨在对AGC方法进行多尺度、多结构特性的压力测试。我们将现有方法统一为模块化的"编码-聚类-优化"框架,并首次为多种前沿AGC算法提供了内存高效的迷你批次实现。本基准测试整合了12个多样化数据集(节点规模从2.7K至1.11亿),特别引入具有复杂表格特征和低同质性的工业级图谱。此外,我们提出将无监督结构指标和效率分析与传统有监督指标结合的全方位评估方案。该框架已在蚂蚁集团高要求工业工作流中经过实战检验,为学界提供了稳健、可复现、可扩展的研究平台,推动AGC技术向实际应用迈进。代码资源已通过GitHub(https://github.com/Cloudy1225/PyAGC)、PyPI(https://pypi.org/project/pyagc)及文档网站(https://pyagc.readthedocs.io)开源发布。
仿真技术已成为大规模训练和评估家庭机器人的关键工具,然而现有环境无法体现真实室内空间的多样性与物理复杂性。当前场景合成方法生成的房间仅稀疏布置家具,缺乏机器人操作所需的关键要素:密集杂物、可活动家具及物理属性。我们推出SceneSmith——一种分层智能体框架,能够根据自然语言提示生成可直接用于仿真的室内环境。该框架通过建筑布局、家具摆放到小物件填充的递进式构建流程,每个阶段均由设计师、评审员与协调器三类视觉语言模型智能体协同实现。该框架深度融合了静态物体的文生3D合成、可活动物体的数据集检索以及物理属性估算技术。SceneSmith生成的物体数量达到现有方法的3-6倍,物体间碰撞率低于2%,且在物理仿真中保持96%的物体稳定性。在205名参与者的用户研究中,其场景真实度与提示契合度的胜率分别达到92%和91%,显著优于基线方法。我们进一步验证了这些环境可用于端到端的机器人策略自动评估流程。