每日精選AI研究論文及翻譯
大型語言模型中,訓練後數據的多樣性對於下游任務效能至關重要。現有許多構建訓練後數據的方法採用基於文本的指標來量化多樣性,這些指標雖能捕捉語言變異,但對決定下游效能的任務相關特徵僅能提供微弱信號。本研究提出「特徵激活覆蓋率」(FAC),透過可解釋的特徵空間來衡量數據多樣性。基於此指標,我們進一步設計出名為「FAC合成法」的多樣性驅動數據生成框架:先使用稀疏自編碼器識別種子數據集中缺失的特徵,再明確生成反映這些特徵的合成樣本。實驗表明,我們的方法在指令遵循、毒性檢測、獎勵建模及行為導向等多項任務中,持續提升數據多樣性與下游效能。值得注意的是,我們發現不同模型系列(如LLaMA、Mistral、Qwen)間存在共享的可解釋特徵空間,從而實現跨模型知識遷移。本研究為探索以數據為中心的大型語言模型優化提供了堅實且實用的方法論。
語音查詢檢索是現代資訊檢索中的重要互動模式。然而,現有評估數據集通常僅包含受限噪聲條件下的簡單查詢,難以全面評估語音查詢檢索系統在複雜聲學干擾下的魯棒性。為解決此局限性,我們提出SQuTR——一個包含大規模數據集與統一評估協議的語音查詢檢索魯棒性基準。SQuTR彙總了來自六個常用中英文文本檢索數據集的37,317條獨特查詢,涵蓋多領域與多樣化查詢類型。我們採用200名真實說話者的語音特徵合成語音,並在可控信噪比下混合17類真實環境噪聲,實現了從靜謐到極高噪聲環境的可復現魯棒性評估。基於統一協議,我們對代表性級聯式與端到端檢索系統進行大規模評估。實驗結果表明:檢索性能隨噪聲增強而下降,且不同系統的性能衰減幅度差異顯著。即使大規模檢索模型在極端噪聲下也表現不佳,表明魯棒性仍是關鍵瓶頸。總體而言,SQuTR為基準測試與診斷分析提供了可復現的實驗平台,並將推動語音查詢至文本檢索魯棒性研究的未來發展。
我們推出MedXIAOHE醫療視覺語言基礎模型,旨在提升真實臨床應用中的通用醫療理解與推理能力。該模型在多元醫療基準測試中實現頂尖性能,並在多項核心能力上超越領先的閉源多模態系統。為實現這一目標,我們提出實體感知的持續預訓練框架,通過系統化組織異構醫療語料來擴展知識覆蓋範圍並縮小長尾差距(如罕見疾病)。為實現專家級醫療推理與交互,MedXIAOHE融合強化學習與工具增強型智能體訓練機制,引入多樣化醫療推理模式,支持具可驗證決策軌跡的多步驟診斷推理。為提升真實場景下的可靠性,模型整合用戶偏好評估標準、證據驅動的推理機制及低幻覺長篇報告生成功能,顯著增強對醫療指令的遵循度。本報告旨在系統記錄我們的實踐性設計選擇、規模化洞察與評估框架,以期推動相關領域的深入研究。
多模態大型語言模型(MLLMs)在廣泛的視覺理解任務中表現卓越,但在細粒度感知方面仍存在困難——這類任務中的關鍵證據往往體積微小且易被全域上下文信息淹沒。近期提出的「以圖思考」方法通過在推理階段反覆縮放關注區域來緩解此問題,但由於需要重複調用工具並重新編碼視覺信息,導致了較高的延遲。為解決這一缺陷,我們提出區域到圖像的知識蒸餾技術,將縮放操作從推理階段的工具轉變為訓練階段的基礎單元,從而將主動縮放的優勢內化到MLLM的單次前向傳播中。具體而言,我們先對微縮裁剪區域進行放大,讓強力教師模型生成高質量的視覺問答數據,再將這種基於區域的監督信號蒸餾回完整圖像。經過此類數據訓練後,小型學生模型無需使用工具即可提升「單次掃視」的細粒度感知能力。為系統評估此能力,我們進一步提出ZoomBench基準數據集,該數據集包含涵蓋六個細粒度感知維度的845個混合標註視覺問答樣本,並採用雙視角評估協議來量化全域與區域間的「縮放差距」。實驗表明,我們的模型在多個細粒度感知基準測試中取得領先性能,同時在視覺推理和GUI智能體等基準上提升了通用多模態認知能力。我們還深入探討了何時必須使用「以圖思考」策略,以及何時可將其增益蒸餾至單次前向傳播中。代碼已開源於:https://github.com/inclusionAI/Zooming-without-Zooming。
假說。人工通用智慧的核心本質是壓縮問題。有效的壓縮需要共振效應:當深度學習架構與資料的根本結構對齊時,其擴展效能最佳。這些是基本原則。然而,現代視覺架構已偏離這些真理:視覺信號具有高度冗餘性,而用於辨識的關鍵資訊——即「意外性」——卻是稀疏的。現有模型均勻處理稠密像素網格,將大量計算浪費在靜態背景上,而非聚焦於定義運動與意義的預測殘差。我們主張,要解決視覺理解問題,必須讓架構與影片的資訊理論原則(即編解碼器原理)對齊。 方法。OneVision-Encoder 透過將預測性視覺結構壓縮為語義來編碼影片。採用編解碼器分塊化技術後,OV-Encoder 放棄均勻計算,專注於僅佔 3.1%-25% 的高信號熵區域。為在不規則令牌佈局下統一空間與時間推理,OV-Encoder 採用共享 3D RoPE 技術,並透過涵蓋逾百萬語義概念的大規模集群辨識目標進行訓練,同時捕捉物體恆存性與運動動力學。 實證。結果驗證了我們的核心假說:效率與準確性並非取捨關係,而是正向相關。整合至大型語言模型後,其在 16 項圖像、影片及文件理解基準測試中,持續超越 Qwen3-ViT 與 SigLIP2 等強力視覺骨幹模型,且視覺令牌數量與預訓練資料量顯著更少。值得注意的是,在影片理解任務中,OV-Encoder 較 Qwen3-ViT 平均提升 4.1% 效能。與編解碼器對齊的塊級稀疏性成為基礎原則,使 OV-Encoder 成為可擴展的新一代視覺通用引擎。
影片語言模型(VideoLMs)使AI系統能夠理解影片中的時序動態。為適應最大上下文窗口的限制,現有方法採用關鍵幀取樣技術,但由於時序覆蓋稀疏,可能遺漏宏觀層級的事件與微觀層級的細節。此外,對每幀完整影像及其標記進行處理會產生大量計算開銷。為解決這些局限性,我們提出利用影片編解碼器原生元素(特別是運動向量與殘差),這些元素能自然編碼影片的冗餘性與稀疏性,無需對多數幀進行昂貴的完整影像編碼。為此,我們引入基於輕量級Transformer的編碼器,透過預訓練策略聚合編解碼器元素並將其表徵與影像編碼器嵌入對齊,從而加速端到端微調時的收斂速度。相較於標準影片語言模型,我們的方法將「首標記生成時間」縮短達86%,標記使用量減少達93%。更重要的是,透過調整關鍵幀與編解碼器元素的密度,我們在涵蓋通用問答、時序推理、長影片理解及空間場景理解等14項多元影片理解基準測試中,均能維持甚至超越原有性能表現。
本文提出GeoAgent模型,該模型能夠以貼近人類思維的方式進行推理,並得出細粒度地址結論。儘管先前基於強化學習的方法在效能與可解釋性方面取得突破,但其依賴人工智慧生成的思維鏈數據與訓練策略仍存在隱憂,這些方法與地理特性存在衝突。為解決這些問題,我們首先引入GeoSeek——一個由地理專家和專業玩家共同標註思維鏈數據的新型地理定位數據集。我們進一步深入探究地理任務的內在特性,提出通過一致性智能體評估的地理相似度獎勵與一致性獎勵機制來輔助訓練。這促使模型能從地理視角向正確答案收斂,同時確保其推理過程的完整性和一致性。實驗結果表明,GeoAgent在多個粒度層面上均超越現有方法及一系列通用視覺語言大模型,且生成的推理過程與人類思維高度契合。
基於語義運動的影片檢索是一個基礎但尚未解決的問題。現有影片表徵方法過度依賴靜態外觀和場景上下文,而非運動動態,這種偏差源自其訓練數據和目標。相反地,傳統以運動為核心的輸入(如光流)缺乏理解高層次運動所需的語義基礎。為揭示這種固有偏差,我們提出SimMotion基準測試,結合受控合成數據與全新人工標註的真實世界數據集。實驗顯示現有模型在這些基準上表現不佳,往往無法將運動與外觀特徵分離。為解決此問題,我們提出SemanticMoments——一種無需訓練的簡易方法,通過計算預訓練語義模型特徵的時間統計量(具體為高階矩)。在我們的基準測試中,SemanticMoments始終優於現有的RGB、光流和文本監督方法。這證明語義特徵空間中的時間統計量,能為以運動為核心的影片理解提供可擴展且具感知基礎的架構。
具備可驗證獎勵機制的強化學習(RL)已成為提升視覺語言模型視覺推理能力的標準後訓練階段,然而與作為冷啟動初始化(IN)的監督式微調相比,強化學習究竟提升了哪些能力仍不明確。端到端基準測試的進步往往混雜多重因素,難以將改進歸因於特定技能。為此,我們提出弗蘭肯斯坦式分析框架,包括:(i)通過因果探測實現功能定位;(ii)通過參數比較進行更新特徵分析;(iii)通過模型融合實施可遷移性測試。結果表明,強化學習主要在模型中後期層誘發一致的推理時偏移,這些中後期層的改進既具可遷移性(通過融合驗證)又具必要性(通過凍結實驗證實)。總體而言,我們的研究顯示強化學習對視覺推理的可靠貢獻並非對視覺感知的均勻增強,而是對變壓器中後期計算的系統性優化,從而改善視覺到推理的對齊與推理性能,這凸顯了僅依賴基準測試來理解多模態推理改進的局限性。
人工智慧代理能夠處理日益複雜的任務。為實現更宏大的目標,AI代理需要具備將問題有效分解為可管理子組件的能力,並能安全地將這些子任務委派給其他AI代理或人類協作者。然而,現有的任務分解與委派方法依賴簡單啟發式規則,無法動態適應環境變化,也難以穩健處理意外故障。本文提出一種自適應的智能AI委派框架——該決策序列包含任務分配機制,同時整合權限轉移、職責劃分、問責體系、角色邊界明確定義、意圖清晰化以及建立多方信任的機制。所提出的框架適用於複雜委派網絡中的人類與AI委派方/受託方,旨在為新興智能代理網絡的協議開發提供理論基礎。
构建跨异构硬件的通用具身智能体始终是机器人技术的核心挑战,常被表述为"一体多形"范式。数据碎片化、表征不一致以及训练目标失准等问题制约了该领域发展。我们提出ABot-M0框架,通过构建系统化数据治理流水线并协同优化模型架构与训练策略,实现从异构原始数据到统一高效表征的端到端转换。基于六个公共数据集,我们通过清洗、标准化和样本平衡构建了UniACT数据集——包含超600万条轨迹、9500小时数据的大规模资源,涵盖多样机器人形态与任务场景。统一预训练增强了跨平台与跨任务的知识迁移与泛化能力,为通用具身智能提供支撑。针对动作预测效率与稳定性提升,我们提出动作流形假说:有效机器人动作并非存在于完整高维空间,而是受物理规律与任务约束的低维平滑流形。基于此引入动作流形学习(AML),采用DiT主干网络直接预测洁净连续的动作序列,将学习重心从去噪转向可行流形投影,提升解码速度与策略稳定性。ABot-M0通过双流机制支持模块化感知,将VLM语义与几何先验、VGGT及Qwen-Image-Edit等即插即用3D模块的多视角输入相融合,在保持主干网络不变的前提下增强空间理解能力,缓解标准VLM在三维推理中的局限性。实验表明各组件具备独立运作与增益叠加特性。我们将公开全部代码与流水线以促进复现与后续研究。
仿真技术为丰富视觉-语言-动作模型的训练提供了可扩展且低成本的途径,降低了对于昂贵真实机器人演示数据的依赖。然而,多数虚实协同训练方法依赖于监督微调,仅将仿真视为静态演示数据源,未能充分利用大规模闭环交互的优势,导致现实场景的性能增益和泛化能力受限。本文提出一种基于强化学习的虚实协同训练框架,在保留真实世界能力的同时充分利用交互式仿真的潜力。该方法采用通用的两阶段设计:首先通过真实与仿真演示数据的混合监督微调对策略进行预热初始化,随后在仿真环境中进行强化学习微调,并通过对真实数据施加辅助监督损失来锚定策略、规避灾难性遗忘。我们在四种真实世界桌面操作任务上,使用OpenVLA和π_{0.5}两种代表性VLA架构进行评估,结果表明相较于纯真实数据微调和基于监督微调的协同训练,本方法实现了性能的持续提升——OpenVLA模型真实任务成功率提升24%,π_{0.5}模型提升20%。除成功率提升外,强化学习协同训练还展现出对未见任务变体更强的泛化能力,并显著提高了真实世界数据利用效率,为借助仿真技术增强机器人实际部署能力提供了实用且可扩展的路径。
通用视频理解需要针对多样化现实场景中的细粒度视觉与音频信息进行时序建模。然而,现有模型的性能主要受限于视频指令数据——这些数据将复杂的视听内容简化为单一且不完整的描述,缺乏细粒度组织与可靠标注。为此,我们提出:(一)ASID-1M,一个包含百万级结构化细粒度视听指令标注的开源数据集,支持单属性与多属性监督;(二)ASID-Verify,一个可扩展的数据标注流水线,通过自动验证与优化机制确保描述与对应视听内容在语义和时序上的一致性;(三)ASID-Captioner,基于ASID-1M数据集通过监督微调训练的视频理解模型。在涵盖视听描述、属性级描述、基于描述的问答及时序定位的七项基准测试中,ASID-Captioner在提升细粒度描述质量的同时有效减少了幻觉现象,并显著改善了指令遵循能力。该模型在开源模型中实现了最先进的性能,并与Gemini-3-Pro保持竞争力。
在资源受限的部署环境中,大语言模型(LLM)的推理常受限于内存占用和内存带宽,使得量化成为高效服务的基础技术。虽然训练后量化(PTQ)在4比特位宽下能保持较高精度,但在2-3比特位宽时性能会显著下降。究其根本,现有方法对每个参数组强制采用形状不变的量化网格(例如UINT2的固定均匀间隔),严重限制了误差最小化的可行解空间。为此,我们提出位平面分解量化(BPDQ),该方法通过位平面和标量系数构建可变量化网格,利用近似二阶信息进行迭代优化,并逐步补偿量化误差以最小化输出差异。在2比特量化场景下,BPDQ可实现单张RTX 3090显卡部署Qwen2.5-72B模型,GSM8K准确率达83.85%(16比特基准为90.83%)。此外,我们通过理论分析证明:可变网格扩展了可行解空间,且量化过程始终与Hessian矩阵诱导的几何空间中的优化目标保持一致。代码地址:github.com/KingdalfGoodman/BPDQ。
扩散大语言模型(dLLM)凭借其并行令牌生成能力,已成为自回归(AR)大语言模型的重要替代方案。该范式特别适用于代码生成场景,因为此类任务需要整体结构规划和非顺序优化。尽管潜力显著,但为CUDA内核生成定制dLLM仍面临挑战,这不仅源于技术的高度专业性,更因高质量训练数据的严重匮乏。为应对这些挑战,我们构建了CuKe——一个针对高性能CUDA内核优化的增强型监督微调数据集。在此基础上,我们提出双阶段精选强化学习(BiC-RL)框架,包含CUDA内核填充阶段和端到端CUDA内核生成阶段。基于此训练框架,我们推出了DICE系列扩散大语言模型,专为CUDA内核生成设计,涵盖1.7B、4B和8B三种参数规模。在KernelBench上的大量实验表明,DICE在同等规模下显著优于自回归和扩散大语言模型,为CUDA内核生成确立了新的技术标杆。
科學推理本質上要求整合複雜工具集以駕馭領域特定知識。然而現有基準大多忽視了智能體在嚴謹工作流中協調工具的能力。為彌合這一差距,我們推出SciAgentGym——一個具備可擴展交互環境的系統,涵蓋四大自然科學領域的1,780項領域專用工具,並由強健的執行基礎架構支撐。與此配套,我們提出SciAgentBench分層評估套件,旨在從基礎操作到長程工作流全方位壓力測試智能體能力。評估揭示關鍵瓶頸:頂尖模型在複雜科學工具使用上表現堪憂。以GPT-5為例,其成功率隨交互跨度延長從60.6%銳減至30.9%,主因在於多步驟工作流執行失敗。為此我們創建SciForge數據合成方法,通過將工具動作空間建模為依賴圖來生成邏輯感知的訓練軌跡。基於這些軌跡微調後,我們的SciAgent-8B模型不僅超越規模大得多的Qwen3-VL-235B-Instruct,更展現出科學工具使用能力的跨領域正向遷移。這些發現凸顯了新一代自主科學智能體的發展潛力。
強化學習(RL)微調技術已成為提升大型語言模型(LLMs)在推理密集型任務表現的關鍵方法,這一成功經驗正推動其向視覺語言模型(VLMs)拓展。儘管經過RL微調的VLM在視覺推理基準測試中表現有所提升,但它們仍存在視覺基礎薄弱、幻覺問題以及過度依賴文本線索的缺陷。我們的研究表明,簡單的受控文本干擾(如誤導性圖說或錯誤的思維鏈(CoT)軌跡)會顯著削弱模型的魯棒性與置信度,且當考慮開源多模態推理模型中的CoT一致性時,這種負面影響更為突出。基於熵的度量指標進一步揭示,這些干擾會重塑模型對正確選項的不確定性與概率分佈,暴露出不同模型在校準失準方面的特異性趨勢。為深入理解這些脆弱性,我們進一步分析RL微調的動態過程,發現了準確性與忠實度之間的權衡:微調雖能提升基準測試準確率,卻可能同時削弱伴隨生成的CoT可靠性及其對上下文變化的適應力。儘管對抗性增強能提升魯棒性,但僅靠該方法無法避免忠實度偏移。引入關注忠實度的獎勵機制可恢復答案與推理過程的一致性,但若與增強技術結合使用,訓練可能塌縮為依賴捷徑策略,且魯棒性仍難以保障。這些發現共同凸顯了僅以準確率作為評估標準的局限性,並呼籲建立同時強調正確性、魯棒性及視覺基礎推理忠實度的訓練與評估框架。
诸如扩散模型与流匹配等迭代生成策略虽能为连续控制提供卓越的表达能力,却因动作对数密度无法直接获取而增加了最大熵强化学习的复杂度。为此,我们提出场最小能量行动者-评论者框架(FLAC),这一免似然框架通过惩罚速度场的动能来调控策略随机性。我们的核心洞见是将策略优化构建为相对于高熵参考过程(如均匀分布)的广义薛定谔桥问题。在此视角下,最大熵原则自然显现为在优化回报的同时保持接近高熵参考,无需显式动作密度。该框架中,动能作为偏离参考的物理基础代理指标:最小化路径空间能量可约束诱导终端动作分布的偏差。基于此,我们推导出能量正则化的策略迭代方案及实用的离策略算法,后者通过拉格朗日对偶机制自动调节动能。实验表明,FLAC在高维基准测试中相较强基线达到更优或相当的性能,同时避免了显式密度估计。
本报告介绍小米机器人零号(Xiaomi-Robotics-0),这是一款专为高性能、流畅实时执行而优化的先进视觉-语言-动作模型。我们的方法核心在于精心设计的训练方案与部署策略:首先通过大规模跨具身机器人轨迹与视觉语言数据进行预训练,使其获得广泛可泛化的动作生成能力,同时避免对底层预训练视觉语言模型视觉语义知识的灾难性遗忘;在后训练阶段,我们提出多项异步执行训练技术以解决真实机器人部署时的推理延迟问题;在部署环节,通过精细校准连续预测动作块的时间步长,确保实时执行的连续性与流畅性。我们在仿真基准测试和两项需要精确双手操作的复杂真实机器人任务中进行了全面评估,结果表明该方法在所有仿真基准中均达到最先进性能。此外,小米机器人零号仅需消费级GPU即可在真实机器人上实现快速流畅的部署,在两项真实任务中均取得高成功率与高吞吐量。为促进后续研究,代码与模型检查点已在https://xiaomi-robotics-0.github.io开源。
实现空间智能需要超越视觉合理性,构建基于物理定律的世界模拟器。尽管代码大语言模型已推进静态3D场景生成,但将该范式拓展至四维动态模拟仍是关键前沿。此任务面临两大根本挑战:多尺度上下文纠缠问题——单体生成难以平衡局部物体结构与全局环境布局;语义-物理执行鸿沟——开环代码生成会导致缺乏动态保真度的物理幻觉。我们提出Code2Worlds框架,将四维生成建模为语言到模拟代码的生成过程。首先设计双流架构,实现检索增强的物体生成与分层环境编排的解耦;其次建立物理感知的闭环机制:后处理代理编写动态脚本,配合VLM运动批判器进行自省迭代优化模拟代码。在Code4D基准测试中,Code2Worlds以41%的SGS提升和49%的丰富度优势超越基线,且能生成静态方法所不具备的物理感知动态效果。代码:https://github.com/AIGeeksGroup/Code2Worlds 项目网站:https://aigeeksgroup.github.io/Code2Worlds
基于扩散的生成模型最新进展为图像和视频重照明建立了新范式。然而,将这些能力扩展到四维重照明仍面临挑战,主要源于配对四维重照明训练数据的稀缺性,以及在极端视角下保持时间一致性的困难。本研究提出Light4D——一种无需训练的新型框架,能在目标光照下合成具有时间一致性的四维视频,即使面临极端视角变化。首先,我们引入解耦流引导策略,这种时间感知方法能有效将光照控制注入潜在空间,同时保持几何完整性。其次,为增强时间一致性,我们在IC-Light架构内开发了时序一致注意力机制,并进一步结合确定性正则化以消除画面闪烁。大量实验表明,本方法在时间一致性与光照保真度方面均达到业界竞争力,可稳健处理-90°至90°的摄像机旋转。代码:https://github.com/AIGeeksGroup/Light4D 项目网站:https://aigeeksgroup.github.io/Light4D
我们提出UniDFlow——一个面向多模态理解、生成与编辑的统一离散流匹配框架。该框架通过任务特定的低秩适配器实现理解与生成的解耦,避免目标干扰与表征纠缠;同时采用新颖的基于参考的多模态偏好对齐方法,在相同条件下优化相对输出效果,无需大规模重训练即可提升忠实度与可控性。UniDFlow在八大基准测试中实现最先进性能,并在未经过显式任务专门训练的情况下,对修复、上下文图像生成、参考式编辑及组合生成等任务展现出强大的零样本泛化能力。
传统基于神经架构搜索(NAS)的推荐系统自动化设计方法通常受限于人为预设的固定搜索空间,导致创新范围被束缚于预定义算子。尽管近期基于大语言模型的代码演化框架将固定搜索空间转向开放式程序空间,但这些方法主要依赖标量指标(如NDCG、命中率),无法提供模型失效的定性分析或改进方向指引。为此,我们提出Self-EvolveRec创新框架,通过集成用户模拟器(提供定性评估)与模型诊断工具(实现定量内部验证),构建具有方向性的反馈循环机制。此外,我们引入诊断工具与模型协同进化策略,确保评估标准能随推荐架构演化而动态调整。大量实验表明,Self-EvolveRec在推荐性能和用户满意度方面均显著优于当前最先进的NAS与LLM驱动代码演化基线方法。代码已开源:https://github.com/Sein-Kim/self_evolverec。
音频扩散模型能够根据文本合成高保真音乐,但其表征高层概念的内在机制仍未被充分理解。本研究通过激活修补技术证明,在先进音频扩散架构中,特定语义音乐概念(如特定乐器、人声或流派特征的存在)由注意力层中一个较小的共享子集控制。进一步研究表明,在这些层级应用对比性激活增强与稀疏自编码器能实现对生成音频的更精确控制,印证了专业化现象的直接益处。通过引导已识别层级的激活,我们能够高精度调整特定音乐元素,例如调节节奏或改变曲目情绪。
導向方法透過識別隱藏表徵中的語義方向來影響大型語言模型行為,但傳統上通常透過推理階段的激活干預實現,這種方式會對模型內部狀態施加固定且全局的修改。雖然有效,這類干預在實施強控制時往往會引發不理想的屬性-效用權衡,因為其忽略了一個事實:許多行為實際上由少量異質性模型組件所支配。我們提出Steer2Edit——一個具理論基礎、無需訓練的框架,將導向向量從推理階段的控制信號轉化為組件級秩1權重編輯的診斷信號。該方法並非在生成過程中均勻注入導向方向,而是選擇性地將行為影響力重新分配至個別注意力頭與MLP神經元,產生可解釋的編輯結果,既能保留標準前向傳播過程,又兼容優化的平行推理。在安全性對齊、幻覺緩解與推理效率等任務中,Steer2Edit持續實現更優的屬性-效用權衡:在保持下游性能相同時,其安全性最高提升17.2%,真實性提高9.8%,推理長度平均減少12.2%。總體而言,Steer2Edit通過將導向信號轉譯為可解釋且無需訓練的參數更新,為表徵導向與權重編輯之間建立了理論橋樑。
大型语言模型(LLMs)为推荐系统展现了广阔前景,但其发展一直受限于可预测缩放规律的缺失——这一规律对指导研究和优化资源配置至关重要。我们认为,这或许源于以往持续预训练(CPT)中原始用户交互数据固有的噪声、偏差和不完整性。本文提出了一种新颖的分层框架,通过为LLM构建精心设计的教学课程来生成高质量合成数据,从而规避上述问题。我们通过实证表明:在下游排序任务中,基于我们理论化合成数据训练的标准序列模型(如SasRec的召回率@100提升130%)显著优于真实数据训练的模型,这为课程数据的效用提供了强有力的直接证据,证明其在学习可泛化用户偏好模式方面的优越性。基于此,我们首次通过实验证明:在使用我们高质量推荐专用数据持续预训练的LLM中,存在稳健的幂律缩放规律。实验表明,多种合成数据模态均能实现一致且可预测的困惑度降低。这些发现为推荐领域LLM能力的可靠扩展奠定了方法论基础,从而将研究重点从缓解数据缺陷转向利用高质量结构化信息。
大型基础模型在视觉与语言领域已展现出对复杂问题的强大开放世界泛化能力,然而在机器人学中尚未实现同等的泛化水平。核心挑战在于现有模型的零样本能力有限,这阻碍了其对未见过场景的有效泛化。本文提出GeneralVLA(基于知识引导轨迹规划的可泛化视觉-语言-动作模型),这是一种分层式视觉-语言-动作模型,能更有效地利用基础模型的泛化能力,实现零样本操作并自动生成机器人学数据。具体而言,我们研究的分层VLA模型具有以下特点:高层ASM(功能感知分割模块)经微调后可感知场景中的图像关键点功能属性;中层3DAgent负责任务理解、技能知识与轨迹规划,生成指示机器人末端执行器期望轨迹的三维路径;该中间三维路径预测结果将作为低层三维感知控制策略的指导,实现精确操作。相较于其他方法,我们的技术无需真实世界机器人数据采集或人工示范,使其对多样化任务和视角具有更强扩展性。实证表明,GeneralVLA成功为14项任务生成轨迹,显著超越VoxPoser等前沿方法。所生成的演示数据训练出的行为克隆策略,比基于人工示范或VoxPoser、Scaling-up及Code-As-Policies生成数据训练的策略更具鲁棒性。我们相信GeneralVLA有望成为兼具机器人数据生成与零样本场景下新任务解决能力的可扩展方法。代码库:https://github.com/AIGeeksGroup/GeneralVLA 项目网站:https://aigeeksgroup.github.io/GeneralVLA
训练后量化技术对于在内存受限设备上部署大语言模型至关重要,但该方法会使模型变为静态且难以微调。包括强化学习在内的标准微调范式本质上依赖于反向传播和高精度权重来计算梯度,因此无法应用于参数空间离散且不可微的量化模型。虽然进化策略提供了无需反向传播的替代方案,但由于梯度消失或失准问题,量化参数的优化仍可能失败。本文提出量化进化策略这一直接在量化空间执行全参数微调的优化范式,其创新点在于:(1)集成累积误差反馈以保留高精度梯度信号;(2)采用无状态种子回放技术将内存占用降至低精度推理水平。在数学推理任务中,QES显著优于当前最先进的无梯度微调方法,使得直接对量化模型进行微调成为可能,从而为完全在量化空间扩展大语言模型开辟了新路径。源代码详见:https://github.com/dibbla/Quantized-Evolution-Strategies。
我們推出scPilot——首個實踐組學原生推理的系統性框架:大型語言模型(LLM)能以自然語言對話,同時直接檢視單細胞RNA測序數據並按需調用生物信息學工具。scPilot將核心單細胞分析(包括細胞類型註釋、發育軌跡重建和轉錄因子靶向分析)轉化為逐步推理問題,要求模型必須解決、論證並在必要時根據新證據修正結論。 為量化進展,我們發布scBench——包含9個專家精心策劃的數據集與評分模組,可精準評估scPilot相較各類LLM的組學原生推理能力。使用o1模型的實驗表明,迭代式組學原生推理使細胞類型註釋的平均準確率提升11%;Gemini-2.5-Pro相較單次提示法將軌跡圖編輯距離縮減30%,同時生成可解釋標記基因模糊性與調控邏輯的透明推理軌跡。通過將LLM錨定於原始組學數據,scPilot實現了可審計、可解釋且具診斷價值的單細胞分析。 代碼、數據及軟件包已開源於:https://github.com/maitrix-org/scPilot
單株樹冠描繪對於維護城市樹木清記錄和監測森林健康等任務至關重要,這些工作有助於我們理解並守護自然環境。然而由於樹冠紋理特徵及局部重疊等因素,從航空影像中自動分離相鄰樹冠極具挑戰性。本研究提出一種深度學習模型訓練方法,利用航空激光掃描(ALS)數據生成的偽標籤,實現從RGB和多光譜影像中分割識別單株樹木。實驗表明,通過零樣本實例分割模型SAM 2(Segment Anything Model 2)能有效提升ALS偽標籤的質量。該方法無需人工標註成本即可為光學影像模型提供領域專用的訓練標註,最終形成的分割模型在相同任務上的表現優於所有針對通用領域部署的現有模型。
识别与已披露CVE对应的漏洞修复提交对于安全软件维护至关重要,但在大规模场景下仍具挑战性,因为大型代码库包含数百万次提交,其中仅极小部分涉及安全问题。现有自动化方法(包括传统机器学习技术和近期基于大语言模型的方法)往往难以平衡精确率与召回率。由于常采用随机抽样提交进行评估,我们发现这些方法严重低估了实际场景的难度——现实中的候选提交本身已具备安全相关性且高度相似。我们提出Favia,一种基于智能体的取证式漏洞修复识别框架,它将可扩展的候选提交排序与深度迭代语义推理相结合。Favia首先采用高效排序阶段缩小提交搜索空间,随后通过基于ReAct的LLM智能体对每个提交进行严格评估。通过为智能体提供预提交代码库作为环境并配备专用工具,该智能体可定位漏洞组件、遍历代码库,并建立代码变更与漏洞根源之间的因果关联。这种证据驱动的方法能稳健识别间接修复、多文件修复及非常规修复等单次扫描或基于相似度的方法难以捕捉的情况。我们在CVEVC(我们构建的大规模数据集,包含来自3,708个真实代码库的逾800万次提交)上评估Favia,结果表明在现实候选选择场景下,其持续优于最先进的传统方法和LLM基线,实现了最强的精确率-召回率平衡和最高F1分数。
语言识别(LID)是从网络数据构建高质量多语言数据集的关键步骤。现有LID工具(如OpenLID或GlotLID)常难以识别密切相关的语言,且无法有效区分有效自然语言与噪声,这污染了特定语言的子集,尤其对低资源语言影响显著。本研究通过增加训练数据、合并易混淆的语言变体集群、引入噪声专用标记,扩展了OpenLID分类器。我们将该升级系统命名为OpenLID-v3,并在多个基准测试中与GlotLID进行对比评估。开发过程中,我们重点关注三组密切关联语言(波斯尼亚语、克罗地亚语和塞尔维亚语;意大利北部与法国南部的罗曼语变体;斯堪的纳维亚语言),并在现有数据集不足的情况下贡献了新的评估数据集。研究发现,集成方法虽能提升精确度,但会显著降低对低资源语言的覆盖范围。OpenLID-v3已在https://huggingface.co/HPLT/OpenLID-v3 开放获取。