每日精選AI研究論文及翻譯
隨著語言模型能力日益強大,使用者不僅期待其提供準確回應,更要求其行為能符合多樣化場景中的人類偏好。為實現此目標,強化學習(RL)流程開始整合多種獎勵信號,每種獎勵分別對應特定偏好,以引導模型達成預期行為。然而近期研究未經審視適用性,便預設在多獎勵設定下採用群組相對策略優化(GRPO)。本文證實直接應用GRPO對不同滾動獎勵組合進行歸一化處理,會導致其坍縮為相同的優勢值,降低訓練信號的解析度,進而引發收斂次優化甚至早期訓練失敗。為此我們提出群組獎勵解耦歸一化策略優化(GDPO),透過解耦個別獎勵的歸一化過程,更真實地保留其相對差異,實現更精準的多獎勵優化,並大幅提升訓練穩定性。我們在工具呼叫、數學推理與程式碼推理三項任務中比較GDPO與GRPO,同時評估正確性指標(準確率、錯誤率)與約束遵循指標(格式、長度)。在所有設定下,GDPO均持續優於GRPO,展現其在多獎勵強化學習優化中的有效性與泛化能力。
在大型語言模型預訓練中,對矩陣層施加權重衰減是標準做法。先前研究指出,隨機梯度噪聲會引發權重矩陣W的類布朗運動擴張,而權重衰減會抑制這種擴張,從而形成具有特定權重範數||W||的權重衰減-噪聲平衡態。本研究將此平衡態範數視為訓練過程中的有害產物,並通過引入可學習的乘數來尋找最佳尺度以解決此問題。首先,我們為W附加可學習的標量乘數,證實權重衰減-噪聲平衡態的範數具有次優性:學習到的尺度能根據數據自適應調整並提升性能。我們進一步論證個別行與列範數同樣受此制約,因此引入可學習的行乘數與列乘數來釋放其尺度自由度。我們的方法可視為對muP乘數的可學習化、更具表達力的泛化。該方法不僅勝過精心調參的muP基線、降低乘數調參的計算開銷,更引發對前向傳遞對稱性及學習乘數的寬度縮放等實際問題的探討。最終,我們在Adam與Muon優化器上均驗證了可學習乘數的有效性,其在下游任務評估中的改進幅度相當於從Adam切換至Muon所帶來的提升。
夜間色彩恆常性問題在計算攝影領域仍具挑戰性,主要源於低光環境下的噪聲干擾與複雜照明條件。本文提出RL-AWB創新框架,結合統計方法與深度強化學習實現夜間白平衡校正。我們首先設計專為夜間場景優化的統計算法,融合顯著灰色像素檢測與新型光照估計技術。在此基礎上,開發首個以統計算法為核心的深度強化學習色彩恆常性方法,通過動態優化每張影像的參數,模擬專業AWB調校專家的決策過程。為促進跨感測器評估,我們建構首個多感測器夜間影像資料集。實驗結果表明,該方法在低光照與正常光照影像上均展現卓越的泛化能力。專案頁面:https://ntuneillee.github.io/research/rl-awb/
大型語言模型(LLMs)在多個領域展現出卓越能力。然而,要實現單一通用模型在這些領域的強勁性能,通常需要擴展至訓練和部署成本過於高昂的規模。另一方面,儘管小型領域專用模型效率更高,但其難以泛化至訓練分佈之外的場景。為解決此困境,我們提出FusionRoute——一個魯棒且有效的詞元級多LLM協作框架,其中輕量級路由模組同步實現:(i)在每個解碼步驟選擇最合適的專家模型,(ii)通過對數加法提供互補對數值,以優化或校正所選專家的下個詞元分佈。有別於僅依賴固定專家輸出的現有詞元級協作方法,我們通過理論分析證明純專家路由存在根本局限:除非滿足強全局覆蓋假設,否則通常無法實現最優解碼策略。FusionRoute通過可訓練的互補生成器增強專家選擇機制,擴展了有效策略類別,並能在溫和條件下恢復最優值函數。在Llama-3與Gemma-2模型系列、以及涵蓋數學推理、代碼生成與指令遵循的多樣化基準測試中,FusionRoute在各自任務上不僅勝過序列級與詞元級協作、模型融合及直接微調方法,同時保持與領域專家的競爭力。
操作資料的多樣性、數量與品質對於訓練有效的機器人策略至關重要。然而受限於硬體與實體環境配置,在大規模現實環境中收集多樣化操作資料仍難以實現。近期研究採用文字提示條件化的影像擴散模型,透過改變視覺觀測中的背景與桌面物件來擴增操作資料。但這類方法往往忽略先進策略模型對多視角與時間連貫性觀測的實際需求,且僅憑文字提示難以可靠地指定場景配置。為向擴散模型提供明確的視覺引導,我們提出視覺識別提示技術,以範例影像作為條件輸入來引導生成目標場景配置。為此,我們還建構了可擴展的流程,從大規模機器人資料集中篩選視覺識別樣本庫。使用經我們擴增的操作資料訓練視覺-語言-動作與視覺運動策略模型,在模擬與真實機器人環境中均能實現穩定的效能提升。
大型語言模型在處理複雜推理任務時,常因高昂的計算成本與延遲問題而受限,而資源效率較高的小型語言模型通常又缺乏必要的推理能力。現有的協作方法(如級聯或路由機制)僅能將完整查詢粗粒度地卸載至大型模型,當小型模型實際能處理多數推理步驟時,這種做法會導致顯著的計算資源浪費。為解決此問題,我們提出RelayLLM——一種透過詞元級協同解碼實現高效推理的新框架。有別於路由機制,RelayLLM使小型模型能作為主動控制器,僅在關鍵詞元處透過特殊指令動態調用大型模型,實現生成過程的「接力傳遞」。我們設計了兩階段訓練框架,包含熱身訓練與群組相對策略優化,使模型學會在自主生成與策略性求助間取得平衡。在六項基準測試中的實證結果表明,RelayLLM平均準確率達49.52%,有效彌合了兩種模型的性能差距。值得注意的是,該框架僅需對總生成詞元的1.07%調用大型模型,與性能匹配的隨機路由器相比可降低98.2%的成本。
大型語言模型代理系統已成為處理多輪任務的強大工具,其通過交錯進行內部推理與外部工具互動來實現功能。近期,代理強化學習作為關鍵的後訓練範式,在進一步提升這些能力方面引起了研究界的廣泛關注。本文提出AT^2PO(基於樹搜索的代理輪次策略優化),這是一個針對多輪代理強化學習的統一框架,旨在解決三大核心挑戰:探索多樣性受限、稀疏信用分配困難以及策略優化失準。AT^2PO引入了一種輪次樹狀結構,可同時實現熵引導樹擴展以進行策略性探索,並通過輪次信用分配實現稀疏結果的細粒度獎勵傳播。與此相輔相成,我們提出代理輪次策略優化——一種與代理互動自然決策粒度相匹配的輪次級學習目標。該方法與樹搜索正交,可無縫集成至任何多輪強化學習流程。在七個基準測試上的實驗表明,該框架相較現有最先進基線模型平均提升達1.84個百分點,消融研究也驗證了各組件的有效性。相關代碼已開源於:https://github.com/zzfoutofspace/ATPO。
思維鏈推理已成為多模態大型語言模型在影片理解任務中的強大工具。然而,其必要性及相較於直接回答的優勢仍待深入探討。本文首先證明,對於透過強化學習訓練的影片模型而言,直接回答往往能達到甚至超越思維鏈的效能,儘管思維鏈需以更高計算成本產生逐步分析。基於此發現,我們提出VideoAuto-R1影片理解框架,採用「必要時才推理」的策略。在訓練階段,我們的方法遵循「思考一次,回答兩次」的範式:模型首先生成初始答案,接著進行推理,最後輸出覆核後的答案。兩種答案皆透過可驗證的獎勵機制進行監督。在推理階段,模型根據初始答案的信賴分數決定是否啟動推理流程。在影片問答與定位基準測試中,VideoAuto-R1以顯著提升的效率達成最先進的準確度,平均回應長度縮減約3.3倍(例如從149個標記降至44個)。此外,我們觀察到在感知導向任務中思考模式啟動率較低,而在推理密集型任務中啟動率較高。這表明基於語言的顯式推理通常有益,但並非總是必要。
視覺語言模型(VLM)雖展現卓越性能,卻仍易受對抗攻擊影響。熵值作為模型不確定性的度量指標,與VLM的可靠性密切相關。傳統基於熵的攻擊方法在所有解碼步驟中最大化不確定性,隱含假設每個詞元對生成不穩定性的貢獻均等。然而我們發現,僅需針對自迴歸生成過程中約20%的高熵詞元(即關鍵決策點)進行幹擾,便能顯著主導輸出軌跡的偏移。通過集中對抗擾動於這些關鍵位置,我們在僅使用極小預算的情況下,實現了與全域攻擊相當的語義破壞效果。更重要的是,在多個代表性VLM上的實驗表明,此類選擇性攻擊可將35-49%的正常輸出轉化為有害內容,暴露出更嚴重的安全風險。值得注意的是,這些脆弱的高熵決策點在不同架構的VLM中重複出現,使得跨模型遷移攻擊具備可行性(對未見過的目標模型達成17-26%的有害轉化率)。基於上述發現,我們提出熵庫引導對抗攻擊(EGA)方法,在實現競爭性攻擊成功率(93-95%)的同時保持高有害轉化率,從而揭示當前VLM安全機制的潛在新弱點。
影片世界模型旨在模擬動態的真實世界環境,然而現有方法難以對攝影機與多物體運動提供統一且精確的控制,因為影片本質上是在投影的二維影像平面上運作動態。為彌合此差距,我們提出VerseCrafter——一種具備四維感知能力的影片世界模型,能在統一的四維幾何世界狀態中實現對攝影機與物體動態的顯式連貫控制。我們方法的核心在於創新的四維幾何控制表徵,透過靜態背景點雲與逐物體三維高斯軌跡來編碼世界狀態。此表徵不僅捕捉物體的運動路徑,更記錄其隨時間變化的概率性三維佔據狀態,為剛性邊界框或參數化模型提供了靈活且與類別無關的替代方案。這些四維控制信號會被渲染成預訓練影片擴散模型的條件輸入,從而生成高擬真度、視角一致且精確遵循指定動態的影片。然而,另一重大挑戰在於缺乏具備顯式四維註解的大規模訓練資料。我們為此開發了自動化資料引擎,能從真實場景影片中提取所需四維控制參數,使模型能基於海量多樣化資料集進行訓練。
专家混合模型被广泛认为通过稀疏路由机制实现领域专业化。本研究通过引入COMMITTEEAUDIT后验分析框架,对上述假设提出质疑——该框架从专家群体层面而非个体专家角度分析路由行为。通过对三个代表性模型和MMLU基准测试的实证研究,我们发现存在领域不变的"常务委员会"现象:这是一个由被路由专家组成的紧凑联盟,在不同领域、网络层级和路由预算下始终占据路由质量的主导地位,即使在已包含共享专家的模型架构中亦然。定性分析进一步表明,常务委员会负责锚定推理结构和语法框架,而边缘专家则处理领域特定知识。这些发现揭示了模型存在强烈的中心化计算结构偏好,表明专家混合模型的专业化程度远低于普遍认知。这种固有偏好同时暗示,当前训练目标(如强制均衡专家使用率的负载平衡损失函数)可能违背模型的自然优化路径,从而限制训练效率与性能表现。
大型语言模型即评判(LLM-as-a-Judge)通过利用大语言模型进行规模化评估,彻底改变了人工智能评估范式。然而随着评估对象日益复杂化、专业化且呈现多步骤特性,该模式的可靠性正受到固有偏见、浅层单次推理以及无法对照现实观察验证评估结果的制约。这催生了向智能体即评判(Agent-as-a-Judge)的范式转变——智能体评审通过规划决策、工具增强验证、多智能体协作及持久化记忆等机制,实现更稳健、可验证且精细化的评估。尽管智能体评估系统正快速涌现,该领域仍缺乏统一框架来梳理这一变革图景。为弥补这一空白,我们首次提出追踪此演进历程的综合研究。具体而言,我们识别了表征这一范式转变的关键维度,建立了发展谱系分类法,系统梳理了核心方法论并综述了通用领域与专业领域的应用实践。此外,我们剖析了前沿挑战并指明具有前景的研究方向,最终为下一代智能体评估提供清晰的发展路线图。
相機控制的生成式視頻重渲染方法(如ReCamMaster)已取得顯著進展。然而,儘管在單視角設定中表現出色,這類方法在多視角場景下往往難以保持一致性。由於生成模型固有的隨機性,確保虛構區域的時空連貫性仍是挑戰。為此,我們提出PlenopticDreamer框架,通過同步生成式幻覺來維持時空記憶。其核心思想是採用自回歸方式訓練多輸入單輸出的視頻條件模型,並輔以相機引導的視頻檢索策略——該策略能自適應地選取過往生成中的顯著視頻作為條件輸入。此外,我們在訓練中融入三項關鍵技術:通過漸進式上下文擴展提升收斂效率,採用自條件機制抵禦誤差累積導致的長程視覺退化,以及引入長視頻條件機制支持擴展視頻生成。在Basic與Agibot基準上的大量實驗表明,PlenopticDreamer實現了業界領先的視頻重渲染效果,在視角同步性、視覺保真度、相機控制精度及多樣化視角轉換(如第三人稱視角互轉、機械臂操作中頭部視角到夾爪視角的轉換)方面均表現優異。項目頁面:https://research.nvidia.com/labs/dir/plenopticdreamer/
三维环境中的具身问答任务常需收集分散于多个视角且部分被遮挡的上下文信息。然而当前多数视觉语言模型受限于固定且有限的输入视角,这限制了其在推理时获取问题相关上下文的能力,并阻碍了复杂空间推理。我们提出链式视角提示法——一种无需训练、在测试时运行的推理框架,通过粗到细的探索过程将视觉语言模型转化为主动的视角推理器。该方法首先利用视角选择代理过滤冗余帧并定位与问题对齐的锚点视角,随后通过离散相机动作与迭代推理的交错执行进行细粒度视角调整,从底层三维场景表征中持续获取新观测,直至收集足够上下文或达到步数预算。 我们在OpenEQA基准上对四种主流视觉语言模型进行评估,链式视角提示法在LLM-Match指标上实现平均11.56%的提升,其中Qwen3-VL-Flash模型最高提升达13.62%。该方法还展现出测试时扩展性:增加最小动作预算可带来额外2.51%的平均改进,Gemini-2.5-Flash模型峰值提升达3.73%。在ScanQA和SQA3D数据集上,该方法同样表现优异(如ScanQA的116 CIDEr/31.9 EM@1,SQA3D的51.1 EM@1)。总体而言,这些结果表明:问题导向的视角选择与开放视角搜索相结合,是一种无需额外训练即可提升三维具身问答空间推理能力的有效且模型无关的策略。
链式思维推理虽能提升大语言模型在多步骤数学问题求解中的表现,但其仍面临暴露偏差和错误累积的脆弱性——早期错误会通过自回归解码过程不可逆地传播。本研究提出DiffCoT,一种扩散式链式思维框架,将链式思维推理重新定义为迭代去噪过程。DiffCoT通过滑动窗口机制在推理步骤层面融合扩散原理,在保持词元级自回归的同时,实现了中间步骤的协同生成与回溯修正。为维持因果一致性,我们进一步设计了遵循推理链时序结构的因果扩散噪声调度机制。在三个多步骤链式思维推理基准上的大量实验表明,DiffCoT在不同模型架构中均能稳定优于现有链式思维偏好优化方法,显著提升了链式思维推理的鲁棒性与纠错能力。
文档问答(DocQA)致力于基于给定文档进行问题解答,然而现有DocQA智能体普遍缺乏有效的工具利用能力,且主要依赖闭源模型。本研究提出DocDancer——一种端到端训练的开源文档智能体。我们将DocQA任务构建为信息检索问题,并提出一种工具驱动的智能体框架,显式建模文档探索与理解过程。为实现此类智能体的端到端训练,我们设计了"探索-合成"数据生成流程,以解决DocQA领域高质量训练数据稀缺的问题。在合成数据上训练的模型,于MMLongBench-Doc和DocBench两个长文本理解基准测试中均展现出卓越性能。进一步的实验分析为工具化智能体设计与合成数据生成提供了重要洞见。
情境图像生成与编辑技术允许用户通过交错排列的图文提示来指定视觉概念,这要求模型能精准理解并忠实执行用户意图。尽管近期出现的统一多模态模型展现出卓越的理解能力,但这些优势往往难以有效迁移到图像生成领域。我们提出Re-Align这一统一框架,通过结构化推理引导的对齐机制弥合理解与生成之间的鸿沟。其核心是情境思维链——一种能解耦语义引导与参考关联的结构化推理范式,既可提供清晰的文本目标,又能缓解参考图像间的相互干扰。此外,Re-Align引入高效的强化学习训练方案,利用代理奖励衡量结构化推理文本与生成图像之间的对齐度,从而提升模型在情境图像生成与编辑任务上的整体表现。大量实验证实,在可比模型规模与资源条件下,Re-Align在情境图像生成和编辑任务上均优于现有竞争方法。
生成模型在三维视觉领域日益广泛地用于合成新形状,但其生成过程是否依赖于对训练形状的记忆仍不明确。理解模型的记忆机制有助于防止训练数据泄露并提升生成结果的多样性。本文设计了一个评估框架来量化三维生成模型的记忆程度,并研究不同数据与建模方案对记忆效应的影响。我们首先应用该框架量化现有方法的记忆水平,随后通过基于隐向量集扩散模型的对照实验发现:在数据层面,记忆效应受数据模态影响,并随数据多样性和更细粒度条件控制的增强而加剧;在建模层面,记忆效应在中等引导强度时达到峰值,可通过延长隐向量集长度和简单旋转增强来缓解。我们的框架与分析共同为三维生成模型的记忆机制提供了实证依据,并提出在不降低生成质量的前提下减少记忆效应的简易有效策略。代码已开源:https://github.com/zlab-princeton/3d_mem。
软边界(如发丝等细微结构)在自然图像和计算机生成图像中普遍存在,但由于前景与背景线索的模糊混合,其三维视觉重建仍具挑战性。本文提出发丝守护者框架,该框架专为恢复三维视觉任务中的细粒度软边界细节而设计。具体而言,我们首创基于图像抠图数据集训练的数据处理流程,并设计深度修复网络自动识别软边界区域。通过门控残差模块,该网络能在保持全局深度质量的同时精准优化软边界周围的深度信息,实现与前沿深度模型的即插即用式集成。在视图合成方面,我们采用基于深度的前向变形以保留高保真纹理,继而通过生成式场景绘制器填充遮挡移除区域并消除软边界内的冗余背景伪影。最终,色彩融合模块自适应地结合变形与修复结果,生成具有几何一致性和细粒度细节的新视角图像。大量实验表明,HairGuard在单目深度估计、立体图像/视频转换及新视角合成任务中均实现最先进性能,尤其在软边界区域取得显著提升。
大型語言模型(LLM)的推理能力可通過強化學習(RL)被充分激發(OpenAI, 2024;DeepSeek-AI 等,2025a;Zeng 等,2025)。現有 RL 方法在 LLM 中的成功通常依賴於數千或更多的高質量訓練樣本。本文通過展示單樣本學習的顯著有效性,對 LLM 強化學習中數據需求的基本假設提出挑戰。具體而言,我們提出博學學習框架——通過設計單個訓練樣本即可引發跨學科影響的方法。我們提出三項關鍵發現:(1)單個經策略性選擇的數學推理樣本,結合 RL 訓練能在物理、化學、生物等多領域產生顯著性能提升;(2)對推理至關重要的數學技能揭示了最優博學樣本的特徵;(3)整合多學科要素的工程化合成樣本,其訓練效果優於自然場景中的單學科樣本。我們的方法在多個推理基準測試中均優於使用大規模數據集的訓練效果,表明樣本質量與設計(而非數量)可能是解鎖語言模型增強推理能力的關鍵。這一成果預示著訓練範式的轉變——我們稱之為「樣本工程」,即從單純增加數據量轉向對訓練樣本的精準構建。
我们提出了ProFuse——一种基于3D高斯泼溅(3DGS)的高效上下文感知开放词汇三维场景理解框架。该流程在直接配准架构下增强跨视角一致性与掩码内聚性,仅增加极小开销且无需渲染监督微调。我们摒弃预训练3DGS场景的依赖,引入稠密对应关系引导的预配准阶段:通过跨视角聚类联合构建三维上下文提案的同时,以精确几何初始化高斯分布。每个提案携带通过成员嵌入加权聚合获得的全局特征,该特征在直接配准过程中融合至高斯模型,确保多视角下每个图元的语言连贯性。由于预先建立关联关系,语义融合除标准重建外无需额外优化,模型在保持几何优化能力的同时无需稠密化处理。ProFuse在实现强劲的开放词汇3DGS理解能力的同时,单场景语义附着耗时约五分钟,较当前最优技术提速两倍。
自回归模型在图像合成领域取得了显著成功,但其序列化特性导致存在显著的延迟限制。推测解码技术为加速提供了可行路径,但现有方法受限于令牌级歧义和空间感知能力的缺失。本研究提出多尺度局部推测解码(MuLo-SD),该创新框架通过结合多分辨率草案生成与空间感知验证来加速自回归图像生成。我们的方法采用低分辨率草案生成器与可学习上采样器协同工作,提出候选图像令牌,随后由高分辨率目标模型进行并行验证。关键创新在于引入局部拒绝与重采样机制,通过聚焦空间邻域而非首次拒绝后的光栅扫描式重采样,实现草案错误的高效修正。实验表明,MuLo-SD可实现最高1.7倍的加速效果,在加速性能上超越EAGLE-2和LANTERN等强基准模型,同时保持相当的语义对齐度和感知质量。这些结果在MS-COCO 5k验证集上通过GenEval、DPG-Bench及FID/HPSv2指标得到验证。大量消融实验揭示了上采样设计、概率池化以及带邻域扩展的局部拒绝重采样机制的影响。我们的方法为图像合成领域的推测解码技术确立了新标杆,在效率与保真度之间实现了有效平衡。
近期大型语言模型(LLM)智能体的研究进展主要聚焦于在智能体内部嵌入自我改进机制或对多个并发变体进行搜索。尽管这些方法能够提升综合评分,但往往产生不稳定且难以审计的改进轨迹,导致无法确保版本间的无回归特性或有效追溯跨版本故障。我们将智能体改进重新定义为发布工程:将智能体视为可交付产物,并将改进过程外化为具备回归意识的发布流水线。本文提出AgentDevel——一种迭代运行当前智能体、从执行轨迹中生成与实现无关的症状级质量信号、通过可执行诊断合成单一候选版本(RC),并基于翻转中心化门控机制进行发布的工程流水线。AgentDevel具有三大核心设计:(一)与实现无关的LLM批评器,无需访问智能体内部即可表征故障表象;(二)基于脚本的可执行诊断,能聚合主导症状模式并生成可审计的工程规范;(三)以翻转为中心的门控机制,将"通过转失败"的回归与"失败转通过"的修复作为首要判定依据。与基于种群搜索或智能体内自优化不同,AgentDevel维护单一主线版本,并将非回归性作为核心目标。在重度执行型基准测试中的实验表明,AgentDevel能以显著更少的回归实现稳定改进,同时生成可复现、可审计的交付物。总体而言,AgentDevel为构建、调试和发布LLM智能体提供了一种实用的软件开发规范。
行为克隆技术正迎来新一轮的流行热潮,因为模型规模与数据量的同步扩大被证明能为众多重点任务提供强有力的起点。本研究提出了一套开放式方案,用于训练专为消费级GPU实时推理设计的电子游戏基础模型。我们以开放许可协议发布了全部数据(8300+小时高质量人类游戏录像)、训练与推理代码以及预训练模型检查点。实验表明,我们的最佳模型能够以媲美人类水平的多款3D电子游戏表现。基于此方案,我们系统性地探究了行为克隆的缩放规律,以揭示模型性能和因果推理能力如何随模型规模与数据量变化。我们首先通过简单示例问题证明:对于某些类型的因果推理任务,增加训练数据量和网络深度可使模型习得更具因果性的策略。随后我们系统研究了高达12亿参数的缩放模型中,因果性如何随参数量(及深度)与训练步数变化,并发现了与示例问题相似的缩放规律。
近期视频扩散模型的研究趋势已转向基于Transformer的架构,虽然实现了最先进的视频生成效果,但代价是二次方注意力复杂度,这严重限制了长序列的可扩展性。我们提出ReHyAt——一种结合了softmax注意力保真度与线性注意力效率的循环混合注意力机制,支持分块循环重构并实现恒定内存占用。与同期仅采用线性注意力的SANA Video不同,ReHyAt的混合设计能够高效地从现有基于softmax的模型中进行知识蒸馏,将训练成本降低两个数量级至约160 GPU小时,同时在生成质量上保持竞争力。我们的轻量级蒸馏与微调流程为未来基于双向softmax的最先进模型提供了可复用的解决方案。在VBench和VBench-2.0上的实验及人类偏好研究表明,ReHyAt在将注意力成本从二次方降至线性的同时,实现了最先进的视频质量,为长时长视频生成和端侧设备部署解锁了实用化扩展能力。项目页面详见https://qualcomm-ai-research.github.io/rehyat。
本文研究如何将特权信息学习范式整合到目标检测中,以利用训练阶段可用但推理阶段缺失的细粒度描述性信息。我们提出一种通用的、与模型无关的方法论,通过师生架构将边界框掩码、显著图及深度线索等特权信息注入基于深度学习的目标检测器。实验在五种先进目标检测模型及多个公共基准数据集上展开,包括基于无人机的垃圾检测数据集和Pascal VOC 2012,以评估其对精度、泛化能力和计算效率的影响。结果表明,经特权信息训练的学生模型始终优于基线模型,在未增加推理复杂度或模型参数量的前提下显著提升检测精度。该性能提升对中大型物体尤为显著,而消融实验表明教师指导的中间加权策略能最优平衡特权信息与标准输入的学习。研究证实特权信息学习框架为资源受限场景和实际应用中的目标检测系统提供了一种高效实用的改进策略。
扩散模型的训练后对齐通常依赖简化信号,如标量奖励或二元偏好,这限制了与层次化、细粒度的人类专业知识的对齐。为解决此问题,我们首先与领域专家共同构建了层次化细粒度评估标准,将图像质量分解为以树状结构组织的多维度正负属性。基于此,我们提出两阶段对齐框架:首先通过监督微调将领域知识注入辅助扩散模型;随后提出复杂偏好优化(CPO),将DPO扩展至非二元层次化标准的对齐。具体而言,我们重新形式化对齐问题,使其在最大化正属性概率的同时,通过辅助扩散模型最小化负属性概率。我们在绘画生成领域实例化该方法,基于标注的细粒度属性画作数据集进行CPO训练。大量实验表明,CPO显著提升了生成质量与专业知识的对齐度,为细粒度标准对齐开辟了新路径。
近期提出的金字塔模型将传统的正向与反向扩散过程分解为多个不同分辨率下运行的阶段。这类模型在较低分辨率下处理噪声水平较高的输入,而在较高分辨率下处理噪声较少的输入。这种分层方法显著降低了多步去噪模型在推理过程中的计算成本。然而,现有开源金字塔视频模型均需从头开始训练,且在视觉合理性方面往往逊色于顶尖系统。本研究提出一种通过低成本微调将预训练扩散模型转化为金字塔模型的流程,实现无损输出的模型转换。此外,我们探索并比较了金字塔模型内部分步蒸馏的不同策略,以进一步提升推理效率。研究成果详见:https://qualcomm-ai-research.github.io/PyramidalWan。
我们正式发布IMDD-1M——首个包含100万对齐图文对的大规模工业多模态缺陷数据集,旨在推动制造业质量检测领域的多模态学习发展。该数据集涵盖60余种材料类别、400多种缺陷类型的高分辨率真实缺陷样本,每个样本均配备专家核验的标注信息及描述缺陷位置、严重程度与上下文属性的细粒度文本说明。本数据集支持分类、分割、检索、描述生成及生成式建模等广泛的应用场景。基于IMDD-1M,我们从头训练了专为工业场景定制的扩散式视觉语言基础模型。该模型作为通用化基础架构,可通过轻量级微调高效适配特定领域:仅需专用专家模型不足5%的任务数据量即可达到相当性能,彰显了基础模型在工业检测与生成任务中数据高效迁移的潜力,为构建可扩展、领域自适应及知识驱动的智能制造体系开辟了新路径。
本研究提出VERSE方法,通过探索视觉语言模型在视觉富文档理解任务中的嵌入空间,实现对其分析与改进。该技术能可视化潜在表征以评估模型可行性,辅助识别问题区域,并指导生成合成数据以强化特定簇群的性能。我们在合成数据集MERIT上训练模型,并在真实数据集MERIT Secret上验证:结果表明VERSE能有效揭示易出错簇群相关的视觉特征,而针对这些特征的样本进行再训练可在保持泛化能力的同时显著提升F1分数。此外,研究证明Donut、Idefics2等本地模型经VERSE优化后,其性能可媲美甚至超越GPT-4、Pixtral等SaaS解决方案。
随着对话智能体在用户协作中积累经验,适应使用者偏好对于培养长期关系及提升协作质量至关重要。我们推出MultiSessionCollab基准测试,用于评估智能体在多轮会话中学习用户偏好并加以运用的能力。为构建适应此场景的智能体,我们开发了配备记忆模块的长期协作智能体,其能随着交互经验的积累持续优化用户偏好模型。研究还表明,通过MultiSessionCollab中的用户模拟器行为可提取训练信号,使智能体生成更全面的反思并优化记忆更新机制。大量实验表明,配备记忆模块的智能体显著提升了长期协作效能,表现为任务成功率提升、交互效率提高以及用户操作负担降低。最后通过真实用户实验验证,记忆功能在现实场景中能有效改善用户体验。
對齊安全性的微調會嚴重損害大型語言模型的安全防護能力。現有方法通常需要大量安全樣本或校準數據集,這不僅會導致重新對齊過程中產生顯著計算開銷,還會引發模型實用性的明顯衰退。與此認知相反,我們的研究表明:僅需單個安全示例即可完全恢復安全對齊,且無需犧牲實用性,成本極低。值得注意的是,這種恢復效果與微調時使用的有害樣本數量或基礎模型規模無關,僅需數個訓練週期即可實現收斂。此外,我們發現了安全梯度的低秩結構特徵,這解釋了為何能實現如此高效的校正。我們在五種安全對齊的大型語言模型和多個數據集上驗證了研究結論,證明了該方法的普適性。
我们正式发布LEMAS数据集——据我们所知,这是当前规模最大的开源多语言词级时间戳语音语料库。该数据集覆盖10种主要语言,总时长超过15万小时,通过高效的数据处理流程构建,确保了高质量的语音数据与标注信息。为验证LEMAS数据集在不同生成范式下的有效性,我们基于该数据集训练了两种不同架构与任务专长的基准模型。采用非自回归流匹配框架的LEMAS-TTS模型,充分利用数据集的规模优势与语言多样性,实现了鲁棒的零样本多语言合成。我们提出的口音对抗训练与CTC损失函数有效缓解了跨语言口音问题,提升了合成稳定性。与之互补的LEMAS-Edit模型采用自回归解码器架构,将语音编辑任务构建为掩码标记填充问题。通过精准的词级对齐信息构建训练掩码,并采用自适应解码策略,该模型实现了边界平滑、过渡自然的无缝语音编辑。实验结果表明,基于LEMAS数据集训练的模型能提供高质量的合成与编辑效果,印证了数据集的优良品质。我们期待这个具有丰富时间戳标注的细粒度多语言语料库,能够推动基于提示的语音生成系统取得新突破。