每日精選AI研究論文及翻譯
資料準備旨在對原始資料集進行去噪、揭示跨資料集關聯性,並從中提取有價值的洞察,這對各類以資料為核心的應用至關重要。在三大驅動力推動下:(i)對應用就緒型資料(如用於分析、可視化、決策支援)的需求日益增長,(ii)日益強大的大型語言模型技術發展,以及(iii)促進靈活智能體構建的基礎設施湧現(例如基於Databricks Unity Catalog的應用),採用LLM增強技術的資料準備方法正快速成為變革性且可能主導未來的新範式。 本文透過系統性研究數百篇近期文獻,對此發展中領域進行全面綜述,重點探討如何運用LLM技術為多元下游任務準備資料。首先,我們闡釋從基於規則、模型特定的管線,向提示驅動、情境感知且具能動性的準備工作流轉變的根本範式遷移。接著提出以任務為核心的分類框架,將該領域劃分為三大主要任務:資料清理(如標準化、錯誤處理、插補)、資料整合(如實體匹配、模式匹配)與資料增強(如資料標註、剖析)。針對每類任務,我們評述代表性技術,並凸顯其優勢(如提升泛化能力、語義理解)與侷限性(如LLM擴展的昂貴成本、先進智能體中仍存在的幻覺問題、先進方法與薄弱評估間的不匹配)。 此外,我們分析常用資料集與評估指標(實證研究部分)。最後探討開放性研究挑戰,並勾勒出前瞻性發展路線圖,重點關注可擴展的LLM-資料系統、可靠智能體工作流的原則性設計,以及強健的評估協議。
近期,大型語言模型(LLM)的能力前沿已從單輪程式碼生成轉向代理式軟體工程——這種範式下模型能自主導航、編輯和測試複雜程式庫。雖然後訓練方法已成為程式碼代理的事實標準,但**代理式中訓練**(在模擬真實代理工作流程的大規模數據上進行中訓練)由於巨大的資源需求仍未被充分探索,儘管相比僅依賴昂貴的強化學習,它為注入基礎代理行為提供了更具擴展性的路徑。實現有效代理式中訓練的核心挑戰在於靜態訓練數據與真實開發中動態、富含回饋環境之間的分布不匹配。為此,我們提出對代理式中訓練的系統性研究,建立了大規模有效代理開發的數據合成原則與訓練方法論。我們方法的關鍵在於**代理原生數據**——包含兩種互補軌跡的監督信號:**上下文原生軌跡**保留代理經歷的完整信息流,提供廣泛覆蓋度與多樣性;**環境原生軌跡**則從可執行程式庫收集,其觀測源自實際工具調用與測試執行,確保交互深度與真實性。我們在`SWE-Bench Verified`上驗證模型的代理能力,結果顯示:在採用對齊基礎模型與代理框架的兩種後訓練設定下,我們的方案以不到一半的中訓練詞元量(731億)優於先前開源軟體工程中訓練方案`Kimi-Dev`。除相對優勢外,我們表現最佳的320億與720億參數模型分別達到**56.1%**與**58.5%**的問題解決率,其表現...
近期影片生成技術的突破已能透過簡短文字提示合成令人驚豔的視覺內容。然而,這些模型在根據對話等高層次概念生成長篇連貫敘事時仍面臨挑戰,暴露出創意構想與影像化呈現之間的「語意鴻溝」。為彌合此鴻溝,我們提出創新的端到端智能體框架,實現從對話到電影級影片的生成。該框架的核心是ScripterAgent模型,其經訓練能將粗略對話轉譯為細粒度、可執行的電影腳本。為此我們構建了ScriptBench——一個透過專家指導流程標註、具豐富多模態情境的大型基準數據集。生成的腳本將引導DirectorAgent,該智能體採用跨場景連續生成策略協調頂尖影片模型,確保長時序連貫性。我們透過AI驅動的CriticAgent與新型視覺-腳本對齊(VSA)指標進行全面評估,結果顯示本框架能顯著提升所有測試影片模型的腳本忠實度與時間連貫性。此外,我們的分析揭示了當前頂尖模型在視覺效果與嚴格腳本遵循度之間存在關鍵權衡,為自動化電影製作的未來提供了重要啟示。
雖然合成資料在提升文字領域的科學推理能力方面已證實有效,但多模態推理仍受制於合成科學嚴謹圖像的困難。現有的文字轉圖像(T2I)模型常產生視覺合理但科學上錯誤的輸出,導致持續存在的視覺邏輯分歧,限制了其在下游推理中的價值。受新一代T2I模型最新進展的啟發,我們針對科學圖像合成的生成範式、評估方法及下游應用展開系統性研究。我們分析了基於像素的直接生成與程式化合成兩種路徑,並提出ImgCoder——一個遵循明確「理解-規劃-編碼」工作流程的邏輯驅動框架,以提升結構精確度。為嚴謹評估科學正確性,我們推出SciGenBench基準,從資訊效用與邏輯有效性兩維度評估生成圖像。實驗結果揭示基於像素模型的系統性失效模式,並凸顯表達力與精確度之間的根本性權衡。最後,我們證實基於經嚴格驗證的合成科學圖像對大型多模態模型(LMM)進行微調,能帶來穩定的推理能力提升,且存在類似文字領域的規模化潛力,這驗證了高保真科學合成作為釋放巨量多模態推理能力的可行路徑。
模型能否學會突破自身的學習高原?在初始成功率較低、訓練信號匱乏的數據集上,微調大型推理模型的強化學習方法往往會陷入停滯。我們探究一個根本性問題:預訓練大語言模型能否利用潛在知識,為其無法解決的問題生成自動化課程?為此我們設計了SOAR框架:一種通過元強化學習發掘教學信號的自我改進機制。該框架中,模型的教師副本為學生副本生成合成問題,並根據後者在難題子集上的進步獲得獎勵。關鍵在於,SOAR將課程設計錨定於可量化的學生進展,而非內在的代理獎勵。我們在數學基準中最難子集(初始成功率0/128)上的實驗揭示三大發現:首先,通過激發預訓練模型生成有效墊腳石的潛在能力,可實現雙層元強化學習,從而在稀疏二元獎勵下開啟學習可能;其次,基於實際進展的獎勵機制優化先前LLM自我對弈中的內在獎勵方案,能穩定避免後者常見的失穩與多樣性崩塌問題;最後,對生成問題的分析表明,結構質量與問題明確性比解答正確性更關鍵地影響學習進程。這些結果預示著,生成有效墊腳石的能力並不以預先解決難題為前提,這為無需額外標註數據即可突破推理高原的原理性路徑奠定了基礎。
標準注意力機制的二次方複雜度,為大型語言模型在長文本場景下的可擴展性帶來了顯著瓶頸。雖然結合稀疏注意力與全注意力的混合式注意力策略提供了可行解決方案,但這類方法通常採用靜態計算比例(即固定稀疏與全注意力的配比),無法在推理階段適應下游任務對稀疏度的差異化敏感需求。為解決此問題,我們提出彈性注意力機制,使模型能根據輸入動態調整整體稀疏度。該方法通過在預訓練模型中集成輕量級注意力路由器,動態分配各注意力頭至不同計算模式。僅需在8張A800 GPU上進行12小時訓練,我們的方法即可使模型同時實現強勁性能與高效推理。在三個長文本基準測試中對主流大型語言模型的實驗結果,驗證了本方法的優越性。
圖像生成領域目前存在兩大分支:基於離散標記的自回歸模型與利用連續潛變數的擴散模型。這種源於VQ-VAE與VAE理論分野的對立局面,阻礙了統一建模框架的建立與公平基準測試的開展。有限標量量化(FSQ)雖能構建理論橋樑,但其原始版本存在關鍵缺陷:等間距量化機制可能引發激活值崩塌。這種不匹配性迫使模型在重建保真度與信息效率之間進行權衡。本研究通過將原始FSQ中的激活函數替換為分佈匹配映射以強制均勻先驗,成功破解了這一難題。該簡潔策略被命名為iFSQ,僅需單行代碼即可數學保證最優的量化區間利用率與重建精度。基於iFSQ構建受控基準測試後,我們獲得兩項關鍵發現:(1)離散與連續表徵的最優平衡點約為每維度4比特;(2)在相同重建約束下,自回歸模型呈現快速初始收斂特性,而擴散模型則能達到更優的性能上限,這表明嚴格的序列約束可能限制生成質量的理論極值。最後,我們通過將表徵對齊(REPA)技術適配至自回歸模型拓展分析,構建出LlamaGen-REPA。程式碼已開源於:https://github.com/Tencent-Hunyuan/iFSQ
當代影片生成模型在處理複雜物理動力學時仍面臨挑戰,往往難以實現真實的物理模擬效果。現有方法通常借助外部驗證器或對增強數據進行額外訓練來改善此問題,但這種方式計算成本高昂,且在捕捉細粒度運動方面仍有侷限。本研究提出自優化影片採樣法,這是一種簡潔的技術,利用預訓練於大規模數據集的影片生成器作為自身的優化器。通過將生成器解讀為去噪自編碼器,我們在推理階段實現無需外部驗證器或附加訓練的迭代式內循環優化。我們進一步引入基於自一致性的不確定性感知優化策略,該策略會根據區域特徵選擇性進行局部優化,從而避免過度優化導致的失真現象。在頂尖影片生成模型上的實驗表明,該方法能顯著提升運動連貫性與物理規律契合度,相較於預設採樣器與基於引導的採樣器,獲得了超過70%的人工評測偏好。
雖然智慧體評估已轉向長時程任務,但多數基準測試仍側重局部、步驟層級的推理,而非需要真正規劃能力的全域受限優化(例如時間與財務預算)。與此同時,現有的LLM規劃基準測試未能充分體現現實場景中典型的主動資訊收集與細粒度局部約束。為解決此問題,我們推出DeepPlanning——一個針對實用長時程智慧體規劃的挑戰性基準測試。該測試以多日旅行規劃與多商品購置任務為特色,要求具備主動資訊獲取、局部受限推理及全域受限優化能力。在DeepPlanning上的評估顯示,即便是前沿的具身LLM也難以應對這些問題,凸顯了可靠的顯性推理模式與並行工具使用對於實現更佳效能-效率權衡的重要性。錯誤分析進一步指出了改進具身LLM長時程規劃能力的潛在方向。我們開源相關程式碼與資料以支援未來研究。
空间视觉感知是自动驾驶、机器人操作等物理世界应用的基础需求,其核心在于与三维环境的交互。虽然采用RGB-D相机获取像素级对齐的度量深度是最可行的方案,但该方法常受硬件限制和复杂成像条件的制约,尤其在镜面反射或无纹理表面场景下更为突出。本研究提出将深度传感器的测量误差视为一种"掩码"信号,其本质反映了底层几何结构的不确定性。基于此洞见,我们开发了LingBot-Depth深度补全模型:该模型通过掩码深度建模机制利用视觉上下文优化深度图,并集成了自动化数据筛选流程以实现可扩展训练。令人鼓舞的是,我们的模型在深度精度和像素覆盖率方面均超越了顶级RGB-D相机的性能。在多项下游任务上的实验结果表明,LingBot-Depth能够生成跨RGB与深度模态的对齐隐式表征。我们已向空间感知研究社区开源了代码、预训练模型及300万组RGB-深度配对数据(含200万真实数据与100万模拟数据)。
本報告介紹VibeVoice-ASR——一個基於VibeVoice構建的通用語音理解框架,旨在解決長音頻(如會議、播客)中儘管短語音辨識技術已有進展,但語境碎片化與多說話者複雜性仍持續存在的難題。有別於依賴音頻分塊的傳統流水線方法,VibeVoice-ASR支援對長達60分鐘音頻進行單次處理,將自動語音辨識、說話者日誌化與時間標記統一整合為單一端到端生成任務。此外,VibeVoice-ASR支援超過50種語言,無需明確設定語言參數,並能原生處理語句內外的語碼轉換。我們還引入了基於提示的語境注入機制,允許用戶提供自定義上下文,顯著提升領域專業術語的辨識準確度與多音字消歧能力。
随着基于智能眼镜等全天候可穿戴设备实现的常开型个人AI助手问世,其对情境理解提出了更高要求——需要超越短暂孤立事件,实现对第一人称视角视频连续纵向流的整体把握。实现这一愿景需要长程视频理解技术的突破,即系统必须具备解读和回溯跨越数日甚至数周视觉与听觉信息的能力。现有方法(包括大语言模型和检索增强生成技术)受限于有限的上下文窗口,无法对超长视频流进行组合式多跳推理。本研究通过EGAgent这一以实体场景图为核心的增强型智能体框架应对上述挑战,该图表征了人员、场所、物体及其随时间推移的关联关系。我们的系统为规划智能体配备了结构化搜索与图推理工具,以及混合视听检索能力,从而实现细致入微的跨模态时序连贯推理。在EgoLifeQA和Video-MME(长程)数据集上的实验表明,本方法在复杂长程视频理解任务中,于EgoLifeQA达到57.5%的顶尖性能,在Video-MME(长程)上取得74.1%的竞争优势。
通用嵌入模型在文本检索任务中已展现出强大性能,但在表格检索场景中仍存在不足——高度结构化的内容会导致语义压缩及查询-表格失配问题。近期基于大语言模型的检索增强方法通过生成合成查询缓解了这一局限,但这些方法往往依赖启发式的局部表格选择策略,且很少利用合成查询作为监督信号来优化嵌入模型。我们提出CGPT训练框架,通过大语言模型生成的监督信号提升表格检索性能。该框架首先采用K均值聚类对表格实例分组,并通过跨聚类采样构建语义多样化的局部表格集合以扩展语义覆盖范围。随后利用大语言模型为这些局部表格生成合成查询,通过困难负例对比微调策略优化嵌入模型。在四个公开基准数据集上的实验表明,CGPT持续优于包括QGpT在内的检索基线模型,平均R@1指标提升达16.54%。在统一多领域语料场景下,CGPT进一步展现出强大的跨领域泛化能力,即使使用较小规模的大语言模型生成合成查询仍能保持有效性。这些结果表明:语义引导的局部表格构建与大语言模型生成的监督对比训练相结合,可为大规模表格检索提供高效且可扩展的解决方案。代码已开源:https://github.com/yumeow0122/CGPT。
现实世界的感知与交互本质上是多模态的,不仅包含语言模态,还涵盖视觉与语音模态,这推动了支持多模态输入与输出的"全能型"MLLMs的发展。尽管已涌现出一系列全能MLLMs,但现有系统大多仍需依赖额外专家组件实现多模态生成,限制了统一训练与推理的简洁性。自回归建模凭借单一令牌流、单一下一令牌预测目标和单一解码器架构,在文本领域已成为优雅且可扩展的基础范式。受此启发,我们提出AR-Omni——一种在自回归范式下实现任意模态间转换的统一模型,无需任何专家解码器。该模型通过单一Transformer解码器即可支持自回归文本生成、图像生成以及流式语音生成。我们进一步解决了统一自回归建模中的三个实践难题:通过任务感知的损失重加权缓解模态不平衡问题,通过轻量级令牌级感知对齐损失提升图像令牌的视觉保真度,以及通过有限状态解码机制平衡生成稳定性与创造性。实证表明,AR-Omni在保持实时性的同时(语音生成实时因子达0.88),实现了跨三种模态的强劲生成质量。
时间序列数据在现实场景中无处不在,对从能源管理到交通控制等关键应用至关重要。因此,具备时间序列推理能力成为通用模型解决实际问题的核心技能。然而现有通用模型基准测试明显缺失这一维度。为填补这一空白,我们推出TSRBench——一个全面的多模态基准测试平台,旨在系统检验时间序列推理的全方位能力。该平台具有两大特点:其一,涵盖14个领域的4125个多样化问题,并按感知、推理、预测和决策制定四大维度分类;其二,通过四大维度中的15项任务评估核心推理能力(如数值推理)。我们通过对30余个领先的专有及开源大语言模型、视觉语言模型和时序大语言模型开展大规模实验发现:第一,规模扩展定律在感知与推理维度成立,但在预测维度失效;第二,强大的推理能力不能保证准确的上下文感知预测,表明语义理解与数值预测之间存在解耦现象;第三,尽管时间序列的文本与视觉表征存在互补性,现有多模态模型仍无法有效融合二者实现协同增效。TSRBench提供的标准化评估平台不仅揭示了现存挑战,更为推进通用模型发展提供了宝贵洞见。相关代码与数据集已发布于https://tsrbench.github.io/。
大规模视频生成模型已展现出涌现的物理连贯性,使其具备成为世界模型的潜力。然而,当代"无状态"视频架构与经典以状态为中心的世界模型理论之间仍存在隔阂。本研究通过提出以"状态构建"和"动态建模"为双核心的新型分类法来弥合这一鸿沟:将状态构建划分为隐式范式(上下文管理)与显式范式(潜在压缩),同时从知识整合与架构重构两个维度解析动态建模。此外,我们主张评估体系应从视觉保真度转向功能化基准测试,重点考察物理持久性与因果推理能力。最后指出两大关键前沿方向:通过数据驱动记忆与压缩保真度提升持久性,借助潜在因子解耦与推理先验整合推进因果建模。通过应对这些挑战,该领域有望从生成视觉合理的视频,演进为构建强健的通用世界模拟器。
视频生成是构建世界模型的重要基石,而多模态上下文推理能力则是衡量其性能的关键标准。为此,我们推出SkyReels-V3——基于扩散Transformer统一多模态上下文学习框架的条件视频生成模型。该模型在单一架构中支持三大核心生成范式:参考图像到视频合成、视频到视频扩展及音频引导视频生成。(一)参考图像到视频模型通过跨帧配对、图像编辑与语义重写的数据处理流程,有效消除复制粘贴伪影,实现强主体一致性、时序连贯性与叙事连贯性的高保真视频生成。训练阶段采用图像-视频混合策略与多分辨率联合优化,显著提升模型在多场景下的泛化能力与鲁棒性。(二)视频扩展模型融合时空一致性建模与大规模视频理解能力,既可实现无缝单镜头延续,又能依托专业影视级模式进行智能多镜头切换。(三)谈话头像模型通过首尾帧插值训练与关键帧推理范式重构,支持分钟级音频条件视频生成,在保障视觉质量的同时优化了音视频同步效果。 大量评估表明,SkyReels-V3在视觉质量、指令跟随及特定维度指标上达到或接近业界最优水平,性能可比肩领先的闭源系统。项目地址:https://github.com/SkyworkAI/SkyReels-V3。
表格检索是根據自然語言查詢從大規模語料庫中檢索最相關表格的任務。然而,非結構化文本與結構化表格間的結構性和語義差異,使得嵌入對齊面臨特殊挑戰。近期如QGpT等方法嘗試通過生成合成查詢來豐富表格語義,但仍依賴於粗粒度的部分表格採樣和簡單融合策略,限制了語義多樣性並阻礙有效的查詢-表格對齊。我們提出STAR(語義表格表徵)框架,該輕量級框架通過語義聚類和加權融合來改進語義表格表徵。STAR首先應用表頭感知K均值聚類對語義相似的行進行分組,並選取代表性質心實例來構建多樣化的部分表格;接著生成針對特定聚類的合成查詢,全面覆蓋表格的語義空間;最後採用加權融合策略整合表格與查詢嵌入,實現細粒度語義對齊。該設計使STAR能從結構化和文本化數據源捕捉互補信息,提升表格表徵的表達力。在五個基準數據集上的實驗表明,STAR在所有數據集上均較QGpT實現了持續更高的召回率,證實了語義聚類與自適應加權融合對魯棒表格表徵的有效性。代碼已開源於https://github.com/adsl135789/STAR。
通用型大语言模型智能体通常在有限的环境中接受后训练,却需部署至更广泛、未见过的领域。本研究针对测试领域未知情况下智能体后训练的挑战展开探讨,重点分析了强化学习环境特性与建模选择对跨领域性能的影响机制。首先,我们识别出与跨领域泛化能力显著相关的两个环境维度:(一)状态信息丰富度,即智能体需从状态中处理的信息量;(二)规划复杂度,通过基础策略下的目标可达性与轨迹长度进行估算。值得注意的是,领域真实性与文本层面相似性并非主要因素——例如在跨领域测试中,简单的网格世界游戏Sokoban反而比更接近现实的ALFWorld在SciWorld中展现出更强的泛化能力。基于这些发现,我们进一步证明仅提升状态信息丰富度即可有效增强跨领域鲁棒性,并提出一种低开销、普适性的随机化技术:在状态中添加少量与目标无关的干扰特征,在不改变任务本质的前提下丰富状态表征。除环境特性外,我们还检验了多种建模选择:(a)监督微调热身或训练中期的介入虽能防止强化学习过程中的灾难性遗忘,但会削弱对未参与中期数据混合的领域的泛化能力;(b)在强化学习中启用逐步推理机制,虽不总能提升领域内性能,但对维持泛化能力具有关键作用。
透過運用多教師蒸餾技術,聚合式視覺骨幹網路提供了一個統一的學生模型,該模型不僅保留更提升了多位教師的獨特能力。在本技術報告中,我們介紹C-RADIO模型系列的最新版本C-RADIOv4,其設計基於AM-RADIO/RADIOv2.5架構,在維持相同計算複雜度的前提下,於關鍵下游任務實現顯著提升。我們發布了-SO400M(4.12億參數)與-H(6.31億參數)兩種模型變體,二者均採用升級後的教師模型組合進行訓練:SigLIP2、DINOv3及SAM3。除了核心指標的進步與模仿SAM3帶來的新能力外,C-RADIOv4模型系列進一步強化了任意解析度支援功能,重新引入ViTDet選項以實現高解析度下的極致效能提升,並採用開放許可協議。
深度搜索智能体的目标是通过跨多文档推理来回答复杂问题,能显著加速信息检索过程。但由于需要漫长而复杂的探索路径,为此类应用采集人工标注的成本极其高昂。我们提出一种智能流程,能针对给定语料库和目标难度等级,自动生成高质量且难度可控的深度搜索问答对。该流程SAGE包含两个组件:提出问答对的数据生成器,以及尝试解答生成问题并为数据生成器提供执行反馈的搜索智能体。两个组件通过多轮交互迭代优化问答对,直至满足目标难度要求。内在评估表明,SAGE生成的问题需要多样化推理策略,同时显著提升了生成数据的正确性与难度。外在评估显示,使用我们的合成数据训练深度搜索智能体后,在主流深度搜索基准测试中可获得最高23%的相对性能提升。补充实验证明,基于我们数据训练的智能体在推理时无需额外训练,即可实现从固定语料检索到谷歌搜索的适配转换。
许多视觉-语言-动作模型将图像块展平为一维标记序列,削弱了精确操作所需的二维空间线索。我们提出IVRA——一种轻量级、免训练的方法,通过利用模型内置视觉编码器中已有的亲和性提示来增强空间理解能力,无需任何外部编码器或重新训练。IVRA选择性地将这些亲和性信号注入到包含实例级特征的语言模型层中。这种推理时干预能在保持所有模型参数固定的同时,重新校准视觉标记的交互关系,更好地保留几何结构。我们通过在涵盖2D和3D操作的模拟基准测试以及真实机器人任务中,将IVRA应用于多种VLA架构,证明了其通用性。在2D VIMA基准测试中,IVRA在低数据场景下较基线LLaRA模型将平均成功率提升4.2%;在3D LIBERO测试中,该方法对OpenVLA和FLOWER基线模型均带来稳定增益,即使在基线准确率接近饱和时仍能实现提升。所有代码与模型将公开发布,可视化结果详见:jongwoopark7978.github.io/IVRA。
傳統的智能體系統在開放式環境中常面臨挑戰,這類環境的任務分佈持續漂移且外部監督稀缺。系統對靜態工具集或離線訓練的依賴難以適應動態變化,導致其能力邊界既固化又不明確。為此,我們提出「原位自我演化」範式。該方法將連續的任務互動視作經驗流,使系統能將短期執行反饋提煉為可長期重用的能力,且無需依賴真實標籤。在此框架下,我們將工具演化確認為能力擴展的關鍵路徑——其可提供可驗證的二值反饋信號。基於此框架,我們開發了雲鷺智能體系統,通過迭代式工具合成、優化與複用來應對新興挑戰。為提升演化效率,我們進一步提出並行批次演化策略。在零起始設定的五個多樣化基準測試中,實證評估顯示其性能顯著超越專有基線模型。此外,補充性的暖起始實驗證實,系統累積的通用知識可無縫遷移至新領域。最後,我們提出一種監控演化收斂的新指標,其功能類似傳統優化中的訓練損失。我們開源了代碼庫、系統軌跡及演化工具,以推動韌性自演化智能研究的發展。
大型语言模型的对齐旨在使模型输出符合人类偏好,而个性化对齐则进一步使模型适配个体用户需求。这依赖于能够捕捉用户特定偏好并自动提供个性化反馈的奖励模型。然而,开发此类模型面临两大挑战:个体用户反馈数据的稀缺性以及对新用户的高效适应需求。我们认为解决这些约束需要实现从拟合数据学习用户偏好到学习偏好适应过程的范式转变。为此提出元奖励建模方法,将个性化奖励建模重构为元学习问题。具体而言,我们将每个用户的奖励模型表示为基奖励函数的加权组合,并采用模型无关元学习框架优化权重参数的初始化,以支持有限反馈下的快速适应。为确保鲁棒性,我们引入鲁棒个性化目标,在元优化过程中更关注难以学习的用户群体。基于个性化偏好数据集的广泛实验表明,该方法能有效增强小样本个性化性能,提升用户鲁棒性,且持续超越基线模型。
尽管大型语言模型(LLMs)在科研工作流程中的应用日益广泛,但针对学术反驳——这一学术交流与同行评审关键环节的自动化支持仍鲜有研究。现有方法通常依赖现成的LLMs或简单流程,难以实现长上下文理解,且往往无法生成具有针对性及说服力的回应。本文提出DRPG,一种基于智能体的自动化学术反驳生成框架,其运行包含四个步骤:将评审意见分解为原子化问题、从论文中检索相关证据、规划反驳策略、据此生成回应。值得注意的是,DRPG框架中的规划器在识别最优反驳方向时准确率超过98%。在顶级会议数据上的实验表明,DRPG显著优于现有反驳流程,仅使用80亿参数模型即实现了超越平均人类水平的表现。我们的分析进一步验证了规划器设计的有效性及其在提供多视角可解释建议方面的价值。实验还表明DRPG在更复杂的多轮对话场景中同样表现优异。这些成果凸显了DRPG框架在生成高质量反驳内容、支持学术讨论规模化发展方面的潜力。本工作代码已开源:https://github.com/ulab-uiuc/DRPG-RebuttalAgent。
全球离散扩散语言模型最引人注目的特性之一是其全局双向上下文理解能力。然而现有的基于分块的扩散研究往往引入自回归先验,这种方法虽具优势,却可能导致模型在宏观层面丧失全局连贯性。为在保持半自回归范式优点的同时重建全局上下文理解,我们提出"扩散中的扩散"框架——一种"先草拟后优化"的范式,旨在克服分块扩散模型固有的不可逆性与短视问题。该方案首先通过小分块扩散快速生成草稿,再利用具有更大双向感受野的全局双向扩散进行精炼。我们采用置信度快照重掩码技术识别需要修改的关键词元,并运用混合尺度训练来扩展分块扩散模型的全局能力。实验结果表明,我们的方法在OpenWebText数据集上为离散扩散模型设立了新基准:仅用基线模型26%的微调预算,就将生成困惑度从25.7降至21.9,显著缩小了与自回归模型的性能差距。
语码转换在全球多语使用者群体中普遍存在,但现有基准测试难以准确反映其日常交流的复杂性。我们推出PingPong基准测试,涵盖五种语言组合变体(部分为三语)的自然多方言语码转换对话数据集。该数据集收录2至4人参与的人工编写对话,呈现真实场景中多线程对话结构——应答常指向对话前段内容。研究表明,相较于机器生成方案,本数据在信息长度、发言者主导性和应答跨度上更具变化性,对话结构更自然多元。基于这些对话,我们设定三项下游任务:问答系统、对话摘要和主题分类。多款前沿语言模型在PingPong上的评估表明,现有系统对语码转换输入的处理能力仍显不足,这凸显了开发能应对现实世界多语交流复杂性的稳健自然语言处理系统的迫切需求。
准确转录并区分儿童与成人互动对话的说话者角色,对于发展心理学与临床研究至关重要。然而人工标注耗时费力且难以规模化。现有自动化系统通常采用级联式的说话人日志与语音识别流程,易导致错误传播。本文提出一种统一的端到端框架,通过扩展Whisper编码器-解码器架构,实现对语音识别和儿童-成人说话者角色区分的联合建模。该方案整合了四大核心技术:(一)采用序列化输出训练策略,同步生成说话者标签及起止时间戳;(二)引入轻量级帧级日志头模块,增强编码器表征的说话人区分能力;(三)通过日志引导的静音抑制机制提升时间边界精度;(四)设计基于状态机的强制解码流程,确保输出结构合法性。在两个数据集上的综合评估表明,相比两种级联基线模型,本方法在Whisper-small和Whisper-large模型上均实现持续显著提升,不仅获得更低的多说话人词错误率,更在说话人日志准确率方面展现竞争优势。这些发现凸显了所提联合建模框架在规模化生成可靠儿童-成人互动说话者标注文本方面的有效性与实用价值。相关代码及模型权重已开源发布。
混合专家模型(MoE)通常会在预训练阶段采用显式负载均衡约束,以确保专家路由的统计平衡。然而我们发现,即使经过充分训练的MoE模型仍会呈现显著的路由不均衡现象。这种行为具有天然合理性——甚至可视为理想状态——因为不均衡路由能使模型将领域知识集中存储在部分专家子集中。专家并行(EP)技术通过将专家分布到多个设备来实现MoE模型扩展,但其设计隐含了路由均衡的前提假设。在极端不均衡场景下,EP会将不成比例的令牌流量导向少数专家,导致训练后阶段或推理过程中过载设备出现计算与内存瓶颈,而此时显式负载均衡往往已无法实施。我们提出最小负载专家并行(LLEP)算法,这种新型EP方案能将超额令牌及相关专家参数从过载设备动态重路由至闲置设备,在满足内存约束的前提下,确保所有设备以最小集体延迟完成计算负载。在不同规模模型测试中,LLEP相较于标准EP实现了最高5倍加速比和4倍峰值内存使用量降低,其中gpt-oss-120b模型的训练后处理速度提升约1.9倍。我们通过理论分析和包含消融实验的实证评估验证该方法,这些成果揭示了关键权衡关系,并建立了针对特定硬件进行超参数调优的理论框架,以实现最优性能。
高效鍵值(KV)快取管理對於大型語言模型(LLM)的實際部署至關重要,然而現有的壓縮技術往往需要在性能下降與計算開銷之間進行權衡。我們提出一種基於門控機制的KV快取淘汰方法,針對凍結權重的LLM實現高壓縮比且計算成本可忽略不計。該方法通過輕量級的匯聚注意力門控模組識別並保留關鍵KV對,並無縫整合至預填充和解碼階段。所提出的門控訓練演算法僅依賴LLM的前向傳播,避免昂貴的反向傳播過程,同時透過任務無關的重建目標實現強大的任務泛化能力。在Qwen2.5-1M、Qwen3和Gemma3系列模型上的大量實驗表明,本方法在淘汰高達70% KV快取的同時仍能保持近乎無損的性能。該結果在長上下文理解、代碼解析與數學推理等多類任務中均保持一致,證明了方法的普適性。
大型语言模型正日益针对深度推理进行优化,将复杂任务的正确执行置于通用对话能力之上。我们研究这种对计算能力的专注是否会造成"隧道视野",在危急情境下忽视安全考量。我们推出MortalMATH基准测试,包含150个场景:用户在描述逐渐危及生命的紧急情况(如中风症状、自由落体)时请求代数帮助。研究发现存在显著的行为分化:通用模型(如Llama-3.1)能成功拒绝数学请求以处理危险;而专用推理模型(如Qwen-3-32b和GPT-5-nano)往往完全忽略紧急情况,在用户描述濒死状态时仍保持超过95%的任务完成率。更严重的是,推理所需的计算时间会导致危险延迟:在提供任何潜在帮助前耗时长达15秒。这些结果表明,训练模型不懈追求正确答案的做法,可能会在无意中削弱安全部署所需的生存本能。
在產品發佈、作品集建構或專案個性化過程中,使用者介面(UI)設計是關鍵環節,但缺乏設計專業背景的終端使用者往往難以精準表達設計意圖,且對設計決策缺乏信心。現有的範例式工具要麼鼓勵廣泛探索(易導致選擇過載與設計方向偏離),要麼要求基於單一範例調整(存在設計定勢風險)。我們提出UI Remix互動系統,通過範例驅動的設計工作流程支援行動UI設計。該系統基於多模態檢索增強生成(MMRAG)模型,允許使用者在整體介面層面與局部組件層面進行迭代式搜尋、選擇和調整。為建立信任機制,系統提供來源透明度提示(如評分、下載量、開發者資訊)。透過對24位終端使用者的實證研究發現,UI Remix顯著提升了參與者達成設計目標的能力,促進了有效迭代,並激發了對替代設計方案的探索。參與者同時反饋來源透明度提示增強了他們調整範例的信心。本研究為AI輔助的範例驅動系統開拓了新方向,使終端使用者能以更強的控制力、信任感及探索開放性進行設計。
注意力矩阵是Transformer研究的核心要素,支撑着包括可解释性分析、可视化呈现、注意力操控与知识蒸馏在内的广泛应用。然而现有分析多聚焦于单个注意力头或网络层,未能反映模型的全局行为。尽管先前研究通过均值计算和矩阵乘法实现了多头注意力的扩展表达,或引入了归一化层与前馈网络等组件,但仍缺乏能够完整封装所有Transformer模块的统一表征框架。为此我们提出TensorLens——一种创新性数学表述,将整个Transformer模型表示为通过高阶注意力交互张量构建的输入依赖性线性算子。该张量联合编码了注意力机制、前馈网络、激活函数、归一化层与残差连接,从理论上构建了具有连贯性和高表达力的模型计算线性表征。TensorLens具备严格的理论基础,实证研究表明其产生的表征优于传统注意力聚合方法。实验证明该注意力张量可作为开发可解释性与模型理解工具的强大基础。相关代码已作为补充材料附上。
基於大型語言模型的搜索代理正日益廣泛應用於多步驟信息檢索任務,然而信息檢索學界對代理式搜索會話的展開方式及檢索證據的運用機制仍缺乏實證理解。本文通過對來自DeepResearchGym(一個由外部代理客戶端訪問的開源搜索API)收集的1444萬次搜索請求(397萬個會話)進行大規模日誌分析,系統性剖析代理式搜索行為。我們採用會話化處理流程,利用基於LLM的自動標註技術分配會話級意圖標籤和逐步驟查詢重構標籤,並提出上下文驅動的術語採納率(CTAR)指標來量化新引入查詢術語與既往檢索證據的關聯程度。分析結果揭示出三類典型行為模式:首先,超過90%的多輪會話步驟數不超過十步,89%的步驟間隔在一分鐘以內;其次,不同意圖的會話呈現差異化特徵——事實查詢類會話表現出隨時間遞增的高重複性,而需推理的會話則持續保持更廣泛的探索範圍;最後,代理存在跨步驟證據復用現象,平均54%的新增查詢術語可在累積證據上下文中追溯,且早期步驟的貢獻超越最近一次檢索結果。這些發現表明,代理式搜索或可從重複感知的早期終止機制、意圖自適應的檢索資源分配以及顯式跨步驟上下文追蹤中獲益。我們計劃公開匿名化處理後的日誌數據以支持後續研究。
强化学习(RL)在主动流动控制(AFC)领域已展现出显著成效,但由于现有研究采用异构的观测与执行方案、数值模拟设置及评估标准,该领域的进展仍难以客观衡量。当前AFC基准测试虽尝试解决这些问题,但严重依赖外部计算流体动力学(CFD)求解器,缺乏完全可微性,且对三维场景与多智能体系统的支持有限。为突破这些限制,我们推出首个独立、完全可微的AFC强化学习基准套件FluidGym。该套件完全基于PyTorch构建于GPU加速的PICT求解器之上,运行于单一Python框架内,无需外部CFD软件,并提供标准化评估流程。我们通过PPO和SAC算法呈现基线结果,并将所有环境、数据集及训练模型作为公共资源开放。FluidGym实现了控制方法的系统性比较,为基于学习的流动控制研究建立了可扩展基础,项目地址:https://github.com/safe-autonomous-systems/fluidgym。
随着多模态大语言模型(MLLMs)在处理复杂多图像指令方面的推理能力不断增强,这一进步可能带来新的安全风险。我们通过构建首个专注于多图像推理安全性的基准测试MIR-SafetyBench来研究该问题,该基准包含涵盖9类多图像关系的2,676个测试实例。针对19个MLLMs的大规模评估揭示了一个令人担忧的趋势:具备更先进多图像推理能力的模型在MIR-SafetyBench上反而表现出更高脆弱性。除攻击成功率外,我们发现许多被标记为安全的回复流于表面,往往源于模型误解或回避性的模糊应答。进一步观察表明,不安全生成内容相较于安全回复平均具有更低的注意力熵值。这一内部特征暗示了模型可能过度聚焦任务解决而忽视安全约束的潜在风险。相关代码与数据已发布于https://github.com/thu-coai/MIR-SafetyBench。
视觉标记压缩技术被广泛用于提升大型视觉语言模型(LVLMs)的推理效率,使其能够部署在延迟敏感和资源受限的场景中。然而现有研究主要关注效率与性能,视觉标记压缩的安全隐患却尚未得到充分探索。本研究首次揭示视觉标记压缩会显著降低LVLMs的鲁棒性:在未压缩状态下表现稳健的模型,一旦启用压缩就会变得极度脆弱。这种脆弱性具有状态特异性——失效模式仅出现在压缩环境下,关闭压缩后即完全消失,使其具有高度隐蔽性和诊断难度。通过分析压缩流程的关键环节,我们发现标记重要性排序的不稳定性是导致鲁棒性下降的主因。微小且难以察觉的扰动即可显著改变标记排序,导致压缩机制误删任务关键信息,最终引发模型失效。基于此发现,我们提出压缩感知攻击(CAA)来系统研究和利用该漏洞。CAA直接针对标记选择机制,能专门在压缩推理环境下诱发失效。我们进一步将这种方法扩展到更现实的黑盒场景,提出迁移CAA方案,即使目标模型和压缩配置均不可访问时仍能生效。针对潜在防御措施的评估表明,现有防护手段效果有限。跨模型、数据集和压缩方法的广泛实验证明,视觉标记压缩会显著削弱模型鲁棒性,揭示出此前被忽视的效率与安全性之间的权衡关系。
在医疗、法律及科学发现等高风险领域,大型语言模型的可靠性常因幻觉问题而受到制约。这些错误通常源于两大因素:数据驱动型幻觉与推理驱动型幻觉。然而现有检测方法往往仅针对单一诱因,且依赖任务特定的启发式规则,限制了其在复杂场景中的泛化能力。为突破这些局限,我们提出"幻觉风险边界"理论框架,将幻觉风险形式化分解为数据驱动与推理驱动两个组成部分,分别对应训练阶段的分布失配与推理阶段的不稳定性,为分析幻觉产生与演化机制提供了理论基石。基于此,我们开发了HalluGuard检测方法——通过神经正切核诱导的几何结构与表征空间,构建能同时识别两类幻觉的NTK评分体系。我们在10个多样化基准测试、11个竞争性基线模型及9个主流LLM架构上进行评估,结果表明HalluGuard在检测多种LLM幻觉形式时均能保持最先进的性能水平。
混合智能体(MoA)通过分层协作提升大语言模型性能,但其密集拓扑结构会显著增加成本与延迟。现有方法采用LLM评委机制筛选响应,但仍需所有模型先完成推理再进行评判,无法有效削减成本。这些方法缺乏模型选择标准,且难以应对大规模模型池场景——全量推理成本高昂且可能超出上下文限制。为此,我们提出RouteMoA:一种具备动态路由的高效混合智能体框架。该框架采用轻量级评分器通过查询预测粗粒度性能进行初筛,无需推理即可将候选模型缩小至高潜力子集;随后通过混合评委机制,基于现有模型输出进行轻量级自评估与交叉评估,在不增加推理负担的情况下实现后验校正;最终通过平衡性能、成本与延迟的模型排序机制完成优选。RouteMoA在不同任务规模与模型池容量下均优于传统MoA,在大规模模型池中可实现89.8%的成本降低与63.6%的延迟优化。
纹理三维形变技术旨在实现两个三维资产之间平滑合理的过渡,既要保持结构连贯性,又要保留细粒度外观特征。该能力不仅对推进三维生成研究至关重要,在动画制作、模型编辑和数字内容创作等实际应用中也具有重要价值。现有方法或直接操作几何结构,导致仅能实现纯形状形变而忽略纹理;或将二维插值策略延伸至三维空间,常引发语义模糊、结构错位和纹理模糊等问题。这些挑战凸显了在过渡过程中同时保持几何一致性、纹理对齐和鲁棒性的必要性。 为此,我们提出Interp3D——一种无需训练的新型纹理三维形变框架。该框架利用生成先验并采用渐进式对齐原则,确保几何保真度与纹理连贯性。Interp3D从条件空间的语义对齐插值出发,通过SLAT(结构化潜空间)引导的结构插值强化结构一致性,最终通过细粒度纹理融合实现外观细节迁移。为进行全面评估,我们构建了具有分级难度系数的专用数据集Interp3DData,并从保真度、过渡平滑度和合理性三个维度评估生成结果。定量指标与人工评估均表明,我们所提方法较以往技术具有显著优势。项目代码已开源:https://github.com/xiaolul2/Interp3D。