每日精選AI研究論文及翻譯
圖像思維鏈(Image-CoT)是一種透過延長推理時間來提升圖像生成效果的測試時擴展範式。現有方法主要聚焦於文字到圖像(T2I)生成,但圖像編輯具有目標導向性:其解空間受源圖像和編輯指令的雙重約束。這種差異導致Image-CoT應用於編輯任務時面臨三大挑戰:固定採樣預算下的資源分配低效、通用多模態大模型評分用於早期驗證不可靠,以及大規模採樣導致編輯結果冗餘。為此,我們提出自適應編輯思維鏈(ADE-CoT),一種按需調配的測試時擴展框架,以提升編輯效率與效果。該框架包含三大核心策略:(1)難度感知資源分配機制,根據預估編輯難度動態分配預算;(2)早期剪枝中的編輯專用驗證,通過區域定位與標題一致性篩選潛力候選;(3)由實例專用驗證器引導的深度優先機會性停止策略,在發現意圖吻合結果時立即終止採樣。在三個前沿編輯模型(Step1X-Edit、BAGEL、FLUX.1 Kontext)和三個基準測試上的大量實驗表明,ADE-CoT實現了更優的性能-效率平衡。在相同採樣預算下,ADE-CoT不僅性能更佳,相較於N選最優法(Best-of-N)更獲得超過2倍的加速效果。
OmniLottie 是一個多功能框架,能根據多模態指令生成高品質向量動畫。為實現靈活的運動與視覺內容控制,我們聚焦於 Lottie——一種用於描述圖形與動畫行為的輕量級 JSON 格式。然而,原始 Lottie JSON 文件包含大量不變的結構化元數據與格式標記,對學習向量動畫生成構成重大挑戰。為此,我們設計了專用的 Lottie 標記化器,可將 JSON 文件轉換為結構化的指令與參數序列,用以表徵圖形、動畫功能及控制參數。此標記化器使我們能基於預訓練視覺語言模型構建 OmniLottie,使其遵循多模態交錯指令並生成高品質向量動畫。為推動向量動畫生成研究,我們還構建了 MMLottie-2M 大規模數據集,包含專業設計的向量動畫及其對應的文本與視覺註釋。透過大量實驗驗證,OmniLottie 能生成生動且語義對齊的向量動畫,精準遵循多模態人類指令。
軟體工程智慧體(SWE)正快速進步,近期突破主要得益於強化學習(RL)的應用。然而,RL訓練受到大規模任務集的稀缺性限制——這些任務集需具備可重現的執行環境與可靠的測試套件。儘管相關基準測試日益增多,但適用於訓練的數據集在規模與多樣性上仍顯不足,且往往僅針對少數高資源語言生態系統。我們推出SWE-rebench V2,這是一個與語言無關的自動化流程,能大規模採集可執行的真實世界SWE任務並構建RL訓練環境。該流程通過互動式設置智慧體合成儲存庫專屬的安裝與測試程序,並採用LLM評判器組合過濾不健全的實例,其有效性已通過人工驗證的SWE-bench標註數據檢驗。利用此流程,我們構建了包含32,000多個任務的數據集,涵蓋20種語言與3,600多個儲存庫,並提供預建鏡像確保可重現執行。為進一步擴展訓練數據,我們額外發布12萬多個含安裝指南、失敗轉通過測試及豐富元數據的任務,其中問題描述基於原始拉取請求生成。我們通過診斷研究驗證所收集的實例,該研究覆蓋五種程式語言中的任務子集及七個主流模型,並提供實例級元數據以標記常見干擾因素(如過度嚴格的測試與描述不完整)。我們公開數據集、採集與執行代碼及相關組件,以支持跨語言與儲存庫的大規模SWE智慧體訓練。
隨著大型語言模型(LLM)對齊技術從簡單的文本補全發展至複雜精密的內容生成,獎勵模型正逐漸轉向以評分量表為指導的評估方式,以降低表面層級的偏誤。然而,學界目前缺乏統一的基準來衡量此評估範式,現有基準既缺乏區分性複雜度,也缺少嚴謹分析所需的事實評分量表標註。為此,我們提出RubricBench——一個包含1,147組對比樣本的精選基準集,專門用於檢驗基於評分量表的評估可靠性。我們通過多維度篩選流程構建具有細膩輸入複雜度與誤導性表面偏誤的困難樣本,並為每個樣本配備嚴格遵循指令生成、由專家標註的原子化評分量表。綜合實驗顯示,人工標註與模型生成的評分量表存在顯著能力落差,表明即使最先進的模型仍難以自主制定有效的評估標準,其表現遠落後於人類指導下的水準。
OpenAutoNLU 是一款專注於自然語言理解任務的開源自動機器學習函式庫,涵蓋文字分類與命名實體識別兩大功能。有別於現有解決方案,我們創新引入無需人工設定的數據感知訓練機制選擇功能。該函式庫更整合了數據質量診斷、可配置的分布外檢測,以及大型語言模型特性,所有功能皆透過極簡化的低代碼API實現。演示應用程式可於 https://openautonlu.dev 網址存取。
近年來,多模態大型語言模型(MLLMs)在推理能力方面的進展,使其能夠處理更複雜的任務,如科學分析和數學推理。儘管前景可期,MLLMs在現實生活不同場景中的推理能力仍鮮有探索,且缺乏標準化的評估基準。為填補此空白,我們提出 MMR-Life——一個專為評估 MLLMs 在真實生活場景中多樣化多模態多圖像推理能力而設計的綜合基準。MMR-Life 包含 2,646 道基於 19,108 張主要源自真實世界情境圖像的選擇題,全面涵蓋七種推理類型:溯因、類比、因果、演繹、歸納、空間與時間推理。與現有推理基準不同,MMR-Life 不依賴領域專業知識,而是要求模型整合多圖像資訊並運用多元推理能力。對 37 個先進模型的評估結果顯示,MMR-Life 帶來顯著挑戰:即使頂尖模型如 GPT-5 也僅達到 58% 的準確率,且在不同推理類型間表現差異懸殊。此外,我們分析現有 MLLMs 的推理模式,探討思考長度、推理方法與推理類型等因素如何影響其表現。總體而言,MMR-Life 為評估、分析與改進下一代多模態推理系統奠定了全面基礎。
近期,大型語言模型(LLMs)展現出卓越的推理能力,這主要得益於基於高質量推理數據的監督微調(SFT)和強化學習(RL)後訓練。然而,在開放且可擴展的環境中復現並擴展這些能力,正面臨三個根本性的數據挑戰:(1)冷啟動問題,源於缺乏包含詳細、長鏈思維(CoT)軌跡的種子數據集來初始化推理策略;(2)領域覆蓋有限,現有開源推理數據集多集中於數學領域,對更廣泛科學學科的覆蓋不足;(3)標註瓶頸,前沿級推理任務的難度使得可靠的人工標註成本過高或難以實現。為應對這些挑戰,我們提出CHIMERA——一個包含9K樣本的緊湊型合成推理數據集,旨在實現可泛化的跨領域推理。CHIMERA具備三大關鍵特性:(1)提供由頂尖推理模型生成的豐富長鏈CoT推理軌跡;(2)具有廣闊且結構化的覆蓋範圍,涵蓋8大科學領域並通過模型生成的層次化分類體系組織超過1K細分主題;(3)採用全自動可擴展評估流程,使用強推理模型交叉驗證問題有效性與答案正確性。我們使用CHIMERA對4B參數的Qwen3模型進行後訓練。儘管數據集規模適中,所得模型在GPQA-Diamond、AIME 24/25/26、HMMT 25及Humanity's Last Exam等挑戰性推理基準測試中表現強勁,其推理能力接近或匹敵DeepSeek-R1、Qwen3-235B等規模更大的模型。
當前多視角室內3D物體檢測方法依賴於獲取成本高昂的傳感器幾何數據(即精確校準的多視角相機位姿)來融合多視角信息至全局場景表徵,這限制了其實際場景中的部署能力。我們瞄準一種更實用的設定:無傳感器幾何約束的多視角室內3D物體檢測,該設定下不提供任何傳感器幾何輸入(多視角位姿或深度信息)。近期提出的視覺幾何基於Transformer模型表明,強健的3D線索可直接從圖像中推斷。基於此洞見,我們提出首個專為無傳感器幾何約束多視角室內3D檢測設計的框架VGGT-Det。有別於簡單使用VGGT預測結果,我們的方法將VGGT編碼器整合至基於Transformer的流程中。為有效利用VGGT內部的語義與幾何先驗,我們引入兩個創新核心組件:(1)注意力引導查詢生成:利用VGGT注意力圖作為語義先驗來初始化物體查詢,通過聚焦物體區域同時保持全局空間結構來提升定位能力;(2)查詢驅動特徵聚合:可學習的See-Query模塊與物體查詢交互以「感知」其需求,隨後動態聚合VGGT多層級的幾何特徵,逐步將2D特徵提升至3D表徵。實驗表明,VGGT-Det在ScanNet和ARKitScenes數據集上的mAP@0.25指標分別顯著超越現有最佳無傳感器幾何方法4.4和8.6個百分點。消融研究證實,我們提出的AG與QD組件能有效利用VGGT內部學習到的語義與幾何先驗。
開發多輪互動式工具使用代理面臨重大挑戰,因為現實世界的用戶需求往往複雜且模糊,但代理必須執行確定性操作來滿足這些需求。為解決這一難題,我們提出CoVe(約束驗證框架),這是一種專為訓練互動式工具使用代理而設計的後訓練數據合成框架,能同時確保數據複雜度與正確性。CoVe首先定義明確的任務約束條件,這些條件具有雙重作用:既指導複雜軌跡的生成,又作為評估軌跡質量的確定性驗證器。該機制能為監督微調(SFT)生成高質量訓練軌跡,並為強化學習(RL)提供精確的獎勵信號。我們在具有挑戰性的τ²-bench基準測試中的評估結果證明了該框架的有效性。值得注意的是,我們緊湊型的CoVe-4B模型在航空和零售領域分別達到43.0%和59.4%的成功率;其整體性能顯著優於同等規模的強基線模型,並可與規模達其17倍的大型模型相媲美。這些結果表明,CoVe為合成最先進互動式工具使用代理的訓練數據提供了高效途徑。為推動未來研究,我們開源了代碼、訓練模型以及用於訓練的12K條高質量完整軌跡數據集。
個人相簿並非靜態圖像的簡單集合,而是由時間連續性、社會關聯性與豐富元數據定義的動態生態檔案,這使得個性化圖像檢索成為一項複雜任務。然而現有檢索基準過度依賴情境孤立的網絡快照,無法捕捉解決真實意圖驅動查詢所需的多源推理能力。為彌合這一鴻溝,我們推出首個基於真實個人相簿構建的基準數據集PhotoBench,旨在將研究範式從視覺匹配轉向個性化的多源意圖驅動推理。通過建立嚴謹的多源畫像框架——整合每張圖像的視覺語義、時空元數據、社交身份與時間事件,我們基於用戶生命軌跡合成出複雜的意圖驅動查詢。在PhotoBench上的廣泛評估揭示了兩大關鍵局限:其一是模態鴻溝,即統一嵌入模型在處理非視覺約束時失效;其二是源融合悖論,體現為智能體系統難以有效協調多工具協作。這些發現表明,個人多模態檢索的下一個前沿應超越統一嵌入模型,需要構建具備精確約束滿足能力與多源融合能力的強健智能體推理系統。PhotoBench數據集已開放使用。
我们提出LLaDA-o模型——一种高效且长度自适应的全能扩散模型,可用于多模态理解与生成。该模型基于混合扩散框架构建,通过离散掩码扩散实现文本理解,连续扩散实现视觉生成,并借助共享的轻量级注意力骨干网络将二者耦合,显著减少了固定条件下的冗余计算。在此基础上,我们进一步提出以数据为中心的长度自适应策略,无需调整模型架构即可实现多模态场景下的灵活长度解码。大量实验表明,LLaDA-o在多模态理解与生成基准测试中超越了现有全能扩散模型,其文生图任务在DPG-Bench上达到87.04分,印证了统一化全能扩散建模的有效性。代码已开源:https://github.com/ML-GSAI/LLaDA-o。
生成式基础模型在宽度和深度维度上的规模持续扩大,这对跨模型尺寸的稳定特征学习和超参数可靠迁移提出了严峻挑战。虽然最大更新参数化(μP)已为宽度缩放提供了针对这两个问题的理论解决方案,但现有针对宽度-深度联合缩放的研究仍存在碎片化、依赖特定架构与优化器、且常需复杂理论支撑的局限。本研究提出了一种简单统一的谱框架来解决联合缩放下的μP问题。通过分析不同块深度的残差网络,我们首先提出谱μP条件,精确刻画了权重及其每步更新量的范数应如何随宽度和深度缩放,将此前分散的μP表述统一为特例。基于此条件,我们进一步推导出适用于广泛优化器类别的μP通用实现方案,将谱约束转化为具体的超参数参数化方法。该方案不仅复现了现有μP表述(如SGD和AdamW),还能自然扩展至更多优化器。最终在GPT-2风格语言模型上的实验表明,所提出的谱μP条件能在宽度-深度缩放中保持稳定的特征学习,并实现超参数的鲁棒迁移。
近期基础视频扩散模型(VDM)的研究取得了显著进展。然而尽管生成视频具备出色的视觉质量,由于相机可控性受限以及不同相机轨迹下生成内容存在不一致性,从这些输出中重建连贯的三维场景仍具挑战。本文提出WorldStereo创新框架,通过两个专用几何记忆模块搭建相机引导视频生成与三维重建的桥梁。具体而言,全局几何记忆模块通过渐进更新的点云注入粗粒度结构先验,同时实现精确的相机控制;空间立体记忆模块则利用三维对应关系约束模型的注意力感受野,使其聚焦于记忆库中的细粒度细节。这些组件使WorldStereo能在精确相机控制下生成多视角一致的视频,为高质量三维重建提供支持。此外,基于分布式匹配蒸馏VDM主干网络的可控分支架构展现出卓越效率,无需联合训练。在相机引导视频生成和三维重建基准测试中的大量实验验证了本方法的有效性。值得注意的是,WorldStereo可作为强大的世界模型,无论是从透视图像还是全景图像出发,都能以高保真三维结果处理多样化的场景生成任务。相关模型将予以开源。
强化学习(RL)在提升大型语言模型的推理能力与对齐效果方面发挥着核心作用,但其效率关键取决于训练数据的选择策略。现有在线选择方法主要依赖基于难度的启发式规则,偏好具有中等成功率的数据点,这种策略隐含地将难度等同于信息量,却忽视了因证据有限而产生的认知不确定性。我们提出InSight方法——一种基于加权互信息目标的信息导向式强化学习数据采样框架。通过使用贝叶斯潜在成功率对数据结果建模,我们证明了预期不确定性降低可分解为难度相关和证据相关的互补成分,从而揭示了纯难度选择策略的根本局限性。基于这一发现,InSight通过数据点成功率的均值估计(而非噪声采样结果)构建稳定的获取分数,并能自然扩展至可验证奖励强化学习(RLVR)中常见的多轮采样场景。大量实验表明,InSight能持续实现最先进性能并提升训练效率:在规划与数学基准测试中平均提升1.41分,通用推理任务提升1.01分,训练加速最高达约2.2倍,且仅带来可忽略的额外计算开销。
针对数学推理的强化学习常受奖励稀疏问题困扰:面对复杂问题时,大语言模型往往无法生成任何正确轨迹,导致强化学习缺乏有效正向反馈。尽管这类问题常附有人工编写的参考答案(如AoPS题库中的题目),但直接对这些解答进行微调收效甚微,因为模型通常难以模仿超出自身推理分布的人类证明思路。 我们提出参考引导微调方法(ReGFT),通过利用人工参考答案为难题合成正向轨迹,并在强化学习前进行训练。该方法会为每个问题提供部分参考解答,让模型自主生成推理轨迹,确保所得轨迹既保持在模型推理空间内,又能获得参考指引的益处。 基于这些参考引导轨迹的微调,不仅可提升模型可解决问题的数量,还能生成在强化学习阶段获得更多正向奖励的检查点。在三个基准测试(AIME24、AIME25、BeyondAIME)中,ReGFT持续提升监督学习准确率,加速DAPO训练进程,并推高强化学习的最终性能上限。实验结果表明,ReGFT能有效克服奖励稀疏问题,释放基于强化学习的数学推理潜力。
大型语言模型(LLMs)正逐渐成为能够使用工具解决复杂任务的自主智能体基础架构。强化学习(RL)已成为注入此类智能体能力的常用方法,但通常需要在严格控制的训练环境下进行。这种方法往往依赖于精心构建的任务-解决方案对和大量人工监督,这为通向超级智能系统的开放式自我进化设置了根本性障碍。本文提出Tool-R0框架,在零数据假设下通过自我博弈式强化学习从头训练通用工具调用智能体。该框架从同一基础LLM初始化,通过互补奖励机制协同进化生成器与求解器:前者根据对方能力边界提出针对性挑战任务,后者学习通过真实世界工具调用来解决问题。由此形成无需预设任务或数据集的自我进化循环。在不同工具使用基准测试中,Tool-R0相较基础模型实现92.5%的相对性能提升,并在相同设定下超越全监督工具调用基线。本研究还通过分析协同进化、课程动态和扩展行为,为自我博弈式LLM智能体提供了实证洞察。
強化學習(RL)在醫學視覺語言模型(VLM)的後訓練中應用日益廣泛,但目前尚不清楚RL究竟是提升了醫學視覺推理能力,還是主要強化了監督微調(SFT)已誘導的行為。我們通過對視覺、SFT和RL三個維度的控制實驗來解析這些效應:以MedMNIST作為多模態測試平台,通過對比VLM視覺模組與純視覺基線的表現來探測視覺感知能力,利用Accuracy@1與Pass@K的對比量化推理支持度與採樣效率,並評估RL何時能彌合支持度差距及其增益如何跨模態遷移。研究發現,當模型已具備顯著支持度(高Pass@K)時RL效果最佳:它主要通過銳化輸出分佈來提升Acc@1和採樣效率,而SFT則能擴展支持度並使RL發揮作用。基於這些發現,我們提出邊界感知優化方案,並在PMC多選題視覺問答的平衡子集上對OctoMed初始化模型進行RL後訓練,最終在六個醫學VQA基準測試中實現了強勁的平均性能。
我们推出V-SONAR——一个从纯文本嵌入空间SONAR(Omnilingual Embeddings Team等人,2026)扩展而来的视觉-语言嵌入空间,其支持1500种文本语言和177种语音语言。为构建V-SONAR,我们提出了一种后验对齐流程,将现有视觉编码器的表征映射至SONAR空间。通过全面评估,我们证明V-SONAR嵌入在文本-视频检索任务中具备竞争优势。结合OMNISONAR文本解码器后,V-SONAR在视频描述生成任务上进一步超越现有顶尖视觉-语言模型,在DREAM-1K(BLEU分数23.9对19.6)和PE-VIDEO(BLEU分数39.0对30.0)数据集上表现优异。 基于V-SONAR,我们首次证实:仅通过英文文本训练、运行于SONAR空间的大型概念模型(LCM;LCM团队等人,2024)能以零样本方式实现单视觉概念与多视觉概念理解。最后,我们提出通过视觉-语言指令微调扩展LCM的V-LCM模型。该模型通过V-SONAR和SONAR将视觉与语言输入编码为统一的潜在嵌入序列,并采用与LCM纯文本预训练相同的潜在扩散目标进行下一嵌入预测。在大规模多语言多模态指令微调混合数据上的实验凸显了V-LCM的潜力:在涵盖图像/视频描述生成和问答的任务中,V-LCM与顶尖视觉-语言模型性能相当,而在全部62种测试语言中,其于61种资源丰富度各异的语言上显著优于现有模型。
當文本描述被附加錯誤細節時,圖文相似度理應下降。我們發現CLIP風格的雙編碼器經常違背這一直覺:在正確描述的基礎上添加合理但錯誤的物體或關係,反而可能提高相似度得分。我們將此類案例稱為「半真陳述」。在COCO數據集上,CLIP僅在40.6%的情況下偏好正確的簡短描述,當添加細節為關係時,該比例更降至32.9%。我們追溯此缺陷至對字幕部分的弱監督:對比式訓練雖對齊完整句子,但未顯式要求個體實體與關係需被錨定。我們提出CS-CLIP(組件監督式CLIP),通過將字幕分解為實體與關係單元,為每個單元構建最小編輯的反例,並在保持標準雙編碼器推理的同時微調模型,使正確單元的得分高於其反例。CS-CLIP將半真陳述準確率提升至69.3%,並在現有組合式基準測試中平均表現提高5.7分,表明減少半真錯誤有助於提升組合理解能力。代碼公開於:https://github.com/kargibora/CS-CLIP
大型语言模型(LLM)智能体能否在不执行代码的情况下探索代码库并推理代码语义?我们研究了这种被称为"智能体代码推理"的能力,并提出了半形式化推理方法:一种结构化提示技术,要求智能体构建明确的前提条件、追踪执行路径并推导形式化结论。与非结构化的思维链不同,半形式化推理具有证书式特性:智能体无法跳过用例或提出无依据的论断。我们在三项任务(补丁等价性验证、故障定位和代码问答)上进行评估,结果表明半形式化推理能持续提升所有任务的准确率。在补丁等价性任务中,精选样本的准确率从78%提升至88%,真实场景智能体生成补丁的准确率达到93%,接近无需执行的强化学习奖励信号所需的可靠性水平。在RubberDuckBench(Mohammad等人,2026)的代码问答任务中,半形式化推理达到87%的准确率。在Defects4J(Just等人,2014)的故障定位任务中,半形式化推理将Top-5准确率较标准推理提升了5个百分点。这些结果证明,结构化的智能体推理能够实现无需执行的有意义的代码语义分析,为强化学习训练流程、代码审查和静态程序分析开辟了实际应用前景。
诸如DeepSeek-R1等思维-解答推理器通过利用可解释的内部推理取得了显著进展。然而,尽管这些模型频繁出现"糟糕!"等自我反思提示,但在单次推理过程中仍易产生输出错误。为突破这一局限,我们提出高效的递归思维-解答流程(R-TAP),使模型能够进行迭代推理循环并生成更精确的答案,从而超越传统的单次推理方法。该方法的核心理念是构建置信度生成器,用于评估模型响应的确定性并指导后续改进。通过引入递归置信度提升奖励和最终答案置信度奖励这两个互补的奖励机制,我们证明增强R-TAP的大型语言模型和视觉语言模型均能持续超越传统单次推理方法。此外,通过分析模型响应中"糟糕"类表达的出现频率,我们发现应用R-TAP的模型展现出显著减少的自我反思模式,从而实现更稳定、更快速的推理过程。我们希望R-TAP能为发展高效精细的推理优化方法开辟道路,推动未来人工智能推理过程的演进。
注意力引导是一项控制模型聚焦的重要技术,能够实现提示强调等功能,使模型优先处理用户指定的文本。然而现有注意力引导方法需显式存储完整注意力矩阵,导致其无法兼容FlashAttention等内存优化方案。我们提出谱编辑键值放大技术(SEKA),这种无需训练的引导方法通过在注意力计算前直接编辑键值嵌入来解决该问题。SEKA利用谱分解将键值嵌入引导至潜在方向,从而放大特定标记的注意力分数。我们进一步扩展出自适应SEKA(AdaSEKA),该查询自适应变体采用无训练路由机制,基于提示的语义意图动态组合多个专家子空间。实验表明,两种方法在标准引导基准测试中均显著优于强基线模型,同时仅增加极低的延迟与内存开销,完全兼容优化后的注意力机制。
我们推出Legal RAG Bench——一个用于评估法律RAG系统端到端性能的基准测试与评估方法论。作为基准测试体系,该平台包含来自《维多利亚州刑事指控手册》的4,876个法律条文片段,以及100个需要刑法与诉讼程序专业知识的复杂人工设计问题,同时提供详细解答及佐证条文。在评估方法论层面,Legal RAG Bench采用全因子实验设计及创新的层级化误差分解框架,实现了检索模型与推理模型在RAG系统中贡献度的精准对比。通过对三款前沿嵌入模型(Isaacus公司的Kanon 2 Embedder、谷歌Gemini Embedding 001和OpenAI的Text Embedding 3 Large)及两大顶尖大语言模型(Gemini 3.1 Pro与GPT-5.2)的评估,我们发现信息检索是法律RAG性能的核心驱动因素,而大语言模型对答案正确性与事实依据性的影响相对有限。其中Kanon 2 Embedder对性能提升贡献最大,使平均正确率提高17.5个百分点、事实依据性提升4.5个百分点、检索准确率提升34个百分点。研究观察到法律RAG系统中许多被归因于模型幻觉的错误实则由检索失败引发,表明检索质量决定了现代法律RAG系统的性能上限。本文详细阐述了构建Legal RAG Bench的动因与方法,并公开代码与数据以助力研究复现。
为游戏、机器人技术和仿真创建交互式数字环境,依赖于其功能源于部件几何形态与运动学结构的铰接式三维物体。然而现有方法存在根本性局限:基于优化的重建方法需要进行缓慢的逐对象关节拟合,且通常仅能处理简单的单关节物体;而基于检索的方法则从固定库中组装部件,导致几何形态重复且泛化能力差。为解决这些挑战,我们提出ArtLLM——一种直接从完整三维网格生成高质量铰接式资源的新框架。其核心是基于大规模铰接数据集训练的三维多模态大语言模型,该数据集整合了现有铰接数据集与程序化生成对象。与先前工作不同,ArtLLM通过自回归方式预测可变数量的部件与关节,从物体点云中统一推断其运动学结构。这种铰接感知的布局随后作为条件输入三维生成模型,以合成高保真度的部件几何形态。在PartNet-Mobility数据集上的实验表明,ArtLLM在部件布局精度和关节预测方面均显著优于现有最优方法,同时对现实物体展现出强大的泛化能力。最后,我们通过构建数字孪生案例验证了其实用性,彰显其在可扩展机器人学习领域的潜力。
大型语言模型(LLMs)从根本上革新了稠密检索技术,将系统主干从判别式编码器升级为生成式架构。然而存在一个关键断层:尽管LLMs具备强大的推理能力,当前检索模型主要将其作为静态编码器使用,未能发掘其处理复杂推理的潜力。为解决这一问题,现有方法通常采用"重写后检索"流程,在检索前生成显式的思维链推理依据,但这会导致难以承受的延迟。本文提出LaSER创新框架,通过自蒸馏技术将显式推理内化到稠密检索器的隐式空间中。基于共享的LLM主干,LaSER引入双视角训练机制:显式视角对真实推理路径进行显式编码,隐式视角则执行潜在的隐式思考。为弥合两个视角间的鸿沟,我们设计了多粒度对齐策略——除标准输出对齐外,创新性地引入轨迹对齐机制,使隐式路径的中间潜在状态与显式推理片段的语义演进保持同步。这使得检索器无需自回归文本生成即可实现高效静默思考。在领域内和领域外推理密集型基准测试上的大量实验表明,LaSER显著优于现有最优基线方法。此外,跨不同主干网络和模型规模的综合分析验证了我们方法的鲁棒性,证实统一学习框架对于激发有效隐式思考的关键作用。我们的方法成功融合了显式思维链流程的推理深度与标准稠密检索器的推断效率。
测试时强化学习(TTRL)已成为实现大型推理模型(LRM)自我演进的重要范式,该技术通过多数表决产生自我诱导奖励,使模型能在未标注测试输入上实现在线适应。然而,高频出现但未经核实的虚假共识可能成为带有偏差的强化奖励信号,导致错误的模式坍塌。我们提出T³RL(测试时强化学习的工具验证机制)来解决这一失效模式,通过将测试时工具验证引入奖励估计过程。具体而言,验证器利用外部工具(如代码执行结果)作为证据,在验证感知投票中提升已验证推演的权重,从而为训练生成更可靠的伪标签。在多种数学难度数据集(MATH-500、AMC及AIME 2024)和不同骨干网络上的实验表明,T³RL较TTRL实现显著提升,且在越困难的问题上增益越大。更广泛地说,T³RL可被视为经过验证的在线数据合成方法,揭示了测试时工具验证作为稳定自我演进的关键机制。
基於可驗證符號數據的訓練是一種極具前景的方法,能將語言模型的推理邊界擴展至標準預訓練語料庫無法覆蓋的領域。然而現有的程序化生成器通常依賴固定謎題或模板,難以實現大規模所需的分布廣度。我們推出「推理核心」——一個可擴展的程序化生成套件,能夠在核心形式化領域生成可驗證的符號推理數據:包括隨機領域的PDDL規劃、帶等式的一階邏輯、上下文無關文法解析與生成、隨機貝葉斯網絡的因果推理以及方程組求解。每項任務均配備外部求解器以實現嚴格驗證,並支持課程設計所需的連續難度調控。樣本可選包含求解器推導的推理軌跡,從而實現從預訓練初始階段的監督學習,同一接口還可為強化學習提供可驗證的獎勵函數。實驗表明,將推理核心數據混入預訓練能提升下游推理能力,同時保持(甚至略微提升)語言建模質量。零樣本評估證實這些任務對GPT-5等前沿模型構成挑戰。代碼與數據已根據MIT許可協議開源發布。
本报告提出CharacterFlywheel——一种用于优化Instagram、WhatsApp和Messenger等生产环境社交聊天应用中大语言模型(LLMs)的迭代式飞轮流程。基于LLaMA 3.1起点,我们利用内部及外部真实用户流量数据,历经15代模型精炼。通过2024年7月至2025年4月的连续部署,控制组为期7天的A/B测试显示持续参与度提升:新部署的8个模型中7个实现相对于基准线的正向提升,最优模型在参与广度上提升达8.8%,参与深度提升达19.4%。在可控性方面也取得显著进展,指令遵循率从59.2%提升至84.8%,指令违反率从26.6%降至5.8%。我们详述了整合数据筛选、参与度指标评估与插值的奖励建模、监督微调(SFT)、强化学习(RL)以及离线在线评估的CharacterFlywheel流程,确保每个优化步骤的可靠进展。同时探讨了大规模生产环境中防止过拟合及应对动态挑战的方法。这些成果为服务数百万用户的社交应用中LLMs的科学严谨性及认知理解提供了重要推进。
我们推出 Classroom Final Exam(课堂期末考试)——一个用于评估大型语言模型在20余个STEM领域推理能力的多模态基准。该基准精选自高校长期使用的真实作业与试题,并附有授课教师提供的标准解答。即便对前沿模型而言,CFE也构成显著挑战:最新发布的Gemini-3.1-pro-preview总体准确率为59.69%,而排名第二的Gemini-3-flash-preview仅达55.46%,显示模型仍有巨大提升空间。除排行榜数据外,我们通过解构标准解答的推理流程进行诊断分析,发现前沿模型虽能正确回答中间子问题,却难以在多步求解过程中可靠推导并维持正确的中间状态。进一步观察表明,模型生成的解答通常比教师提供的方案包含更多推理步骤,反映出步骤效率欠佳及错误累积风险较高的问题。数据集与代码已开源:https://github.com/Analogy-AI/CFE_Bench。
当前文生图(T2I)扩散模型虽能生成高度逼真的图像,但在处理包含多对象、复杂关系和细粒度属性的提示词时,仍难以实现精准的图文对齐。现有无需训练的策略采用固定迭代次数的推理时缩放方法,无法根据提示词难度动态调整;而基于反思调优的模型不仅需要精心构建的反思数据集,还需对扩散模型与视觉语言模型进行大量联合微调,容易过度拟合反思路径数据且缺乏跨模型迁移能力。我们提出RAISE(需求自适应自我进化框架),一种无需训练、需求驱动的自适应文生图进化框架。该框架将图像生成定义为需求导向的自适应缩放过程:在推理时通过提示词重写、噪声重采样和指令编辑等多样化优化操作,对候选图像群体进行迭代进化。每一代结果都会通过结构化需求清单进行验证,使系统能动态识别未满足项并仅针对需改进环节分配计算资源,从而实现计算成本与语义查询复杂度相匹配的自适应测试时缩放。在GenEval和DrawBench基准测试中,RAISE在达到最优对齐效果(GenEval综合得分0.94)的同时,相较于现有缩放方法和反思调优基线,生成样本量减少30-40%,视觉语言模型调用次数降低80%,展现出高效、可泛化且模型无关的多轮自我优化能力。代码已开源:https://github.com/LiyaoJiang1998/RAISE。
我们推出合成视觉基因组2(SVG2)——一个大规模全景视频场景图数据集。该数据集包含63.6万段视频、660万个物体、5200万个属性和670万组关系,在规模与多样性上较现有时空场景图数据集实现数量级提升。通过结合多尺度全景分割、支持新物体自动发现的在线-离线轨迹追踪、单轨迹语义解析及基于GPT-5的时空关系推理,我们构建了全自动流水线来生成SVG2。基于此资源,我们训练了TRaSER视频场景图生成模型。该模型通过轨迹对齐的令牌编排机制,配合物体轨迹重采样器和时序窗口重采样器两大新模块,可将原始视频与全景轨迹在单次前向传播中压缩为紧凑的时空场景图。时序窗口重采样器将视觉令牌绑定至短轨迹片段以保留局部运动与时序语义,而物体轨迹重采样器则聚合完整轨迹以维持物体的全局上下文。在PVSG、VIPSeg、VidOR及SVG2测试集上,TRaSER将关系检测性能提升15-20%,物体预测能力较最强开源基线提升30-40%、较GPT-5提升13%,属性预测精度提高15%。当将TRaSER生成的场景图输入视觉语言模型进行视频问答时,相较仅使用视频或视频结合Qwen2.5-VL生成场景图的方法,其绝对准确率提升1.5-4.6%,证明了显式时空场景图作为中间表征的有效性。
基於知識的視覺問答(KB-VQA)在處理知識密集型任務方面展現出巨大潛力。然而,由於預訓練獲得的靜態模型知識,視覺語言模型(VLM)中的靜態參數化知識與動態檢索信息之間會產生衝突。模型輸出要麼忽略檢索上下文,要麼表現出與參數化知識整合不一致的問題,這對KB-VQA構成了重大挑戰。現有的知識衝突緩解方法主要改編自基於語言的方案,通過設計提示策略或上下文感知解碼機制來處理上下文層面的衝突。但這些方法忽視了視覺信息在衝突中的關鍵作用,且受冗餘檢索上下文的影響,難以實現精準的衝突識別與有效緩解。為解決這些局限性,我們提出CC-VQA:一種面向KB-VQA的無訓練、衝突與關聯感知新方法。該方法包含兩個核心組件:(1)以視覺為中心的上下文衝突推理,在內部與外部知識上下文間進行視覺-語義衝突分析;(2)關聯引導的編碼與解碼機制,通過對低關聯語句進行位置編碼壓縮,並採用基於關聯加權衝突評分的自適應解碼。在E-VQA、InfoSeek和OK-VQA基準上的大量實驗表明,CC-VQA實現了最優性能,相比現有方法絕對準確率提升3.3%至6.4%。代碼已開源於:https://github.com/cqu-student/CC-VQA。
我们将遮挡推理确立为三维布局条件生成中基础但被忽视的关键要素。该技术对于合成具有深度一致几何形状和尺度的部分遮挡物体至关重要。尽管现有方法能够生成符合输入布局的逼真场景,但往往难以精确建模物体间的遮挡关系。我们提出SeeThrough3D模型,通过显式建模遮挡关系实现三维布局条件生成。该方法创新性地引入遮挡感知三维场景表示(OSCR),将物体描绘为虚拟环境中半透明的三维立方体,并从指定摄像机视角进行渲染。透明度编码了被隐藏的物体区域,使模型能够推理遮挡关系,而渲染视角则为生成过程提供明确的摄像机控制。我们通过从渲染的三维表示中提取视觉标记集,对基于流的预训练文生图模型进行条件控制。此外,采用掩码自注意力机制精确绑定各物体边界框与其对应文本描述,从而避免物体属性混淆,实现多物体的精准生成。为训练模型,我们构建了包含多种强遮挡关系多物体场景的合成数据集。SeeThrough3D能有效泛化至未见过的物体类别,在保持真实遮挡关系和一致摄像机控制的同时,实现精确的三维布局控制。
联邦指令调优(FIT)支持跨组织(客户端)在数据孤岛环境下协同进行大语言模型的指令微调,且无需共享私有指令。近期关于自然后门的研究及现有训练数据收集方法表明,即使客户端均为良性,中毒样本仍可能普遍存在并无意间嵌入真实数据集,且潜在分布于所有客户端。本文系统性地探究了FIT中的这一威胁,证明当中毒数据分散于所有客户端时,现有防御机制将失效。应对该挑战需解决两大难题:识别各客户端中毒样本的独有特征,以及在部分客户端被中毒样本主导时实现协同防御。针对这些难题,我们发现频域梯度可作为区分中毒数据的稳健信号,并进一步提出全局二次聚类机制以实现跨客户端的中毒样本协同识别。综上,本文提出首个后门免疫的FIT框架ProtegoFed,能在训练过程中精准检测、清除甚至净化分散于各客户端的中毒数据。在四个联邦学习数据集上的实验表明,ProtegoFed可识别92.00%至100.00%的中毒样本,将攻击成功率降至接近零,同时保持主任务的性能。代码已开源:https://github.com/dongdongzhaoUP/ProtegoFed。
视频生成技术的最新进展为复杂动态系统的宏观模拟开辟了新途径,但其在微观现象模拟中的应用仍属空白。微观尺度模拟在药物发现、器官芯片系统和疾病机制研究等生物医学领域前景广阔,同时也在教育和交互式可视化方面展现出潜力。本研究提出MicroWorldBench——一个基于多层级量规的微观尺度模拟任务基准。该基准通过459项专家标注的独特标准,覆盖多种微观模拟任务(如器官级过程、细胞动力学和亚细胞分子相互作用)和评估维度(如科学保真度、视觉质量、指令遵循性),实现系统性量规化评估。MicroWorldBench表明当前最先进的视频生成模型在微观模拟中存在物理定律违背、时间不一致性及与专家标准偏离等问题。针对这些局限,我们构建了经专家验证的高质量模拟数据集MicroSim-10K,并基于此训练出专用于微观尺度模拟的视频生成模型MicroVerse。该模型能精确复现复杂的微观机制。本研究首次提出"微观世界模拟"概念并完成概念验证,为生物学、教育及科学可视化领域的应用铺平道路,展示了生物机制教育类微观模拟的潜力。相关数据与代码已开源:https://github.com/FreedomIntelligence/MicroVerse。
针对低资源语言开发自动语音识别系统常因转录语料匮乏而受阻。本研究提出概念验证,探索将歌曲作为哈萨克语ASR的非传统但潜力巨大的数据源。我们从36位艺术家的195首歌曲中构建了3,013个音频-文本对数据集(约4.5小时),并按歌词行进行分段。以Whisper为基础识别器,我们在包含歌曲、Common Voice语料库和FLEURS的七种训练场景下微调模型,并在CVC、FLEURS及哈萨克语语音库2三大基准上进行评估。结果显示:基于歌曲的微调较零样本基线模型性能显著提升。例如,采用歌曲、CVC和FLEURS混合数据训练的Whisper Large-V3 Turbo模型,在CVC上实现27.6%的标准化词错率,FLEURS上为11.8%,而在KSC2上的错误率较零样本模型降低一半(39.3% vs 81.2%)。尽管这些提升仍低于基于1,100小时KSC2语料库训练的模型,但证明即使少量歌曲-语音混合数据也能为低资源ASR带来有意义的适应性改进。该数据集已通过门控非商业许可在Hugging Face平台发布供研究使用。
觀察式學習要求智能體僅通過參考任務執行的觀察結果來學習完成該任務。本研究探討了現實世界機器人學習中的等效場景,其中不假設存在手動設計的獎勵函數或示範者動作數據。針對這種數據受限的場景,本文提出一種基於規劃的逆向強化學習算法,該算法僅通過觀察與交互即可實現世界模型構建。完全在真實環境中進行的實驗表明,該範式能有效實現基於圖像的操控任務從零開始學習(耗時少於一小時),且無需預先知識、預訓練或除任務觀察外的任何數據。此外,本研究證實所學習的世界模型表徵能夠在真實世界中實現從零開始的在線遷移學習。與包括逆向強化學習、強化學習和行為克隆在內的其他方法相比(這些方法具有更嚴格的假設條件),本方法展現出顯著更高的樣本效率和成功率,為通過觀察與交互實現在線世界建模與規劃提供了可行路徑。視頻及更多內容請見:https://uwrobotlearning.github.io/mpail2/。
我们提出FireRed-OCR——一个将通用视觉语言模型(VLM)专项优化为高性能OCR模型的系统化框架。当前大型视觉语言模型虽展现出卓越的通用能力,但在处理复杂文档时常出现"结构幻觉"现象,制约了其在工业级OCR应用中的实用性。本文创新性地设计了FireRed-OCR框架,旨在将基于Qwen3-VL的通用VLM转化为像素级精确的结构化文档解析专家。针对高质量结构化数据稀缺的难题,我们构建了"几何特征+语义理解"双驱动的数据工厂:通过几何特征聚类与多维度标注技术替代传统随机采样,合成并筛选出高度均衡的数据集,有效覆盖长尾版式与罕见文档类型。此外,我们提出三阶段渐进式训练策略,引导模型从像素级感知进阶至逻辑结构生成。该课程体系包含:(1)多任务预对齐阶段,夯实模型对文档结构的认知基础;(2)专项指令微调阶段,标准化全图像Markdown输出;(3)格式约束的群组相对策略优化(GRPO),利用强化学习严格保证输出结果的语法有效性与结构完整性(如表格闭合、公式语法等)。在OmniDocBench v1.5基准测试中,FireRed-OCR以92.94%的综合得分刷新性能纪录,在文本、公式、表格及阅读顺序等指标上显著超越DeepSeek-OCR 2和OCRVerse等强基线模型。我们开源代码与模型权重,以推动"通用VLM向专项结构解析专家"的范式演进。
地理基础模型(GFMs)已在涵盖多领域的地球观测任务中完成评估,展现出即使使用稀疏标签也能生成可靠地图的强大潜力。然而,由于缺乏合适的评估数据集,针对冰冻圈应用的GFM基准测试研究仍较为有限。为填补这一空白,我们推出了Cryo-Bench——一个专为评估GFM在关键冰冻圈要素上表现而构建的基准测试集。该基准涵盖碎屑覆盖冰川、冰川湖、海冰及冰崩前缘等要素,横跨多类传感器与广阔地理区域。我们通过对比14种GFM与UNet、ViT基线模型,评估了其优势、局限及最优使用策略。在编码器冻结条件下,UNet在Cryo-Bench包含的五项评估数据集中取得了66.38的最高平均交并比,TerraMind以64.02紧随其后。在少样本场景(10%输入数据)下,DOFA与TerraMind等GFM模型以59.53、56.62的交并比表现超越UNet的56.60。当对GFM进行全参数微调时,我们发现不同数据集和模型间存在性能波动,但结合学习率调整的微调策略能显著提升模型性能。例如在GLID和CaFFe两个代表性数据集上的评估显示平均相对提升达12.77%。尽管预训练数据中冰冻圈表征极少,GFMs仍展现出显著的领域适应能力并在各任务中产生有效结果。基于研究结论,我们建议通过编码器微调与超参数优化组合以获得最优性能,而在用户需要快速获取结果且无需大量实验时可采用冻结编码器方案。(GitHub项目地址:https://github.com/Sk-2103/Cryo-Bench)
以高产奶量著称的萨能奶山羊,其泌乳性能与体型参数密切相关,因此精准的三维体型测量对评估产奶潜力至关重要。然而现有重建方法缺乏山羊专用的真实三维数据。为解决这一局限性,我们建立了FemaleSaanenGoat数据集,包含55只雌性萨能山羊(6-18月龄)的同步八视角RGBD视频。通过多视角DynamicFusion技术,我们将含噪声的非刚性点云序列融合为高保真三维扫描模型,成功克服了山羊体表不规则形态与快速运动带来的挑战。基于这些扫描数据,我们开发了专为雌性萨能山羊设计的参数化三维形状模型SaanenGoat。该模型采用带有41个骨骼关节点及优化乳房表征的精化模板,并与扫描数据进行了配准。通过48只山羊构建的完整形状空间,可精准表征个体间的多样性差异。借助SaanenGoat模型,我们实现了单视角RGBD输入的高精度三维重建,并自动化测定了六项关键体型指标:体斜长、体高、胸宽、胸围、髋宽和臀高。实验结果表明,本方法在三维重建与体型测量方面均具有卓越精度,为精准畜牧业的大规模三维视觉应用提供了创新范式。