每日精選AI研究論文及翻譯
我們提出 Depth Anything 3 (DA3),這是一個能從任意數量視覺輸入(無論是否已知相機姿態)預測空間一致幾何的模型。為追求極簡建模,DA3 帶來兩項關鍵洞見:單一純粹 Transformer(如原始 DINO 編碼器)足以作為骨幹網絡而無需架構特化,且單一的深度射線預測目標可免除複雜的多任務學習需求。透過師生訓練範式,該模型在細節還原與泛化能力上達到與 Depth Anything 2 (DA2) 相當的水準。我們建立了涵蓋相機姿態估計、任意視角幾何重建與視覺渲染的新視覺幾何基準測試。在此基準上,DA3 在所有任務中均創下新紀錄,相機姿態準確率較先前最佳模型 VGGT 平均提升 44.3%,幾何準確率提升 25.1%。此外,其在單目深度估計任務上也優於 DA2。所有模型僅使用公開學術數據集進行訓練。
世界模型使智能體能夠想像、預測並推斷世界如何隨其行為而演變,從而進行規劃與策略制定。儘管近期影片生成模型能產出逼真的視覺序列,但它們通常以提示到完整影片的模式運作,缺乏因果控制性、互動性以及目的性推理所需的長時序一致性。另一方面,現有世界建模研究多聚焦於受限領域(如物理、遊戲或3D場景動態),其深度與可控性有限,且難以跨多元環境與互動形式泛化。本研究提出PAN模型——一個通用、可互動且具長時序預測能力的世界模型,它能根據歷史與自然語言動作生成高品質影片模擬來預測未來世界狀態。PAN採用生成式潛在預測架構,結合基於大型語言模型的自迴歸潛在動態骨幹(利用文本知識基礎實現語言條件化模擬)與影片擴散解碼器(重建感知細節豐富且時序連貫的視覺觀測),從而達成潛在空間推理(想像)與可實現世界動態(現實)的統一。通過在大規模跨領域影片-動作對上訓練,PAN支援開放領域的動作條件化模擬,並具備連貫的長期動態特性。大量實驗表明,PAN在動作條件化世界模擬、長時序預測與模擬推理方面優於現有影片生成器與世界模型,為實現通用世界模型邁出關鍵一步,使能通過預測性模擬未來世界狀態進行推理與行動。
擴散模型在超越其訓練分辨率時面臨挑戰,因為直接進行高分辨率採樣既緩慢又昂貴,而事後圖像超分辨率(ISR)則在解碼後操作,引入了偽影並增加了額外的延遲。我們提出了潛在放大適配器(Latent Upscaler Adapter, LUA),這是一個輕量級模塊,它在最終的VAE解碼步驟之前直接在生成器的潛在代碼上執行超分辨率。LUA作為一個即插即用的組件集成,無需對基礎模型進行修改或增加額外的擴散階段,並通過在潛在空間中的單次前向傳播實現高分辨率合成。一個共享的Swin風格骨幹,配備了特定尺度的像素重排頭,支持2倍和4倍的放大因子,並與圖像空間的超分辨率基線保持兼容,在解碼和放大時間上實現了近3倍的降低(從512像素生成1024像素僅增加+0.42秒,而使用相同SwinIR架構的像素空間超分辨率則需要1.87秒)。此外,LUA在不同VAE的潛在空間中表現出強大的泛化能力,使其易於部署,而無需為每個新解碼器從頭開始重新訓練。大量實驗表明,LUA在保持原生高分辨率生成的保真度的同時,為現代擴散管道中的可擴展、高保真圖像合成提供了一條實用且高效的路徑。
黑箱蒸餻技術僅透過學習專有教師模型的文本輸出,即可建立學生大型語言模型(LLM),無需存取其內部邏輯值或參數。本研究提出生成對抗蒸餻法(GAD),實現了策略上線與黑箱蒸餻。GAD將學生LLM視為生成器,並訓練判別器區分其回應與教師LLM的回應,形成最小最大化博弈。該判別器作為與學生共同演進的策略上線獎勵模型,提供穩定且自適應的反饋。實驗結果顯示,GAD持續超越常用的序列層級知識蒸餻方法。特別是以GAD訓練的Qwen2.5-14B-Instruct(學生模型)在LMSYS-Chat自動評估中,表現可與其教師模型GPT-5-Chat相媲美。此成果確立GAD作為黑箱LLM蒸餻領域具前瞻性且高效的新範式。
雖然專業化的人工智慧模型在影片生成或理解等單一任務上表現卓越,但現實應用需要結合多種能力的複雜迭代工作流程。為彌合這一鴻溝,我們推出UniVA——一個開源的全能型多智能體框架,專為新一代影片通用系統設計,將影片理解、分割、編輯與生成統一為連貫的工作流。UniVA採用「規劃-執行」雙智能體架構,驅動高度自動化的主動工作流程:規劃智能體解析用戶意圖並將其分解為結構化影片處理步驟,而執行智能體則通過基於模組化MCP的工具伺服器(用於分析、生成、編輯、追蹤等)實施這些步驟。透過分層多級記憶系統(全局知識、任務上下文與用戶特定偏好),UniVA支持長程推理、上下文連續性與智能體間通信,實現具備完整可追溯性的互動式自反思影片創作。此設計使迭代式任意條件影片工作流(例如文字/圖像/影片條件生成→多輪編輯→物件分割→組合合成)成為可能,而以往使用單一功能模型或整體式影片語言模型難以實現這類流程。我們同時推出UniVA-Bench基準測試套件,涵蓋理解、編輯、分割與生成的多步驟影片任務,用於嚴格評估此類智能體化影片系統。UniVA與UniVA-Bench均完全開源,旨在推動下一代多模態AI系統中互動式、智能體化與通用型影片智能的研究進程。(https://univa.online/)
群組相對策略優化(GRPO)在大型語言模型(LLM)的後訓練中展現出卓越的應用價值。該方法透過模型對提示詞生成回應,並藉由強化學習機制讓模型習得偏好性完成結果。由於通訊量極小,GRPO本質上適合分散式訓練架構——多個節點可同時處理提示詞,再以字串形式交換結果。本研究首度提出針對分散式GRPO的對抗攻擊技術,證實惡意節點能透過脫離上下文與上下文內攻擊兩種模式,在良性模型中注入任意惡意標記以毒化系統。透過數學解題與程式編碼的實證案例,我們展示對抗攻擊可輕易污染良性節點,破壞其本地LLM後訓練過程,僅需50次迭代即可達成100%攻擊成功率。我們提出兩種防禦方案,分別對應「所有用戶訓練相同模型」與「用戶訓練不同模型」的情境,實驗顯示這些防禦機制可實現最高100%的攻擊阻斷率,使攻擊行為失效。
大型語言模型在推理能力、洞察深度和工具運用方面已取得顯著突破,但將這些能力串聯成由人類、組織及社會常規執行的規模化延伸流程,至今仍難以實現。模型存在持續性錯誤率使其無法擴展:例如近期在漢諾塔基準領域的實驗顯示,該流程在最多數百步後必然會偏離正軌。因此,儘管LLM研究仍常以依賴邏輯步驟較少的任務作為基準,學界正日益關注LLM執行長週期任務的能力(或缺陷)。本文提出首個能無差錯完成超百萬步LLM任務的MAKER系統,其理論可擴展性遠超此規模。該方法通過將任務極致分解為可由專注型微代理處理的子任務,其產生的高度模塊化特性使多代理投票機制能在每一步驟實施誤差校正。這種極致分解與誤差校正的結合實現了規模化擴展。由此表明,與其依賴現有LLM的持續改進,採用大規模分解式代理流程或許能為組織及社會層面的問題提供高效解決路徑。
大型語言模型在複雜但易於驗證的問題上已取得顯著進展,但在探索未知領域時仍面臨挑戰。本文提出AlphaResearch——一種專為開放式問題設計的自主研究智能體,能夠發現新算法。為協同實現發現過程的可行性與創新性,我們通過結合基於執行的驗證環境與模擬現實同儕評審環境,構建了新型雙重研究環境。AlphaResearch通過迭代運行以下步驟發現新算法:(1)提出新構想(2)在雙重研究環境中驗證構想(3)優化研究方案以提升性能。為推動透明化評估流程,我們建立了AlphaResearchComp基準測試平台,包含八項開放式算法問題競賽,每個問題均通過可執行流程、客觀指標和可重現性檢驗進行精心設計與驗證。在與人類研究者的直接對比中,AlphaResearch取得了2/8的勝率,證明了利用大型語言模型加速算法發現的潛力。值得注意的是,AlphaResearch在「圓形裝填」問題上發現的算法實現了已知最佳性能,超越了人類研究者的成果及近期強基線方法(如AlphaEvolve)。此外,我們針對其餘6/8失敗案例進行了全面分析,為未來研究提供了寶貴見解。
大型語言模型(LLMs)日益傾向採用如AdamW等經典優化技術進行訓練,以提升收斂性與泛化能力。然而,量子啟發式方法增強經典訓練的具體機制仍待深入探索。本文提出疊加梯度下降法(SGD),這種新型優化器通過注入量子電路擾動,將梯度更新與量子疊加態建立聯繫。我們構建了數學框架,並在PyTorch與Qiskit中實現混合量子-經典電路。在合成序列分類與大規模LLM微調任務中,SGD相較AdamW展現出更快的收斂速度與更低的終極損失值。儘管成果顯著,可擴展性與硬體限制仍阻礙其實際應用。本研究為量子計算與深度學習的交叉領域提供新視角,指出利用量子原理調控與增強模型行為的可行路徑。
我們推出Music Flamingo——一款新型大型音頻語言模型,旨在推動基礎音頻模型中的音樂(含歌曲)理解能力。儘管音頻語言研究發展迅速,但音樂因其動態性、多層次性與信息密集性而始終充滿挑戰。由於高質量音樂數據與標註的匱乏,開放式音頻理解模型的規模化拓展舉步維艱,這進一步制約了研究進展。現有模型僅能生成簡短的高層次描述,回答淺層問題,且在不同音樂文化間的泛化能力有限。為應對這些挑戰,我們構建了MF-Skills大規模數據集,通過多階段標註流程生成涵蓋和聲、結構、音色、歌詞及文化背景的豐富描述與問答對。我們基於增強版Audio Flamingo 3骨幹模型在MF-Skills上進行微調,並進一步強化了多項音樂理解相關技能。為提升模型推理能力,我們提出一種後訓練方案:先採用基於音樂理論的新型思維鏈數據集MF-Think進行冷啟動訓練,再結合自定義獎勵機制開展GRPO強化學習。Music Flamingo在10餘項音樂理解與推理基準測試中達到頂尖水平,確立了其作為通用型音樂智能音頻語言模型的地位。除強勁的實證結果外,該模型通過展現從淺層識別邁向類人多層次歌曲感知的能力,為高階音樂理解樹立了新標杆。我們相信此工作不僅為學界提供了基準,更為構建能像人類一樣深度理解音樂的下一代模型奠定了基礎。
深度研究(Deep Research,DR)是一種新興的智能體應用,利用大型語言模型(LLMs)處理開放式問題。該技術需要整合多項能力,包括多步驟推理、跨文獻綜合分析,以及生成具證據支持的長篇回答。由於DR的回答具有篇幅長、多樣性高、允許多種有效解決方案,且常依賴動態資訊源等特點,其評估仍面臨挑戰。我們提出ResearchRubrics——一個耗時超過2,800小時人工構建的DR標準化基準,將真實且領域多元的提示詞與2,500餘條專家撰寫的細粒度評分量規相結合,用於評估事實依據、推理嚴謹性和表達清晰度。同時,我們提出一個新的複雜度框架,沿三個維度(概念廣度、邏輯嵌套深度和探索強度)對DR任務進行分類。此外,開發了基於人類與模型的評估方案,用以衡量DR智能體對評分量規的遵循程度。在對多個前沿DR系統的評估中,我們發現即使如Gemini DR和OpenAI DR等頂尖智能體,對評分量規的平均符合率也低於68%,主要問題在於對隱含語境的遺漏以及對檢索資訊的推理不足。這一結果凸顯了對深度研究能力進行魯棒且可擴展評估的必要性。為推動具備充分論證能力的研究助手發展,我們公開釋出ResearchRubrics(包含所有提示詞、評分量規及評估代碼)。
基于指令的图像编辑模型近期取得了显著进展,能够通过多指令提示实现对输入图像的复杂编辑。然而,这些模型通常以固定强度执行提示中的每条指令,限制了用户对单个编辑强度进行精确连续控制的能力。我们提出SliderEdit框架,通过细粒度可解释的指令控制实现连续图像编辑。该框架能将复合编辑指令解耦为独立指令,并将每个指令转化为全局训练的滑动条,支持对其强度进行平滑调节。与文本生成图像领域中需要为每个属性或概念单独训练滑块控件的方法不同,我们的技术仅需学习一组低秩自适应矩阵即可泛化应用于多样化编辑任务、属性及组合指令。这种方法能在保持空间局部性和全局语义一致性的同时,实现沿单个编辑维度的连续插值。我们将SliderEdit应用于FLUX-Kontext和Qwen-Image-Edit等前沿图像编辑模型,在编辑可控性、视觉一致性和用户导向性方面观察到显著提升。据我们所知,这是首次在基于指令的图像编辑模型中探索并实现连续细粒度指令控制框架的研究成果。该成果为具有连续组合控制能力的交互式指令驱动图像处理开辟了新途径。
在物理环境中实现有效的人机协作,不仅需要理解动作对象,还需明确可操作元素的空间位置及交互方式。现有方法多停留在物体层面,或割裂地处理细粒度可供性推理,缺乏连贯的指令驱动式 grounding 与推理机制。本研究提出"细粒度三维具身推理"新任务,要求智能体根据任务指令,为三维场景中每个被引用的可供性元素预测包含空间位置、运动类型与运动轴的结构化三元组。为解决该任务,我们提出 AffordBot 创新框架,将多模态大语言模型(MLLMs)与定制化的思维链(CoT)推理范式相结合。为弥合三维输入与二维兼容 MLLMs 之间的鸿沟,我们渲染场景环视图像并将三维候选元素投影至这些视图,形成与场景几何对齐的丰富视觉表征。我们的 CoT 流程始于主动感知阶段,引导 MLLM 根据指令选择最具信息量的视角,继而通过逐步推理定位可供性元素并推断合理的交互运动。在 SceneFun3D 数据集上的评估表明,AffordBot 仅凭三维点云输入和 MLLMs 就实现了最先进的性能,展现出强大的泛化能力与物理接地推理能力。
大型語言模型(LLMs)的最新進展已在一系列任務上展現出卓越性能,然而高階指令跟隨(IF)能力——特別是針對複雜、多輪次及系統級提示的指令——仍是重大挑戰。由於缺乏高質量人工標註基準與可靠可解釋的獎勵信號,對此類能力進行嚴謹評估與有效訓練受到制約。本研究提出AdvancedIF(即將開源該基準),這是一個包含1,600餘個提示詞及專家設計評分標準的綜合基準,用於評估LLMs遵循複雜多輪系統級指令的能力。我們進一步提出RIFL(基於評分標準的指令跟隨學習),該創新後訓練流程通過生成評分標準、微調評分驗證器及獎勵塑形技術,實現高效的指令跟隨強化學習。大量實驗表明,RIFL顯著提升LLMs的指令跟隨能力,在AdvancedIF上實現6.7%的絕對性能提升,並在公開基準測試中表現優異。消融實驗證實了RIFL各組件的有效性。本研究確立了評分標準作為訓練與評估LLMs高階IF能力的有效工具,為構建更強大可靠的AI系統奠定基礎。
尽管生成质量有所提升,当前文生图模型仍常因输出同质化而缺乏多样性。本研究提出一个框架,旨在解决文生图模型多样性稳健评估的需求。该框架通过评估个体概念及其相关变异因素,系统性衡量生成多样性。主要贡献包括:(1)用于精细化多样性评估的新型人工评估模板;(2)涵盖多维度概念及其已识别变异因素的精编提示词集(如提示词:苹果图像,变异因素:颜色);(3)基于二项检验的人工标注模型对比方法论。此外,我们严谨比较了多种图像嵌入方法在多样性度量中的表现。值得注意的是,这种原理性方法可实现文生图模型的多样性排序,并识别其特定薄弱类别。本研究提供了稳健的方法论与深刻见解,为提升文生图模型多样性及度量标准开发开辟了新路径。
批判能力对于模型实现自我提升并成为可靠的人工智能助手至关重要。尽管在纯语言环境中已得到广泛研究,但大型多模态模型(LMM)在多模态批判方面的探索仍然不足,尽管它们在图像描述和视觉推理等任务中的能力日益增强。本研究提出MM-CRITIC——一个从基础批判、修正批判与比较批判三个维度综合评估LMM批判能力的基准框架。该框架涵盖8种主要任务类型超过500项任务,收集了不同参数规模的LMM生成的4471个样本响应。为提升评估信度,我们通过专家指导构建标准答案评分体系,引导GPT-4o对模型响应进行标注并生成参考性批判意见,以此作为可靠评判的基准。大量实验验证了MM-CRITIC的有效性,并对主流LMM的多维度批判能力进行了全面评估。深入分析揭示了若干关键发现,包括响应质量与批判能力的相关性,以及不同评估维度下批判难度的差异性。相关代码已开源:https://github.com/MichealZeng0420/MM-Critic。
下游文献中关于被引论文可复现性的情感评价反映了学术界的观点,并已被证明是预测已发表研究成果实际可复现性的有效指标。为训练能精准预测可复现性导向情感的模型,并系统研究其与可复现性的关联,我们推出CC30k数据集——该数据集包含机器学习论文中的30,734条引文上下文,每条均标注了反映被引论文感知可复现性的三类情感标签(积极/消极/中立)。其中25,829条通过众包标注,并采用受控流程生成消极标签以解决标注样本稀缺问题。与传统情感分析数据集不同,CC30k专注于可复现性导向情感,填补了计算可复现性研究领域的资源空白。数据集通过包含数据清洗、标注者筛选和多重验证的标准化流程构建,最终标注准确率达94%。实验表明,基于本数据集微调后的三大语言模型在可复现性情感分类任务上性能显著提升。该数据集为大规模评估机器学习论文的可复现性奠定了基础。CC30k数据集及相关Jupyter笔记本已开源:https://github.com/lamps-lab/CC30k。
零样本异常分类(AC)与分割(AS)方法旨在无需任何标注样本的情况下识别并勾勒缺陷。本文揭示了现有方法忽视的关键特性:工业产品中的正常图像块通常能在二维外观和三维形状上找到大量相似匹配,而异常则保持多样性和孤立性。为显式利用这一判别特性,我们提出用于零样本AC/AS的互评分框架MuSc-V2,该框架灵活支持单模态(2D/3D)或多模态场景。具体而言,我们首先通过迭代点分组(IPG)优化三维表征,降低非连续表面导致的误判;继而采用多阶相似性邻域聚合(SNAMD)将2D/3D邻域线索融合为判别性更强的多尺度图像块特征用于互评分。核心机制包括:允许同模态样本相互评分的互评分机制(MSM),以及融合二维与三维分数以补全模态特异性缺失异常的跨模态异常增强(CAE)。最后,基于约束邻域的再评分(RsCon)通过比对更具代表性的样本抑制误分类。本框架可灵活应用于完整数据集或较小子集,并保持稳定性能,确保跨产品线的无缝适配。依托创新架构,MuSc-V2实现显著性能提升:在MVTec 3D-AD数据集上平均精度(AP)提升23.7%,在Eyecandies数据集上提升19.3%,超越现有零样本基准甚至多数少样本方法。代码将发布于https://github.com/HUST-SLOW/MuSc-V2。