每日精選AI研究論文及翻譯
自我中心感知使人類能夠從自身視角直接體驗和理解世界。將外中心(第三人稱)影片轉換為自我中心(第一人稱)影片,為沉浸式理解開闢了新可能,但由於極端的相機姿態變化和極小的視野重疊,此任務仍極具挑戰性。這項工作需要忠實保留可見內容的同時,以幾何一致的方式合成未見區域。為實現此目標,我們提出EgoX——一個從單一外中心輸入生成自我中心影片的新框架。EgoX通過輕量級LoRA適配機制,利用大規模影片擴散模型的預訓練時空知識,並引入統一條件策略,通過寬度與通道維度拼接融合外中心與自我中心先驗。此外,幾何引導的自注意力機制可選擇性關注空間相關區域,確保幾何連貫性與高視覺保真度。我們的方法能實現連貫且逼真的自我中心影片生成,並在未見過的實境影片中展現出強大的擴展性與魯棒性。
在口腔醫療自動化領域,多模態數據的可靠解讀至關重要,然而現有的多模態大語言模型(MLLMs)難以捕捉細粒度的牙科視覺細節,且缺乏精準診斷所需的充分推理能力。為解決這些局限,我們提出DentalGPT——通過高質量領域知識注入與強化學習開發的專業牙科MLLM。具體而言,我們整合了逾12萬張牙科影像及其標註診斷相關視覺特徵的詳細描述,構建了迄今規模最大的註釋多模態牙科數據集,這也是當前涵蓋最全面牙科影像的多模態數據集。基於此數據集的訓練顯著增強了MLLM對牙科病況的視覺理解能力,而後續的強化學習階段進一步強化了其多模態複雜推理效能。在口內影像與全景影像基準測試,以及醫學視覺問答(VQA)基準的牙科子集上的綜合評估表明,DentalGPT在疾病分類與牙科VQA任務中表現卓越,僅憑70億參數即超越多項先進MLLMs。這些結果證實,高質量牙科數據結合分階段適應策略,能為構建高效能的領域專用牙科MLLM提供有效路徑。
基於視覺基礎模型(VFM)表徵的視覺生成,為整合視覺理解、感知與生成提供了一條極具前景的統一途徑。儘管存在此潛力,在VFM表徵空間內完全訓練大規模文生圖擴散模型的研究仍屬空白。為填補此缺口,我們擴展了SVG(自監督視覺生成表徵)框架,提出SVG-T2I以直接在VFM特徵域中實現高質量文生圖合成。通過採用標準文生圖擴散流程,SVG-T2I達到了可媲美現有技術的性能,在GenEval上獲得0.75分,在DPG-Bench上取得85.78分。此性能驗證了VFM表徵在生成任務中的內在潛力。我們將項目完整開源,包含自動編碼器與生成模型,以及其訓練、推理、評估流程和預訓練權重,以促進表徵驅動視覺生成的後續研究。
大規模影片生成模型在模擬真實場景中的照片級外觀與光照互動方面展現出卓越潛力。然而,能夠同時理解場景本徵屬性(如反照率、法線、材質和輻照度)、利用這些屬性進行影片合成,並支持可編輯本徵表徵的閉環框架仍有待探索。我們提出V-RGBX——首個面向本徵感知影片編輯的端到端框架。V-RGBX整合了三項核心能力:(1) 將影片逆向渲染為本徵通道,(2) 基於本徵表徵進行照片級影片合成,(3) 以本徵通道為條件的關鍵影格影片編輯。該框架的核心在於交錯條件機制,通過用戶選取的關鍵影格實現直觀且符合物理規律的影片編輯,支持對任意本徵模態的靈活操控。大量定性和定量結果表明,V-RGBX能生成時序一致的照片級影片,同時以物理合理的方式將關鍵影格編輯效果傳播至整個序列。我們通過物體外觀編輯與場景級重照明等多樣化應用驗證其效能,其表現超越現有方法。
當前基於擴散模型的肖像動畫模型主要聚焦於提升視覺品質與表情真實性,卻忽略了生成延遲與即時性能,這限制了其在直播場景中的應用範圍。我們提出PersonaLive——一個基於擴散模型的新型框架,通過多階段訓練方案實現串流式即時肖像動畫。具體而言,我們首先採用混合隱式信號(即隱式面部表徵與3D隱式關鍵點)來實現具表現力的圖像級運動控制。隨後提出一種少步數外觀蒸餾策略,以消除去噪過程中的外觀冗餘,大幅提升推理效率。最後,我們引入搭載滑動訓練策略與歷史關鍵幀機制的自回歸微片段串流生成範式,實現低延遲且穩定的長時影片生成。大量實驗表明,PersonaLive在達到最先進性能的同時,相較於現有基於擴散模型的肖像動畫模型實現了最高7至22倍的加速效果。
基於Transformer架構的大型語言模型(LLM)中的自注意力機制會隨輸入長度呈二次方增長,導致長上下文推理成本高昂。滑動窗口注意力(SWA)可將計算複雜度降至線性,但若直接對採用完整注意力(FA)預訓練的模型在推理階段啟用全域SWA,會因訓練與推理模式失配而引發嚴重的長上下文性能衰退。這促使我們思考:無需重新預訓練,能否使FA預訓練的LLM良好適配SWA?為此我們提出滑動窗口注意力適應(SWAA)方案,整合五種改進適配的實用方法:(1)僅在預填充階段應用SWA;(2)保留「沉澱」標記;(3)交錯佈局FA/SWA層;(4)思維鏈(CoT)技術;(5)微調策略。實驗表明SWA適配具有可行性但非易事:單一方法均不足夠,而特定協同組合能有效恢復原始長上下文性能。我們進一步分析不同SWAA配置的性能-效率權衡,並針對多樣化場景給出推薦方案。程式碼已開源於:https://github.com/yuyijiong/sliding-window-attention-adaptation
多模態學習已迅速推動了視覺理解領域的進展,這主要得益於以強大大型語言模型(LLM)作為認知核心的多模態大語言模型(MLLM)的應用。然而在視覺生成領域,這些強大的核心模型通常被降級為擴散模型的全局文本編碼器,其大部分推理與規劃能力未能得到充分利用。這造成了當前多模態LLM能夠解析複雜佈局、屬性和知識密集型場景,卻難以生成具有同等精確度與結構化控制力的圖像或影片的鴻溝。我們提出輕量級框架MetaCanvas,使MLLM能夠直接在空間與時空潛在空間中進行推理規劃,並與擴散生成器緊密對接。我們在三個不同擴散模型骨幹上實證實現了MetaCanvas,並在六項任務中進行評估,包括文本到圖像生成、文本/圖像到影片生成、圖像/影片編輯以及上下文影片生成,每項任務均需精確佈局、強健的屬性綁定和推理密集型控制。MetaCanvas在全局條件基線對比中持續表現優異,表明將MLLM作為潛在空間規劃器是縮小多模態理解與生成之間差距的可行方向。
基於圖元化的濺射方法(如3D高斯濺射)憑藉即時渲染能力革新了新視角合成技術。然而,其基於點雲的表示法仍無法兼容驅動AR/VR和遊戲引擎的網格管線。我們提出MeshSplatting——一種基於網格的重建方法,通過可微分渲染聯合優化幾何結構與外觀。藉由受限德勞內三角剖分強制保持連接性,並精修表面一致性,該方法能創建端到端平滑、視覺高品質的網格,在即時3D引擎中實現高效渲染。在Mip-NeRF360數據集上,本方法將基於網格的新視角合成現有最先進技術MiLo的PSNR指標提升0.69 dB,同時訓練速度加快2倍且記憶體消耗減少一半,成功銜接神經渲染與互動式3D圖形技術,實現無縫的即時場景互動。專案頁面請見:https://meshsplatting.github.io/。
現實是剛性約束與可變形結構之間的舞蹈。對影片模型而言,這意味著生成既能保持真實性又能維持結構的運動。儘管擴散模型有所進展,但產生逼真的結構保持運動仍具挑戰性,尤其對人體和動物這類具關節與可變形物體。僅靠擴充訓練數據至今仍無法解決物理上不合理的過渡問題。現有方法依賴於帶噪聲的運動表徵進行條件化,例如使用外部不完美模型提取的光流或骨架。為解決這些難題,我們提出一種算法,將結構保持運動先驗從自迴歸影片追蹤模型(SAM2)提煉至雙向影片擴散模型(CogVideoX)。透過此方法,我們訓練出SAM2VideoX,其包含兩項創新:(1) 雙向特徵融合模組,可從如SAM2的循環模型中提取全局結構保持運動先驗;(2) 局部格蘭姆流損失,用於對齊局部特徵的協同運動。在VBench上的實驗及人類評估顯示,SAM2VideoX相較既有基準模型實現持續提升(VBench得分提升2.60%、FVD降低21-22%、人類偏好度達71.4%)。具體而言,在VBench上我們獲得95.51%的成績,較REPA(92.91%)提升2.60%,並將FVD降至360.57,相較REPA與LoRA微調分別改善21.20%與22.46%。專案網站請見 https://sam2videox.github.io/ 。
我們提出LEO-RobotAgent——一個面向機器人的通用語言驅動智能體框架。該框架能讓大語言模型操作不同類型的機器人,在多樣化場景中完成不可預測的複雜任務,具有強泛化性、魯棒性和高效性特點。圍繞其構建的應用級系統可全面增強雙向人機意圖理解,降低人機交互門檻。在機器人任務規劃方面,現有研究大多聚焦大模型在單任務場景和單一機器人類型中的應用,這些算法往往結構複雜且缺乏通用性。為此,我們設計的LEO-RobotAgent框架盡可能採用簡潔結構,使大模型能在這一清晰框架內獨立進行思考、規劃與行動。我們提供模塊化且易註冊的工具集,允許大模型靈活調用各類工具以滿足多樣化需求,同時框架內置人機協作機制,使算法能像夥伴般與人類協同工作。實驗驗證表明,該框架可輕鬆適配無人機、機械臂和輪式機器人等主流機器人平台,並高效執行多種精心設計的不同複雜度任務。代碼已開源於:https://github.com/LegendLeoChen/LEO-RobotAgent。
现代大型语言模型预训练消耗海量计算资源和训练数据,使得不同模型的扩展行为(即扩展定律)成为关键区分因素。离散扩散语言模型作为自回归语言模型的替代方案被提出,但其扩展规律尚未得到充分探索——已有研究指出该类模型需要更多数据和计算资源才能达到自回归模型的性能水平。 我们通过平滑插值掩码扩散与均匀扩散两种噪声类型,并重点关注批次大小和学习率等关键超参数,系统研究了离散扩散模型的扩展特性。实验表明,离散扩散模型的扩展行为强烈依赖于噪声类型,且与自回归模型存在显著差异。虽然所有噪声类型在计算受限的扩展中都会收敛至相近的损失值,但发现均匀扩散相比掩码扩散在计算效率优化训练中需要更多参数和更少数据,这使其在数据受限场景中具有应用潜力。我们将均匀扩散模型规模扩大至100亿参数,训练计算量达10^22 FLOPs,不仅验证了预测的扩展规律,更使其成为目前公开已知的最大规模均匀扩散模型。
我们提出SHARP方法,一种基于单张图像的光真实感视图合成技术。该方法通过单张输入照片,即可回归出场景的3D高斯表示参数。在标准GPU上,仅需单次神经网络前向传播即可在1秒内完成计算。SHARP生成的3D高斯表示支持实时渲染,能够为邻近视角生成高分辨率的光真实感图像。该表示具有绝对尺度的度量特性,可支持度量级相机位移。实验结果表明,SHARP在不同数据集上均展现出强大的零样本泛化能力。在多个基准测试中,该方法相较现有最优模型将LPIPS指标降低25-34%,DISTS指标降低21-43%,同时将合成时间缩短三个数量级,确立了新的技术标杆。相关代码与权重文件已发布于https://github.com/apple/ml-sharp。
大型語言模型(LLMs)雖已革新人工智能領域,但其巨大的記憶體與計算需求迫使我們必須採用激進的量化策略,這使得表徵日益逼近單一位元的理論極限。儘管複數值大型語言模型(如iFairy)相較實數值模型在低比特表徵方面更具優勢,但它們需要從頭開始訓練,無法利用預訓練實數值基礎模型的龐大生態系統。本文提出Fairy2i——一種通用框架,可將預訓練的實數值層轉換為等效的廣義線性複數形式,在重用現有模型檢查點的同時實現極低比特量化。通過證明實數映射與廣義線性複數映射的無損數學等價性,我們將標準Transformer轉換至複數域,並採用相位感知量化方案配合高效的四次單位根碼本。此外,我們引入遞歸殘差量化機制,通過迭代方式最小化量化誤差,使推理過程能通過高效的無乘法累加運算進行。實驗表明,Fairy2i能將LLaMA-2 7B模型在等效2比特精度下的性能恢復至接近全精度基準線的水平,顯著優於當前最先進的實數值二值與三值量化方法。這項工作彌合了複數值算術的表徵效率與預訓練模型實用性之間的鴻溝,為商用硬體的高效推理開闢了新途徑。
大语言模型即评委(LLM-as-judge)评估已成为扩展模型评估的事实标准,但该方法在统计学上存在缺陷:未经校准的分数可能导致偏好倒置,基于未校准分数的朴素置信区间覆盖率接近零,而重要性加权估计量在有限重叠条件下会失效——尽管有效样本量(ESS)很高。我们提出因果评委评估框架(CJE),可同时解决这三类问题。在经筛选的4,961条Chatbot Arena提示词(从5,000条过滤后)上,CJE通过仅使用5%的黄金标准标签(约250条)对成本降低16倍的评委进行校准,在完整样本量下实现了99%的成对排序准确率(各配置平均达94%),达到黄金标准质量的同时将成本降低14倍(针对5项策略的排序)。CJE包含三个核心组件:(i)AutoCal-R:通过保均值等渗回归实现奖励校准;(ii)SIMCal-W:通过S单调候选模型的堆叠实现权重稳定;(iii)黄金标准不确定性感知(OUA)推断,将校准不确定性传递至置信区间。我们形式化覆盖受限效率(CLE)诊断指标,揭示为何即使ESS超过90%时IPS类估计量仍会失效:记录策略极少访问目标策略集中的区域。关键发现:由于权重不稳定性,SNIPS即使在奖励校准后仍出现排序倒置(38%成对错误率,肯德尔τ系数为负);经权重稳定后的校准IPS准确率仍接近随机水平(47%),与CLE诊断一致;OUA将覆盖率从接近零提升至约86%(直接法)和约96%(堆叠双重稳健法),而朴素区间严重欠覆盖。
我们提出Particulate——一种前馈方法,能够基于日常物体的单个静态三维网格,直接推断底层铰接结构的所有属性,包括三维部件、运动学结构和运动约束。其核心是部件铰接变换器(Part Articulation Transformer),该变换器网络通过灵活可扩展的架构处理输入网格的点云数据,原生支持多关节属性预测。我们使用公开数据集中多样化的铰接三维资源对网络进行端到端训练。在推理过程中,Particulate将网络的前馈预测结果映射至输入网格,数秒内即可生成完整铰接的三维模型,其速度远超需要逐对象优化的现有方法。当与现成的图像转三维生成器结合时,Particulate还能准确推断AI生成三维资源的铰接结构,实现从单张(真实或合成)图像中完整提取铰接三维物体。我们还基于高质量公开三维资源构建了新的铰接估计挑战性基准,并重新设计了更符合人类偏好的评估方案。定量与定性结果表明,Particulate显著优于现有最先进方法。
立體視覺基礎模型雖能實現強大的零樣本泛化能力,但其計算成本仍難以滿足實時應用需求。而高效立體架構為追求速度犧牲了魯棒性,且需耗費大量資源進行逐領域微調。為彌合這一差距,我們提出Fast-FoundationStereo架構系列,首次在實時幀率下實現了強勁的零樣本泛化性能。我們採用分治加速策略,包含三大核心組件:(1)通過知識蒸餾將混合骨幹網絡壓縮為單一高效學生模型;(2)基於分塊神經架構搜索自動發現延遲預算下的最優代價濾波設計,將搜索複雜度呈指數級降低;(3)採用結構化剪枝消除迭代優化模塊中的冗餘。此外,我們構建了自動偽標註流水線,用於篩選140萬組真實場景立體圖像對,以補充合成訓練數據並促進知識蒸餾。最終模型在保持與FoundationStereo相近零樣本精度的同時,運行速度提升逾10倍,由此確立了實時立體視覺方法的新標杆。項目頁面:https://nvlabs.github.io/Fast-FoundationStereo/
我们提出了一种视觉-动作策略,该策略在2025年BEHAVIOR挑战赛中荣获冠军。该挑战赛采用大规模基准测试,包含50项多样化的长周期家庭任务,在照片级真实模拟环境中要求执行双手操作、导航及情境感知决策。基于Pi0.5架构,我们引入了多项创新:核心贡献是提出用于流匹配的关联噪声技术,既提升了训练效率,又通过关联感知修复实现流畅动作序列;同时采用可学习混合层注意力机制与系统二级阶段追踪来解决模糊决策问题。训练阶段使用多样本流匹配以降低方差,推理阶段则结合动作压缩与挑战赛专用修正规则。该方法在公开及非公开排行榜的50项任务中均获得26%的q-score综合评分。
将语言模型(LM)整合至医疗保健系统,对于改善医疗工作流程和临床决策具有巨大潜力。然而,其在实际应用中的关键障碍在于缺乏可信赖度的系统评估,尤其是在多语言医疗场景中。现有语言模型主要基于高资源语言训练,难以应对中低资源语言中医护查询的复杂性与多样性,这在以语言多样性为特征的全球医疗部署中构成重大挑战。本研究提出CLINIC——一个用于评估医疗领域语言模型可信度的综合性多语言基准。该基准通过18项多样化任务,系统化地评估语言模型在五大可信度维度(真实性、公平性、安全性、鲁棒性及隐私性)的表现,涵盖15种语言(遍及全球主要大洲),涉及疾病状况、预防措施、诊断检测、治疗方案、外科手术及药物等关键医疗主题。大规模评估表明:语言模型存在事实准确性不足、对人口统计与语言群体展现偏见、易受隐私泄露及对抗性攻击等问题。通过揭示这些缺陷,CLINIC为提升语言模型在全球多语言医疗环境中的适用性与安全性奠定了重要基础。
人类能够凭直觉并行处理复杂活动,但模型能否通过观察单个人的行为来学习这种能力?基于单个第一视角视频,我们提出N体问题:假设有N个参与者,如何协同完成视频中观察到的同一组任务。该问题的目标在于最大化加速效率,但简单地将视频片段分配给不同个体往往会违反现实约束,导致诸如两人共用同一物体或占据同一空间等物理上不可能实现的场景。为此,我们正式定义了N体问题,并提出一套评估指标,同时衡量性能(加速比、任务覆盖率)与可行性(空间碰撞、物体冲突及因果约束)。我们进而提出一种结构化提示策略,引导视觉语言模型(VLM)对三维环境、物体使用和时序依赖进行推理,从而生成可行的并行执行方案。在EPIC-Kitchens和HD-EPIC数据集的100个视频上,针对N=2的场景,我们的方法相较于Gemini 2.5 Pro的基线提示,动作覆盖率提升45%,同时将碰撞率、物体冲突和因果冲突分别降低55%、45%和55%。
不確定性估計對於醫學影像分割系統的安全臨床部署至關重要,它能識別不可靠的預測結果並輔助人工審核。儘管現有研究主要聚焦於像素級不確定性,但基於標誌點的分割方法具有內在的拓撲保證性,從不確定性角度卻仍待深入探索。本研究針對胸部X光影像的解剖標誌點分割進行不確定性估計分析。受結合標準影像卷積編碼器與基於圖結構的生成式解碼器的混合神經網絡架構啟發,我們利用其變分潛在空間推導出兩種互補的度量指標:(1)潛在不確定性,直接從學習得到的分佈參數中捕獲;(2)預測不確定性,通過從潛在樣本生成多重隨機輸出預測獲得。通過受控損壞實驗證實,兩種不確定性度量均隨擾動強度增加而上升,能同時反映全局與局部圖像退化。我們通過與人工標註真值對比,證明這些不確定性信號可有效識別不可靠預測,並在CheXmask數據集上實現分佈外檢測。更重要的是,我們發布了包含657,566例胸部X光標誌點分割數據的CheXmask-U大規模數據集(huggingface.co/datasets/mcosarinsky/CheXmask-U),提供每個節點的不確定性估計,使研究人員在使用這些解剖掩膜時能考量分割質量的空間差異。本研究確立了不確定性估計作為提升胸部X光解剖標誌點分割方法魯棒性與安全部署前景的重要方向。該方法的完整交互演示見huggingface.co/spaces/matiasky/CheXmask-U,源代碼公開於github.com/mcosarinsky/CheXmask-U。
分析大规模文本语料库是机器学习领域的核心挑战,这对识别训练数据中不良模型行为或偏见等任务至关重要。当前方法通常依赖成本高昂的基于大语言模型的技术(如标注数据集差异)或稠密嵌入模型(如用于聚类),这些方法难以针对目标属性进行控制。我们提出使用稀疏自编码器生成SAE嵌入:这种表征的维度可映射到可解释的概念。通过四项数据分析任务,我们证明SAE嵌入比大语言模型更具成本效益和可靠性,同时比稠密嵌入更具可控性。利用SAE的大型假设空间,我们能够揭示诸如(1)数据集间的语义差异及(2)文档中意外概念关联等洞见。例如通过比较模型响应,我们发现Grok-4比其他九种前沿模型更频繁地澄清歧义。相较于大语言模型,SAE嵌入能以降低2-8倍的成本揭示更大差异,并更可靠地识别偏见。此外,SAE嵌入具有可控性:通过概念过滤,我们能(3)沿目标维度聚类文档,并(4)在基于属性的检索中超越稠密嵌入表现。借助SAE嵌入,我们通过两个案例研究模型行为:探究OpenAI模型随时间的行为变化,以及发现Tulu-3(Lambert等人,2024)从训练数据中学到的"触发"短语。这些成果确立了SAE作为非结构化数据分析多面手的地位,并凸显了通过数据解读模型这一被忽视的重要性。