每日精選AI研究論文及翻譯
我們提出Wan-Move——一個簡潔可擴展的框架,旨在為影片生成模型賦予運動控制能力。現有的運動可控方法普遍存在控制粒度粗糙與可擴展性有限的問題,導致其輸出難以滿足實際應用需求。我們通過實現精確且高質量的運動控制來縮小這一差距。其核心思路是直接使原始條件特徵具備運動感知能力,從而指導影片合成。為此,我們首先通過密集點軌跡表徵物體運動,實現對場景的細粒度控制;接著將這些軌跡映射至潛在空間,並沿每條軌跡傳播首幀特徵,生成對齊的時空特徵圖來指示各場景元素的運動路徑。該特徵圖作為更新後的潛在條件,可無縫集成至現成的圖像轉影片模型(如Wan-I2V-14B)中作為運動指導,無需改變模型架構。此設計無需輔助運動編碼器,並使基礎模型的微調具備高度可擴展性。經規模化訓練後,Wan-Move可生成5秒鐘480p解析度的影片,用戶研究表明其運動控制能力可媲美Kling 1.5 Pro的商用運動畫筆功能。為支持全面評估,我們進一步設計了MoveBench基準測試集,該數據集經過嚴格篩選,涵蓋多樣化內容類別並採用混合驗證標註,具有數據量更大、影片時長更長、運動標註質量高等特點。在MoveBench與公開數據集上的大量實驗一致表明Wan-Move具備卓越的運動質量。相關代碼、模型及基準數據均已開源。
神經渲染技術,特別是3D高斯潑濺(3DGS)方法,正快速發展並成為構建世界模型的關鍵組件。然而現有的檢視器方案仍存在碎片化、笨重或受傳統管線限制等問題,導致部署門檻高且對動態內容與生成式模型支援有限。本研究提出Visionary——一個開放、網頁原生的即時高斯潑濺與網格渲染平台。該平台基於高效的WebGPU渲染器,結合逐幀ONNX推理技術,在保持輕量化「點擊即運行」瀏覽體驗的同時實現動態神經處理。我們引入標準化高斯生成器協定,不僅支援標準3DGS渲染,更允許即插即用算法逐幀生成或更新高斯單元。此推理機制還使我們能應用前饋生成式後處理技術。平台進一步提供three.js外掛程式庫與簡潔的TypeScript API,可無縫整合至現有網頁應用。實驗表明,在相同3DGS資產下,憑藉基於GPU的圖元排序技術,Visionary相較現有網頁檢視器實現更優的渲染效率。目前已支援多種變體,包括基於MLP的3DGS、4DGS、神經化身,以及風格轉換與增強網路。通過將推理與渲染直接統一在瀏覽器中,Visionary顯著降低了3DGS系列方法的複現、比較與部署門檻,成為重建式與生成式範式的統一世界模型載體。
影片人臉交換技術在影視娛樂製作中具有關鍵作用,然而如何在複雜長影片序列中實現高保真度與時間一致性仍是重大挑戰。受近期參考引導圖像編輯技術的啟發,我們探索是否可類似地利用來源影片的豐富視覺屬性,來提升影片人臉交換的逼真度與時間連貫性。基於此洞見,本研究提出首個影片參考引導的人臉交換模型LivingSwap。我們採用關鍵幀作為條件信號來注入目標身份特徵,實現靈活可控的編輯。通過結合關鍵幀條件與影片參考引導,模型能進行時間縫合處理,確保長影片序列中穩定的身份保持與高保真重建。為解決參考引導訓練數據稀缺的問題,我們構建了配對人臉交換數據集Face2Face,並通過反轉數據對確保可靠的基準真值監督。大量實驗證明,我們的方法可實現業界頂尖效果,無縫融合目標身份與來源影片的表情、光影和動作,同時大幅減少製作流程中的人工操作。項目頁面:https://aim-uofa.github.io/LivingSwap
現實世界影片中的敘事往往透過多個鏡頭展開——這些不連續但語義相連的片段共同構建出連貫的故事線。然而,現有的多鏡頭影片生成方法因受限於局部時間窗口或單一關鍵幀條件約束,難以有效建模長距離跨鏡頭上下文,導致在複雜敘事場景下性能下降。本研究提出OneStory,通過全局且緊湊的跨鏡頭上下文建模,實現一致且可擴展的敘事生成。該方法將多鏡頭影片生成重新定義為「下一鏡頭生成」任務,在利用預訓練圖像轉影片模型實現強視覺條件控制的同時,支持自迴歸式鏡頭合成。我們引入兩個核心模塊:基於過往鏡頭信息幀構建語義相關全局記憶的幀選擇模塊,以及執行重要性引導分塊化以生成緊湊上下文條件的自適應條件器。我們進一步策劃了包含指代性描述的高質量多鏡頭數據集以反映真實敘事模式,並在下一鏡頭範式下設計有效的訓練策略。通過在自建60K數據集上對預訓練圖像轉影片模型進行微調,OneStory在文本與圖像條件設置下,於多樣化複雜場景中實現了業界領先的敘事連貫性,為可控沉浸式長影片敘事開闢了新路徑。
透過擴展推論階段的計算規模,大型語言模型(LLMs)已能實現強大的推理性能,但固有的序列解碼機制會導致顯著延遲,尤其在處理複雜任務時更為明顯。近期關於自適應平行推理的研究旨在透過將解題過程分解為並行的推理線程來提升推論效率,然而現有方法在實際任務中要麼僅限於監督式行為複製,要麼相較廣泛使用的序列化長思維鏈(CoT)基準出現明顯精度下降。此外,多數方法需依賴定制化推論引擎,增加了部署複雜度。我們提出ThreadWeaver框架,該自適應平行推理框架在保持與同規模主流序列推理模型相當精度的同時,顯著降低推論延遲。其性能優勢源於三項核心創新:1)兩階段平行軌跡生成器,可產製大規模具平行標註的高質量CoT數據用於監督微調;2)基於字典樹的訓練-推論協同設計,無需修改位置編碼或KV緩存即可在任意現成自迴歸推論引擎上實現平行推理;3)平行化感知的強化學習框架,指導模型在精度與有效平行化間取得平衡。在六項高難度數學推理基準測試中,基於Qwen3-8B訓練的ThreadWeaver達到與尖端序列推理模型相仿的精度(平均71.9%,AIME24上達79.9%),同時詞元延遲實現最高1.53倍加速,在精度與效率間開創了新的帕雷托前沿。
影片實例分割(VIS)面臨著顯著的標註挑戰,因其需同時滿足像素級遮罩與時間一致性標籤的雙重要求。儘管近期如VideoCutLER等無監督方法透過合成資料消除了對光流的依賴,但仍受制於合成至真實領域的差距。我們提出AutoQ-VIS——一種基於品質引導自訓練的新型無監督框架,透過建立偽標籤生成與自動品質評估間的閉環系統,實現從合成影片到真實影片的漸進式適應。實驗結果顯示,該方法在YouTubeVIS-2019驗證集上達到52.6 AP_{50}的頂尖性能,較先前最佳方法VideoCutLER提升4.4%,且無需任何人為標註。這證實了品質感知自訓練在無監督VIS中的可行性。我們將於https://github.com/wcbup/AutoQ-VIS公開程式碼。
現代大型語言模型透過長鏈式思維展現出卓越的推理能力,但其推論過程需耗費大量計算成本,這促使了提升效能成本比的技術發展。其中,推測解碼技術透過採用快速但不精確的草稿模型自迴歸式生成候選標記,再由更強大的目標模型進行並行驗證,從而實現推理加速。然而,傳統的標記層級推測解碼在推理任務中表現不佳,原因在於語意等效步驟中的標記不匹配會導致不必要的拒絕。儘管近期研究轉向步驟層級的語意驗證(透過接受或拒絕整個推理步驟來提升效率),現有方法仍會重新生成大量被拒絕的步驟,改進有限且浪費寶貴的目標模型計算資源。為解決此問題,我們提出Arbitrage——一種新穎的步驟層級推測生成框架,能根據草稿模型與目標模型的相對優勢動態路由生成過程。該框架摒棄固定接受閾值,改由輕量級路由器預測目標模型何時可能產生顯著更優的步驟,這種路由機制近似於始終選擇更高質量步驟的理想仲裁預言機,從而實現接近最優的效能-準確度權衡。在多項數學推理基準測試中,Arbitrage持續超越現有步驟層級推測解碼基線模型,在保持相同準確度的情況下將推理延遲降低最高達兩倍。
體現式模仿學習受限於多樣化、長時程機械臂操作數據的匱乏。現有該領域的影片生成模型僅能合成簡單動作的短片段,且常依賴手動定義的軌跡。為此,我們提出MIND-V——一個分層框架,旨在合成物理合理且邏輯連貫的長時程機械臂操作影片。受認知科學啟發,MIND-V通過三個核心組件銜接高層推理與像素級合成:語義推理中心(SRH)利用預訓練視覺語言模型進行任務規劃;行為語義橋樑(BSB)將抽象指令轉譯為領域無關表徵;運動影片生成器(MVG)實現條件式影片渲染。MIND-V採用分階段視覺未來推演策略,這是一種測試時優化方法以增強長時程魯棒性。為使生成影片符合物理定律,我們引入基於新型物理前瞻一致性(PFC)獎勵的GRPO強化學習後訓練階段。PFC利用V-JEPA世界模型,通過對齊特徵空間中預測與實際的動態演化來強化物理合理性。MIND-V在長時程機械臂操作影片生成任務中展現尖端性能,為體現式數據合成建立了可擴展且可控的範式。
儘管多模態大型語言模型(MLLMs)被期望能協同解讀視覺、聽覺與語言資訊,但現有的影片基準測試鮮少評估針對人類語言的細粒度推理能力。許多任務仍可透過視覺單一模態解決,或僅對語音進行粗粒度評估,難以判斷模型是否能精準對應「誰在說話、說了什麼、何時發生」的關聯。為此,我們提出AV-SpeakerBench——一個精選的3,212道選擇題基準數據集,專注於真實世界影片中的說話者中心視聽推理。其特色包括:(1)以說話者而非場景為核心推理單元的問題構建;(2)融合驅動的問題設計,將視聽依賴關係嵌入問題語義;(3)專家標註確保時序精度與跨模態有效性。綜合評估顯示,Gemini系列模型持續優於開源系統,其中Gemini 2.5 Pro表現最佳。在開源模型中,Qwen3-Omni-30B雖接近Gemini 2.0 Flash水平,但仍遠遜於Gemini 2.5 Pro,主要差距源於視聽融合能力而非視覺感知能力。我們認為AV-SpeakerBench為推動未來多模態系統的細粒度視聽推理奠定了嚴謹的基礎。
大型語言模型(LLM)的最新進展催生了強大的編程智能體,使得代碼助手有望升級為代碼工程師。然而,現有方法在實現高保真度的文檔到代碼庫合成(例如從科學論文生成代碼)時仍面臨重大挑戰,這主要源於信息過載與LLM上下文瓶頸之間的根本性矛盾。本研究提出DeepCode——一個通過原則性信息流管理從本質上解決該挑戰的全自主框架。通過將代碼庫合成建模為信道優化問題,DeepCode在有限上下文預算下無縫協調四項信息操作以最大化任務相關信號:基於藍圖蒸餾的源文件壓縮、採用狀態化代碼記憶體的結構化索引、通過檢索增強生成實現條件性知識注入,以及閉環錯誤校正。在PaperBench基準上的廣泛評估表明,DeepCode實現了最先進的性能,不僅顯著超越Cursor和Claude Code等主流商業智能體,更關鍵的是在多項關鍵復現指標上超越了頂尖機構的博士級人類專家。通過系統性地將論文規格轉化為可與人類專家質量相媲美的生產級實現,本研究為自主科學復現奠定了新基礎,有望加速科研評估與發現進程。
强化学习(RL)后训练对于将生成模型与人类偏好对齐至关重要,但其高昂的计算成本仍是广泛应用的重大障碍。我们提出TreeGRPO这一新型RL框架,通过将去噪过程重构为搜索树,显著提升训练效率。该方法从共享的初始噪声样本出发,通过策略性分支生成多条候选轨迹,同时高效复用其公共前缀。这种树状结构方法具有三大核心优势:(1)高样本效率,在相同训练样本下实现更优性能;(2)基于奖励反向传播的细粒度信用分配,通过计算逐步骤优势值,克服了基于轨迹方法中均匀信用分配的局限性;(3)摊销式计算,利用多子节点分支实现单次前向传播中的多重策略更新。在扩散模型和流模型上的大量实验表明,TreeGRPO在效率-奖励权衡空间中实现了2.4倍加速训练,并建立了更优的帕累托边界。我们的方法在多个基准测试和奖励模型中持续超越GRPO基线,为基于RL的视觉生成模型对齐提供了可扩展的有效路径。项目网站详见treegrpo.github.io。
本文提出一种模块化神经图像信号处理(ISP)框架,能够处理原始传感器数据并生成高质量显示参考图像。与现有神经ISP设计方案不同,本方法引入高度模块化架构,实现对渲染流程中多个中间阶段的完整控制。该模块化设计不仅实现了高精度渲染,还显著提升了系统的可扩展性、可调试性、对未见过相机型号的泛化能力以及匹配不同用户偏好风格的灵活性。为验证该设计的优势,我们开发了基于本神经ISP的用户交互式照片编辑工具,支持多样化编辑操作与图片风格。该工具经过精心设计,既能充分发挥神经ISP的高质量渲染特性,又可实现无限次的后编辑重渲染。本方法采用全学习型框架,提供不同计算容量的模型变体(完整流程参数量约0.5M至3.9M),在多个测试集上均能稳定呈现具有竞争力的定性与定量结果。补充视频请参阅:https://youtu.be/ByhQjQSjxVM
大型语言模型(LLMs)在生成任务上表现出色,但主流的自回归解码方式具有固有的顺序性,形成了吞吐量瓶颈。扩散语言模型(DLMs)——尤其是分块变体——支持并行生成和块内双向推理,然而从头训练大型DLMs成本高昂,且浪费了成熟自回归检查点中的知识。此前的"适应"尝试要么通过修改逻辑值或随机扩展注意力掩码来实现全序列扩散,要么简单地将自回归权重移植到块扩散方案中,未能解决自回归因果性与块双向性之间的根本性错配。我们通过将自回归视为块大小=1的块扩散模型,将适应过程重新定义为从自回归到块扩散的范式内路径。具体而言,我们设计了包含以下要素的适应路径:使用上下文因果注意力掩码(上下文层面保持因果性,仅在活跃块内实现双向注意力)、高效的并行适应流程、最大化数据利用并保留预训练知识的辅助自回归损失函数,以及逐步增加生成块大小的策略。该方案与掩码块扩散模型无缝集成,并保持训练-推理一致性。基于这些组件构建的NBDiff-7B(基础版与指导版)能够继承长上下文建模和推理能力,在7B级扩散语言模型中实现最优性能,在通用知识、数学和代码基准测试上较基线模型取得显著提升。这些结果表明,基于原理的自回归到块扩散适应方法是一种计算高效且有效的替代方案,可避免从头训练扩散语言模型。代码地址:https://github.com/YuchuanTian/NBDiff。
理解并重建视频中动态场景的复杂几何结构与运动规律,始终是计算机视觉领域面临的重大挑战。本文提出D4RT——一种简洁而高效的前馈模型,旨在以创新方式解决这一难题。该模型采用统一的Transformer架构,能够从单段视频中联合推断深度信息、时空对应关系及完整相机参数。其核心创新在于引入了一种新颖的查询机制,既规避了密集逐帧解码的沉重计算负担,又避免了管理多个任务专用解码器的复杂性。我们的解码接口使模型能够独立灵活地探查时空任意点的三维坐标,最终形成一种轻量化且高度可扩展的方法,实现显著高效的训练与推理。实验表明,该方法在各类4D重建任务中均超越现有技术,确立了新的性能标杆。动态演示结果请参阅项目网页:https://d4rt-paper.github.io/。
尽管近期的大型视觉语言模型(VLM)在视觉语言导航(VLN)领域的泛化能力有所提升,但现有方法通常依赖端到端管道,将视觉语言输入直接映射为短视程的离散动作。此类设计往往产生碎片化运动轨迹、存在高延迟问题,且难以应对动态避障等现实挑战。我们提出DualVLN——首个双系统VLN基础模型,通过协同整合高层推理与低层动作执行来解决上述问题。系统2作为基于VLM的全局规划器,通过基于图像的推理预测中程航点目标,实现"慢思考";系统1作为轻量级多模态条件扩散变换器策略,则利用系统2提供的显式像素目标与潜在特征生成平滑精准的轨迹,实现"快行动"。这种双系统设计能够在复杂动态环境中实现鲁棒的实时控制与自适应局部决策。通过解耦训练,VLM保持了其泛化能力,而系统1则实现了可解释且高效的局部导航。DualVLN在所有VLN基准测试中均超越现有方法,真实环境实验进一步验证了其在动态环境中具备鲁棒的长视程规划能力与实时适应性。
基础智能体在现实环境中的推理与交互能力迅速发展,使其核心能力的评估变得日益重要。尽管现有评估基准层出不穷,但大多聚焦于学术场景或人工设计的情境,忽视了真实应用中的挑战。针对这一问题,我们着眼于极具现实意义的电商领域——该领域涉及海量多元用户交互、动态市场环境,以及与现实决策流程直接关联的任务。为此,我们推出EcomBench:一个旨在真实电商环境中评估智能体性能的综合性基准。该基准源自全球头部电商生态中的真实用户需求,经由专家人工标注与校验,确保任务清晰度、准确性与领域相关性。它覆盖电商场景下的多类任务,设定了三个难度层级,重点考察智能体的深层信息检索、多步推理及跨源知识整合等关键能力。通过将评估植根于真实电商语境,EcomBench为衡量智能体在现代电商场景中的实际能力提供了严谨而动态的测试平台。
大型推理模型通过生成延长的思维链在复杂任务上表现出色,但它们常存在"过度思考"现象:即在已掌握足够信息给出正确答案后仍持续推理。这不仅浪费推理计算资源,还可能降低准确率。现有早期终止方案或通过额外采样和启发式方法干预解码过程,或依赖辅助验证模型,或仅作为事后分析流程运作且缺乏形式化保证。我们提出LYNX——一种在线早期退出机制,它将模型自身的隐藏状态感知转化为置信度可控的停止决策。LYNX在生成过程中将退出决策锚定于自然出现的推理线索(如"嗯"、"等等"),通过强制退出监督训练轻量级探针来解析这些线索标记处的隐藏状态,并利用分割共形预测对得分进行封装,从而实现对提前退出的无分布控制。关键的是,我们在通用数学语料上一次性训练并校准该探针,随后将其直接复用于不同基准测试、解码温度乃至非数学任务。在涵盖1.5B至32B参数的三种模型系列中,每个基础模型仅需配备一个数学训练探针即可实现优异的准确率-效率权衡:在GSM8K上,LYNX在减少40-65%标记量的同时保持或提升基线准确率;在MATH-500上以约35-60%的标记缩减实现最高12个百分点的准确率提升;在AIME 2024中节省超50%标记量的情况下恢复基线准确率;在非数学基准CommonsenseQA上,其零样本迁移实现了适度准确率提升与最高70%的标记节约。与最先进的早期退出方法相比,LYNX在保持完全在线、无需推理时代理模型且提供用户可调置信度保证的同时,呈现出更具竞争力的帕累托前沿。
单目三维追踪旨在从单目视频中捕捉像素在三维空间的长期运动,近年来取得显著进展。然而,现有方法仍存在两大局限:一是难以分离摄像机运动与前景动态运动,二是无法对视频中新出现的动态目标进行密集追踪。针对这些问题,我们提出TrackingWorld——一种在世界坐标系下实现几乎所有像素密集三维追踪的新范式。首先,我们引入追踪上采样器,能够将任意稀疏二维轨迹高效提升为密集二维轨迹。其次,为扩展现有方法对新出现物体的追踪能力,我们对所有帧应用上采样器,并通过消除重叠区域轨迹来降低二维追踪的冗余度。最后,我们提出基于优化的高效框架,通过估计相机位姿和二维轨迹的三维坐标,将密集二维轨迹反投影至世界中心的三维轨迹。在合成数据集与真实场景数据集上的大量实验表明,本系统能在世界坐标系下实现精确且密集的三维追踪。
脑肿瘤对人类生命构成重大威胁,因此在早期阶段精准检测对改善诊疗效果至关重要。目前放射科医生主要通过核磁共振成像扫描图像进行人工诊断,但近年来儿童与青少年脑肿瘤发病率上升导致数据量激增,使得人工检测耗时且困难。随着人工智能在现代社会的兴起及其在医疗领域的广泛应用,我们可借助计算机辅助诊断系统实现脑肿瘤的自动早期检测。现有模型普遍存在泛化能力不足、验证集表现欠佳的问题。为此,我们提出两种新型深度学习架构:(a)用于脑肿瘤分类的自注意力增强肿瘤分类网络,在包含胶质瘤、脑膜瘤、垂体瘤及非肿瘤病例的数据集上训练后,验证集准确率达99.38%,成为少数能实现精准检测的创新深度学习架构;(b)用于精确分割脑肿瘤的自注意力分割网络,其整体像素精度达到99.23%。
記憶增強型大型語言模型(LLMs)在長對話中通過存儲相關記憶並將其作為上下文整合,展現出卓越的連貫性。這種基於記憶的個性化技術在允許用戶保持對話和數據私密性的端側設置中同樣關鍵。然而,記憶增強系統通常依賴的LLMs在本地端側部署成本過高。儘管小型語言模型(SLMs)比LLMs更適合端側推理,但其性能仍顯不足。此外,這些基於LLM的系統缺乏原生視覺能力,限制了其在多模態場景中的應用。本文提出:(i)MemLoRA——一種新型記憶系統,通過為SLMs配備專用記憶適配器實現本地部署;(ii)其視覺擴展版本MemLoRA-V,將小型視覺語言模型(SVLMs)集成到記憶系統中,實現原生視覺理解。基於知識蒸餾原理,每個適配器針對特定記憶操作(知識提取、記憶更新和記憶增強生成)分別訓練。配備記憶適配器的小型模型無需依賴雲端即可實現精準的端側記憶操作。在純文本任務中,MemLoRA性能超越規模10倍的基線模型(如Gemma2-27B),並在LoCoMo基準測試中達到與60倍規模模型(如GPT-OSS-120B)相當的水平。為評估視覺理解能力,我們擴展LoCoMo基準,加入需要直接視覺推理的挑戰性視覺問答任務。在此測試中,集成VLM的MemLoRA-V相較基於圖像描述的方法實現顯著提升(準確率81.3對比23.7),同時在文本任務中保持強勁性能,證明了本方法在多模態場景中的有效性。
人体网格重建(HMR)技术旨在从二维观测数据中恢复三维人体姿态与形状,是现实场景中以人为本的视觉理解基础。尽管当前基于图像的HMR方法(如SAM 3D Body)在野外图像上展现出强大鲁棒性,但在处理视频时依赖逐帧推理,会导致时间连续性缺失且在遮挡情况下性能下降。我们通过利用视频中人体运动的固有连续性,在不增加训练成本的前提下解决了这些问题。本文提出SAM-Body4D——一个无需训练即可从视频中实现时序一致且抗遮挡的HMR框架。我们首先通过可提示视频分割模型生成身份一致的掩码片段,继而利用遮挡感知模块修复缺失区域。优化后的掩码片段引导SAM 3D Body生成连贯的全身体网格轨迹,而基于填充的并行化策略则实现了高效的多人体推理。实验结果表明,SAM-Body4D在具有挑战性的野外视频中显著提升了时间稳定性和鲁棒性,且无需任何重新训练。代码与演示见:https://github.com/gaomingqi/sam-body4d。
目前仍难以构建能够快速泛化几何形状的非定常流动替代模型。我们提出了一种时间相关的几何感知深度算子网络,可预测参数化与非参数化形状周围中等雷诺数流动的速度场。该模型通过符号距离场主干网络编码几何信息,通过卷积神经网络分支编码流动历史,基于841组高保真仿真数据进行训练。在未见过的几何形状上,模型实现了约5%的相对L2单步误差,计算速度较计算流体力学方法提升高达1000倍。我们提供了以物理量为核心的滚动预测诊断方法(包括测点相位误差和散度范数)来量化长期预测精度。结果表明模型能准确预测短期瞬态流动,但在精细尺度尾流中会出现误差累积,这种效应在尖角几何形体中最为显著。我们分析了失效模式并提出了实用改进方案。代码、数据分割和脚本已开源发布(https://github.com/baskargroup/TimeDependent-DeepONet),以支持可复现性研究与基准测试。
3D高斯泼溅(3DGS)作为一种强大的显式表示方法,已能实现实时高保真度的三维重建与新视角合成。然而,该方法在存储和渲染数百万高斯粒子时所需的巨大内存与计算量,制约了其实际应用。这些挑战在四维动态场景中尤为严峻。为解决这些问题,高效高斯泼溅技术领域迅速发展,提出了多种在保持重建质量的同时减少冗余的方法。本文首次对高效3D与4D高斯泼溅技术进行了统一综述:针对静态与动态场景,我们系统地将现有方法归类为参数量压缩与结构重组压缩两大方向,全面总结了各类方法的核心思想与发展趋势;进一步梳理了广泛使用的数据集、评估指标及代表性基准对比;最后讨论了当前技术局限,并展望了面向静态与动态三维场景的可扩展、紧凑、实时高斯泼溅技术的潜在研究方向。
我们推出两项新基准测试REST与REST+(渲染等价压力测试),旨在系统评估多模态大语言模型(MLLMs)的跨模态不一致性问题。尽管MLLMs经过训练可将视觉与语言映射至同一嵌入空间,但它们无法在两种模态中执行相同任务。我们的基准测试包含三种模态(图像、文本、混合)下具有相同语义信息的样本,并证明当前最先进的MLLMs无法对这些不同模态进行一致推理。通过评估15个MLLMs,我们发现即使排除文本识别(OCR)问题,模态不一致程度仍存在显著差异。无论是将文本渲染为图像还是将图像渲染为文本,都无法解决不一致性问题。即使OCR准确无误,视觉特征(文字颜色和分辨率,但非字体)及视觉标记数量仍会影响模型性能。最后,我们发现一致性分数与文本-图像间的模态差距存在关联,这揭示了跨模态不一致MLLMs的内在机制。
数十年来,程序化生成世界一直建立在Perlin噪声等程序化噪声函数基础上,这类函数虽具有快速生成和无限扩展的特性,但其真实感与大规模连贯性存在根本局限。我们提出的地形扩散模型(Terrain Diffusion)作为Perlin噪声在AI时代的技术继任者,将扩散模型的逼真度与程序化噪声不可或缺的核心特性——无缝无限延展、种子一致性和恒定时间随机访问——完美结合。其核心创新无限扩散算法(InfiniteDiffusion)实现了无边景观的无缝实时生成。通过采用分层堆叠的扩散模型架构,系统实现了行星级宏观环境与局部细节的耦合,而紧凑的拉普拉斯编码则确保了地球级动态范围内的输出稳定性。配套开源的无限张量框架支持对无界张量的恒定内存操作,结合少步长一致性蒸馏技术实现了高效生成。这些技术要素共同确立了扩散模型作为程序化世界生成的实践基础,能够以连贯可控的方式无限制地合成整个行星地貌。