每日精選AI研究論文及翻譯
我們推出 T-pro 2.0——一個具備混合推理與高效推論能力的俄語開源權重大型語言模型。該模型支援直接問答與推理軌跡生成,採用西里爾字母密集型分詞器,並配備改進版 EAGLE 預測解碼流水線以降低延遲。為實現可復現與可擴展的研究,我們在 Hugging Face 平台公開模型權重、T-Wix 50萬條指令數據集、T-Math 推理基準測試集及 EAGLE 權重。這些資源可幫助研究者探索俄語推理機制,並對模型與推論流水線進行擴展適配。公開網頁演示版同步展示推理與非推理模式,直觀呈現我們推論架構在多領域實現的加速效果。T-pro 2.0 由此成為構建與評估高效實用俄語大型語言模型應用的開放式基礎平台。
大型語言模型(LLMs)通過可驗證獎勵的強化學習(RLVR)在解決複雜推理任務方面取得了顯著進展。這項進展同樣離不開由可靠驗證器實現的自動化監督。然而,現有的基於結果的驗證器(OVs)無法有效審查思維鏈(CoTs)長推理過程中不可靠的中間步驟。與此同時,現有的基於過程的驗證器(PVs)受限於人工標註成本過高導致的高質量標註數據稀缺,難以在複雜的長思維鏈中可靠檢測錯誤。為此,我們提出基於結果的過程驗證器(OPV),通過驗證長思維鏈中總結性結果的推導過程,實現精確高效的驗證並支持大規模標註。為增強該驗證器的能力,我們採用結合專家標註的迭代式主動學習框架,以較低標註成本逐步提升OPV的驗證能力。具體而言,在每輪迭代中,當前最優OPV最不確定的案例會經專家標註,隨後通過拒絶微調(RFT)和RLVR訓練新一代OPV用於後續輪次。大量實驗證明OPV具有卓越性能與廣泛適用性:在保留測試集\thisbench上以83.1的F1分數刷新現有最佳紀錄,顯著超越Qwen3-Max-Preview等更大規模開源模型的76.3分。此外,OPV能有效檢測合成數據集中的假陽性案例,其判斷與專家評估高度一致。在與策略模型協作時,OPV持續帶來性能提升,例如在AIME2025數據集上,隨著計算預算增加,將DeepSeek-R1-Distill-Qwen-32B的準確率從55.2%提升至73.3%。
強化學習(RL)早期已被證實能有效應用於大型語言與多模態模型,近期更成功擴展至增強二維影像生成領域。然而,由於三維物件具有更高的空間複雜度,需兼顧全域一致的幾何結構與細粒度局部紋理,使得RL在三維生成領域的應用仍鮮少被探索。這種特性導致三維生成對獎勵設計與RL演算法極為敏感。為應對這些挑戰,我們首度從多個維度系統性研究RL在文本到三維自回歸生成中的應用:(1)獎勵設計:評估獎勵維度與模型選擇,證明符合人類偏好的對齊性至關重要,且通用多模態模型能為三維屬性提供穩健信號;(2)RL演算法:研究GRPO變體,凸顯詞元級優化的有效性,並深入探討訓練數據與迭代次數的規模化影響;(3)文本到三維基準測試:鑒於現有基準無法衡量三維生成模型的隱式推理能力,我們提出MME-3DR新基準;(4)先進RL範式:受三維生成自然層級結構啟發,我們提出Hi-GRPO方法,透過專屬獎勵集成實現從全域到局部的層次化三維生成優化。基於這些發現,我們開發出首個RL增強型文本到三維模型AR3D-R1,該模型具備從粗粒度形狀到紋理細化的專業生成能力。本研究期望為RL驅動的三維生成推理提供新見解。程式碼已發佈於:https://github.com/Ivan-Tang-3D/3DGen-R1。
大型語言模型(LLMs)通過可驗證獎勵的強化學習(RLVR)在解決複雜推理任務方面取得了顯著進展。這一進步同樣離不開由可靠驗證器實現的自動化監督。然而,當前基於結果的驗證器(OVs)無法有效審查長鏈思維推理(CoTs)中不可靠的中間步驟。與此同時,現有的基於過程的驗證器(PVs)受限於人工標註成本過高導致的高質量標註數據稀缺,難以在複雜的長鏈CoTs中可靠檢測錯誤。為此,我們提出基於結果的過程驗證器(OPV),通過驗證長鏈CoTs中歸納結果的推導過程,實現精確高效的驗證並支持大規模標註。為增強該驗證器的能力,我們採用結合專家標註的迭代式主動學習框架,以較低標註成本逐步提升OPV的驗證能力。具體而言,在每輪迭代中,當前最優OPV判定最不確定的案例會經專家標註,隨後通過拒絕微調(RFT)和RLVR訓練新一代OPV。大量實驗證明OPV具有卓越性能與廣泛適用性:在我們構建的OPV-Bench測試集上創下新紀錄,F1分達83.1,顯著超越Qwen3-Max-Preview等更大規模開源模型的76.3分;在合成數據集中能有效檢測假陽性案例,與專家評估高度一致;與策略模型協作時持續帶來性能提升,例如在AIME2025數據集上,隨著計算預算增加,可將DeepSeek-R1-Distill-Qwen-32B的準確率從55.2%提升至73.3%。
大型語言模型(LLM)智能體展現出強大的數學問題解決能力,甚至能在形式化證明系統的輔助下解決國際數學奧林匹克(IMO)級別的難題。然而,由於輔助構造的啟發式策略較弱,幾何問題求解領域仍由專家模型(如AlphaGeometry 2)主導,這類模型在訓練與評估階段嚴重依賴大規模數據合成與搜索。本研究首次嘗試構建具備金牌水準的LLM幾何智能體,提出InternGeometry模型。該模型通過迭代式提出命題與輔助構造、使用符號引擎驗證並根據引擎反饋調整後續提案,克服了幾何領域的啟發式局限。動態記憶機制使InternGeometry能對每個問題與符號引擎進行超過兩百次交互。為加速學習,我們提出複雜度遞增強化學習(CBRL)方法,在訓練階段逐步提升合成問題的複雜度。基於InternThinker-32B構建的InternGeometry僅使用1.3萬訓練樣本(相當於AlphaGeometry 2數據量的0.004%),在2000-2024年的50道IMO幾何題中解決44題,超越金牌得主平均分(40.9分),展現了LLM智能體在專家級幾何任務上的潛力。該模型還能針對IMO題目提出人類解法中未出現的新穎輔助構造。我們將公開模型、數據與符號引擎以支持後續研究。
儘管動作捕捉技術現已支撐起遠超數位人領域的內容創作,但現有流程大多仍侷限於特定物種或模板。我們將此侷限性定義為「類別無關動作捕捉」(CAMoCap):給定單目影片與任意綁定骨架的3D資產作為提示,目標是重建能直接驅動該資產的旋轉制動畫(如BVH格式)。我們提出MoCapAnything——一個參考引導的分解式框架,先預測3D關節軌跡,再透過約束感知逆向運動學還原資產專屬旋轉。該系統包含三個可學習模組與輕量級IK階段:(1)參考提示編碼器:從資產骨架、網格及渲染圖像提取逐關節查詢;(2)影片特徵提取器:計算稠密視覺描述符並重建粗粒度4D變形網格,以橋接影片與關節空間;(3)統一運動解碼器:融合多模態線索生成時序連貫的軌跡。我們同時構建了Truebones Zoo數據集,包含1038個動作片段,每個片段均提供標準化的骨架-網格-渲染三元組。在領域內基準測試與真實場景影片上的實驗表明,MoCapAnything不僅能輸出高品質骨骼動畫,更能在異構骨架間實現有意義的跨物種動作遷移,為任意資產實現可擴展的提示驅動式3D動作捕捉。項目頁面:https://animotionlab.github.io/MoCapAnything/
隨著大型語言模型從研究原型轉向生產系統,從業者往往需要可靠的方法來驗證模型輸出是否滿足特定約束。雖然基於抽樣的估計能提供模型行為的直觀認知,但無法給出嚴格的保證。我們提出BEAVER——首個能為LLM約束滿足度計算確定性、嚴謹機率界限的實用框架。針對任何前綴封閉的語義約束,BEAVER通過創新型的詞元字典樹與邊界資料結構系統性探索生成空間,在每次迭代中維持可證明嚴謹的界限。我們將驗證問題形式化,證明方法的嚴謹性,並在多個前沿LLM上針對正確性驗證、隱私驗證及安全程式碼生成任務評估BEAVER。在相同計算資源下,BEAVER相比基準方法獲得6至8倍更緊密的機率界限,並識別出3至4倍更多高風險實例,實現了鬆散界限或經驗評估無法達成的精確特徵描繪與風險量化。
本文提出了微觀空間智能(MiSI)的概念,即感知與推斷不可見微觀實體空間關係的能力,此能力是科學發現的基礎。為評估視覺語言模型(VLMs)在此領域的潛力,我們提出系統性基準框架 MiSI-Bench。該框架包含超過16.3萬組問答對與58.7萬張影像,源自約4,000個分子結構,涵蓋九項互補任務,從基礎空間變換到複雜關係識別進行能力評估。實驗結果顯示,當前最先進的VLM在此基準上的表現顯著低於人類水平。然而,經過微調的70億參數模型展現出巨大潛力,甚至在空間變換任務中超越人類,但其在氫鍵識別等科學基礎任務中的薄弱表現,凸顯了整合顯性領域知識對於實現科學通用人工智慧的必要性。資料集可於 https://huggingface.co/datasets/zongzhao/MiSI-bench 獲取。
在多模態模型中,實現理解、生成與重建表徵的統一符記化仍是核心難題。既往研究主要基於雙編碼器範式展開探索,例如分別採用獨立編碼器處理理解與生成任務,或通過對比損失平衡語義表徵與低階特徵。本文提出VQRAE(表徵自編碼器的向量量化版本),首次在統一符記化框架下實現連續語義特徵(用於圖像理解)與離散符記(用於視覺生成)的協同表徵。具體而言,我們基於預訓練視覺基礎模型構建對稱ViT解碼器,並採用兩階段訓練策略:第一階段凍結編碼器,以像素重建為目標學習高維語義VQ碼本;第二階段通過自蒸餾約束聯合優化編碼器。該設計既能保留可忽略損耗的語義信息以維持多模態理解能力,又生成兼容生成任務的離散符記與細粒度重建結果。此外,我們發現語義編碼器量化需採用高維碼本(與圖像重建中常用的低維碼本實踐相反)的獨特性質——語義VQ碼本在1536維度下可實現100%利用率。VQRAE在多個視覺理解、生成與重建基準測試中展現競爭力,其離散特性在自回歸範式下具備優良的擴展潛力。
基于图像思维的推理范式通过将视觉信息作为动态元素整合到思维链中,展现了卓越的视觉推理能力。然而,由于依赖稀缺的高质量推理数据,通过强化学习优化交错式多模态思维链仍具挑战性。本研究提出自调用思维链——一种新型视觉推理范式,它将交错式多模态思维链重构为具有自调用功能的纯语言思维链。具体而言,主代理将复杂视觉推理任务分解为原子子任务,并调用其虚拟副本(即参数共享子代理)在隔离上下文中解决问题。该范式无需显式的模态交错操作,因而具有显著的训练效能与效率优势。通过采用群体相对策略优化来强化有效推理行为,该范式进一步提升了优化效果。在HR-Bench 4K上的实验表明,相较于强基线方法,自调用思维链在减少约75%GPU时耗的同时,将整体推理性能提升最高达1.9%。代码已开源:https://github.com/YWenxi/think-with-images-through-self-calling。
生成式世界模型在模拟不同环境中视觉运动策略的交互方面具有巨大潜力。前沿视频模型能够以可扩展且通用的方式生成逼真的观测结果和环境交互。然而,视频模型在机器人领域的应用主要局限于分布内评估,即与训练策略或微调基础视频模型时使用的场景相似的场景。本报告证明,视频模型可应用于机器人策略评估的全场景:从标称性能评估到分布外泛化能力测试,再到物理与语义安全性探测。我们基于前沿视频基础模型(Veo)构建了生成式评估系统,该系统经优化可支持机器人动作条件约束与多视角一致性,同时集成生成式图像编辑和多视角补全技术,能够沿多个泛化维度合成真实场景的逼真变体。实验表明,该系统保留了视频模型的基础能力,能精确模拟经过编辑的场景——包括添加新型交互物体、更换视觉背景及引入干扰物体。这种保真度使得系统能够准确预测不同策略在标称条件和分布外条件下的相对性能,确定不同泛化维度对策略性能的影响程度,并对策略进行红队测试以发现违反物理或语义安全约束的行为。我们通过对八种Gemini机器人策略检查点和五项双操作臂任务进行1600余次真实世界评估,验证了这些能力。
我们提出StereoSpace——一种基于扩散模型的单目到立体合成框架,该框架仅通过视角条件建模几何关系,无需显式深度或形变操作。通过构建规范矫正空间与条件引导机制,生成器能够端到端推断对应关系并补全遮挡缺失区域。为确保公平且无数据泄露的评估,我们建立了端到端评测协议,在测试阶段完全排除真实几何数据或代理几何估计的干扰。该协议重点关注体现下游应用价值的指标:感知舒适度的iSQoE指标与几何一致性的MEt3R指标。StereoSpace在形变修补、潜在空间形变和条件形变等各类方法中表现卓越,能在层叠场景与非朗伯表面场景中生成锐利视差并保持强鲁棒性。这确立了视角条件扩散模型作为无需深度信息的立体生成方案的扩展性优势。
尽管归一化层长期被视为深度学习架构中不可或缺的组成部分,但动态双曲正切函数(DyT)的提出表明替代方案是存在的。该点态函数通过约束极值实现稳定收敛,并达到归一化级别的性能;本研究旨在探索能超越该性能的函数设计。我们首先探究了点态函数的内在特性如何影响训练与性能,并基于这些发现展开了大规模搜索以寻求更有效的函数设计。通过系统探索,我们提出了Derf(x) = erf(αx + s)(其中erf(x)为缩放后的高斯累积分布函数),并确认其为最优性能设计。Derf在视觉(图像识别与生成)、语音表征及DNA序列建模等广泛领域中均优于LayerNorm、RMSNorm和DyT。研究发现Derf的性能提升主要源于其增强的泛化能力而非拟合能力。其简洁性与卓越性能使Derf成为无归一化Transformer架构的理想选择。
视频问答任务作为评估基础模型能否有效感知、理解及推理动态现实场景的关键试验场。然而,现有多模态大语言模型在复杂且需要深度推理的视频问答任务中,难以同时建模视频帧内的空间关系并理解时序演变的因果动态。本研究为多模态大语言模型配备了全面可扩展的视频工具包,通过确保工具数量与多样性的协调性,增强模型的时空推理能力。为更好地控制工具调用序列并避免工具链捷径问题,我们提出时空推理框架,通过策略性调度时空工具逐步定位视频关键区域。该框架使用轻量级工具增强GPT-4o性能,在VideoMME和LongVideoBench基准上分别实现8.2%和4.6%的性能提升。我们相信所提出的视频工具包与时空推理框架为构建自主智能的视频分析助手迈出重要一步。代码已开源于https://github.com/fansunqi/VideoTool。
能够从日常人类视频中学习操作技能的机器人,无需繁琐的机器人数据收集即可获得广泛能力。我们提出一种视频到视频的转换框架,可将普通人机交互视频转化为具有真实物理交互效果且运动一致的机器人操作视频。该方法无需任何配对的人机视频进行训练,仅需一组非配对的机器人视频即可,使得系统易于扩展。我们引入一种可迁移的表征方式来弥合实体差异:通过修复训练视频中的机械臂以获得干净背景,并叠加简单视觉提示(标记点和箭头指示夹爪位置与方向),可让生成模型条件化地将机械臂重新插入场景。测试时,我们对人类视频实施相同流程(修复人体并叠加人体姿态提示),生成能模仿人类动作的高质量机器人视频。我们采用上下文学习方式对SOTA视频扩散模型(Wan 2.2)进行微调,确保时间连贯性并充分利用其丰富的先验知识。实证结果表明,相较于基线方法,我们的方法能实现显著更真实且具物理依据的机器人运动,为通过无标注人类视频扩展机器人学习指明了前景广阔的方向。项目页面:https://showlab.github.io/H2R-Grounder/
我们正式推出FACTS评估体系——一套在线排行榜系统及配套基准测试,旨在全面评估语言模型在不同场景下生成事实准确文本的能力。该体系通过聚合模型在四个独立子榜单上的表现提供整体事实性度量:(1) FACTS多模态榜单,衡量基于图像提问的回复事实性;(2) FACTS参数化榜单,通过闭卷事实性问题评估模型从内部参数提取世界知识的能力;(3) FACTS搜索榜单,评估信息检索场景下模型使用搜索API时的事实准确性;(4) FACTS文本锚定榜单(v2版),评估长文本回复是否基于给定文档,其判定模型得到显著优化。各子榜单均采用自动化判定模型对回答进行评分,最终体系得分为四项分值的平均值,以此实现对模型整体事实性的稳健均衡评估。FACTS评估体系将保持动态更新,同时包含公开与私有数据分区,在保障体系完整性的同时支持外部参与。访问地址:https://www.kaggle.com/benchmarks/google/facts。
近期,四维高斯泼溅(4DGS)技术的新进展将三维高斯泼溅(3DGS)的高速渲染能力扩展至时间维度,实现了动态场景的实时渲染。然而,当前主要挑战之一在于对包含长程运动的动态视频进行建模——现有方法的简单扩展会导致内存急剧膨胀、时间域闪烁现象加剧,且无法有效处理随时间出现的遮挡与消失问题。为解决这些难题,我们提出了一种名为MoRel的新型4DGS框架,其核心是采用基于锚点传递的双向混合(ARBB)机制。该框架能够以内存高效的方式实现长程动态场景的时间一致性建模。我们的方法通过在关键帧时间索引处逐步构建局部规范锚点空间,并在锚点层级建模帧间形变,从而增强时间连贯性。通过学得关键帧锚点(KfA)间的双向形变关系,并借助可学习的透明度控制进行自适应混合,我们的方法有效缓解了时间不连续性与闪烁伪影。我们还提出了特征方差引导的分层致密化(FHD)方案,根据特征方差等级对KfA进行高效致密化,在保持渲染质量的同时控制内存增长。为有效评估模型处理真实世界长程四维运动的能力,我们新构建了包含长程四维运动的数据集SelfCap_{LR}。与现有动态视频数据集相比,该数据集具有更大的平均动态运动幅度,且拍摄空间范围更广。总体而言,MoRel在保持有限内存占用的同时,实现了时间连贯且无闪烁的长程四维重建,展现了基于高斯表示的动态场景建模方法的可扩展性与高效性。
视频统一模型在理解与生成方面展现出强大能力,但即便配备强大的内部视觉语言模型(VLM),其在推理引导的视频编辑任务中仍存在困难。我们将此差距归因于两个因素:1)现有数据集难以满足推理感知视频编辑的训练与评估需求;2)模型推理能力与编辑能力之间存在固有脱节,导致丰富的理解信息无法有效指导编辑过程。弥合这一差距需要构建连接推理与视觉转换的集成框架。为此,我们提出推理引导视频编辑(RVE)任务,要求编辑过程中兼顾物理合理性与因果动态的推演。为支持系统化评估,我们构建了RVE-Bench综合基准,包含两个互补子集:推理引导视频编辑与上下文视频生成。这些子集覆盖了多维推理场景和真实世界编辑需求。基于此,我们提出ReViSE——一种将生成与评估统一于单一架构的自反思推理(SRF)框架。该模型通过内部VLM评估编辑后视频是否在逻辑上满足指令要求,从而提供内在反馈。这种差异化反馈能在训练过程中持续优化生成器的推理行为。在RVE-Bench上的大量实验表明,ReViSE显著提升了编辑准确度与视觉保真度,在推理引导视频编辑子集上的综合得分较现有最优方法提升32%。
视觉概念个性化技术旨在将特定图像属性(如身份特征、表情神态、光照条件与艺术风格)迁移至未知场景中。然而现有方法依赖通用图像编码器提取的整体嵌入向量,这些向量往往纠缠多种视觉要素,难以分离单一属性,导致信息泄露与合成结果失真的问题。为解决此局限,我们提出全属性编码器——首个专为学习高保真度、属性特异性表征而设计的开放词汇图像属性编码框架。本研究采用数据与模型协同设计的思路:首先构建带有正负属性标注的语义关联图像对,显式指导编码器学习保留与抑制的要素;其次采用双目标训练范式,平衡生成保真度与对比解耦能力。实验表明,所得嵌入向量在开放词汇属性检索、个性化定制与组合生成任务中均表现优异,在多项基准测试中达到最先进性能。
现实世界的人工智能软件工程需要具备以下能力的编程智能体:能够对海量代码库进行推理、在长会话期间及跨会话时保持持久记忆,并在测试阶段稳健地协调复杂工具链。现有开源编程智能体虽具透明度,但在应对工业级工作负载时常显不足;而专有编程智能体虽实践性能强劲,却在可扩展性、可解释性与可控性方面存在局限。我们推出孔子编程智能体(CCA),这是一款能在工业级规模运行的开源人工智能软件工程师。CCA构建于孔子SDK之上——这是一个围绕三大互补视角设计的开源智能体开发平台:智能体体验(AX)、用户体验(UX)和开发者体验(DX)。该SDK引入了具备分层工作记忆的统一编排器以实现长上下文推理,配备持久化笔记系统支持跨会话持续学习,并通过模块化扩展机制保障工具使用的稳健性。此外,元智能体通过"构建-测试-优化"循环自动完成智能体配置的合成、评估与优化,从而在新任务、新环境和新工具栈上实现快速智能体开发。基于孔子SDK的这些机制实例化后,CCA在实际软件工程任务中展现出卓越性能:在SWE-Bench-Pro基准测试中,CCA以54.3%的Resolve@1成绩刷新业界纪录,较先前编程智能体实现显著提升。孔子SDK与CCA共同为AI智能体提供了透明、可扩展且可复现的基础框架,弥合了研究原型与生产级系统之间的鸿沟,为工业级规模的智能体开发与部署提供支撑。
尽管大语言模型智能体已广泛应用于复杂交互任务,但隐私约束往往阻碍其在动态环境中的集中式优化与协同进化。联邦学习虽在静态数据集上成效显著,但其在智能体开放式自主进化场景的扩展研究尚不充分。直接应用标准联邦学习面临挑战:异构任务特性与稀疏的轨迹级奖励会引发严重梯度冲突,导致全局优化过程失稳。为此,我们提出Fed-SE框架——一种面向大语言模型智能体的联邦自进化范式。该框架构建"本地进化-全局聚合"双层级机制:在本地层面,智能体基于筛选的高回报轨迹进行参数高效微调,实现稳定梯度更新;在全局层面,通过低秩子空间解耦环境特异性动态特征,有效聚合客户端更新以降低负迁移效应。在五个异构环境中的实验表明,Fed-SE相较联邦学习基线平均任务成功率提升约18%,验证了其在隐私约束部署下实现跨环境知识鲁棒迁移的有效性。
角色扮演智能體(RPAs)需同時掌握多項衝突技能——遵循多輪對話指令、展現領域知識並保持一致的語言風格。現有研究要么依賴監督微調(SFT)導致過度擬合表面線索而降低多樣性,要么應用強化學習(RL)卻難以實現多維度的全面RPA優化。我們提出MOA(多目標對齊)框架,這是一種支援通用RPAs進行多維度細粒度評分優化的強化學習方案。MOA引入創新的多目標優化策略,通過同步訓練多個細粒度評分維度來提升優化效能。此外,為解決模型輸出多樣性與品質問題,我們還採用了具備離策略指導的思維增強推演技術。在PersonaGym和RoleMRC等挑戰性基準測試中的大量實驗表明,MOA能使80億參數模型在多個維度上媲美甚至超越GPT-4o和Claude等強基線模型,這證實了MOA在構建同時滿足角色知識、人物風格、多樣化場景及複雜多輪對話需求的RPAs方面具有巨大潛力。
具身智能的進步為智能仿人機器人開闢了巨大潛力。然而,視覺-語言-動作模型與世界模型的發展正因大規模多樣化訓練數據的匱乏而嚴重受限。將網絡規模的人類視頻「機器人化」已被證明是策略訓練的有效方案,但現有方法主要是在第一人稱視角視頻上「疊加」機械臂,無法處理第三人稱視頻中複雜的全身運動與場景遮擋,因而難以實現人類動作的機器人化轉換。為解決這一難題,我們提出X-Humanoid生成式視頻編輯框架:通過將強大的Wan 2.2模型改造成視頻到視頻結構,並針對人體到仿人體的轉換任務進行微調。該微調過程需要配對的人類-仿人體視頻數據,為此我們設計了可擴展的數據生成流程,利用虛幻引擎將社區資源轉化為超過17小時的配對合成視頻。基於訓練完成的模型,我們對60小時的Ego-Exo4D視頻進行處理,生成並開放了包含逾360萬幀「機器人化」仿人體畫面的新大規模數據集。定量分析與用戶研究證實了本方法的優越性:69%的用戶認為其在運動連貫性上最佳,62.1%的用戶認可其具身正確性。
近期基于视觉语言模型(VLM)的SVG生成方法取得了显著成果。然而,由于这类方法在解码过程中仅生成文本而缺乏视觉信号,往往难以处理复杂语义,导致生成的SVG在视觉吸引力与几何一致性方面存在不足。我们提出DuetSVG——一种统一的多模态模型,能以端到端方式同步生成图像标记及对应的SVG标记。该模型基于图像与SVG混合数据集进行训练,在推理阶段采用创新的测试时缩放策略,利用模型自身生成的视觉预测作为引导来提升SVG解码质量。大量实验表明,我们的方法在各类应用场景中均优于现有技术,所生成的SVG兼具视觉保真度、语义对齐性和语法简洁性。