每日精選AI研究論文及翻譯
在智慧體時代,程式碼已成為精確且可執行的推理與行動媒介。然而現有進展主要聚焦於語言中心任務(如程式合成與除錯),視覺中心程式設計領域仍待探索。受人類透過草圖進行推理的啟發,我們主張將SVG程式碼作為緊湊、可解釋且可執行的視覺表徵。我們提出VCode基準測試,將多模態理解重新定義為程式碼生成任務:給定圖像,模型必須生成能保留符號意義以供下游推理的SVG程式碼。VCode涵蓋三大領域——通用常識(MM-Vet)、專業學科(MMMU)及視覺中心感知(CV-Bench)。為評估符號保真度,我們提出創新的CodeVQA評估協議:透過策略模型對渲染後SVG進行問答,正確答案表徵符號的忠實保留。實證顯示,前沿視覺語言模型在生成精準SVG時仍存在困難,揭示語言中心與視覺中心程式設計間的持續差距。為彌合此差距,我們推出VCoder智慧體框架,沿雙軸線增強視覺語言模型:(i)修正式思考機制,迭代分析差異並優化SVG程式碼;(ii)視覺工具協作,透過偵測器與解析器提供模型內在能力之外的結構化線索(如物件、形狀與文字)。跨基準測試表明,具備強推理能力的前沿模型總體表現良好,但在專業知識與3D推理方面仍有侷限。VCoder相較表現最佳的Claude-4-Opus實現12.3分的綜合提升。人類研究顯示,人類與視覺語言模型在渲染SVG上的表現均有所下降,但兩者的一致性揭示了符號化視覺表徵的發展潛力。基準測試與程式碼已公開於https://github.com/CSU-JPG/VCode。
視覺-語言-動作(VLA)模型日益成功的核心在於:經過預訓練的視覺-語言模型(VLM)能為智能體提供可遷移的世界知識與視覺-語言(VL)基礎能力,從而為具備更廣泛泛化能力的動作模型奠定基礎。然而當這些VLM被適配至動作模態時,其原有的VL表徵與知識能在多大程度上得以保留,目前尚不明確。本研究針對VLA微調過程中的表徵保持性進行系統性分析,發現直接進行動作微調會導致視覺表徵的退化。為量化表徵變化,我們不僅探測了VLA模型的隱藏表徵並分析其注意力圖譜,更設計了一套對比任務與方法,將VLA模型與對應的VLM進行對照,以分離動作微調對VL能力的影響。我們進一步評估了多種視覺表徵對齊策略,並提出一種簡潔有效的方法,既能緩解表徵退化現象,又能提升模型在分佈外(OOD)場景的泛化性能。綜合而言,本研究闡明了動作微調與VL表徵退化之間的權衡關係,並提出了恢復繼承VL能力的實用方法。程式碼已公開於:https://blind-vla-paper.github.io
我們提出MIRA——一個專為評估模型在需要生成中間視覺圖像以實現成功推理的場景中表現而設計的新基準。與傳統僅依賴文本的思維鏈方法不同,MIRA中的任務要求模型生成並利用中間圖像(如草圖、結構圖或路徑繪圖)來引導推理過程。這種設置緊密模擬了人類通過「繪圖思考」解決複雜問題的方式。為此,MIRA聚焦於本質上具有挑戰性、涉及複雜結構、空間關係或難以僅用語言表達的推理步驟的任務。為確保評估數據的高質量,我們收錄了546個多模態問題,並標註了中間視覺圖像與最終答案。我們還為MIRA提出統一的評估協議,涵蓋三層評估輸入:僅含圖像和問題的直接輸入、帶圖像與思考提示的純文本思維鏈輸入,以及同時包含標註圖像線索與文本思考提示的視覺思維鏈輸入。為探測模型在基準上的能力上限,我們還報告了不同k值設置下的pass@k精度和多數投票精度。實驗結果表明,現有多模態大語言模型(包括最強的私有模型與優秀的開源權重模型)在僅依賴文本提示時表現不佳,但當提供中間視覺線索後,模型性能持續提升,在所有模型和任務中平均相對增益達33.7%。我們通過擴展搜索空間和設計對齊視覺思維鏈的文本提示來探測性能上限,但這兩種方法相較於我們的視覺思維鏈設置僅帶來有限改進。這些結果凸顯了想像視覺信息在MIRA上實現成功推理的關鍵作用。
我們推出 Step-Audio-EditX,這是首個基於開源大型語言模型的音訊系統,在情感、說話風格與副語言特徵的表現性迭代編輯方面表現卓越,同時具備強大的零樣本文字轉語音功能。我們的核心創新在於僅利用大邊界合成數據,無需依賴基於嵌入的先驗知識或輔助模組。這種大邊界學習方法既能實現迭代控制,又能跨聲音表現高度靈活性,從根本上扭轉了傳統對表徵層面解耦的關注重點。評估結果顯示,Step-Audio-EditX 在情感編輯及其他細粒度控制任務上,均超越 MiniMax-2.6-hd 與 Doubao-Seed-TTS-2.0 的表現。
多模態大型語言模型(MLLMs)在處理不同模態提供矛盾資訊時必須解決衝突,此過程我們稱之為模態追隨。過往研究僅以粗糙的資料集層級統計數據衡量此行為,忽略了模型在單模態推理中置信度的影響。本文提出新框架,將模態追隨分解為兩個核心因子:相對推理不確定性(單模態預測間針對具體案例的置信度差距)與固有模態偏好(不確定性平衡時模型的穩定偏向)。為驗證此框架,我們構建了可控制資料集,系統性調節視覺與文字輸入的推理難度。透過以熵作為細粒度不確定性指標,發現普遍規律:模型遵循某模態的機率會隨其相對不確定性增加而單調遞減。當模型以相近機率遵循雙模態的相對難度水平——即平衡點時,可作為衡量模型固有偏好的實用指標。相較傳統宏觀比例,此測量方式能更系統性地表徵模態偏向,使其與單模態能力及資料集人為因素解耦。進一步透過層級預測探測,我們揭示振盪的內部機制:在平衡點附近的模糊區域,模型會在不同層間對模態搖擺不定,從而解釋外部觀測到的決策猶豫現象。這些發現共同確立了相對不確定性與固有偏好作為模態追隨的兩大支配原則,不僅提供量化框架,更從機制層面揭示MLLMs如何化解矛盾資訊。
人工智慧發展軌跡顯示,我們將日益依賴由獨立開發的智能體組成的多代理系統,這些智能體具備不同的資訊、權限與工具。此類系統的成功關鍵在於異質智能體間的有效協作,即使在部分可觀測條件下亦需如此。儘管學界高度關注,目前仍缺乏大規模評估此類智能體協作效能的實證研究。我們提出一個協作式迷宮求解基準測試,其特點在於:(i) 隔離協作能力評估、(ii) 可調控問題複雜度、(iii) 實現可擴展的自動化評分,以及 (iv) 不設輸出格式限制以保持生態效度。透過此框架,我們評估了32個領先的開源與閉源模型在單獨作業、同質配對及異質配對中的表現。研究結果揭示出「協作落差」現象:單獨表現優異的模型在需要協作時效能往往大幅下降。協作失靈可能極其嚴重,例如某些單獨解謎能力強的小型蒸餾模型,在特定配對組合中幾乎完全失效。我們發現由較強智能體主導協作能改善結果,據此提出「接力推理」方法——讓強智能體先主導任務再移交弱智能體,此舉可大幅縮小協作落差。本研究主張:(1) 建立具協作意識的評估體系、(2) 開發提升協作能力的訓練策略、(3) 設計能可靠激發智能體潛在技能的互動機制,這些指導原則同時適用於AI-AI及人-AI協作場景。
基於功能性磁振造影(fMRI)的腦部記錄重建人眼所見圖像,為窺探人類大腦提供了一種非侵入性視窗。儘管擴散模型近期取得進展,現有方法仍常缺乏對實際所見圖像的忠實還原能力。我們提出「Brain-IT」這一受大腦啟發的方法,通過大腦交互轉換器(BIT)實現功能相似腦體素簇之間的有效互動,從而解決此難題。這些功能簇為所有受試者所共有,可作為整合大腦內與跨大腦資訊的基礎單元。所有模型組件均被各簇群與受試者共享,使得僅需有限數據即可實現高效訓練。為指導圖像重建,BIT預測兩種互補的局部圖塊級圖像特徵:(i)高層語義特徵,引導擴散模型朝向正確的圖像語義內容;(ii)低層結構特徵,協助擴散過程以正確的圖像粗粒度佈局進行初始化。BIT的設計實現了從腦體素簇到局部圖像特徵的資訊直接流動。基於這些原理,我們的方法透過fMRI實現的圖像重建能忠實還原所見圖像,在視覺效果與標準客觀指標上均超越當前頂尖技術。更值得注意的是,僅需新受試者1小時的fMRI數據,我們便能達到與現有方法使用完整40小時記錄訓練相當的成果。
專為逐步推理訓練的大型語言模型(LLMs)常會產生過於冗長的輸出,導致推理成本增加。傳統的「可驗證獎勵強化學習」(RLVR)流程會過濾掉「簡單」問題以提升訓練效率,使模型主要針對需要更長推理鏈的難題進行訓練。這種做法會使輸出長度分佈向上偏移,導致模型將「思考更久」與「思考更好」混為一談。本研究證明,保留並適度加權中等難度問題可作為隱性的長度正則化器。讓模型接觸可解決的短鏈任務能約束其輸出分佈,防止冗長度失控。由此實現了**免費的湧現簡潔性**:即便沒有明確的長度懲罰機制,模型仍能學會在解決難題時不膨脹輸出長度。基於此方法在Qwen3-4B-Thinking-2507模型(16k token限制)上進行的RLVR實驗顯示,在保持基準pass@1 AIME25準確率的同時,生成解題方案的長度平均縮短近一半。程式碼已開源於https://github.com/MBZUAI-Paris/Frugal-AI{GitHub},資料集與模型發佈於https://huggingface.co/collections/MBZUAI-Paris/k2-think-mini-68dcfa8b114686a4bd3dc2bc{Hugging Face}。
大型多模态模型(LMMs)常因图像编码器引入的大量视觉标记而存在严重的推理效率问题。虽然近期提出的标记压缩方法(如剪枝与融合)在减少冗余性方面展现出潜力,但其评估体系仍存在碎片化与不一致的问题。本研究提出UniPruneBench——一个面向多模态大模型视觉标记剪枝的统一可扩展基准框架。该框架在六大能力维度和十大数据集上建立了标准化评估协议,涵盖十种代表性压缩算法及三大LMM家族(LLaVA-v1.5、Intern-VL3和Qwen2.5-VL)。除任务精度外,基准还纳入运行时间和预填充延迟等系统级指标,提供全景化评估视角。实验揭示若干关键发现:(1)随机剪枝作为基线方法表现出意料之外的强健性;(2)尚无单一方法能在所有场景中持续领先;(3)不同任务对剪枝的敏感度差异显著,其中OCR任务最易受影响;(4)剪枝比率是性能衰减的主导因素。我们相信UniPruneBench将为高效多模态建模的未来研究提供可靠基础。
当前针对编程能力的基准测试,主要评估语言模型在具体明确任务上的表现,例如修复特定错误或编写针对性测试。然而,人类程序员并非终日埋头处理孤立任务。现实中的软件开发始终围绕高层目标展开,如提升用户留存率或降低运营成本。如何评估语言模型能否在无明确指导的情况下,通过迭代开发逐步实现这类开放性目标,仍是待解难题。为此我们推出CodeClash基准测试框架:在该多轮竞技中,语言模型需通过锦标赛模式角逐最佳代码库,以达成竞争性目标。 每轮比赛包含两个阶段:智能体先编辑代码,随后其代码库将在竞技场中正面交锋,通过分数最大化、资源获取或生存竞争等目标判定胜负。无论是编写注释、研读文档、分析对战日志还是创建测试套件,模型必须自主决策如何从绝对实力和相对优势两个维度优化代码库。我们通过1680场锦标赛(总计25200轮)对8种语言模型在6类竞技场中进行评估。研究发现:尽管不同模型展现出多样化的开发风格,但均存在战略推理的根本性局限;随着代码库逐渐臃肿冗余,模型在长期维护方面也表现不佳。这些缺陷十分显著——顶尖模型在与人类编程专家的对战中全数落败。 我们开源CodeClash框架,以推动面向自主目标导向的代码开发研究。
大规模数据已推动机器人技术实现突破,从语言模型发展到双手操作中的视觉-语言-动作模型。然而仿人机器人领域仍缺乏同等高效的数据采集框架。现有仿人遥操作系统要么采用解耦控制,要么依赖昂贵的动作捕捉设备。我们推出TWIST2——一种便携、无需动作捕捉的仿人遥操作与数据采集系统,在保持全身完整控制的同时提升可扩展性。该系统利用PICO4U VR获取实时人体全身运动数据,并通过成本约250美元的定制二自由度机器人颈部实现以自我为中心的视觉感知,从而达成全方位的人体至仿人机器人控制。我们展示了仿人机器人执行长时序灵巧移动任务的能力,可在15分钟内采集100组演示数据且成功率接近100%。基于此技术路径,我们提出分层视觉运动策略框架,能够基于第一视角视觉自主控制仿人全身。我们的视觉运动策略成功实现了全身灵巧操控与动态踢球任务。整个系统完全可复现并已在https://yanjieze.com/TWIST2 开源,采集的数据集也发布于https://twist-data.github.io。
当前大语言模型(LLM)的评估范式存在重大研究盲区——依赖不透明的数值指标不仅掩盖了空间推理的根本局限,更无法提供对模型能力的直观认知。这种缺陷导致报告性能与实际应用能力间出现危险的脱节,在需要物理世界理解的应用场景中尤为明显。我们推出突破性基准测试LTD-Bench,通过要求模型通过点阵绘图或生成可执行代码的方式,将LLM评估从抽象分数转化为可直接观测的可视化输出。该方法使空间推理缺陷即使对非专业人士也一目了然,弥合了统计性能与直觉评估之间的本质鸿沟。LTD-Bench采用包含生成任务(测试空间想象力)与识别任务(评估空间感知力)的双轨方法论,在三个渐进难度层级上系统检验语言-空间映射的关键双向能力。我们通过对前沿模型的大规模实验发现惊人能力断层:即便在传统基准测试中表现优异的LLM,在建立语言与空间概念的双向映射时仍存在严重缺陷——这一根本局限削弱了其作为真实世界模型的潜力。此外,LTD-Bench的可视化输出支持强大的诊断分析,为探究模型相似性提供了新路径。
机器人控制算法的实机测试不可或缺。对于基于学习的算法,特别是视觉语言动作模型而言,大规模评估(即在大量任务上测试大量模型)的需求日益迫切。然而要实现可扩展且可复现的高质量评估绝非易事。本报告阐述了我们构建在线机器人控制算法评估系统RoboChallenge的方法论,以及通过初始基准测试集Table30对当前最先进VLA模型开展的调研成果。
大型语言模型(LLMs)在众多现实应用中展现出卓越能力。尽管基于实验视角的绝大多数研究进展迅速,但其需要消耗大量算力、数据及其他资源。因此,如何从理论层面揭开LLMs的黑箱机制已成为关键挑战。本文以率失真函数、定向信息与格兰杰因果关系的理论为起点,探究LLMs背后的信息论原理,进而构建以词元为基本单元(而非缺乏语义的比特)的LLM语义信息理论。通过定义LLMs的概率模型,我们讨论了结构无关的信息论度量方法,包括预训练中的定向率失真函数、后训练中的定向率奖励函数,以及推理阶段的语义信息流。本文还深入探讨了词元级语义嵌入理论及信息论最优向量化方法,进而提出自回归LLM的通用定义框架,从理论上推导出Transformer架构及其性能指标(如ELBO、泛化误差界、记忆容量和语义信息度量)。其他架构如Mamba/Mamba2和LLaDA也在本框架中得到讨论。由此,本文构建了从语义信息论视角理解LLMs的理论框架,为后续深入研究提供了必要的理论工具。
我们推出iFlyBot-VLA——一种基于创新框架训练的大规模视觉-语言-动作模型。主要贡献包括:(1)基于海量人类与机器人操作视频完整训练的潜在动作模型;(2)采用双层级动作表征框架,在训练过程中同时对视觉语言模型和动作专家进行联合监督;(3)融合机器人轨迹数据与通用问答、空间问答数据集的混合训练策略,有效增强了VLM骨干网络的3D感知与推理能力。具体而言,该模型通过预测两种互补动作形式进行训练:其一是源自跨具身操作数据预训练潜在动作模型的潜在动作,能捕捉隐含的高层意图;其二是通过对连续控制信号进行频域转换获得的结构化离散动作标记,可编码显式的底层动力学特征。这种双重监督机制实现了语言、视觉与动作表征空间的对齐,使VLM能直接参与动作生成。在LIBERO Franka基准测试中的实验结果表明我们框架的优越性,真实环境评估进一步显示iFlyBot-VLA在多样复杂操作任务中均达到领先的成功率。此外,我们计划开源部分自建数据集以支持学界后续研究。
大型语言模型在众多成熟推理基准测试中展现出强劲性能。然而这些基准主要评估定量问题求解等结构化技能,对衡量人类智能核心所需的灵活、多维度推理能力存在评估空白。此类能力要求整合逻辑演绎、空间感知与约束满足,而当前评估体系难以有效测度。为此,我们推出RiddleBench——一个包含1,737道英文谜题的基准测试集,旨在探测这些核心推理能力。在RiddleBench上对前沿模型的评估揭示了根本性缺陷:即便顶尖专有模型如Gemini 2.5 Pro、o3和Claude 4 Sonnet,其准确率也仅略超60%(分别为60.30%、63.37%和63.16%)。深度分析进一步暴露出模型存在幻觉级联(接受其他模型的错误推理)以及因强烈自我确认偏见导致的纠错能力低下等深层问题。其推理过程亦显脆弱,当约束条件重排或引入无关信息时,性能会出现显著退化。RiddleBench既可作为诊断这些问题的检测工具,也能为开发更稳健可靠的语言模型提供指引资源。
複雜圖表理解任務要求多模態大語言模型具備高級視覺識別與推理能力。然而現有研究對現實應用中普遍存在的複雜圖表場景及計算密集型推理任務覆蓋有限。本研究提出一種自動化多階段代碼驅動流程,通過系統化生成視覺推理數據集來解決這些局限性。該流程融合檢索增強生成技術以獲取專業圖表模板,並採用思維鏈策略生成模擬真實數據分佈的推理代碼,從而驅動圖表渲染及問題相關統計計算。通過基於模型的評估,該流程有效提升了圖表多樣性與數據質量。基於此框架,我們構建了ChartM³多維度多步驟數據集,包含3.8萬張圖表與14.2萬問答對用於訓練,以及2871個高質量評估樣本以實現實用性能評測。監督微調與強化學習實驗表明,我們的數據集顯著提升了模型推理能力與跨領域泛化性能,使較小模型在複雜圖表理解任務中能達到與大規模模型相當的表現。
近年来,随着视频大语言模型(VideoLLMs)的进步,从视频中理解和预测情绪的研究受到广泛关注。尽管先进方法在视频情绪分析方面已取得进展,但情绪固有的动态性和线索依赖性特征仍带来重大挑战——这些特性使得理解具有合理内在逻辑的复杂演化情绪状态变得困难。为此,我们提出一种新颖的情感线索引导推理框架,以分阶段方式统一基础属性感知、表情分析和高阶情绪理解。该方案的核心是一组专为情绪推理和指令跟随设计的视频情绪基础模型(VidEmo),这些模型经历两阶段调优:首先通过课程式情绪学习注入情绪知识,再采用情感树强化学习进行情绪推理。此外,我们构建了基础数据基础设施,并推出包含210万条多样化指令样本的情感中心细粒度数据集(Emo-CFG)。该数据集涵盖可解释的情感问答、细粒度描述及相关推理依据,为推进情绪理解任务提供了关键资源。实验结果表明,我们的方法在15项面部感知任务中均取得竞争优势,树立了新的里程碑。
本研究提出LiveSecBench——一个面向中文大语言模型应用场景的动态持续更新安全评测体系。该基准以中国法律与社会框架为根基,从合法性、伦理道德、事实准确性、隐私保护、抗对抗攻击能力及推理安全性六大关键维度对模型进行综合评价。通过动态更新机制,基准将持续纳入新型威胁向量(如下次更新计划增加的文生图安全性与智能体安全性),确保评测体系的时效性。目前LiveSecBench(v251030)已完成对18个大语言模型的评估,勾勒出中文语境下AI安全能力全景图。评测排行榜可通过https://livesecbench.intokentech.cn/ 公开访问。
随着阿尔茨海默病(AD)的全球负担持续加重,早期精准检测变得愈发关键——在先进诊断工具获取受限的地区尤其如此。我们提出BRAINS(基于生物医学检索增强智能的神经退行性疾病筛查系统)应对这一挑战。该创新系统利用大语言模型(LLMs)强大的推理能力进行阿尔茨海默病的检测与监测。BRAINS采用双模块架构:认知诊断模块与案例检索模块。诊断模块运用经认知及神经影像数据集(包括MMSE量表、CDR评分和脑容量指标)微调的LLMs,对阿尔茨海默病风险进行结构化评估。与此同时,案例检索模块将患者档案编码为潜在表征,并从经过筛选的知识库中检索相似病例。这些辅助案例通过案例融合层与输入档案进行整合,以增强上下文理解。最终结合临床提示词对融合后的表征进行推理分析。真实世界数据集上的评估表明,BRAINS在疾病严重程度分类和认知衰退早期迹象识别方面成效显著。该系统不仅展现出作为可扩展、可解释的早期阿尔茨海默病检测辅助工具的强劲潜力,更为该领域的未来应用带来希望。
当前的大型语言模型虽然在通用任务上表现出色,但在需要深厚文化、语言及专业知识的垂直领域始终表现欠佳。以阿育吠陀为代表的传统医学体系蕴含数百年来积淀的精细文本与临床知识,主流大语言模型难以准确解读或应用这些专业内容。我们推出AyurParam-2.9B——基于Param-1-2.9B微调的专业领域双语模型,其训练数据涵盖经专家严格编纂的阿育吠陀经典文献与临床指南。该数据集融合情境感知、推理思维及客观题型问答,包含英语与印地语双版本,并通过严谨标注机制确保事实准确性与指导明晰度。在BhashaBench-Ayur基准测试中,AyurParam不仅优于同参数规模(1.5-30亿)的所有开源指令微调模型,更在部分任务上超越参数量更大的模型。这一成果印证了专业领域适配与高质量监督数据对于构建可靠、文化适配的专业医学人工智能系统的重要性。
文本到图像(T2I)扩散模型在语义对齐方面已取得显著成效,但在生成符合提示词中指定数量的物体时仍存在困难。现有方法通常引入辅助计数网络作为外部评判器以增强数值理解能力。然而,由于这些评判器需在生成过程中提供梯度指导,其只能采用本身可微分的回归模型,从而排除了具有更强计数能力但基于枚举计数原理而不可微分的检测器模型。为突破此限制,我们提出检测器可微分化框架(D2D),通过将不可微分的检测模型转化为可微分评判器,有效利用其卓越的计数能力来指导数值生成。具体而言,我们设计定制化激活函数将检测器逻辑值转换为软二元指示器,进而结合预训练T2I模型在推理阶段优化噪声先验。基于SDXL-Turbo、SD-Turbo和Pixart-DMD模型在四个不同复杂度基准测试(涵盖低密度、高密度及多物体场景)上的广泛实验表明,该方法能持续显著提升物体计数准确率(例如在包含400条提示词的低密度基准D2D-Small上最高提升13.7%),且图像整体质量与计算开销仅略有影响。
在現實世界的數據分析中,對錶格式數據進行複雜推理至關重要,然而大型語言模型在處理複雜查詢、噪聲數據和有限數值計算能力時往往表現不佳。爲解決這些問題,我們提出\method框架,該框架包含三個核心組件:(1)用於分解複雜問題的查詢解析器;(2)用於清理和過濾噪聲表格的數據淨化器;(3)基於程序思維(PoT)的推理器,可生成可執行代碼從淨化後的表格中推導最終答案。爲確保無偏評估並防範數據泄露,我們專門針對表格複雜數值推理任務構建了新數據集CalTab151。實驗結果表明,\method在TAT-QA、TableBench和\method數據集上分別實現了8.79%、6.08%和19.87%的準確率提升,持續優於現有方法並達到最先進水平。此外,本框架可與主流大型語言模型無縫集成,爲複雜表格數值推理提供穩健解決方案。這些發現凸顯了我們框架在增強大型語言模型處理複雜表格數值推理任務方面的有效性。數據與代碼將根據需求提供。
近年来,深度与自身运动这两个基础三维感知任务的無监督学习取得了显著进展。然而多数方法将自身运动视为辅助任务,要么混合所有运动类型,要么在监督中排除与深度无关的旋转运动。此类设计限制了强几何约束的引入,降低了多变条件下的可靠性与鲁棒性。本研究提出对运动成分的判别式处理,利用其各自刚性光流的几何规律性来提升深度与自身运动估计性能。给定连续视频帧,网络输出首先对齐源相机与目标相机的光轴和成像平面。通过这些对齐变换将帧间光流进行转换,并通过量化偏差对每个自身运动分量单独施加几何约束,从而实现更具针对性的优化。这些对齐操作进一步将联合学习过程重构为共轴与共面形式,通过闭式几何关系实现深度与各平移分量的相互推导,引入互补约束以提升深度鲁棒性。融入这些设计的通用型深度-自身运动联合学习框架DiMoDE,在多个公开数据集及新采集的多样化真实场景数据集上实现了最先进性能,尤其在挑战性环境下表现突出。我们的源代码将在论文发表后公开于mias.group/DiMoDE。
近期研究表明,直接偏好優化(DPO)作為一種無需獎勵函數的高效方法,能有效提升影片生成品質。然而現有方法大多沿用圖像領域的範式,且主要基於小規模模型(約20億參數)開發,難以應對影片任務特有的三大挑戰:高昂的資料建置成本、訓練不穩定性及巨大記憶體消耗。為突破這些限制,我們提出GT-Pair自動化建置高品質偏好對,以真實影片作為正樣本、模型生成影片作為負樣本,無需任何外部標註。我們進一步提出Reg-DPO,將監督式微調(SFT)損失作為正則化項融入DPO目標函數,顯著提升訓練穩定性與生成保真度。此外,通過結合完全分片資料並行(FSDP)框架與多重記憶體優化技術,我們的訓練容量較單獨使用FSDP提升近三倍。在多重資料集的圖生影片(I2V)與文生影片(T2V)任務實驗表明,本方法持續優於現有方案,呈現更卓越的影片生成品質。