每日精选AI研究论文及翻译
在智能体时代,代码已成为一种精确且可执行的推理与行动媒介。然而当前进展主要集中于程序合成与调试等以语言为中心的任务,视觉导向的编程领域仍待深入探索。受人类通过草图进行推理的启发,我们提出将SVG代码作为紧凑、可解释且可执行的视觉表征。我们推出VCode基准测试,将多模态理解重新定义为代码生成任务:给定图像,模型需生成能保留符号意义以供下游推理的SVG代码。VCode涵盖三大领域——通用常识(MM-Vet)、专业学科(MMMU)及视觉导向感知(CV-Bench)。为评估符号保真度,我们提出CodeVQA创新评估协议:通过策略模型对渲染后的SVG进行问答,正确答案表明符号得到了忠实保留。实验表明,前沿视觉语言模型在生成精确SVG时仍存在困难,暴露出语言导向与视觉导向编程之间的显著差距。为弥合这一差距,我们推出VCoder智能体框架,从两个维度增强视觉语言模型:(i)修订式思考,通过迭代分析差异并优化SVG代码;(ii)视觉工具协同,借助检测器和解析器提供模型固有能力之外的物体、形状和文本等结构化线索。在各项基准测试中,具有强推理能力的前沿模型总体表现良好,但在专业知识和三维推理方面仍有局限。VCoder相较性能最优的Claude-4-Opus实现了12.3分的综合提升。人类研究表明,人类与模型在渲染SVG上的表现均有所下降,但二者的一致性揭示了符号化视觉表征的潜力。基准测试与代码已开源:https://github.com/CSU-JPG/VCode。
视觉-语言-动作(VLA)模型日益成功的核心在于:经过预训练的视觉-语言模型(VLM)能为智能体提供可迁移的世界知识与视觉-语言(VL) grounding 能力,为具有更广泛泛化能力的动作模型奠定基础。然而当这些VLM被适配到动作模态时,其原有的视觉-语言表征与知识能在多大程度上得以保留仍不明确。本文通过系统研究VLA微调过程中的表征保持性,发现简单的动作微调会导致视觉表征的退化。为量化分析这一现象,我们探测了VLA模型的隐藏表征并解析注意力图谱,进而设计了一套针对性任务与方法,通过对比VLA模型与其对应VLM的表现,分离出动作微调对VL能力的影响。我们还评估了多种视觉表征对齐策略,提出一种简单有效的方法来缓解表征退化问题,并显著提升模型在分布外(OOD)场景的泛化能力。综合而言,本研究阐明了动作微调与VL表征退化之间的权衡关系,并提出了恢复继承性VL能力的实用方案。代码已开源:https://blind-vla-paper.github.io
我们提出MIRA这一新基准,旨在评估需要生成中间视觉图像以完成推理任务的场景。与传统仅依赖文本的思维链方法不同,MIRA中的任务要求模型生成并利用草图、结构图或路径图等中间图像来引导推理过程,这种设置高度模拟了人类通过"绘图思考"解决复杂问题的方式。该基准专注于本质上具有挑战性、涉及复杂结构、空间关系或难以仅用语言表达的推理步骤的任务。为确保评估数据的高质量,我们收录了546个多模态问题,并标注了中间视觉图像与最终答案。 我们还为MIRA设计了统一的三级评估输入协议:仅含图像和问题的直接输入、附带图像与思维提示的纯文本思维链输入、同时包含标注图像线索与文本思维提示的视觉思维链输入。为探究模型在基准上的性能上限,我们报告了不同k值设置下的pass@k准确率和多数投票准确率。实验结果表明,现有多模态大语言模型(包括最强私有模型和优秀开源模型)在仅使用文本提示时表现不佳,但当提供中间视觉线索后,模型性能均实现稳定提升,所有模型和任务平均相对增益达33.7%。通过扩展搜索空间和设计对齐视觉思维链的文本提示来探索性能上限时,这两种方法相较我们的视觉思维链设置仅能带来有限改进。这些发现凸显了想象视觉信息对于在MIRA基准上实现成功推理的关键作用。
我们推出Step-Audio-EditX——首个基于开源大语言模型的音频系统,在实现情感、说话风格及副语言特征等表达性迭代编辑的同时,兼具强大的零样本文本转语音能力。我们的核心创新在于仅利用大间隔合成数据进行训练,无需依赖基于嵌入的先验知识或辅助模块。这种大间隔学习方法既支持对声音的迭代控制,又能实现高表现力,标志着从传统表征级解耦研究范式的根本性转变。评估结果表明,Step-Audio-EditX在情感编辑等细粒度控制任务上均优于MiniMax-2.6-hd与Doubao-Seed-TTS-2.0系统。
多模态大语言模型(MLLMs)在处理不同模态提供矛盾信息时必须解决冲突,这一过程我们称为模态追随。现有研究仅通过粗糙的数据集级统计量衡量该行为,忽略了模型在单模态推理中置信度的影响。本文提出新框架,将模态追随分解为两个基本要素:相对推理不确定性(单模态预测间针对具体案例的置信度差距)和固有模态偏好(不确定性平衡时模型的稳定偏向)。为验证框架,我们构建了可调控数据集,系统性地改变视觉与文本输入的推理难度。通过以熵作为细粒度不确定性度量,我们发现普遍规律:模型追随某一模态的概率随其相对不确定性的增加而单调递减。当模型以相近概率追随双模态的相对难度水平——即平衡点时,该指标可实际反映模型的固有偏好。与传统宏观比率不同,这种度量提供了更原理化、更少混杂的模态偏向表征方式,使其与单模态能力及数据集伪影解耦。进一步通过逐层预测探测,我们揭示了振荡的内部机制:在平衡点附近的模糊区域,模型会在不同层级间摇摆于双模态之间,这解释了外部观察到的犹豫现象。这些发现共同确立了相对不确定性与固有偏好作为模态追随的两大支配原则,为理解MLLMs如何解决冲突信息提供了量化框架与机制性见解。
人工智能的发展轨迹表明,我们将日益依赖基于智能体的系统,这些系统由具有不同信息、权限和工具的独立开发智能体构成。此类系统的成功关键取决于这些异构智能体在部分可观测条件下的有效协作能力。尽管业界兴趣浓厚,但鲜有实证研究大规模评估此类智能体间协作。我们提出一个协作式迷宫求解基准测试框架,其具备以下特点:(i) 隔离协作能力评估;(ii)可调节问题复杂度;(iii)支持可扩展的自动化评分;(iv)不设输出格式限制,保持生态合理性。基于该框架,我们对32个领先的开源与闭源模型进行了单智能体、同构配对和异构配对测试。研究结果揭示了"协作鸿沟"现象:单机表现优异的模型在需要协作时性能往往大幅下降。协作崩溃可能极为严重——例如某些单机迷宫求解能力强的小型蒸馏模型,在特定配对中几乎完全失效。我们发现由较强智能体启动协作往往能改善结果,这启发了"接力推理"方法:强智能体先行引导再移交弱智能体,从而显著缩小协作鸿沟。我们的研究主张:(1)建立协作感知的评估体系;(2)开发增强协作能力的训练策略;(3)设计能可靠激发智能体潜在技能的交互机制,这些指导原则同时适用于AI-AI协作与人机协作场景。
基于fMRI脑记录重建人眼所见图像,为研究人脑提供了非侵入式观察窗口。尽管扩散模型推动了该领域进展,但现有方法常缺乏对真实所见图像的忠实还原。我们提出"Brain-IT"这一仿脑方法,通过脑交互Transformer(BIT)实现功能相似脑体素簇间的有效交互,从而解决这一难题。这些功能簇为所有受试者所共有,可作为大脑内部及跨脑信息整合的基础模块。所有模型组件均被各簇群和受试者共享,使得有限数据下的高效训练成为可能。为引导图像重建,BIT预测两种互补的局部块级图像特征:(1)高层语义特征,引导扩散模型生成正确的图像语义内容;(2)低层结构特征,帮助扩散过程以正确的图像粗粒度布局初始化。BIT的设计实现了从脑体素簇到局部图像特征的直接信息流动。基于这些原理,我们的方法通过fMRI实现了对所见图像的忠实重建,在视觉表现和客观指标上均超越当前最优方法。此外,仅需新受试者1小时的fMRI数据,我们就能达到与现有方法使用40小时完整数据训练相当的效果。
针对逐步推理训练的大语言模型常因过度冗长而增加推理成本。基于可验证奖励的标准强化学习流程会过滤"简单"问题以提升训练效率,导致模型主要在需要长推理链的难题上训练。这会扭曲输出长度分布,使模型混淆"更长思考"与"更好思考"。本研究表明,保留并适度加权中等难度问题可形成隐式长度正则化。让模型接触可解决的短链任务能约束其输出分布,防止冗长失控。由此实现无需显式长度惩罚的"免费简洁性":模型在解决难题时不膨胀输出长度。基于Qwen3-4B-Thinking-2507(16k令牌限制)的RLVR实验显示,该方法在保持基准pass@1 AIME25精度的同时,生成方案平均缩短近半。代码详见https://github.com/MBZUAI-Paris/Frugal-AI,数据集与模型发布于https://huggingface.co/collections/MBZUAI-Paris/k2-think-mini-68dcfa8b114686a4bd3dc2bc。
大型多模态模型(LMMs)常因图像编码器产生的大量视觉标记而面临严重的推理效率问题。尽管近期出现的剪枝与融合等标记压缩方法在减少冗余方面展现出潜力,但其评估体系仍存在碎片化与不一致的问题。本研究提出UniPruneBench——一个面向多模态大模型视觉标记剪枝的统一可扩展基准框架。该框架在六大能力维度和十大数据集上建立标准化评估协议,涵盖十种代表性压缩算法及三大LMM家族(LLaVA-v1.5、Intern-VL3和Qwen2.5-VL)。除任务精度外,该基准还引入运行时间和预填充延迟等系统级指标,以提供全景视角。实验揭示若干关键发现:(1)随机剪枝作为基线方法表现出惊人强度;(2)尚无单一方法能在所有场景中持续领先;(3)不同任务对剪枝的敏感度差异显著,其中OCR最易受影响;(4)剪枝比率是性能衰减的主导因素。我们相信UniPruneBench将为高效多模态建模的未来研究提供可靠基础。
当前针对编程能力的基准测试主要评估语言模型在具体、明确任务上的表现,例如修复特定错误或编写针对性测试。然而,人类程序员并非终日埋头处理孤立任务。现实中的软件开发始终围绕高层次目标展开,如提升用户留存率或降低运营成本。如何评估语言模型能否在无明确指引的情况下,通过迭代开发逐步优化代码以实现开放性目标,仍是待解难题。为此,我们推出CodeClash基准测试框架:在该多轮竞技中,语言模型需通过锦标赛模式构建最能实现竞争性目标的代码库。每轮比赛分为两个阶段——智能体编辑代码后,其代码库将在竞技场中正面交锋,通过分数最大化、资源获取或生存时长等目标决出胜负。无论是编写注释、研读文档、分析对战日志还是创建测试套件,模型必须自主决策如何从绝对水平和相对优势两个维度优化代码库。我们通过1680场锦标赛(总计25200轮)对8种语言模型在6类竞技场中进行评估。结果表明:尽管模型展现出多样化的开发风格,但在战略推理方面存在共性缺陷;随着代码库逐渐冗杂,模型在长期维护方面也表现不佳。这些局限十分显著——顶尖模型在与人类编程专家的对决中全盘皆输。我们开源CodeClash框架,以推动面向自主化、目标导向的代码开发研究。
大规模数据已推动机器人技术实现突破,从语言模型发展到双手操作中的视觉-语言-动作模型。然而仿人机器人领域仍缺乏同等高效的数据采集框架。现有仿人遥操作系统要么采用解耦控制,要么依赖昂贵的动作捕捉设备。我们推出TWIST2——一种便携、无需动作捕捉的仿人遥操作与数据采集系统,在保持全身协同控制的同时提升可扩展性。该系统利用PICO4U VR获取实时人体全身运动数据,通过自研的2自由度机器人颈部装置(成本约250美元)实现以自我为中心的视觉感知,从而完成从人类到仿人机器人的整体控制。我们展示了机器人执行长周期灵巧移动任务的能力,可在15分钟内采集100组演示数据且成功率接近100%。基于此技术路径,我们提出分层视觉运动策略框架,能够基于第一视角视觉自主控制仿人机器人全身。该策略成功完成了全身灵巧操控与动态踢球等任务。整个系统具完全可复现性,已在https://yanjieze.com/TWIST2 开源,采集的数据集亦公开于https://twist-data.github.io 。
当前大语言模型(LLM)的评估范式存在研究盲区——依赖不透明的数值指标掩盖了空间推理的根本缺陷,且无法直观呈现模型能力。这种缺陷导致报告性能与实际应用能力间出现危险脱节,尤其在需要物理世界认知的场景下。我们推出突破性基准测试LTD-Bench,通过要求模型在点阵上生成绘图或可执行代码,将LLM评估从抽象分数转化为可直接观测的可视化输出。该方法使空间推理缺陷即使对非专业人士也一目了然,弥合了统计性能与直觉评估间的本质鸿沟。LTD-Bench采用包含生成任务(测试空间想象)与识别任务(评估空间感知)的完整方法论,在三个渐进难度层级上系统检验语言-空间映射的关键双向能力。我们对顶尖模型的大规模实验揭示了惊人缺陷:即便在传统基准中表现优异的LLM,在建立语言与空间概念双向映射时仍存在深层不足——这一根本局限削弱了其作为真实世界模型的潜力。此外,LTD-Bench的可视化输出支持强大的诊断分析,为探究模型相似性提供了新路径。
机器人控制算法的真实机器测试不可或缺。对于基于学习的算法,特别是视觉语言动作模型而言,大规模评估(即在大量任务上测试大量模型)的需求日益迫切。然而要实现可靠评估并非易事,尤其在考虑可扩展性和可复现性时。本报告阐述了构建RoboChallenge在线评估系统的方法论,该系统用于测试机器人控制算法,同时通过我们初步构建的Table30基准对当前最先进的VLA模型进行了调研分析。
大型语言模型(LLMs)在众多现实应用中展现出卓越能力。尽管基于实验视角的研究正飞速推进,但其需要消耗大量算力、数据及其他资源。因此,如何从理论层面揭开LLMs的黑箱已成为关键挑战。本文以率失真函数、有向信息与格兰杰因果理论为出发点,探究LLMs背后的信息论原理,进而构建以语义单元——词元(token)为核心的LLM语义信息理论体系,替代缺乏语义意义的比特单位。通过定义LLMs的概率模型,我们讨论了结构无关的信息论度量方法,包括预训练中的有向率失真函数、后训练中的有向率奖励函数,以及推理阶段的语义信息流。本文还深入探讨了词元级语义嵌入理论及信息论最优向量化方法。在此基础上,我们提出自回归LLM的通用定义,可理论推导Transformer架构及其性能指标(如ELBO、泛化误差界、记忆容量与语义信息度量),并在本框架下讨论了Mamba/Mamba2、LLaDA等其他架构。由此,本文构建了从语义信息论视角理解LLMs的理论框架,为后续深入研究提供了必要的理论工具。
我们推出iFlyBot-VLA——一个基于创新框架训练的大规模视觉-语言-动作模型。主要贡献包括:(1)基于海量人类与机器人操作视频完整训练的潜在动作模型;(2)在训练过程中同时对视觉语言模型和动作专家进行联合监督的双层级动作表征框架;(3)融合机器人轨迹数据与通用问答、空间问答数据集的混合训练策略,有效增强了VLM骨干网络的3D感知与推理能力。具体而言,该VLM被训练用于预测两种互补的动作形式:源自跨本体操作数据预训练的潜在动作模型所推导的潜在动作(捕捉隐含的高层意图),以及通过对连续控制信号进行频域变换获得的结构化离散动作标记(编码显式的底层动力学)。这种双重监督机制实现了语言、视觉与动作表征空间的对齐,使VLM能直接参与动作生成。在LIBERO Franka基准测试中的实验结果表明我们框架的优越性,真实场景评估进一步显示iFlyBot-VLA在多样化的复杂操作任务中均达到具有竞争力的成功率。此外,我们计划开源部分自建数据集以支持学界后续研究。
大型语言模型在众多成熟推理基准测试中展现出强劲性能。然而这些基准主要评估定量问题求解等结构化技能,对衡量人类智能核心的灵活多维度推理能力存在空白。这类能力需要将逻辑推理与空间感知、约束满足进行整合,而现有评估体系难以有效测评。为此,我们推出RiddleBench——一个包含1,737道英文挑战性谜题的基准测试集,旨在探究这些核心推理能力。当前顶尖模型在RiddleBench上的评估结果暴露出根本性缺陷:即便是Gemini 2.5 Pro、o3和Claude 4 Sonnet等顶级专有模型,准确率也仅略超60%(分别为60.30%、63.37%和63.16%)。深度分析进一步揭示了系统性故障,包括幻觉级联(采信其他模型的错误推理)以及因强烈自我确认偏见导致的纠错能力薄弱。这些模型的推理过程亦显脆弱,当约束条件重排或引入无关信息时,性能会出现显著下滑。RiddleBench既可作为诊断这些问题的检测工具,也能为开发更稳健可靠的语言模型提供指导资源。
复杂图表理解任务要求多模态大语言模型具备高级视觉识别与推理能力。然而当前研究对现实应用中普遍存在的复杂图表场景及计算密集型推理任务的覆盖范围有限。本研究提出一种自动化多阶段代码驱动流程,通过系统化生成视觉推理数据集以解决这些局限性。该流程集成检索增强生成技术获取专业图表模板,并采用思维链策略生成模拟真实数据分布的推理代码,从而驱动图表渲染及问题相关的统计计算。基于模型的评估表明,该流程有效提升了图表多样性与数据质量。基于此框架,我们构建了ChartM³多维多步数据集——包含3.8万张图表和14.2万组问答对用于训练,同时提供2871个高质量评估样本以实现实用性能评估。监督微调与强化学习实验证明,我们的数据集显著提升了模型推理能力与跨领域泛化性能,使较小规模模型在复杂图表理解任务中达到与更大规模模型相媲美的表现。
近年来,随着视频大语言模型(VideoLLMs)的快速发展,基于视频的情感理解与预测研究受到广泛关注。尽管先进方法在视频情感分析领域取得进展,但情感固有的动态性和线索依赖性特征仍带来巨大挑战——这些特性使得理解复杂演化的情绪状态及其合理成因变得困难。为此,我们提出一种新颖的情感线索引导推理框架,以分阶段方式统一基础属性感知、表情分析和高阶情感理解。该方案的核心是一组专为情感推理和指令跟随设计的视频情感基础模型(VidEmo),其训练采用两阶段调优策略:首先通过课程式情感学习注入情感知识,继而采用情感树强化学习进行情感推理。此外,我们构建了基础数据基础设施,并推出包含210万条多样化指令样本的情感中心细粒度数据集(Emo-CFG)。该数据集涵盖可解释的情感问答、细粒度描述及相关推理依据,为推进情感理解任务提供了关键资源。实验结果表明,我们的方法在15项面部感知任务中均取得竞争优势,树立了新的里程碑。
本研究提出LiveSecBench——一个面向中文大模型应用场景的动态持续更新安全基准。该基准立足中国法律与社会框架,从合法性、伦理合规性、事实准确性、隐私保护、抗对抗攻击能力及推理安全性六大核心维度对模型进行评估。通过动态更新机制,本基准将持续纳入新型威胁向量(如下一版本计划增加的文图生成安全性与智能体安全性),确保评估体系的时效性。目前LiveSecBench(v251030)已完成对18个大模型的评估,勾勒出中文语境下AI安全能力全景图。评估排行榜已公开于https://livesecbench.intokentech.cn/。
随着阿尔茨海默病(AD)全球负担持续加重,早期精准检测变得尤为关键——在先进诊断工具稀缺地区更是如此。为此,我们提出BRAINS(基于生物医学检索增强智能的神经退行性疾病筛查系统)应对这一挑战。该创新系统利用大语言模型(LLMs)强大的推理能力实现阿尔茨海默病的检测与监测。 BRAINS采用双模块架构:认知诊断模块与病例检索模块。诊断模块运用经认知评估和神经影像数据集(包括MMSE量表、CDR评分及脑容量指标)微调的LLMs,对阿尔茨海默病风险进行结构化评估。病例检索模块则将患者档案编码为潜在表征,并从精编知识库中检索相似病例。这些辅助病例通过病例融合层与输入档案进行整合,以增强上下文理解。最终,融合后的表征结合临床提示词进行推理分析。 真实世界数据集上的评估表明,BRAINS在疾病严重程度分类和认知衰退早期迹象识别方面成效显著。该系统不仅展现出作为可扩展、可解释的早期阿尔茨海默病检测辅助工具的巨大潜力,更为该领域的未来应用带来希望。
当前的大语言模型在通用任务上表现卓越,但在需要深厚文化、语言及专业知识的垂直领域始终存在性能短板。以阿育吠陀为代表的传统医学体系蕴含数百年来精微的文本与临床知识,主流大语言模型难以准确解读或应用这些专业内容。我们推出AyurParam-2.9B——基于Param-1-2.9B微调的专业领域双语模型,其训练数据覆盖阿育吠陀经典典籍与临床指导的大规模专家标注数据集。该数据集融合语境感知、推理思维及客观题型问答(含英语与印地语双版本),并通过严谨的标注流程确保事实精确性与指导清晰度。在BhashaBench-Ayur基准测试中,AyurParam不仅优于同参数规模(1.5-30亿)的所有开源指令微调模型,更在多项指标上超越参数量更大的模型。这一成果印证了专业领域人工智能实现可靠性与文化适配性必需的两个核心要素:真正的领域适应与高质量监督机制。
文本到图像(T2I)扩散模型在语义对齐方面已展现出强大性能,但在生成符合提示词中指定数量的物体时仍存在困难。现有方法通常引入辅助计数网络作为外部评判器以提升数值感知能力。然而,由于这些评判器需在生成过程中提供梯度指导,其只能采用本身可微分的回归模型,从而排除了具备更强计数能力但基于枚举计数原理而不可微分的检测器模型。为突破这一局限,我们提出Detector-to-Differentiable(D2D)框架,将不可微分的检测模型转化为可微分评判器,借此利用其卓越的计数能力指导数值感知生成。具体而言,我们设计定制化激活函数将检测器逻辑值转换为软性二元指示符,进而结合预训练T2I模型在推理阶段优化噪声先验。通过在SDXL-Turbo、SD-Turbo和Pixart-DMD模型上对四个不同复杂度基准(低密度、高密度及多物体场景)开展广泛实验,我们的方法在物体计数准确率上实现持续显著提升(如在400条提示词的低密度基准D2D-Small上最高提升13.7%),同时图像整体质量与计算开销仅出现轻微下降。
针对现实数据分析中表格数据复杂推理的重要性,大型语言模型常因复杂查询、数据噪声及数值处理能力不足而表现不佳。为此,我们提出\method框架,其包含三大组件:(1)用于分解复杂问题的查询解析器;(2)清洗过滤噪声表格的数据净化器;(3)基于程序化思维(PoT)的推理器,通过生成可执行代码从净化表格中推导最终答案。为确保无偏评估并避免数据泄露,我们专门设计了面向表格复杂数值推理的新数据集CalTab151。实验结果表明,\method在TAT-QA、TableBench和\method数据集上分别以8.79%、6.08%和19.87%的准确率提升持续超越现有方法,达到最优性能。该框架可无缝集成主流大型语言模型,为复杂表格数值推理提供稳健解决方案。这些发现凸显了本框架在提升大型语言模型表格数值推理能力方面的有效性。数据与代码将按需提供。
近年来,深度与自身运动这两个基础三维感知任务的无监督学习取得了显著进展。然而多数方法将自身运动视为辅助任务,要么混合所有运动类型,要么在监督中排除与深度无关的旋转运动。此类设计限制了强几何约束的引入,降低了多场景下的可靠性与鲁棒性。本研究提出对运动分量进行区分性处理,利用其各自刚性光流的几何规律性来协同提升深度与自身运动估计效果。给定连续视频帧,网络输出首先对齐源相机与目标相机的光轴和成像平面。通过这种对齐变换帧间光流,并量化偏差以分别对每个自身运动分量施加几何约束,从而实现更具针对性的优化。这种对齐机制进一步将联合学习过程重构为共轴与共面形式,通过闭式几何关系实现深度与各平移分量的相互推导,引入互补约束以提升深度鲁棒性。融合这些设计的通用深度-自身运动联合学习框架DiMoDE,在多个公开数据集及新采集的多样化真实场景数据集上实现了最优性能,尤其在挑战性场景下表现突出。相关源代码将于论文发表后公开于mias.group/DiMoDE。
近期研究表明,直接偏好优化(DPO)是一种无需奖励函数即可有效提升视频生成质量的方法。然而现有方法大多沿袭图像领域的范式,且主要基于小规模模型(约20亿参数)开发,难以应对视频任务特有的挑战:高昂的数据构建成本、训练不稳定性及巨大内存消耗。为突破这些限制,我们提出GT-Pair方法,通过将真实视频作为正样本、模型生成视频作为负样本,自动构建高质量偏好对,无需任何外部标注。进一步提出Reg-DPO算法,将SFT损失作为正则化项融入DPO目标函数,有效增强训练稳定性和生成保真度。结合FSDP框架与多重内存优化技术,我们的方法实现了相较单独使用FSDP近三倍的训练容量提升。在多个数据集的图文生成视频和文本生成视频任务上的大量实验表明,本方法持续超越现有方案,展现出卓越的视频生成质量。