每日精选AI研究论文及翻译
我们提出Wan-Move——一个简洁可扩展的框架,旨在为视频生成模型赋予运动控制能力。现有运动可控方法通常存在控制粒度粗糙与可扩展性有限的问题,导致其输出难以满足实际应用需求。我们通过实现精准高质量的运动控制来缩小这一差距。核心思路是直接让原始条件特征具备运动感知能力以指导视频合成。具体而言,我们首先通过密集点轨迹表征物体运动,实现对场景的细粒度控制;接着将这些轨迹映射至隐空间,并沿每条轨迹传播首帧特征,生成对齐的时空特征图以指示各场景元素的运动规律。该特征图作为更新后的隐式条件,可无缝集成至现成的图生视频模型(如Wan-I2V-14B)作为运动引导,无需改变模型架构。这一设计摒弃了辅助运动编码器,使基础模型的微调具备良好可扩展性。经规模化训练,Wan-Move生成的5秒480p视频在运动可控性上媲美Kling 1.5 Pro的商业版运动笔刷功能(用户研究证实)。为支持全面评估,我们进一步构建了MoveBench基准测试集,其通过严格筛选涵盖多样内容类别与混合验证标注,具有数据量更大、视频时长更长、运动标注质量更优的特点。在MoveBench和公开数据集上的大量实验一致表明Wan-Move具备卓越的运动质量。代码、模型及基准数据均已开源。
神经渲染技术,特别是3D高斯泼溅(3DGS)方法,正快速发展并成为构建世界模型的核心组件。然而,现有查看器解决方案仍存在碎片化、笨重或受传统管线限制等问题,导致部署门槛高且对动态内容与生成模型的支持有限。本文提出Visionary——一个开放、基于网页原生技术的实时高斯泼溅与网格渲染平台。该平台基于高效的WebGPU渲染器构建,支持逐帧ONNX推理,在保持轻量化“点击即用”浏览器体验的同时实现动态神经处理。我们引入了标准化高斯生成器合约,不仅支持标准3DGS渲染,还允许即插即用算法逐帧生成或更新高斯单元。这种推理机制还能实现前馈生成式后处理。平台进一步提供three.js插件库,通过简洁的TypeScript API可无缝集成至现有网页应用。实验表明,在相同3DGS资源下,基于GPU图元排序的Visionary相较现有网页查看器具有更优的渲染效率。目前平台已支持多种变体,包括基于MLP的3DGS、4DGS、神经化身以及风格转换/增强网络。通过将推理与渲染直接统一在浏览器中,Visionary显著降低了3DGS系列方法的复现、比较与部署门槛,成为重建与生成双范式的统一世界模型载体。
视频人脸替换技术在影视娱乐制作中具有关键作用,然而在长时序复杂视频中实现高保真度与时间一致性仍是一项重大挑战。受近期参考引导图像编辑进展的启发,我们探索是否能够类似地利用源视频中丰富的视觉属性来增强视频人脸替换的保真度与时间连贯性。基于这一洞见,本研究提出了首个视频参考引导的人脸替换模型LivingSwap。该方法采用关键帧作为条件信号来注入目标身份特征,实现灵活可控的编辑。通过将关键帧条件化与视频参考引导相结合,模型执行时序拼接以确保长视频序列中稳定的身份保持和高保真重建。针对参考引导训练数据稀缺的问题,我们构建了配对人脸替换数据集Face2Face,并通过数据对反转确保可靠的基准真值监督。大量实验表明,我们的方法实现了最先进的效果,将目标身份与源视频的表情、光照和运动无缝融合,同时显著减少了制作流程中的人工干预。项目页面:https://aim-uofa.github.io/LivingSwap
现实世界视频中的叙事通常通过多个镜头展开——这些镜头虽不连续但语义相连,共同构建出连贯的故事线。然而,现有多镜头视频生成方法因依赖有限时间窗口或单关键帧条件约束,难以有效建模长程跨镜头上下文,导致复杂叙事场景下性能下降。本文提出OneStory,通过全局且紧凑的跨镜头上下文建模实现连贯可扩展的叙事生成。该方法将多镜头视频生成重新定义为下一镜头生成任务,在利用预训练图像转视频模型实现强视觉条件约束的同时,支持自回归式镜头合成。我们引入两个核心模块:基于历史镜头信息帧构建语义相关全局记忆的帧选择模块,以及执行重要性引导分块化以生成紧凑上下文进行直接条件控制的自适应调节器。此外,我们策划了包含指称性标注的高质量多镜头数据集以反映真实叙事模式,并在下一镜头范式下设计了有效训练策略。通过在自建6万规模数据集上对预训练图像转视频模型进行微调,OneStory在文本和图像条件设置下均能实现跨多样复杂场景的最优叙事连贯性,赋能可控且沉浸式的长视频叙事生成。
通过扩展推理时计算量,大型语言模型(LLM)已能实现强大的推理性能,但固有的串行解码机制会导致显著延迟,尤其在处理复杂任务时。近期自适应并行推理研究致力于通过将解题过程分解为并发推理线程来提升推理效率,然而现有方法在现实任务中要么仅限于监督行为克隆,要么相比广泛使用的串行长思维链(CoT)基线存在显著精度损失。此外,多数方案需定制推理引擎,增加了部署复杂度。我们提出ThreadWeaver自适应并行推理框架,在保持与同规模主流串行推理模型相当精度的同时,显著降低推理延迟。该框架的性能源于三大创新:1)两阶段并行轨迹生成器,可产出带并行标注的大规模高质量CoT数据用于监督微调;2)基于字典树(trie)的训练-推理协同设计,无需修改位置编码或KV缓存即可在任意现成自回归推理引擎上实现并行推理;3)并行感知强化学习框架,指导模型在精度与并行效率间取得平衡。在六项高难度数学推理基准测试中,基于Qwen3-8B训练的ThreadWeaver达到与前沿串行推理模型相当的精度(平均71.9%,AIME24达79.9%),同时词元延迟平均加速1.53倍,在精度与效率间确立了新的帕累托前沿。
视频实例分割(VIS)面临显著的标注挑战,因其需要同时满足像素级掩码和时序一致性标注的要求。尽管近期如VideoCutLER等无监督方法通过合成数据消除了对光流的依赖,但仍受限于合成数据与真实场景之间的领域差异。我们提出AutoQ-VIS——一种通过质量引导自训练来弥合这一差异的新型无监督框架。该方法在伪标签生成与自动质量评估之间建立闭环系统,实现从合成视频到真实视频的渐进式适应。实验表明,在YouTubeVIS-2019验证集上取得了52.6 AP_{50}的顶尖性能,较之前最优的VideoCutLER提升4.4%,且无需人工标注。这证明了质量感知自训练在无监督VIS中的可行性。代码将在https://github.com/wcbup/AutoQ-VIS发布。
当代大型语言模型通过长链思维展现出卓越的推理能力,但其推理过程会产生巨额计算成本,这推动了对性能成本比优化技术的探索。其中,推测解码技术通过采用快速但不精确的草稿模型自回归地生成候选标记,再由更强目标模型并行验证,从而加速推理过程。然而,由于语义等价步骤中标记不匹配导致的非必要拒绝,传统标记级推测解码在推理任务中表现不佳。尽管近期研究转向通过接受或拒绝完整推理步骤来实现语义验证的步骤级方法,但现有方案仍会重新生成大量被拒步骤,改进有限且浪费宝贵的目标模型计算资源。为应对这一挑战,我们提出Arbitrage——一种新型步骤级推测生成框架,可根据草稿与目标模型的相对优势动态路由生成过程。该框架摒弃固定接受阈值,转而采用轻量级路由器来预测目标模型何时可能生成显著更优的步骤。这种路由机制近似于始终选择更高质量步骤的理想仲裁预言机,实现了接近最优的效率-精度平衡。在多个数学推理基准测试中,Arbitrage持续超越现有步骤级推测解码基线,在保持精度相当的情况下将推理延迟降低最高达两倍。
具身模仿学习受限于多样化、长周期机器人操作数据的稀缺性。现有该领域的视频生成模型仅能合成简单动作的短片段,且常依赖人工定义的轨迹。为此,我们提出MIND-V——一种分层框架,旨在生成物理合理且逻辑连贯的长周期机器人操作视频。受认知科学启发,MIND-V通过三个核心组件连接高层推理与像素级合成:基于预训练视觉语言模型进行任务规划的语义推理中枢(SRH);将抽象指令转化为领域无关表征的行为语义桥(BSB);以及条件视频渲染的运动视频生成器(MVG)。MIND-V采用分阶段视觉未来推演策略,这是一种提升长周期鲁棒性的测试时优化方法。为使生成视频符合物理规律,我们引入了基于新型物理前瞻一致性(PFC)奖励的GRPO强化学习后训练阶段。PFC利用V-JEPA世界模型,通过在特征空间中对预测与实际动态演化进行对齐来强化物理合理性。MIND-V在长周期机器人操作视频生成任务中实现了最先进的性能,为具身数据合成建立了可扩展且可控的范式。
多模态大语言模型(MLLMs)被期望能协同解析视觉、听觉与语言信息,然而现有视频基准测试鲜少评估对人类语音的细粒度推理能力。许多任务仍可通过视觉信息单独解决,或仅对语音进行粗粒度评估,难以判断模型是否能精准关联说话者身份、言语内容及时间节点。我们推出AV-SpeakerBench——一个精心构建的基准测试集,包含3,212道基于真实世界视频的说话者中心化多模态推理选择题。其特色在于:(1)以说话者而非场景为核心推理单元的构建范式;(2)将视听依赖关系嵌入问题语义的融合式提问设计;(3)通过专家标注确保时间精度与跨模态有效性。综合评估表明,Gemini系列模型持续领先开源系统,其中Gemini 2.5 Pro表现最佳。在开源模型中,Qwen3-Omni-30B虽接近Gemini 2.0 Flash水平,但仍远逊于Gemini 2.5 Pro,主要差距源于视听融合能力而非视觉感知能力。我们相信AV-SpeakerBench为推进未来多模态系统的细粒度视听推理建立了严谨的基准框架。
近期大语言模型(LLM)的突破催生了强大的代码智能体,使得代码助手有望升级为代码工程师。然而,现有方法在实现高保真度的文档到代码库合成(如科研论文到代码的转换)时仍面临重大挑战,这主要源于信息过载与LLM上下文瓶颈之间的根本性矛盾。本文提出DeepCode——一种通过原则性信息流管理从根本上解决该挑战的全自主框架。通过将代码库合成建模为信道优化问题,DeepCode在有限上下文预算下无缝协调四大信息操作以最大化任务相关信号:基于蓝图提炼的源码压缩、采用状态化代码记忆的结构化索引、通过检索增强生成的条件知识注入,以及闭环纠错机制。在PaperBench基准上的大量实验表明,DeepCode实现了最先进的性能,显著超越Cursor、Claude Code等主流商业智能体,更关键的是,在核心复现指标上超越了顶尖机构的博士级人类专家。通过系统化地将论文规范转化为媲美人类专家水准的生产级实现,本工作为自主科研复现奠定了新基础,有望加速研究评估与科学发现进程。
强化学习(RL)后训练对于将生成模型与人类偏好对齐至关重要,但其高昂的计算成本仍是广泛应用的重大障碍。我们提出TreeGRPO这一新型RL框架,通过将去噪过程重构为搜索树,显著提升训练效率。该方法从共享的初始噪声样本出发,通过策略性分支生成多条候选轨迹,同时高效复用其公共前缀。这种树状结构方法具有三大核心优势:(1)高样本效率,在同等训练样本下实现更优性能;(2)基于奖励反向传播的细粒度信用分配,通过计算逐步骤优势值,克服了基于轨迹方法的均匀信用分配局限;(3)摊销计算成本,利用多子节点分支实现单次前向传播完成多次策略更新。在扩散模型和流模型上的大量实验表明,TreeGRPO在效率-奖励权衡空间中不仅实现2.4倍加速训练,更建立了更优的帕累托边界。该方法在多个基准测试和奖励模型中持续超越GRPO基线,为基于RL的视觉生成模型对齐提供了可扩展的有效路径。项目网站详见treegrpo.github.io。
本文提出了一种模块化神经图像信号处理(ISP)框架,能够处理原始传感器数据并生成高质量显示参考图像。与现有神经ISP设计不同,我们的方法通过高度模块化实现了对成像流程中多个中间阶段的完全可控。这种模块化设计不仅实现了高精度渲染,还显著提升了系统的可扩展性、可调试性、对未见过相机型号的泛化能力以及匹配不同用户偏好风格的灵活性。为验证该设计优势,我们开发了基于此神经ISP的用户交互式照片编辑工具,支持多样化编辑操作与图片风格调整。该工具经过精心设计,既能充分发挥神经ISP的高质量渲染特性,又可实现无限次的后置可编辑重渲染。我们的方法采用全学习型框架,提供不同计算规模的模型变体(完整流程参数量约0.5M至3.9M),在多个测试集上均能稳定输出具有竞争力的定性与定量结果。补充视频请参见:https://youtu.be/ByhQjQSjxVM
大型语言模型(LLMs)在生成任务上表现出色,但主流的自回归解码方式存在固有串行性,形成吞吐量瓶颈。扩散语言模型(DLMs)——尤其是分块变体——支持并行生成与块内双向推理,然而从头训练大型DLMs成本高昂,且浪费成熟自回归模型的知识储备。先前"适配"尝试或通过修改逻辑值/随机扩展注意力掩码实现全序列扩散,或简单将自回归权重移植至块扩散框架,均未解决自回归因果性与块双向性的根本矛盾。我们通过将自回归视为块大小=1的块扩散模型,将适配重构为自回归到块扩散的范式内路径转换。具体而言,我们设计如下适配路径:采用上下文因果注意力掩码(上下文保持因果性,仅在当前激活块内双向)、高效并行适配流程、辅助自回归损失以最大化数据利用并保留预训练知识,以及逐步增加生成块大小。该方案可与掩码块扩散无缝集成,并保持训练-推理一致性。基于这些组件,NBDiff-7B(基础版与指令版)能够继承长上下文建模与推理能力,在7B级DLMs中实现最优性能,在通用知识、数学和代码基准测试上较基线模型取得显著提升。这些结果表明,基于原理的自回归到块扩散适配是替代从头训练DLMs的高效计算方案。代码地址:https://github.com/YuchuanTian/NBDiff。
从视频中理解并重建动态场景的复杂几何结构与运动模式,始终是计算机视觉领域的一项重大挑战。本文提出D4RT模型——一种简洁而高效的前馈网络,旨在系统性地解决这一难题。该模型采用统一的Transformer架构,能够从单段视频中联合推断深度信息、时空对应关系及完整相机参数。其核心创新在于引入了一种新颖的查询机制,既规避了密集逐帧解码的沉重计算负担,又避免了管理多个任务专用解码器的复杂性。我们的解码接口使模型能够独立灵活地探测时空任意点的三维坐标,最终形成一种轻量化且高度可扩展的方法,实现显著高效的训练与推理。实验表明,本方法在各类4D重建任务中均超越现有技术,确立了新的性能标杆。动态效果演示请参阅项目页面:https://d4rt-paper.github.io/。
尽管近期的大型视觉语言模型(VLM)在视觉语言导航(VLN)领域的泛化能力有所提升,但现有方法通常依赖端到端管道,直接将视觉语言输入映射为短视程的离散动作。此类设计常导致运动轨迹碎片化、延迟较高,且难以应对动态避障等现实挑战。我们提出DualVLN——首个双系统VLN基础模型,通过协同整合高层推理与低层动作执行实现突破。系统2作为基于VLM的全局规划器,通过基于图像的推理预测中程航点目标,实现“慢思考”;系统1作为轻量级多模态条件扩散变换器策略,则通过融合系统2提供的显式像素目标与潜在特征生成平滑精准的轨迹,实现“快行动”。这种双系统设计可在复杂动态环境中实现稳健的实时控制与自适应局部决策。通过解耦训练,VLM保持了泛化能力,而系统1则实现了可解释且高效的局部导航。DualVLN在所有VLN基准测试中均超越现有方法,真实环境实验进一步验证了其在动态环境中具备的长视程规划能力与实时适应性。
智能体基础模型在环境推理与交互能力方面进展迅速,使其核心能力的评估变得日益重要。尽管现有基准测试工具层出不穷,但多数聚焦于学术场景或人工设计情境,忽视了实际应用中的挑战。为解决这一问题,我们着眼于极具现实意义的电商领域——该场景不仅包含海量多元用户交互、动态市场环境,更涉及真实决策流程中的各类任务。为此,我们推出EcomBench:一个基于真实电商环境构建的综合性智能体评估基准。该基准源自全球头部电商生态中的真实用户需求,经由专家团队精细标注,确保任务清晰度、准确性与领域相关性。EcomBench覆盖电商场景下的多类任务,设定了三个难度层级,重点评估智能体的深度信息检索、多步推理及跨源知识整合等关键能力。通过将评估根植于真实电商语境,EcomBench为衡量智能体在现代电商环境中的实际能力提供了严谨而动态的测试平台。
大型推理模型通过生成扩展的思维链在复杂任务上表现卓越,但常存在"过度思考"现象:即在已掌握足够信息给出正确答案后仍持续推理。这不仅浪费推理计算资源,还可能降低准确率。现有早期终止方案或通过附加采样和启发式方法干预解码过程,或依赖辅助验证模型,或仅作为事后分析流程而缺乏形式化保证。我们提出LYNX——一种将模型自身隐藏状态感知转化为置信度控制停止决策的在线早期退出机制。该机制在生成过程中将退出决策锚定于自然出现的推理线索(如"嗯""等等"),利用强制退出产生的监督信号在这些线索标记对应的隐藏状态上训练轻量级探测头,并通过分形保形预测封装得分以实现对提前退出的无分布控制。关键的是,我们在通用数学语料上一次性训练并校准该探测头,随后将其直接复用于不同基准测试、解码温度乃至非数学任务。在涵盖1.5B至32B参数的三个模型系列中,每个基础模型仅需配备一个数学训练的探测头即可实现优异的准确率-效率平衡。在GSM8K上,LYNX在减少40%-65%标记数的同时保持或提升基线准确率;在MATH-500上以约35%-60%的标记缩减实现最高12个百分点的准确率提升;在AIME 2024中节省超50%标记数即可恢复基线准确率;在非数学基准CommonsenseQA上,其零样本迁移实现了适度准确率增益与最高70%的标记节省。与最先进的早期退出方法相比,LYNX在保持完全在线、无需推理时代理模型且提供用户可调置信保障的前提下,呈现出具有竞争力或更优的帕累托边界。
单目三维追踪旨在从单目视频中捕捉像素在三维空间的长期运动,近年来取得显著进展。然而,现有方法在分离相机运动与前景动态运动方面仍存在不足,且无法对视频中新出现的动态目标进行密集追踪。针对这两大局限,我们提出TrackingWorld——一种在世界中心三维坐标系下对几乎所有像素进行密集三维追踪的新范式。首先,我们引入追踪上采样器,能够高效地将任意稀疏二维追踪提升为密集二维追踪。其次,为将现有追踪方法泛化至新出现的目标,我们对所有帧应用上采样器,并通过消除重叠区域轨迹来降低二维追踪的冗余度。最后,我们提出基于优化的高效框架,通过估计相机位姿和二维轨迹的三维坐标,将密集二维追踪反投影至世界中心三维轨迹。在合成数据集与真实场景数据集上的大量实验表明,本系统能在世界坐标系下实现精确且密集的三维追踪。
脑肿瘤对人类生命构成重大威胁,因此在早期阶段实现精准检测对改善诊疗效果至关重要。目前放射科医生通常通过患者MRI扫描图像进行人工识别,但近年来儿童和青少年脑肿瘤发病率上升导致数据量激增,使得人工检测既耗时又困难。随着人工智能在现代社会的兴起及其在医疗领域的广泛应用,我们可借助计算机辅助诊断系统实现脑肿瘤的自动早期检测。现有模型普遍存在泛化能力不足、验证集表现欠佳的问题。为此,我们提出两种新型深度学习架构:(a) SAETCN(自注意力增强肿瘤分类网络)用于实现不同类型脑肿瘤的分类,在验证集上达到99.38%的准确率,使其成为少数能精准检测脑肿瘤的新型深度学习架构之一。该模型基于包含三类肿瘤(胶质瘤、脑膜瘤、垂体瘤)及非肿瘤病例的数据集进行训练;(b) SAS-Net(自注意力分割网络)用于实现脑肿瘤的精确分割,整体像素精度达到99.23%。
记忆增强型大语言模型(LLMs)通过存储相关记忆并将其作为上下文信息,在长对话中展现出卓越的连贯性。这种基于记忆的个性化技术对于允许用户保持对话和数据私密性的端侧部署同样关键。然而,现有记忆增强系统通常依赖的大语言模型在本地端侧部署时成本过高。虽然小语言模型(SLMs)比大语言模型更适合端侧推理,但其性能仍显不足。此外,这些基于大语言模型的系统缺乏原生视觉能力,限制了其在多模态场景下的适用性。本文提出:(i)MemLoRA——一种通过为小语言模型配备专用记忆适配器实现本地部署的新型记忆系统;(ii)其视觉扩展版本MemLoRA-V——将小视觉语言模型(SVLMs)集成到记忆系统中,实现原生视觉理解。基于知识蒸馏原理,每个适配器针对特定记忆操作(知识提取、记忆更新和记忆增强生成)分别训练。配备记忆适配器的小模型无需依赖云端即可实现精准的端侧记忆操作。在纯文本任务中,MemLoRA在LoCoMo基准测试上超越参数量10倍的基线模型(如Gemma2-27B),并与60倍参数量模型(如GPT-OSS-120B)性能相当。为评估视觉理解能力,我们通过需要直接视觉推理的视觉问答任务扩展LoCoMo基准。在此测试中,集成视觉语言模型的MemLoRA-V较基于图像描述的方法实现显著提升(准确率81.3对23.7),同时在文本任务中保持强劲性能,证明了该方法在多模态场景下的有效性。
人体网格恢复(HMR)旨在从二维观测数据中重建三维人体姿态与形状,是现实场景中人本理解的基础技术。虽然当前基于图像的HMR方法(如SAM 3D Body)在自然场景图像上展现出强大鲁棒性,但在处理视频时依赖逐帧推理,会导致时间不一致性且在遮挡情况下性能下降。我们通过利用视频中人体运动的连续性,在不额外训练的前提下解决了这些问题。本文提出SAM-Body4D——一种无需训练的视频时序一致且抗遮挡的HMR框架。我们首先通过可提示视频分割模型生成身份一致的掩码片段,继而利用遮挡感知模块修复缺失区域。优化后的掩码片段引导SAM 3D Body生成连贯的全身体网格轨迹,而基于填充的并行化策略实现了高效的多人体推理。实验结果表明,SAM-Body4D在具有挑战性的自然场景视频中显著提升了时间稳定性与鲁棒性,且无需重新训练。代码与演示见:https://github.com/gaomingqi/sam-body4d。
针对非定常流动的快速、几何泛化代理模型仍是当前研究难点。本文提出一种时间依赖的几何感知深度算子网络,能够预测参数化与非参数化外形周围中等雷诺数流动的速度场。该模型通过符号距离场主干网络编码几何特征,借助卷积神经网络分支处理流动历史信息,基于841组高精度仿真数据进行训练。在未见过的几何外形上,模型单步预测相对L2误差约为5%,较计算流体力学方法加速达1000倍。我们建立了以物理为中心的滚动预测诊断方法,包括测点相位误差与散度范数,以量化长期预测精度。结果表明模型能准确预测短期瞬态流动,但在精细尺度尾流中会出现误差累积,尖角几何体尤为明显。我们分析了故障模式并提出实用改进方案。代码、数据分割及脚本已开源发布(https://github.com/baskargroup/TimeDependent-DeepONet),以支持复现与基准测试。
3D高斯溅射(3DGS)作为一种强大的显式表示方法,已能够实现实时高保真三维重建与新视角合成。然而,其实际应用受限于存储和渲染数百万高斯粒子所需的巨大内存与计算量,这一挑战在四维动态场景中尤为突出。为解决这些问题,高效高斯溅射技术领域迅速发展,提出了多种在保持重建质量的同时减少冗余的方法。本文首次对高效3D与4D高斯溅射技术进行了系统性梳理:针对静态与动态场景,将现有方法划分为参数量压缩与结构重组压缩两大方向,全面总结了各类方法的核心思想与技术趋势;进一步涵盖了广泛使用的数据集、评估指标及代表性基准测试对比;最后讨论了当前技术局限,并展望了面向静态与动态三维场景的可扩展、紧凑、实时高斯溅射技术的未来研究方向。
我们推出REST与REST+(渲染等价压力测试)两项新基准,旨在系统评估多模态大语言模型中的跨模态不一致性问题。尽管MLLMs被训练用于将视觉与语言表征于同一嵌入空间,但它们无法在两种模态中执行同等任务。我们的基准包含三种模态(图像、文本、混合)下语义信息完全一致的样本,实验表明当前最先进的MLLMs无法对这些不同模态保持一致的推理能力。通过对15个MLLMs的评估,我们发现即使排除文字识别(OCR)问题,模态不一致程度仍存在显著差异。无论是将文本渲染为图像,还是将图像转化为文本,均无法解决不一致性问题。即使OCR准确无误,视觉特征(文字颜色与分辨率,但非字体)和视觉标记数量仍会影响模型性能。最后,我们发现一致性评分与文本-图像间的模态差距存在关联,这为跨模态不一致的MLLMs提供了机制性解释。
数十年来,程序化世界构建一直依赖于Perlin噪声等程序化噪声函数。这类函数虽具有快速生成和无限延展的特性,但在真实感与大规模连贯性方面存在根本局限。我们提出的Terrain Diffusion技术作为Perlin噪声在AI时代的新一代替代方案,将扩散模型的高保真度与程序化噪声的核心优势——无缝无限延伸、种子一致性和恒定时间随机访问——完美结合。其核心创新InfiniteDiffusion算法实现了无限生成机制,可实时无缝合成无边界地形景观。通过采用分层扩散模型架构,系统将行星级宏观环境与局部细节相耦合,同时紧凑的拉普拉斯编码确保在地球尺度的动态范围内保持输出稳定性。配套的开源无限张量框架支持对无界张量进行恒定内存操作,而少步数一致性蒸馏技术则实现了高效生成。这些技术共同确立了扩散模型作为程序化世界生成的新基石,能够以连贯可控的方式无限制地合成整个行星地貌。