每日精选AI研究论文及翻译
近期研究表明,视频扩散模型(VDM)可被重新应用于多种多模态图形任务。然而,现有方法通常针对不同问题设置分别训练模型,这种固定化的输入输出映射限制了跨模态相关性的建模。我们提出UniVidX——一个基于VDM先验的统一多模态视频生成框架。该框架将像素对齐任务建模为共享多模态空间中的条件生成,在适配模态特定分布的同时保留主干网络的原始先验,并在合成过程中促进跨模态一致性。其核心设计包含三个关键机制:随机条件掩码(SCM)在训练期间将模态随机划分为干净条件与噪声目标,实现全向条件生成而非固定映射;解耦门控LoRA(DGL)为每个模态配备独立LoRA模块,当模态作为生成目标时激活该模块,从而保留VDM的强先验;跨模态自注意力(CMSA)通过共享跨模态键值对并保持模态特定查询,有效促进信息交换与模态间对齐。我们在两个领域实例化UniVidX:UniVid-Intrinsic用于RGB视频与反照率、辐照度、法向等本征图的生成;UniVid-Alpha用于混合RGB视频及其RGBA组成层的生成。实验表明,两个模型在各类任务中均达到与最先进方法相媲美的性能,即使在少于1000个视频的训练数据下,也能对真实场景展现出强大的泛化能力。项目页面:https://houyuanchen111.github.io/UniVidX.github.io/
当前,智能网络搜索日益面临两大差异化需求:针对单一目标的深度推理,以及跨多实体与异构源的结构化聚合。现有系统在这两方面均存在不足。广度导向型任务要求输出结果具备模式对齐的广泛覆盖性和跨实体一致性,而深度导向型任务则需要对长链条、多分支的搜索轨迹进行连贯推理。我们提出Web2BigTable——一个支持双模式运行的网络到表格搜索多智能体框架。该框架采用双层架构:上层编排器将任务分解为子问题,下层工作智能体并行求解。通过“执行-验证-反思”的闭环流程,框架借助持久化、人类可读的外部记忆,持续优化任务分解与执行策略,并实现单智能体的自我演进。执行过程中,工作智能体通过共享工作区进行协调,使部分发现结果可视化,从而减少重复探索、调和矛盾证据,并动态适应覆盖缺口。Web2BigTable在WideSearch基准上取得突破性表现:Avg@4成功率达38.50(是第二名5.10的7.5倍),行级F1值63.53(较第二名提升25.03),项级F1值80.12(较第二名提升14.42)。在XBench-DeepSearch的深度导向型搜索任务中也展现出色泛化能力,准确率达73.0%。代码已开源:https://github.com/web2bigtable/web2bigtable。
三维世界生成对于沉浸式内容创作和自动驾驶仿真等应用至关重要。尽管近期三维世界生成技术取得了显著进展,但现有方法仍受限于网格布局,且存在全局物体尺度不一致的问题。本文提出创新框架Map2World,首次实现基于用户自定义任意形状与尺度分割图的三维世界生成,确保大范围环境中全局尺度的统一性与布局灵活性。为进一步提升生成质量,我们设计了细节增强网络来生成世界的精细结构。该网络通过融入全局结构信息,在保持场景整体协调性的同时添加细粒度细节。整个流程充分利用资产生成器的强先验知识,即使在场景生成训练数据有限的情况下,也能实现跨领域的稳健泛化能力。大量实验表明,本方法在用户可控性、尺度一致性和内容连贯性方面显著优于现有方案,能够支持用户在更复杂条件下生成三维世界。
基于文本的2D图像编辑模型近期已臻成熟,这推动了越来越多依赖此类模型实现3D编辑的研究工作。虽然这类以2D为核心的3D编辑流程在基于外观的修改方面表现优异,但在细粒度3D编辑任务中往往力有不逮——这类任务需要在严格保持物体整体身份特征的同时实施局部结构变更。为突破此局限,我们提出Prox-E框架:一种无需训练、通过显式基元化几何抽象实现细粒度3D控制的解决方案。该框架首先将输入3D形状抽象为紧凑的几何基元集合,随后借助预训练视觉语言模型(VLM)对该抽象表示进行基元层级的编辑标注。这些结构编辑信息将引导3D生成模型,在保持原始形状未修改区域的同时实现局部精细化调整。通过大量实验验证,本方法在身份特征保持、形状质量与指令遵循度三个维度上,均优于现有基于2D的3D编辑器和训练依赖型方法,展现出更稳定的综合性能。
LLM智能体日益依赖可复用技能——这种能力包整合了指令、控制流、约束条件和工具调用。然而在目前大多数智能体系统中,技能仍以文本密集型形式呈现,包括SKILL.md风格文档和结构化记录,其机器可用的核心信息大多嵌于自然语言描述中。这给以技能为核心的智能体系统带来挑战:管理技能集合和运用技能支持智能体,都需要对调用接口、执行结构和具体副作用进行推理,而这些要素往往混杂在单一文本表层之下。因此,显式表征技能知识可能有助于机器更易获取和利用这些信息。借鉴尚克和艾贝尔森在语言知识表征领域的经典工作——记忆组织包、脚本理论及概念依存理论,我们提出了据我们所知首个能解耦技能级调度信号、场景级执行结构、逻辑级动作与资源使用证据的智能体技能结构化表征方法:调度-结构-逻辑(SSL)表征框架。我们基于LLM实现SSL规范化器,并在技能发现和风险评估两个任务上对技能库进行评估,结果显著优于纯文本基线:技能发现任务中MRR从0.573提升至0.707;风险评估任务中宏观F1分数从0.744提升至0.787。这些发现表明,基于来源的显式结构化表征使智能体技能更易于检索和审查。这也说明SSL最好被理解为向更可检验、可复用、具操作性的智能体技能表征迈出的实践步骤,而非最终标准或端到端的技能管理使用机制。
通用机器人策略日益受益于大规模预训练,但仅靠离线数据不足以实现稳健的现实世界部署。已部署的机器人会遇到分布偏移、长尾故障、任务变异以及人工校正机会等固定演示数据集无法完全捕捉的情况。我们提出"部署中学习"(LWD)框架——一种面向通用视觉-语言-动作(VLA)策略持续后训练的集群级离线到在线强化学习方案。该框架以预训练VLA策略为起点,通过整合自主运行和跨机器人集群收集的人工干预数据,构建了部署、物理经验共享、策略改进与再部署的闭环系统。为稳定学习异构、稀疏奖励的集群数据,LWD将用于鲁棒值估计的分布式隐式值学习(DIVL)与适用于基于流的VLA动作生成器的伴随匹配Q学习(QAM)策略提取方法相结合。我们在包含16台双臂机器人的集群上验证LWD,覆盖八项真实世界操作任务,包括语义化商品补货和3-5分钟长周期任务。实验表明,单一通用策略随集群经验积累持续提升,最终达到95%的平均成功率,其中长周期任务的性能提升最为显著。
大型语言模型(LLM)红队测试通过主动识别模型漏洞,是保障安全的关键环节。如何在测试中实现高效且多样化的攻击至关重要,但二者兼得颇具挑战性。基于分布匹配的生成流网络(GFN)虽前景广阔,却因训练不稳定和模式坍塌问题而闻名。红队测试中不稳定的奖励机制会加剧模式坍塌。我们提出稳定生成流网络(S-GFN),通过消除GFN中的配分函数Z估计来提升训练稳定性。S-GFN采用成对比较法规避Z估计,并运用抗噪声奖励的鲁棒掩码方法。此外,我们引入流畅度稳定器以防止模型陷入生成无意义文本的局部最优解。S-GFN在保持GFN最优策略的同时实现了更稳定的训练。实验表明,S-GFN在不同场景下均展现出卓越的攻击性能与多样性。
本文提出生成式语言-图像预训练(GenLIP)——一种面向多模态大语言模型(MLLM)的极简生成式视觉Transformer(ViT)预训练框架。为使视觉编码器更好地适配大语言模型的自回归特性,GenLIP采用标准语言建模目标直接训练ViT根据视觉标记预测语言标记,无需对比批次构建或额外文本解码器。该设计具有三大优势:(1)简洁性:单一Transformer联合建模视觉与文本标记;(2)可扩展性:在数据和模型规模上均具备高效扩展能力;(3)性能表现:在多模态基准测试中达到竞争性或更优结果。基于Recap-DataComp-1B中80亿样本训练后,GenLIP在使用显著更少预训练数据的情况下仍能媲美或超越强基线模型。经过原生宽高比多分辨率图像的持续预训练,GenLIP在OCR和图表理解等细节敏感任务上表现进一步提升,为多模态大语言模型的视觉编码器奠定了坚实基础。
决策树与扩散模型表面上是截然不同的模型类别——前者离散分层,后者连续动态。本研究通过建立分层决策树与特定极限状态下扩散过程之间精确的数学对应关系,实现了二者的统一。我们的统一框架揭示了一个共享的优化原理:全局轨迹评分匹配(GTSM),其中梯度提升(在理想化版本中)具有渐近最优性。我们通过两个关键实践案例凸显研究的理论价值:\treeflow 在表格数据生成任务中实现媲美主流方法的生成质量,同时具备更高保真度和2倍计算加速;\dsmtree 作为一种新型蒸馏方法,将分层决策逻辑迁移至神经网络,在多个基准测试中与教师模型性能差距控制在2%以内。
文本到图像扩散模型在视觉保真度方面取得了显著成就,但在多目标生成任务中仍存在不可靠性。尽管已有大量实证研究揭示了这些缺陷,其根本原因仍不明确。我们首先探究这种局限性在多大程度上源于数据本身。为厘清数据影响,我们在不同数据规模下考察两种机制:(1)概念泛化——每个独立概念在训练过程中均被观测到,但可能处于不平衡的数据分布;(2)组合泛化——特定概念组合被系统性排除在训练集外。为研究这些机制,我们提出mosaic(多目标空间关系、属性与计数)这一可控数据集生成框架。通过在mosaic上训练扩散模型,我们发现场景复杂度的影响远超概念不平衡,且计数能力在低数据量场景中具有独特的学习难度。此外,随着更多概念组合在训练阶段被排除,组合泛化性能会急剧下降。这些发现揭示了扩散模型的基础局限性,为构建更强归纳偏置和优化数据设计以实现稳健的多目标组合生成提供了理论依据。
自回归图像建模依赖视觉分词器将图像压缩为紧凑的潜在表征。我们设计了端到端的训练流程,通过联合优化重建与生成任务,使生成结果能直接对分词器产生监督信号。这与先前分阶段训练分词器与生成模型的方法形成鲜明对比。我们进一步探索利用视觉基础模型来优化适用于自回归建模的一维分词器。实验表明,我们的自回归生成模型取得了显著成效,在ImageNet 256×256生成任务上无需引导即达到了1.48的最新FID指标。
随着视觉语言模型(VLM)能力的快速提升,将其扩展至视频游戏等交互式决策任务已成为新兴研究方向。然而,现有方法要么依赖对人类操作轨迹的大规模监督微调,要么仅在较短决策跨度(通常为20-30步)中应用强化学习。本研究探索基于强化学习的VLM训练方法,使其能够在《超级马里奥大陆》这一需要100+步交互、兼顾感知推理与动作协调的视觉化环境中实现长跨度决策。我们首先系统性分析了关键算法组件,提出配备轻量级步序评判器的PPO改进版本,相比GRPO和Reinforce++等无评判器方法,显著提升了训练稳定性与样本效率。研究进一步表明,预训练VLM能提供强动作先验,相较于从零开始训练的经典深度强化学习方法,不仅大幅提升RL训练时的样本效率,还降低了动作工程等人工设计需求。基于这些发现,我们推出Odysseus——一个开放的VLM智能体训练框架,在游戏多关卡中实现显著进展,平均通关进度达到前沿模型的3倍以上。训练后的模型在游戏内与跨游戏泛化场景下均表现出一致的性能提升,同时保持通用领域能力。本研究揭示了在长跨度多模态场景中实现稳定高效强化学习的关键要素,为开发具身化VLM智能体提供了实践指导。
训练稳定的生物基础模型需要重新思考注意力机制:我们发现使用Sigmoid注意力作为Softmax注意力的替代方案具有以下优势:a) 学习表征质量更高——在六个多样化的单细胞数据集上,Sigmoid注意力实现了25%的细胞类型分离度提升、更优的细胞类型内聚指标及更低的验证损失;b) 训练速度更快——Sigmoid注意力模型训练速度较Softmax版本提升高达10%;c) 训练过程更稳定——通过消除Softmax注意力固有的不稳定性来源实现稳定训练。我们证实Sigmoid注意力具有全局有界导数(≤0.25),且其雅可比矩阵呈对角线结构,这与Softmax的密集耦合形成对比,共同缓解了训练不稳定性。在1.6亿参数双向注意力模型的压力测试中(使用8K标记序列且未采用梯度裁剪),Softmax会出现灾难性发散,梯度爆炸达四个数量级,而Sigmoid始终保持稳定。最后我们实现并开源了TritonSigmoid高效GPU内核,在H100 GPU上达到515 TFLOPS,性能超越FlashAttention-2和FlashSigmoid,并原生支持对生物序列至关重要的填充操作。我们的研究从理论和实证层面确立了Sigmoid注意力在生物基础模型中的优越性。代码详见https://github.com/MSDLLCpapers/triton-sigmoid。
模拟电路设计高度依赖现有知识产权(IP)的重用,但跨SPICE网表、原理图和功能描述等异构表示的检索仍具挑战。现有方法大多局限于单一模态的精确匹配,难以捕捉跨模态语义关联。为此,我们提出统一的三模态检索框架AnalogRetriever。基于Masala-CHAI数据集,我们通过两阶段修复流程将网表编译成功率从22%提升至100%,构建了高质量数据集。在此基础之上,AnalogRetriever采用视觉语言模型编码原理图与描述文本,通过端口感知关系图卷积网络处理网表,并借助课程对比学习将三种模态映射到共享嵌入空间。实验表明,该框架在全部六种跨模态检索方向上平均Recall@1达到75.2%,显著超越现有基线。当作为检索增强生成模块集成至AnalogCoder智能体框架时,它能持续提升功能通过率,并完成此前无法解决的任务。我们的代码与数据集将公开发布。
奖励模型(RMs)已成为语言模型(LM)后训练方案中不可或缺的组成部分,能够实现策略对齐和测试时扩展。然而,关于奖励模型在代码生成领域应用的研究相对匮乏,现有工作主要聚焦于执行反馈。这种选择将后训练过程局限于针对独立可执行代码的功能正确性优化。本研究系统探讨了多语言、多标准代码奖励模型的训练与评估方法。为此,我们首先构建了Themis-CodeRewardBench基准测试平台,该平台覆盖8种编程语言和5个偏好维度(即评判标准),并在此基准上对50余个代码、数学及通用奖励模型进行性能剖析。针对当前奖励模型在功能正确性评分之外的能力局限,我们开发了迄今最大规模的开源代码偏好数据集Themis-CodePreference(包含超过35万组偏好对),并基于此训练出Themis-RM系列模型——一套参数规模从6亿到320亿不等的多语言代码奖励模型,支持灵活的多标准评分。实验与消融研究表明:该模型呈现积极的比例扩展趋势;在多样化偏好数据训练下表现出强大的跨语言迁移能力;多标准训练对构建可靠的代码奖励模型具有关键作用。
大型视觉语言模型(LVLM)常出现幻觉现象,其生成的描述会包含输入图像中不存在的视觉细节。现有的偏好对齐方法通常依赖从GPT等更强模型中提取的监督信号,但这种离线范式会引发监督与感知错配:学生模型被迫对齐超出其感知能力的细粒度细节,从而学会猜测而非观察。为实现在线学习的可靠自监督,我们发现了LVLM内部存在的生成-判别差距——模型在判别式验证任务上的准确率显著高于开放式生成任务。基于此发现,我们提出在线自校准框架OSCAR,该框架将蒙特卡洛树搜索与双粒度奖励机制相结合构建偏好数据,并通过直接偏好优化实现模型迭代增强。大量实验表明,OSCAR在幻觉评测基准上达到最先进性能,同时提升了通用多模态能力。
大型语言模型中的混合专家架构通过稀疏激活显著降低了推理成本,但这种稀疏激活范式也带来了新的安全挑战。由于每个输入仅激活部分专家,模型行为与路由决策形成耦合,产生了一种难以控制的机制,且可能随安全相关场景动态变化。与此同时,通过全参数微调或重新训练来调整模型行为的成本高昂,尤其在开发者需要为不同安全目标快速配置同一模型时更为突出。我们提出MASCing框架——首个无需重新训练即可实现混合专家模型跨安全场景灵活重构的方案。该框架采用基于LSTM的代理模型捕捉跨层路由依赖关系,将路由逻辑映射至下游行为;通过优化导向矩阵识别行为相关的专家电路,并在推理时对路由门施加导向掩码以重写专家选择。这种方法能在保持通用语言能力的同时,针对性增强或抑制特定行为。为验证其可重构性,我们在七个开源混合专家模型上针对两类安全目标进行测试,均以可忽略的开销实现稳定提升:针对多轮越狱攻击防御,平均防御成功率从52.5%提升至83.9%,最高达89.2%;针对成人内容生成场景,模型从原本拒绝转为合规响应,平均生成成功率从52.6%升至82.0%,最高达93.0%。实验结果证明MASCing是一种实用、轻量且灵活的混合专家模型安全重构框架。
分布式黑箱共识优化是多智能体系统中的基础问题,其要求智能体仅通过局部目标查询与有限邻域通信来提升全局目标。现有方法多依赖人工设计的更新规则与静态协作模式,在异构非凸环境中往往难以兼顾局部适应、全局协调与通信效率。本文首次提出了面向分布式黑箱共识优化的轨迹驱动自设计方法。我们首先重构了智能体层面的群体动力学,引入专为去中心化共识场景设计的自适应内部机制,改善了探索能力、收敛速度与局部逃逸之间的平衡。在此自适应执行层基础上,我们提出"行动与协作学习"框架(LACMAS),该轨迹驱动框架利用大语言模型对历史优化轨迹进行分析,为智能体内部行动行为与外部协作模式提供稀疏的高层指导。进一步提出分阶段认知调度策略,以资源感知的方式激活不同形式的自适应机制。在标准分布式黑箱基准测试与真实分布式任务上的实验表明,LACMAS在解质量、收敛效率与通信效率上均稳定优于强基线方法,为从人工设计分布式协调到自设计多智能体优化系统提供了可行路径。
在多语言语音克隆任务中,说话人编码器应当对同一说话者产生一致的表征,无论其音频采用何种语言文本录制。然而现成的编码器未能实现这一目标,其失效程度与口音类型相关。在包含1043对跨英语、印地语、泰卢固语和泰米尔语的西方口音语音语料库上,当同一声音切换语言文本时,WavLM-base-plus-sv的余弦相似度绝对值下降0.082,ECAPA-TDNN则下降0.105。而在1369对印度口音语音语料库上,该差距分别缩小至0.006(WavLM-SV)和0.044(ECAPA-TDNN)。这种表征泄漏在跨语种TTS最关键的场景——将非印度语系训练的声音投射至印度语系文本时——表现得最为显著。我们提出LASE(语言对抗性说话人编码器),该模型在冻结的WavLM-base-plus之上添加小型投影头,采用双重损失函数进行训练:基于说话人身份的监督对比损失,以及通过梯度反转对抗4语言分类器的交叉熵损失,使嵌入表征在保留说话人信息的同时消除语言信息。使用8个商业多语言声音合成的1118对经过质量筛选的跨语种配对数据进行训练后,LASE在两个语料库上的残余差距与零值一致(西方口音Δ=0.013,印度口音Δ=0.026;自举95%置信区间均包含零值),并将跨语种与基线差异的边际效应放大2.4-2.7倍。ECAPA+GRL消融实验表明梯度反转目标可提升两种主干网络性能,但WavLM的选择亦具有贡献。在合成多说话人日志任务中,LASE仅用约1/100的训练数据即可实现与ECAPA-TDNN相当的跨语种说话人召回率(0.788 vs 0.789)。我们公开了r1检查点、双语料库及自举训练方案。
联合音视频生成模型已证明,统一生成比级联方法能产生更强的跨模态连贯性。然而现有模型通过全局注意力在去噪过程中全程耦合模态,以完全纠缠的方式处理高层语义与底层细节。这对说话头合成并非最优:虽然音频与面部运动存在语义关联,但它们的底层实现(声学信号与视觉纹理)遵循不同的渲染过程。强制所有层级进行联合建模会导致不必要的纠缠并降低效率。我们提出Talker-T2AV——一种自回归扩散框架,其高层跨模态建模在共享骨干网络中完成,而底层细化则使用模态专用解码器。共享的自回归语言模型在统一的块级标记空间中对音视频进行联合推理,两个轻量级扩散Transformer头将隐藏状态解码为帧级音视频潜变量。在说话人像基准测试中,Talker-T2AV在唇同步精度、视频质量与音频质量上均优于双分支基线,实现了比级联流水线更强的跨模态一致性。
我们提出软各向异性图(SAD)——一种由图像平面中自适应站点集参数化的显式可微图像表示方法。在SAD中,每个站点定义了一个各向异性度量与加性加权距离评分,我们通过计算像素点对应前K个站点的softmax混合值来确定像素颜色。该方法通过可学习的站点温度系数,诱导出软各向异性加权Voronoi划分(即阿波罗尼奥斯图),在保留信息梯度的同时实现清晰的内容对齐边界和显式归属关系。该框架通过维护每查询点的前K映射表(在相同着色评分下近似最近邻),支持GPU友好的固定尺寸局部计算,从而实现高效渲染。我们采用受跳跃扩散启发的Top-K传播方案更新该列表,并辅以随机注入策略确保概率性全局覆盖。训练过程采用GPU优先流程,包含梯度加权初始化、Adam优化器以及通过稠密化与剪枝实现的自适应预算控制。在标准测试集上,SAD在相同码率下持续超越Image-GS和Instant-NGP:在Kodak数据集上以2.2秒编码时间(Image-GS需28秒)达到46.0 dB PSNR,端到端训练速度较现有最优基线提升4-19倍。我们通过展示SAD在正逆向问题可微管道中的无缝集成、快速随机访问效率以及紧凑存储特性,验证了其卓越性能。