每日精选AI研究论文及翻译
混合专家(MoE)模型缺乏显式约束来确保路由器的决策与专家能力良好对齐,这最终限制了模型性能。为解决此问题,我们提出专家-路由器耦合(ERC)损失函数——一种轻量级辅助损失,可将路由决策与专家能力紧密耦合。我们的方法将每个专家的路由器嵌入视作分配给该专家的代币的代理标记,并通过专家网络输入扰动后的路由器嵌入以获取内部激活值。ERC损失对这些激活值施加双重约束:(1)每个专家对自身代理标记的激活强度必须高于对其他专家代理标记的激活;(2)每个代理标记在对应专家处激发的激活强度必须高于在其他专家处的激活。这些约束共同确保每个路由器嵌入能真实反映对应专家的能力,同时使每个专家专注于处理实际被路由至该专家的代币。ERC损失计算高效,仅需处理n²个激活值(n为专家数量),这种固定成本与批次大小无关,而现有耦合方法的计算量会随代币数量(通常每批次达数百万)线性增长。通过对3B至15B参数的MoE-LLM进行预训练及数万亿代币的广泛分析,我们验证了ERC损失的有效性。此外,该损失函数还能在训练过程中灵活控制并量化追踪专家专业化程度,为理解MoE模型提供了宝贵洞察。
通过扩散模型实现实时视频生成对于构建通用多模态交互式AI系统至关重要。然而,扩散模型中通过迭代过程对所有视频帧进行双向注意力的同步去噪,阻碍了实时交互。虽然现有蒸馏方法可使模型具备自回归特性并减少采样步数以缓解此问题,但这些方法主要关注文本到视频生成,导致人机交互仍显生硬且效率低下。本文旨在实现基于多模态上下文(包括文本、图像和音频)的实时交互式视频扩散,以弥合这一差距。基于对领先策略蒸馏方法Self Forcing在多模态条件下存在挑战(如闪烁、黑帧等视觉伪影及质量下降)的观察,我们研究了一种改进的蒸馏方案,重点关注条件输入质量以及策略优化初始化和调度策略。在HDTF、AVSpeech和CelebV-HQ等多模态条件(音频、图像和文本)虚拟人视频生成基准测试中,我们蒸馏出的模型以20倍更低推理成本和延迟,达到了与同等或更大规模全步骤双向基线模型相当的视觉质量。进一步地,我们将该模型与音频语言模型及长视频推理技术Anchor-Heavy Identity Sinks集成,构建了实时多模态交互虚拟人系统LiveTalk。在自建多轮交互基准上的系统级评估表明,LiveTalk在多轮视频连贯性和内容质量上优于最先进模型(Sora2、Veo3),同时将响应延迟从1-2分钟缩短至实时生成水平,实现了无缝的人机多模态交互。
近期研究展示了利用扩散模型生成可交互、可探索虚拟世界的巨大潜力。然而,现有方法大多面临参数量过大、依赖冗长推理步骤、历史上下文快速膨胀等关键挑战,严重限制了实时性能且缺乏文本控制生成能力。为解决这些问题,我们提出\method——一个创新框架,能够从单张图像或文本提示生成逼真、可交互且连续的虚拟世界。该框架通过精心设计的键盘探索机制实现这一目标,其核心包含三大组件:(1)融合统一上下文压缩与线性注意力的长视频生成框架;(2)基于双向注意力蒸馏与增强型文本嵌入方案的实时流式加速策略;(3)面向世界事件生成的文本控制方法。相关代码库已附于补充材料中。
代理强化学习(RL)在复杂图形用户界面任务下的自主智能体开发中前景广阔,但其可扩展性仍受限于任务完成验证环节。现有验证方法采用被动的事后处理模式:验证器(如基于规则的评分脚本、奖励/评判模型或LLM即法官)通过分析智能体完整交互轨迹来判断任务成败。这种处理包含无关噪声历史的冗长上下文的方式,不仅给验证机制带来挑战,更导致高昂成本与低可靠性。为突破此瓶颈,我们提出SmartSnap范式——将被动事后验证转变为智能体主动的现场自验证。我们引入具备双重使命的自验证智能体:不仅完成任务,更通过精心筛选的快照证据自我证明任务达成。基于我们提出的3C原则(完整性、简洁性、创造性),该智能体利用在线环境访问权限,对最小化关键快照集进行自验证。这些证据作为唯一材料提交给通用LLM法官验证器,用以判定其有效性与相关性。跨模型系列与规模的移动端任务实验表明,SmartSnap范式能以可扩展方式训练LLM驱动智能体,为80亿和300亿参数模型分别带来26.08%和16.66%的性能提升。解决方案寻找与证据探寻的协同作用,成功培育出性能媲美DeepSeek V3.1与Qwen3-235B-A22B的高效自验证智能体。
透明物体对于感知系统而言始终是公认的难题:折射、反射和透射现象打破了立体视觉、飞行时间法以及纯判别式单目深度估计的基本假设,导致预测结果出现空洞和时间上的不稳定。我们的核心发现是,现代视频扩散模型已经能够合成逼真的透明现象,这表明它们已内化了光学规律。我们构建了TransPhy3D——一个透明/反射场景的合成视频语料库:使用Blender/Cycles渲染的1.1万段序列。场景由经过筛选的类别丰富的静态资产与形状丰富的程序化资产组合而成,并搭配玻璃/塑料/金属材质。通过基于物理的光线追踪和OptiX降噪技术,我们渲染出RGB+深度+法线图。基于大型视频扩散模型,我们通过轻量级LoRA适配器学习视频到视频的深度(及法线)转换器。训练过程中,我们在DiT主干网络中拼接RGB与(含噪声的)深度潜在特征,并在TransPhy3D和现有逐帧合成数据集上协同训练,从而实现对任意长度输入视频的时间一致性预测。所得模型DKT在涉及透明场景的真实与合成视频基准测试(ClearPose、DREDS的已知类别/新类别数据集、TransPhy3D测试集)中实现了零样本state-of-the-art。相较于强图像/视频基线方法,其精度和时间一致性均有提升,而法线预测变体在ClearPose上创下视频法线估计最佳结果。紧凑的13亿参数版本单帧处理耗时约0.17秒。集成到抓取系统后,DKT的深度预测在半透明、反射和漫反射表面场景中均提升成功率,优于现有估计器。这些成果共同印证了一个更广泛的论断:"扩散模型理解透明度"。生成式视频先验能够以高效、无标注的方式转化为鲁棒且时间一致的表征能力,为挑战性现实操控任务提供支撑。
基于扩散模型的视频超分辨率方法虽能实现出色的感知质量,但由于依赖未来帧和昂贵的多步去噪过程,在延迟敏感场景中仍不实用。我们提出Stream-DiffVSR——一种基于因果条件扩散框架的高效在线视频超分辨率方案。该方法严格基于历史帧运行,融合了四大核心技术:采用四步蒸馏去噪器实现快速推理;通过自回归时序引导模块在潜在去噪过程中注入运动对齐线索;配备轻量级时序感知解码器与时序处理模块以增强细节和时序连贯性。Stream-DiffVSR在RTX4090 GPU上处理720p帧仅需0.328秒,显著超越现有扩散模型方法。与在线SOTA方法TMP相比,在提升感知质量的同时将延迟降低130倍以上。该方案实现了扩散模型视频超分辨率领域的最低延迟记录,将初始延迟从4600秒以上缩减至0.328秒,成为首款适用于低延迟在线部署的扩散超分辨率方法。项目页面:https://jamichss.github.io/stream-diffvsr-project-page/
虽然自回归大型视觉语言模型(VLMs)已取得显著成功,但其序列化生成方式往往限制了在复杂视觉规划与动态机器人控制中的效能。本研究探索了基于扩散大语言模型(dLLMs)构建视觉语言模型的潜力以突破这些局限。我们提出Dream-VL——一种基于扩散的开放式视觉语言模型(dVLM),其在现有dVLM中实现了最先进的性能。Dream-VL在多项基准测试中与基于开放数据训练的一流自回归VLM表现相当,但在视觉规划任务中展现出更优潜力。基于Dream-VL,我们进一步推出Dream-VLA,这是一种通过对开放机器人数据集进行持续预训练开发的dLLM基视觉-语言-动作模型(dVLA)。我们证明该扩散骨架天然的 bidirectional 特性为VLA任务提供了更优基础,其天生适用于动作分块与并行生成,从而在下游微调中实现显著加速收敛。Dream-VLA在LIBERO上达到97.2%的平均成功率,在SimplerEnv-Bridge和SimplerEnv-Fractal上分别取得71.4%和60.5%的综合均值,超越了π_0、GR00T-N1等领先模型。我们还验证了在不同训练目标下,dVLM在下游任务中均优于自回归基线模型。我们开源Dream-VL与Dream-VLA以促进学界进一步研究。
扩散Transformer模型通过编码条件图像并将其整合至Transformer层,显著推进了图像编辑技术。然而,大多数编辑操作仅涉及小范围区域修改,而现有方法在每一步迭代中对所有令牌进行统一处理与去噪,这既导致冗余计算,又可能损害未改动区域的质量。由此引出一个根本性问题:在编辑过程中是否真的需要全图重建?为此,我们提出SpotEdit——一种免训练的扩散编辑框架,可选择性仅更新被修改区域。SpotEdit包含两大核心组件:SpotSelector通过感知相似性识别稳定区域,并复用条件图像特征跳过其计算;SpotFusion通过动态融合机制自适应地将这些特征与编辑后令牌混合,保持上下文连贯性与编辑质量。通过减少不必要计算并维持未改动区域的高保真度,SpotEdit实现了高效精准的图像编辑。
文本编码器是文生图与文生视频扩散模型的核心组件,从根本上决定了生成内容的语义保真度。然而其发展长期受两大挑战制约:一是缺乏能够可靠预测下游生成性能的高效评估框架,二是难以有效适配预训练语言模型以实现视觉合成。为此,我们提出GRAN-TED范式,旨在为扩散模型生成鲁棒、对齐且细腻的文本嵌入。我们的贡献包含两方面:首先,我们提出TED-6K——一个纯文本评估基准,通过轻量级统一适配器实现标准化评估,无需昂贵的端到端模型训练即可高效衡量编码器的表征质量。实验表明,TED-6K的评估结果与编码器在下游生成任务中的效能高度相关。值得注意的是,在我们的实验设置下,相较于从头训练扩散模型,使用TED-6K进行评估速度提升约750倍。其次,基于该验证框架的指导,我们通过新颖的两阶段训练范式开发出更优的文本编码器:先对多模态大语言模型进行微调以增强视觉表征能力,再采用分层加权方法提取更细腻、强效的文本特征。实验证明,所得GRAN-TED编码器不仅在TED-6K上达到最优性能,还在文生图与文生视频任务中带来显著性能提升。TED-6K数据集与评估代码已公开:https://anonymous.4open.science/r/GRAN-TED-4FCC/。
如何以兼具表现力与精确性的方式定义机器人操作任务,仍是核心挑战。虽然视觉目标能以紧凑且明确的方式定义任务,但现有基于目标条件的策略因依赖单步动作预测而缺乏对任务进度的显式建模,难以应对长周期操作任务。我们提出Act2Goal——一种集成视觉世界模型与多尺度时序控制的通用目标条件操作策略。给定当前观测和目标视觉状态,该世界模型能生成符合长周期任务结构的中间视觉状态序列。为实现从视觉规划到鲁棒执行的转化,我们引入多尺度时序哈希(MSTH)技术,将预测轨迹分解为密集近端帧(用于细粒度闭环控制)和稀疏远端帧(保障全局任务一致性)。策略通过端到端交叉注意力机制将这些表征与运动控制耦合,在保持局部干扰响应能力的同时实现连贯的长周期行为。Act2Goal在新物体、空间布局及环境场景中展现出强大的零样本泛化能力。通过基于LoRA微调的后视目标重标定技术,我们进一步实现了无需奖励信号的在线自适应,使系统能在无外部监督下快速自主提升。真实机器人实验表明,在具有挑战性的分布外任务中,Act2Goal仅需数分钟自主交互即可将成功率从30%提升至90%,验证了结合多尺度时序控制的目标条件世界模型能为鲁棒的长周期操作提供关键的结构化引导。项目页面:https://act2goal.github.io/
语言智能体日益需要能在其中行动、记忆和学习的持久化世界。现有方法处于两个极端:传统Web框架提供由数据库支持的可靠但固定的上下文,而完全生成式世界模型以牺牲可控性和工程可实现性为代价追求无限环境。本研究提出网络世界模型(WWM)作为折中方案——通过普通网页代码实现世界状态与"物理规则"以确保逻辑一致性,同时由大语言模型基于这种结构化潜状态生成上下文、叙事和高层决策。我们在真实网络技术栈上构建了系列WWM系统,包括基于真实地理的无限旅行图册、虚构星系探索器、网络级百科全书式叙事世界,以及模拟与游戏化环境。通过这些系统,我们总结出WWM的实用设计原则:分离代码定义的规则与模型驱动的想象,将潜状态表示为类型化网络接口,利用确定性生成实现无限但有结构的探索。研究表明,网络技术栈本身可作为世界模型的可扩展基础,实现可控且开放的环境。项目页面:https://github.com/Princeton-AI2-Lab/Web-World-Models。
扩散语言模型(dLLMs)已成为自回归模型的重要替代方案。尽管近期研究验证了其预训练潜力并提升了推理速度,但dLLMs的后训练体系仍不成熟。现有方法存在计算效率低下、训练与推理目标不匹配等问题,严重限制了在数学等复杂推理任务上的性能。为此,我们提出DiRL——一种高效后训练框架,通过将FlexAttention加速的块状训练与LMDeploy优化的推理紧密集成,构建了精简的在线模型更新循环,实现高效的两阶段后训练(监督微调后接强化学习)。基于此框架,我们提出专为dLLMs设计的首个无偏分组相对策略优化算法DiPO。通过使用高质量数学数据训练DiRL-8B-Instruct模型进行验证,该模型在dLLMs中取得最先进的数学推理性能,并在多个基准测试中超越Qwen2.5系列同规模模型。
AI科研助手正逐渐成为协助人类研究人员实现研究目标的重要工具。这类AI助手的核心能力在于能够根据既定目标与约束条件生成研究方案。这些方案既可供研究人员进行头脑风暴,也可在进一步优化后付诸实践。然而,当前语言模型在生成完全符合约束条件和隐性需求的研究方案方面仍存在困难。本研究探索如何利用海量现有科研论文训练语言模型,以生成更优质的研究方案。我们通过自动提取多领域论文中的研究目标及针对性评估标准,构建了可扩展的多样化训练语料库。随后采用带自评机制的强化学习训练方案生成模型:在训练过程中,初始策略的冻结副本充当评分器,评估标准形成的生成-验证差异使模型无需外部人工监督即可实现自我提升。为验证该方法,我们针对机器学习研究目标开展了225小时的人工专家评估。专家在70%的研究目标中更倾向于我们微调后的Qwen3-30B-A3B模型生成的方案,并认可84%的自动提取目标评估标准。为评估普适性,我们将该方法扩展至医学论文和新预印本的研究目标,通过前沿模型陪审团进行评估。微调带来12-22%的相对提升,并展现出显著的跨领域泛化能力,在医学研究等难以获得执行反馈的场景中同样有效。这些发现共同证明,这种可扩展的自动化训练方法有望推动通用AI科研助手的进步。
自主智能体的发展正在重塑信息获取模式,从被动检索转向主动开放的互联网研究。然而,尽管文本与静态多模态智能体已取得快速进展,但在处理网络最具动态性的模态——视频时,仍存在显著的能力断层。现有视频基准主要聚焦被动感知,向模型输入经筛选的视频片段而无需外部检索,无法评估需要主动查询视频时间线、交叉引用分散证据、基于开放网络验证主张的能動性视频研究。为弥补这一空白,我们推出Video-BrowseComp——一个包含210个问题的挑战性基准,专为开放网络环境下的能動性视频推理设计。与既往基准不同,该基准强制要求模型依赖时序视觉证据,确保答案无法仅通过文本搜索获得,而必须通过导航视频时间线来验证外部主张。 我们对前沿模型的评估揭示出关键瓶颈:即使如GPT-5.1(带搜索功能)这样的增强搜索模型,准确率也仅为15.24%。分析表明这些模型严重依赖文本代理,在元数据丰富的领域(如带有剧情摘要的电视剧)表现优异,但在元数据稀疏的动态环境(如体育赛事、游戏实况)中则完全失效,而这些场景恰恰需要视觉 grounding 能力。作为首个开放网络视频研究基准,Video-BrowseComp推动该领域突破被动感知,向能動性视频推理迈进。
在现有的大多数具身导航任务中,指令通常被设定为明确且无歧义的,例如指令跟随和物体搜索。在这种理想化设定下,智能体仅需根据视觉与语言输入生成有效的导航输出。然而,现实世界的导航指令往往存在模糊性和多义性,要求智能体通过主动对话来消除不确定性并推断用户意图。为弥补这一差距,我们提出交互式实例物体导航(IION)任务,该任务要求智能体不仅能生成导航动作,还需通过主动对话产生语言输出,从而更贴近实际应用场景。IION在实例物体导航(ION)基础上扩展,允许智能体在导航过程中以自然语言自由向信息源咨询。基于此任务,我们构建了视觉语言-语言导航(VL-LN)基准,提供大规模自动生成数据集及完整评估协议,用于训练和评估具备对话能力的导航模型。VL-LN包含超过4.1万条包含长程对话的增强轨迹用于训练,以及配备可响应智能体查询信息源的自动评估协议。利用该基准,我们训练了具备对话能力的导航模型,结果表明其性能较基线模型有显著提升。大量实验与分析进一步验证了VL-LN在推动对话式具身导航研究方面的有效性和可靠性。代码与数据集:https://0309hws.github.io/VL-LN.github.io/
全模态大语言模型在音视频模态统一方面取得显著进展,但常缺乏细粒度跨模态理解能力,且难以实现精准的多模态对齐。为解决这些局限,我们提出OmniAgent——一种完全由音频引导的主动感知智能体,通过动态调度专用工具实现更精细的视听推理。与依赖静态工作流和密集帧描述的传统方法不同,本文展示了从被动响应生成到主动多模态探索的范式转变。OmniAgent采用动态规划机制,按需自主调度工具调用,策略性地将感知注意力集中于任务相关线索。我们方法的核心在于新颖的"由粗到精"音频引导感知范式,利用音频线索定位时序事件并引导后续推理。在三个音视频理解基准上的大量实验表明,OmniAgent以10%-20%的准确率优势超越主流开源与商用模型,达到最先进性能水平。
信息检索(IS)智能体在各类广度和深度搜索任务中已展现出卓越性能,但其工具使用仍主要局限于API级别的片段检索和基于URL的页面获取,限制了通过真实浏览获取更丰富信息的能力。尽管完整的浏览器交互可解锁更深层能力,但其细粒度控制和冗长页面内容返回为ReAct式函数调用智能体带来了巨大复杂性。为弥合这一差距,我们提出嵌套式浏览器使用学习(NestBrowse),通过引入极简而完整的浏览器操作框架,采用嵌套结构将交互控制与页面探索解耦。该设计在实现高效深度网络信息获取的同时,简化了智能体推理过程。在具有挑战性的深度IS基准测试中的实证结果表明,NestBrowse在实践中具有显著优势。进一步的深度分析也印证了其高效性与灵活性。
现有实时目标检测方法普遍采用类YOLO架构,以兼顾精度与速度的平衡。然而,这些模型依赖静态密集计算机制,对所有输入进行统一处理,导致表征能力和计算资源分配失当——例如在简单场景中过度分配资源,而在复杂场景中资源不足。这种错配既造成计算冗余,也导致检测性能次优。为突破此局限,我们提出新型类YOLO框架YOLO-Master,首次在实时目标检测中实现实例条件化自适应计算。该框架通过高效稀疏专家混合模块,能根据输入图像的场景复杂度动态分配计算资源。其核心在于轻量级动态路由网络,该网络通过多样性增强目标引导专家在训练过程中实现专业化,促进专家间形成互补性专长。此外,路由网络能自适应激活最相关的专家,在提升检测性能的同时最大限度减少推理时的计算开销。在五大基准数据集上的综合实验表明,YOLO-Master在MS COCO数据集上以1.62毫秒延迟取得42.4%的AP,较YOLOv13-N提升0.8% mAP且推理速度加快17.8%。值得注意的是,该模型在挑战性密集场景中提升尤为显著,同时保持对常规输入的高效处理能力,并始终维持实时推理速度。代码将开源发布。
数据稀缺仍是实现全自主手术机器人的根本障碍。尽管大规模视觉语言动作模型通过利用多领域配对视频动作数据,在家庭和工业操作中展现出卓越的泛化能力,但手术机器人领域却因缺乏同时包含视觉观察与精确机器人运动学的数据集而发展受限。与之形成对比的是,虽然存在海量手术视频资源,但它们缺少对应的动作标签,导致无法直接应用模仿学习或VLA训练。本研究旨在通过从SurgWorld(专为手术物理AI设计的世界模型)学习策略模型来缓解这一问题。我们构建了专门针对手术机器人的手术动作文本对齐数据集,该数据集包含精细化的动作描述。基于最先进的物理AI世界模型和SATA数据集,我们开发了能够生成多样化、可泛化且逼真手术视频的SurgeWorld平台。我们首次采用逆动力学模型从合成手术视频中推断伪运动学数据,从而生成配对的合成视频动作数据。实验证明,在真实手术机器人平台上,采用增强数据训练的手术VLA策略模型性能显著优于仅使用真实演示数据训练的模型。该方法通过利用未标注手术视频资源与生成式世界建模,为自主手术技能获取提供了可扩展路径,从而为开发具有泛化能力和数据高效性的手术机器人策略开辟了新途径。
大型语言模型(LLMs)的激增推动了能够进行复杂推理和工具使用的自主智能体发展。然而,当前智能体架构常采用命令式的临时模式构建,导致系统脆弱性突出,存在状态管理、错误处理和并发控制等难题。本文提出单子化上下文工程(MCE),这一新型架构范式利用函子、应用函子与单子的代数结构,为智能体设计提供形式化基础。MCE将智能体工作流视为计算上下文,其横切关注点(如状态传播、短路错误处理和异步执行)通过抽象代数的内在属性进行管理。我们论证了单子如何实现稳健的顺序组合,应用函子如何为并行执行提供原则性结构,并重点阐明单子变换器如何系统化组合这些能力。这种分层方法使开发者能够从简单且可独立验证的组件出发,构建复杂、鲁棒且高效的人工智能体。我们进一步扩展该框架提出元智能体概念,其利用MCE实现生成式编排,通过元编程动态创建并管理子智能体工作流。项目页面:https://github.com/yifanzhang-pro/monadic-context-engineering。
智能语言模型(LM)系统驱动着"深度研究"和"Claude代码"等现代应用,通过多LM架构突破上下文限制。这些系统表面差异背后存在统一模式:较小的"压缩器"LM(甚至可本地运行)将原始上下文提炼为紧凑文本,再由较大的"预测器"LM处理。尽管此类系统广受欢迎,其设计仍多依赖经验法则,缺乏关于压缩器与预测器选择如何影响下游性能的指导。实践中,区分性能提升源自压缩还是预测需耗费高昂的任务特定配对实验。我们认为这些智能系统设计问题本质上是信息论问题。通过将压缩器LM视作噪声信道,我们提出一种简单的互信息估计器,以任务无关方式量化压缩质量。研究表明,互信息能独立于具体任务强预测下游性能。基于信息论框架,我们在五个数据集和三个模型族上展开全面实证分析。结果显示:更大压缩器不仅更精确,且具备更高标记效率——每个标记传递更多比特信息。例如,70亿参数的Qwen-2.5压缩器相比其15亿参数版本,准确度提升1.6倍,压缩简洁度提高4.6倍,单标记传递互信息量增加5.5倍。跨数据集实验表明,扩展压缩器比扩展预测器更有效,使得更大本地压缩器可搭配较小云端预测器。将这一原则应用于深度研究系统时,仅30亿参数的本地压缩器就能以26%的API成本恢复前沿LM 99%的准确度。
近期,计算机视觉领域通过利用3D高斯溅射(3D-GS)技术,成功将开放词汇分割(OVS)扩展至三维领域。尽管取得这一进展,如何高效渲染开放词汇查询所需的高维特征仍面临重大挑战。现有方法采用码本或特征压缩技术,导致信息丢失进而降低分割质量。为解决此局限,我们提出分位数渲染(Q-Render)——一种针对3D高斯体的新型渲染策略,能在保持高保真度的同时高效处理高维特征。与传统体渲染需对每条射线相交的所有3D高斯体进行密集采样不同,Q-Render仅对射线路径上具有主导影响的高斯体进行稀疏采样。通过将Q-Render集成至可泛化的三维神经网络,我们同时提出高斯溅射网络(GS-Net),该网络能以可泛化方式预测高斯特征。在ScanNet和LeRF数据集上的大量实验表明,我们的框架在实现实时渲染(对512维特征图加速约43.7倍)的同时,性能优于现有最优方法。代码将公开发布。
强化学习(RL)在现实世界机器人应用中的主要障碍在于有效奖励函数的设计。尽管近年来基于学习的进程奖励模型(PRMs)展现出潜力,但它们常受两个根本性局限制约:其奖励模型缺乏步骤感知理解能力且依赖单视角感知,导致对细粒度操作进程的评估不可靠;其奖励塑造过程理论依据不足,常引发误导策略优化的语义陷阱。为此,我们提出Dopamine-Reward——一种从多视角输入中学习通用步骤感知进程奖励模型的新方法。其核心是通用奖励模型(GRM),该模型基于超过3,400小时数据集训练,通过步骤化奖励离散化实现结构化理解,并利用多视角奖励融合突破感知局限。基于Dopamine-Reward,我们进一步提出Dopamine-RL鲁棒策略学习框架,采用理论完备的策略不变奖励塑造方法,使智能体能利用密集奖励实现高效自我提升而不改变最优策略,从而从根本上规避语义陷阱。跨多种模拟与真实任务的实验验证了本方法的有效性:GRM在奖励评估中达到最先进精度,基于GRM的Dopamine-RL显著提升策略学习效率。例如,当GRM通过单次专家轨迹自适应新任务后,所得奖励模型可使Dopamine-RL仅用150次在线 rollout(约1小时真实机器人交互)将策略成功率从接近零提升至95%,并保持优秀的跨任务泛化能力。项目网站:https://robo-dopamine.github.io
生成模型的快速发展导致多模态安全风险不断涌现,暴露出传统防御方法的局限性。为应对这些挑战,我们提出ProGuard——一种视觉语言主动防护系统,无需传统被动方法所需的模型调整即可识别并描述分布外安全风险。我们首先构建了包含8.7万个样本的模态平衡数据集,每个样本在分层多模态安全分类体系下均标注有二元安全标签和风险类别,有效缓解模态偏差并确保对文本、图像及图文混合输入的一致性审核。基于该数据集,我们通过纯强化学习训练视觉语言基础模型,实现高效简洁的推理。为在受控环境中模拟主动安全场景,我们进一步引入分布外安全类别推断任务,并采用基于同义词库的相似度奖励增强强化学习目标,激励模型对未知风险类别生成简洁描述。实验结果表明,ProGuard在二元安全分类任务上达到与闭源大模型相当的性能,在不安全内容分类上显著优于现有开源防护模型。尤为突出的是,该系统展现出强大的主动审核能力,将分布外风险检测和风险描述能力分别提升52.6%和64.8%。
现有基于AI的视频创作系统通常将剧本草拟与关键镜头设计视为两个独立任务:前者依赖大语言模型,后者依托图像生成模型。我们认为这两个任务应当统一于单一框架内,因为逻辑推理与想象力思维同属电影导演的基本素养。本研究提出UniMAGE统一导演模型,通过连接用户提示与结构化剧本,赋能非专业用户借助现有音视频生成模型创作长上下文、多镜头的影片。为实现这一目标,我们采用混合Transformer架构统一文本与图像生成。为进一步增强叙事逻辑与关键帧一致性,我们提出"先交错后解耦"的训练范式:首先进行交错概念学习,利用交错式图文数据促进模型对剧本的深度理解与想象诠释;随后实施解耦专家学习,将剧本写作与关键帧生成分离,以提升故事叙述的灵活性与创造性。大量实验表明,UniMAGE在开源模型中实现了最优性能,能生成逻辑连贯的视频剧本与视觉一致的关键帧图像。
实时人像动画在虚拟助手、实时虚拟形象等交互应用中至关重要,这类应用要求具备高视觉保真度、时序连贯性、超低延迟能力,并能根据参考图像与驱动信号等动态输入做出即时响应。尽管基于扩散模型的方案能实现优异画质,但其非因果特性阻碍了流式部署。因果自回归视频生成方法虽支持逐帧高效生成,但存在误差累积、片段边界运动不连续以及长期一致性退化等问题。本研究提出名为"结式强制"的新型流式框架,通过三项核心设计解决上述挑战:(1)采用分块生成策略,通过缓存参考图像的KV状态实现全局身份保持,并利用滑动窗口注意力进行局部时序建模;(2)设计时序结模块,通过重叠相邻数据块并借助图像-视频条件传递时空线索,平滑片段间运动过渡;(3)引入"前瞻运行"机制,在推理过程中动态更新参考帧的时序坐标,使其语义语境始终领先于当前生成帧,从而保障长期连贯性。该框架可在消费级GPU上实现无限序列的高保真实时人像动画,在保持强视觉稳定性的同时达到实时性能。
评估各类模型架构(如Transformer、大语言模型及其他自然语言处理系统)的性能需要能够多维度衡量的综合基准。其中,自然语言理解能力的评估尤为关键,因其是衡量模型能力的核心标准。因此,建立能从多视角全面评估分析NLU能力的基准体系至关重要。尽管GLUE基准为英语NLU评估树立了标杆,其他语言也相继开发了类似基准——如中文CLUE、法语FLUE和日文JGLUE,但目前土耳其语仍缺乏可比拟的评估基准。为填补这一空白,我们推出土耳其语综合基准TrGLUE,涵盖多种NLU任务,并专门针对情感分析提出SentiTurca基准。为支持研究者,我们还提供了基于Transformer模型的微调与评估代码,以促进这些基准的有效使用。TrGLUE包含精心构建的土耳其语原生语料库,其设计思路延续GLUE式评估的领域覆盖与任务框架,标签获取采用结合强LLM自动标注、跨模型一致性校验及人工验证的半自动化流程。该设计优先保证语言自然度,最大限度减少直接翻译痕迹,形成可扩展、可复现的工作流。通过TrGLUE,我们旨在为土耳其语NLU建立稳健的评估框架,为研究者提供宝贵资源,并为生成高质量半自动化数据集提供方法论参考。
提升深度学习推荐模型(DLRM)训练与推理的速度和效率至关重要,但这一目标面临三大系统挑战:模型架构多样性、内核原语多样性,以及硬件代际与架构异构性。本文提出KernelEvolve——一种智能内核编码框架,旨在规模化解决DLRM的异构性问题。该框架通过接收内核规范作为输入,自动化实现跨异构硬件架构的推荐模型内核生成与优化。KernelEvolve在多层编程抽象上运行,从Triton和CuTe领域专用语言到底层硬件无关语言,覆盖完整的软硬件优化栈。其内核优化过程被建模为基于图的搜索,通过选择策略、通用算子、适应度函数和终止规则动态适配运行时执行环境,并借助检索增强的提示合成技术实现自适应优化。我们设计、实现并部署KernelEvolve,用于优化跨代际英伟达与AMD GPU以及Meta自研AI加速器上的多种生产级推荐模型。在公开测试集KernelBench上的验证表明,该框架在三个难度级别的250个问题中实现100%通过率,并在三种异构硬件平台上完整支持160个PyTorch ATen算子,正确率达到100%。KernelEvolve将开发周期从数周缩短至数小时,在多样化生产场景和规模化异构AI系统中较PyTorch基线实现显著性能提升。除性能优化外,该框架通过为内部开发的AI硬件提供自动化内核生成能力,显著降低了新型AI硬件的编程门槛。
我们提出自评估模型(Self-E),这是一种新颖的文本到图像生成从头训练方法,支持任意步数推理。Self-E采用与流匹配模型类似的数据学习方式,同时引入创新的自评估机制:模型利用当前分数估计对自身生成样本进行评估,实质上充当了动态自监督教师。与传统扩散模型或流模型不同,该方法不依赖通常需要多步推理的局部监督;与基于蒸馏的方法相比,它无需预训练教师模型。这种即时局部学习与自驱动全局匹配的结合,成功弥合了两种范式间的鸿沟,使得从头训练出的高质量文本到图像模型即使在极低步数下也能表现出色。在大规模文本到图像基准测试上的广泛实验表明,Self-E不仅在少步生成中表现卓越,在50步推理时亦可与最先进的流匹配模型媲美。我们进一步发现其性能随推理步数增加呈单调提升趋势,使得单个统一模型既能实现超快速少步生成,又能完成高质量长轨迹采样。据我们所知,Self-E是首个支持任意步数的从头训练文本到图像模型,为高效可扩展生成提供了统一框架。
我们意外发现,即使所有思维链追踪都指向错误答案,通过使用更强模型生成的思维链追踪合成数据集进行训练,仍能提升语言模型的推理能力。实验表明,该方法在推理任务上的表现优于基于人工标注数据集的训练。我们推测两个关键因素可解释此现象:首先,合成数据的分布本质上更接近语言模型自身的分布,从而更易于学习;其次,这些"错误"追踪往往仅存在部分缺陷,其中包含模型可借鉴的有效推理步骤。为验证第一点,我们使用语言模型对人工标注的思维链进行复述——使其分布更接近模型自身分布——结果表明该方法能提升性能。针对第二点,我们引入缺陷程度递增的思维链追踪,研究模型对这些缺陷的容忍度。我们在数学、算法推理和代码生成等多个推理领域(使用MATH、GSM8K、Countdown和MBPP数据集),基于Qwen、Llama和Gemma等系列的1.5B至9B参数规模语言模型验证了上述发现。研究表明,构建更接近模型分布的数据集是值得关注的关键要素。我们还发现,正确答案并非总是可靠推理过程的指标。
近期文本到图像的扩散模型在基于文本提示和人类身份生成逼真人脸图像方面展现出卓越能力,实现了个性化面部图像的创建。然而,现有基于提示的方法在移除或修改特定身份特征时,要么依赖预训练模型已充分学习的主体特征,要么需要对特定身份进行模型微调。本研究通过分析身份特征生成过程,提出了一种面向人脸匿名化的逆向个性化框架。该方法利用条件扩散反演技术,无需文本提示即可直接操作图像。为泛化至模型训练数据之外的主体,我们引入了身份引导的条件分支。与先前缺乏面部属性控制的匿名化方法不同,本框架支持属性可控的匿名化。实验表明,我们的方法在身份消除、属性保留和图像质量方面达到了最优平衡。源代码与数据详见https://github.com/hanweikung/reverse-personalization。