每日精选AI研究论文及翻译
人类通过多模态协同学习抽象概念,一旦形成概念表征,往往能通过单一模态进行回忆。受此原理启发,我们提出Concerto——一种极简化的空间认知概念学习模拟框架,融合了3D模态内自蒸馏与2D-3D跨模态联合嵌入。尽管架构简洁,但如零样本可视化所示,Concerto能学习到更具连贯性和信息量的空间特征。在3D场景感知的线性探测任务中,其性能分别超越独立的SOTA级2D和3D自监督模型14.2%与4.8%,也优于它们的特征拼接组合。经过完整微调后,Concerto在多个场景理解基准测试中创下新纪录(如ScanNet数据集上达80.7% mIoU)。我们还提出了专为视频升维点云空间理解定制的Concerto变体,以及将Concerto表征线性投影至CLIP语言空间的翻译器,从而实现开放世界感知。这些成果表明,Concerto衍生的空间表征具有更优越的细粒度几何与语义一致性。
现实世界任务需要不同粒度的决策能力,人类凭借统一的认知表征在此方面表现出色——在这种认知框架中,规划本质上被理解为一种高层级的行为形式。然而,当前基于大语言模型(LLM)的智能体缺乏这种跨决策粒度流畅操作的关键能力。这一局限源于现有范式对高层规划与底层行动进行严格割裂,既损害了动态适应性,也限制了泛化能力。我们提出ReCode(递归代码生成)这一新范式,通过将规划与行动统一在单一代码表征中来解决此问题。在该表征中,ReCode将高层计划视为抽象占位函数,智能体随后将其递归分解为更细粒度的子函数,直至抵达原始动作层级。这种递归方法消解了规划与行动之间的刚性边界,使智能体能够动态控制决策粒度。此外,递归结构本身会生成丰富的多粒度训练数据,使模型能够学习层级化决策过程。大量实验表明,ReCode在推理性能上显著超越先进基线,并展现出卓越的训练数据效率,验证了我们的核心观点:通过递归代码生成统一规划与行动,是实现通用粒度控制的高效方法。代码已开源于https://github.com/FoundationAgents/ReCode。
大型语言模型(LLMs)的飞速发展催生了数据智能体——一种旨在协调"数据+AI"生态系统以处理复杂数据任务的自主系统。然而,"数据智能体"这一术语目前存在定义模糊和应用不一致的问题,常将简单的查询应答系统与复杂的自主架构混为一谈。这种术语模糊性易导致用户期望错位、责任归属难题,并阻碍行业发展。受汽车自动驾驶领域SAE J3016标准的启发,本综述首次提出数据智能体的系统化分级框架,包含从人工操作(L0)到生成式全自主数据智能体(L5)的六个层级,清晰界定了能力边界与责任分配。基于此框架,我们按自主程度递增的顺序对现有研究进行结构化梳理,涵盖专注于数据管理、准备和分析的专用数据智能体,以及向多功能综合系统演进的前沿探索。进一步地,我们分析了推进数据智能体发展的关键跃迁点与技术鸿沟,特别是当前正在发生的从L2到L3的转型——数据智能体正从流程执行迈向自主协调。最后,我们提出前瞻性发展路线图,展望具有主动性与生成能力的数据智能体的到来。
直接对原始数据分布进行显式似然建模是机器学习领域的核心课题,通过自回归建模实现的大语言模型已展现出规模化成功。然而,在视觉像素数据上实施连续自回归建模面临着序列极长和高维空间的挑战。本文提出FARMER——一种融合归一化流与自回归模型的新型端到端生成框架,可直接基于原始像素实现可处理的似然估计与高质量图像合成。FARMER采用可逆自回归流将图像转换为潜在序列,其分布由自回归模型进行隐式建模。针对像素级建模中的冗余性与复杂性,我们提出自监督降维方案,将归一化流潜在通道划分为信息组与冗余组,从而实现更高效的自回归建模。此外,我们设计了一步蒸馏方案以显著加速推理速度,并引入基于重采样的无分类器引导算法来提升图像生成质量。大量实验表明,FARMER在提供精确似然估计和可扩展训练的同时,与现有基于像素的生成模型相比具有竞争优势。
当前视觉-语言-动作模型常受限于僵化、静态的交互范式,缺乏同步观察、聆听、表达与执行的能力,且无法动态处理实时用户中断。这种局限性阻碍了具身智能体的无缝协同,导致用户体验僵硬且响应迟缓。为解决这些问题,我们提出VITA-E——一种创新性具身交互框架,兼具行为并发与准实时中断处理能力。该框架的核心是双模型架构:两个并行运行的VLA实例分别作为"主动模型"和"待机模型",使具身智能体能够像人类多任务处理那样,同步且可中断地执行环境感知、语音监听、对话回应及动作执行。我们进一步提出"模型即控制器"范式,通过微调视觉语言模型生成特殊标记作为直接系统指令,将模型推理与系统行为紧密耦合。在实体人形机器人平台上的实验表明,VITA-E能可靠处理复杂交互场景。本框架兼容多种双系统VLA模型,在紧急停止和语音中断场景中实现极高成功率,同时成功完成语音与动作的并发执行。这一研究为构建更自然、更强大的具身辅助系统迈出重要一步。
音频驱动的人体动画模型在时序自回归生成过程中常出现身份漂移问题,即角色随时间推移逐渐丧失身份特征。现有解决方案通过生成关键帧作为中间时序锚点来防止质量退化,但这需要额外增加关键帧生成阶段,且可能限制自然运动动态。为此,我们提出前瞻锚定技术,其核心在于利用当前生成窗口前方未来时间步的关键帧,而非窗口内部的关键帧。这种方法将关键帧从固定边界转换为方向性航标:模型在响应即时音频线索的同时持续追踪这些未来锚点,通过持久化引导保持身份一致性。该技术还可实现自关键帧生成,即将参考图像直接作为前瞻目标,完全省去关键帧生成步骤。我们发现前瞻时间距离能自然控制表现力与一致性之间的平衡:较大距离允许更大幅度的运动自由度,较小距离则强化身份特征保持。在三个最新人体动画模型上的实验表明,前瞻锚定技术实现了更优的唇形同步度、身份保持度和视觉质量,在不同架构上均展现出改进的时序条件控制效果。视频结果请访问:https://lookahead-anchoring.github.io。
人类自然地将三维世界的几何结构与语义内容视为相互交织的维度,这种认知机制使得我们能够对复杂场景形成连贯且精准的理解。然而,现有方法大多侧重于训练大型几何模型进行低层次三维重建,并将高层次空间理解作为独立任务处理,忽视了三维场景分析中这两个基本维度间的关键互动,从而限制了模型的泛化能力,导致下游三维理解任务表现不佳。近期研究尝试通过简单对齐三维模型与特定语言模型来缓解该问题,但这种方法将感知能力局限于对齐模型的固有容量,难以适应下游任务的多样化需求。本文提出实例化几何 Transformer(IGGT),这是一种端到端的大型统一Transformer架构,旨在融合空间重建与实例级上下文理解的双重知识。具体而言,我们设计了一种三维一致性对比学习策略,指导IGGT仅通过二维视觉输入,就能编码出融合几何结构与实例化聚类信息的统一表征。该表征支持将二维视觉输入一致性地提升为具有明确区分对象实例的连贯三维场景。为推进此项研究,我们进一步构建了InsScene-15K大规模数据集,该数据集通过新颖的数据构建流程,提供了高质量RGB图像、位姿、深度图及三维一致性实例级掩码标注。
扩散模型与流匹配模型已成为强大的机器人策略,使视觉-语言-动作模型能够泛化至多样场景与指令。然而,当通过模仿学习进行训练时,其强大的生成能力会使其对人类演示数据中的噪声(如急动、停顿和抖动)高度敏感,这些噪声会降低动作连贯性。动作连贯性的下降将导致部署过程中出现不稳定和轨迹漂移,在需要精确操作的细粒度操控任务中,这类失败可能造成灾难性后果。本文提出面向VLA模型的动作连贯性引导算法(ACG),该无需重新训练即可在测试阶段应用的引导算法能有效提升动作连贯性,进而提高任务性能。在RoboCasa、DexMimicGen及真实世界SO-101任务上的评估表明,ACG能持续提升动作连贯性,并在多种操控任务中显著提高成功率。代码与项目页面分别发布于https://github.com/DAVIAN-Robotics/ACG 与 https://DAVIAN-Robotics.github.io/ACG。
文本嵌入模型是现实世界搜索应用中的核心组件。通过将查询和文档映射到共享的嵌入空间,它们能以较高效率实现具有竞争力的检索性能。然而,与专用重排器相比,其排序保真度仍存在局限,特别是相较于近期基于大语言模型的列表级重排器——后者能捕捉细粒度的查询-文档及文档-文档交互关系。本文提出一种简洁而有效的统一框架E^2Rank(意为高效基于嵌入的排序,亦指嵌入到排序的转换),通过基于列表级排序目标的持续训练,将单一文本嵌入模型扩展为兼具高质量检索与列表级重排能力的系统,从而在保持卓越效率的同时实现强劲的排序效果。该框架以查询与文档嵌入间的余弦相似度作为统一排序函数,通过原始查询及其候选文档构建的列表级排序提示,可视为融合了Top-K文档信号的增强型查询,类似于传统检索模型中的伪相关反馈机制。这一设计在保留基础嵌入模型效率与表征质量的同时,显著提升了其重排性能。实验表明,E^2Rank在BEIR重排基准测试中达到最先进水平,在需要深度推理的BRIGHT基准测试中展现出竞争优势,且重排延迟极低。我们还发现排序训练过程能提升模型在MTEB基准上的嵌入性能。研究结果表明,单一嵌入模型可有效统一检索与重排任务,兼具计算效率与竞争优势的排序准确性。
大型多模态模型在生成逼真且符合提示要求的图像方面取得了显著进展,但其输出结果常与可验证知识相矛盾,尤其在涉及细粒度属性或时效性事件的提示场景下。传统检索增强方法试图通过引入外部信息来解决此问题,但由于依赖静态知识源和浅层证据整合,本质上无法将生成过程锚定于准确且动态演进的知识。为弥补这一缺陷,我们提出ORIG——一种面向事实性图像生成任务的智能开放式多模态检索增强框架。该框架通过迭代式检索和筛选网络多模态证据,逐步将精炼知识整合至增强提示中以指导图像生成。为支持系统化评估,我们构建了FIG-Eval基准数据集,涵盖感知、组合及时态三个维度的十大类别。实验表明,ORIG在强基线模型基础上显著提升了事实一致性与整体图像质量,彰显了开放式多模态检索在事实性图像生成领域的应用潜力。
视频生成是实现世界模型的关键路径,其中高效的长视频推理能力尤为重要。为此,我们推出LongCat-Video——一个拥有136亿参数的基础视频生成模型,在多项视频生成任务中表现卓越。该模型尤其擅长高效生成高质量长视频,是我们构建世界模型的首个里程碑。其核心特性包括:多任务统一架构:基于扩散Transformer(DiT)框架,单一模型即可支持文本生成视频、图像生成视频及视频续写任务;长视频生成能力:通过视频续写任务的预训练,LongCat-Video能在生成数分钟时长视频时保持优异画质与时序连贯性;高效推理机制:采用时空维度由粗到精的生成策略,结合块稀疏注意力机制,可在数分钟内生成720p/30fps视频,尤其在高分辨率下效率优势显著;多奖励强化学习优化:经过多奖励RLHF训练,其性能媲美最新闭源模型及领先开源模型。代码与模型权重已开源,以加速领域研究进展。
多头注意力机制(MHA)已成为现代大语言模型的基石,通过并行注意力头增强表征能力。然而,增加头数会天然削弱单个头的容量,且现有注意力机制——无论是标准MHA还是其变体如分组查询注意力(GQA)和分组绑定注意力(GTA)——都只是简单拼接孤立头的输出,缺乏强交互性。为解决这一局限,我们提出碰撞头注意力机制(KHA),使注意力头能够在缩放点积注意力计算前相互“碰撞”,实现跨头的特征级交互。这是通过在所有头上应用共享且对角线初始化的投影矩阵实现的。对角线初始化在训练初期保持头的特异性,同时让模型逐步学习融合的跨头表征。KHA仅增加极少的参数和浮点运算量,可无缝集成到MHA、GQA、GTA等注意力变体中。我们通过使用1万亿高质量token训练60.1亿参数(激活10.1亿)的混合专家模型验证KHA。相较于基线注意力机制,KHA带来更优且更稳定的训练动态,在下游任务中取得更佳性能。
奖励模型在将AI行为与人类偏好对齐方面发挥着关键作用,但仍面临两大核心挑战:(1)模态失衡——现有模型主要聚焦文本与图像模态,对视频、音频等其他模态的支持有限;(2)偏好固化——基于固定二元偏好对的训练难以捕捉个性化偏好的复杂性与多样性。为此,我们提出Omni-Reward,这一通用全模态奖励建模框架通过以下三方面实现自由形式偏好的支持:(1)评估体系:构建首个支持自由形式偏好的全模态基准Omni-RewardBench,涵盖文本、图像、视频、音频及3D五大模态的九类任务;(2)数据构建:整合24.8万通用偏好对与6.9万指令调优对,形成多模态偏好数据集Omni-RewardData;(3)模型设计:提出包含判别式与生成式奖励模型的Omni-RewardModel,在Omni-RewardBench及主流奖励建模基准上均表现优异。
多模态大语言模型(MLLMs)已在开放世界视觉理解任务中展现出强大的通用能力。然而,现有MLLM主要侧重于整体场景级理解,往往忽视了细粒度、以对象为中心的推理需求。本文提出PixelRefer——一个统一的区域级MLLM框架,能够对图像和视频中用户指定区域实现先进的细粒度理解。基于大语言模型注意力机制主要聚焦于对象级标记的观察,我们设计了尺度自适应对象标记器(SAOT),从任意形状区域生成紧凑且语义丰富的对象表征。分析表明全局视觉标记主要作用于大语言模型的浅层,由此启发我们开发了高效变体PixelRefer-Lite。该模型通过对象中心注入模块将全局上下文预融合至对象标记,形成轻量化的纯对象框架,在保持高语义保真度的同时显著降低计算成本。为支持细粒度指令调优,我们构建了高质量对象中心指令数据集PixelRefer-2.2M。大量实验表明:PixelRefer在减少训练数据量的情况下仍取得领先性能,而PixelRefer-Lite在保持竞争力的准确率同时实现了显著的效率提升。
可验证奖励强化学习(RLVR)在数学与编程领域的应用已显著提升大语言模型的推理与问题解决能力。尽管该技术在单次生成问题求解中表现成功,但强化学习微调过程可能削弱模型的探索能力,具体表现为生成多样性的下降,进而导致在大N值的最佳N采样(Best-of-N)中性能退化。本研究聚焦于优化max@k指标——该指标是pass@k的连续泛化形式。我们推导出用于直接优化该指标的无偏同策略梯度估计,并将推导延伸至现代RLVR算法中常见的异策略更新机制,以提升样本效率。实验表明,我们的目标函数能有效优化异策略场景下的max@k指标,使模型与最佳N推理策略保持一致。
近年来,统一多模态模型在能力与通用性方面取得显著突破,但主流系统仍多采用从头训练的范式且需消耗大量算力资源。本文提出通过策略性融合专精于生成或理解任务的公开模型,即可用更高效率实现具有竞争力的性能。我们的核心设计是在保留原始网络块的同时,全域穿插多模态自注意力模块。这种双重融合机制具有两大优势:(1)在充分实现多模态融合的同时,最大限度保留基座模型的原始优势;(2)促使理解编码器的高级语义表征与生成编码器的低级空间信号产生协同融合。该方法仅需约350亿标记的训练量,便在多项基准测试中取得优异表现:组合式文生图任务GenEval得分0.91,复杂文生图任务DPG-Bench得分82.16,图像编辑任务GEditBench与ImgEdit-Bench分别获得6.06和3.77分。我们完整开源代码、模型权重及数据集,以助力统一多模态建模的未来研究。
多模态大语言模型(MLLMs)中的视觉-语言对齐通常依赖于监督微调(SFT)或强化学习(RL)。SFT方法稳定高效但需大规模人工标注且难以捕捉细微偏好,而RL虽引入奖励信号进行训练,却存在计算开销大与稳定性不足的问题。这些局限凸显了可扩展性、鲁棒性以及对齐质量之间的权衡。为此,我们提出MergeMix——一种连接SFT与RL的训练时增强范式。该方法首先通过具有更强聚类表征与空间上下文感知的令牌融合实现注意力感知的图像混合,随后构建混合图像与原始图像的偏好对,并采用SimPO损失函数优化,形成偏好驱动的MLLMs训练范式。作为混合增强技术,MergeMix通过提升注意力一致性与训练效率,在分类任务中超越了其他基于启发式的方法。大量实验表明,MergeMix在保持竞争力的分类准确率同时显著提升效率,为分类任务与MLLMs的偏好对齐提供了可扩展的解决方案。
强化学习(RL)在提升大语言模型(LLM)推理能力方面展现出巨大潜力。然而,现有基于RL的LLM方法严重依赖人工标注数据集和可验证奖励机制,这限制了其扩展性与泛化能力。受游戏和围棋领域成功范式启发,近期自博弈RL方法试图摆脱人类标注数据来增强LLM推理能力,但这些方法主要依赖具身环境反馈(如Python解释器或游戏引擎),难以推广至通用领域。为解决这些挑战,我们提出多智能体进化框架(MAE),使LLM能够在数学、推理及常识问答等多元任务中实现自我进化。MAE的核心设计基于同一LLM实例化的三智能体交互架构(提议者、求解者、评判者),通过强化学习优化其行为:提议者生成问题,求解者尝试解答,评判者则在协同进化过程中进行双向评估。基于Qwen2.5-3B-Instruct模型的实验表明,MAE在多项基准测试中平均提升4.54%。这些结果证明MAE是一种可扩展、数据高效的方法,能以最小化的人类监督依赖显著提升LLM的通用推理能力。
对机器人通才——即能够跨多样环境执行多种任务的可指导智能体——的追求,需要建立严谨且可扩展的评估体系。然而现实世界中的机器人策略测试仍存在根本性局限:人力投入密集、效率低下、大规模测试存在安全隐患且难以复现。现有仿真基准同样受限,因其仅在相同合成域内训练和测试策略,无法评估基于真实世界演示或替代仿真环境训练的模型。随着策略范围与复杂度的提升,这些障碍只会加剧——毕竟机器人领域的"成功"定义往往取决于人类对执行质量的精细判断。本文提出新型基准框架,通过将视觉语言动作模型评估迁移至结合在线人类反馈的大规模仿真环境,成功突破上述困境。依托视觉语言模型、2D到3D生成建模及可微分渲染等技术进展,我们的方法能自动将广泛使用的机器人数据集中的视频演示转化为仿真环境中的数字孪生体。在这些数字孪生体中,我们既采用自动化视觉语言模型引导评分,又通过众包工人收集可扩展的人类偏好判断,从而将人类参与从繁琐的场景设置、重置和安全监控转变为轻量级的偏好比较。为衡量鲁棒性,我们沿纹理、物体布局等多维度系统扰动仿真环境,在受控变量下对策略泛化能力进行压力测试。最终构建出一个持续演进、可复现、可扩展的基准体系,专门针对真实世界训练的机器人操作策略,填补了当前机器人技术生态中的关键能力空白。
现有方法通常依赖大规模微调来使大语言模型适应信息重排序任务,计算成本高昂。本研究证明,现代大语言模型仅需少量高质量监督数据即可有效适配。为此,我们设计了可复用、开源的LIMRANK-SYNTHESIZER流程,用于生成多样化、高难度且贴近实际的重排序样本。基于此合成数据,我们微调出重排序模型LIMRANK。在BRIGHT(推理密集型检索)和FollowIR(指令遵循检索)两个高难度基准测试中,LIMRANK仅使用前人研究不足5%的训练数据就实现了具有竞争力的性能。进一步的消融实验验证了LIMRANK-SYNTHESIZER的有效性,并证明LIMRANK在科学文献检索和面向知识密集型问题解决的检索增强生成等下游任务中具备强大的泛化能力。
大型语言模型(LLMs)已成为开发者在代码相关任务中的重要助手。虽然LLMs在代码生成和缺陷修复等传统编程任务中表现出色,但在视觉导向的编码任务中往往难以达到理想的美学效果。本文提出了一种提升LLM生成代码美学质量的新流程:首先构建了专注于代码美学的AesCode-358K大规模指令调优数据集;继而提出代理奖励反馈机制——通过多智能体系统评估代码可执行性、静态美学和交互美学;在此基础上开发GRPO-AR算法,将上述评估信号整合至GRPO算法中,实现功能性与代码美学的联合优化;最后建立了用于评估代码美学的OpenDesign基准测试集。实验结果表明,结合AesCode-358K监督微调与代理奖励反馈强化学习的方案,在OpenDesign基准上取得显著提升,同时在PandasPlotBench等现有基准测试中也表现优异。值得注意的是,我们提出的AesCoder-4B模型在美学质量评估中超越GPT-4o和GPT-4.1,其表现与参数量达4800亿-6850亿的大型开源模型相当,有力验证了本方法的有效性。
图像自回归模型已成为视觉生成模型的重要范式。尽管性能优异,但由于需要大量采样步骤,其生成速度较慢。虽然近期提出的蒸馏解码一代(DD1)实现了图像自回归模型的少步采样,但在单步采样场景下仍存在明显性能下降,且依赖预定义映射限制了灵活性。本研究提出新方法蒸馏解码二代(DD2),进一步推进图像自回归模型单步采样的可行性。与DD1不同,DD2无需依赖预定义映射。我们将原始自回归模型视为教师模型,其在潜在嵌入空间的每个标记位置提供真实条件分数。基于此,提出新颖的条件分数蒸馏损失函数来训练单步生成器:通过训练独立网络预测生成分布的条件分数,并在每个标记位置基于前序标记进行分数蒸馏。实验表明,DD2在ImageNet-256数据集上实现单步采样时,FID指标仅从3.40微增至5.43。相较于最强基线DD1,DD2将单步采样与原始自回归模型的性能差距缩小67%,同时训练速度最高提升12.3倍。DD2向单步自回归生成目标迈出重要一步,为快速高质量的AR建模开辟了新可能。代码已开源于https://github.com/imagination-research/Distilled-Decoding-2。
物理模拟依赖于空间变化的力学属性,这些属性通常需要耗费大量精力手动制作。VoMP作为一种前馈式方法,通过训练能够预测三维物体整体体积范围内的杨氏模量(E)、泊松比(ν)和密度(ρ),适用于任何可渲染并体素化的三维表示形式。该方法通过聚合每个体素的多视角特征,并将其输入经过训练的几何变换器,以预测各体素的材料潜在编码。这些潜在编码位于物理合理材料构成的流形上,该流形通过真实世界数据集学习得到,确保了解码后各体素材料的有效性。为获取物体级训练数据,我们提出结合分割三维数据集、材料数据库和视觉语言模型知识的标注流程,并建立了新基准测试。实验表明,VoMP能精准估算体积属性,在精度与速度上远超现有技术。
我们推出PRISM-Bench——一个基于谜题的视觉挑战基准,其设计目标不仅在于评估模型能否解决问题,更在于揭示模型的推理过程。与仅衡量最终答案准确性的传统评估方法不同,PRISM-Bench引入了一项诊断性任务:给定一个视觉谜题和包含恰好一处错误的逐步思维链(CoT),模型必须识别出第一个错误步骤。这一设定能对逻辑一致性、错误检测能力和视觉推理进行细粒度评估。该基准中的谜题需要多步骤符号推理、几何推理及类比推理,有效规避了基于表面模式匹配的捷径解法。对前沿多模态大模型(MLLM)的评估表明,流畅生成与忠实推理之间存在持续差距:能生成合理思维链的模型往往难以定位简单的逻辑错误。通过将答案生成与推理验证相分离,PRISM-Bench为评估多模态推理能力提供了更精准的标尺,并凸显了在开发可信MLLM过程中实施诊断性评估机制的必要性。
当前的三维/四维生成方法通常以提升真实感、效率与美学表现为优化目标,但往往难以在不同视角下保持主体的语义一致性。基于特定主体单张或少量图像进行生成方法适配(即个性化或主体驱动生成),可创造出与主体身份特征相符的视觉内容。然而,个性化三维/四维生成领域仍存在大量探索空间。本研究提出TIRE(追踪-修复-重融)这一创新性主体驱动三维/四维生成方法:首先以现有三维生成模型输出的初始三维资产作为输入,通过视频追踪技术定位需修改区域;随后采用主体驱动的二维修复模型对目标区域进行渐进式填充;最终将修改后的二维多视角观测数据重融合至三维空间并保持一致性。大量实验表明,相较于现有先进方法,本方案在三维/四维生成的身份特征保持方面实现显著提升。项目网站详见:https://zsh2000.github.io/track-inpaint-resplat.github.io/。
基于单张图像进行照片级真实感的三维全身人体重建,在影视和游戏应用中至关重要却极具挑战性,这源于固有的模糊性和严重的自遮挡问题。现有方法虽能通过SMPL模型估计和基于SMPL的图像生成模型生成新视角图像,但存在SMPL网格三维先验估计不准、难以处理复杂人体姿态及重建精细细节的局限。本文提出SyncHuman创新框架,首次将二维多视角生成模型与三维原生生成模型相结合,即使在挑战性姿态下也能实现单视角图像的高质量着装人体网格重建。多视角生成模型擅长捕捉二维细节却难以保持结构一致性,而三维原生生成模型能生成结构一致但较为粗糙的三维形状。通过融合这两种方法的互补优势,我们构建了更高效的生成框架。具体而言,我们首先联合微调多视角生成模型与三维原生生成模型,并采用提出的像素对齐式二维-三维同步注意力机制,生成几何对齐的三维形状与二维多视角图像。为进一步提升细节表现,我们引入特征注入机制,将二维多视角图像的精细细节映射至对齐的三维形状上,实现精确的高保真重建。大量实验表明,SyncHuman即使对包含挑战性姿态的图像也能实现鲁棒且逼真的三维人体重建。在几何精度与视觉保真度方面,本方法均超越基线方法,为未来三维生成模型的发展指明了可行方向。
大型语言模型常出现API幻觉及编辑定位失准问题,而语言服务器能提供基于真实代码的、经过验证的IDE级精确信息。我们推出Lanser-CLI——一个CLI优先的编排层,通过锚定并协调语言服务器协议(LSP)服务器,为编码智能体和持续集成系统提供确定性、可复现的工作流。我们认为语言服务器不仅提供结构信息(定义、引用、类型、诊断),更提供可操作的进程奖励:通过机器校验的逐步信号,使智能体的规划循环与程序现实对齐。本研究通过Lanser-CLI实现三大创新:(i) 突破脆弱的"文件:行号:列号"定位模式,建立基于选择器DSL(符号化、AST路径和内容锚定选择器)的鲁棒寻址方案及严谨的重定位算法;(ii) 采用含稳定内容哈希的分析包标准化语言服务器响应,捕获环境/能力元数据;(iii) 为突变操作(重命名、代码操作)构建安全边界,支持预览、工作区沙箱及Git感知的事务性应用;(iv) 基于语言服务器事实(诊断增量、消歧置信度、安全应用检查)设计可在线计算、离线复现的进程奖励函数。我们通过冻结快照形式化确定性,并为进程奖励建立单调性属性,使其适用于进程监督与反事实分析。项目页面:https://github.com/yifanzhang-pro/lanser-cli
本文针对深度伪造检测任务中的尺度定律进行了系统性研究。具体而言,我们分析了模型性能与真实图像域数量、深度伪造生成方法及训练图像规模之间的关联。由于现有数据集均无法满足本研究对数据规模的要求,我们构建了该领域迄今最大的数据集ScaleDF,其中包含来自51个不同数据集(域)的580余万张真实图像,以及通过102种深度伪造方法生成的880余万张伪造图像。基于ScaleDF数据集,我们观察到类似于大语言模型(LLMs)中呈现的幂律尺度现象。具体来说,随着真实图像域数量或深度伪造方法数量的增加,平均检测误差会遵循可预测的幂律衰减规律。这一关键发现不仅使我们能够预测达到目标性能所需增加的图像域或伪造方法数量,更启发我们以数据为中心的策略应对快速演进的深度伪造技术。此外,我们还研究了尺度扩展下预训练与数据增强在深度伪造检测中的作用,并探讨了尺度扩展本身的局限性。
大型语言模型(LLMs)在零样本推理方面表现出色,但在处理复杂多步推理时仍存在困难。虽然通过引入中间推理步骤(如思维链CoT和程序化思维PoT)的新方法能提升性能,但这些方法常产生不理想的解决方案,尤其在算法领域。我们提出实例级程序合成(PIPS)方法,该方法利用结构反馈在实例层面生成并优化程序,无需依赖任务特定指导或显式测试用例。为进一步提升性能,PIPS引入置信度指标,动态选择逐实例直接推理或程序合成路径。在三种前沿LLMs和30个基准测试(包括Big Bench超难任务全集、视觉问答任务、关系推理任务和数学推理任务)上的实验表明:相较于PoT和CoT,PIPS将绝对调和平均准确率最高提升8.6%和9.4%;在算法任务中,与Gemini-2.0-Flash的PoT相比,PIPS将不良程序生成量降低65.1%。
近期,文本到图像扩散模型的加速技术已实现仅需单步即可生成高保真度图像。然而,由于单步模型有效捕捉新概念分布的能力有限,如何对这些模型进行个性化改造以融入新概念仍具挑战。我们提出双向概念蒸馏框架EchoDistill,以实现单步扩散个性化。该方法采用端到端训练流程,同步训练多步扩散模型(教师)与单步扩散模型(学生)。概念首先从教师模型蒸馏至学生模型,再通过回声机制从学生模型反馈至教师模型。在EchoDistill过程中,我们共享双模型的文本编码器以确保语义理解的一致性。随后,学生模型通过对抗损失优化以对齐真实图像分布,并通过对齐损失保持与教师模型输出的一致性。此外,我们引入双向回声优化策略:学生模型利用其快速生成能力向教师模型提供反馈。这种双向概念蒸馏机制不仅增强了学生模型对新概念的个性化能力,还提升了教师模型的生成质量。实验表明,该协作框架在单步扩散个性化设定下显著优于现有个性化方法,为T2I扩散模型建立了快速有效的个性化新范式。
我们提出基于记忆的语言建模方法,作为基于深度神经网络的语言建模的高效环保替代方案。该方法具备对数线性可扩展的下一词元预测性能和强大的记忆能力。通过实现k近邻分类的快速近似算法,基于记忆的语言建模在训练和推理阶段均保持较小的生态足迹,其完全依赖CPU运行并实现较低词元延迟。该模型内部机制简洁且完全透明。我们将在下一词元预测准确率、碳排放估算及运行速度方面,将自研的基于记忆的语言建模系统OLIFANT与GPT-2、GPT-Neo进行对比,并对该模型进行深入分析。
本文提出一种基于扩散模型的车道线检测新方法——DiffusionLane,该方法将车道线检测任务建模为车道参数空间中的去噪扩散过程。首先,我们对真实车道线参数(起点坐标与角度)添加高斯噪声生成含噪车道锚点,模型通过渐进式优化这些含噪锚点来还原目标车道。其次,针对含噪锚点导致的编码器特征表征能力弱化问题,我们提出混合解码策略:设计融合全局与局部解码器的混合扩散解码器以提升锚点质量。此外,在训练阶段引入辅助学习头,采用可学习车道锚点增强对编码器的监督信号。在Carlane、Tusimple、CULane和LLAMAS四个基准数据集上的实验表明,DiffusionLane相比现有最优方法具有更强的泛化能力和检测性能。例如,采用ResNet18的DiffusionLane在域适应数据集Carlane上准确率至少超越现有方法1%;采用MobileNetV4时在CULane上取得81.32%的F1分数,ResNet34版本在Tusimple上达到96.89%准确率,而ResNet101版本在LLAMAS上获得97.59%的F1分数。代码已开源于https://github.com/zkyntu/UnLanedet。
扩散变换器(DiT)虽能实现顶尖的生成效果,但其随序列长度呈平方级增长的训练成本使得大规模预训练极其昂贵。令牌丢弃技术可降低训练成本,但朴素策略会损害表征质量,现有方法要么参数量庞大,要么无法适应高丢弃率。我们提出SPRINT——高效扩散变换器的稀疏-稠密残差融合方法,该简单方案能在保留生成质量的同时实现激进式令牌丢弃(最高达75%)。SPRINT利用浅层与深层网络的互补特性:浅层处理全部令牌以捕捉局部细节,深层仅计算稀疏令牌子集以减少运算量,二者输出通过残差连接进行融合。训练采用两阶段策略:先进行长时掩码预训练以提升效率,再通过短时全令牌微调弥合训练-推理差距。在ImageNet-1K 256×256数据集上,SPRINT在保持相当FID/FDD指标的同时实现9.8倍训练加速,其推理阶段采用的路径丢弃引导(PDG)机制在提升生成质量的同时将FLOPs削减近半。这些结果表明SPRINT为高效DiT训练提供了一种简洁、有效且通用的解决方案。
扩散模型与流匹配模型的显著成功,引发了大量关于在测试时调整这些模型以实现可控生成任务的研究。其应用范围涵盖图像编辑、修复、压缩及个性化生成等领域。然而,由于这些模型的采样过程具有迭代特性,使用基于梯度的优化方法直接控制最终生成图像在计算上不可行。因此,现有方法通常采用逐时间步独立操作的策略。本文提出FlowOpt——一种将整个流过程视为黑箱的零阶(无梯度)优化框架,无需通过模型反向传播即可实现对整个采样路径的优化。该方法不仅效率极高,还允许用户监控中间优化结果并在需要时提前终止优化。我们证明了FlowOpt步长的充分条件,在该条件下可确保收敛至全局最优解,并进一步展示了如何通过经验估计该上界以选择合适的步长。我们通过图像编辑任务验证FlowOpt的实用性,展示两种应用方式:(i)反演(确定生成给定图像的初始噪声);(ii)在符合目标文本提示的前提下,直接引导编辑图像与源图像保持相似。两种场景下,FlowOpt在保持与现有方法相近的神经网络函数评估次数(NFEs)的同时,均达到了最先进的性能效果。代码与示例已发布于项目网页。
基于矩阵的预条件优化器(如Muon)近期被证明在训练大规模神经网络(包括大语言模型)时比基于标量的优化器更高效。另一方面,最新的大语言模型预训练优化器基准测试表明,采用方差缩减技术(如MARS)相比未使用该技术的标准优化器能实现显著加速。为兼取双方优势,本文提出MARS-M新型优化器,将MARS的方差缩减技术与Muon相融合。在标准正则性条件下,我们证明Muon-M以一阶驻点收敛速率\(\mathcal{O}(T^{-1/3})\)收敛,优于Muon的\(\mathcal{O}(T^{-1/4})\)收敛速率。我们在语言建模和计算机视觉任务上的实验结果表明,MARS-M在各类下游基准测试中持续获得更低的损失值和更优的性能。MARS-M的实现代码已发布于https://github.com/AGI-Arena/MARS/MARS_M。
近期,大型语言模型(LLMs)在听觉语音识别(ASR)、视觉语音识别(VSR)及视听语音识别(AVSR)领域取得显著进展。然而,人们对微调过程中其内部动态机制的理解仍显不足。在自然语言处理领域,最新研究揭示了注意力汇聚现象(即某些标记会吸引异常高的注意力)及其伴随的大规模激活现象——汇聚标记的某些特征在LLMs中呈现巨量激活。本研究首次针对多模态语音识别中的这些现象展开探讨。通过对视听LLMs的细致分析,我们在ASR、VSR和AVSR任务中不仅发现起始标记(BOS)处存在注意力汇聚和大规模激活,还识别出中间低语义标记处的同类现象。研究表明,大规模激活现象源于多层感知机(MLP)层,且所有汇聚标记均对应固定的特征索引。我们进一步发现中间汇聚标记与BOS标记具有高余弦相似度,从而放大了注意力汇聚和激活效应。基于这些发现,我们提出一种简单的解相关损失函数,通过降低BOS标记与其他标记间的余弦相似度,有效抑制中间汇聚现象和大规模激活。此外,该方法在高强度视听特征降采样条件下能改善词错误率(WER),同时在较低降采样率下保持稳定性能。