每日精选AI研究论文及翻译
细粒度面部表情编辑长期受限于内在语义重叠问题。为解决这一难题,我们构建了带有连续情感标注的FFE数据集,并建立FFE-Bench评估框架,从结构混淆度、编辑精度、线性可控性以及表情编辑与身份保持的平衡性等维度进行系统评估。我们提出PixelSmile扩散框架,通过完全对称的联合训练实现表情语义解耦。该框架将强度监督与对比学习相结合,生成更具表现力且可区分度更高的表情,借助文本隐空间插值实现精准稳定的线性表情控制。大量实验表明,PixelSmile在解耦效果和身份特征保持方面表现优异,证实了其在连续可控的细粒度表情编辑方面的有效性,同时天然支持平滑的表情融合效果。
我们推出首个万亿参数科学多模态基础模型Intern-S1-Pro。通过达到这一前所未有的规模,该模型在通用领域与科学领域均实现全面能力提升。除具备更强的推理能力与图文理解能力外,其智能体系还增强了先进智能体功能。同时,其科学专业能力已大幅扩展至化学、材料、生命科学、地球科学等关键科学领域的百余项专项任务。实现这一巨大规模得益于XTuner与LMDeploy的强大基础设施支持,使得在万亿参数级别实现高效强化学习训练成为可能,并确保训练与推理间的严格精度一致性。通过无缝集成这些技术进步,Intern-S1-Pro进一步强化了通用智能与专业智能的融合,作为"可专业化通才",在通用能力方面跻身顶级开源模型之列,同时在专业科学任务深度上超越闭源模型。
真实世界退化条件下的图像修复对于自动驾驶、目标检测等下游任务至关重要。然而现有修复模型常受限于训练数据的规模与分布,导致在真实场景中的泛化能力不足。近期大规模图像编辑模型在修复任务中展现出强大的泛化能力,特别是如Nano Banana Pro等闭源模型能够保持图像一致性的同时完成修复。但实现此类大型通用模型的优异性能需要海量数据与巨大算力成本。为解决该问题,我们构建了涵盖九种常见真实退化类型的大规模数据集,并训练出顶尖开源模型以缩小与闭源方案的差距。此外,我们推出包含464张真实退化图像的RealIR-Bench基准测试集,并定制了聚焦退化消除与一致性保持的评估指标。大量实验表明,我们的模型在开源方法中排名第一,达到了最先进的性能水平。
本文揭示了扩散变换器(DiTs)在提升生成任务性能方面的潜在能力。通过对去噪过程的深入分析,我们证明仅需引入单个可学习的缩放参数即可显著增强DiT模块的性能。基于这一发现,我们提出Calibri——一种参数高效的方法,通过优化校准DiT组件来提升生成质量。该方法将DiT校准构建为黑盒奖励优化问题,采用进化算法高效求解,仅需调整约100个参数。实验结果表明,尽管采用轻量化设计,Calibri能在各类文生图模型中持续提升性能。值得注意的是,该方法在保持高质量输出的同时,还能减少图像生成所需的推理步数。
长期记忆是人类智能的基石。让AI具备处理终身尺度信息的能力,一直是该领域的长期追求。由于全注意力架构的限制,大语言模型(LLMs)的有效上下文长度通常被限制在100万标记内。现有方法如混合线性注意力、固定大小的记忆状态(如RNNs),以及RAG或智能体系统等外部存储方案,虽试图突破这一限制,但普遍存在精度随上下文增长急剧下降、延迟快速攀升、无法动态修改记忆内容或缺乏端到端优化等问题。这些瓶颈制约了大语料摘要、数字孪生和长历史智能体推理等复杂场景的应用,同时限制了记忆容量并拖慢推理速度。我们提出记忆稀疏注意力(MSA),一种端到端可训练、高效且具备海量扩展能力的记忆模型框架。通过可扩展稀疏注意力和文档级RoPE等核心创新,MSA在训练和推理中均实现线性复杂度,并保持卓越的稳定性——从16K标记扩展到1亿标记时性能衰减不足9%。结合KV缓存压缩与记忆并行技术,MSA可在2xA800 GPU上实现1亿标记推理。我们还提出记忆交错技术,以促进跨分散记忆片段的复杂多跳推理。在长上下文基准测试中,MSA显著超越前沿LLMs、顶尖RAG系统及主流记忆智能体。这些结果表明,通过解耦记忆容量与推理能力,MSA为通用模型赋予本质性的终身尺度记忆提供了可扩展的基础架构。
我们推出Voxtral TTS,这是一款富有表现力的多语言文本转语音模型,仅需3秒参考音频即可生成自然语音。该模型采用混合架构,结合了语义语音标记的自回归生成与声学标记的流匹配技术。这些标记通过Voxtral Codec进行编解码——这是一种基于混合VQ-FSQ量化方案从头训练的语音标记器。在母语者参与的人类评估中,Voxtral TTS因其自然度与表现力优势,在多语言语音克隆任务中以68.4%的胜率超越ElevenLabs Flash v2.5。模型权重已基于CC BY-NC许可协议开放。
基于多视觉参考生成图像对于多主体组合、叙事插画及新视角合成等实际应用至关重要,然而当前模型在输入参考数量增加时会出现严重的性能退化。我们发现其根本原因在于数据瓶颈:现有数据集主要由单参考或少量参考对主导,缺乏能够学习密集参考间依赖关系的结构化长上下文监督。为此,我们推出MacroData——一个包含40万样本的大规模数据集,每个样本最多包含10张参考图像,并系统性地按定制化、插画生成、空间推理和时间动态四个互补维度进行组织,全面覆盖多参考生成场景。针对当前缺乏标准化评估体系的问题,我们进一步提出MacroBench基准,包含4,000个样本,通过分级任务维度和输入规模评估生成连贯性。大量实验表明,基于MacroData的微调能显著提升多参考生成性能,消融研究还揭示了跨任务协同训练的协同效益以及处理长上下文复杂度的有效策略。数据集与基准将公开发布。
软件开发本质上是迭代过程,然而当前的智能体编程基准测试大多针对完整需求规范评估单次解决方案。代码或许能通过测试套件,但随着迭代会逐渐难以扩展。近期出现的迭代基准测试试图弥补这一差距,但过度约束智能体的设计决策,难以真实衡量代码质量对后续扩展的影响。我们推出SlopCodeBench——一个语言无关的基准测试集,包含20个问题和93个检查点,要求智能体在持续演化的需求规范下反复扩展自身先前方案,这些规范会强制进行架构决策但不会限定内部结构。我们追踪两个轨迹级质量指标:冗余度(冗余或重复代码占比)和结构侵蚀度(高复杂度函数中的复杂性质量占比)。在11个模型中,没有智能体能端到端解决任何问题;最高检查点解决率仅为17.2%。代码质量持续恶化:80%的轨迹出现结构侵蚀加剧,89.8%存在冗余度上升。与48个开源Python代码库相比,智能体代码冗余度高出2.2倍且结构侵蚀显著更严重。对其中20个代码库的持续追踪显示,人类代码质量保持稳定,而智能体代码每次迭代都会恶化。提示干预研究表明初始质量可提升,但无法阻止退化趋势。这些结果证明通过率基准测试系统性低估了扩展稳健性,且当前智能体缺乏迭代软件开发所需的设计规约能力。
控制视频与音频生成需要多样化的模态支持,从深度信息、姿态到相机轨迹和音频变换,然而现有方法要么针对固定控制集训练单一整体模型,要么为每种新模态引入昂贵的架构修改。我们提出AVControl——一个基于联合音视频基础模型LTX-2构建的轻量可扩展框架,其中每种控制模态作为独立的LoRA模块在并行画布上进行训练。该画布通过注意力层中的附加令牌提供参考信号,除LoRA适配器外无需任何架构改动。我们证明,简单将基于图像的上下文方法扩展到视频会因结构性控制而失效,而我们的并行画布方法能有效解决这一问题。在VACE基准测试中,我们在深度/姿态引导生成、修复和外绘任务上超越所有基线模型,并在相机控制与音视频基准测试中展现出竞争力。我们的框架支持多种独立训练的模态:空间对齐控制(如深度、姿态、边缘)、含内参的相机轨迹、稀疏运动控制、视频编辑,以及业界首个面向联合生成模型的模块化音视频控制。该方法兼具计算与数据效率:每种模态仅需小型数据集,在数百至数千训练步数内收敛,所需资源仅为整体式方案的零头。我们公开了代码与训练好的LoRA检查点。
可缩放矢量图形(SVG)作为技术插图和数字设计的核心格式,具有精确的分辨率独立性与灵活的语义可编辑性。然而实践中,原始矢量源文件常因遗失或无法访问,仅存难以修改或缩放的"扁平化"栅格化版本(如PNG或JPEG)。手动重建这些图形需耗费大量人力且依赖专业经验才能还原原始几何意图。为弥补这一鸿沟,我们提出VFIG系列视觉语言模型,专门针对复杂高保真图形至SVG的转换任务进行训练。尽管该任务本质依赖数据驱动,现有数据集通常规模有限且缺乏专业图示的复杂性。为此我们推出VFIG-DATA大规模数据集,通过整合真实论文图示与程序化生成图表,构建了包含6.6万组高质量图形-SVG配对的数据资源。基于SVG由可复用图元与层次化局部结构构成的特点,我们设计了由粗到精的训练方案:首先通过监督微调(SFT)学习原子级图元,继而采用强化学习(RL)优化策略提升整体图示保真度、布局一致性及拓扑边缘案例处理能力。最后我们建立VFIG-BENCH评估体系,引入专用于衡量复杂图形结构完整性的新型指标。实验表明,VFIG在开源模型中达到最先进性能,与GPT-5.2表现相当,在VFIG-BENCH上获得0.829的VLM-Judge评分。
现有前馈式3D高斯泼溅方法通过预测像素对齐的图元,导致图元数量随分辨率提升呈二次增长。这一根本性缺陷限制了其可扩展性,使得诸如4K等高分辨率合成难以实现。我们提出LGTM(更少高斯体、更多纹理)框架,通过预测紧凑型高斯图元并结合逐图元纹理,成功突破分辨率缩放瓶颈。该方法将几何复杂度与渲染分辨率解耦,无需逐场景优化即可实现高保真度的4K新视角合成——这是前馈方法此前无法企及的能力,同时显著减少了高斯图元的使用数量。项目页面:https://yxlao.github.io/lgtm/
本报告正式推出IQuest-Coder-V1系列模型(7B/14B/40B/40B-Loop),这是一个全新的代码大语言模型家族。我们突破静态代码表示的局限,提出代码流多阶段训练范式,通过管道不同阶段捕捉软件逻辑的动态演进轨迹。该系列模型采用演进式训练管道:初始预训练阶段融合代码事实、仓库数据及补全数据;随后实施专项中期训练,在32k上下文环境中集成推理与智能体轨迹,并在128k上下文规模实现仓库级建模,奠定深层逻辑基础;最终通过专项编码能力后训练阶段,分化为思维路径(采用推理驱动强化学习)与指令路径(针对通用辅助优化)双专业轨道。IQuest-Coder-V1在代码智能的关键维度——智能体软件工程、竞技编程及复杂工具使用方面,均达到竞争模型中的最先进性能。为应对部署限制,IQuest-Coder-V1-Loop变体引入循环机制,优化模型容量与部署成本之间的平衡,提供架构级增效降耗方案。我们相信,IQuest-Coder-V1系列的发布(包含从预训练基座到最终思维模型与指令模型的完整白盒检查点链条)将推动自主代码智能与真实世界智能体系统的研究进程。
同策略蒸馏(OPD)因其能基于学生模型生成的轨迹而非固定的教师轨迹进行反馈评估,在大语言模型(LLM)后训练中备受关注。然而在长序列场景下,常用的逐词采样变体存在脆弱性:它将分布匹配简化为单步信号,且随着生成轨迹偏离教师模型的常见前缀,其可靠性会逐渐降低。我们从估计器设计与实现层面重新审视了OPD方法。理论分析表明,逐词级别的OPD相对于序列级反向KL散度存在偏差,但其最坏情况方差边界更紧;我们的模拟实验验证了该权衡关系——未来奖励关联性越强,梯度方差越大,学习稳定性越差。实证研究中,我们识别出采样词OPD的三大失效模式:失衡的单步信号、学生生成前缀上不可靠的教师指导,以及分词器或特殊词符失配导致的失真。针对这些问题,我们提出教师Top-K局部支持匹配方法,通过带截断的反向KL散度实现,结合Top-P轨迹采样与特殊词符掩码技术。在单任务数学推理与多任务(智能体+数学)训练中,该目标函数相比采样词OPD实现了更稳定的优化效果与更优的下游性能。
表征对齐(REPA)已成为加速潜在空间中扩散变换器训练的简便方法。与此同时,像素空间扩散变换器(如纯图像变换器JiT)因摆脱了对预训练分词器的依赖,避免了潜在扩散的重建瓶颈而备受关注。本文发现REPA方法在JiT中可能失效:随着训练进行,REPA会导致JiT的FID指标恶化,并在ImageNet预训练语义编码器表征空间中紧密聚集的图像子集上出现多样性坍缩。我们将其失效根源归结为信息不对称:去噪过程发生在高维图像空间,而语义目标被高度压缩,使得直接回归成为捷径目标。我们提出PixelREPA方法,通过结合浅层变换器适配器与部分令牌掩码的掩码变换器适配器来转换对齐目标并约束对齐过程。PixelREPA同时提升了训练收敛速度和最终生成质量:在ImageNet 256×256数据集上,JiT-B/16的FID从3.66降至3.17,初始分数(IS)从275.1提升至284.6,同时实现超过2倍的收敛加速。最终,PixelREPA-H/16取得了FID=1.81和IS=317.2的优异表现。代码已开源:https://github.com/kaist-cvml/PixelREPA。
视觉基础模型(VFMs)已成为现代计算机视觉的基石,为各类任务提供强大的表征能力。尽管最新进展允许这些模型在训练时处理不同输入尺寸,但推理过程通常仍局限于单一固定尺度。这种普遍的单尺度范式忽略了视觉感知的基本特性:不同分辨率具有互补的归纳偏差——低分辨率视图擅长全局语义识别,而高分辨率视图对细粒度优化至关重要。本研究提出多分辨率融合(MuRF),一种简单却普遍有效的推理策略,旨在利用这种协同效应。MuRF不依赖单一视图,而是通过冻结的VFM对图像进行多分辨率处理并融合所得特征,从而构建统一表征。该方法的普适性是其最显著特性:它不依赖特定架构,而是作为视觉表征的一种无需训练的基础性增强手段。我们通过将MuRF应用于多个VFM家族(以DINOv2为主,同时成功推广至SigLIP2等对比模型)涵盖的广泛计算机视觉关键任务,实证验证了其有效性。
本文介绍FinMCP-Bench——一个通过金融模型上下文协议工具调用来评估大语言模型解决现实金融问题能力的新型基准。该基准包含613个样本,覆盖10个主场景和33个子场景,融合真实与合成用户查询以确保多样性和真实性。基准集成65个真实金融MCP协议,包含单工具、多工具和多轮对话三类样本,可评估模型在不同任务复杂度下的表现。基于此基准,我们系统评估了主流大语言模型,并提出专门衡量工具调用准确性与推理能力的指标。FinMCP-Bench为推进金融领域LLM智能体研究提供了标准化、实用化且具有挑战性的测试平台。
代理变异算子(AVO)是一类新型进化变异算子,其通过自主编码代理取代了经典进化搜索中固定的突变、交叉和人工设计的启发式策略。与将语言模型局限于预设流程中的候选生成不同,AVO将变异实例化为自主代理循环,可参考当前谱系、领域知识库及执行反馈来提出、修复、批判和验证实现方案的修改。我们在英伟达Blackwell(B200)GPU上对AI领域优化强度最高的注意力机制进行测试。经过7天多头注意力的持续自主进化,AVO发现的核函数在评估配置中比cuDNN最高提升3.5%,较FlashAttention-4最高提升10.5%。所发现的优化方案可快速迁移至分组查询注意力,仅需30分钟自主适配即实现较cuDNN最高7.0%、较FlashAttention-4最高9.3%的性能增益。这些结果表明,代理变异算子通过将代理从候选生成器升级为变异算子,超越了以往LLM参与循环的进化流程,能够发现性能关键的微架构优化,产出的核函数在当前最先进GPU硬件上超越了专家工程实现的最优注意力算法。
给定一个问题,语言模型(LM)会隐式编码可能答案的分布。在实际应用中,LM的后训练过程常将该分布坍缩为单一主导模式。虽然这对假设存在唯一正确答案的基准式评估通常不成问题,但许多现实任务本身涉及多个有效答案或不可约的不确定性,例如医疗诊断、模糊问答以及信息不完整的情境。在这些情况下,我们希望LM能生成多个合理假设,并最好能提供每个假设的置信度估计,同时避免通过计算密集的重复采样来生成非模态答案。本文提出一种多答案强化学习方法,用于训练LM在推理过程中对多个答案进行分布推理。我们通过修改RL目标,使模型能在单次前向传播中显式生成多个候选答案,将推理时搜索的某些方面内化到模型的生成过程中。在问答、医疗诊断和编程基准测试中,相较于单答案训练的基线模型,我们观察到多样性、覆盖度及集合级校准分数的提升。采用本方法训练的模型生成多个答案所需的标记数少于竞争方法,在编程任务中的准确性也显著提高。这些结果表明多答案RL可作为一种原则性强且计算高效的替代方案,优于最佳K选等推理时缩放方法。代码及更多信息请访问https://multi-answer-rl.github.io/。
记忆增强型大型语言模型智能体通过维护外部记忆库来支持长程交互,然而现有系统大多将构建、检索与利用视为孤立子程序。这导致两个相互关联的挑战:在记忆周期的前向路径上存在策略盲区——构建与检索过程受局部启发式规则驱动而缺乏显式策略推理;在后向路径上则面临稀疏延迟监督——下游故障难以直接转化为记忆库的修复信号。为解决这些问题,我们提出MemMA,一种即插即用的多智能体框架,可协同管理记忆周期的双向路径。在前向路径中,元思考者生成结构化指导,既在构建阶段引导记忆管理器,又在迭代检索过程中指挥查询推理器。后向路径上,MemMA引入原位自演进记忆构建机制,通过合成探测性问答对验证当前记忆状态,并在记忆固化前将故障转化为修复动作。在LoCoMo数据集上的大量实验表明,MemMA在多种LLM骨干网络上均持续超越现有基线,并能以即插即用方式提升三种不同存储后端的性能。代码已开源:https://github.com/ventr1c/memma。
块扩散语言模型通过结合块级自回归解码与块内并行去噪,为实现超自回归生成速度提供了可行路径。然而在实际加速所需的少步数生成场景中,标准置信度阈值解码往往表现脆弱:激进阈值会损害生成质量,而保守阈值则需冗余去噪步骤。现有解决方案或需额外训练,或增加推理时计算开销。我们提出S2D2——一种免训练的块扩散语言模型自推测解码框架。核心发现是当块大小缩减至单令牌时,块扩散模型会退化为自回归模式,这使得同一预训练模型可同时担任起草器和验证器。S2D2在标准块扩散解码中插入推测验证步骤,并采用轻量级路由策略动态评估验证成本收益。由此形成混合解码轨迹:扩散模式并行生成令牌候选,而自回归模式充当局部序列级评判器。在三大主流块扩散模型上的实验表明,S2D2在精度-速度权衡方面持续优于强置信度阈值基线。在SDAR任务中,相较自回归解码实现最高4.7倍加速,较调优的动态解码基线提升1.57倍速度的同时精度提高4.5个百分点。在LLaDA2.1-Mini上,S2D2与内置自校正机制形成互补,在保守设置下以4.4倍加速优于静态基线且精度微升。
基于多模态数据识别动物物种是计算机视觉与生态学交叉领域的新兴挑战。尽管BioCLIP等最新生物模型已证明图像与文本分类信息在物种识别方面具有强关联性,但音频模态的整合仍是待解难题。我们提出BioVITA——一种面向生物应用的新型视觉-文本-声学对齐框架,该框架包含三大核心组件:(一)训练数据集;(二)表征模型;(三)检索基准。首先,我们构建了涵盖14,133个物种、包含130万条音频片段与230万张图像的大规模训练数据集,并标注了34种生态特征标签。其次,基于BioCLIP2架构,我们引入两阶段训练框架,有效实现音频表征与视觉、文本表征的对齐。第三,开发了覆盖三模态全方向检索的基准任务(如图像-音频、音频-文本、文本-图像及其反向检索),包含科、属、种三个分类层级。大量实验表明,我们的模型学习的统一表征空间能捕捉超越分类层级的物种语义,推动多模态生物多样性理解研究。项目页面详见:https://dahlian00.github.io/BioVITA_Page/
我们提出WAFT-Stereo,一种基于形变操作的简易高效立体匹配方法。该方法证明,成本体积这一主流方法常用设计并非实现优越性能的必要条件,通过形变操作替代可显著提升效率。WAFT-Stereo在ETH3D、KITTI和Middlebury公开基准测试中均位列第一,在ETH3D基准上实现零样本误差降低81%,同时运算速度比竞品方法提升1.8-6.7倍。代码与模型权重已开源:https://github.com/princeton-vl/WAFT-Stereo。
视觉-语言-动作模型通过将语言纳入决策过程,重塑了自动驾驶技术框架。然而,现有方案大多仅将语言模态用于场景描述或推理,缺乏遵循多样化用户指令实现个性化驾驶的灵活性。为此,我们首先构建了大规模驾驶数据集InstructScene,包含约10万个场景,每个场景均标注有多样化驾驶指令及对应轨迹。继而提出统一化的视觉-语言-世界-动作模型Vega,实现基于指令的轨迹生成与规划。我们采用自回归范式处理视觉输入(视觉)与语言指令(语言),通过扩散范式生成未来预测(世界建模)和轨迹规划(动作)。通过联合注意力机制实现多模态交互,并为不同模态配置独立投影层以增强模型能力。大量实验表明,我们的方法不仅实现了卓越的规划性能,更展现出强大的指令遵循能力,为构建更智能、个性化的驾驶系统开辟了新路径。
我们展示了一种基于外延单晶金属卤化物钙钛矿的全固态半导体器件,该器件能够通过栅极电压实现对钙钛矿光致发光的可逆调控。与电致发光二极管存在本质区别的是,这种光致发光场效应晶体管利用栅极电场对界面处可移动电荷密度进行静电调制,从而影响光生载流子的辐射与非辐射复合通道。通过改变此类晶体管的栅极电压,可有效调节非辐射界面复合速率,使光致发光强度在65%至98%范围内变化(具体取决于温度)。在优化栅压条件下,几乎能完全消除非辐射损耗。这一功能特性结合外延钙钛矿薄膜的高吸收系数、可控厚度及宏观均匀形貌等优势,使其具备强可见光区吸收与发射能力,从而在大面积薄膜器件中实现了高外量子效率。此类高效、可扩展且支持静电调谐的光电开关器件,拓展了金属卤化物钙钛矿在光子学和光电子学领域的潜在应用前景。
评估学生手写演算过程对于个性化教育反馈至关重要,但由于笔迹多样性、布局复杂性及解题方法差异性,这一任务面临独特挑战。现有教育自然语言处理技术主要聚焦文本回答,未能兼顾真实手写演算中固有的复杂性与多模态特性。当前多模态大语言模型虽在视觉推理方面表现卓越,但通常采用"应试者视角",侧重于生成正确答案而非诊断学生错误。为填补这些空白,我们推出ScratchMath——一个专门为解释和分类真实手写数学演算错误而设计的新型基准测试。该数据集包含1,720份中国中小学生数学演算样本,支持错误原因解释和错误原因分类两大核心任务,并定义了七类错误类型。通过包含专家多轮标注、审核与验证的人机协同标注流程,数据集实现了精细化标注。我们系统评估了16个主流多模态大语言模型在ScratchMath上的表现,发现其在视觉识别和逻辑推理方面与人类专家存在显著差距。其中闭源模型明显优于开源模型,大型推理模型在错误解释方面展现出强大潜力。所有评估数据与框架均已公开,以推动相关研究进展。
在动态环境中运行的机器人智能体,必须从流式视频观测中学习视觉状态表征,以实现序列决策。近期自监督学习方法在视觉任务中展现出强大的迁移能力,但这些方法并未明确阐释优秀视觉状态应编码的内容。我们认为有效的视觉状态必须通过联合编码场景元素的语义身份及其空间位置来捕捉"何物在何处",从而可靠检测观测间的细微动态变化。为此,我们提出CroBo——基于全局到局部重建目标的视觉状态表征学习框架。给定压缩为紧凑瓶颈标记的参考观测,CroBo利用全局瓶颈标记作为上下文,通过稀疏可见线索学习重建局部目标裁剪区域中重度掩码的图像块。该学习目标促使瓶颈标记编码场景级语义实体的细粒度表征,包括其身份、空间位置与配置关系。最终,习得的视觉状态可揭示场景元素随时间推移的运动与交互方式,为序列决策提供支持。我们在多样化基于视觉的机器人策略学习基准上评估CroBo,其性能达到业界最优水平。重建分析与感知直线度实验进一步表明,所学表征能保持像素级场景构成,并编码观测间"何物移向何处"的信息。项目页面详见:https://seokminlee-chris.github.io/CroBo-ProjectPage。
思维链提示技术已被扩展应用于大型音语模型以激发推理能力,但如何在不进行训练的情况下提升其效能仍具挑战。本研究探索了推理时模型导向这一免训练方法,旨在增强音语模型的推理性能。我们提出了三种基于多源信息的导向策略,并在四个音语模型和四个基准测试平台上进行评估。实验结果表明,相较于思维链提示,这些策略能普遍实现最高达4.4%的准确率提升。值得注意的是,我们发现了跨模态迁移现象:仅通过少量文本样本提取的导向向量即可有效指导语音推理任务,展现出卓越的数据效率。我们还通过超参数敏感性分析验证了这些方法的鲁棒性。本研究证实模型导向是强化音语模型推理能力的实用技术路径。
降水临近预报对防灾减灾和航空安全至关重要。然而,仅依赖雷达的模型常因缺乏大尺度大气环境信息,导致长预见期性能下降。虽然融合气象基础模型预测的变量可作为潜在解决方案,但现有架构难以调和雷达图像与气象数据之间深刻的表征异构性。为此,我们提出PW-FouCast——一种新颖的频域融合框架,该框架在傅里叶基干网络中引入盘古气象预报作为频谱先验。我们的架构包含三大创新:(i) 盘古气象引导的频域调制技术,使频谱幅相与气象先验对齐;(ii) 频率记忆模块,用于修正相位差异并保持时序演化规律;(iii) 逆向频率注意力机制,重建频谱滤波中易丢失的高频细节。在SEVIR和MeteoNet基准上的大量实验表明,PW-FouCast实现了最先进的性能,在保持结构保真度的同时有效延长了可靠预报时长。代码已开源:https://github.com/Onemissed/PW-FouCast。
大规模预训练的视觉基础模型(VFMs)使得单个冻结编码器能够同时服务于多种下游任务。近期基于VFM的纯编码器图像与视频分割模型(如EoMT和VidEoMT)在实现竞争性精度的同时保持了极低延迟,但这些模型需要对编码器进行微调,牺牲了VFM在大规模部署中极具吸引力的多任务编码器共享特性。为兼顾纯编码器的简洁高效与冻结VFM特征的优势,我们提出纯掩码解码器(PMD)——一种基于Transformer的快速分割解码器,可直接处理冻结的VFM特征。由此构建的纯掩码Transformer(PMT)在保持编码器表征不变且可共享的前提下,继承了纯编码器结构的简洁性与低延迟特性。该设计可无缝应用于图像与视频分割任务,延续了纯编码器框架的通用性。在标准图像分割基准测试中,PMT在保持冻结编码器最优性能的同时,推理速度提升约3倍;对于视频分割任务,其性能甚至可与全微调方法相媲美,同时比最先进的冻结编码器模型快达8倍。代码地址:https://github.com/tue-mps/pmt。