每日精选AI研究论文及翻译
我们推出GLM-4.5,这是一个开源的专家混合(MoE)大型语言模型,总参数量达3550亿,激活参数量为320亿,采用了一种支持思维与直接响应模式的混合推理方法。通过对23万亿个token进行多阶段训练,并结合专家模型迭代与强化学习的全面后训练,GLM-4.5在代理、推理及编码(ARC)任务上展现出强劲性能,在TAU-Bench上得分70.1%,AIME 24上91.0%,SWE-bench Verified上64.2%。相较于多个竞争对手,GLM-4.5以更少的参数量,在所有评估模型中综合排名第三,在代理基准测试中位列第二。我们发布了GLM-4.5(3550亿参数)及其精简版GLM-4.5-Air(1060亿参数),以推动推理与代理AI系统的研究。代码、模型及更多信息请访问https://github.com/zai-org/GLM-4.5。
虚拟试衣技术旨在合成人物穿着目标服装的真实图像,但精确建模服装与人体间的对应关系仍是一个持续挑战,尤其在姿态和外观变化的情况下。本文提出Voost——一个统一且可扩展的框架,通过单一扩散变换器联合学习虚拟试穿与试脱。通过共同建模这两项任务,Voost使得每对服装-人物都能双向监督,并支持对生成方向及服装类别的灵活条件控制,从而增强服装与人体间的关系推理,无需特定任务网络、辅助损失或额外标签。此外,我们引入了两项推理时技术:注意力温度缩放以应对分辨率或掩码变化的鲁棒性,以及自校正采样,该技术利用任务间的双向一致性。大量实验表明,Voost在试穿与试脱基准测试中均达到了最先进的成果,在对齐精度、视觉真实感及泛化能力上持续超越强基线模型。
基于大语言模型(LLMs)的代理在多样化任务中表现出色,但其脆弱的程序记忆依赖于手动设计或固化于静态参数之中。本研究探讨了赋予代理可学习、可更新及终身持续的程序记忆的策略。我们提出了Memp方法,它将代理过往的执行轨迹提炼为细粒度的逐步指令与更高层次的脚本式抽象,并深入研究了程序记忆的构建、检索与更新等不同策略的影响。结合一套动态机制,该记忆库能够持续更新、修正及淘汰内容,与新经验同步演进。在TravelPlanner和ALFWorld上的实证评估显示,随着记忆库的不断优化,代理在类似任务上的成功率稳步提升,执行效率显著增强。此外,由更强模型构建的程序记忆具有持久价值:将其迁移至较弱模型时,能带来显著的性能提升。
多模态大语言模型(MLLMs)的兴起推动了基于纯视觉输入在图形用户界面(GUI)上操作的自主代理的发展。一个根本性挑战在于如何稳健地实现自然语言指令的定位。这需要精确的空间对齐,即准确确定每个元素的坐标位置,更重要的是,正确的语义对齐,即将指令与功能上合适的UI元素相匹配。尽管可验证奖励的强化学习(RLVR)在提升这些MLLMs的空间对齐方面已证明有效,但我们发现,探索效率低下成为语义对齐的瓶颈,阻碍了模型学习复杂的语义关联。为解决这一探索问题,我们提出了自适应探索策略优化(AEPO),一种新的策略优化框架。AEPO采用多答案生成策略以强制更广泛的探索,随后通过基于效率第一原理η=U/C推导出的理论支撑的自适应探索奖励(AER)函数进行引导。我们通过AEPO训练的模型InfiGUI-G1-3B和InfiGUI-G1-7B,在多个具有挑战性的GUI定位基准测试中确立了新的最先进成果,在旨在测试泛化能力和语义理解的基准上,相较于基础RLVR方法实现了高达9.0%的相对显著提升。相关资源可在https://github.com/InfiXAI/InfiGUI-G1获取。
近期,大型推理模型(LRMs)通过扩展思维链(CoT)的长度,在代码推理方面展现了卓越的能力。然而,过长的推理轨迹在训练成本、推理延迟和部署可行性方面带来了巨大挑战。尽管各种CoT压缩方法应运而生以应对这一挑战,但它们面临固有的权衡:基于token级别的方法往往破坏语法和逻辑连贯性,而基于困惑度的步骤级别方法则无法可靠捕捉逻辑关键推理步骤。本文提出ASAP(锚点引导、基于意外度的剪枝),一种新颖的从粗到细的CoT压缩框架。ASAP首先执行锚点引导剪枝以保留核心推理结构,从而有效减少后续处理的搜索空间。随后,它通过基于新颖的首token意外度指标选择逻辑上必要的推理步骤,实现逻辑感知的剪枝。最后,ASAP教导模型在推理时自主生成并利用这些简洁的CoT,从而在编码任务中实现高效推理。实验表明,ASAP在多个代码生成基准测试中达到了最先进的准确率,同时大幅降低了训练和推理成本。在具有挑战性的LiveCodeBench v4_v5基准测试中,与最强基线相比,我们的方法减少了23.5%的token生成和43.5%的推理延迟,同时在Pass@1上实现了36.19%的竞争性准确率。我们的结果凸显了构建强大且高效LRMs的一个有前景的方向。
大规模激活是Transformer隐藏状态中的标量值,其数值比典型激活高出数个数量级,并已被证明对模型功能至关重要。尽管先前的研究已在完全训练好的模型中描述了这些现象,但它们在训练过程中出现的时间动态仍鲜为人知。我们首次全面分析了Transformer训练过程中大规模激活的发展,以Pythia模型家族为实验平台。通过对不同模型大小在多个训练检查点上的系统分析,我们证明大规模激活的出现遵循可预测的数学模式,这些模式可以通过一个包含五个关键参数的指数调制对数函数精确建模。我们开发了一个机器学习框架,仅从架构规格就能预测这些数学参数,在稳态行为上达到了高精度,在出现时间和幅度上达到了中等精度。这些发现使架构师能够通过设计选择预测并可能控制大规模激活出现的关键方面,对模型稳定性、训练周期长度、可解释性和优化具有重大意义。我们的研究结果表明,大规模激活的出现受模型设计支配,可以在训练开始前预见并可能加以控制。
神经辐射场(NeRF)与高斯溅射(GS)技术近期革新了三维场景表示与渲染领域。NeRF通过神经网络学习体积表示,实现了高保真的新视角合成,但其隐式编码特性使得编辑与物理交互面临挑战。相比之下,GS将场景表示为明确的高斯基元集合,支持实时渲染、更快的训练速度以及更直观的操作。这种显式结构使GS特别适合交互式编辑及与基于物理的仿真集成。本文提出GENIE(高斯编码神经辐射场交互编辑),一种混合模型,它融合了NeRF的逼真渲染质量与GS的可编辑结构化表示。我们摒弃了球谐函数用于外观建模的传统方法,转而赋予每个高斯基元一个可训练的特征嵌入。这些嵌入用于基于查询点最近k个高斯基元来条件化NeRF网络。为实现高效的条件化,我们引入了射线追踪高斯邻近搜索(RT-GPS),这是一种基于改进射线追踪管线的快速最近高斯搜索方法。同时,我们整合了多分辨率哈希网格以初始化和更新高斯特征。这些组件共同实现了实时、局部感知的编辑:当高斯基元被重新定位或修改时,其插值影响即刻反映在渲染输出中。GENIE通过结合隐式与显式表示的优势,支持直观场景操控、动态交互以及与物理仿真的兼容性,弥合了基于几何的编辑与神经渲染之间的鸿沟。代码可在(https://github.com/MikolajZielinski/genie)获取。
视觉-语言模型(VLMs)在广泛的任务中展现出了卓越的泛化能力。然而,在未经任务特定适配的情况下直接应用于具体下游场景时,其表现往往不尽如人意。为了在保持数据效率的同时提升其实用性,近期研究日益聚焦于不依赖标注数据的无监督适配方法。尽管这一领域兴趣渐增,但尚缺乏一份专门针对无监督VLM适配的统一、任务导向的综述。为填补这一空白,我们提供了该领域的全面且结构化的概览。我们基于未标注视觉数据的可用性与性质提出了一种分类体系,将现有方法归纳为四大关键范式:无数据迁移(无数据)、无监督域迁移(数据丰富)、批次测试时适配(批量数据)以及在线测试时适配(流数据)。在此框架下,我们分析了与各范式相关的核心方法论与适配策略,旨在建立对该领域的系统性理解。此外,我们回顾了跨多样应用的代表性基准,并指出了开放挑战与未来研究的潜在方向。相关文献的持续更新资源库可访问https://github.com/tim-learn/Awesome-LabelFree-VLMs。
长久以来,创造如《钢铁侠》中虚构的J.A.R.V.I.S般全能且多才多艺的AI助手之梦,一直激发着人们的无限遐想。随着(多模态)大语言模型((M)LLMs)的演进,这一梦想正逐步接近现实,基于(M)LLM的智能体通过利用计算设备(如计算机和手机),在操作系统(OS)提供的环境与界面(如图形用户界面GUI)中自动化执行任务,取得了显著进展。本文全面综述了这些被称为OS智能体的先进技术。我们首先阐释OS智能体的基础,探讨其关键组成部分,包括环境、观察空间与动作空间,并概述其核心能力,如理解、规划与落地执行。随后,我们深入探讨构建OS智能体的方法论,聚焦于领域特定的基础模型与智能体框架。通过对评估协议与基准测试的详细回顾,展示了OS智能体在多样化任务中的表现评估。最后,我们讨论了当前面临的挑战,并指出了未来研究的有望方向,包括安全与隐私、个性化与自我进化。本综述旨在整合OS智能体研究现状,为学术探索与工业发展提供指导。我们维护了一个开源GitHub仓库,作为促进该领域进一步创新的动态资源。本文提供了一个9页的版本,已被ACL 2025接收,旨在为该领域提供一个简洁的概览。
我们提出了MeshLLM,一个创新框架,它利用大型语言模型(LLMs)来理解和生成文本序列化的3D网格。该方法针对现有技术的关键局限,包括为适应LLMs的令牌长度而受限的数据集规模,以及在网格序列化过程中丢失的3D结构信息。我们引入了一种原始网格分解策略,将3D网格划分为具有结构意义的子单元。这一策略促成了包含150万+样本的大规模数据集的构建,规模几乎是先前方法的50倍,更符合LLM扩展定律的原则。此外,我们提出了从顶点推断面连接性及局部网格组装训练策略,显著增强了LLMs捕捉网格拓扑与空间结构的能力。实验表明,MeshLLM在网格生成质量与形状理解方面均超越了当前最先进的LLaMA-Mesh,彰显了其在处理文本序列化3D网格方面的巨大潜力。
多模态大语言模型(MLLMs)在高资源语言环境中展现了卓越的性能。然而,在低资源语言情境下,其效能显著下降。当前的多语言增强方法往往局限于文本模态或仅依赖机器翻译。尽管这些方法有助于模型掌握基本语言能力并生成“浅层描述”,但它们忽视了多模态信息丰富性和文化根基的重要性,这两者对于有效服务低资源语言用户至关重要。为弥合这一差距,本研究确立了在低资源语言环境中真正有效的MLLM应追求的两大目标:1) 语言能力,2) 文化根基,特别强调文化意识。为实现这双重目标,我们提出了一种双源策略,指导针对每个目标的数据收集,即从原生网络替代文本中获取文化信息,利用MLLM生成字幕强化语言能力。作为具体实施,我们引入了MELLA,一个多模态、多语言数据集。实验结果显示,在MELLA上微调后,基于不同MLLM架构的八种语言模型普遍性能提升,模型能够生成“深层描述”。我们验证了性能提升源自文化知识的增强与语言能力的提升。我们的数据集可在https://opendatalab.com/applyMultilingualCorpus获取。
视觉语言模型(VLMs)在整合语言与视觉推理方面展现了显著能力,但在理解动态时空交互方面仍存在根本性局限。人类能够轻松追踪并推理物体的移动、旋转及视角变换——这些能力对于在动态现实世界中实现稳健理解至关重要,而当前的VLMs却明显欠缺。本文中,我们推出了VLM4D,这是首个专门设计用于评估VLMs时空推理能力的基准测试。该基准包含多样化的真实世界与合成视频,并配有精心策划的问答对,着重考察平移与旋转运动、视角感知及运动连续性。通过对最先进的开放与闭源VLMs进行全面评估,我们发现其与人类基准相比存在显著性能差距,揭示了现有模型的基本缺陷。深入分析表明,VLMs在整合多重视觉线索及保持时间连贯性方面尤为困难。我们进一步探索了有前景的研究方向,如利用4D特征场重建及针对性的时空监督微调,证明了这些方法在增强时空理解上的有效性。本研究旨在激励更深入的探索,以提升VLMs的空间与时间定位能力,为开发更强大、更可靠的动态环境视觉智能铺平道路。
多模态大语言模型(MLLMs)的兴起显著推动了图形用户界面(GUI)代理能力的发展。然而,现有的GUI代理训练与推理技术仍面临推理设计困境、奖励机制低效及视觉噪声等问题。为解决这些挑战,我们提出了UI-AGILE,一个在训练与推理阶段全面提升GUI代理性能的综合框架。在训练方面,我们对监督微调(SFT)过程提出了一系列改进措施:1)引入连续奖励函数,以激励高精度的定位;2)采用“简单思考”奖励机制,在规划速度与定位准确性之间取得平衡;3)实施基于裁剪的重采样策略,缓解稀疏奖励问题,并提升复杂任务的学习效果。在推理阶段,我们提出了分解式定位选择法,通过将图像分割为更小、更易处理的部分,显著提高了在高分辨率显示屏上的定位精度。实验结果表明,UI-AGILE在ScreenSpot-Pro和ScreenSpot-v2两个基准测试中均达到了业界领先水平。例如,结合我们提出的训练与推理增强方法,在ScreenSpot-Pro上相较于最佳基线模型,定位准确率提升了23%。
近期在三维重光照领域的研究展现出将二维图像重光照生成先验知识融入三维表现中的潜力,能够在保持底层结构不变的同时改变外观。然而,直接基于输入图像进行重光照的生成先验方法未能充分利用可推断的主体内在属性,也无法大规模考虑多视角数据,导致重光照效果不尽如人意。本文提出Lightswitch,一种新颖的微调材质重光照扩散框架,它能够高效地将任意数量的输入图像重光照至目标光照条件,同时整合了从推断内在属性中获得的线索。通过结合多视角与材质信息提示以及可扩展的去噪方案,我们的方法能够一致且高效地对具有多样材质构成物体的密集多视角数据进行重光照。实验表明,我们的二维重光照预测质量超越了以往直接从图像进行重光照的先进先验方法。此外,LightSwitch在仅需2分钟的情况下,即可在合成与真实物体的重光照任务中达到或超越当前最先进的扩散逆渲染方法的表现。