每日精选AI研究论文及翻译
我们推出GLM-5V-Turbo,这是迈向原生多模态智能体基础模型的重要一步。随着基础模型在真实环境中的日益普及,智能体能力不仅依赖于语言推理,更需要具备对图像、视频、网页、文档、图形界面等异构环境的感知、解析与交互能力。GLM-5V-Turbo正是围绕这一目标构建:多模态感知被整合为推理、规划、工具使用与执行的核心组成部分,而非作为语言模型的附属接口。本报告总结了GLM-5V-Turbo在模型设计、多模态训练、强化学习、工具链扩展及智能体框架集成等方面的核心改进。这些进展使其在多模态编程、视觉工具使用和框架驱动的智能体任务中表现卓越,同时保持了具有竞争力的纯文本编程能力。更重要的是,我们的开发过程为构建多模态智能体提供了实用洞见,凸显了多模态感知、分层优化及可靠端到端验证的核心作用。
生成多样化响应对于大语言模型(LLM)的测试时扩展至关重要,然而标准的随机采样大多仅产生表层词汇变化,限制了语义探索。本文提出探索性采样(ESamp),一种在生成过程中显式鼓励语义多样性的解码方法。ESamp的动机源于一个经典观察:神经网络在面对与既往输入相似的样本时预测误差较低,而在处理新颖输入时预测误差较高。基于此特性,我们在测试时训练一个轻量级蒸馏器,通过LLM浅层表征预测其深层隐藏表征,从而建模LLM的深度方向表征转换。解码过程中,蒸馏器持续适配当前生成上下文诱导的映射关系。ESamp将预测误差作为新颖性信号,对基于当前前缀的候选词扩展进行重加权,使解码偏向于较少探索的语义模式。该方法通过异步训练-推理流水线实现,最坏情况下开销低于5%(优化版本为1.2%)。实验结果表明,ESamp显著提升推理模型的Pass@k效率,在强随机基线和启发式基线中表现优异或相当。值得注意的是,ESamp在数学、科学和代码生成基准测试中展现稳健的泛化能力,并打破了创意写作中多样性与连贯性的权衡。代码已发布于:https://github.com/LinesHogan/tLLM。
我们提出RADIO-ViPE(多域统一视频姿态引擎)——一种在线语义SLAM系统,能够实现几何感知的开放词汇定位,将任意自然语言查询与动态环境中的局部化3D区域及物体相关联。与需要标定化位姿RGB-D输入的现有方法不同,RADIO-ViPE直接处理原始单目RGB视频流,无需预先获取相机内参、深度传感器或位姿初始化。该系统通过聚合式基础模型(如RADIO)获取的多模态嵌入特征(涵盖视觉与语言),与几何场景信息进行紧密耦合。这种耦合贯穿于初始化、优化和因子图连接过程,通过多模态一致性提升地图质量。优化过程采用自适应鲁棒核函数进行封装,可同时处理主动移动物体和智能体移位的场景元素(如以自我为中心会话过程中重新布置的家具)。实验表明,RADIO-ViPE在动态TUM-RGBD基准测试中达到最先进水平,同时与依赖标定数据和静态场景假设的离线开放词汇方法保持相当性能。该系统填补了现实世界部署的关键空白,为自主机器人和无约束野外视频流提供了鲁棒的开放词汇语义定位能力。项目页面:https://be2rlab.github.io/radio_vipe
爪式环境支持对本地文件、工具及持久化工作空间状态进行多步骤工作流操作。然而由于缺乏系统化框架,特别是可验证训练数据合成及其与智能体训练、诊断评估相结合的体系,该类环境的规模化开发仍受限制。为解决这一挑战,我们提出ClawGym——一个支持爪式个人智能体全生命周期开发的规模化框架。具体而言,我们构建了ClawGym-SynData数据集,该数据集包含1.35万项经筛选的合成任务,这些任务源自角色驱动意图与技能锚定操作的组合,并配有模拟真实工作空间及混合验证机制。我们随后通过黑盒推演轨迹的监督微调,训练出系列高性能爪式模型(称为ClawGym-Agents),并借助跨任务沙箱的并行化推演轻量级管道进一步探索强化学习。为支撑可靠评估,我们还构建了ClawGym-Bench基准,包含200个经过自动化筛选和人机协同校验的测试实例。相关资源即将发布于https://github.com/ClawGym。
扩散大语言模型(dLLMs)具备并行解码和双向上下文处理能力,但当前最先进的dLLMs需要数十亿参数才能实现有竞争力的性能。现有dLLMs蒸馏方法虽能在单一架构内减少推理步数,但均未解决跨架构知识迁移问题——即教师模型与学生模型在架构、注意力机制和分词器方面存在差异。我们提出首个跨架构dLLM蒸馏框架TIDE,其包含三个模块化组件:(1)TIDAL模块通过联合调节训练进程和扩散时间步的蒸馏强度,动态适应教师模型对噪声的可靠性变化;(2)CompDemo模块采用互补掩码分割策略增强教师模型的上下文理解,提升重度掩码下的预测质量;(3)Reverse CALM作为跨分词器优化目标,通过反转分块级似然匹配实现有界梯度计算和双端噪声过滤。通过两条异构流水线将80亿参数稠密模型和160亿参数MoE教师模型蒸馏至6亿参数学生模型,在八项基准测试中平均超越基线1.53个点,其中代码生成任务提升显著:HumanEval得分达到48.78,相比自回归基线的32.3分实现重大突破。
可控扩散方法显著拓展了扩散模型的实际应用场景,但这些方法通常被开发为相互独立、与特定骨干网络绑定的系统,其训练流程、参数格式和运行时钩子互不兼容。这种碎片化现状导致跨任务的基础设施复用、跨骨干网络的能力迁移,或在单一生成流程中组合多重控制变得极为困难。我们提出扩散模板(Diffusion Templates),这是一个统一开放的插件框架,将基础模型推理与可控能力注入进行解耦。该框架围绕三个核心组件构建:模板模型(将任意任务特定输入映射为中间能力表示)、模板缓存(作为能力注入的标准化接口)以及模板流水线(负责加载、融合并将多个模板缓存注入基础扩散运行时)。由于该接口在系统层面定义而非绑定特定控制架构,因此KV缓存、LoRA等异构能力载体可在同一抽象框架下获得支持。基于此设计,我们构建了涵盖结构控制、亮度调节、色彩调整、图像编辑、超分辨率、锐度增强、审美对齐、内容参照、局部修复及年龄控制等功能的多样化模型库。案例研究表明,扩散模板能够在快速迭代的扩散骨干网络中保持模块化、可组合性及实际可扩展性的同时,统一广泛的可控生成任务。所有资源包括代码、模型和数据集将全面开源。
大型语言模型正日益被部署为能够影响外部环境的自主智能体的决策核心。然而,在模拟现实世界以客户为中心的问题解决场景的对话基准测试中,这些智能体常因错误决策的连锁效应而失败。对于参数规模较小、上下文窗口有限且推理预算受限的开源LLM而言,这些挑战尤为突出,导致其在智能体场景中的错误累积加剧。为应对这些挑战,我们提出故障感知元智能体(FAMA)框架。FAMA采用两阶段工作模式:首先分析基线智能体的故障轨迹以识别最常见错误;其次通过编排机制,在决策步骤前激活针对这些故障定制的专业化智能体最小子集,为工具使用型智能体注入定向上下文。在开源LLM上的实验表明,该框架在多种评估模式下相较标准基线最高可获得27%的性能提升。这些结果证明,通过专业化智能体对上下文进行针对性优化以解决常见故障,是构建模拟真实对话场景的可靠多轮工具使用型LLM智能体的重要设计原则。
我们提出X-WAM——一个统一4D世界模型,该框架将实时机器人动作执行与高保真4D世界合成(视频+3D重建)融为一体,有效解决了先前统一世界模型(如UWM)仅建模二维像素空间、难以平衡动作效率与世界建模质量的关键局限。为利用预训练视频扩散模型的强大视觉先验,X-WAM通过预测多视角RGB-D视频来推演未来世界,并通过轻量级结构适配高效获取空间信息:将预训练扩散Transformer的末端模块复制到专用深度预测分支,以实现未来空间信息的重建。此外,我们提出异步噪声采样(ANS)技术来联合优化生成质量与动作解码效率。ANS在推理阶段采用特制的异步去噪调度,既能通过较少步数快速解码动作以实现高效实时执行,又能保留完整步数序列来生成高保真视频。该技术并非在训练中完全解耦时间步,而是通过从联合分布中采样以保持与推理分布的一致性。基于超过5800小时机器人数据预训练的X-WAM,在RoboCasa和RoboTwin 2.0基准测试中分别达到79.2%和90.7%的平均成功率,其生成的4D重建结果在视觉与几何指标上均超越现有方法。
前沿语言模型的强化学习后训练正日益受限于自回归式轨迹生成,这使轨迹加速成为核心系统挑战。现有效率提升方法多通过改变轨迹生成或优化机制来提高吞吐量,例如采用离策略执行、经验回放或低精度生成。我们研究将推测式解码作为强化学习轨迹的无损加速原语,以保持目标模型的输出分布。我们在搭载vLLM后端的NeMo-RL中实现了推测式解码,支持同步与异步流水线,并能在强化学习轨迹生成过程中实现推测。这一优势可适用于多种推测机制,例如预训练的MTP头部、小型外部草稿模型乃至Eagle3等技术——这些传统上仅应用于强化学习阶段之后的方法,由此为尖端推测式解码技术开辟了在强化学习训练中的部署路径。在80亿参数规模的同步强化学习推理后训练任务中,推测式解码使轨迹吞吐量提升1.8倍。通过高保真性能模拟器预测,在2350亿参数规模下将推测式解码与异步强化学习结合,可实现最高2.5倍的端到端训练加速。
我们研究了在真实资本环境下,将用户指令转化为经验证工具操作的自主语言模型智能体的可靠性。该研究基于DX Terminal Pro平台开展的21天实盘部署,期间3,505个用户注资的智能体在受限链上市场中进行了真实ETH交易。用户通过结构化控件和自然语言策略配置资金库,但只有智能体可执行常规买卖交易。系统产生750万次智能体调用、约30万次链上操作、约2000万美元交易量、逾5000枚ETH部署资金、约700亿推理令牌,且策略验证通过的提交交易结算成功率达99.9%。长期运行的智能体累计完成数千次序列决策,其中持续活跃智能体产生超6000次"提示-状态-行动"循环,形成了从用户指令到生成提示、推理、验证、资产组合状态及结算的全链路追踪。可靠性并非仅源自基础模型,而是诞生于模型周边的操作层:提示编译、类型化控件、策略验证、执行防护、内存设计和链路可观测性。上线前测试暴露了纯文本基准测试难以衡量的故障模式,包括虚构交易规则、手续费瘫痪、数值锚定、节律交易和代币经济误读等。针对性架构改进使受影响测试群体中虚构卖出规则发生率从57%降至3%,手续费主导观察值从32.5%降至10%以下,资本部署率从42.9%提升至78.0%。研究表明,管理资本的智能体需在从用户指令到提示生成、验证操作及结算的完整路径上进行全面评估。
用户模拟因其在广泛应用场景中的支撑潜力,长期在计算机科学领域发挥着重要作用。语言作为人类沟通的主要媒介,构成了社会互动与行为的基础。因此,对话行为模拟已成为关键研究方向。近年来大语言模型(LLM)的突破性进展,通过实现高保真度的合成用户对话生成,显著推动了该领域的发展。本文系统综述了基于LLM的对话式用户模拟的最新进展,提出了涵盖用户粒度与模拟目标的新型分类体系,并深入剖析了核心技术与评估方法。我们旨在帮助研究社群及时把握对话式用户模拟的前沿动态,通过梳理开放挑战并将现有研究纳入统一框架,进一步推动未来研究发展。
标准语音合成评估主要关注可懂度(词错误率WER、字错误率CER)和整体自然度(平均意见得分MOS、UTMOS),但无法量化口音问题。现有系统可能在这四项指标表现优异,却在目标语言具有音位价值的特征上呈现非母语感。针对印度语言,这类特征包括卷舌发音、送气音、元音长度以及泰米尔语的卷舌近音(字母zha)。我们提出PSP(音素替换剖面)——一个可解释的、按音系维度划分的印度语言TTS口音评测基准。PSP将口音分解为六个互补维度:卷舌音坍缩率(RR)、送气音保真度(AF)、元音长度保真度(LF)、泰米尔语zha音保真度(ZF)、弗雷歇音频距离(FAD)和韵律特征差异度(PSD)。前四项通过强制对齐结合基于Wav2Vec2-XLS-R第9层嵌入的母语者声学中心点进行测量;后两项为语料库级分布距离。在本版v1中,我们针对印地语、泰卢固语和泰米尔语试点集评测了四个商业及开源系统(ElevenLabs v3、Cartesia Sonic-3、Sarvam Bulbul、Indic Parler-TTS),并在三语种中额外加入第五个系统(Praxy Voice),同时包含泰卢固语的R5→R6案例研究。主要发现:(1)卷舌音坍缩率随音系难度单调递增:印地语<泰卢固语<泰米尔语(约1%、40%、68%);(2)PSP排序与WER排序存在差异——商业系统的WER领先优势未在卷舌音或韵律保真度上保持一致;(3)无一系统能在所有六个维度实现帕累托最优。我们公开了母语参考声学中心点(每语言500条音频)、用于FAD的1000条嵌入向量、用于PSD的500条韵律特征矩阵、每语言300条黄金测试集、MIT许可的评分代码及CC-BY许可的声学中心点。正式MOS相关性分析将留待v2版,v1版报告了五项内部一致性信号及母语音频验证结果。
商业TTS系统可生成接近母语水平的印度语系音频,但最优开源基础模型(Chatterbox、Indic Parler-TTS、IndicF5)在语音维度评测中仍落后,且应用最广的多语言基础模型(Chatterbox,支持23种语言)甚至无法对泰卢固语和泰米尔语进行分词。我们提出:在不训练新声学解码器、不使用商业TTS训练数据的前提下,如何通过最小干预使这类非印度语系基础模型对泰卢固语、泰米尔语和印地语实现商业级输出?我们整合了三项技术:(1)BUPS——一个婆罗米系统一音素空间,可将七种印度文字确定性罗马化为ISO-15919格式,使Chatterbox的拉丁语分词器能够处理;(2)仅针对文本标记预测器(Chatterbox的t3模块)训练的LoRA适配器,使用约1,220小时授权印度语系音频数据,并采用印地语代理语言标识;(3)语音提示恢复方案——通过8-11秒同语言参考音频与三项采样参数重置(夸张度0.7、温度0.6、最小概率0.1;“配置B”),无需声学解码器训练即可恢复商业级声学输出。对于印地语,LoRA会降低准确率,故改用原始Chatterbox+配置B,形成双分支部署。通过配套PSP基准测试对10语句试点集评估,Praxy Voice达到或略超商业基线:泰卢固语卷舌音崩塌率26.7%(对比Sarvam Bulbul的33.3%),泰米尔语zha音崩塌率71%(对比商业三巨头的86%),印地语LLM-WER指标0.025(与Cartesia Sonic-3持平)。针对句内语码混合,我们新增第三分支(IndicF5+原生文字转写),将Hi/Te/Ta混合语句的LLM-WER从0.80-0.85降至0.14-0.27。我们开源了R6 LoRA权重(Apache-2.0协议)、推理代码与路由器(MIT协议)及Gradio演示界面。
时尚AI系统通常在不公开披露的情况下,编码特定品牌、编辑和历史时期的美学逻辑。我们推出FASH-iCNN多模态系统,通过基于1991-2024年间15个时尚品牌的87,547张《Vogue》秀场图像训练,使这种文化逻辑变得可追溯。该系统能根据服装照片识别其所属品牌、时代归属及色彩传统。纯服装模型在14个品牌中的品牌识别准确率达78.2%(Top-1),年代识别准确率88.6%(Top-1),34个年份中的具体年份识别准确率58.3%(Top-1),平均误差仅2.2年。通过探究视觉通道的信号承载机制发现显著解离现象:去除色彩仅导致品牌识别准确率下降10.6个百分点,而去除纹理则造成37.6个百分点的损失,证实纹理与亮度是编辑风格的主要载体。FASH-iCNN将编辑文化视作核心信号而非背景噪声,通过标识影响每个输出结果的品牌、时代与色彩传统,使用户不仅能获取系统预测结果,更能洞察编码于预测中的品牌基因、编辑理念与历史印记。
视觉规划是人类智能的关键维度,尤其在需要复杂空间推理与导航的任务中表现突出。然而在机器学习领域,这一本质上的视觉问题常被置于以语言为核心的框架下解决。尽管近期研究展现了全视觉方法的潜力,但由于其采用逐步生成的规划范式,存在显著的计算效率瓶颈。本研究提出编辑即推理(EAR)新范式,将视觉规划重构为单步图像转换任务。为剥离视觉识别对内在推理的影响,我们采用抽象谜题作为探测任务,并构建了AMAZE程序化生成数据集,其中包含经典迷宫问题和皇后问题,覆盖两种截然不同且互补的视觉规划形式。AMAZE的抽象特性还支持对自回归和扩散模型进行像素级保真度与逻辑有效性的自动化评估。通过对主流专有及开源编辑模型的测试发现:所有模型在零样本设置下均表现不佳,但在基础尺度上进行微调后,能显著泛化至更大域内尺度及跨域尺度与几何结构。值得注意的是,即便在高端硬件上运行的最佳模型,其零样本效率仍未能达到人类解题者的水平,这揭示了神经视觉推理领域持续存在的差距。
联邦学习(FL)是一种分布式机器学习方法,允许多个设备在中央服务器协调下协同训练模型而无需共享底层数据。该方法面临的关键挑战之一在于设备间连接速度与带宽差异导致的通信瓶颈,因此必须缩减训练过程中的数据传输量。此外,训练过程中存在通过模型或梯度分析泄露敏感信息的潜在风险。为同时保障隐私性与通信效率,我们结合差分隐私(DP)与自适应量化方法:采用基于拉普拉斯机制的DP技术保护隐私(该方法在FL研究中相对未被充分探索,且能提供比高斯机制更严格的隐私保障);提出基于轮次的余弦退火全局比特长度调度器,以及通过数据集熵值分析动态评估客户端贡献度的自适应客户端调度器。我们在CIFAR10、MNIST和医学影像数据集上进行了大规模实验,测试场景涵盖非独立同分布数据、不同客户端数量、比特长度调度策略及隐私预算。结果表明,相较于32位浮点训练,自适应量化方法在MNIST数据集上减少通信总量达52.64%,在CIFAR10上达45.06%,在医学影像数据集上达31%-37%,同时保持具有竞争力的模型精度,并通过差分隐私机制确保稳健的隐私保护。
联邦学习是一种在中央服务器协调下,多个设备协同训练模型并确保数据隐私的机器学习范式。然而,冗余、恶意或异常样本常导致模型性能下降与效率低下。为解决此问题,我们提出面向图像分类的新型样本选择方法,采用多任务自编码器通过损失值与特征分析评估样本贡献度。该方法集成无监督异常检测技术,由中央服务器调度一类支持向量机(OCSVM)、隔离森林(IF)和自适应损失阈值(AT)方法,在客户端过滤噪声样本。我们还提出由中央服务器调控的多分类深度支持向量数据描述(SVDD)损失函数,以增强基于特征的样本选择。通过在CIFAR10和MNIST数据集上验证,涵盖不同客户端数量、非独立同分布数据及最高40%的噪声水平,实验表明:基于损失的样本选择显著提升准确率,其中OCSVM在CIFAR10上实现7.02%的增益,AT在MNIST上获得1.83%的增益;此外,联邦SVDD损失函数进一步优化了基于特征的样本选择,使OCSVM在CIFAR10上的准确率最高提升0.99%。这些结果证明了我们的方法在不同客户端规模与噪声环境下提升模型准确率的有效性。