每日精选AI研究论文及翻译
现实世界中的许多时刻并不会等待用户主动提问。监控画面中突然燃起的火苗、视频通话中一闪而过的表情变化、或者直播中观众心仪的产品快速掠过。然而,当今的大语言模型在设计上仍以轮次驱动为主:它们仅在被直接提问时才会回应,即便是那些看似具有交互性的视频通话应用,本质上仍是问答系统——仅在轮询或收到提示时被动响应。我们主张一种不同的范式:让模型如同真人般存在于真实世界。它能持续观察当下发生的事件,自主决定何时发言或保持沉默,进行实时互动,并在遇到复杂问题时将任务委托给后台模型。为推进交互模型的发展及其跨领域应用,我们做出两项完全开源贡献。首先,我们发布JoyAI-VL-Interaction——一个8B参数规模、以视觉优先的视觉语言交互模型。该模型能自主做出回应决策,每秒判断是保持沉默、作出回应还是委托给后台模型,在视觉触发响应能力和时间感知方面表现卓越。我们同步公开了一套可迁移的训练方案,从中涌现出我们从未刻意训练的能力,例如引导用户切换应用程序界面,或根据幻灯片即兴授课。其次,我们发布了一个基于该模型的完整可部署系统。该系统可将任何实时视频流输入模型,使其真正融入现实世界。所有其他组件均为可插拔设计,包括语音识别/语音合成模块、记忆系统、可视化界面,以及可对接任意API或代理的后台大脑。在六个真实场景的评估中,人类评审员对JoyAI-VL-Interaction的偏好远超豆包和Gemini的内置视频通话助手。据我们所知,这是首个开源、视觉驱动的交互模型,其训练方案、数据及完整可部署系统同步发布。
数据讲述的故事塑造着社会;数据记者的职责是将原始信息转化为非专业人士能够信赖的报道。一篇高质量的新闻特写需要一个新闻编辑团队耗时数周:挖掘背景、运行统计分析、选择报道角度、设计可视化呈现。当前的人工智能代理能够很好地处理单个环节:数据科学代理可完成分析闭环,设计代理能合成精美的网站。但一个代理能否端到端地扮演数据记者的角色?我们提出数据记者代理(Data2Story),这是一个多智能体框架,将各专业角色编排成一个虚拟新闻编辑室。Data2Story 贡献了两项创新:(i) 主张基于证据:一位审查员将每个数字、角度和素材链接回数据、代码或外部参考文献。(ii) 文章多模态生成:Data2Story 并非默认生成纯文本和静态图表,而是推理读者希望看到的内容,然后部署多模态工具,例如为地理信息使用交互式地图、为音乐使用音频。我们在 18 篇文章上评估 Data2Story,每篇均配有最初发表的专家撰写文章,从四个维度进行衡量:(a) 人类与代理的报道角度覆盖度;(b) 53 名参与者在五个维度上的量表评估;(c) 将计算机使用代理作为评判者,作为模拟读者如何浏览交互式文章的节省成本的替代方案;(d) 可验证性,通过代码验证器重新执行数据语句,并核对主张与参考文献是否一致。Data2Story 能产出具有竞争力且证据可追溯的多媒体故事,尤其在透明性和可审计性方面表现出色。人类文章在编辑角度、创意设计和呈现方式上仍具优势。我们将 Data2Story 定位为记者的协作工具,助力实现更多基于证据、透明且可验证的报道。代码与演示可在 https://data2story.github.io 获取。
通用机器人策略必须遵循用户指令,同时推理物体、摄像头和机器人动作如何在三维物理世界中交互。当前的视觉-语言-动作模型(VLA)和视频世界-动作模型(WAM)继承了大规模基础模型的强大语义或时间先验知识,但它们主要仍在二维图像帧或基于二维导出的潜在空间上运行,未能显式表达接触密集操作所需的三维几何信息。我们提出了几何动作模型(GAM),这是一种语言条件化的操作策略,直接将预训练的几何基础模型(GFM)重新用作感知、时间预测和动作解码的共享基座。GAM在GFM的中间层进行拆分:浅层作为观测编码器,而在拆分点处插入因果未来预测器,该预测器基于语言、本体感知和动作历史预测未来的潜在标记。预测的未来标记随后通过剩余的GFM模块进行特征传播和解码,从而使单个骨干网络能够同时生成未来几何信息和动作。这种设计通过最小的架构修改,为GFM赋予了语言条件化的时间世界建模能力,同时保留了其丰富的几何先验知识。在广泛的仿真和真实机器人操作基准测试中,GAM相比当前基础模型规模的基线方法更准确、更鲁棒、更快且更轻量。
DreamX-World 1.0是一个通用交互式文本/图像到视频的世界模型,专为可控的长时程生成而设计。它支持相机导航、对先前观察区域的重新访问,以及在照片级真实、游戏风格和风格化域中的可提示事件。我们的数据引擎结合了相机精确的虚幻引擎渲染、动作丰富的游戏录制以及带有恢复相机几何结构的真实世界视频。对于相机控制,我们引入了E-PRoPE,这是一种投影位置编码的轻量变体,它保留了PRoPE的投影相机几何结构,同时将相机感知注意力应用于空间降维后的词元。我们利用因果强制、DMD风格蒸馏和长展开训练,将双向视频生成器转换为少步自回归世界模型。在自生成长时程上下文上进行训练,让模型暴露于自身生成的历史中,减少了跨自回归块累积的风格和颜色漂移。基于记忆的场景持久性通过基于相机几何的检索获取早期视图,而残差循环利用使得条件路径对不完美的记忆潜在变量不那么敏感。事件指令微调增添了可组合的事件控制,而强化学习对齐在蒸馏后恢复了相机控制和视觉质量。借助混合精度DiT执行、残差复用、75%剪枝的VAE解码以及异步流水线并行,DreamX-World 1.0在八张RTX 5090 GPU上可达16 FPS。在我们的5秒基础评估中,DreamX-World 1.0获得了73.75的相机控制分数和84.76的总分,在总分上优于HY-WorldPlay 1.5(80.79)和LingBot-World(80.45)。
本技术报告介绍 VibeThinker-3B,一个具有 3B 参数的紧凑稠密模型,旨在探究在严格的小模型范畴内,可验证推理能推进到何种程度。基于“频谱到信号”后训练范式,我们通过优化流程系统性地增强模型,该流程包括基于课程的有监督微调、多域强化学习以及离线自蒸馏。实验评估表明,VibeThinker-3B 在要求极高的可验证任务上达到了前沿水平。具体而言,它在 AIME26 上取得 94.3 分(利用论元级别测试时扩展可提升至 97.1),在 LiveCodeBench v6 上取得 80.2 的 Pass@1,并在近期未见过的 LeetCode 竞赛中展现出强大的分布外泛化能力,接受率达 96.1%。这使其有效跻身一流推理系统的性能区间,匹配甚至超越规模大数个数量级的旗舰模型,如 DeepSeek V3.2、GLM-5 和 Gemini 3 Pro。此外,IFEval 上 93.4 的得分证实,这种极端的推理增强并未损害严格的指令可控性。延展我们之前 1.5B 的工作,这些发现提出了“参数压缩-覆盖假说”,该假说认为可验证推理可压缩为紧凑推理核心,而开放域知识和通用能力则需要广泛的参数覆盖以应对事实、概念和长尾场景。该视角表明,紧凑模型不仅是部署高效的替代方案,更是实现前沿性能的参数密集能力范式中一条互补路径。
大语言模型(LLM)编码智能体在软件工程任务中取得了显著成果,但代码库探索仍是一大瓶颈:定位相关代码会消耗大量token预算,并将无关片段混入智能体的上下文。在大多数智能体中,同一模型既负责探索代码库又负责解决问题,导致求解器的历史记录中充斥着探索性读取和搜索操作。本文提出FastContext,一种专用的探索子智能体,将代码库探索与问题求解相分离。FastContext按需调用,通过并行工具调用获取信息,并返回简洁的文件路径和行范围作为聚焦上下文。FastContext由参数规模从4B到30B不等的专用探索模型驱动。我们从强参考模型轨迹中引导生成这些探索模型,并通过基于任务的奖励对其进行优化,以提升首轮搜索广度、多轮证据收集能力以及精确引用生成质量。在SWE-bench Multilingual、SWE-bench Pro和SWE-QA基准上,将FastContext集成到Mini-SWE-Agent中,端到端解决率最高提升5.5%,同时编码智能体token消耗降低高达60%,且仅带来边际开销。这些结果表明,代码库探索可以与问题求解分离,并由专用模型高效处理。代码与数据:https://github.com/microsoft/fastcontext
高效且可扩展的智能体智能需要模型同时具备低延迟响应和强推理能力,同时在训练、部署和服务方面保持实用性。在本报告中,我们提出Ling-2.6和Ring-2.6,这是一系列旨在规模化解决这一挑战的模型。Ling-2.6针对即时响应生成和高每个输出令牌能力进行了优化,而Ring-2.6则专为更深层次的推理和更高级的智能体工作流而设计。我们并非从头训练,而是通过架构迁移预训练和大规模后训练对Ling-2.0基模型进行升级。这一升级以模型架构、优化目标、服务系统和智能体训练环境的统一协同设计为指导,实现了模型能力与部署效率的双重提升。在架构层面,我们引入了一种混合线性注意力设计,将闪电注意力与MLA相结合,提高了长上下文训练和解码的效率。为了进一步提升令牌效率,我们通过演化思维链、语言单元策略优化、双向偏好对齐以及最短正确响应蒸馏,优化了每个输出令牌的能力。在智能体能力方面,我们提出了KPop,这是一个强化学习框架,旨在支持Ring-2.6-1T在大规模环境数据上的稳定训练。KPop通过编码、搜索、工具使用和工作流执行之间的异步调度,提升了训练效率,实现了从复杂智能体-环境交互中的可扩展学习。Ling-2.6和Ring-2.6共同提供了一条通往高效、可扩展且开放智能体系统的实用路径。我们开源2.6系列的所有检查点,以支持实用智能体智能领域的进一步研究与发展。
掩蔽扩散语言模型(MDLMs)已成为序列生成的一种独特范式。随着MDLMs在能力和知识覆盖范围上日益多样化,一个关键问题是如何整合它们所拥有的知识。为此,我们首先研究了MDLMs独特的解码动态过程。我们发现,成功的生成在答案相关位置上表现出稳定的置信度动态,而不可靠的轨迹通常可以通过注入来自其他模型的有希望的中间状态得到修正。基于这一观察,我们提出TIE(基于轨迹的迭代集成),这是一种知识融合框架,其中MDLMs迭代地识别可靠的解码轨迹,并在模型间传递这些轨迹。TIE追踪答案相关位置上的置信度动态,以判断哪个模型当前遵循更可靠的轨迹,并选择性地将部分去噪后的序列在模型间传递。由于处于更有希望轨迹上的模型在去噪步骤中常常发生变化,TIE允许不同模型在生成的不同阶段贡献互补的优势。在多种推理任务上的强劲表现,以及我们的分析表明,TIE为MDLM集成这一尚未充分探索的问题提供了一种实用方法。
从捕获视频中逆渲染城市场景可实现众多应用,包括内容生成和自动驾驶模拟。基于物理的渲染方法遵循并控制光照物理规律,但存在重建与渲染伪影问题。生成模型虽能产生逼真视频,但一致性和可控性有限。我们提出BRDFusion——一个结合两种互补模型的统一框架,用于逆渲染与正向渲染。具体而言,BRDFusion通过物理建模恢复显式、一致的场景属性,并利用生成先验缓解优化歧义。在正向渲染阶段,物理模型基于场景配置提供可控渲染,生成模型则负责降噪与伪影修复。因此,本方法能在实现精准控制的同时生成高质量视频,在真实与合成场景中均优于基线方法。此外,BRDFusion支持新视角重打光、夜间模拟以及动态物体插入/编辑。项目主页:https://shigon255.github.io/brdfusion-page/
视觉语言模型正作为通用接口服务于复杂的多模态任务。然而,其部署仍面临三大鸿沟:处理密集视频帧和长提示时,VLMs通常会产生高延迟与高成本;部署后代理框架始终静态不变;标准的视频问答基准无法检验代理是否能在工具使用工作区中运用视觉证据。我们提出VisualClaw,一种基于两条原则构建的自演化多模态代理。首先,混合编码通过级联门控过滤信息量低的流式帧,并利用热/冷top‑k注入压缩技能文本库,从而降低部署成本。其次,技能演化使代理能够从失败中学习:检索到的记忆以直接拼接上下文或引导证据的形式构成演化器的条件,生成技能库更新以帮助未来问题解答。在4个视频QA基准测试中,结合2种VLM,VisualClaw将每问题的API成本较全帧上传平均降低98%,较离线均匀8帧基线降低25.9%,同时在多数设置中提升了准确率(例如,使用Gemini 3 Flash在EgoSchema上平均提升3.85%,最高提升15.80%)。为填补评估空白,我们构建了VisualClawArena——一个包含200个场景的多模态代理基准,经过严格五阶段流水线整理;模型需在特定工作区内使用视频证据、文档、动态更新及可执行检查。在VisualClawArena上,相同框架配合计算机使用代理后端,相较于无演化基线,Codex (GPT-5.5)的宏观准确率提升2.9%,Claude Code (Sonnet 4.6)提升3.2%,且成本较均匀采样基线降低9.5%。这些特性使VisualClaw天然适用于边缘应用:级联将1小时流式会话的API上传量从约3600次削减至仅5‑20次,而自演化特性使其成为完美的个性化助手。
我们提出Qwen-RobotWorld,这是一个面向具身智能的基于语言条件的视频世界模型。该模型以自然语言作为统一动作接口,能够从当前观测中预测物理上合理的未来视觉轨迹,涵盖机器人操作、自动驾驶、室内导航以及人机转移等场景。这种统一公式提供了三个有前景的应用方向:用于策略训练增强的合成数据生成、用于策略评估的可扩展虚拟环境,以及用于下游机器人控制的语言引导规划信号。这是通过三部分设计实现的:a) 双流MMDiT与MLLM动作编码,其中60层双流扩散变压器通过逐层联合注意力将冻结的Qwen2.5-VL语义与视频VAE潜变量耦合;b) 具身世界知识(EWK),一个包含860万视频文本语料库(超过2亿帧)的数据集,具有超过20种具身形态和500多个动作类别的动作语言映射;c) 通用+专家渐进课程,这是一种两阶段训练策略,首先学习通用视觉先验,然后在共享语言接口下注入具身专门化。大量结果表明其具有很强的竞争力:在EWMBench和DreamGen Bench上总体排名第一,在WorldModelBench和PBench上优于所有开源模型。在RoboTwin-IF基准上的额外零样本分析进一步支持了强大的泛化能力和多视图一致性。
多任务学习(MTL)在推荐系统中不可或缺,能够促进不同用户反馈之间的互补学习。尽管现代工业实践已从深度神经网络转向以Transformer为核心的架构以增强序列建模与扩展能力,但现有方案仍将特征编码与多任务预测解耦,将Transformer视为任务无关的编码器。这种设计从根本上限制了性能与可扩展性,具体表现为:(1)在异构任务目标下形成信息瓶颈;(2)引发梯度干扰导致跷跷板现象;(3)迫使数据流发生转换——基于注意力机制的上下文自适应表征学习被转化为静态前馈任务预测,且伴随信息读写动态不兼容的问题。 我们提出OneRank——一种原生Transformer多任务排序框架,该框架消除了编码器-预测器的分离,引入任务私有通道用于前向表征学习与反向优化,在降低任务间干扰的同时实现任务特化学习。在前向过程中,OneRank通过任务条件信息选择、候选感知上下文化以及受控的跨任务交互,自底向上学习任务特定表征。在反向过程中,跨任务梯度分离将任务私有参数更新与共享知识提取模块隔离,防止负迁移。我们进一步用基于动态匹配的打分机制替代静态的任务特定多层感知机评分器,实现上下文感知的个性化排序。通过将多任务推理内化至Transformer堆栈中,OneRank建立了统一且可扩展的架构范式。在工业级大规模数据集上的离线与在线实验表明,OneRank在保持计算效率的同时显著优于最先进的基线方法。
随着LLM代理在长周期会话中被部署,上下文积累推高了推理成本。现有方法采用文本剪枝或动态内存驱逐来最小化token占用量,但其无约束的序列变异改变了布局,导致前缀不匹配和缓存失效。这揭示了文本稀疏性与提示缓存连续性之间的关键权衡。为此,我们提出TokenPilot——一种双粒度上下文管理框架。全局层面,感知摄入的压缩作为框架约束机制,在摄入关口稳定提示前缀并消除开放世界环境噪声。局部层面,生命周期感知的驱逐监控上下文片段的持续剩余效用,仅在任务相关性失效时执行保守的批次轮转调度以卸载内容片段。在PinchBench和Claw-Eval上的实验表明,在隔离模式和连续模式下,TokenPilot分别将成本降低61%和56%(隔离模式)以及61%和87%(连续模式),同时保持与先前系统相当的性能。TokenPilot已集成至LightMem2,代码地址为https://github.com/zjunlp/LightMem2。
视觉世界模型(VWMs)能够从单张上下文图像中合成交互式、受动作调节的未来展开。然而,这些模型对对抗性扰动的鲁棒性仍是一个开放问题。标准对抗攻击难以评估这一脆弱性,因为攻击者既无法获取真实的未来视频,也无法预测后续的用户控制信号。我们提出BadWorld——一种专为自回归VWMs设计的无标签对抗框架,系统性地克服了上述两个限制。首先,为绕过对未来监督信号的需求,我们提出一种自监督速度攻击,直接破坏模型早期的去噪动力学过程。其次,为确保攻击能泛化至不可预测的用户行为,我们构建了轨迹自适应双层优化方法,主动挖掘困难控制序列以生成与具体控制无关的扰动。在采用连续与离散控制的代表性VWMs上评估表明,BadWorld揭示了模型严重的结构脆弱性。视觉上不可分辨的对抗图像可可靠地诱发未来展开的灾难性退化,导致去噪不完整、结构崩塌以及控制不一致。这些发现揭示了在安全关键系统中部署VWMs的重大风险,同时突显了一种实用的隐私保护机制。
将视觉-语言-动作(VLA)策略拓展至新任务通常需要特定任务的遥操作演示及逐任务微调,使得数据采集与计算两方面的适配成本高昂。本文证明,这种目标端逐任务适配成本可通过检索替代。我们提出的检索增强策略仅需在目标载体(查询)与低成本载体(池,如人手视频)的配对演示数据上训练一次,之后便固定不变。部署时,通过将池端演示添加至检索库即可纳入新任务。该冻结策略在每个控制步骤均以检索到的轨迹为条件,因此新任务通过索引数据而非更新参数来吸收。仅当面对全新未知载体时才需微调,而无需为每个新任务重复此过程。我们证明检索对策略的增强效果不限于特定基础架构(包括标准VLA策略),但在基于视频生成的世界-动作模型(WAM)Cosmos Policy中尤为显著。在此设定下,检索提供粗粒度的任务推进,而WAM的未来图像目标则提供额外的视觉一致性信号,强化检索条件化的动作。在PushT任务中,我们研究了检索如何为跨载体泛化至未见目标角度提供可复用的高层运动先验;在RoboTwin 2.0任务中,我们的方法在未见任务上超越跨载体基线,并在真实机器人上验证了该方法。
本文提出了一种新颖的即插即用算法SP^3,该算法通过用球形编码器(Spherical Encoders, SE)作为生成先验来替代去噪器,从而加速最大后验图像恢复。SP^3利用SE紧密结构的潜在空间作为自然图像流形的鲁棒投影,来近似处理难以求解的邻近先验步骤。借助半二次分裂(Half-Quadratic Splitting)将此投影与闭式数据一致性步骤交替进行,可在推理过程中无需梯度计算即实现稳定收敛。这种独特的公式赋予了“随时”恢复的能力,从首次迭代起即可生成清晰合理的图像。在多种图像恢复任务上的评估表明,SP^3在感知质量上与最先进的零样本扩散和流方法相当,而速度提升了3至630倍。
长视频生成需要重复出现的主体在不同镜头、视角、运动和场景切换中保持一致。现有的时间分解方法通过逐镜头生成视频来提升可扩展性,但其主要关注优化合理的下一镜头衔接,而未验证历史记忆是否保留了身份关键的主体证据。因此,随着生成过程的推进,重复出现的主体可能被稀释、覆盖或遗忘。本文提出Memento框架,这是一种主体重建引导的方法,将主体保持视为明确的身份锚定问题,其核心前提是:能够忠实保存主体的记忆库应能仅凭记忆重建该主体。具体而言,Memento联合训练自回归的下一镜头生成与基于记忆的主体重建,利用历史记忆和全局故事描述恢复目标外观。为将长程主体证据与短程线索分离,Memento引入了双查询记忆机制,其中一个查询检索与身份相关的记忆,另一个查询选择短上下文关键帧以实现连贯衔接。此外,基于主体感知的电影化数据流水线通过一致且无代词的主体描述提供精确的重建监督。实验表明,Memento在长期主体一致性、跨镜头连贯性和视觉质量方面均达到了最先进水平。
我们提出了大规模视频嵌入基准(MVEB),这是一个包含23个任务、涵盖分类、零样本分类、聚类、成对分类、检索和以视频为中心的问答的视频嵌入基准。我们评估了33个模型,发现没有任何单一模型占据主导地位:基于多模态大语言模型(MLLM)的嵌入在分类、聚类、成对分类和问答方面表现领先;多模态绑定在检索和零样本分类上领先;未经过对比自适应训练的生成式MLLM在跨模态任务上表现崩溃。通过成对的纯视频与音频+视频对比评估显示,音频的贡献取决于数据集的标注来源:当标签由两种模态共同生成时,音频有帮助;当标签仅由视觉模态生成时,音频反而有害,这一差距达六个百分点,且在不同模型家族中一致。MVEB源自一个包含184个任务的任务池MVEB+,其设计目的是在保持任务多样性的同时降低评估成本。它集成到MTEB生态系统中,以实现跨文本、图像、音频和视频的统一评估。我们在 https://github.com/embeddings-benchmark/mteb 上发布了MVEB及所有184个任务,以及相关代码和排行榜。
我们推出Nemotron 3 Ultra,这是一个总参数量5500亿、激活参数量55亿的混合专家模型,采用Mamba-注意力混合架构。我们在20万亿文本令牌上对Nemotron 3 Ultra进行预训练,随后将上下文长度扩展至100万令牌,并通过监督微调(SFT)、强化学习(RL)和多教师在线策略蒸馏(MOPD)进行后训练。Nemotron 3 Ultra是我们目前能力最强的模型,集成了多项关键技术——LatentMoE、多令牌预测(MTP)、NVFP4预训练、多环境RLVR、MOPD以及推理预算控制。与公开可用的最先进大语言模型相比,Nemotron 3 Ultra的推理吞吐量最高提升约6倍,同时保持同等精度水平。其顶尖的精度、高推理吞吐量以及100万令牌的上下文长度,使Nemotron 3 Ultra成为长期运行的自主智能体任务的理想选择。我们在HuggingFace上开源了基础检查点、后训练检查点、量化检查点,以及训练数据和配方。
高级智能体正日益展现出作为自主工程师的运行潜力,这催生了对能够捕捉真实世界开发复杂性的评估基准的迫切需求。此类环境通常涉及复杂代码与大规模数据(即文件系统)。然而,现有基准通常孤立评估以代码为中心或以数据为中心的能力,与实际开发场景存在显著差距。本文通过提出CODA-BENCH来弥合这一差距,这是首个在数据密集型环境中联合评估代码与数据智能的基准。我们基于Kaggle生态系统(包含数百个数据集)构建了一个数据密集型Linux沙箱,其中智能体必须主动探索复杂的文件层次结构,以识别相关资源并为数据驱动的分析任务生成代码。CODA-BENCH包含跨越31个社区的1,009项任务,每个任务环境平均包含980个文件,模拟了真实的数据规模与噪声。对先进智能体的评估显示,即便表现最佳的系统也难以有效整合数据发现与代码执行,其成功率仅为61.1%。这些结果凸显了当前智能体在处理数据密集型任务时的能力短板,并为未来研究指出了有前景的方向。
Web智能体通过长交互序列执行任务,但现有基准仅评估终端成功率,不仅丢弃所有过程信息,也难以提供改进指导。本研究对Web智能体进行过程级分析,提出WebStep基准,包含1,800个具有可控难度和自动语义状态追踪的任务实例。每个网站同时暴露确定性语义MDP与图形用户界面:智能体在界面上操作,而环境在后台记录高层状态与转换,无需人工标注即可实现细粒度分析。基于语义轨迹,我们首先证明过程指标能揭示结果评估无法捕捉的差异:三个成功率集中在31-33%的智能体在探索触及度与执行准确性上出现分化。接着,按技能分解可刻画这些差异的本质,暴露出同一网站内隐藏的逐技能反向排名:例如在住房领域,OpenAI CUA在提交操作上比Qwen3.5高出23.7%,但在过滤操作上却低15.6%,精准定位了该领域内可改进的具体技能。分岔分析进一步锁定导致任务失败的决策性错误,且该错误具有智能体特异性而非普遍性。最后,随着任务难度增加,这些差异逐渐扩大:在简单任务上成功率相近,但当探索要求提高时则出现明显分化。我们的过程级分析为Web智能体评估开辟了新路径,提供细粒度且可操作的洞见,阐明每个智能体应在何处及如何改进。
随着大语言模型的发展,后训练强化学习日益依赖多维奖励来培养综合能力。这一转变对能够同时优化多样化且可能相互竞争的目标的新算法提出了需求。为此,现有方法如分组奖励解耦策略优化(GDPO)将整体得分分解为独立的奖励组,然后在每组内分别计算强化学习损失。然而,该策略仍面临多奖励冲突问题:单次轨迹可能在部分奖励维度产生正优势,而在其他维度产生负优势,导致聚合时对立信号相互抵消,进一步阻碍强化学习训练效率。受动态采样策略优化(DAPO)通过滤除近似零优势的低效轨迹来提升训练效率的启发,我们提出分组动态奖励解耦策略优化(GD²PO)。具体而言,GD²PO采用冲突感知过滤机制,屏蔽存在严重奖励不一致的轨迹。通过防止冲突信号相互抵消,该屏蔽策略保留并增强了有效强化学习优势的幅度,从而显著加速学习效率。此外,我们引入查询级重加权,根据查询的整体奖励共识动态调整其更新强度。在工具调用与人类偏好对齐等多奖励场景下的实验表明,GD²PO持续且显著优于现有基线方法。代码已开源至 https://github.com/Qwen-Applications/GD2PO。
手机代理日益被期望能完成真实的移动工作流程,而不仅仅是预测下一个屏幕操作。然而,当前大多数移动代理研究仍主要将代理视为GUI控制器——观察屏幕、执行点击和滑动操作,并通过目标应用状态来评分。实际的手机使用任务更为广泛:它们需要判断何时使用应用GUI、设备端命令或结构化工具,同时留下证据表明预期的副作用确实发生了。为此,我们提出PhoneHarness——一个混合操作基准与执行框架,用于研究可验证移动工作流程中的手机使用代理。PhoneHarness在设备端运行代理循环,整合GUI、CLI和主机端工具操作,结合确定性操作路由、有界GUI委托和可审计执行轨迹。其基准测试PhoneHarness Bench评估代理是否完成具有可观测副作用的任务,而不仅仅判断其是否给出看似合理的最终答案。在标注的评估子集上,PhoneHarness达到75.0%的通过率,比非PhoneHarness的最强设置高出12.9个百分点。因此,PhoneHarness与PhoneHarness Bench扮演着相互区别但相互依赖的角色:框架使混合手机工作流程可执行,而基准测试衡量代理能否可靠且安全地使用该框架。我们的研究结果表明,可靠的手机自动化不仅依赖于视觉GUI控制,更依赖于操作界面路由与可验证执行。
统一多模态模型(UMMs)已成为通用多模态智能的关键方向,将理解与生成整合到单一框架中。然而,现有UMMs面临显著挑战:(1)视觉理解与生成任务之间固有的学习冲突,导致两个任务建模效果均不理想;(2)理解与生成任务采用不同视觉空间,阻碍了可扩展性;(3)过度依赖任务特定数据,忽略了文本-图像理解与生成的二元性。针对这些挑战,我们提出UniDDT模型,该模型利用噪声ViT编码器与大型语言模型(LLM)统一视觉生成与理解任务的语义编码,同时采用独立的扩散解码器将扩散解码与文本解码解耦。借助噪声ViT编码器,UniDDT能够将潜在空间作为统一视觉表征,实现理解与生成任务的无缝兼容,从而在生成任务的可扩展性与理解任务的语义表达能力之间取得平衡。此外,我们从同一图像-文本对构建双数据结构,促进生成数据与理解数据之间的相互依赖,以利用其内在二元性。大量实验表明,UniDDT能够在增强语义一致性与可扩展性的前提下,有效统一多模态理解与生成任务。在视觉生成任务中,我们的UniDDT在GenEval指标上达到0.87分,在DPG综合指标上达到86.9分;在多模态理解任务中,在MME基准上取得1699.5分,在SEEDbench综合指标上取得76.5分。
多轮LLM服务中,对话历史积累会导致每次对话与每个用户的键值(KV)缓存持续增长,其规模迅速超过模型权重自身,使得内存(而非计算)成为吞吐量的核心约束。非均匀KV压缩通过在不同注意力头间分配差异化预算,在保持精度上显著优于均匀方案,但实际应用中仍存在难题:现代服务框架假设各注意力头的KV长度相同,导致非均匀压缩产生的空闲内存以页面碎片形式存在,预填充阶段需耗费高达25%的时间回收分散页面,且GPU工作负载不均使得解码延迟增加1.7倍,或每次解码步骤中15%–20%的计算资源被重规划消耗。我们观察到,这种非均匀性无需运行时发现:注意力头的保留特征遵循两层次结构规律——输入无关的头部排序和每个头部有限的偏移比率——仅需50个样本即可离线校准。基于此洞察,我们提出Tangram服务框架,以静态方式解决先前系统需动态处理的问题:预算预留机制在调度时固定每个头部压缩后的内存占用,消除页面回收;参差不齐分页技术将预算相似的头部聚类到独立页表中,将碎片转化为可回收内存;预计算负载均衡则预计算平衡的GPU分区,无需运行时规划。基于vLLM实现的Tangram可作为现有非均匀压缩方法的即插即用基座,在保持精度的同时,将端到端吞吐量相比完整KV基线提升最高2.6倍。我们的实现已开源:https://github.com/aiha-lab/TANGRAM。
从新颖视角重新渲染现有视频,要求输出在遵循指定相机轨迹的同时,保持原始场景每一帧的外观和动态。现有方法依赖逐帧姿态嵌入、含噪点云渲染或隐式学习对应关系,但均无法在源像素与目标像素之间建立显式的时间连续链接。我们提出Track2View方法,该方法通过成对的3D点轨迹来调控视频扩散变换器:这些轨迹是场景点在源视角和目标视角投影形成的稀疏路径。这些轨迹通过构建显式的时空对应关系,天然具有时间连续性,能够编码内容应在何时出现在何处。Track2View的核心是一个双视角轨迹调节器,通过无参数几何操作和习得的时间聚合,将视觉上下文从源视角迁移至目标视角,确保对任意相机轨迹的泛化能力,无需记忆特定运动模式。我们进一步引入数据清洗流程:通过在时间维度拼接的多视角视频对中运行3D点追踪器,提取一对一的轨迹对应关系。在涵盖静态与动态场景的400段视频基准测试中,Track2View在视觉质量、视角同步性和相机精度方面均达到最优水平,相较主流基线方法,旋转误差降低30%-65%,平移误差降低61%-72。项目页面可通过此链接访问:https://qjizhi.github.io/track2view
当预训练的视觉-语言-动作(VLA)策略通过在线强化学习进行微调时,每次交互轨迹只产生一个二元结果(成功或失败),但动作网络的更新需要每个转移步骤的监督信号。现有方法通常将这种稀疏结果简化为单一的标量奖励或优势值,这混淆了不同形式的转移级别反馈,且一旦基本任务成功变得可实现时,所提供的指导作用便十分有限。首先,单一标量信号混淆了可行性和效率这两个目标;一旦基本成功达成,二元标签无法提供梯度来区分高效完成与缓慢完成。其次,真实世界的交互轨迹混合了自主执行段和人工干预段;简单地将整个轨迹的结局标签跨这些边界分配会导致错误的信度分配。为解决这些问题,我们提出分层优势加权行为克隆(HABC),该方法针对这两个目标在不同数据子集上训练独立的评价网络分支,并通过状态自适应平衡机制融合其输出。一个状态自适应门控变量g_t将两者的一步优势值合并:在成功不确定时优先考虑可行性,仅在可行性高时才转向效率目标,并将结果转换为动作网络损失函数中每个转移步骤的权重。干预感知的信度分配进一步将结局标签限制在当前策略执行的片段内,防止监督信号跨越干预边界泄露。在三个接触密集的双臂操作任务的实际机器人实验中,HABC将监督微调(SFT)基线的成功率从36%、44%与12%分别提升至92%、88%与38%。
假设更少的方法在很大程度上推动了人工智能的进步。随着计算能力和数据的增加,归纳偏置较弱的方法通常优于假设更强的方法。这在视觉表示学习领域尤为典型——该领域的方法已从监督学习主导,经弱监督学习,发展至如今无需人工标注的自监督学习的广泛成功。然而,即便是现代自监督学习方法,仍依赖于数据增强、掩码或裁剪等强归纳偏置。若这一趋势持续,即便是这些残留的偏置也会在大规模场景下成为瓶颈——我们的实验证实了这一点:随着数据增长,归纳偏置的最优强度会逐渐降低。这促使我们探索依赖更少假设的方法。为此,我们提出视觉时序差分(Temporal Difference in Vision,TDV),一种从视频中自监督学习的新范式,该方法规避了现有归纳偏置,转而依赖一个因果假设:过去引发未来。TDV通过联合训练图像编码器和运动编码器,使得当前帧的表示加上编码后的运动等于下一帧的表示。尽管未利用任何强归纳偏置,TDV在密集空间任务上仍能与最先进方法媲美,为无强假设的表示学习奠定了基础。
稀疏自编码器(SAE)被广泛用于解释神经网络表征,但其效用取决于学习到的特征是否能在不同训练轮次间复现。我们通过特征稳定性研究这一问题:对每个SAE特征,我们评估其在独立训练的SAE中出现相似特征的概率。这一方法为每个特征提供了可扩展的信号,从而区分稳定特征与不稳定特征。在跨随机种子、模型、层、字典大小及SAE变体的大规模研究中,我们发现显著的功能不对称性:稳定特征承载了大部分与重建和预测相关的信号,而不稳定特征则具有微弱的边际影响,并且在激活统计和自动解释中主要由低频表面形式触发因素主导。从几何角度看,不稳定特征虽然个体不可复现,但却集中在可复现的低秩子空间中,这表明对种子的依赖性往往反映了共享激活空间区域内的基模糊性,而非纯粹噪声。一个受控的合成模型明确揭示了这一机制,表明低秩的真实特征可以在子空间层面被恢复,但作为跨种子的个体SAE潜变量却无法被识别。最后,通过汇集跨种子的独特特征,我们构建了更稳定的SAE,同时在此设置下保留了已解释方差。这些结果共同表明,不稳定特征并非仅仅是失败或噪声潜变量:它们个体功能影响微弱,但反映了可复现的低维结构,而标准SAE在不同的种子下以不同方式解析这些结构。
扩散变换器已展现出卓越的生成能力,但在内容渲染后,其去噪轨迹中计算出的丰富感知表征却被丢弃。我们提出MMDiff框架,将冻结的扩散变换器转化为多模态生成系统,可利用轻量级解码器头同时生成图像及任意组合的密集感知模态。核心发现是:感知信息沿去噪轨迹呈时间分布特性,采用空间变化聚合权重的多时间步特征融合至关重要,相较于单时间步提取,语义分割结果平均交并比(mIoU)最高可提升28.7%。我们进一步采用概念驱动注意力提取实现可解释的空间引导,并证明冻结扩散特征与DINOv3等先进编码器相比具有竞争力且相互补充。通过仅在冻结主干网络上训练轻量级解码器头,我们在语义分割、显著目标检测和深度估计任务中取得优异性能,并验证该框架可有效支持大规模合成数据生成。
高级推理通常需要链式思维提示,虽然准确但会导致难以承受的延迟和大量测试时推理成本。标准替代方案是对较小模型进行微调,但这往往以牺牲可解释性为代价,同时引入显著的资源和运营开销。为解决这些局限,我们提出提示级蒸馏(PLD)。我们从教师模型中提取显式推理模式,并将其组织成结构化的指令列表,作为学生模型系统提示的表达性指令。使用Gemma-3 4B模型评估时,PLD将StereoSet的宏F1分数从57%提升至90.0%,Contract-NLI从67%提升至83%,同时将LogiQA准确率提高至70%。在Mistral Small 3.1上的类似结果证明了跨架构的泛化能力,使这些紧凑模型能够以可忽略的延迟开销达到前沿性能。这些表达性指令使决策过程透明化,允许对逻辑进行完整的人工验证,使该方法成为法律、金融和内容审核等监管行业以及高吞吐量场景和边缘设备的理想选择。
稀疏奖励强化学习已成为提升大语言模型推理能力的标准工具,但其成功与否关键取决于基础模型中的覆盖范围。在实践中,模型通常通过中期训练——基于精选的推理轨迹(这些轨迹教授分解、验证或自我修正等有用原始技能)——为强化学习做好准备。尽管这种方法有效,但需要手动指定模型应学习的内容,且尚不清楚此类原始覆盖是否足以应对更难的问题——这些问题需要将这些技能组合成更广泛的解题策略。我们研究了一种更自动化的方法:基于强化学习的中期训练,利用大规模人工编写的问答数据。我们的方法ExpRL并非将参考解答视为模仿目标,而是将其用作奖励脚手架:参考解答对策略隐藏,仅用于构建针对具体问题的评分标准,以评判在线策略产生的推理轨迹。策略从原始问题提示中采样,同时一个大语言模型评判器将采样得到的推理轨迹与参考解答进行比较,并分配结果级或过程级密集奖励。这使ExpRL能够强化部分进展、有用的中间简化步骤以及富有成效的推理行为——而这些往往是稀疏最终答案奖励难以加权的。在具有挑战性的数学推理任务中,ExpRL相比SFT、稀疏奖励GRPO和自蒸馏产生了更强的强化学习预激活效果,并为后续稀疏奖励强化学习提供了更好的初始化。此外,跨混合领域的实验表明,ExpRL能够扩展至最初的纯数学场景之外。
在编辑操作下保持一致的视频生成需要持久性:当编辑修改场景外观或布局时,后续生成的内容必须在时间和视角上保持连贯。然而,现有记忆设计在应对此类修改后难以维持长期一致性,因为存储的上下文可能过时或失效。为此,我们提出PermaVid——一个基于多模态上下文记忆的新型框架,该框架将空间上下文解耦为语义外观和几何结构,并结合编辑感知的记忆更新与检索策略,使记忆演化与后续观测保持一致。具体而言,我们构建了两个互补的记忆库:RGB上下文记忆捕获外观感知的观测信息并隐式编码几何结构,深度上下文记忆则保留与语义解耦的纯几何结构。基于此设计,我们引入记忆引导的视频生成模型,该模型在混合模态记忆上下文中提取参考条件,执行多模态特征融合。实验表明,我们的方法在编辑后仍能保持强大的长期语义与结构一致性,显著优于现有最先进方法。
欢迎阅读《AI指数报告》第九版。随着人工智能持续快速发展,围绕其构建的系统能否跟上步伐成为核心问题。治理框架、评估方法、教育体系以及追踪AI影响所需的数据基础设施,都难以匹配技术本身的发展速度。AI的能力与人类应对准备之间的鸿沟,贯穿今年报告的每一章节。本版新增内容包括:追踪AI在推理、安全性和真实世界任务执行方面接受更具挑战性测试的现状,以及这些评估指标为何越来越难以依赖。报告还首次呈现了对生成式AI经济价值的最新估算及其对劳动力市场的初步影响证据,提出AI主权的分析框架,并与施密特科学合作开发了科学专题章节。作为创举,本报告首次设立"AI与科学"和"AI与医学"独立章节,反映AI在这两个领域日益增长的影响力。
大型语言模型(LLMs)正逐渐被用作生成式推荐(GR)的骨干架构,有望调用预训练的世界知识。然而,如何可靠地将这些知识用于GR仍缺乏深入理解。一个关键障碍在于,基于LLM的GR通常使用语义ID(SIDs)来表示物品,这破坏了LLM的自然语言推理接口——因为这些令牌在预训练阶段对LLM而言是未见过的。现有方法通过构建昂贵的多阶段流水线来锚定SIDs并生成显式推理依据,但无法深入揭示每个阶段何时及为何必要。本研究系统性地解构了基于LLM的GR的显式推理训练流程,揭示了三个关键局限:世界知识语言化能力减弱、SID与自然语言令牌嵌入空间的对齐错位、以及推理依据质量的敏感性——这些均损害显式推理性能。为规避这些问题,我们提出PauseRec——一种专为GR设计的轻量级隐式推理范式。PauseRec极具实用性,无需昂贵的推理轨迹获取和推理对齐训练,带来多重优势:(1)在性能上比标准显式思维链方法提升高达6.22%,(2)训练成本降低最多65%的GPU小时数,(3)推理速度提升高达71.3%。这些结果使PauseRec成为显式推理依据生成的轻量级替代方案,从而实现更高效、更有效的基于LLM的GR。
人类通过日常互动自然地理解物体物理特性,但准确预测弹性材料和织物等复杂可变形动力学仍是计算机视觉与机器人学面临的重大挑战。我们提出EgoPhys框架,该框架利用可泛化先验知识,仅从第一人称视角RGB视频构建可变形物理数字孪生。EgoPhys通过将每个物体的逆物理求解结果提炼为紧凑码本,克服现有方法局限,实现从第一人称视角视频生成可控可变形数字孪生,且无需在测试阶段对每个弹簧进行优化即可预测未见物体的密集弹簧刚度场。该框架通过多样化第一人称视角互动数据中的可泛化先验进行训练,在重建、未来预测及零样本泛化方面均优于基线方法。为支持训练与评估,我们构建了涵盖多种可变形物体、场景及操作风格的第一人称视角互动数据集。在真实xArm6机器人上部署EgoPhys后,我们发现通过单段第一人称视角人类操作视频初始化的数字孪生,可作为内部世界表征辅助可变形物体规划,凸显了第一人称视角RGB观测在构建从真实到仿真流程中的可扩展路径。
标准准确性基准旨在测试大语言模型(LLMs)接近正确答案的程度,但不足以检验模型在面临合理反论挑战时是否会坚持正确回答。我们引入了一种受控协议来评估答案稳定性:在模型正确回答选择题后,我们用针对错误选项的连贯论证来挑战模型的答案,并测量模型是否会翻转。该设置能够:(a)将论证性内容与显性社会压力分离;(b)在论证长度、自我归因以及跨模型来源之间进行变化。在七个前沿模型和57个MMLU学科上,翻转率范围从17.5%到97.3%,揭示了仅靠准确率指标无法捕捉到的稳定性巨大差异。我们发现自我归因始终会增加翻转率(平均增加7.1个百分点,最高增加18.7个百分点)。此外,汇总各模型的错误答案论证,并为每道题选择最有效的论证,能够比依赖单一源模型产生更强的对抗性挑战。我们进一步构建了MaxFlip(一个精选挑战集),它比标准自生成挑战最多可使翻转率提高23.6个百分点。我们公开了该协议、挑战记录和MaxFlip,以支持与标准准确性基准并行的稳定性评估。相关材料可在 https://github.com/nafisenik/WhoFlips 和 https://hf.co/datasets/nafisehNik/WhoFlips 获取。
视觉-语言-动作模型(VLAs)利用大规模视觉-语言预训练实现语义化机器人控制,但往往缺乏对机器人动作如何改变场景的显式预见。世界-动作模型(WAMs)通过基于预测的未来状态来调节策略,弥补了这一局限,然而现有方法通常依赖计算开销巨大的视频生成过程,其中包含大量像素级冗余。我们提出LaWAM,一种隐空间世界动作模型,通过紧凑的隐空间视觉子目标而非重构的未来视频,将预测性动态信息暴露给机器人策略。LaWAM的核心是一个基于隐动作条件训练的隐空间世界模型(LaWM)。我们通过在预训练的视觉基础模型的隐空间中训练一个隐动作模型,并复用其前向解码器来预测未来观测特征以模拟场景演进,从而得到LaWM。随后,LaWAM基于这些预测的隐空间视觉子目标来生成动作,实现具有动态感知能力的机器人控制。LaWAM在LIBERO(成功率98.6%)、RoboTwin(成功率91.22%)以及真实世界操作任务中取得了最先进或具有竞争力的成功率,同时保持了低延迟推理。LaWAM每次动作块预测仅需187毫秒,相比像素空间WAMs实现了高达24倍的挂钟延迟降低。
一个内容审核系统在各项标准准确率指标上可能得分很高,但若其错误恰落在连接着原本相互分离的社区的少数用户(即“桥梁用户”)身上,仍可能造成实质性伤害。我们通过一个基于主体的模型证明这一点:在社区结构化网络中,N=240个学习主体各自发布无害、有益或危险内容,而监管机构根据噪声分类器的标记移除或处罚相关内容。当噪声水平变化时,整体效用几乎没有变动(单因素方差分析,p=0.96):从汇总指标看,一切正常。然而伤害实际上集中在这些桥梁用户身上——他们发布的有用帖子被错误压制,而危险帖子却被错误放过。一种将这两种错误与执行成本分开计价的治理损失(L_gov)在假阳性偏重的噪声条件下增长超过一倍。聚合准确率掩盖了谁受到伤害,而最容易审计的量化指标是用户拥有的连接数(度),该指标与定义桥梁用户的中介中心性之间近乎完美相关(r=0.96)。
尽管机器文本检测器的发展取得了显著进展,但机器文本易于被操纵以规避检测的现象,引发了该问题本质上是难以解决的讨论。本研究探讨了此类规避策略的局限性。我们证明,尽管从提示工程到检测器引导优化等现有攻击手段能有效削弱标准检测器的性能,但它们无法消除机器文本底层的“风格指纹”特征。我们进一步表明,利用风格特征空间的少样本检测器对这些规避尝试具有鲁棒性,即使是针对为规避检测而明确调整过的模型生成的样本,也能可靠地识别。这引发了一个问题:风格是否构成了对抗机器检测攻击的普适性防御?我们通过引入一种新颖的重写方法,证明答案是“否”——该方法同时优化了不可检测性与对人类特定风格的遵循。研究表明,与先前方法不同,这种攻击手段能有效规避所有被考虑的检测器,包括那些利用写作风格的检测器。然而,我们发现这种规避并非绝对:随着可供分析的文档数量增加,人类文本与机器文本的分布再次变得可区分。总体而言,我们的发现表明,可靠的机器文本检测需要从单文档分析转向多文档分析。
人类可以毫不费力地抓取物体,而多指机器人远未达到这一通用水平。我们认为,机器人抓取数据最自然的来源是人类——他们每天都会拿起成千上万个物体。为此,我们提出HUG,一种流匹配模型,能够基于立体相机拍摄的单张RGB-D图像,为用户指定的任意物体生成多样化的类人抓取姿态。首先,我们利用智能眼镜采集了1M-HUGs,这是一个以自我为中心的类人抓取数据集,涵盖100万帧(27.8小时)、41栋建筑中的6707个物体实例。接着,为建模自然类人抓取的分布,我们的新型流匹配模型融合了RGB和深度观测数据,输出由手腕平移、手腕旋转及MANO手部姿态参数化的抓取结果。预测的抓取可重定向至多种机器人手,实现日常场景中的零样本抓取。为规范化评估,我们构建了新的模拟基准HUG-Bench,包含来自五个几何类别、多种尺寸的90个未见物体,并配有公制尺度的三维网格模型。我们在HUG-Bench的30个物体测试集上,跨多款立体相机、机器人实体及家庭环境进行了真实世界评估。在我们极具挑战性的物体集上,HUG相比最先进的抓取基线方法分别提升了23%和34%。代码、数据、基准、检查点及交互式演示已发布于我们的网站:https://grasping.io/
Polymarket已成为一个突出的预测市场平台,也是DeFi领域增长最快的应用之一。为实现低延迟交易,它采用了混合架构:订单在链下匹配,但最终在链上结算执行。这种设计产生了一种我们称为"幽灵成交"的一致性缺口:一个成功在链下匹配的订单,后续可能在链上结算时失败。为探究这一缺口的安全隐患,我们通过构建GHOSTHUNTER系统,从链上交易记录中重建此类失败结算事件,并将其归因于具体攻击模式。在1,952,440笔被撤销的匹配订单交易中,我们发现攻击者利用匹配与结算之间的时间差,在已匹配订单最终上链确认前将其无效化。我们进一步从这些事件中识别出四种攻击向量:Nonce递增攻击、余额耗尽攻击、授权撤销攻击和代理陷阱攻击,它们通过35种演化变体实现。这些攻击向量使攻击者能够选择性撤销980,133笔已成交订单,从而实施无风险预测、抢跑机器人狩猎和流动性奖励操纵,至少获利149万美元,导致17.8亿美元资金面临风险,且操作者支付了217万POL代币(约21.2万美元)。在高峰期,超过24.3%的已成交订单被撤销,造成了事实上的拒绝服务攻击。我们还发现,源自存在缺陷合约的代码仍出现在10条链上的167个独立合约中,持有至少2300万美元的用户资金,将影响范围扩展至Polymarket之外。我们已向受影响方披露相关证据,该问题已得到部分缓解。
我们介绍TuneJury,这是一个面向文本到音乐的开放式、实例级成对奖励模型,它能够根据文本提示和音频片段预测音乐偏好分数。发布的检查点在公开可用的人类偏好标签上训练,涵盖竞技场式(A vs. B)投票、度量对齐偏好对、众包成对比较和专家审美评分。两个片段之间的预测分数差在我们保留的测试集上校准良好,支持通过简单的分数阈值进行数据筛选。TuneJury对保留的测试对和分布外基准均具有良好的泛化能力,并在后者上保持与先前基线相当的水平。对于训练后发布的生成器,我们引入了锚定校准,这是一种事后、每系统的Bradley-Terry校准,以显著优于从头再训练的数据效率恢复一致性。相同的冻结奖励在三个下游应用中驱动一致的奖励轴增益:推理时的最佳N选择、DITTO风格的潜在优化和专家迭代后训练。TuneJury可在https://github.com/yonghyunk1m/TuneJury 获取。