每日精选AI研究论文及翻译
推测解码通过让轻量级草稿模型预测未来词元,再由大型目标模型并行验证的方式加速自回归生成。然而实践中,草稿模型通常基于宽泛的通用语料训练,这使推测解码的质量在多大程度上依赖于草稿模型的训练分布变得不明确。我们通过使用基于MathInstruct、ShareGPT及混合数据变体训练的轻量级HASS和EAGLE-2草稿模型,在MT-Bench、GSM8K、MATH-500和SVAMP基准上进行评估来研究该问题。以接受长度为衡量标准,任务特定训练展现出明显的专业化特征:基于MathInstruct训练的草稿模型在推理类基准上表现最强,而基于ShareGPT训练的草稿模型在MT-Bench上最优。混合数据训练能提升鲁棒性,但更大规模的混合数据并未在所有解码温度下占据优势。我们还研究了如何在推理时组合专业化草稿模型:简单的检查点平均方法效果不佳,而基于置信度的路由策略优于单领域草稿模型,合并树验证则在两种骨干模型上均实现了最高的总体接受长度。最后,置信度是比熵更有效的路由信号:被拒绝的词元往往具有更高熵值,但置信度能在基准层面产生更清晰的路由决策。这些结果表明,推测解码质量不仅取决于草稿模型架构,更依赖于草稿训练数据与下游任务的匹配程度,且专业化草稿模型在推理时组合的效果优于在权重空间融合。
近年来,能够自主生成科学假说、开展实验并撰写论文的智能系统,已成为加速科学发现的新兴范式。然而现有AI科学家大多缺乏领域特异性,限制了其在临床医学中的应用——该领域研究需以医学证据为基础且涉及专业数据模态。本研究提出医学AI科学家,首个面向临床自主研究的专用框架。该框架通过临床医生与工程师的协同推理机制,将系统梳理的文献转化为可操作的证据,实现临床扎根的创意生成,并提升研究思路的可追溯性。在此基础上,系统依据结构化医学写作规范与伦理准则,完成证据导向的论文撰写。该框架支持三种研究模式:文献驱动复现、灵感引导创新及任务导向探索,分别对应自动化程度递增的科学探究层级。基于171个案例、19项临床任务和6种数据模态的综合评估表明,医学AI科学家生成的创意质量显著优于商用大语言模型。同时,本系统实现了方法设计与实施的高度契合,在可执行实验中展现出显著更高的成功率。双盲评审显示,生成论文质量接近MICCAI会议水平,且持续优于ISBI与BIBM会议论文。医学AI科学家的提出,彰显了人工智能在医疗健康领域实现自主科学发现的巨大潜力。
近期图像生成模型展现出生成高保真度与逼真图像的强大能力。然而这些模型本质上受限于其固化的内部知识,因此在处理需要密集知识或最新信息的现实场景时常显不足。本文提出Gen-Searcher,首次尝试训练具备搜索增强能力的图像生成智能体,通过执行多跳推理与搜索来收集文本知识及参考图像,从而实现基于事实依据的生成。为实现这一目标,我们构建了定制化数据流水线,并精心策划了两个高质量数据集——包含多样化搜索密集型提示词及对应真实合成图像的Gen-Searcher-SFT-10k与Gen-Searcher-RL-6k。我们进一步推出KnowGen基准测试,该基准明确要求基于外部搜索知识的图像生成,并从多维度评估模型性能。基于这些资源,我们采用监督微调与智能体强化学习相结合的方式训练Gen-Searcher,其中双奖励反馈机制融合文本与图像奖励,为GRPO训练提供更稳定、信息量更大的学习信号。实验表明,Gen-Searcher带来显著性能提升,在KnowGen和WISE基准上分别将Qwen-Image模型性能提高约16分和15分。我们期望本工作能为图像生成领域的搜索智能体奠定开放基础,并完整开源数据、模型及代码。
由大型生成模型构成的多智能体系统正迅速从实验室原型走向现实部署,这些系统通过联合规划、协商和共享资源分配来解决复杂任务。尽管此类系统展现出前所未有的可扩展性和自主性,但其集体互动也催生了无法归因于单个智能体的故障模式。因此,理解这些涌现风险至关重要。本文针对涉及共享资源(如计算资源或市场份额)竞争、顺序交接协作(下游智能体仅能看到前序输出)、集体决策聚合等工作流中的涌现性多智能体风险展开开创性研究。在这些场景中,我们观察到此类群体行为在重复试验和多样化交互条件下频繁出现,而非罕见或病理性案例。特别是在现实资源约束、通信协议和角色分配条件下,类合谋协调和从众等现象以不可忽视的频率涌现,复现了人类社会众所周知的病态模式——尽管系统并未被明确指示如此行事。更关键的是,仅靠现有智能体层面的防护措施无法预防这些风险。这些发现揭示了智能多智能体系统的阴暗面:一种社会智能风险,即智能体集体在未被指示的情况下,自发复现了人类社会的典型故障模式。
通用技术重塑经济的关键,并非通过改进单一工具,而在于催生新的生产组织与协作方式。我们相信智能体正面临类似的转折点:随着基础模型使广泛任务执行与工具调用日趋普及,核心瓶颈已从原始能力转向大规模工作委派、验证与激励的机制设计。为此,我们推出EpochX——一个为人类-智能体生产网络构建的信用原生市场基础设施。EpochX将人类与智能体视为对等参与者,均可发布或认领任务。被认领的任务可分解为子任务,通过包含验证与确认的明确交付工作流执行。关键在于,EpochX的设计使每笔完成交易都能生成可复用的生态资产,包括技能、工作流、执行轨迹与提炼的经验。这些资产通过显式依赖关系存储,支持检索、组合与持续累积改进。EpochX还引入原生信用机制,使参与者在真实算力成本下实现经济可持续。信用用于锁定任务赏金、预算委派、完成结算奖励,并在已验证资产被复用时补偿创作者。通过将端到端交易模型与资产层、激励层协同形式化,EpochX将智能体AI重构为组织设计问题:构建可验证工作留存持久化可复用资产的基础设施,并让价值流动支撑可持续的人机协作。
以深度稀疏注意力(DSA)为代表的令牌级稀疏注意力机制,通过轻量级索引器为每个查询对历史令牌进行细粒度评分,仅对选定子集计算注意力。虽然下游稀疏注意力能高效扩展,但索引器仍需为每个查询扫描全部前缀,导致每层存在O(L²)计算瓶颈,该问题随上下文长度增加而愈发突出。我们提出分层索引稀疏注意力(HISA),作为索引器的即插即用替代方案,将搜索过程从扁平化令牌扫描转为两阶段分层处理:首先通过块级粗筛器对聚合的块表征评分以剪枝无关区域,随后在候选块内应用原索引器进行令牌级精筛。HISA完整保留下游稀疏多头注意力算子所需的精确令牌级Top-K稀疏模式,且无需额外训练。在核级基准测试中,HISA在32K上下文长度时实现2倍加速,在128K时达到4倍加速。在Needle-in-a-Haystack和LongBench测试中,我们直接将DeepSeek-V3.2的索引器替换为HISA而未进行微调。HISA在质量上与原DSA高度吻合,同时显著优于块稀疏基线。此外,HISA与原DSA产生的令牌选择集平均交并比超过99%,表明其效率提升几乎不影响选择保真度。
多模态持续指令调优旨在通过不断学习新数据而不遗忘已掌握知识,来持续增强大型视觉语言模型。专家混合架构通过增量添加新专家并扩展路由网络,同时冻结现有组件,天然适配这一目标。然而尽管存在专家隔离机制,基于MoE的持续学习模型仍因路由漂移现象遭受遗忘:旧任务令牌被错误吸引至新增专家,导致先前任务性能下降。我们在令牌层面分析这一失效模式,揭示了令牌困境:新任务数据中的模糊令牌和旧令牌学习收益微乎其微,却在训练期间因路由分配模糊性被导向新专家,从而引发遗忘。基于此,我们提出LLaVA-DyMoE——一种具备漂移感知令牌分配能力的动态MoE框架。我们通过路由分数分布表征令牌类型,并实施针对性正则化:令牌级分配引导将模糊令牌和旧令牌从新专家处剥离,以保持既定路由模式并缓解路由漂移;同时辅以路由分数正则化,强制专家组分离并促进新专家专业化。大量实验表明,LLaVA-DyMoE能有效缓解路由漂移引发的遗忘,相比基线模型在平均最终准确率上提升超7%,遗忘率降低12%。项目主页详见https://zhaoc5.github.io/DyMoE。
近期图像编辑技术的进步使得模型能够以惊人的真实感处理复杂指令。然而现有评估体系却相对滞后:当前基准测试存在任务覆盖范围狭窄的问题,而标准指标难以充分捕捉视觉一致性,即编辑后图像与原始图像在身份特征、结构布局和语义连贯性方面的保持程度。为解决这些局限,我们推出GEditBench v2——一个包含1,200个真实用户查询的综合性基准测试,涵盖23类编辑任务,其中特别设置了开放集类别以容纳超出预设任务范畴的无约束、分布外编辑指令。此外,我们提出PVC-Judge这一基于成对比较的开源视觉一致性评估模型,该模型通过两种新颖的区域解耦偏好数据合成流程进行训练。同时,我们利用专家标注的偏好对构建VCReward-Bench数据集,用以验证PVC-Judge在视觉一致性评估方面与人类判断的契合度。实验表明,我们的PVC-Judge在开源模型中实现了最先进的评估性能,平均表现甚至超越GPT-5.1。最终通过对16个前沿编辑模型的基准测试,我们证明GEditBench v2能实现更符合人类感知的评估,揭示当前模型的关键局限,为推进精准图像编辑技术提供可靠基础。
得益于大规模训练赋能,视觉语言模型(VLM)在图像与视频理解方面表现出色,但其在静态场景和动态视频中进行空间推理的能力仍显不足。近期研究尝试通过将预训练三维基础模型中的几何标记注入VLM来突破这一局限。然而我们发现,此类工作中简单的标记融合与标准微调常导致几何线索在空间推理中未被充分利用,因为VLM往往过度依赖二维视觉特征。本文提出GeoSR框架,通过激励VLM主动运用几何标记进行推理,真正发挥几何信息的作用。该框架包含两个核心组件:(1)几何激发掩码机制,通过在训练中策略性掩蔽部分二维视觉标记,弱化非几何捷径,迫使模型借助几何标记完成空间推理;(2)几何引导融合机制,采用门控路由策略,在几何证据关键区域自适应增强几何标记的贡献度。这些设计共同释放了几何标记在空间推理任务中的潜力。在静态与动态空间推理基准上的大量实验表明,GeoSR通过有效利用几何信息,持续超越现有方法并创下性能新纪录。项目页面详见https://suhzhang.github.io/GeoSR/。
视频生成技术的快速发展已使模型能够模拟复杂的物理动力学和长程因果关系,使其成为潜在的世界模拟器。然而,在理论上的世界模拟能力与时空建模的沉重计算成本之间仍存在关键差距。为此,我们全面系统地梳理了将效率作为实用世界建模核心要求的视频生成框架与技术,提出涵盖高效建模范式、高效网络架构和高效推理算法的三维分类体系。研究进一步表明,弥合效率鸿沟将直接赋能自动驾驶、具身人工智能和游戏仿真等交互应用。最后,我们指出了高效视频世界建模的新兴研究前沿,论证了效率是推动视频生成器进化为通用、实时、鲁棒的世界模拟器的根本前提。
扩散模型、自回归模型及混合模型的技术进步,已实现文本生成图像、图像编辑和参考引导合成等任务的高质量图像生成。然而现有基准测试仍存在局限:或聚焦孤立任务,或仅覆盖狭窄领域,或提供难以解释失败原因的不透明评分。我们推出ImagenWorld基准测试集,包含涵盖六大核心任务(单/多参考条件下的生成与编辑)和六大主题领域(艺术作品、逼真图像、信息图表、文本图形、计算机图形及屏幕截图)的3600组条件设置。该基准集配备2万条细粒度人工标注和可解释的评估框架,通过标记局部物体级与片段级错误,对基于视觉语言模型的自动评估指标形成补充。我们对14个模型开展的大规模评估得出以下发现:(1)模型在编辑任务(尤其是局部编辑)中的表现普遍弱于生成任务;(2)模型在艺术和逼真场景中表现优异,但在屏幕截图、信息图表等符号密集和文本密集型领域存在困难;(3)闭源系统整体领先,而针对性数据优化(如Qwen-Image)能在文本密集型场景中缩小差距;(4)基于现代视觉语言模型的评估指标肯德尔系数最高达0.79,接近人类排序水平,但在细粒度可解释错误归因方面仍有不足。ImagenWorld既提供了严谨的基准测试标准,也具备诊断工具功能,可推动鲁棒图像生成技术的发展。
基于大语言模型的智能体展现出强大的推理与问题解决能力,能够辅助完成公式推导、代码生成等科研任务。然而,这些智能体能否可靠地实现真实科学论文的端到端复现仍属未知。我们推出PRBench基准测试,涵盖物理学11个子领域的30项专家评审任务。每项任务要求智能体理解已发表论文的方法论,从零实现对应算法,并生成与原始出版物匹配的量化结果。智能体仅获取任务说明与论文内容,并在沙箱化执行环境中运行。所有任务均由北京大学物理学院20余个课题组的领域专家贡献,均以真实发表论文为基础,并通过端到端复现验证,配备经过核验的真实结果与详细评分标准。通过智能体化评估流程,我们对一批代码生成智能体进行PRBench测试,并从科学推理与执行等关键维度分析其能力。表现最佳的OpenAI Codex(基于GPT-5.3-Codex)平均综合得分为34%。所有智能体的端到端回调成功率均为零,在数据准确性与代码正确性方面表现尤差。我们进一步识别出系统性失效模式,包括公式实现错误、数值模拟调试能力缺失及输出数据伪造等问题。总体而言,PRBench为评估自主科研能力进展提供了严谨的基准。
我们提出Kernel-Smith框架——一种结合稳定评估驱动进化智能体与进化导向后训练方案的高性能GPU内核及算子生成系统。在智能体层面,该框架维护可执行候选种群,通过整合高性能多样化程序档案与结构化执行反馈(包括编译状态、正确性及加速比),实现迭代优化。为确保搜索可靠性,我们为英伟达GPU的Triton和MetaX GPU的Maca分别构建了后端专用评估服务。在训练层面,通过保留保持正确性的高增益修订版本,将长周期进化轨迹转化为以操作为中心的监督学习与强化学习信号,使模型在进化循环中作为强效局部优化器而非单次生成器发挥作用。在统一进化协议下,Kernel-Smith-235B-RL在基于英伟达Triton后端的KernelBench上实现业界领先的综合性能,获得最佳平均加速比,超越包括Gemini-3.0-pro和Claude-4.6-opus在内的前沿专有模型。我们在MetaX MACA后端上的进一步验证表明,Kernel-Smith-MACA-30B优于DeepSeek-V3.2-think、Qwen3-235B-2507-think等大规模模型,凸显了跨异构平台无缝适配的潜力。除基准测试外,该工作流还为SGLang、LMDeploy等生产系统带来上游贡献,证明大语言模型驱动的内核优化能从受控评估有效迁移至实际部署场景。
理解图表需要模型能够对几何视觉模式、结构化数值数据和自然语言进行联合推理——这种能力正是当前视觉语言模型的局限所在。我们推出ChartNet,一个高质量、百万规模的多模态数据集,旨在推动图表解读与推理技术的发展。该数据集通过创新的代码引导合成流程,生成了涵盖24种图表类型和6种绘图库的150万个多样化图表样本。每个样本包含五个对齐组件:绘图代码、渲染图表图像、数据表格、自然语言摘要及带推理过程的问答,实现了细粒度的跨模态对齐。为全面覆盖图表理解维度,ChartNet还特别收录了人工标注数据、真实场景数据、安全性及可追溯性等专项子集。通过严格的质控流程,确保了图表表征的视觉保真度、语义准确性和多样性。基于ChartNet的微调在多个基准测试中均取得稳定提升,证明了其作为多模态模型大规模监督数据的实用价值。作为同类规模最大的开源数据集,ChartNet旨在为开发具有鲁棒性和泛化能力的数据可视化理解基础模型提供支持。数据集已发布于https://huggingface.co/datasets/ibm-granite/ChartNet。
现代文本到图像(T2I)扩散模型虽已实现显著的语义对齐能力,却常因生成多样性不足而局限于狭窄的视觉解决方案集。这种典型性偏差对需要广泛生成结果的创意应用构成了挑战。我们发现当前多样性方法存在根本性权衡:修改模型输入需通过昂贵优化来融合生成路径的反馈,而对空间已定型的中间隐变量施加干预则易破坏正在形成的视觉结构,导致伪影产生。本研究提出在上下文空间中施加排斥力作为扩散Transformer实现丰富多样性的新框架。通过介入多模态注意力通道,我们在Transformer前向传播过程中实施实时排斥干预,将文本条件与涌现的图像结构共同注入模块间的交互层。这使得系统能在视觉结构形成后、构图固化前重导航向轨迹。实验结果表明,上下文空间排斥法在保持视觉保真度与语义一致性的同时,能产生显著更丰富的多样性。此外,本方法具有独特的高效性,仅需极小计算开销即可生效,即便在传统基于轨迹的干预通常失效的现代"Turbo"及蒸馏模型中仍保持卓越性能。
深度研究智能体能够自主开展开放式调研,通过整合复杂信息检索与跨源多步推理来解决现实问题。为在长周期任务中维持这种能力,可靠的验证机制在训练与推理阶段都至关重要。现有范式的核心瓶颈在于问答数据合成、轨迹构建和测试时扩展中缺乏显式验证机制,各阶段产生的误差会向下游传递并降低智能体整体性能。为此,我们推出Marco DeepResearch——采用三层验证中心化框架设计的深度研究智能体:(1) 问答数据合成:在图基与智能体基问答合成中引入验证机制,在控制问题难度的同时确保答案唯一正确;(2) 轨迹构建:设计验证驱动的轨迹合成方法,将显式验证模式注入训练轨迹;(3) 测试时扩展:在推理阶段使用Marco DeepResearch自身作为验证器,有效提升疑难问题的处理性能。大量实验结果表明,我们所提出的Marco DeepResearch智能体在BrowseComp、BrowseComp-ZH等高难度基准测试中显著优于8B规模的深度研究智能体。值得注意的是,在600次工具调用的最大预算下,该智能体甚至超越或接近Tongyi DeepResearch-30B等若干30B规模智能体的表现。
近期,研究型智能体在跨异构文本与视觉源的信息检索与合成方面取得显著进展。本文提出MuSEAgent——一种多模态推理智能体,通过扩展研究型智能体的状态化经验发掘与利用能力来增强决策水平。不同于依赖轨迹级检索的方法,我们提出状态化经验学习范式,通过事后推理将交互数据抽象为原子化决策经验。这些经验被组织成经过质量筛选的经验库,支持推理阶段基于策略的经验检索。具体而言,MuSEAgent通过互补的广度搜索与深度搜索策略实现自适应经验利用,使智能体能够跨多样化组合语义视角动态检索多模态指导。大量实验表明,在细粒度视觉感知和复杂多模态推理任务上,MuSEAgent均持续优于强轨迹级经验检索基线。这些结果验证了状态化经验建模对提升多模态智能体推理能力的有效性。
扩散模型在文本到图像生成及文本引导图像编辑领域取得显著进展。然而,这些模型通常包含数十亿参数,导致高延迟和部署挑战。虽然设备端扩散模型提升了效率,但大多聚焦于文本到图像生成,缺乏对图像编辑的支持。本文提出DreamLite——一个参数量为0.39B的紧凑型统一设备端扩散模型,在单一网络中同时支持文本到图像生成与文本引导图像编辑。该模型基于剪枝的移动端U-Net架构,通过潜在空间中的上下文级联实现条件统一:生成任务采用(目标|空白)图像水平拼接输入,编辑任务采用(目标|源图)拼接方式。为稳定训练该紧凑模型,我们提出任务渐进式联合预训练策略,依次针对文本生成、图像编辑及联合任务进行训练。经过高质量指令微调与强化学习后,DreamLite在图像生成(GenEval 0.72)和图像编辑(ImgEdit 4.11)指标上超越现有设备端模型,并与多个服务器模型性能相当。通过采用步数蒸馏技术,我们将去噪过程缩减至仅需4步,使DreamLite能在小米14手机上于1秒内完成1024×1024图像的生成或编辑。据我们所知,这是首个支持图像生成与编辑的统一设备端扩散模型。
生成科学手稿需在文档全生命周期中保持叙事逻辑、实验证据与视觉要素的协同一致。现有语言模型生成流程依赖无约束文本合成,仅在生成后实施验证,常导致结构偏移、图表缺失及跨章节不一致问题。我们提出Story2Proposal框架,采用契约约束的多智能体架构,通过共享视觉契约下的协同智能体将研究故事转化为结构化手稿。该系统以追踪章节结构和注册视觉元素的契约状态为核心,组织架构师、撰写者、优化器与渲染器四类智能体,同时评估智能体在"生成-评估-适配"循环中提供反馈,动态更新生成契约。基于Jericho研究语料库的实验表明:在GPT、Claude、Gemini、Qwen四种基座模型上,Story2Proposal的专家评估得分达6.145,较DirectChat的3.963提升2.182分;相较于结构化基线方法Fars,本框架平均得分5.705优于后者的5.197,显示出更优的结构一致性与视觉对齐能力。
多模态大语言模型(MLLMs)通过提升输入保真度实现了更强的视觉理解能力,但由此产生的视觉标记增长使得同时维持高空间分辨率与长时序上下文变得难以实现。我们认为瓶颈不在于编码后表示的压缩方式,而在于编码器接收的像素总量,并为此提出ResAdapt——一种输入端自适应框架,可在编码前学习每帧图像应分配的视觉预算。ResAdapt将轻量级分配器与未经改动的MLLM主干耦合,使主干模型在接收经算子变换的输入时,仍能保持其原有的视觉标记接口。我们将分配问题建模为上下文赌博机,并通过成本感知策略优化(CAPO)训练分配器,该算法将稀疏的推演反馈转化为稳定的精度-成本学习信号。在预算可控的视频问答、时序定位和图像推理任务中,ResAdapt提升了低预算工作点的性能,且常位于或接近效率-精度边界,在强压缩条件下的推理密集型基准测试中增益最为显著。值得注意的是,在相同视觉预算下,ResAdapt可支持多达16倍帧数的处理,同时实现超过15%的性能提升。代码已开源:https://github.com/Xnhyacinth/ResAdapt。
尽管人体动作合成技术发展迅猛,但真实的手部运动与双手交互研究仍显不足。现有全身模型往往忽略了驱动灵巧行为的细粒度特征——如手指关节活动、接触时序及双手协调等,而当前数据资源也缺乏能捕捉精细手指动态与协作的高保真双手序列。为填补这一空白,我们提出HandX框架,构建了涵盖数据、标注与评估的统一基础平台。我们通过整合筛选现有数据集提升质量,并新采集了专注于 underrepresented 双手交互的动作捕捉数据,其中包含细致的手指动态。针对可扩展标注需求,我们提出解耦策略:先提取代表性运动特征(如接触事件与手指屈伸),再利用大语言模型进行推理,生成与这些特征对齐的细粒度语义描述。基于所得数据与标注,我们采用多模态条件约束对扩散模型和自回归模型进行基准测试。实验证明,结合我们新提出的手部专项评估指标,系统能生成高质量的灵巧动作。我们进一步观察到明显的规模效应:使用更大规模、更高质量数据集训练的大型模型,能产生语义更连贯的双手运动。本数据集已公开以支持后续研究。
评估生产级大语言模型(LLM)响应并在LLM网关中实现多供应商请求路由,需要细粒度的质量信号和基于运营实际的决策。为填补这一空白,我们提出SEAR——一种面向多模型、多供应商LLM网关的基于模式的评估路由系统。SEAR定义了可扩展的关系模式,涵盖LLM评估信号(上下文、意图、响应特征、问题归因和质量评分)与网关运营指标(延迟、成本、吞吐量),通过约百个可SQL查询的类型化字段实现跨表一致性关联。为可靠生成评估信号,SEAR提出自包含的信号指令、模式内推理和多阶段生成技术,直接输出数据库就绪的结构化结果。由于信号源自LLM推理而非浅层分类器,SEAR能捕捉复杂请求语义,提供人类可理解的路由解释,并在统一查询层整合评估与路由功能。经过数千次生产环境验证,SEAR在人工标注数据上实现高精度信号识别,支持实际路由决策(包括在保持同等质量的同时显著降低成本)。
视频大语言模型(Video-LLMs)的最新进展已实现对长复杂视频的强离线推理能力。然而现实应用日益需要流式感知与主动交互——视频帧在线到达时,系统不仅需决定回应内容,更要确定回应时机。本文从结构化序列建模角度重新审视流式视频中的主动激活问题,其动机在于观察到流式视频中的时序转换天然形成跨度结构的激活模式。为捕捉这种跨度层级结构,我们在滑动时间窗口上联合建模激活信号,并随着新帧到达进行迭代更新。我们提出STRIDE(基于迭代去噪的结构化时序优化)方法,通过在激活接口部署轻量级掩码扩散模块,联合预测并渐进优化窗口内的激活信号。在多样化流式基准测试与下游模型上的大量实验表明,STRIDE能产生更可靠且时序一致的主动响应,显著提升在线流式场景中"何时发言"的决策质量。
我们推出KAT-Coder-V2,这是快手KwaiKAT团队研发的智能体编码模型。该模型采用"先专精后统一"范式,将智能体编码分解为五大专业领域——软件工程、网页编程、终端操作、网络搜索与通用任务,各领域先经过独立的监督微调与强化学习训练,再通过同策略蒸馏融合为单一模型。我们构建了模块化基础设施KwaiEnv,可支撑数万个并发沙箱实例,并沿任务复杂度、意图对齐和脚手架泛化三个维度扩展强化学习训练。针对混合专家模型的强化学习稳定性问题,我们提出MCLA方法;针对树状轨迹的冗余计算问题,提出树状训练法实现最高6.2倍的加速效果。KAT-Coder-V2在SWE-bench Verified上达到79.6%(对比Claude Opus 4.6的80.8%),PinchBench得分88.7(超越GLM-5和MiniMax M2.7),在三大前端美学场景均排名第一,并在Terminal-Bench Hard(46.8分)与tau²-Bench(93.9分)保持强劲的综合能力。模型已开源于https://streamlake.com/product/kat-coder。
移动设备持续与蜂窝基站交互,产生海量信令记录,为理解人类移动行为提供了广覆盖的数据基础。然而此类记录仅能提供粗略的位置线索(如服务小区标识符),因此难以直接应用于需要高精度GPS轨迹的场景。本文研究Sig2GPS问题:从蜂窝信令数据重建GPS轨迹。受领域专家常将信令轨迹映射至地图并勾勒对应GPS路线的启发,与传统依赖复杂多阶段工程流水线或坐标回归的解决方案不同,Sig2GPS被重新定义为直接在地图可视化域操作的图像-视频生成任务:将信令轨迹渲染于地图上,通过训练视频生成模型绘制连续GPS路径。为支撑该范式,本研究构建了配对的信令-轨迹视频数据集用于微调开源视频模型,并引入基于轨迹感知强化学习的优化方法,通过奖励机制提升生成保真度。在大规模真实数据集上的实验表明,该方法较现有工程化方案及学习基线均有显著提升,而后续GPS预测实验进一步验证了其可扩展性与跨城市迁移能力。总体而言,这些结果表明地图可视化视频生成为轨迹数据挖掘提供了实用接口,能够在地图约束下直接生成并优化连续路径。
软上下文压缩技术通过将长上下文编码为更少的潜在标记,降低了大型语言模型处理长文本的计算负荷。然而现有框架采用统一压缩比,未能考虑自然语言信息密度的极端差异性。虽然采用密度感知的动态压缩比看似直观,但实证研究表明模型本质上难以处理由输入相关的连续结构超参数参数化的操作。为解决此问题,我们提出了半动态上下文压缩框架。该方法的核心是离散比率选择器,它能基于内在信息密度预测压缩目标,并将其量化为预定义的离散压缩比集合。该选择器与压缩器在合成数据上高效协同训练,以摘要长度为代理指标生成压缩比预测标签。大量实验证实,我们以平均池化为骨干的密度感知框架持续优于静态基线,为上下文压缩技术建立了稳健的帕累托前沿。相关代码、数据及模型权重已开源:https://github.com/yuyijiong/semi-dynamic-context-compress
视觉语言模型(VLMs)的定位能力已成为其基础功能。现有模型大多通过生成坐标作为文本输出的一部分进行指向,这种方法需要学习复杂的坐标系且会导致标记数量激增。我们提出了一种更直观的指向机制:直接选择包含目标概念的视觉标记。我们的模型生成特殊指向标记,通过交叉注意力机制关联输入图像或视频标记并精准选择目标。为实现更细粒度定位,我们在初始指向标记后引入第二级特殊标记用于在选定区域内选择细分子区域,再通过第三级标记精确定位于区域内的具体位置。实验表明,采用固定顺序生成指向点、编码前序点的相对位置信息,以及在选择视觉标记时加入"终止指向"特殊类别,可有效提升性能。该方法在图像指向任务上刷新纪录(PointBench数据集达70.7%),在图形界面指向任务中成为全开源模型的新标杆(ScreenSpotPro数据集达61.1%),同时显著提升视频指向任务表现(相较于文本坐标基线获得59.1%的人类偏好胜率)和跟踪性能(Molmo2Track数据集提升6.3%)。研究还表明该方法具有更高的样本效率,文中进一步讨论了这种设计变革带来的质性差异。
数据以多种形态存在。从浅层视角看,可将其划分为结构化(如关系型数据、键值对)与非结构化(如文本、图像)两种形式。迄今为止,机器在处理遵循精确模式的结构化数据方面已表现卓越。然而数据的异构性对多类别数据的有效存储与处理提出了重大挑战。作为数据工程流程的关键环节,数据集成技术通过整合异构数据源并为终端用户提供统一数据访问接口来解决这一难题。目前大多数数据集成系统仍侧重于结构化数据源的整合,但非结构化数据(即自由文本)同样蕴含着大量待挖掘的知识宝藏。因此,本章将首先论证文本数据整合的必要性,继而系统阐述其面临的挑战、现有技术进展及待解决的关键问题。
人工超级智能——即在认知任务和经济价值创造活动中普遍超越人类的人工智能体——的出现将彻底改变我们现有的法律秩序。这些在自主或有限人工监督下运行的智能体,将在法律体系中承担日益多元的角色。首先,通过做出重大决策并采取现实行动,人工智能体将成为事实上的法律主体;其次,为与人类或其他非人类主体开展合作竞争,它们将运用合同与法院等传统法律工具与制度,成为法律的使用者;再者,当人工智能体承担起立法、释法与执法职能时,它们将转化为法律的制定者与执行者。这些发展无论何时成为现实,都将对法学理论与教义的基本预设提出根本性质疑——尤其是当法律制度的合法性仍建立在人类本源论基础上时。试图将人工智能体纳入现行人类法律体系的努力也将面临新挑战,因为智能体不仅是法律规制的核心对象,更将成为法律的核心用户及共同缔造者。面对超级智能时代的来临,新旧立法者需保持清醒认知:既要把握社会迎接超级智能过程中重塑法律制度的机遇,也要认识到从长远看,这终将是一场人与人工智能的协同共创。
近年来,人工智能(AI)模型在多项生物医学任务基准测试中已达到或超越人类专家水平,但在外科图像分析基准方面仍显滞后。由于外科手术需要整合多模态数据融合、人机交互及物理效应等多元任务,若能提升性能,通用型AI模型有望成为理想的手术协作工具。一方面,扩大模型架构规模与训练数据量的经典方法颇具吸引力——特别是考虑到全球每年产生数百万小时的手术视频数据。另一方面,为AI训练准备外科数据需要更高水平的专业支持,且基于此类数据的训练需消耗昂贵的计算资源。这些权衡因素使得现代AI能否助力外科实践、以及其助力程度存在不确定性。本文通过2026年最先进的AI方法进行手术器械检测的案例研究,探讨这一问题。我们证明,即便是拥有数十亿参数并经过广泛训练的视觉语言模型,在神经外科器械检测这一看似简单的任务中仍存在不足。此外,缩放实验表明,增加模型规模与训练时长仅能带来相关性能指标的边际改善。因此,我们的实验提示当前模型在外科应用场景中仍面临显著障碍。值得注意的是,部分障碍无法通过增加算力简单"缩放消除",且在不同模型架构中持续存在,这引发了对数据与标注可用性是否为唯一限制因素的质疑。我们深入探讨了这些约束条件的主要成因,并提出了潜在解决方案。
长视频理解因高内存消耗和上下文长度限制,始终是多模态大语言模型面临的核心挑战。现有方法通过短片段内的帧/令牌评分选择来缓解该问题,但缺乏系统性机制以(i)比较远距离视频片段间的相关性,以及(ii)在收集到充分证据后及时终止处理。我们提出AdaptToken——一种免训练框架,将MLLM的自我不确定性转化为长视频令牌选择的全局控制信号。该框架将视频分割为组块,通过跨模态注意力机制对组内令牌排序,并利用模型响应熵评估各组与提示词的相关性。熵信号支持全局令牌预算的动态分配,并进一步实现早停机制(AdaptToken-Lite):当模型达到足够置信度时跳过剩余组块处理。在四个长视频基准数据集(VideoMME、LongVideoBench、LVBench和MLVU)及多种基座MLLM(7B-72B)上的实验表明,AdaptToken持续提升准确率(如在Qwen2.5-VL 7B模型上平均提升6.7分),并能有效利用超长输入(最高达1万帧);而AdaptToken-Lite在保持相当性能的同时,将推理时间缩减约一半。项目页面:https://haozheqi.github.io/adapt-token
计算病理学需要能够迁移至多种临床任务的全切片图像基础模型,但当前方法仍以切片为中心,常依赖私有数据和昂贵的配对报告监督,且未显式建模同一患者多张切片间的关联。我们提出MOOZY这一患者优先的病理基础模型,其以患者病例而非单张切片作为核心表征单元。MOOZY在预训练阶段通过病例Transformer显式建模同患者所有切片间的依赖关系,将多阶段开放式自监督与规模化低成本任务监督相结合。第一阶段,我们基于77,134个公开切片特征网格,通过掩码自蒸馏预训练纯视觉切片编码器。第二阶段,利用病例Transformer和来自56个公开数据集的333项任务(包括涵盖四个终点的205项分类任务与128项生存分析任务)进行多任务监督,将视觉表征与临床语义对齐。在八项保留任务的五折冻结特征探针评估中,MOOZY在多数指标上取得最优或并列最优表现,其加权F1值、加权ROC-AUC和平衡准确率的宏平均值较TITAN模型分别提升7.37%、5.50%和7.83%,较PRISM模型分别提升8.83%、10.70%和9.78%。该模型仅含8577万参数,较GigaPath缩小14倍,具有优异参数效率。这些结果表明,开放式、可复现的患者层级预训练能产生可迁移的表征,为构建可扩展的患者优先组织病理学基础模型提供了可行路径。
上下文分割(ICS)的目标是在给定一个标注视觉示例的情况下,对任意概念(如物体、部件或个性化实例)进行分割。现有方法依赖两种路径:(i) 微调视觉基础模型(VFMs),虽能提升域内效果但会损害泛化能力;(ii) 组合多个冻结的VFMs,虽能保持泛化性但会导致架构复杂化和固定的分割粒度。我们以极简视角重新审视ICS并提出:单个自监督骨干网络能否在无需任何监督或辅助模型的情况下,同时支持语义匹配与分割?我们发现,DINOv3生成的规模化稠密自监督特征具有强空间结构和语义对应性。据此我们提出INSID3——一种仅基于冻结DINOv3特征即可实现多粒度概念分割的无训练方法。INSID3在一次性语义分割、部件分割和个性化分割任务中均达到最先进水平,mIoU指标较前人工作提升7.5%,同时参数量减少3倍且无需掩码或类别级监督。代码已开源:https://github.com/visinf/INSID3。
生成模型在固定智能体数量下的运动合成方面表现出色,但在可变智能体场景中的泛化能力不足。基于有限的领域特定数据,现有方法采用自回归模型递归生成运动,存在效率低下和误差累积的问题。我们提出统一运动流(UMF)框架,包含金字塔运动流(P-Flow)和半噪声运动流(S- Flow)。UMF将无数量约束的运动生成分解为单次运动先验生成阶段与多轮反应生成阶段。具体而言,UMF通过统一潜空间弥合异构运动数据集间的分布差异,实现高效统一训练。在运动先验生成方面,P-Flow基于不同噪声水平在分层分辨率上操作,有效降低计算开销。对于反应生成,S-Flow通过学习联合概率路径自适应执行反应变换与上下文重构,缓解误差累积。大量实验结果与用户研究表明,UMF作为面向文本驱动多人运动生成的通用模型具有显著优势。项目页面:https://githubhgh.github.io/umf/。
等离子体建模是核聚变反应堆设计的核心,然而基于第一性原理模拟碰撞等离子体动力学仍面临巨大的计算挑战:弗拉索夫-麦克斯韦-朗道(VML)系统描述了六维相空间在自洽电磁场作用下的输运过程,同时包含非线性、非局域的朗道碰撞算子。近期针对完整VML系统的确定性粒子方法通过团簇法估计速度评分函数,这种基于核函数的近似方法具有O(n²)计算复杂度。本研究采用基于评分的输运建模(SBTM)替代团簇评分估计器,该方法通过隐式评分匹配以O(n)复杂度实时训练神经网络。我们证明了近似碰撞算子能保持动量和动能守恒,并耗散估计熵值。同时刻画了VML系统及其静电简化形式的唯一全局稳态,为数值验证提供基准真值。在朗道阻尼、双流不稳定性、韦贝尔不稳定性三个经典基准测试中,SBTM相比团簇法精度更高,能正确实现团簇法失效的长时间弛豫至麦克斯韦平衡态的过程,且运行速度提升50%,峰值内存降低4倍。