每日精选AI研究论文及翻译
基于蒸馏的加速技术已成为实现自回归流式视频扩散模型实用化的基础,其中分布匹配蒸馏(DMD)已成为事实标准。然而现有方法 indiscriminately 训练学生模型以匹配教师输出,将每个推演序列、帧和像素视为同等可靠的监督信号。我们认为这种做法限制了蒸馏质量的上限,因为它忽略了DMD监督中两个互补的方差维度:跨推演序列的互可靠性——不同学生推演序列的监督可靠性存在差异,以及空间区域与时序帧间的内部困惑度——各区域对质量提升的贡献度并不均衡。该目标函数因而在统一权重下混淆了两个关键问题:是否从每个推演序列中学习,以及如何在序列内聚焦优化区域。为此,我们提出Stream-R1——一种可靠性-困惑度感知的奖励蒸馏框架,通过共享的奖励引导机制在推演序列和时空元素两个层级自适应调整蒸馏目标权重。在互可靠性层面,Stream-R1通过预训练视频奖励分数的指数函数重新缩放每个推演序列的损失,使具有可靠监督的推演序列主导优化过程。在内部困惑度层面,该框架对同一奖励模型进行反向传播以提取像素级梯度显著性,并将其分解为空间权重和时间权重,从而将优化压力集中于能带来最大预期增益的区域和帧。自适应平衡机制可防止视觉质量、运动质量和文本对齐这三个质量维度中的任一维度过度主导优化。在标准流式视频生成基准测试中,Stream-R1无需修改架构或增加推理成本,即可在蒸馏基线基础上实现三个维度的同步提升。
尽管测试时缩放(TTS)为提升视频生成质量提供了无需高昂训练成本的新思路,但当前基于扩散模型的测试时视频生成方法仍面临候选序列探索成本过高且缺乏时序引导的瓶颈。为突破这些结构性限制,我们提出将研究重心转向流式视频生成。我们发现其分块合成机制与少量去噪步骤的特性天然契合TTS框架,既能显著降低计算开销,又可实现细粒度的时序控制。基于这一洞见,我们首创了Stream-T1——专为流式视频生成设计的综合性TTS框架。该框架包含三大核心单元:(1)流式缩放噪声传播机制,通过动态优化生成块的初始潜在噪声,主动利用历史生成块中经过验证的高质量噪声建立时序依赖,借助历史高斯先验指导当前生成;(2)流式缩放奖励剪枝机制,综合评估生成候选序列,结合即时短期评估与基于滑动窗口的长期评估,在局部空间美学与全局时序连贯性间实现最优平衡;(3)流式缩放记忆沉淀机制,根据奖励反馈将KV缓存中置换出的上下文动态路由至不同更新路径,确保已生成视觉信息有效锚定并引导后续视频流。在5秒与30秒视频生成基准测试中,Stream-T1展现出显著优势,大幅提升了时序一致性、运动平滑度及帧级视觉质量。
尽管视觉-语言-动作模型(VLA)通过预训练视觉-语言模型继承的多功能智能(即广泛的场景理解和语言条件泛化能力),在实现类人通用机器人策略方面取得了显著进展,但其在需要更广泛功能能力(如运动感知、记忆决策和物理传感)的复杂现实任务中仍存在不足。为此,我们推出RLDX-1——一个基于多流动作 Transformer(MSAT)架构的通用灵巧操作机器人策略。该架构通过模态专用流与跨模态联合自注意力机制整合异构模态,统一了上述功能能力。RLDX-1进一步结合系统级设计选择,包括为罕见操作场景合成训练数据、专为类人操作设计的学习流程,以及面向实时部署的推理优化。实证评估表明,在需要超越通用性的广泛功能能力的仿真基准和现实任务中,RLDX-1持续优于前沿VLA模型(如π_{0.5}和GR00T N1.6)。特别是在ALLEX人形机器人任务中,RLDX-1以86.8%的成功率显著优于仅达40%左右的对比模型,凸显了其在多样化功能需求下控制高自由度人形机器人的能力。这些成果共同表明,RLDX-1为开发适用于复杂、高接触性及动态现实灵巧操作的可靠VLA迈出了重要一步。
深度搜索已成为前沿多模态智能体的关键能力,使模型能通过主动搜索、证据验证和多步推理解决复杂问题。尽管进展迅速,顶级多模态搜索智能体仍难以复现,主要归因于缺乏高质量开源训练数据、透明的轨迹合成流程或详细的训练方案。为此,我们推出OpenSearch-VL——一个基于智能体强化学习的全开源前沿多模态深度搜索智能体训练方案。我们首先构建了专用数据流水线,通过维基百科路径采样、模糊实体重写和源锚点视觉定位来生成高质量训练数据,共同减少数据捷径和单步检索坍缩问题。基于此流水线,我们创建了两个训练数据集:用于监督微调的SearchVL-SFT-36k和用于强化学习的SearchVL-RL-8k。此外,我们设计了集成文本搜索、图像搜索、OCR、裁剪、锐化、超分辨率和透视校正的多样化工具环境,使智能体能将主动感知与外部知识获取相结合。最后,我们提出多轮致命错误感知的GRPO训练算法,通过掩码故障后令牌处理级联工具失效,同时利用单侧优势钳位保留故障前的有效推理。基于该方案,OpenSearch-VL实现了显著性能提升,在七大基准测试中平均得分提高超10分,并在多项任务中达到与专有商业模型相媲美的结果。我们将开源全部数据、代码和模型,以支持多模态深度搜索智能体的开放研究。
驾驶世界模型作为自动驾驶的关键技术,通过模拟环境动态实现场景推演。然而现有方法主要关注未来场景生成,往往忽视全面的三维场景理解。另一方面,尽管大语言模型展现出卓越的推理能力,却无法预测未来的几何演变,导致语义理解与物理模拟之间存在显著鸿沟。为弥合这一差距,我们提出HERMES++——一个将三维场景理解与未来几何预测整合到统一框架的驾驶世界模型。通过协同设计,我们的方法解决了这两类任务的独特需求:首先,采用鸟瞰图表征将多视角空间信息整合为与大语言模型兼容的结构;其次,引入LLM增强的世界查询机制以促进理解分支的知识迁移;第三,设计当前-未来关联模块来桥接时间鸿沟,使几何演变受语义上下文调节;最后,为保障结构完整性,采用联合几何优化策略,将显式几何约束与隐式潜在正则化相结合,使内部表征对齐几何感知先验。在多个基准测试上的广泛实验验证了方法的有效性:HERMES++在未来点云预测和三维场景理解任务中均超越专业模型,展现出强劲性能。模型与代码将在https://github.com/H-EmbodVis/HERMESV2 公开。
物理基础三维资产的合成是构建交互式虚拟世界与具身智能的关键瓶颈。现有方法主要聚焦静态几何形态,忽视了交互所必需的功能属性。我们认为交互式资产生成必须植根于功能逻辑与层级化物理原理。为弥补这一空白,我们提出PhysForge——由包含15万资产、具备四层级物理标注的大规模数据集PhysDB支撑的解耦双阶段框架。首先,视觉语言模型作为"物理架构师"规划出定义材质、功能与运动学约束的"层级化物理蓝图";随后,基于物理的扩散模型通过新型运动体素注入(KVI)机制,在生成高保真几何结构的同时精确合成运动学参数。实验表明,PhysForge能产出功能合理、支持仿真的三维资产,为交互式三维内容与具身智能体提供强大的数据引擎。
推理密集型检索旨在挖掘支持下游推理的证据,而非仅匹配主题相似性。这一能力对于智能体搜索系统日益重要,因为检索器必须在迭代搜索与综合过程中提供互补性证据。然而现有研究在评估与训练方面仍存在局限:BRIGHT等基准仅提供狭窄的标准答案集并对检索器进行孤立评估,而合成训练语料往往优化单段落相关性而非证据组合构建。我们推出BRIGHT-Pro专家标注基准,通过多维度标准证据扩展每个查询,并在静态与智能体搜索双协议下评估检索器。进一步构建RTriever-Synth维度分解合成语料库,生成互补正例及正例条件化难负例,并基于Qwen3-Embedding-4B对RTriever-4B进行LoRA微调。在词汇型、通用型及推理密集型检索器上的实验表明:维度感知与智能体评估能揭示标准指标遮蔽的行为特征,而RTriever-4B较其基础模型实现显著提升。
当前,高性能图像生成模型的发展正从低效的多步模型转向高效的少步模型(如Z-Image-Turbo和FLUX.2-klein)。然而,这些模型在直接进行连续监督微调时面临显著挑战。例如,应用常用的微调技术会损害其固有的少步推理能力。为解决这一问题,我们提出了D-OPSD——一种面向步数蒸馏扩散模型的新型训练范式,能够在监督微调过程中实现策略内学习。我们首先发现,当现代扩散模型以LLM/VLM作为编码器时,能够继承其编码器的上下文学习能力。这使得我们可以将训练构建为一个策略内自蒸馏过程。具体而言,在训练过程中,模型通过不同上下文同时扮演教师和学生的角色:学生仅基于文本特征进行条件生成,而教师则基于文本提示与目标图像的多模态特征进行条件生成。训练目标是最小化两个预测分布在学生自身生成轨迹上的差异。通过基于模型自身轨迹进行优化并在其自我监督下学习,D-OPSD使模型能够掌握新概念、风格等能力,同时不牺牲原有的少步生成性能。
视频编辑已向上下文学习(ICL)范式演进,但由此产生的平方级注意力计算成本形成了关键的计算瓶颈。本文提出上下文稀疏注意力(ISA)框架,这是首个专为ICL视频编辑定制的近无损经验稀疏框架。我们的设计基于两个关键发现:首先,上下文令牌的显著性远低于源令牌;其次,我们通过理论证明和实验验证了查询锐度与近似误差存在相关性。基于这些发现,ISA实现了高效的预筛选策略来修剪冗余上下文,继而采用动态查询分组机制——将高误差查询路由至全注意力计算,而低误差查询则交由计算高效的零阶泰勒稀疏注意力处理。此外,我们通过ISA构建了新颖的闪电视频编辑模型LIVEditor,并设计了视频编辑数据管道,构建了包含170万高质量样本的数据集。大量实验表明,LIVEditor在注意力模块延迟降低约60%的同时,在EditVerseBench、IVE-Bench和VIE-Bench基准上全面超越现有最优方法,实现了视觉保真度无损的加速效果。
我们推出JoyAI-Image——一个面向视觉理解、文生图生成及指令引导图像编辑的多模态统一基础模型。该模型通过空间增强型多模态大语言模型(MLLM)与多模态扩散Transformer(MMDiT)的耦合架构,使感知与生成能力通过共享的多模态接口实现交互。围绕此架构,我们构建了可扩展的训练方案,融合了统一指令微调、长文本渲染监督、空间锚定数据以及通用与空间编辑信号。这一设计在赋予模型广泛多模态能力的同时,强化了几何感知推理与可控视觉合成。在理解、生成、长文本渲染和编辑等多项基准测试中,JoyAI-Image均达到领先或极具竞争力的性能。更重要的是,增强理解、可控空间编辑与新视角辅助推理之间形成的双向闭环,使模型能够突破通用视觉能力边界,向更强的空间智能迈进。这些成果为统一视觉模型在视觉-语言-动作系统、世界模型等下游应用中的发展指明了可行路径。
多模态大语言模型(MLLMs)的最新进展已将AI能力从静态离线数据处理推进到实时流式交互阶段,但距离人类水平的多模态交互仍存在显著差距。当前的关键瓶颈已不仅是模态覆盖或延迟问题,而是交互范式本身。首先,感知与响应仍被分割为交替阶段,导致模型无法在生成过程中融入新输入进行及时调整。其次,现有模型大多保持被动响应模式,仅对用户显式指令作出反应,而无法在动态变化的多模态环境中主动作为。我们提出的MiniCPM-o 4.5作为实现类人多模态交互的最新尝试,通过实时全双工全模态交互机制有效缓解了这些局限。该模型能够实时同步实现视觉感知、听觉接收与语音输出,并基于对实时场景的持续理解展现出主动行为(如发出提醒或评论)。其核心技术Omni-Flow作为统一流式框架,将全模态输入输出沿共享时间轴对齐。这种设计将传统的轮次式交互转化为全双工时间对齐流程,实现感知响应的同步进行,并使主动行为在同一框架内自然涌现。凭借90亿参数规模,MiniCPM-o 4.5在视觉语言能力上接近Gemini 2.5 Flash水平,在该量级开源模型中达到领先性能。其全模态理解能力超越Qwen3-Omni-30B-A3B,语音生成质量更优,且计算效率显著提升。通过高效的架构设计与推理优化,该模型可在内存占用小于12GB的边缘设备上实现实时全双工全模态交互。
评估个体执行动作的熟练程度(而非识别动作类型)是运动指导、康复训练和人才选拔的核心任务。该任务具有挑战性,因为熟练度体现在时间控制、平衡能力、身体力学和执行效果等细微差异中,这些特征往往分散在多视角视频和短暂时序事件里。我们探讨了Ego-Exo4D数据集上多视角熟练度估计的三项最新成果:SkillFormer提出参数高效的判别式架构实现选择性多视角融合;PATS通过保留基础动作的局部密集片段改进时序采样;ProfVLM将熟练度估计重构为条件语言生成任务,通过门控跨视角投影器和紧凑语言骨干网络同时生成熟练度标签和专家级反馈。这些方法在Ego-Exo4D上达到最先进准确率,相比视频Transformer基线可训练参数减少20倍、训练轮次降低3倍,同时实现了从封闭集分类到可解释反馈生成的跨越。这些成果标志着多视角系统正朝着选择性融合、熟练度感知采样和可操作生成反馈相结合的高效方向发展。
针对可验证奖励的强化学习(RLVR)虽能增强大语言模型的推理能力,但常因过度激励正奖励导致生成多样性受限。尽管负样本强化(NSR)等方法通过加强负样本惩罚缓解该问题,却可能抑制正负响应共有的语义分布。为在提升推理能力的同时保持多样性,本文提出负样本投影残差强化学习(ResRL),通过解耦正负响应间的相似语义分布实现双目标优化。我们从理论上将懒惰似然位移(LLD)与正负头梯度干扰相关联,推导出表征对齐上界的单前向代理指标,以指导保守优势重加权。ResRL将负标记隐藏表征投影至基于SVD的低秩正子空间,利用投影残差调制负梯度,在十二个涵盖数学、代码、智能体任务和函数调用的基准测试中,平均实现推理能力提升与多样性保持,且优于强基线。值得注意的是,ResRL在数学推理上以Avg@16指标超越NSR达9.4%,Pass@128指标领先7.0%。代码已开源:https://github.com/1229095296/ResRL.git。
音乐流行度预测因其与艺术家、平台及推荐系统的关联性,正吸引日益增长的研究关注。然而,AI生成音乐平台的爆发式崛起催生了一个全新且尚未被充分探索的领域——每天有海量歌曲在没有传统艺术家声誉或厂牌支持的情况下被生产与消费。在此过程中,尚未被探索的关键要素是审美质量。我们提出APEX框架,这是首个面向AI生成音乐的大规模多任务学习系统,基于从Suno和Udio平台采集的21.1万首歌曲(累计1万小时音频)进行训练,通过自监督音乐理解模型MERT提取的冻结音频嵌入,同步预测基于用户参与的流行度指标(播放量与点赞分数)以及五个感知维度的审美质量。审美质量与流行度捕捉了音乐互补的两个层面:在Music Arena数据集(包含训练阶段未见的11种生成式音乐系统的人类两两偏好对战)的分布外评估中,引入审美特征能持续提升偏好预测准确率,证明所学表征在不同生成架构间具有强泛化能力。
背景:在AI智能体系统中,智能体技能正日益作为模块化、可复用的能力单元被部署。医学研究类智能体技能需要超越通用评估的保障机制,包括科学严谨性、方法有效性、可重复性及边界安全性。本研究开发并初步评估了针对医学研究智能体技能的领域专用审计框架,重点考察其与专家评审相比的可靠性。方法:我们开发了MedSkillAudit(skill-auditor@1.0)分层框架,用于评估技能部署前的发布就绪度。对五大医学研究类别(每类15个)共75项技能进行评估。两名专家独立给出质量评分(0-100分)、序数型发布建议(生产就绪/有限发布/仅测试版/拒绝)及高风险失败标记。通过ICC(2,1)和线性加权Cohen's kappa量化系统与专家的一致性,并以评审员间一致性为基准。结果:专家共识质量评分均值为72.4(标准差=13.0);57.3%的技能未达到有限发布阈值。MedSkillAudit的ICC(2,1)为0.449(95%置信区间:0.250-0.610),优于评审员间的ICC值0.300。系统与共识评分差异(标准差=9.5)小于专家间差异(标准差=12.4),且无方向性偏差(Wilcoxon检验p=0.613)。方案设计类别的一致性最高(ICC=0.551);学术写作类别出现负ICC值(-0.567),反映评分标准与专家认知的结构性错配。结论:针对特定领域的部署前审计可为医学研究智能体技能治理提供实践基础,通过针对科研场景设计的结构化审计流程,对通用质量检查形成有效补充。
随着“氛围编码”平台的兴起——用户通过自然语言描述应用需求,AI代理即可自主生成全栈软件——传统代码级评测已无法满足评估需求。为系统评估这类平台作为虚拟软件开发机构的综合能力(包括业务需求理解、架构决策、生产级代码编写、迭代修改处理及业务就绪度维护),我们推出SWE-WebDev评测体系。该框架包含68项指标,涵盖7个维度的25项核心指标与43项诊断指标,并沿三个维度组织:交互模式(应用创建请求ACR vs 应用修改请求AMR)、代理视角(产品经理PM/工程/运维)及复杂度层级(T4多角色SaaS应用/T5AI原生应用)。 通过对6大平台、3大领域、18个评估单元的测试,我们发现当前AI应用构建平台存在四大共性缺陷:(1)需求规约瓶颈:平台将丰富的业务需求压缩为过度简化的技术方案;(2)前后端普遍脱节:视觉精美的UI界面背后存在缺失或故障的后端基础设施;(3)生产就绪度断崖:工程质量得分均低于60%,且不同平台所需的人工后期投入差异显著;(4)安全性与基础设施普遍失效:平台安全得分最高仅65%(目标值90%),并发处理能力低至6%。这些发现基于当前样本,需更大规模验证才能确立普适性。我们开源SWE-WebDev评测体系作为社区基准,以推动复现研究并助力平台开发者识别弥补这些差距。 代码与基准资源详见:https://github.com/snowmountainAi/webdevbench 与 https://webdevbench.com/。
扩散模型虽主要训练用于图像生成,但其去噪轨迹编码了丰富且空间对齐的视觉先验。本文论证了这些先验可应用于文本条件语义分割与开放词汇分割,并能泛化至多种下游任务,构建通用型扩散分割框架。具体而言,我们提出DiGSeg(作为通用分割学习器的扩散模型),将预训练扩散模型重构为统一分割框架。该方法将输入图像与真实标注掩码编码至潜空间,并拼接为扩散U-Net的条件信号。通过并行CLIP对齐的文本通路,在多尺度注入语言特征,使模型能将文本查询与动态演化的视觉表征对齐。这一设计将现成的扩散主干网络转化为通用接口,可基于外观特征与任意文本提示生成结构化分割掩码。大量实验表明,该方法在标准语义分割基准上达到领先性能,同时在开放词汇泛化及跨领域迁移(医疗、遥感、农业场景)中展现强大适应性——无需针对特定领域进行架构定制。这些结果表明,现代扩散主干网络可作为通用分割学习器而非纯生成器,显著缩小了视觉生成与视觉理解之间的鸿沟。
自洽性检测通过生成问题的多个抽样答案并衡量一致性来识别幻觉,但这种方法需要重复解码且易受词汇变化影响。语义自洽性改进此法,通过自然语言推理按含义对抽样答案进行聚类,但增加了抽样成本和外部推理开销。我们发现,基于单次贪婪解码中首个有效答案令牌的Top-K对数熵值计算的首令牌置信度phi_first,在闭卷简答事实类问答任务中达到或略优于语义自洽性的效果。在三个70-80亿参数指令微调模型和两个基准测试中,phi_first的平均AUROC达0.820,优于语义一致性的0.793和标准表层自洽性的0.791。包含性测试表明,phi_first与语义一致性呈中度至强相关性,且两者结合仅比单独使用phi_first带来微小AUROC提升。这些结果表明,多抽样一致性所捕获的不确定性信息大多已蕴含于模型初始令牌分布中。我们主张在采用基于抽样的不确定性评估前,应默认将phi_first作为低成本基线指标进行报告。
我们推出TT4D——一个大规模高保真度的乒乓球数据集。该数据集通过单目广播视频重构了140余小时的单双打比赛,具备多模态标注信息,包括高质量相机标定、精确的三维球体位置、球体旋转、时间分段以及随时间变化的三维人体网格。这些丰富数据为虚拟回放、深度球员分析和机器人学习提供了全新基础。数据集通过创新重构流程实现了规模与精度的结合:现有方法通常先基于二维球轨将比赛序列分割为独立击球片段再进行重构,但基于二维的时间分割会在遮挡和多视角场景下失效。我们颠覆了这一范式,首先通过学习的提升网络将未分割的二维球轨整体升维至三维空间,再利用三维轨迹实现可靠的时间分割。该提升网络还能推断球体旋转、处理不可靠的球体检测,并在严重遮挡情况下成功重构球体轨迹。这种"先升维"的设计至关重要,我们的流程是当前唯一能从通用视角的单目广播视频重构乒乓球比赛的方法。我们通过两项下游任务验证了数据集的保真度:估算击球时球拍的姿态与速度,以及训练竞技回合的生成模型。
在单流自回归交互界面中,相同标记既更新模型状态又构成不可撤销的公开承诺。这种耦合产生了静默税:额外思考会推迟首个任务相关内容的生成,而草率的早期输出则可能因未成熟承诺导致后续生成产生偏差。我们提出并行交错推理(SxS)机制,将披露时机转化为标准自回归生成中的可控决策。SxS在相同上下文中交错进行部分内容披露与持续私有推理,但仅当内容获得当前推理支持时才予以发布。为避免填充词滥用并掌握这种节奏控制,我们通过匹配答案前缀与支撑推理前缀构建蕴含对齐的交错轨迹,继而采用SFT训练获取双行动语义,并通过RL训练在新格式下恢复推理性能。在Qwen3两种架构/规模(混合专家Qwen3-30B-A3B、稠密模型Qwen3-4B)及领域内(AIME25)/领域外(GPQA-Diamond)基准测试中,SxS在词元级代理指标(如更新间隔等待时间)下显著优化了准确率-内容延迟的帕累托权衡。
本文揭示了多模态大语言模型(MLLMs)推理对齐中一个关键但尚未充分探索的挑战:在非平稳环境下,源模型多样化的推理分布常发生不可预测的演化,将系统性偏差与漂移传递至目标模型。为此,我们基于概念漂移理论将多源推理对齐建模为约束满足问题,提出自主偏好优化(APO)框架。该框架将模型间差异视为动态负约束而非噪声,通过两阶段协议实现对齐:首先,监督式引导将目标模型投射至源模型的能力并集;其次,约束感知优化通过多负例Plackett-Luce目标显式抑制漂移轨迹,合成一致的共识流形。在胸部X光解读任务上的大量实验表明,我们的70亿参数模型展现出卓越的鲁棒性,其平均准确率甚至超越专有源模型。此外,我们发布了CXR-MAX大规模基准数据集,包含来自七个大型MLLMs的170,982条推理轨迹,以推动漂移环境下推理对齐的研究。代码与数据详见:https://github.com/XiaoyuYoung/APO。
与物理世界交互的机器人系统必须对其自身结构、所处环境及当前任务所施加的运动学和动力学约束进行推理。我们推出KinDER——一个面向运动学与动力学具身推理的基准测试平台,旨在解决机器人学习与规划中出现的物理推理难题。该平台包含25个程序化生成的环境、兼容Gymnasium的Python库(内含参数化技能与演示)、以及配备13个已实现基线的标准化评估套件,涵盖任务与运动规划、模仿学习、强化学习和基于基础模型的方法。这些环境专门设计用于隔离五大核心物理推理挑战:基础空间关系、非抓取式多物体操控、工具使用、组合几何约束及动态约束,使其独立于感知、语言理解和特定应用复杂度。实证评估表明,现有方法在多数环境中表现不佳,揭示了当前物理推理方法存在的显著不足。我们还通过移动机械臂的实景-仿真-实景实验验证仿真与真实世界物理交互的对应关系。KinDER完全开源,旨在推动机器人物理推理研究实现跨范式的系统性比较。项目网站与代码:https://prpl-group.com/kinder-site/
大型语言模型的最新进展在推理和环境交互任务上展现出强大性能,但其创造性问题解决能力仍未得到充分探索。我们通过创造性工具使用的视角研究这一能力——即模型通过推理物体的功能可供性和属性来重新利用可用对象,而非依赖常规用法。作为初步探索,我们推出CreativityBench基准,用于评估LLMs基于可供性的创造力。为此,我们构建了包含4K实体和15万+可供性标注的大规模可供性知识库,明确关联物体、部件、属性及可执行用途。基于该知识库,我们生成1.4万个需要识别约束条件下非显而易见但物理可行的解决方案的实体任务。对10个最先进LLM(含开源和闭源模型)的评估表明:模型常能选择合理对象,但难以识别正确部件、其可供性及任务解决所需的底层物理机制,导致性能显著下降。此外,模型缩放带来的改进快速饱和,强大的通用推理能力不能可靠转化为创造性可供性发现,而思维链等常见推理时策略收效有限。这些结果表明创造性工具使用仍是当前模型的重大挑战,CreativityBench为研究这一缺失的智能维度提供了有效测试平台,对未来智能体的规划与推理模块具有潜在启示意义。