每日精选AI研究论文及翻译
我们推出BlenderFusion,一个生成式视觉合成框架,通过重组物体、相机和背景来合成新场景。它遵循分层-编辑-合成的流程:(i) 将视觉输入分割并转换为可编辑的3D实体(分层),(ii) 在Blender中基于3D控制进行编辑(编辑),(iii) 使用生成式合成器将它们融合成一个连贯的场景(合成)。我们的生成式合成器扩展了预训练的扩散模型,使其能够并行处理原始(源)和编辑后(目标)场景。该模型在视频帧上进行了微调,采用了两项关键训练策略:(i) 源掩码,支持如背景替换等灵活修改;(ii) 模拟物体抖动,便于对物体和相机进行解耦控制。在复杂的组合场景编辑任务中,BlenderFusion显著优于现有方法。
本文提出了LLaVA-Scissor,一种专为视频多模态大语言模型设计的无需训练的令牌压缩策略。以往的方法主要基于注意力分数进行令牌压缩,但未能有效捕捉所有语义区域,常导致令牌冗余。与之不同,我们采用语义连通组件(SCC)方法,将令牌分配到令牌集中的不同语义区域,确保全面的语义覆盖。由此产生了一种两步时空令牌压缩策略,该策略在空间和时间域均利用SCC。此策略通过用一组非重叠的语义令牌表示整个视频,能有效压缩令牌。我们在多种视频理解基准上对LLaVA-Scissor的令牌压缩能力进行了广泛评估,包括视频问答、长视频理解及综合多选基准。实验结果表明,所提出的LLaVA-Scissor在多种视频理解基准上优于其他令牌压缩方法,尤其在低令牌保留率下表现卓越。项目页面:https://github.com/HumanMLLM/LLaVA-Scissor。
在文本到图像生成中,实现对主体身份和语义属性(如姿态、风格、光照)的精细控制,尤其是在涉及多个主体时,往往会削弱扩散变换器(DiTs)的可编辑性和连贯性。许多方法会引入伪影或遭遇属性纠缠问题。为应对这些挑战,我们提出了一种新颖的多主体控制生成模型——XVerse。通过将参考图像转化为特定于标记的文本流调制偏移量,XVerse能够在不干扰图像潜在特征或特征的情况下,实现对特定主体的精确且独立控制。因此,XVerse提供了高保真、可编辑的多主体图像合成能力,并具备对个体主体特征和语义属性的强大控制力。这一进展显著提升了个性化和复杂场景生成的能力。
作为电影的基本视觉语言,电影摄影对于传达叙事、情感和美学品质至关重要。尽管近期的视觉-语言模型(VLMs)展现出强大的通用视觉理解能力,它们在解析单个镜头中蕴含的细腻电影语法方面的熟练度仍鲜有探索,且缺乏坚实的评估体系。这一关键空白既限制了细粒度视觉理解,也制约了AI辅助视频生成的精准度。为此,我们推出了ShotBench,一个专为电影语言理解设计的全面基准测试。它包含了超过3,500个由专家标注的问答对,源自200多部广受赞誉(主要为奥斯卡提名)影片的图像和视频片段,覆盖了八个核心电影摄影维度。我们对24个领先的VLMs在ShotBench上的评估揭示了它们的显著局限:即便是表现最佳的模型,其平均准确率也不足60%,尤其是在处理细粒度视觉线索和复杂空间推理时表现欠佳。为加速该领域的发展,我们构建了ShotQA,一个包含约7万电影问答对的大规模多模态数据集。利用ShotQA,我们通过监督微调和群体相对策略优化开发了ShotVL。ShotVL在ShotBench上显著超越了所有现有的开源和专有模型,确立了新的性能标杆。我们开源了模型、数据和代码,以促进AI驱动的电影理解与生成这一关键领域的快速发展。
密集预测任务在计算机视觉领域占据重要地位,其目标是为输入图像学习像素级的标注标签。尽管该领域已取得进展,现有方法主要集中于理想化条件,对现实场景的泛化能力有限,且面临真实世界数据稀缺的挑战。为系统研究这一问题,我们首先引入了DenseWorld,这是一个涵盖25个密集预测任务的基准,这些任务对应着紧迫的现实应用,并具备跨任务的统一评估体系。随后,我们提出了DenseDiT,它最大限度地利用生成模型的视觉先验,通过统一策略执行多样化的现实世界密集预测任务。DenseDiT结合了参数重用机制和两个轻量级分支,自适应地整合多尺度上下文,仅需增加不到0.1%的参数。在DenseWorld上的评估显示,现有通用及专用基线的性能显著下降,凸显了它们在现实世界泛化上的局限。相比之下,DenseDiT仅使用基线不到0.01%的训练数据便取得了优异结果,彰显了其在现实部署中的实用价值。我们的数据、检查点及代码可在https://xcltql666.github.io/DenseDiTProj获取。
内部世界模型(WMs)使智能体能够理解世界状态并预测状态转换,为高级的深思熟虑推理奠定基础。近期的大型视觉-语言模型(VLMs),如OpenAI的o3、GPT-4o和Gemini,展现出作为通用世界模型的潜力。尽管最新研究已评估并揭示了这些模型在视觉理解等特定能力上的局限,但对VLMs基本世界模型能力的系统性评估仍属空白。借鉴比较心理学与认知科学,我们提出一个两阶段评估框架,分别考察感知(视觉、空间、时间、数量及运动)与预测(机制模拟、传递推理、组合推理),以对VLMs作为世界模型进行原子级评估。在此框架指导下,我们推出了WM-ABench,这是一个大规模基准测试,包含23个细粒度评估维度,覆盖6个多样化的模拟环境,并辅以受控的反事实模拟。通过对15个最新商业及开源VLMs进行的660项实验,我们发现这些模型在基础世界建模能力上存在显著局限。例如,几乎所有模型在区分运动轨迹时准确率接近随机水平。此外,它们缺乏解耦理解能力——例如,某些模型倾向于认为蓝色物体比绿色物体移动得更快。更丰富的结果与分析揭示了VLMs与人类水平世界建模之间的显著差距。
机器人技术已在硬件方面取得了显著进展——从DARPA的城市与机器人挑战赛到首届人形机器人拳击锦标赛——然而,商业自主性仍落后于机器学习的进步。一个主要瓶颈在于软件:当前的机器人技术栈要求陡峭的学习曲线、深厚的C/C++专业知识、分散的工具链以及复杂的硬件集成,这与推动现代人工智能发展的以Python为核心、文档完善的生态系统形成鲜明对比。为此,我们推出了ARK,一个开源、优先采用Python的机器人框架,旨在弥合这一差距。ARK提供了一个类似Gym的环境接口,使用户能够收集数据、进行预处理,并利用最先进的模仿学习算法(如ACT、扩散策略)训练策略,同时在高保真模拟与实体机器人之间无缝切换。其轻量级的客户端-服务器架构支持网络化的发布-订阅通信,而可选的C/C++绑定确保了在需要时的实时性能。ARK配备了可复用的模块,涵盖控制、SLAM、运动规划、系统辨识和可视化,并原生支持ROS互操作性。详尽的文档和案例研究——从操作到移动导航——展示了快速原型设计、轻松的硬件更换,以及可与主流机器学习工作流相媲美的端到端流程。通过将机器人技术与人工智能实践统一在Python这一共同平台下,ARK降低了入门门槛,加速了自主机器人的研究与商业部署。
大语言模型中专家混合模型(MoE)的兴起,预示着以较小的执行成本换取更大的模型参数量和学习能力,因为每个输入标记仅激活一小部分参数。然而,普遍观察到某些专家被激活的频率远高于其他专家,导致在不同设备上并行运行专家时系统效率低下。因此,我们引入了分组专家混合模型(MoGE),它在选择过程中对专家进行分组,并从根本上比MoE更好地平衡专家的工作负载。它通过约束标记在每个预定义的专家组内激活相同数量的专家来实现这一点。当模型执行分布在多个设备上时,这种架构设计确保了设备间的计算负载均衡,显著提升了吞吐量,特别是在推理阶段。此外,我们在昇腾NPU上构建了基于MoGE的稀疏模型——盘古Pro MoE,其总参数量达720亿,每个标记激活160亿参数。通过广泛的系统仿真研究,盘古Pro MoE的配置针对昇腾300I Duo和800I A2进行了优化。实验表明,MoGE确实在昇腾NPU上实现了更好的专家负载平衡和更高效的模型训练与推理执行。盘古Pro MoE的推理性能达到每卡1148标记/秒,通过推测加速可进一步提升至每卡1528标记/秒,超越了同级别的32B和72B密集模型。此外,我们在昇腾300I Duo上实现了优异的模型推理性价比。研究表明,昇腾NPU能够通过大规模并行化训练盘古Pro MoE,使其成为总参数量低于1000亿类别中的领先模型,超越了如GLM-Z1-32B和Qwen3-32B等知名开源模型。
深度学习生成模型的最新进展为视频合成开辟了前所未有的机遇。然而,在实际应用中,用户往往寻求能够精确且一致地实现其创意编辑意图的工具。尽管现有方法已取得显著进展,但确保与用户意图的细粒度对齐仍是一个开放且具有挑战性的问题。在本研究中,我们提出了Shape-for-Motion,一个创新框架,它通过引入三维代理来实现精确且一致的视频编辑。Shape-for-Motion通过将输入视频中的目标对象转换为时间一致的三维网格(即三维代理),使得编辑操作可以直接在代理上进行,随后再推断回视频帧中。为了简化编辑流程,我们设计了一种新颖的双重传播策略,允许用户仅需对单帧的三维网格进行编辑,编辑内容便会自动传播至其他帧的三维网格中。不同帧的三维网格进一步投影至二维空间,生成编辑后的几何与纹理渲染图,这些作为解耦视频扩散模型的输入,用于生成编辑结果。我们的框架支持跨视频帧的各种精确且物理一致的操作,包括姿态编辑、旋转、缩放、平移、纹理修改及对象合成。本方法标志着向高质量、可控视频编辑工作流迈出的关键一步。大量实验验证了我们方法的优越性和有效性。项目页面:https://shapeformotion.github.io/
当前的视觉-语言模型(VLMs)在细粒度空间推理方面存在困难,尤其是在需要多步逻辑和精确空间对齐的场景中。为此,我们提出了SpatialReasoner-R1,一种专为解决这些局限而设计的视觉-语言推理模型。为了构建高质量的空间推理监督信号,我们设计了一种多模型蒙特卡洛树搜索(M3CTS)方法,该方法能生成多样且逻辑一致的长链思维(LongCoT)推理轨迹。此外,我们提出了细粒度直接偏好优化(fDPO),通过引入分段特定的偏好粒度,结合空间奖励机制,对候选回答的视觉一致性、空间定位及逻辑连贯性进行评估,从而指导描述性接地与逻辑推理。实验结果显示,fDPO在空间质量任务上较标准DPO平均提升了4.1%,在空间数量任务上提升了9.0%。采用fDPO训练的SpatialReasoner-R1在SPATIALRGPT-Bench上创下了新的最高水平,平均准确率超越最强基线9.8%,同时在通用视觉-语言任务上保持了竞争力。
本研究探索了如何通过思维链(CoT)推理来关联多幅图像中的视觉线索。一种直接的方法是调整基于规则的强化学习以适应视觉-语言模型(VLMs)。然而,这类方法通常依赖于人工构建的问答对,在处理跨图像的精细视觉细节和复杂逻辑时尤为困难。受自监督视觉表示学习的启发,我们观察到图像本身蕴含的约束可作为监督信号。基于这一洞见,我们构建了由同一图像的两个增强视图和第三幅相似但不同的图像组成的三元组。在训练过程中,模型被引导生成推理过程以比较这些图像(即判断相同或不同)。随后,我们利用基于规则的强化学习对模型进行优化。由于图像间高度视觉相似且存在增强处理,模型必须关注细微的视觉变化并进行逻辑推理才能成功。实验表明,尽管仅针对视觉比较任务进行训练,所学到的推理能力能有效泛化至广泛的问题类型。在不依赖任何人工标注问答对的情况下,我们的方法在多图像推理基准上取得了显著提升,并在通用视觉任务中展现出强劲性能。
视觉语言模型(VLMs)能否像人类一样,仅凭少量视角就想象出完整的场景?人类通过构建空间心理模型,即对不可见空间的内部表征,来推理布局、视角和运动。我们新推出的MindCube基准测试,包含3,268张图像中的21,154个问题,揭示了这一关键差距,现有VLMs在此类任务上表现近乎随机。借助MindCube,我们系统评估了VLMs在构建稳健空间心理模型方面的能力,包括位置表征(认知映射)、方向理解(视角采择)以及动态推理(“假设”运动的心理模拟)。随后,我们探索了三种帮助VLMs近似空间心理模型的方法:未见的中间视角、自然语言推理链以及认知地图。其中,显著的提升来自于一种协同策略——“先绘图后推理”,该策略联合训练模型首先生成认知地图,然后基于地图进行推理。通过训练模型在这些内部地图上进行推理,我们将准确率从37.8%提升至60.8%(+23.0%)。进一步引入强化学习后,性能跃升至70.7%(+32.9%)。我们的核心发现是,这种空间心理模型的支架式构建,即主动创建并利用内部结构化空间表征,结合灵活的推理过程,显著增强了对不可观察空间的理解。
大型语言模型(LLMs)的快速发展有望助力科学进步。实现这一目标的关键能力在于重现已有工作的能力。为了评估AI代理在活跃研究领域中重现结果的能力,我们引入了自动化LLM速通基准测试,该测试利用了研究社区在NanoGPT速通竞赛中的贡献,该竞赛旨在以最短时间训练一个GPT-2模型。19个速通任务中的每一个都向代理提供了先前记录的训练脚本,并可选地搭配三种提示格式之一,从伪代码到类似论文的新记录改进描述。这些记录设计上执行迅速,速通改进涵盖了从高层次算法进步到硬件感知优化的多样化代码级变更。这些特性使得该基准测试在改进LLM训练这一前沿问题上既易于接近又贴近现实。我们发现,即便提供了详尽的提示,结合了最新推理能力的LLMs与最先进的脚手架在重现我们基准测试中已知创新时仍面临困难。因此,我们的基准测试为衡量LLMs自动化科学重现能力提供了一个简单且未饱和的指标,这是自主研究代理必备(但非充分)的技能。
尽管在医学等领域具有显著潜力,多模态上下文学习(ICL)仍未被充分探索。临床医生经常遇到需要从有限示例中适应的多样化、专业化任务,例如从少量相关既往案例中提炼见解或考虑一组有限的鉴别诊断。虽然多模态大语言模型(MLLMs)在医学视觉问答(VQA)方面取得了进展,但它们从上下文中学习多模态任务的能力在很大程度上仍是未知的。我们引入了SMMILE,这是首个针对医学任务的专家驱动的多模态ICL基准。十一位医学专家精心策划了问题集,每个问题包含一个多模态查询和多模态上下文示例作为任务演示。SMMILE涵盖了111个问题(517个问题-图像-答案三元组),涉及6个医学专业和13种成像模式。我们进一步推出了SMMILE++,这是一个包含1038个排列问题的增强版本。对15个MLLMs的全面评估显示,大多数模型在医学任务中的多模态ICL能力处于中等至较差水平。在开放式评估中,ICL相较于零样本学习在SMMILE上仅带来8%的平均提升,在SMMILE++上为9.4%。我们观察到模型对无关上下文示例的敏感性:即使是一个噪声或无关的示例,也可能导致性能下降高达9.5%。此外,示例排序显示出近因偏差,即把最相关的示例放在最后可以带来高达71%的性能提升。我们的研究结果揭示了当前MLLMs在从上下文中学习多模态医学任务时的关键局限性和偏差。
近期关于上下文学习(ICL)的分析研究揭示了一系列描述模型在不同实验条件下行为的策略。我们旨在通过探讨模型为何首先学习这些多样化策略来统一这些发现。具体而言,我们从一个观察出发:当模型被训练以学习任务混合体(这在文献中颇为常见)时,模型执行ICL所习得的策略可被一组贝叶斯预测器所捕捉:一个记忆型预测器,它假设在已见任务集上存在离散先验;以及一个泛化型预测器,其先验与底层任务分布相匹配。采用理性分析这一规范性视角,即学习者的行为被解释为在计算约束下对数据的最优适应,我们构建了一个层次贝叶斯框架,该框架几乎完美地预测了Transformer在整个训练过程中的下一个词预测——无需假设对其权重的访问。在此框架下,预训练被视为更新不同策略后验概率的过程,而推理时行为则作为这些策略预测的后验加权平均。我们的框架借鉴了关于神经网络学习动态的常见假设,这些假设明确指出了候选策略在损失与复杂性之间的权衡:除了对数据的解释能力外,模型对实施某一策略的偏好还受其复杂性的制约。这有助于解释众所周知的ICL现象,同时提供新颖的预测:例如,我们展示了随着任务多样性的增加,从泛化向记忆过渡的时间尺度呈现超线性趋势。总体而言,我们的工作推进了基于策略损失与复杂性权衡的ICL解释与预测理论。
我们推出Gazal-R1,这是一个拥有320亿参数的语言模型,在医学推理领域实现了顶尖性能,同时为临床决策提供透明、逐步的解释。基于Qwen3 32B构建,我们的模型证明,通过策略性训练,中等规模模型能够在特定领域超越显著更大的对手。我们开发了一种新颖的两阶段训练流程:首先,在精心挑选的107,033个合成医学推理示例数据集上进行监督微调,教授结构化临床思维,并辅以包括权重分解低秩适应(DoRA)和秩稳定LoRA(rsLoRA)在内的先进参数高效技术;其次,采用群体相对策略优化(GRPO)进行强化学习,结合复杂多组件奖励系统,以提升准确性、格式遵循及推理质量。Gazal-R1在医学基准测试中表现卓越,MedQA得分87.1%,MMLU Pro(医学)得分81.6%,PubMedQA得分79.6%,超越了规模达其12倍的模型。除了强劲的实证结果外,本研究还深入探讨了在专业领域训练具备推理能力模型所面临的挑战,包括奖励黑客问题、训练不稳定性,以及事实回忆与详细推理之间的根本矛盾。我们的方法论为开发高性能、领域特定语言模型提供了一个可复现的框架,平衡了性能、效率与可解释性。
在人工智能生成内容(AIGC)领域,追求高效且可控的高质量内容生成仍是一项核心挑战。尽管通过扩散蒸馏技术实现的一步生成器在生成质量和计算效率上表现出色,但将其适应于新的控制条件——如结构约束、语义指导或外部输入——却面临重大难题。传统方法通常需要对基础模型进行计算成本高昂的修改,并随后进行扩散蒸馏。本文提出了一种新颖且轻量级的方法——噪声一致性训练(NCT),它能够直接将新的控制信号整合到预训练的一步生成器中,而无需访问原始训练图像或重新训练基础扩散模型。NCT通过引入一个适配器模块,并在生成器的噪声空间中采用噪声一致性损失来实现。该损失函数使适配后的模型在不同程度上条件依赖的噪声间保持生成行为的一致性,从而隐式引导其遵循新的控制条件。从理论上讲,这一训练目标可理解为最小化适配生成器与新条件诱导的条件分布之间的分布距离。NCT具有模块化、数据高效且易于部署的特点,仅依赖于预训练的一步生成器和控制信号模型。大量实验证明,NCT在单次前向传播中实现了最先进的可控生成,在生成质量和计算效率上均超越了现有的多步和基于蒸馏的方法。代码已发布于https://github.com/Luo-Yihong/NCT。
我们推出Confucius3-Math,这是一款拥有140亿参数的开源大型语言模型,其特点在于:(1) 能在单一消费级GPU上高效运行;(2) 在一系列数学推理任务中达到当前最优(SOTA)性能,超越了许多规模显著更大的模型。特别地,作为我们利用AI提升教育与知识传播使命的一部分,Confucius3-Math专为中国K-12学生及教育工作者设计,致力于数学学习。通过大规模强化学习(RL)的后训练构建,该模型与国家课程大纲对齐,擅长以低成本解决主流中国K-12数学问题。本报告中,我们分享了开发过程、遇到的挑战及克服这些挑战所采用的技术。特别地,我们引入了三项技术创新:目标熵正则化、近期样本恢复及策略特定难度加权。这些创新包括一种新的熵正则化方法、新颖的数据调度策略以及改进的组相对优势估计器。它们共同显著稳定了RL训练,提高了数据效率,并提升了性能。我们的工作展示了在特定领域以低成本构建强大推理模型的可行性。我们已在https://github.com/netease-youdao/Confucius3-Math开源模型与代码。
大多数语言模型都面临着一个根本性的权衡:强大的能力需要大量的计算资源。我们通过Jan-nano打破了这一限制,这是一个拥有40亿参数的语言模型,它通过极致的专业化重新定义了效率:与其试图无所不知,不如精通即时查找任何信息的艺术。Jan-nano基于Qwen3-4B模型,采用我们创新的多阶段RLVR系统进行微调,完全摒弃了对下一词预测训练(SFT)的依赖,在集成MCP的情况下,于SimpleQA基准测试中取得了83.2%的成绩,且能在消费级硬件上运行。凭借128K的上下文长度,Jan-nano证明了智能不在于规模,而在于策略。
在众多行业中,预测大型系统的指标结果是一个基础性问题,主要依赖于传统的表格回归方法。然而,这些方法在处理复杂系统数据(如配置文件或系统日志)时表现欠佳,因为在这些场景下特征工程往往难以实施。我们提出文本到文本回归作为一种通用且可扩展的替代方案。在预测Borg(谷歌大规模计算集群调度系统)的资源效率时,一个拥有6000万参数的编码器-解码器模型,从随机初始化开始训练,在整个集群上实现了接近完美的0.99(平均0.9)等级相关性,且均方误差比表格方法低100倍。该模型还能轻松适应新任务,仅需500个少样本示例,并能捕捉复杂结果分布的密度。消融研究强调了使用编码器、增加序列长度以及模型内在不确定性量化的重要性。这些发现为构建现实世界结果的通用模拟器铺平了道路。
光学相干断层扫描(OCT)等成像技术的兴起与深度学习(DL)的进步,使得临床医生和研究人员能够更高效地进行视网膜疾病分期。在深度学习中,自监督学习(SSL)作为一种流行方法,允许模型从大量未标注数据中学习,从而避免了昂贵的标注成本。SSL促进了基础模型(FMs)的发展,这些大型模型可适用于多种下游任务。然而,现有的OCT基础模型仅基于图像数据训练,缺乏对图像全面且稳健的语义理解,这在其下游任务表现(尤其是复杂任务)中尤为明显,因此需要监督微调(这可能不可行)以更好地适应特定应用和人群。为此,我们提出了RetFiner,一种SSL视觉语言精炼方案,旨在提升现有基础模型的表征能力,并使其能够高效直接地适应特定人群,从而提升下游任务表现。我们的方法利用文本数据中丰富的监督信号,设计了一系列多样化的训练目标。我们在视网膜基础模型RETFound、UrFound和VisionFM上测试了RetFiner,结果显示在七项高度多样化的OCT分类任务中,线性探测性能显著提升,相较于基线分别平均提高了5.8、3.9和2.1个百分点。我们的代码和模型权重已公开于https://github.com/ronnief1/RetFiner。
现代大型语言模型,如LLaMA、Qwen和DeepSeek系列,主要采用预层归一化(Pre-LN)Transformer架构。尽管在预训练过程中表现稳定且能扩展到大规模模型,但Pre-LN存在激活方差随层数呈指数增长的问题,导致残差路径主导子层输出,限制了深层的学习能力。为解决这一问题,我们提出了梯度保持激活缩放(GPAS),这是一种可与现有方法结合使用的简单技术。GPAS通过缩小中间激活值同时保持其梯度不变来实现。这确保了激活中的信息完整,并避免了梯度缩小带来的梯度消失问题。在从7100万到10亿参数的各种模型规模上的广泛实验表明,GPAS实现了持续的性能提升。除了增强Pre-LN Transformer外,GPAS在改进其他架构如Sandwich-LN和DeepNorm方面也展现出潜力,证明了其多功能性及在广泛场景中优化训练动态的潜力。
在视觉-语言模型中学习数据的层次结构是一项重大挑战。先前的研究尝试通过蕴含学习来解决这一难题。然而,这些方法未能明确地建模蕴含的传递性,而传递性在表示空间内确立了顺序与语义之间的关系。在本研究中,我们提出了径向跨模态嵌入(RCME)框架,该框架能够显式地建模强制传递性的蕴含关系。我们提出的框架优化了视觉-语言模型内概念的偏序关系。通过利用这一框架,我们开发了一种能够表示生命之树层次结构的层次化视觉-语言基础模型。在层次化物种分类和层次化检索任务上的实验表明,相较于现有最先进的模型,我们的模型性能得到了显著提升。我们的代码和模型已在https://vishu26.github.io/RCME/index.html开源。
我们推出TAPAS(基于任务的自适应与规划多智能体系统),这是一个将大型语言模型(LLMs)与符号规划相结合的多智能体框架,旨在无需手动定义环境模型的情况下解决复杂任务。TAPAS采用专门的基于LLM的智能体,它们通过结构化的工具调用机制协作生成并适时调整领域模型、初始状态及目标设定。借助这种基于工具的交互方式,下游智能体可向上游智能体请求修改,从而适应新属性与约束,无需手动重新定义领域。结合自然语言计划翻译的ReAct(推理+行动)式执行智能体,有效弥合了动态生成计划与现实机器人能力之间的鸿沟。TAPAS在基准规划领域及VirtualHome模拟现实环境中均展现出卓越性能。
测试时计算已成为提升大型语言模型(LLMs)性能的强大范式,其中生成多个输出或精炼单个推理链能显著提高答案准确性。然而,现有方法如最佳N选一、多数投票及自我反思通常对输入采用统一的推理方式,忽视了不同问题可能需要不同深度的推理。在本研究中,我们提出了分数推理(Fractional Reasoning),这是一种无需训练且与模型无关的框架,能够在推理时实现对推理强度的连续控制,突破了固定指令提示的限制。该方法通过提取与深度推理相关的潜在导向向量,并以可调比例因子重新应用,使模型能够根据每个输入的复杂性定制其推理过程。这支持了两种关键的测试时扩展模式:(1) 在基于广度的策略(如最佳N选一、多数投票)中提升输出质量,(2) 在基于深度的策略(如自我反思)中增强单个推理链的正确性。在GSM8K、MATH500和GPQA上的实验表明,分数推理在多种推理任务和模型中均能持续提升性能。