每日精选AI研究论文及翻译
图像地理定位任务旨在利用视觉线索预测图像在地球上的拍摄位置。现有的大型视觉语言模型方法虽然利用了世界知识、链式思维推理和智能体能力,却忽略了人类常用的策略——地图辅助定位。本研究首次为模型赋予"地图思维"能力,将其构建为"地图中的智能体"循环框架。我们开发了包含智能体强化学习与并行测试时扩展的两阶段优化方案:强化学习提升智能体采样效率,并行测试时扩展使模型能在最终预测前探索多条候选路径——这对地理定位至关重要。为评估方法在最新真实场景图像上的性能,我们进一步提出MAPBench基准,该训练评估体系完全由真实世界图像构成。实验表明,我们的方法在多数指标上超越现有开源与闭源模型,尤其将Acc@500m指标从Gemini-3-Pro结合谷歌搜索/地图模式的8.0%提升至22.1%。
自动形式化旨在将自然语言数学转化为形式化陈述以实现机器推理,但由于物理世界的多模态特性(如需要通过视觉元素推断质量、能量等隐藏约束),该技术在现实应用中面临根本性挑战。为此,我们提出MMFormalizer,通过将自适应实体关联与真实世界的数学物理领域相结合,将自动形式化从纯文本扩展到多模态场景。该方法通过递归关联和公理组合,从感知关联的基元出发递归构建形式化命题,其中自适应递归终止机制确保每个抽象概念都有视觉证据支持,并锚定在维度或公理基础上。我们在新基准测试集PhyX-AF(包含从MathVerse、PhyX、综合几何与解析几何中精选的115个样本)上评估MMFormalizer,覆盖多样化的多模态自动形式化任务。结果表明,GPT-5和Gemini-3-Pro等前沿模型在编译准确率与语义准确率上表现最佳,其中GPT-5在物理推理方面尤为突出,而几何领域仍是最大挑战。总体而言,MMFormalizer为统一的多模态自动形式化提供了可扩展框架,架起了感知与形式化推理的桥梁。据我们所知,这是首个能处理经典力学(源自哈密顿量)以及相对论、量子力学和热力学的多模态自动形式化方法。更多细节请访问项目页面:MMFormalizer.github.io
本文提出了一种逼真且可控的人脸三维夸张化框架。我们首先采用基于本征高斯曲率的表面夸张技术,但该方法与纹理结合时易产生过度平滑的渲染效果。为此,我们引入近期被证明能生成逼真自由视角虚拟形象的三维高斯泼溅技术(3DGS)。给定多视角序列,我们提取FLAME网格,求解曲率加权泊松方程,获得其夸张化形态。然而直接对高斯体进行变形会导致效果不佳,因此需通过局部仿射变换将每帧图像扭曲至其对应的二维夸张表征,从而合成伪真实夸张图像。随后我们设计了一种交替使用真实与合成监督信号的训练方案,使单一高斯集合能够同时表征自然与夸张的虚拟形象。该方案提升了保真度,支持局部编辑,并允许连续调节夸张强度。为实现实时变形,我们引入了原始表面与夸张表面之间的高效插值方法,并通过分析证明该方法与闭式解存在有界偏差。在定量与定性评估中,我们的结果均优于现有工作,能够生成具有几何可控性的逼真夸张虚拟形象。
大型语言模型(LLMs)往往难以通过模仿人类或非长链思维(Long CoT)的LLMs来习得有效的长链推理能力。为探究这一问题,我们提出:在统一视角下,有效且可学习的长链思维轨迹具有类似分子结构的稳定性,这种结构由三种相互作用类型构成——深度推理(类共价键作用)、自我反思(类氢键作用)和自主探索(类范德华力作用)。对蒸馏轨迹的分析表明,这些结构源于长链思维微调过程,而非关键词模仿。我们引入"有效语义异构体"概念,证明仅当化学键能促进快速熵收敛时,才能支撑稳定的长链思维学习,而结构竞争会损害训练效果。基于这些发现,我们提出Mole-Syn方法——一种基于分布转移图的引导策略,能够指导有效长链思维结构的合成,在多项基准测试中显著提升模型性能与强化学习稳定性。
本报告介绍了基于Qwen3-VL基础模型的最新扩展系列——Qwen3-VL-Embedding与Qwen3-VL-Reranker模型。这两个系列共同构建了高精度多模态搜索的端到端解决方案,能够将文本、图像、文档图像及视频等多种模态数据映射到统一的表示空间。Qwen3-VL-Embedding模型采用从大规模对比预训练到重排序模型蒸馏的多阶段训练范式,生成语义丰富的高维向量。该模型支持套娃表示学习(Matryoshka Representation Learning),可实现灵活的嵌入维度,并支持最高32K令牌的输入长度。与之互补的Qwen3-VL-Reranker模型则通过具有交叉注意力机制的跨编码器架构,对查询-文档对进行细粒度相关性评估。两个系列均继承了Qwen3-VL的多语言能力,支持超过30种语言,并发布2B和8B两种参数规模以适应不同部署需求。实证评估表明,Qwen3-VL-Embedding系列在多模态嵌入评估基准上取得了领先性能:Qwen3-VL-Embedding-8B在MMEB-V2基准上以77.8的综合得分位列榜首(截至2025年1月8日)。本报告详细阐述了该系列的架构设计、训练方法及实际应用能力,通过图像-文本检索、视觉问答和视频-文本匹配等多模态检索任务验证了其卓越性能。
强化学习(RL)已成为提升基于大语言模型的深度搜索智能体的关键技术。然而,现有方法主要依赖二元结果奖励,这种机制无法有效捕捉智能体推理过程的全面性与事实准确性,常导致捷径利用和幻觉生成等不良行为。为克服这些局限,我们提出引用感知的细粒度奖励框架(CaRR),该框架通过分解复杂问题为可验证的单步评估准则,要求智能体通过显式识别隐藏实体、提供正确引用支撑、构建连接预测答案的完整证据链来满足这些准则,从而强调推理的全面性、事实依据性和证据连贯性。我们进一步提出引用感知的分组相对策略优化算法(C-GRPO),结合CaRR与结果奖励共同训练鲁棒的深度搜索智能体。实验表明,C-GRPO在多个深度搜索基准测试中均稳定优于基于结果奖励的强化学习基线方法。分析结果验证了C-GRPO能有效抑制捷径利用行为,促进全面且基于证据的推理过程,并在开放式深度研究任务中展现出强泛化能力。代码与数据已开源:https://github.com/THUDM/CaRR。
大型语言模型(LLMs)被期望训练成为各类现实环境中的智能体,但这一过程依赖于丰富多样的工具交互沙箱。然而,真实系统的访问往往受限;LLM模拟环境容易产生幻觉与不一致性;人工构建的沙箱则难以扩展。本文提出EnvScaler——一种通过程序化合成实现可扩展工具交互环境的自动化框架。该框架包含两个核心组件:首先,SkelBuilder通过主题挖掘、逻辑建模和质量评估构建多样化的环境骨架;随后,ScenGenerator为每个环境生成多任务场景及基于规则的轨迹验证函数。基于EnvScaler,我们合成了191个环境与约7,000个场景,并将其应用于Qwen3系列模型的监督微调(SFT)和强化学习(RL)训练。在三个基准测试上的结果表明,EnvScaler显著提升了LLMs在涉及多轮次、多工具交互的复杂环境中解决任务的能力。相关代码与数据已发布于https://github.com/RUC-NLPIR/EnvScaler。
近期大语言模型(LLM)的进展使得基于多轮交互轨迹强化学习(RL)训练的智能体系统成为可能,但实际部署受限于快速增长的文本历史导致的令牌预算与内存占用激增。我们提出AgentOCR框架,通过将累积的观察-行动历史渲染为紧凑图像,利用视觉令牌更高的信息密度。为实现可扩展的多轮推演,AgentOCR提出分段光学缓存机制——通过将历史分解为可哈希的片段并维护视觉缓存,消除了冗余的重复渲染。除固定渲染外,AgentOCR引入智能体自压缩技术:智能体主动输出压缩率,并通过压缩感知奖励训练,自适应平衡任务成功率与令牌效率。我们在ALFWorld和基于搜索的问答等挑战性智能体基准测试中开展广泛实验。显著成果表明,AgentOCR在保留文本智能体95%以上性能的同时,大幅降低令牌消耗(>50%),实现稳定的令牌与内存效率提升。进一步分析验证了分段光学缓存带来20倍渲染加速,以及自压缩策略的有效平衡性。
自主机器学习代理已彻底改变科学发现流程,但仍受限于"生成-执行-反馈"范式。现有方法因严格依赖昂贵的物理执行进行假设验证而面临严重的执行瓶颈。受世界模型启发,我们通过内化执行先验知识,用即时预测推理替代高成本的运行时检验。本研究正式定义了数据驱动解决方案优选任务,构建了包含18,438组对比数据的完整语料库。实验表明,大语言模型在获得经过验证的数据分析报告提示后,可展现出显著的预测能力,准确率达61.5%且具备稳健的置信度校准。最终我们实例化出FOREAGENT代理框架,采用"预测-验证"循环机制,在收敛速度提升6倍的同时,以超越纯执行基线6%的优势实现突破。相关代码与数据集即将发布于https://github.com/zjunlp/predict-before-execute。
近期视频生成领域主要由扩散模型和流匹配模型主导,这些模型能生成高质量结果,但计算成本高昂且难以扩展。本文提出VideoAR——首个结合多尺度帧预测与自回归建模的大规模视觉自回归视频生成框架。VideoAR通过将帧内自回归建模与因果帧预测相结合,并辅以能高效编码时空动态的三维多尺度分词器,实现了空间与时间依赖关系的解耦。为提升长时一致性,我们提出多尺度时序旋转位置编码、跨帧误差校正和随机帧掩码技术,共同抑制误差传播并稳定时序连贯性。我们的多阶段预训练流程能在递增的分辨率与时长中逐步对齐时空学习。实验表明,VideoAR在自回归模型中实现了最新最优性能:将UCF-101的FVD指标从99.5提升至88.6,同时减少超过10倍的推理步数,并以81.74的VBench得分与规模大一个数量级的扩散模型持平。这些成果证明VideoAR缩小了自回归与扩散范式间的性能差距,为未来视频生成研究提供了可扩展、高效且时序一致的基础框架。
偏好调优通过优化显式偏好信号而非仅依赖似然度,使预训练语言模型与人类对质量、帮助性或安全性的判断保持一致。已有研究表明,当在训练领域外进行评估时,偏好调优会降低模型性能并削弱其帮助性。然而,适应策略在多大程度上能缓解这种领域偏移仍属未知。我们通过开展领域偏移下对齐泛化能力的系统化研究来解决这一挑战。在文本摘要和问答帮助性任务中,我们比较了五种主流对齐目标及多种从源领域到目标领域的适应策略(包括目标域监督微调和伪标注方法)。研究结果表明,不同对齐目标在领域偏移下的泛化能力存在系统性差异。我们发现基于伪标注的适应策略能显著减轻领域偏移带来的性能退化。
随着大语言模型(LLMs)在现实场景中的日益普及,仅关注答案正确性已显不足。要实现可靠部署,必须确保模型在上下文扰动下仍能保持真实信念。现有评估方法主要依赖自洽性等点状置信度指标,这可能掩盖信念的脆弱性。我们发现,即使具有完美自洽性的事实答案,在轻微上下文干扰下也会迅速崩溃。为弥补这一缺陷,我们提出邻域一致性信念(NCB)——一种通过评估概念邻域内响应连贯性来衡量信念稳健性的结构化指标。为验证NCB的有效性,我们设计了一套新型认知压力测试方案,用于探测上下文干扰下的输出稳定性。多组LLM实验表明,高NCB数据在干扰下的性能衰减相对更小。最后,我们提出结构感知训练(SAT)方法,通过优化上下文不变的信念结构,将长尾知识的脆弱性降低约30%。代码已发布于https://github.com/zjunlp/belief。
视频生成技术的最新进展使得能够模拟机器人学和规划中潜在未来的"世界模型"得以发展。然而,为这些模型设定精确目标仍具挑战性:文本指令往往过于抽象而难以捕捉物理细节,而目标图像对于动态任务又常常难以具体指定。为此,我们提出Goal Force创新框架,允许用户通过明确的力向量和中间动力学过程来定义目标,这与人脑构思物理任务的方式相契合。我们在精心构建的合成因果基元数据集(如弹性碰撞和多米诺骨牌倾倒)上训练视频生成模型,教会其在时空维度传递力的作用。尽管仅使用简单物理数据进行训练,我们的模型在复杂现实场景(包括工具操作和多物体因果链)中展现出卓越的零样本泛化能力。研究结果表明,通过将视频生成建立在基础物理交互之上,模型能够作为隐式神经物理模拟器出现,实现不依赖外部引擎的精确、物理感知的规划。我们已在项目页面公开所有数据集、代码、模型权重及交互式视频演示。
大型语言模型经历了快速演进,已成为金融业务智能化的关键技术。然而,现有基准测试常受限于模拟或通用样本依赖、聚焦单一离线静态场景等缺陷,导致其难以契合金融服务对真实性与实时响应能力的要求,造成基准表现与实际业务效能之间存在显著差距。为此,我们推出首个基于中美股市真实业务数据并融合在线评估的大规模评测基准BizFinBench.v2。通过对金融平台真实用户查询进行聚类分析,我们构建了覆盖四大核心业务场景的八项基础任务与两项在线任务,共计29,578组专家级问答对。实验结果表明:ChatGPT-5在主要任务中以61.5%的正确率表现突出,但与金融专家仍存明显差距;在线任务中DeepSeek-R1优于所有其他商用大模型。错误分析进一步揭示了现有模型在金融实际业务场景中的具体能力短板。BizFinBench.v2突破了现有基准的局限性,实现了对LLM金融能力的业务级解构,为评估大模型在金融领域规模化部署的效能提供了精准依据。数据与代码已开源:https://github.com/HiThink-Research/BizFinBench.v2。
单目深度估计旨在从二维图像中恢复三维场景的深度信息。尽管近期研究取得显著进展,但其对大规模数据集和复杂解码器的依赖限制了效率与泛化能力。本文提出一种轻量级且以数据为中心的零样本单目深度估计框架。我们首先采用DINOv3作为视觉编码器以获取高质量稠密特征;其次,针对DPT结构复杂的固有缺陷,设计了基于紧凑型Transformer的解码器——简易深度变换器(SDT)。相较于DPT,该解码器通过单路径特征融合与上采样过程,显著降低跨尺度特征融合的计算开销,在减少约85%-89%参数量的同时实现更高精度。此外,提出基于质量的筛选策略以剔除有害样本,在压缩数据集规模的同时提升整体训练质量。在五个基准数据集上的大量实验表明,本框架在精度上超越DPT。本研究揭示了平衡模型设计与数据质量对于实现高效可泛化零样本深度估计的重要性。代码地址:https://github.com/AIGeeksGroup/AnyDepth。项目网站:https://aigeeksgroup.github.io/AnyDepth。
大型语言模型(LLMs)已在金融领域的多个方面得到广泛应用。由于这类模型的训练数据主要来源于人类撰写的语料库,它们可能继承一系列人类认知偏差。行为偏差会导致决策过程中的不稳定性与不确定性,尤其在处理金融信息时更为明显。然而现有关于LLM偏差的研究主要集中于直接提问或简化的通用场景,对复杂现实金融环境及高风险、语境敏感的多语言金融虚假信息检测任务(\mfmd)的考量较为有限。本研究提出\mfmdscen基准测试框架,旨在系统评估LLMs在不同经济情境下执行\mfmd任务时表现出的行为偏差。通过与金融专家合作,我们构建了三类复杂金融场景:(i)基于角色与人格特质的场景;(ii)基于角色与地域特征的场景;(iii)融合族群与宗教信仰的角色型场景。此外,我们开发了涵盖英语、汉语、希腊语和孟加拉语的多语言金融虚假信息数据集。通过将上述场景与虚假信息声明相结合,\mfscen实现了对22个主流LLMs的系统性评估。研究结果表明,无论是商业模型还是开源模型均存在显著的行为偏差。本项目资源详见https://github.com/lzw108/FMD。
基于大语言模型(LLM)的搜索代理已被证明能通过整合信息检索能力有效解决知识密集型问题。现有研究主要聚焦于优化搜索代理的推理范式,却忽视了推理过程中中间检索查询的质量问题。这导致生成的查询往往存在偏差,引发意外检索结果,最终制约搜索代理的整体效能。为解决该问题,我们提出SmartSearch框架,其核心包含两项机制:(1)过程奖励机制:通过双层级信用评估对每个中间检索查询质量实施细粒度监督;(2)查询优化机制:通过选择性优化低质量检索查询,并基于优化结果重新生成后续搜索轮次,提升查询生成质量。为使搜索代理在过程奖励引导下逐步内化查询质量提升能力,我们设计了三阶段课程学习框架,引导代理经历从模仿、对齐到泛化的渐进过程。实验结果表明,SmartSearch在各项基准测试中均优于现有基线方法,定量分析进一步验证其在搜索效率与查询质量方面的显著提升。代码已开源:https://github.com/MYVAE/SmartSearch。
本研究推出Orient Anything V2,这是一个增强型基础模型,用于从单张或配对图像中统一理解物体的三维朝向与旋转。相较于通过单一独特正面定义朝向的V1版本,V2扩展了能力边界:既能处理具有不同旋转对称性的物体,又能直接估计相对旋转。这一突破得益于四项关键创新:1)利用生成模型合成可扩展的3D资产,确保类别覆盖广度与数据分布均衡性;2)采用高效的模型在环标注系统,鲁棒识别每个物体0到N个有效正面;3)设计对称感知的周期性分布拟合目标,捕捉所有合理正面朝向,精准建模物体旋转对称性;4)构建多帧架构直接预测物体相对旋转。大量实验表明,Orient Anything V2在11个主流基准测试中,于朝向估计、六自由度姿态估计和物体对称性识别任务上均实现零样本状态最优性能。该模型展现出强大泛化能力,显著拓宽了朝向估计在多样化下游任务中的适用边界。
专家混合模型(MoE)已成为扩展大语言模型(LLM)的重要范式。参数高效微调技术(如LoRA)被广泛用于将预训练的MoE大模型适配至下游任务。然而现有方法对所有专家模块采用统一的LoRA秩配置,忽视了MoE模型中专家功能分化的内在特性。这种均质化分配会导致资源错配:任务相关专家容量不足,而次要专家却获得冗余参数。我们提出动态秩LoRA框架DR-LoRA,其能根据任务需求在微调过程中动态调整专家LoRA秩。该框架采用专家显著性评分机制,综合考量专家路由频率与LoRA秩重要性,量化每个专家对扩展容量的需求。具有较高显著性得分的专家将优先进行秩扩展,从而自动形成契合目标任务的异构秩分布。在多基准测试上的实验表明,在相同参数预算下,DR-LoRA持续优于标准LoRA及静态分配策略,通过更高效的参数利用实现了更优的任务性能。
检索增强型大语言模型通过整合外部检索信息,在知识密集型任务中表现卓越。然而,这类模型常出现过度搜索现象——即使检索无助于提升回答质量,仍不必要地调用搜索工具,导致计算效率低下,并因引入无关内容而产生幻觉。本研究从查询类型、模型类别、检索条件及多轮对话等多个维度对过度搜索进行了系统性评估。主要发现包括:(i)检索通常能提升可回答查询的准确率,但会削弱模型对不可回答问题的拒答能力;(ii)过度搜索在复杂推理模型和深度研究系统中更为显著,噪声检索会加剧该现象,且在多轮对话中呈现累积效应;(iii)检索证据的构成至关重要,负面证据的存在能提升模型的拒答性能。为量化过度搜索,我们提出"每正确率消耗令牌数"(TPC)指标,用以衡量检索增强型LLMs性能与成本的平衡关系。最后,我们探索了查询层和检索层的缓解策略,并发布OverSearchQA数据集以促进检索增强型LLMs效率优化的持续研究。
多智能体系统(MAS)已成为构建高性能智能应用的重要范式。在这些系统中,负责确定应由哪些专家智能体处理查询的路由器对整体性能起着关键作用。现有路由策略主要分为两类:性能路由(在不同规模模型间平衡延迟与成本)和任务路由(将查询分配给领域专家以提高准确性)。在实际企业应用中,任务路由更为适用;然而现有方法大多依赖静态单标签决策,这带来两大局限:(i)难以在业务领域扩展时无缝集成新智能体;(ii)因智能体能力重叠导致路由冲突,最终降低准确性与鲁棒性。 为解决这些挑战,我们提出TCAndon路由器(TCAR):一种面向多智能体协作的自适应推理路由器。与传统路由器不同,TCAR支持动态智能体接入,并首先生成自然语言推理链,再预测能够处理查询的候选智能体集合。此外,我们设计了协同执行流水线:被选中的智能体独立生成响应,随后由专用优化智能体进行聚合提炼,形成单一高质量响应。 在公开数据集和企业真实数据上的实验表明,TCAR显著提升了路由准确性,减少路由冲突,并在模糊场景中保持鲁棒性。我们已将TCAR发布至https://huggingface.co/tencent/TCAndon-Router,以支持可解释协同多智能体路由的未来研究。
大型语言模型(LLMs)正越来越多地被部署为能够推理、规划并与环境交互的智能体。为有效适应长周期场景,此类智能体的关键能力在于具备可存储、组织并调用过往经验以支持下游决策的记忆机制。然而现有方法大多以扁平化方式组织存储记忆,并依赖简单的基于相似度的检索技术。即便引入结构化记忆,现有方法仍难以显式捕捉经验或记忆单元间的逻辑关系。此外,记忆访问机制与构建的结构严重脱节,仍停留于浅层语义检索层面,阻碍了智能体对长周期依赖关系进行逻辑推理。本研究提出以事件为中心的记忆框架CompassMem,其设计灵感源自事件分割理论。该框架通过将经验增量式分割为事件单元,并以显式逻辑关系链接形成事件图谱,使记忆系统成为逻辑地图,让智能体能够超越表层检索进行结构化、目标导向的记忆导航,逐步积累有价值记忆以支持长周期推理。在LoCoMo和NarrativeQA数据集上的实验表明,CompassMem在多种骨干模型中持续提升了检索与推理性能。
随着生成模型日益普及,对生成过程进行细粒度控制的需求日益迫切。然而尽管从提示工程到微调的各种受控生成方法层出不穷,一个根本性问题始终悬而未决:这些模型是否真的具备可控性?本研究提出理论框架以系统回答该问题。通过将人机交互建模为控制过程,我们创新性地提出一种估测对话场景中模型可控集的算法。值得注意的是,我们建立了关于样本复杂度函数估计误差的形式化保证:推导出具有概率近似正确性的可控集估计边界,该边界无需分布假设、仅要求输出有界性条件,且适用于任何黑盒非线性控制系统(即任意生成模型)。我们在对话流程控制的多个任务中,针对语言模型和文生图模型进行了理论框架的实证验证。研究结果表明,模型可控性出人意料地脆弱,且高度依赖实验设置。这凸显了进行严格可控性分析的必要性,应将研究重点从单纯尝试控制转向首先理解其根本局限。
人工智能对齐(AI Alignment)包含两大核心问题:一是规范性问题,即明确人工智能系统应如何行动;二是技术性问题,即确保人工智能系统符合这些规范。迄今为止,人工智能对齐研究普遍忽视了一个应对这些问题的重要知识与实践来源——法律。本文旨在通过探索如何运用法律规则、原则及方法来应对对齐问题,并为设计安全合规、符合伦理的人工智能系统提供参考,从而填补这一空白。这一新兴领域——法律对齐——聚焦三个研究方向:(1)设计能够遵循经由合法制度与程序制定的法律规则内容的人工智能系统;(2)借鉴法律解释方法指导人工智能系统的推理与决策过程;(3)运用法律概念作为解决人工智能系统可靠性、信任度与合作性挑战的结构性蓝图。这些研究方向催生了新的概念性、实证性与制度性问题,包括探究特定人工智能系统应遵循的具体法律体系,创建评估其在真实场景中合法合规性的方法,以及构建支持法律对齐实践落地的治理框架。解决这些问题需要融合法学、计算机科学等多学科专业知识,为不同学界提供了共同设计更美好人工智能的合作契机。
针对大型语言模型推理中可验证奖励强化学习的最新进展,始终受限于探索崩溃这一顽固难题。随机推演的语义同质性常使模型陷入狭窄的过优化行为。现有方法虽利用策略熵鼓励探索,却存在固有局限:全局熵正则化易引发奖励破解导致无意义冗长,而局部令牌选择性更新则受制于预训练模型的强归纳偏差。为此,我们提出基于迭代信息瓶颈的潜策略优化方法,将探索机制从令牌分布的统计扰动转向推理轨迹的拓扑分岔。该方案通过高熵状态触发潜空间分岔以多样化推理路径,并运用信息瓶颈原理同时作为轨迹过滤器与自奖励机制,确保探索过程的简洁性与信息量。在四个数学推理基准测试上的实证结果表明,IIB-LPO实现了最先进性能,在准确率上最高超越现有方法5.3%,在多样性指标上领先7.4%。
近期大语言模型(LLM)的重大突破使其成为智能体的理想范式,其中长期规划与决策能力正逐渐成为适应多样化场景与任务的核心通用能力。实时策略(RTS)游戏因其需要宏观战略规划与微观战术调整的双重特性,成为评估这两项能力的理想试验场。然而现有基于RTS游戏的测试环境或存在计算资源要求较高的问题,或缺乏对文本观察的支持,制约了LLM评估的开展。为此,我们推出了TowerMind——一个基于RTS游戏中塔防子类的新型测试环境。该环境在保留RTS游戏核心评估优势的同时,具备低计算开销和多模态观察空间(包括像素级、文本化及结构化游戏状态表征)。此外,TowerMind支持模型幻觉评估并提供高度可定制性。我们设计了五个基准关卡,在不同多模态输入设置下对多种主流LLM进行测试。结果表明,LLM在能力维度与幻觉维度均与人类专家存在明显差距。实验还揭示了LLM行为的三大局限:规划验证不足、决策缺乏多终局性以及行动效率低下。我们还评估了Ape-X DQN和PPO两类经典强化学习算法。通过轻量化多模态设计,TowerMind既弥补了现有RTS测试环境的不足,也为AI智能体领域引入了新基准。项目代码已开源(https://github.com/tb6147877/TowerMind)。
人脸图像质量评估(FIQA)对可靠的人脸识别系统至关重要。现有方法主要仅利用最终层表征,而无训练方法需多次前向传播或反向传播。我们提出ViTNT-FIQA,这是一种无需训练的方法,通过度量视觉Transformer(ViT)中间层间块嵌入演化的稳定性来实现质量评估。我们证明高质量人脸图像在跨模块间呈现稳定的特征优化轨迹,而质量退化图像则表现出不稳定的特征变换。该方法计算连续Transformer模块间L2归一化块嵌入的欧氏距离,并将其聚合为图像级质量分数。我们在具有可控退化等级的质量标注合成数据集上实证验证了这种相关性。与现有无训练方法不同,ViTNT-FIQA仅需单次前向传播,无需反向传播或架构修改。通过对八个基准数据集(LFW、AgeDB-30、CFP-FP、CALFW、Adience、CPLFW、XQLFW、IJB-C)的广泛评估表明,ViTNT-FIQA在保持计算效率、可即时应用于任何预训练ViT人脸识别模型的同时,达到了与最先进方法相竞争的性能水平。
我们提出了一种通过基于文件的记忆系统和智能体控制的工具调用,将瞬时反馈转化为可检索指导原则的框架,以此分摊推理过程中的计算成本。该方法在Rubric Feedback Bench(一种基于量规学习的新型数据集)上进行了评估。实验表明,增强后的大型语言模型能快速达到测试时优化流程的性能水平,同时显著降低推理成本。
实时多模态自动补全技术对数字助手、聊天机器人、设计工具及医疗咨询场景至关重要,这些场景中用户输入往往依赖于共享的视觉上下文。我们提出多模态自动补全任务(MAC),该任务能结合部分输入文本与视觉线索实时预测对话中的后续字符。与传统纯文本自动补全(TAC)不同,MAC将预测基于多模态语境,从而更精准捕捉用户意图。为支持该研究,我们重构MMDialog和ImageChat数据集构建基准测试集。通过对比主流视觉语言模型(VLM)与强文本基线,我们揭示了精度与效率的权衡关系。此外,我们提出路由推荐框架(Router-Suggest),可根据对话上下文动态选择文本模型或VLM,并推出适用于资源受限环境的轻量级变体。该框架相较性能最优VLM实现了2.3至10倍的加速效果。用户研究表明,在多轮对话中VLM在用户满意度方面显著优于文本模型,尤其在节省用户输入成本与提升补全质量方面表现突出。这些发现印证了多模态语境在自动补全中的必要性,为构建更智能、更具用户感知能力的助手指明方向。
非洲拥有全球超过三分之一的语言,却在人工智能研究中代表性不足。我们推出首个多文化问答基准数据集Afri-MCQA,涵盖12个国家的15种非洲语言,包含7500组平行问答对。该基准提供文本与语音双模态的英语-非洲语言平行问答对,全部由母语者创建。基于Afri-MCQA对大语言模型的测试表明,开源模型在不同文化场景中表现欠佳:当使用本土语言或语音进行开放式视觉问答时,准确率接近为零。为评估语言能力,我们设置了控制实验以区分文化知识与语言能力,观察到模型在非洲本土语言与英语的文本及语音处理上存在显著性能差距。这些发现揭示了采用语音优先策略、文化背景预训练及跨语言文化迁移的必要性。为支持非洲语言的多模态AI包容性发展,我们在HuggingFace平台以学术许可或CC BY-NC 4.0协议开源Afri-MCQA数据集(https://huggingface.co/datasets/Atnafu/Afri-MCQA)。
角色设定可视为大型语言模型(LLMs)的行为先验,通常被假定能单调提升专业能力与安全性。然而,其对高风险临床决策的影响尚不明确。我们系统评估了临床LLMs中基于角色的控制机制,探究专业角色(如急诊科医生、护士)和交互风格(果敢型vs谨慎型)如何影响不同模型在医疗任务中的行为表现。通过多维评估框架(涵盖任务准确度、校准度及安全相关风险行为),我们评估了模型在临床分诊和患者安全任务中的表现。研究发现存在系统性、情境依赖性及非单调性效应:医疗角色能提升急危重症护理任务的表现(准确度与校准度最高提升约20%),但在初级诊疗场景中反而导致相当程度的性能下降;交互风格可调节风险倾向与敏感度,但其效果高度依赖模型。尽管LLM聚合评判在安全关键案例中更倾向医疗角色,但人类临床医生对安全合规性的评判一致性仅为中等水平(平均科恩κ系数=0.43),且对其95.9%的推理质量回答表示低置信度。本研究揭示角色设定作为行为先验会引入情境依赖的权衡,而非安全性与专业性的保证。代码详见https://github.com/rsinghlab/Persona_Paradox。