每日精选AI研究论文及翻译
尽管“深度推理”范式在数学等可验证领域推动了显著进展,但其在开放性和创造性生成任务中的应用仍面临重大挑战。当前主流的两种推理培养方法——强化学习(RL)和指令蒸馏——在此领域均显不足:RL因缺乏明确的奖励信号和高质量的奖励模型而受限,而蒸馏法则因成本高昂且受限于教师模型的能力而难以扩展。为突破这些限制,我们提出了逆向工程推理(REER),这一新范式从根本上转变了方法路径。不同于通过试错或模仿正向构建推理过程,REER从已知的优秀解决方案出发,逆向计算发现可能产生这些解决方案的潜在、逐步的深度推理过程。利用这一可扩展、无梯度的策略,我们精心整理并开源了DeepWriting-20K,一个包含20,000条开放性任务深度推理轨迹的大规模数据集。基于此数据训练的DeepWriter-8B模型,不仅超越了强大的开源基线,还在性能上与GPT-4o和Claude 3.5等领先的专有模型相媲美,甚至在某些方面更胜一筹。
大型语言模型(LLMs)的应用范式正日益向代理化方向发展,其中网络浏览能力对于从多样化的在线资源中检索信息至关重要。然而,现有的开源网络代理要么在复杂任务上表现出有限的信息搜索能力,要么缺乏透明的实现机制。在本研究中,我们发现关键挑战在于缺乏具有挑战性的信息搜索数据。为解决这一局限,我们引入了WebExplorer:一种基于模型探索和迭代式、由长到短查询演进的系统性数据生成方法。该方法创建了需要多步推理和复杂网络导航的查询-答案对。通过利用我们精心策划的高质量数据集,我们成功开发了先进的网络代理WebExplorer-8B,该模型通过监督微调后接强化学习训练而成。我们的模型支持128K上下文长度和最多100次工具调用轮次,能够实现长时程问题解决。在多样化的信息搜索基准测试中,WebExplorer-8B在其规模上达到了最先进的性能。值得注意的是,作为一个8B大小的模型,WebExplorer-8B在强化学习训练后平均能有效搜索超过16轮次,在BrowseComp-en/zh上比WebSailor-72B获得了更高的准确率,并在WebWalkerQA和FRAMES上达到了100B参数以下模型中的最佳表现。除了这些信息搜索任务外,我们的模型在HLE基准测试上也展现了强大的泛化能力,尽管它仅在知识密集型QA数据上进行了训练。这些成果凸显了我们的方法作为实现长时程网络代理的实用路径。
我们提出了TraceRL,一种面向扩散语言模型(DLMs)的轨迹感知强化学习框架,该框架将偏好的推理轨迹融入后训练阶段,并适用于多种架构。通过配备一个基于扩散的价值模型以增强训练稳定性,我们在复杂的数学和编码任务上展示了推理性能的提升。此外,该框架还能应用于将特定模块的模型适配至更大模块,从而提升采样的灵活性。运用TraceRL,我们开发了一系列顶尖的扩散语言模型,命名为TraDo。尽管TraDo-4B-Instruct的规模小于7B级别的自回归模型,但在复杂数学推理任务上持续超越它们。TraDo-8B-Instruct在数学推理基准测试中,相较于Qwen2.5-7B-Instruct和Llama3.1-8B-Instruct分别实现了6.1%和51.3%的相对准确率提升。通过课程学习,我们还推出了首个长链思维扩散语言模型,在MATH500上以18.1%的相对准确率优势超越Qwen2.5-7B-Instruct。为了促进可重复研究及实际应用,我们发布了一个全面的开源框架,支持跨多种架构构建、训练和部署扩散大语言模型。该框架集成了加速的KV缓存技术和推理引擎,适用于推理及强化学习,并包含了针对数学、编码及通用任务的各种监督微调与强化学习方法的实现。代码与模型:https://github.com/Gen-Verse/dLLM-RL
大规模视觉基础模型的出现,通过在多样化的自然图像上进行预训练,标志着计算机视觉领域的一次范式转变。然而,这些前沿视觉基础模型在专业领域(如医学影像)中的效能迁移仍是一个悬而未决的问题。本报告探讨了DINOv3——一种在密集预测任务中展现出强大能力的最先进自监督视觉Transformer(ViT)——是否能够直接作为医学视觉任务的强大统一编码器,而无需进行领域特定的预训练。为此,我们在包括2D/3D分类和分割在内的多种医学影像模态上对DINOv3进行了基准测试,并通过调整模型大小和输入图像分辨率系统地分析了其可扩展性。我们的研究结果表明,DINOv3展现了令人印象深刻的性能,并确立了一个新的强大基线。值得注意的是,尽管仅基于自然图像训练,它在多项任务上甚至超越了如BiomedCLIP和CT-Net等医学专用基础模型。然而,我们也识别出明显的局限性:在需要深度领域专业化的场景中,如全切片病理图像(WSIs)、电子显微镜(EM)和正电子发射断层扫描(PET),模型的特征表现会下降。此外,我们观察到DINOv3在医学领域并不总是遵循缩放定律;性能并不随模型增大或特征分辨率提高而稳定提升,不同任务间呈现出多样化的缩放行为。最终,我们的工作确立了DINOv3作为一个强有力的基线,其强大的视觉特征可作为多个复杂医学任务的稳健先验。这为未来研究开辟了有前景的方向,例如利用其特征在3D重建中强制执行多视图一致性。
视觉推理作为人类智能的基石,涵盖了解决多样化视觉问题所必需的复杂感知与逻辑过程。尽管计算机视觉的进步已催生出针对各类感知任务的强大模型,但将其应用于通用视觉推理仍面临挑战。先前研究表明,通过监督微调将视觉模型与大型语言模型(LLMs)结合可提升性能,但存在数据生成成本高、依赖精细数据筛选及泛化能力差等关键局限。为应对这些问题,我们提出ReVPT,旨在通过强化学习增强多模态LLMs在视觉工具使用与推理方面的能力。我们基于GRPO设计了一种新颖的强化学习算法,专门训练模型运用一套包含四种视觉工具的系统。大量实验证明,我们的方法在多个感知密集型基准测试(如SAT、CV-Bench、BLINK和MMStar)上达到了业界领先水平,显著超越了监督学习和基于文本的强化学习微调基线。尤为突出的是,ReVPT-3B和ReVPT-7B在CV-Bench上分别以9.03%和9.44%的优势超越了指导模型。最后,我们通过广泛的消融实验,为社区带来了关于基于强化学习的视觉工具使用的新洞见。我们的代码已发布于https://github.com/ls-kelvin/REVPT。
深度研究系统,即通过协调推理、在开放网络和用户文件中进行搜索以及工具使用来解决复杂多步骤任务的自主AI,正朝着包含规划器、协调器和执行器的分层部署方向发展。实际上,端到端训练整个系统栈仍不切实际,因此大多数工作仅训练一个与核心工具(如搜索、浏览和代码)相连的单一规划器。虽然监督微调(SFT)确保了协议的一致性,但它存在模仿和暴露偏差,且未能充分利用环境反馈。偏好对齐方法如DPO依赖于模式和代理,属于离策略方法,在长期信用分配和多目标权衡方面表现较弱。SFT和DPO的另一个局限在于它们通过模式设计和标注比较依赖于人类定义的决策点和子技能。强化学习通过优化轨迹级策略,与闭环工具交互研究相契合,支持探索、恢复行为和原则性信用分配,并减少了对此类人类先验和评分者偏差的依赖。 据我们所知,本综述是首篇专注于深度研究系统强化学习基础的研究。它沿着三个轴系统化梳理了DeepSeek-R1之后的工作:(i)数据合成与整理;(ii)涵盖稳定性、样本效率、长上下文处理、奖励与信用设计、多目标优化及多模态集成的自主研究RL方法;以及(iii)自主RL训练系统与框架。我们还探讨了代理架构与协调,以及评估与基准测试,包括近期的问答(QA)、视觉问答(VQA)、长篇合成及领域基础、工具交互任务。我们提炼了重复出现的模式,揭示了基础设施瓶颈,并为使用RL训练稳健、透明的深度研究代理提供了实用指导。
多任务学习(MTL)通常通过合并数据集后进行微调来实现,但随着微调模型的日益普及,出现了诸如通过任务算术进行模型融合的新方法。在此背景下,一个主要挑战是任务干扰,随着任务数量的增加,这一问题会加剧。我们提出了一种方法,将针对不同任务训练的模型合并为一个单一模型,确保在所有任务上均保持强劲性能。我们的方法利用Jensen-Shannon散度来指导融合过程,无需额外标注数据,并能自动平衡任务重要性。与现有方法不同,我们的方法在任务数量增加时仍保持稳健,并持续超越先前的工作。
我们推出Paper2Agent,一个将研究论文自动转化为AI代理的框架。Paper2Agent将研究成果从被动的人工制品转变为能加速下游应用、采纳与发现的主动系统。传统研究论文要求读者投入大量精力去理解并调整论文中的代码、数据及方法以适应自身工作,这为传播与重用设置了障碍。Paper2Agent通过自动将论文转化为一个知识渊博的研究助手型AI代理,解决了这一难题。它利用多个代理系统分析论文及其关联代码库,构建模型上下文协议(MCP)服务器,随后迭代生成并运行测试以精炼和强化最终的MCP。这些论文MCP可灵活连接至聊天代理(如Claude Code),通过自然语言执行复杂的科学查询,同时调用原论文中的工具和工作流。我们通过深入案例研究展示了Paper2Agent在创建可靠且能力强的论文代理方面的有效性。Paper2Agent创建了一个利用AlphaGenome解读基因组变异的代理,以及基于ScanPy和TISSUE执行单细胞和空间转录组学分析的代理。我们验证了这些论文代理能够复现原论文结果,并能正确执行用户的新查询。通过将静态论文转变为动态、交互式的AI代理,Paper2Agent引入了一种新的知识传播范式,并为AI协作科学家生态系统奠定了基础。
视觉-语言模型(VLMs)在多种视觉任务中展现了显著的成功,然而在复杂视觉环境下的性能却有所下降。现有的增强方法通常需要额外训练、依赖外部分割工具或在粗粒度层面操作,却忽视了VLMs内在的能力。为填补这一空白,我们研究了VLMs的注意力模式,发现:(1)视觉复杂度与注意力熵强相关,对推理性能产生负面影响;(2)注意力从浅层的全局扫描逐步细化至深层的聚焦收敛,收敛程度由视觉复杂度决定;(3)理论上,我们证明了通用查询与任务特定查询间注意力图的对比,能够将视觉信号分解为语义信号和视觉噪声成分。基于这些洞见,我们提出了对比注意力精炼视觉增强方法(CARVE),这是一种无需训练的方法,通过在像素级别进行注意力对比提取任务相关的视觉信号。大量实验表明,CARVE持续提升性能,在开源模型上实现了高达75%的改进。我们的工作为视觉复杂度与注意力机制之间的相互作用提供了关键见解,为通过对比注意力提升视觉推理提供了一条高效路径。
近期,统一的多模态理解与生成模型在图像生成能力上取得了显著进步,然而在指令遵循和细节保留方面,与如GPT-4o等将理解与生成紧密耦合的系统相比,仍存在较大差距。受交错推理最新进展的启发,我们探索了此类推理能否进一步提升文本到图像(T2I)生成的效果。我们提出了交错推理生成(Interleaving Reasoning Generation, IRG)框架,该框架在基于文本的思考与图像合成之间交替进行:模型首先生成基于文本的思考以指导初始图像的生成,随后对结果进行反思,以精炼细粒度细节、视觉质量和美学表现,同时保持语义一致性。为了有效训练IRG,我们提出了交错推理生成学习(Interleaving Reasoning Generation Learning, IRGL),其目标包括两个子任务:(1) 强化初始的“思考-生成”阶段,以确立核心内容与基础质量;(2) 实现高质量的文本反思,并在后续图像中忠实执行这些优化。我们构建了IRGL-300K数据集,该数据集被组织成六种分解的学习模式,共同覆盖了基于文本的思考学习以及完整的思考-图像轨迹学习。从一个原生支持交错文本-图像输出的统一基础模型出发,我们的两阶段训练首先构建了稳健的思考与反思能力,随后在完整的思考-图像轨迹数据上高效微调了IRG流程。大量实验展示了其达到的顶尖性能,在GenEval、WISE、TIIF、GenAI-Bench和OneIG-EN等基准上实现了5至10个百分点的绝对提升,同时在视觉质量和细粒度保真度方面也取得了显著改善。代码、模型权重及数据集将发布于:https://github.com/Osilly/Interleaving-Reasoning-Generation。
我们推出了UniVerse-1,这是一个类似于Veo-3的统一模型,能够同时生成协调的音频和视频。为了提高训练效率,我们跳过了从头训练的过程,转而采用了专家拼接(SoE)技术。该方法深度融合了预训练的视频和音乐生成专家模型的对应模块,从而充分利用了它们的基础能力。为了确保环境音和语音与视频内容的准确标注和时间对齐,我们开发了一个在线标注流程,该流程在训练过程中处理所需的训练数据并生成标签。这一策略避免了因基于文本的标注错位而导致的性能下降。通过这些技术的协同作用,我们的模型在经过约7,600小时的音视频数据微调后,在环境音生成方面产生了音视频协调良好的结果,在语音生成方面也表现出强大的对齐能力。为了系统评估我们提出的方法,我们引入了Verse-Bench,这是一个新的基准数据集。为了推动音视频生成领域的研究,并缩小与Veo3等最先进模型的性能差距,我们公开了我们的模型和代码。我们希望这一贡献能够惠及更广泛的研究社区。项目页面:https://dorniwang.github.io/UniVerse-1/。
文本到图像(T2I)生成旨在根据文本提示合成图像,这些提示共同指定了必须展示的内容并暗示了可推断的信息,从而对应着两项核心能力:组合与推理。然而,随着T2I模型在超越组合的推理能力上取得的新进展,现有基准测试在全面评估这些能力之间及内部方面显示出明显局限。同时,这些进步也使模型能够处理更复杂的提示,而当前的基准测试仍局限于低场景密度和简化的一对一推理。为应对这些局限,我们提出了T2I-CoReBench,一个全面且复杂的基准测试,用于评估T2I模型的组合与推理能力。为确保全面性,我们围绕场景图元素(实例、属性和关系)构建组合评估,并基于哲学推理框架(演绎、归纳和溯因)构建推理评估,形成12维评估分类体系。为提升复杂性,受现实世界场景内在复杂性的驱动,我们精心设计每个提示,使其在组合方面具有高密度,在推理方面涉及多步推断。此外,我们为每个提示配备了一份检查清单,列出独立的“是/否”问题,以独立评估每个预期元素,从而支持细粒度且可靠的评估。统计上,我们的基准测试包含1,080个挑战性提示及约13,500个检查清单问题。对27个当前T2I模型的实验表明,在复杂高密度场景中,它们的组合能力仍显不足,而推理能力作为关键瓶颈更为滞后,所有模型在从提示中推断隐含元素时均面临困难。项目页面:https://t2i-corebench.github.io/。
将大型语言模型(LLMs)整合到自动定理证明中已展现出巨大潜力,但其发展从根本上受限于训练阶段的强化学习(RL)和推理阶段计算资源的双重扩展难题。本文介绍了BFS-Prover-V2系统,旨在解决这一双重扩展问题。我们提出了两项主要创新。首先,是一种新颖的多轮次离策略RL框架,用于在训练期间持续提升LLM步骤证明器的性能。该框架借鉴了AlphaZero的原理,采用多阶段专家迭代流程,结合自适应策略级数据过滤与定期重训练,以突破通常限制基于LLM的智能体长期RL性能的瓶颈。其次,是一种规划增强的多智能体搜索架构,用于在推理时扩展推理能力。此架构利用通用推理模型作为高层规划器,迭代地将复杂定理分解为一系列更简单的子目标。这种分层方法显著缩小了搜索空间,使得一组并行证明智能体能够通过共享证明缓存高效协作。我们证明,这种双重扩展方法在形式数学基准测试中取得了最先进的成果。BFS-Prover-V2在MiniF2F和ProofNet测试集上分别达到了95.08%和41.4%的准确率。尽管本工作以形式数学领域为展示平台,但所提出的RL与推理技术具有更广泛的适用性,可应用于其他需要长程多轮次推理和复杂搜索的领域。
为大型语言模型(LLMs)配备复杂的交错推理与工具使用能力,已成为智能体AI研究的一个关键焦点,尤其是在推理导向型(“思考”)模型取得最新进展的背景下。这些能力对于解锁一系列重要应用至关重要。其中一项应用便是深度研究(DR),它要求对众多来源进行广泛的搜索与推理。本文的工作聚焦于开发具备最小化网络爬取与Python工具集成的原生自主单智能体模型,以应对DR任务。与多智能体系统中智能体承担预设角色、在静态工作流程中按部就班执行指令不同,自主单智能体能够根据上下文动态决定其下一步行动,无需人工指导。尽管先前的研究已提出了针对基础或指令调优LLMs的训练方案,我们则专注于通过持续强化学习(RL)进一步优化推理模型,以增强智能体技能的同时保持其推理能力。为此,我们提出了一种完全基于合成数据的简单RL方案,并将其应用于多种开源LLMs。我们最佳变体SFR-DR-20B在“人类终极考试”基准测试中取得了高达28.7%的成绩。此外,我们还进行了关键分析实验,以深入理解我们的方法论。
测试时扩展通过允许模型生成更长的推理链,增加了推理阶段的计算量,并在多个领域展现了强劲的性能。然而,本研究揭示,对于知识密集型任务而言,这一方法尚未显现出同等效力,此类任务对事实准确性和低幻觉率有着极高要求。我们利用12个推理模型在两个知识密集型基准上进行了全面的测试时扩展评估。结果表明,增加测试时的计算量并不能持续提升准确率,反而在许多情况下加剧了幻觉现象。随后,我们深入分析了延长推理如何影响幻觉行为,发现幻觉减少往往源于模型在深入思考后选择放弃作答,而非事实回忆能力的提升。相反,对于某些模型,更长的推理过程会促使其尝试回答之前未解的问题,其中不少导致了幻觉的产生。案例分析显示,延长的推理可能诱发确认偏误,导致过度自信的幻觉。尽管存在这些局限,我们观察到,相较于不进行思考,启用思考机制仍具优势。代码与数据已公开于https://github.com/XuZhao0/tts-knowledge。
大型语言模型(LLMs)在各类应用中的集成,催生了对结构化且可靠响应的需求。检索增强生成(RAG)系统面临的一个关键挑战是确保输出符合预期格式,同时最大限度地减少幻觉现象。本研究探讨了引导解码在RAG系统中的作用,通过对比三种方法——大纲法、XGrammar法和LM格式强制法——在不同多轮提示设置(零轮、一轮和两轮)下的表现,评估了成功率、幻觉率及输出质量,从而深入理解其性能与适用性。我们的发现揭示了多轮交互如何影响引导解码,揭示了意料之外的性能差异,这些差异可为特定用例的方法选择提供依据。本研究推进了对RAG系统中结构化输出生成的理解,为LLM的部署提供了理论洞见与实践指导。
网络迷因中的黑色幽默因其依赖隐含、敏感且具文化背景的线索而带来独特挑战。针对多模态内容中黑色幽默检测资源与方法的匮乏,我们引入了一个新颖的数据集,包含4,379个Reddit迷因,标注了黑色幽默、目标类别(性别、心理健康、暴力、种族、残疾及其他)以及三级强度评分(轻度、中度、重度)。基于此资源,我们提出了一种推理增强框架,该框架首先利用大型视觉-语言模型(VLM)为每个迷因生成结构化解释。通过角色反转自循环机制,VLM从作者视角出发,迭代优化其解释,确保完整性与一致性。随后,我们通过文本编码器从OCR转录文本及自我优化的推理中提取文本特征,同时使用视觉变换器获取视觉特征。三流交叉推理网络(TCRNet)通过成对注意力机制融合文本、图像及推理这三股信息流,生成统一表示用于分类。实验结果表明,我们的方法在黑色幽默检测、目标识别及强度预测三项任务上均优于强基线。数据集、标注及代码已公开,以促进多模态幽默理解与内容审核领域的进一步研究。代码与数据集获取地址: https://github.com/Sai-Kartheek-Reddy/D-Humor-Dark-Humor-Understanding-via-Multimodal-Open-ended-Reasoning
我们推出Llama-GENBA-10B,这是一款针对大型语言模型中英语中心偏见的三种语言基础模型。该模型基于Llama 3.1-8B构建,并扩展至100亿参数,通过持续预训练1640亿个token(其中820亿为英语,820亿为德语,8000万为巴伐利亚语),在资源分配上实现平衡,避免英语主导。Llama-GENBA-10B主要面向德语自然语言处理社区,同时推动巴伐利亚语作为低资源语言的发展。开发过程中克服了四大挑战:(1) 在巴伐利亚语资源稀缺的情况下构建多语言语料库,(2) 创建适用于英语、德语和巴伐利亚语的统一分词器,(3) 优化架构及语言比例超参数以促进跨语言迁移,(4) 通过将德语基准翻译成巴伐利亚语,建立首个标准化的三语评估套件。评估结果显示,Llama-GENBA-10B展现出强劲的跨语言性能,其微调版本在巴伐利亚语上超越Apertus-8B-2509和gemma-2-9b,成为该语言类别中的最佳模型,同时在英语上优于EuroLLM,在德语上与之持平。在Cerebras CS-2上的训练展示了高效的大规模多语言预训练,并记录了能源使用情况,为整合低资源语言的包容性基础模型提供了蓝图。
基于拖拽的图像编辑已成为一种强大的直观图像处理范式。然而,现有方法主要依赖于生成模型的潜在空间操作,导致精度受限、反馈延迟以及模型特定约束。为此,我们提出了Inpaint4Drag,一个将拖拽编辑分解为像素空间双向扭曲与图像修复的新颖框架。受物理世界中弹性物体变形的启发,我们将图像区域视为可变形材料,在用户操作下保持自然形态。我们的方法在512x512分辨率下实现了实时扭曲预览(0.01秒)和高效修复(0.3秒),相比现有方法每次编辑需耗时数分钟,显著提升了交互体验。通过将拖拽输入直接转换为标准修复格式,我们的方法无需修改架构即可作为任何修复模型的通用适配器,自动继承修复技术未来的所有进步。大量实验证明,我们的方法在保持实时性能的同时,实现了卓越的视觉质量和精确控制。项目页面:https://visual-ai.github.io/inpaint4drag/
在本立场文件中,我们探讨了人工智能能力飞速增长与安全进展滞后之间持续存在的鸿沟。现有范式分为“使AI安全”,即事后应用对齐和防护措施,但这种方法脆弱且被动;以及“制造安全AI”,强调内在安全性,却难以应对开放环境中不可预见的风险。因此,我们提出“协同进化安全”作为“制造安全AI”范式的新构想,灵感源自生物免疫系统,将安全视为一个动态、对抗且持续的学习过程。为实现这一愿景,我们引入R^2AI——抗性与韧性AI——作为一个实用框架,它结合了对已知威胁的抵抗力和对未知风险的适应力。R^2AI整合了快速与慢速安全模型,通过安全风洞进行对抗模拟与验证,以及引导安全与能力协同进化的持续反馈循环。我们认为,该框架为在动态环境中维持持续安全提供了一条可扩展且主动的路径,既解决了近期的脆弱性问题,也应对了AI向通用人工智能(AGI)和超级智能(ASI)迈进过程中的长期生存风险。
视觉-语言-动作(VLA)模型是实现通用型具身智能体的有前景途径,这类智能体能够快速适应新任务、新模态和新环境。然而,当前用于解释和引导VLA模型的方法远不及传统机器人技术流程,后者基于明确的运动学、动力学和控制模型。这种机制性理解的缺失,是将在学习策略部署于现实世界机器人应用中的核心挑战,因为在这些场景中,鲁棒性和可解释性至关重要。受大语言模型机制可解释性进展的启发,我们首次提出了通过内部表示来解读和引导VLA模型的框架,使得在推理时能够直接干预模型行为。我们将Transformer层中的前馈激活投影到词嵌入基上,识别出与动作选择因果关联的稀疏语义方向——如速度和方向。基于这些发现,我们引入了一种通用的激活引导方法,无需微调、奖励信号或环境交互,即可实时调节行为。我们在两个最新的开源VLA模型Pi0和OpenVLA上评估了该方法,并在仿真环境(LIBERO)和物理机器人(UR5)上展示了零样本行为控制能力。本研究表明,具身VLA模型的可解释组件能够被系统地用于控制,为机器人学中透明且可引导的基础模型确立了新范式。
为提高GUI代理在智能手机和计算机等多种平台上的效率,一种融合灵活GUI操作与高效快捷方式(如API、深度链接)的混合范式正成为颇具前景的研究方向。然而,系统性地对这些混合代理进行基准测试的框架仍显不足。为填补这一空白迈出第一步,我们推出了MAS-Bench,这一基准测试工具开创性地专注于移动领域,评估GUI与快捷方式混合代理的性能。MAS-Bench不仅限于使用预定义的快捷方式,还评估代理通过发现并创建可复用、低成本的工作流来自主生成快捷方式的能力。它涵盖了11个真实应用中的139项复杂任务,包含88个预定义快捷方式(API、深度链接、RPA脚本)的知识库,以及7项评估指标。这些任务设计为仅通过GUI操作即可完成,但通过智能嵌入快捷方式可大幅加速完成过程。实验表明,混合代理相较于仅依赖GUI的代理,在成功率和效率上均有显著提升。这一结果也验证了我们评估代理快捷方式生成能力方法的有效性。MAS-Bench填补了关键评估空白,为未来开发更高效、更稳健的智能代理提供了基础平台。
诸如CLIP等视觉-语言模型(VLMs)已在多种应用中展现出卓越的零样本与小样本学习能力。然而,由于依赖提示工程及全模型微调的高昂成本,将这些模型适配至新的细粒度领域仍具挑战。现有适配方法多依赖于增强组件,如提示令牌与适配器模块,这可能会限制适配质量、导致模型不稳定,并损害预训练期间习得的丰富知识。本研究提出CLIP-SVD,一种新颖的多模态且参数高效的适配技术,它利用奇异值分解(SVD)在不引入额外模块的情况下调整CLIP内部参数空间。具体而言,我们仅微调CLIP参数矩阵的奇异值,以重新缩放基向量实现领域适配,同时保留预训练模型。这一设计使得仅使用模型总参数的0.04%即可提升适配性能,并更好地保持其泛化能力。CLIP-SVD在11个自然数据集和10个生物医学数据集上取得了最先进的分类结果,在少样本设置下的准确率与泛化能力均超越先前方法。此外,我们采用基于自然语言的方法分析CLIP适配的有效性与动态过程,从而增强CLIP-SVD的可解释性。代码已公开于https://github.com/HealthX-Lab/CLIP-SVD。
高质量、逻辑严谨的数据稀缺,已成为提升大型语言模型(LLMs)数学推理能力的关键瓶颈。针对这一挑战,我们的研究将数十年的自动定理证明成果转化为可扩展的数据引擎。不同于依赖易出错的LLMs或如Lean和Isabelle等复杂的证明辅助语法,我们的框架利用E-prover在庞大的TPTP公理库上的饱和能力,生成了一个规模巨大且保证有效的定理语料库。我们的流程原则明确且简洁:饱和公理,筛选“有趣”定理,并生成任务。通过完全排除LLMs的参与,我们从构造上避免了事实错误。随后,这一纯符号数据被转化为三个难度可控的挑战:蕴含验证、前提选择及证明重构。在顶尖模型上的零样本实验揭示了一个明显弱点:在需要深度、结构化推理的任务上,性能急剧下降。我们的框架不仅提供了衡量这一差距的诊断工具,还提供了一个可扩展的符号训练数据源以弥补这一不足。我们公开了代码与数据集。 https://github.com/sileod/reasoning_core https://hf.co/datasets/reasoning-core/rc1
LiDAR点云配准是机器人感知与导航的基础。然而,在几何退化或狭窄的环境中,配准问题会变得病态,导致解的不稳定性和精度下降。尽管现有方法尝试解决这些问题,但未能触及核心挑战:准确检测、解释并化解这种病态性,从而造成漏检或解的质量受损。本研究提出了DCReg,一个通过三项集成创新系统性应对病态配准问题的原则性框架。首先,DCReg采用Hessian矩阵的Schur补分解,实现了可靠的病态性检测。该技术将配准问题解耦为纯净的旋转和平移子空间,消除了传统分析中掩盖退化模式的耦合效应。其次,在这些纯净子空间内,我们开发了定量表征技术,建立了数学特征空间与物理运动方向之间的显式映射,为哪些具体运动缺乏约束提供了可操作的见解。最后,利用这一纯净子空间,我们设计了一种针对性缓解策略:一种新颖的预处理器,它仅选择性地稳定已识别的病态方向,同时保留观测空间中所有良好约束的信息。这通过仅需一个物理可解释参数的预条件共轭梯度法,实现了高效且鲁棒的优化。大量实验表明,DCReg在多种环境下相比最先进方法,定位精度至少提升了20%-50%,速度提升了5至100倍。我们的实现代码将发布于https://github.com/JokerJohn/DCReg。