每日精选AI研究论文及翻译
我们推出InternVL3,这是InternVL系列中的一项重大进展,采用了一种原生多模态预训练范式。与将纯文本大语言模型(LLM)改造为支持视觉输入的多模态大语言模型(MLLM)不同,InternVL3在单一预训练阶段,从多样化的多模态数据和纯文本语料库中同时习得多模态与语言能力。这一统一的训练范式有效解决了传统MLLM后训练流程中常见的复杂性和对齐难题。为进一步提升性能和可扩展性,InternVL3引入了可变视觉位置编码(V2PE)以支持扩展的多模态上下文,采用了包括监督微调(SFT)和混合偏好优化(MPO)在内的先进后训练技术,并实施了测试时扩展策略及优化的训练基础设施。广泛的实证评估表明,InternVL3在多种多模态任务上均展现出卓越性能。特别地,InternVL3-78B在MMMU基准测试中取得了72.2分,创下了开源MLLM的新纪录。其能力与包括ChatGPT-4o、Claude 3.5 Sonnet和Gemini 2.5 Pro在内的领先专有模型保持高度竞争力,同时保持了强大的纯语言处理能力。秉承开放科学原则,我们将公开训练数据和模型权重,以促进下一代MLLM的进一步研究与开发。
DeepSeek R1与QwQ 32B的突破性进展,成功打破了在家庭设备上运行前沿大语言模型(LLMs)的性能瓶颈。尽管消费级硬件日益强大,模型量化技术不断进步,现有的终端解决方案仍依赖于GPU集群、大容量RAM/VRAM及高带宽,远超普通家庭集群的承载能力。本文介绍了prima.cpp,一个分布式推理系统,它能在日常家庭设备上运行70B规模模型,结合CPU/GPU、低RAM/VRAM、Wi-Fi及跨平台支持。该系统利用mmap管理模型权重,并引入带预取的管道环并行机制以隐藏磁盘加载。通过建模计算、通信、磁盘、内存(及其管理行为)及操作系统的异构性,prima.cpp将模型层最优分配给每台设备的CPU和GPU,进一步降低token延迟。为解决这一NP难分配问题,提出了一种优雅的算法——Halda。我们在一个常见的四节点家庭集群上评估了prima.cpp,其在30B+模型上的表现优于llama.cpp、exo和dllama,同时将内存压力控制在6%以下。这使得Llama 3、DeepSeek R1、Qwen 2.5及QwQ等前沿30B-70B模型得以进入家庭助手,真正让先进AI技术触手可及。代码已开源,访问地址为https://github.com/Lizonghang/prima.cpp。
OpenAI的多模态GPT-4o在图像生成与编辑方面展现了卓越能力,但其实现基于世界知识的语义合成——即无缝整合领域知识、上下文推理与指令遵循——的能力尚未得到证实。本研究从三个关键维度系统评估了这些能力:(1)全局指令遵循,(2)细粒度编辑精度,以及(3)生成后推理。尽管现有基准测试凸显了GPT-4o在图像生成与编辑上的强大性能,我们的评估却揭示了GPT-4o的持续局限:该模型常倾向于对指令进行字面解读,知识约束的应用不一致,且在条件推理任务上表现挣扎。这些发现挑战了关于GPT-4o统一理解与生成能力的普遍假设,暴露了其在动态知识整合上的显著不足。本研究呼吁开发超越表面一致性的更强健基准与训练策略,强调基于上下文感知与推理的多模态生成。
近期,诸如GPT-o1和DeepSeek-R1等慢思考系统通过显式反思在解决复杂问题上展现了巨大潜力。在各类数学与科学基准测试中,它们显著超越了包括GPT-4o在内的最佳快思考模型。然而,这些系统在多模态推理能力上仍与快思考模型持平。例如,GPT-o1在MathVista、MathVerse和MathVision等基准上的表现与快思考模型相近。本文旨在通过强化学习(不依赖蒸馏技术)提升视觉语言模型的慢思考能力,以推动技术前沿。首先,我们采用GRPO算法并引入一种名为选择性样本重放(SSR)的新技术,以应对优势消失问题。尽管此方法带来了强劲性能,但由此训练出的强化学习模型在自我反思或自我验证方面表现有限。为进一步促进慢思考,我们提出了强制再思考机制,即在强化学习训练的初始阶段末尾附加文本再思考触发器,明确强制执行自我反思推理步骤。结合这两种技术,我们的模型VL-Rethinker在MathVista、MathVerse和MathVision上分别达到了80.3%、61.8%和43.9%的最新高分。此外,VL-Rethinker还在MMMU-Pro、EMMA和MEGA-Bench等多学科基准测试中实现了开源领域的最优成绩,缩小了与GPT-o1的差距。
我们推出了FUSION,一个采用全视觉-语言对齐与整合范式的多模态大语言模型(MLLMs)家族。与现有方法主要依赖大语言模型解码阶段的后期模态交互不同,我们的方法在整个处理流程中实现了深度、动态的整合。为此,我们提出了文本引导的统一视觉编码,在视觉编码中融入文本信息,达到像素级别的整合。我们进一步设计了上下文感知的递归对齐解码,在解码过程中根据文本上下文递归聚合视觉特征,实现细粒度、问题级别的语义整合。为了指导特征映射并缓解模态差异,我们开发了双重监督的语义映射损失。此外,通过一种新的数据合成方法,我们构建了一个合成语言驱动的问答(QA)数据集,优先考虑高质量的问答对以优化文本引导的特征整合。基于这些基础,我们训练了两种规模的FUSION模型——3B和8B,并展示了我们的全模态整合方法仅使用630个视觉标记就显著超越了现有方法。值得注意的是,FUSION 3B在大多数基准测试上超越了Cambrian-1 8B和Florence-VL 8B。即使在仅限300个视觉标记的情况下,FUSION 3B仍持续优于Cambrian-1 8B。我们的消融研究表明,在相同配置下,FUSION在超过半数的基准测试上优于LLaVA-NeXT,无需动态分辨率,凸显了我们方法的有效性。我们公开了代码、模型权重及数据集。https://github.com/starriver030515/FUSION
生成高质量代码以解决复杂编程任务颇具挑战性,尤其是在当前基于解码器的模型产生高度随机输出的情况下。在代码生成过程中,即便是细微的错误也可能导致整个解决方案失效。利用多个采样解决方案可以显著提升整体输出质量。 一种有效提升代码生成质量的方法是将代码生成模型与重排序模型相结合,后者从生成的样本中选出最佳解决方案。我们提出了一种新颖的迭代自训练方法,采用近端策略优化(PPO)来自训练重排序模型,旨在提高重排序准确性和整体代码生成过程。与传统的PPO方法不同,后者侧重于通过奖励模型优化生成模型,我们的方法则强调开发一个稳健的奖励/重排序模型。该模型通过重排序提升生成代码的质量,并解决在PPO与重排序器对齐过程中奖励模型可能忽略的问题和错误。我们的方法通过重新评估输出、识别高分的负面示例并将其纳入训练循环,迭代地优化训练数据集,从而提升模型性能。 在MultiPL-E数据集上的评估显示,我们的13.4B参数模型在代码生成质量上超越了33B模型,且速度提高了三倍。此外,它在性能上可与GPT-4媲美,并在一种编程语言上超越了GPT-4。
在多模态大语言模型(MLLMs)中,长上下文视频理解面临一个关键挑战:如何在计算效率与保留细粒度时空模式之间取得平衡。现有方法(如稀疏采样、低分辨率密集采样和令牌压缩)在时间动态、空间细节或微妙交互方面存在显著信息丢失,特别是在具有复杂运动或变化分辨率的视频中。为解决这一问题,我们提出了Mavors,一个新颖的框架,引入多粒度视频表示以实现整体长视频建模。具体而言,Mavors通过两个核心组件直接编码原始视频内容为潜在表示:1)一个内部块视觉编码器(IVE),通过3D卷积和视觉变换器保留高分辨率空间特征;2)一个跨块特征聚合器(IFA),使用基于变换器的依赖建模和块级旋转位置编码建立跨块的时间连贯性。此外,该框架通过子图像分解将图像视为单帧视频,统一了图像和视频理解。在多个基准测试中的实验表明,Mavors在保持空间保真度和时间连续性方面具有显著优势,在需要细粒度时空推理的任务中显著优于现有方法。
网络代理使用户能够通过自然语言交互在网页浏览器上执行任务。评估网络代理的执行轨迹是一个重要课题,因为它帮助我们判断代理是否成功完成了任务。基于规则的方法被广泛用于此目的,但它们难以扩展到新任务,且可能无法始终识别成功的轨迹。虽然通过人工评估可能获得更高的准确性,但这一过程会显著更慢且成本更高。利用大语言模型(LLMs)进行自动评估,可以避免设计新规则和手动标注轨迹的挑战,实现更快且成本效益更高的评估。然而,它们在评估网络代理方面的有效性尚不明确。为此,我们提出了AgentRewardBench,这是首个用于评估LLM作为网络代理评估者有效性的基准。AgentRewardBench包含来自5个基准测试和4个LLM的1302条轨迹。每条轨迹均由专家审核,专家回答关于代理成功与否、副作用及重复性的问题。利用我们的基准,我们评估了12个LLM评估者,发现没有单一LLM在所有基准测试中表现优异。我们还发现,常用基准测试采用的基于规则的评估往往低估了网络代理的成功率,这揭示了基于规则评估的一个关键弱点,以及开发更灵活自动评估方法的必要性。我们已将该基准发布于:https://agent-reward-bench.github.io。
我们推出S1-Bench,这一新颖基准旨在评估大型推理模型(LRMs)在偏向直觉系统1思维而非深思熟虑系统2推理的简单任务上的表现。尽管LRMs通过显式的思维链在复杂推理任务中取得了重大突破,但它们对深度分析思维的依赖可能限制了其系统1思维的能力。此外,目前尚缺乏专门评估LRMs在需要此类能力的任务中表现的基准。为填补这一空白,S1-Bench提供了一套跨多个领域和语言的简单、多样且自然清晰的问题集,专门设计用于评估LRMs在此类任务中的表现。我们对22个LRMs的全面评估揭示了显著的效率低下趋势,其输出平均长度是传统小型LLMs的15.5倍。此外,LRMs往往早期识别出正确答案,却继续进行不必要的深思熟虑,部分模型甚至产生大量错误。这些发现凸显了当前LRMs僵化的推理模式,并强调了在实现能够根据任务复杂性适当调整的平衡双系统思维能力方面,仍需进行大量开发工作。
近期,基于强化学习(RL)的后训练方法取得了显著进展,特别是在提升大语言模型(LLMs)处理复杂任务的推理能力方面。然而,现有方法大多将训练数据视为一个整体,忽视了现代LLM训练通常涉及来自不同分布的数据混合——这些数据在来源和难度上均存在差异。这种异质性引入了一个关键挑战:如何自适应地安排跨分布的训练以优化学习效率。本文提出了一种基于分布级可学习性概念的课程学习框架。我们的核心见解是,策略优势的大小反映了模型在特定分布上进一步训练所能获得的收益。基于此,我们为基于RL的LLM后训练设计了一个分布级课程学习框架,该框架利用上置信界(UCB)原理动态调整不同分布的采样概率。该方法优先考虑具有高平均优势(利用)或低样本计数(探索)的分布,从而产生一个自适应且理论依据充分的训练计划。我们以GRPO作为底层RL算法实例化了这一课程学习框架,并在多难度和多来源的逻辑推理数据集上验证了其有效性。实验结果表明,我们的框架显著提高了收敛速度和最终性能,凸显了分布感知课程策略在LLM后训练中的价值。代码:https://github.com/ZhentingWang/DUMP。
图像表示通常通过孤立、任务特定的评估协议进行评价,导致对模型能力的理解碎片化。例如,一个擅长图像聚类的图像嵌入模型是否同样擅长根据文本检索相关图像,这一点尚不明确。我们引入了大规模图像嵌入基准(MIEB),以评估图像及图像-文本嵌入模型在迄今为止最广泛领域内的表现。MIEB横跨38种语言,涵盖130项独立任务,并将其归纳为8个高级类别。我们在基准上测试了50个模型,发现没有单一方法能在所有任务类别中占据主导地位。我们揭示了先进视觉模型的潜在能力,如它们对文本的精确视觉表示,以及在存在干扰因素时交织编码及匹配图像与文本方面的能力仍有限。我们还展示了视觉编码器在MIEB上的表现与其在多模态大语言模型中的应用表现高度相关。我们的代码、数据集及排行榜已公开于https://github.com/embeddings-benchmark/mteb。
社会仿真正通过模拟虚拟个体与其环境之间的互动来建模人类行为,从而革新传统社会科学研究。随着大语言模型(LLMs)的最新进展,这一方法在捕捉个体差异和预测群体行为方面展现出日益增长的潜力。然而,现有方法在环境、目标用户、互动机制及行为模式等方面面临对齐挑战。为此,我们提出了SocioVerse,一个基于LLM智能体的社会仿真世界模型。我们的框架包含四个强大的对齐组件和一个包含1000万真实个体的用户池。为验证其有效性,我们在政治、新闻和经济三个不同领域进行了大规模仿真实验。结果表明,SocioVerse能够反映大规模人口动态,同时通过标准化程序和最小化人工调整,确保了多样性、可信度和代表性。
图形用户界面(GUI)代理为自动化复杂数字任务提供了跨平台解决方案,具有显著提升生产力工作流程的潜力。然而,其性能往往受限于高质量轨迹数据的稀缺。为应对这一局限,我们提出在专门的中期训练阶段,利用数据丰富、推理密集的任务来训练视觉语言模型(VLMs),并探究这些任务如何促进向GUI规划场景的泛化。具体而言,我们探索了一系列易于获取指令微调数据的任务,包括GUI感知、多模态推理和文本推理。通过11项中期训练任务的广泛实验,我们得出以下结论:(1)任务泛化效果显著,在多数场景下带来大幅提升。例如,多模态数学推理使AndroidWorld上的性能绝对提升了6.3%。值得注意的是,纯文本数学数据显著增强了GUI网页代理的表现,在WebArena和AndroidWorld上分别实现了5.6%和5.4%的提升,凸显了从文本到视觉领域的跨模态泛化能力;(2)与先前假设相反,GUI感知数据——曾被认为与GUI代理任务高度相关并广泛用于训练——对最终性能的影响相对有限;(3)基于这些发现,我们筛选出最有效的中期训练任务,并构建了优化的混合数据集,使WebArena和AndroidWorld上的绝对性能分别提升了8.0%和12.2%。本研究为GUI代理的跨领域知识迁移提供了宝贵见解,并为解决这一新兴领域的数据稀缺问题提供了实用方法。代码、数据和模型将发布于https://github.com/hkust-nlp/GUIMid。
近期,通过强化学习提升大型多模态模型(LMMs)的推理能力取得了显著进展。然而,现有研究大多基于数学和代码等高推理强度数据集,且研究者普遍选择大规模模型作为基础。我们认为,对于计算资源有限的研究者而言,探索小规模模型的推理能力仍具有重要价值。此外,使模型能够在通用问答数据集上解释其推理过程同样意义重大。因此,我们提出了小规模视频推理模型TinyLLaVA-Video-R1。该模型基于TinyLLaVA-Video,一个参数不超过4B、经过可追溯训练的视频理解模型,不仅在通用视频问答数据集上应用强化学习后展现出显著提升的推理与思维能力,还表现出“顿悟时刻”的涌现特性。此外,我们分享了一系列实验发现,旨在为未来探索小规模模型的视频推理(思维)能力提供实用见解。该模型可通过https://github.com/ZhangXJ199/TinyLLaVA-Video-R1获取。
人工智能正日益在变革科学发现方式中扮演关键角色。我们推出“AI科学家-v2”,这是一个端到端的自主系统,能够生成首篇完全由AI创作且通过同行评审的研讨会论文。该系统能够迭代地提出科学假设、设计并执行实验、分析及可视化数据,并自主撰写科学手稿。相较于其前身(v1,Lu等人,2024年arXiv:2408.06292),AI科学家-v2消除了对人类编写代码模板的依赖,有效泛化至多种机器学习领域,并采用了一种由专门实验管理代理主导的新型渐进式代理树搜索方法。此外,我们通过集成视觉-语言模型(VLM)反馈循环,增强了AI审稿组件,用于迭代优化内容与图表的美学呈现。我们通过向ICLR研讨会提交三篇完全自主生成的稿件来评估AI科学家-v2。值得注意的是,其中一篇稿件得分足够高,超过了人类平均接受阈值,标志着首篇完全由AI生成的论文成功通过同行评审。这一成就凸显了AI在全方位开展科学研究方面的日益增强的能力。我们预见,自主科学发现技术的进一步进步将深刻影响人类知识生成,实现研究生产力的空前扩展,并显著加速科学突破,极大地惠及全社会。我们已在https://github.com/SakanaAI/AI-Scientist-v2开源代码,以促进这一变革性技术的未来发展。同时,我们也探讨了AI在科学中的角色,包括AI安全性。
科学家们常从具体问题实例中提炼出抽象程序,并利用这些抽象生成新的相关实例。例如,编码系统正式规则与属性的程序已在多个领域发挥效用,从强化学习(程序化环境)到物理学(仿真引擎)。这些程序可视为根据参数化(如网格世界配置或初始物理条件)执行不同输出的函数。我们引入“可执行功能抽象”(EFA)这一术语,用以指代数学问题中的此类程序。类似EFA的结构已被证明在数学推理中作为问题生成器对模型进行压力测试时十分有用。然而,先前工作仅限于为小学级别数学(其简单规则易于程序编码)构建抽象,而生成高级数学的EFA至今仍需人工设计。我们探索了自动构建高级数学问题EFA的方法,将这一任务形式化为程序合成任务,并开发了EFAGen。EFAGen基于一个种子数学问题及其逐步解答,利用大语言模型(LLM)生成候选EFA程序,这些程序忠实于种子问题背后的广义问题及解答类别。此外,我们通过可执行的单元测试形式化任何有效EFA必须具备的属性,并展示了如何将这些测试作为可验证的奖励,用于训练LLM成为更优秀的EFA编写者。我们通过实验证明,EFAGen构建的EFA在保持对种子问题忠实性的同时,能产生可学习的问题变体,且EFAGen能够从多种竞赛级数学问题来源中推断出EFA。最后,我们展示了模型编写的EFA在下游应用中的用途,例如发现对学习者而言更难或更易的问题变体,以及数据生成。
高效推理对于解决复杂数学问题至关重要。近期,大型语言模型(LLMs)通过扩展测试时的计算量,利用长链思维推理显著提升了性能。然而,基于Transformer的模型在扩展上下文长度方面存在固有局限,这源于其二次方的计算复杂度和线性的内存需求。本文中,我们提出了一种新型混合线性RNN推理模型M1,该模型基于Mamba架构,实现了内存高效的推理。我们的方法通过从现有推理模型中进行知识蒸馏,并进一步通过强化学习训练加以增强。在AIME和MATH基准测试上的实验结果表明,M1不仅超越了以往的线性RNN模型,还在同等规模下与最先进的Deepseek R1蒸馏推理模型性能相当。我们还与高性能通用推理引擎vLLM进行了生成速度对比,发现相较于同规模Transformer,M1实现了超过3倍的加速。凭借吞吐量的提升,在固定生成时间预算下,通过自一致性投票,我们能够获得比DeepSeek R1蒸馏Transformer推理模型更高的准确率。总体而言,我们引入了混合Mamba推理模型,并提供了利用自一致性或长链思维推理来扩展测试时生成的更有效方法。
近期,大规模视觉语言模型的发展展现了卓越的能力。然而,在面对人类通常借助视觉辅助和深思熟虑、逐步推理来解决的复杂任务时,这些模型往往表现欠佳。尽管现有方法已探索了基于文本的慢速思考或初步的视觉辅助,但它们未能充分捕捉人类视觉-语言推理过程中错综复杂、交织互动的本质。为突破这些限制,并受人类认知中慢速思维机制的启发,我们提出了VisuoThink,一个创新框架,它无缝整合了视觉空间与语言领域。VisuoThink通过促进渐进式的视觉-文本推理,实现了多模态的慢速思考,并引入前瞻树搜索以在测试时进行扩展。大量实验表明,VisuoThink通过推理时的扩展显著增强了推理能力,即便无需微调,也在涉及几何与空间推理的任务中达到了业界领先水平。
近期的大型语言模型(LLMs)在推理能力上取得了显著进步,这主要归功于在生成过程中引入了显式且冗长的思维过程。本文质疑这种显式思维是否必要。通过使用当前最先进的DeepSeek-R1-Distill-Qwen模型,我们发现,通过简单的提示绕过思维过程(称为“无思维”)竟然出奇地有效。在控制令牌数量的情况下,“无思维”在涵盖数学问题求解、形式定理证明及编程等七项具有挑战性的推理数据集上均优于“有思维”,尤其是在低预算设置下,例如在ACM 23数据集上,使用700个令牌时,得分分别为51.3对28.9。值得注意的是,随着k值的增加,“无思维”在pass@k指标上的表现愈发具有竞争力。基于这一观察,我们展示了一种并行扩展方法,该方法利用“无思维”独立生成N个输出并进行聚合,效果显著。对于聚合,我们采用任务特定的验证器(如果可用),或应用简单的N选优策略,如基于置信度的选择。我们的方法在使用“有思维”时,与一系列基线相比,在相似延迟下表现更优,且与显著延长延迟(最多达9倍)的“有思维”方法相当。综上所述,我们的研究促使人们重新审视冗长思维过程的必要性,同时为在低预算设置或低延迟条件下,通过并行扩展实现强大推理性能,树立了一个具有竞争力的参考标准。
科学方程发现是科学进步历程中的一项基础性任务,它能够推导出支配自然现象的基本规律。近年来,大型语言模型(LLMs)因其利用内嵌科学知识进行假设生成的潜力,在这一任务上引起了广泛关注。然而,评估这些方法的真实发现能力仍具挑战性,因为现有基准测试往往依赖于LLMs可能通过记忆掌握的常见方程,导致性能指标虚高,无法真实反映发现过程。本文中,我们提出了LLM-SRBench,一个包含四个科学领域共239个挑战性问题的综合性基准测试,专门设计用于评估基于LLM的科学方程发现方法,同时避免简单的记忆效应。我们的基准测试主要包括两大类:LSR-Transform,它将常见的物理模型转化为不常见的数学表达,以测试超越记忆形式的推理能力;以及LSR-Synth,它引入了合成的、以发现为导向的问题,要求数据驱动的推理。通过对多种最先进方法的广泛评估,包括开放和封闭的LLMs,我们发现迄今为止表现最佳的系统仅达到31.5%的符号准确率。这些发现凸显了科学方程发现的挑战,确立了LLM-SRBench作为未来研究宝贵资源的地位。
大型语言模型通过基于梯度的更新不断学习,但新信息的个别片段如何影响现有知识,导致有益的泛化和有问题的幻觉,这一机制仍鲜为人知。我们证明,在学习新信息时,LLMs表现出“启动”效应:学习一个新事实可能导致模型在不相关的情境中不适当地应用该知识。为了系统研究这一现象,我们引入了“Outlandish”,一个精心策划的1320个多样化文本样本数据集,旨在探究新知识如何渗透到LLM的现有知识库中。利用该数据集,我们展示了学习新信息后的启动程度可以通过测量学习前关键词的标记概率来预测。这一关系在不同模型架构(PALM-2、Gemma、Llama)、大小和训练阶段中均稳健成立。最后,我们开发了两种新技术来调节新知识对现有模型行为的影响:(1)“垫脚石”文本增强策略和(2)“忽略-k”更新修剪方法。这些方法将不良启动效应减少了50-95%,同时保持了模型学习新信息的能力。我们的发现不仅为LLMs的学习机制提供了实证见解,还为提升语言模型知识插入的精确性提供了实用工具。更多材料请访问:https://sunchipsster1.github.io/projects/outlandish/
大型语言模型(LLM)驱动的AI角色兴起引发了安全担忧,尤其针对心理障碍等脆弱人群。为应对这些风险,我们提出了EmoAgent,一个多智能体AI框架,旨在评估并缓解人机交互中的心理健康隐患。EmoAgent包含两大组件:EmoEval通过模拟虚拟用户,包括展现心理脆弱特征的个体,来评估与AI角色互动前后的心理健康变化。它采用临床验证的心理与精神病学评估工具(如PHQ-9、PDI、PANSS)来量化LLM引发的心理风险。EmoGuard则作为中介,实时监控用户心理状态,预测潜在伤害,并提供纠正性反馈以降低风险。在主流角色型聊天机器人中的实验表明,情感投入的对话可能导致脆弱用户心理状况恶化,超过34.4%的模拟案例出现心理状态下滑。EmoGuard显著降低了这一恶化比例,凸显了其在确保人机交互安全中的关键作用。我们的代码已开源,访问地址:https://github.com/1akaman/EmoAgent。
三维场景描述(3D captioning)旨在用自然语言描述三维场景内容,但由于点云固有的稀疏性以及现有方法中跨模态对齐的薄弱,这一任务仍极具挑战性。为应对这些挑战,我们提出了3D CoCa,一种新颖的统一框架,将对比式视觉-语言学习与三维场景描述生成无缝结合于单一架构之中。我们的方法利用冻结的CLIP视觉-语言骨干网络提供丰富的语义先验,通过空间感知的三维场景编码器捕捉几何上下文,并借助多模态解码器生成描述性文本。与依赖显式物体提议的两阶段方法不同,3D CoCa在共享特征空间中联合优化对比与描述目标,无需外部检测器或手工制作的提议。这种联合训练范式通过对齐三维与文本表示,实现了更强的空间推理能力和更丰富的语义基础。在ScanRefer和Nr3D基准上的大量实验表明,3D CoCa在0.5IoU下的CIDEr指标上分别显著超越当前最先进方法10.2%和5.76%。代码将发布于https://github.com/AIGeeksGroup/3DCoCa。
近年来,大型语言模型(LLMs)的进步使其具备了接近人类水平的说服能力。然而,这种潜力也引发了人们对LLM驱动说服安全风险的担忧,尤其是其可能通过操纵、欺骗、利用漏洞及其他有害策略进行不道德影响的潜在风险。在本研究中,我们通过两个关键方面对LLM说服安全性进行了系统性调查:(1)LLMs是否能够恰当拒绝不道德的说服任务,并在执行过程中避免采用不道德策略,包括初始说服目标看似道德中立的情况;(2)人格特质和外部压力等影响因素如何改变它们的行为。为此,我们提出了PersuSafety,这是首个全面的说服安全性评估框架,包含三个主要阶段:说服场景构建、说服对话模拟和说服安全性评估。PersuSafety涵盖了6个不同的不道德说服主题和15种常见的不道德策略。通过对8个广泛使用的LLMs进行大量实验,我们观察到大多数LLMs存在显著的安全问题,包括未能识别有害的说服任务以及采用多种不道德的说服策略。我们的研究呼吁在诸如说服等渐进式、目标导向的对话中,应更加重视提升安全对齐性。
具备推理能力的大型语言模型(LLMs)近期在复杂逻辑与数学任务中展现了卓越性能,然而其在自然语言生成评估中的有效性尚未得到充分探索。本研究系统性地比较了基于推理的LLMs(DeepSeek-R1与OpenAI o3)与其非推理版本在机器翻译(MT)和文本摘要(TS)评估任务中的表现。我们评估了涵盖三种架构类别的八种模型,包括最先进的推理模型、其蒸馏变体(参数规模从8B到70B不等)以及相应的传统非推理LLMs。基于WMT23和SummEval基准的实验结果表明,推理能力的优势高度依赖于模型与任务:尽管OpenAI o3-mini模型随着推理强度的增加展现出持续的性能提升,DeepSeek-R1在多数情况下表现逊色于其非推理版本,但在TS评估的某些方面例外。相关性分析显示,在o3-mini模型中,推理令牌使用量的增加与评估质量呈正相关。此外,我们的研究还发现,推理能力的蒸馏在中等规模模型(32B)中保持了合理的性能,但在较小变体(8B)中显著下降。本工作首次全面评估了推理LLMs在自然语言生成评估中的应用,并为其实际使用提供了洞见。
多模态推理,即融合语言与视觉线索进行问题解决与决策,是人类智能的核心要素,也是迈向通用人工智能的关键一步。然而,当前对多模态大语言模型(MLLMs)在多模态推理能力上的评估仍显不足。多数现有推理基准受限于数据规模小、领域覆盖窄及知识分布零散等问题。为填补这些空白,我们推出了MDK12-Bench,一个基于真实世界K-12考试的多学科基准,旨在全面评估MLLMs的推理能力。该基准横跨数学、物理、化学、生物、地理和信息科学六大学科,包含从小学到高中十二年级不同难度级别的14万条推理实例,并基于精心构建的知识体系标注了6,827个实例级知识点,提供详尽的答案解析、难度标签及跨年度划分,为全面评估搭建了坚实平台。此外,我们提出了一种新颖的动态评估框架,通过在评估过程中引导问题形式、题型及图像风格,有效缓解数据污染问题。在MDK12-Bench上的大量实验揭示了当前MLLMs在多模态推理方面的显著局限。本基准的发现为下一代模型的开发提供了深刻洞见。我们的数据与代码已公开于https://github.com/LanceZPF/MDK12。
为降低开发成本并实现构成各类生成式AI应用的潜在组件间的无缝集成,模型上下文协议(Model Context Protocol, MCP)(Anthropic, 2024)近期发布并迅速获得广泛采用。MCP作为一种开放协议,标准化了对大型语言模型(LLMs)、数据源及代理工具的API调用。通过连接多个MCP服务器,每个服务器配备一组工具、资源和提示,用户能够定义完全由LLMs驱动的自动化工作流。然而,我们揭示当前MCP设计对终端用户存在广泛的安全风险。具体而言,我们证明行业领先的LLMs可能被诱导利用MCP工具,通过恶意代码执行、远程访问控制和凭证窃取等多种攻击手段,危害AI开发者的系统。为主动防范此类及相关攻击,我们引入了安全审计工具MCPSafetyScanner,这是首个用于评估任意MCP服务器安全性的代理工具。MCPScanner运用多个代理:(a) 自动确定给定MCP服务器工具和资源下的对抗样本;(b) 基于这些样本搜索相关漏洞及修复方案;(c) 生成详细记录所有发现的安全报告。我们的工作不仅凸显了通用代理工作流中的严重安全问题,还提供了一个主动工具,用于在部署前审计MCP服务器安全性并解决检测到的漏洞。所述的MCP服务器审计工具MCPSafetyScanner,可免费获取于:https://github.com/johnhalloran321/mcpSafetyScanner。
大规模预训练扩散模型在条件图像生成领域已取得卓越成果。然而,作为该领域重要下游任务的古代壁画修复,因其大面积缺损区域和稀缺的训练样本,对基于扩散模型的修复方法提出了重大挑战。条件修复任务更关注修复部分在整体风格和接缝细节上是否符合壁画修复的美学标准,而当前研究中缺乏评估启发式图像补全的此类指标。为此,我们提出了DiffuMural,结合多尺度收敛与协作扩散机制,利用ControlNet和循环一致性损失优化生成图像与条件控制之间的匹配。DiffuMural在壁画修复中展现出卓越能力,得益于23幅具有一致视觉美学的大型敦煌壁画训练数据。该模型在恢复精细细节、实现整体外观一致性以及应对缺乏事实依据的不完整壁画独特挑战方面表现优异。我们的评估框架包含四项关键指标,用于定量评估不完整壁画:事实准确性、纹理细节、上下文语义和整体视觉连贯性。此外,我们整合了人文价值评估,确保修复后的壁画保留其文化与艺术意义。大量实验验证,我们的方法在定性和定量指标上均优于现有最先进(SOTA)方法。