每日精选AI研究论文及翻译
多模态大语言模型(MLLM)当前正经历着迅猛发展,这一趋势得益于大语言模型(LLM)的先进能力推动。与早期的专业模型不同,现有的MLLM正朝着多模态通用模型的方向演进。最初,这些模型仅局限于理解多种模态,如今已进步到不仅能跨模态理解,还能进行跨模态生成。其能力范围已从粗粒度的多模态理解扩展至细粒度,从支持有限模态发展到任意模态。尽管已有众多基准测试用于评估MLLM,但一个关键问题浮现:我们能否简单地认为,跨任务性能越高就意味着MLLM能力越强,从而更接近人类水平的AI?我们认为答案并非如此简单。本项目引入了“通用层级”(General-Level)评估框架,定义了MLLM性能与通用性的五级标度,提供了一种比较MLLM并衡量现有系统向更强大多模态通用模型乃至通用人工智能(AGI)迈进的方法论。该框架的核心是“协同性”(Synergy)概念,它衡量模型在理解与生成之间、跨多种模态时是否保持了一致的能力。为支持这一评估,我们推出了“通用基准”(General-Bench),它涵盖了更广泛的技能、模态、格式及能力,包含超过700项任务和325,800个实例。对100多个现有顶尖MLLM的评估结果揭示了通用模型的能力排名,凸显了实现真正AI所面临的挑战。我们期待本项目能为下一代多模态基础模型的研究铺平道路,为加速AGI的实现提供坚实的基石。项目页面:https://generalist.top/
大型语言模型(LLMs)易产生幻觉,而检索增强生成(RAG)虽有助于缓解此问题,却伴随着高昂的计算成本及误导信息的风险。自适应检索旨在仅在必要时进行检索,但现有方法依赖于基于LLM的不确定性估计,效率低下且不切实际。本研究提出了一种基于外部信息的轻量级、独立于LLM的自适应检索方法。我们探究了27个特征,将其分为7组,并考察了它们的混合组合。在6个问答数据集上,我们评估了这些方法的问答性能与效率。结果表明,我们的方法在保持复杂LLM方法性能的同时,显著提升了效率,展现了外部信息在自适应检索中的潜力。
近年来,多模态理解模型与图像生成模型均取得了显著进展。尽管各自领域成就斐然,这两大方向却独立发展,形成了截然不同的架构范式:自回归架构在多模态理解中占据主导,而扩散模型则成为图像生成的基石。近期,开发统一框架以整合这些任务的研究兴趣日益浓厚,GPT-4o新能力的涌现正是这一趋势的体现,彰显了统一化的潜力。然而,两大领域间的架构差异带来了显著挑战。为清晰梳理当前统一化努力的脉络,我们呈现了一份全面综述,旨在指引未来研究。首先,我们介绍了多模态理解与文本到图像生成模型的基础概念及最新进展。随后,我们回顾了现有的统一模型,将其划分为三大主要架构范式:基于扩散的、基于自回归的,以及融合自回归与扩散机制的混合方法。针对每一类别,我们剖析了相关工作的结构设计与创新之处。此外,我们汇编了专为统一模型定制的数据集与基准测试,为未来探索提供资源。最后,我们探讨了这一新兴领域面临的关键挑战,包括标记化策略、跨模态注意力机制及数据问题。鉴于该领域尚处初期,我们预期将见证快速进展,并将定期更新本综述。我们的目标是激发进一步研究,并为学术界提供宝贵的参考。本综述的相关参考文献可在GitHub上获取(https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models)。
高效的信息检索对于提升大型语言模型(LLMs)的推理与生成能力至关重要。近期研究探索了利用强化学习(RL)通过在实际环境中与实时搜索引擎交互来增强LLMs的搜索能力。尽管这些方法展现出积极成果,但它们面临两大挑战:(1)文档质量不可控:搜索引擎返回的文档质量往往难以预测,为训练过程引入了噪声与不稳定性。(2)API成本过高:RL训练需频繁执行搜索请求,可能涉及数十万次搜索,导致高昂的API费用,严重限制了可扩展性。为应对这些挑战,我们提出了ZeroSearch,一个无需与真实搜索引擎交互即可激励LLMs搜索能力的强化学习框架。我们的方法始于轻量级的监督微调,将LLM转化为一个检索模块,能够针对查询生成相关及噪声文档。在RL训练期间,我们采用基于课程学习的rollout策略,逐步降低生成文档的质量,通过让模型面对日益复杂的检索场景,渐进地激发其推理能力。大量实验表明,ZeroSearch利用3B参数的LLM作为检索模块,有效激励了LLMs的搜索能力。值得注意的是,7B参数的检索模块性能与真实搜索引擎相当,而14B参数的检索模块甚至超越了后者。此外,该方法在多种参数规模的基础模型及指令调优模型上均表现出良好的泛化能力,并与广泛的RL算法兼容。
定制视频生成旨在根据用户灵活定义的条件,生成包含特定主体的视频,然而现有方法在身份一致性和输入模态多样性方面往往存在局限。本文提出HunyuanCustom,一种多模态定制视频生成框架,强调主体一致性的同时,支持图像、音频、视频及文本条件。基于HunyuanVideo,我们的模型首先通过引入基于LLaVA的文本-图像融合模块来增强多模态理解能力,并采用图像ID增强模块,利用时间序列拼接强化跨帧身份特征,从而解决图像-文本条件下的生成任务。为实现音频和视频条件下的生成,我们进一步提出了模态特定的条件注入机制:AudioNet模块通过空间交叉注意力实现层次化对齐,以及视频驱动注入模块,通过基于分块的特征对齐网络整合潜在压缩的条件视频。在单主体和多主体场景下的广泛实验表明,HunyuanCustom在ID一致性、真实感和文本-视频对齐方面显著优于当前最先进的开放和闭源方法。此外,我们验证了其在下游任务中的鲁棒性,包括音频和视频驱动的定制视频生成。我们的结果凸显了多模态条件注入和身份保持策略在推进可控视频生成方面的有效性。所有代码和模型均可在https://hunyuancustom.github.io获取。
形状基元抽象,即将复杂的三维形状分解为简单几何元素的过程,在人类视觉认知中扮演着关键角色,并在计算机视觉与图形学领域有着广泛应用。尽管近期三维内容生成技术取得了显著进展,现有的基元抽象方法要么依赖于几何优化而缺乏深层次的语义理解,要么仅从特定类别的小规模数据集中学习,难以泛化至多样化的形状类别。我们提出了PrimitiveAnything,一个将形状基元抽象重新定义为基元组装生成任务的新颖框架。该框架包含一个基于形状条件的基元变换器用于自回归生成,以及一个无歧义的参数化方案,以统一方式表示多种类型的基元。通过直接从大规模人工制作的抽象中学习基元组装过程,PrimitiveAnything能够捕捉人类如何将复杂形状分解为基元元素。大量实验表明,PrimitiveAnything能够生成与人类感知高度一致且保持几何保真度的高质量基元组装,适用于多种三维应用,并展现出在游戏中支持基于基元的用户生成内容(UGC)的潜力。项目页面:https://primitiveanything.github.io
OpenAI于2021年初发布的CLIP模型,长期以来一直是构建多模态基础模型时视觉编码器的首选。尽管近期如SigLIP等替代方案开始挑战这一现状,但据我们所知,尚无完全开放的选择:它们的训练数据仍属专有,且/或训练方法未公开。本文通过OpenVision填补了这一空白,这是一个完全开放、成本效益高的视觉编码器系列,当集成到LLaVA等多模态框架中时,其性能可与OpenAI的CLIP相媲美甚至超越。OpenVision基于现有工作——例如采用CLIPS作为训练框架,Recap-DataComp-1B作为训练数据——同时揭示了提升编码器质量的多个关键见解,并展示了在推进多模态模型方面的实际优势。通过发布参数规模从590万到6.321亿不等的视觉编码器,OpenVision为实践者在构建多模态模型时提供了容量与效率之间的灵活权衡:更大模型带来更强的多模态性能,而更小版本则支持轻量级、适用于边缘设备的多模态部署。
我们研究了视觉语言模型(VLMs)在执行视觉视角采择任务中的能力,这些任务灵感来源于经典的人类测试。我们的方法利用精心控制的场景,其中单个类人迷你模型与单个物体配对。通过系统地改变空间配置——如物体相对于类人迷你模型的位置以及类人迷你模型的朝向——并采用鸟瞰图和表面视图,我们创建了144个独特的视觉任务。每个视觉任务都配有一系列7个诊断性问题,旨在评估三个层次的视觉认知:场景理解、空间推理和视觉视角采择。我们对多个前沿模型(包括GPT-4-Turbo、GPT-4o、Llama-3.2-11B-Vision-Instruct及Claude Sonnet的变体)的评估显示,尽管它们在场景理解上表现出色,但在空间推理上的表现显著下降,而在视角采择方面则进一步恶化。我们的分析表明,在表面层次的物体识别与复杂视觉任务所需的深层空间和视角推理之间存在差距,这提示未来VLM开发中需要整合明确的几何表示和定制化的训练协议。
数据混合策略已成功降低了训练语言模型的成本。尽管前景广阔,这些方法仍存在两个缺陷。首先,它们依赖于预设的数据领域(如数据来源、任务类型),可能无法捕捉关键的语义细微差别,从而限制了性能提升。其次,这些方法随着领域数量的增加,计算成本呈指数级增长,难以承受。我们通过R&B框架应对这些挑战,该框架基于语义相似性重新划分训练数据(重组),以创建更细粒度的领域,并通过利用训练过程中获得的领域梯度诱导的Gram矩阵,高效优化数据构成(平衡)。与先前工作不同,它无需额外计算来获取评估信息,如损失或梯度。我们在标准正则条件下分析了这一技术,并提供了理论见解,证明了R&B相较于非自适应混合方法的有效性。实证方面,我们在从自然语言到推理及多模态任务的五个多样化数据集上验证了R&B的有效性。仅需0.01%的额外计算开销,R&B即达到或超越了最先进数据混合策略的性能。
大型语言模型(LLMs)在复杂推理方面展现出潜力,然而,在严格约束条件下——如自然群体中常见的有限局部感知与通信——其于多智能体系统(MAS)中涌现协调能力的研究尚属空白,尤其是在群体智能的细微之处。现有基准往往未能充分捕捉到智能体在时空信息不完整时进行去中心化协调所面临的独特挑战。为填补这一空白,我们推出了SwarmBench,一个旨在系统评估作为去中心化代理的LLMs群体智能能力的新颖基准。SwarmBench包含五个基础MAS协调任务,设置于可配置的二维网格环境中,迫使智能体主要依赖局部感官输入(k x k视野)及局部通信。我们提出了协调效率的度量标准,并分析了涌现的群体动态。在零样本设置下评估多个领先的LLMs,我们发现不同任务间存在显著的性能差异,凸显了局部信息约束带来的困难。尽管出现了一定的协调,但结果表明,在这些去中心化场景下,面对不确定性时,LLMs在稳健规划与策略形成方面仍存在局限。在类似群体条件下评估LLMs,对于实现其在未来去中心化系统中的潜力至关重要。我们以开放、可扩展的工具包形式发布SwarmBench,它基于一个具有明确机械特性的可定制且可扩展的物理系统构建,提供了环境、提示、评估脚本及生成的全面实验数据集,旨在促进基于LLM的MAS协调及具身MAS理论基础的可重复研究。我们的代码仓库位于https://github.com/x66ccff/swarmbench。
作为一项看似不言自明的任务,问题解决一直是科学与工程领域的重要组成部分。然而,关于问题解决本身,一个普遍且具体的定义却尚付阙如。随着基于人工智能的问题解决代理的近期发展,对过程层面可验证性的需求迅速增长,但这一领域仍未被充分探索。为填补这些空白,我们提出了一种将问题解决形式化为确定性马尔可夫决策过程的原理性框架;一个名为FPS(形式化问题解决)的新颖框架,它利用现有的FTP(形式化定理证明)环境来执行过程验证的问题解决;以及D-FPS(演绎式FPS),它将求解与答案验证解耦,以实现更好的人机对齐。我们证明了这些框架的表达力、可靠性和完备性。我们构建了三个关于问题解决的基准测试:FormalMath500,即MATH500基准测试子集的形式化版本;MiniF2F-Solving和PutnamBench-Solving,分别是FTP基准测试MiniF2F和PutnamBench的改编版本。为了进行忠实、可解释且人机对齐的评估,我们提出了RPE(受限命题等价性),这是一种通过形式验证来确定答案正确性的符号方法。我们评估了四种流行的FTP模型和两种提示方法作为基线,分别解决了FormalMath500最多23.77%的问题,MiniF2F-Solving的27.47%,以及PutnamBench-Solving的0.31%。
GitHub问题解决任务旨在自动处理仓库中报告的问题。随着大语言模型(LLMs)的进步,该任务日益受到关注,并提出了多个基准来评估LLMs的问题解决能力。然而,现有基准存在三个主要局限。首先,当前基准集中于单一编程语言,限制了跨语言仓库问题的评估。其次,它们通常覆盖领域狭窄,可能无法代表现实世界问题的多样性。第三,现有基准仅依赖问题描述中的文本信息,忽视了问题中图像等多模态信息。本文提出OmniGIRL,一个多语言、多模态、多领域的GitHub问题解决基准。OmniGIRL包含959个任务实例,收集自四种编程语言(即Python、JavaScript、TypeScript和Java)及八个不同领域的仓库。我们的评估显示,当前LLMs在OmniGIRL上表现有限。值得注意的是,表现最佳的模型GPT-4o仅解决了8.6%的问题。此外,我们发现当前LLMs在需要理解图像的问题上表现不佳。Claude-3.5-Sonnet以10.5%的解决率在处理含图像信息的问题上表现最佳。最后,我们分析了当前LLMs在OmniGIRL上失败的原因,为未来改进提供了洞见。
双系统VLA(视觉-语言-动作)架构已成为具身智能研究的热点,但现有开源工作尚不足以支持进一步的性能分析与优化。针对这一问题,本文将对现有双系统架构的结构设计进行总结与比较,并对这些架构的核心设计要素开展系统性实证评估。最终,我们将提供一个低成本的开放源代码模型,以供深入探索。当然,该项目将持续更新,带来更多实验结论及性能更优的开源模型,供大家选用。项目主页:https://openhelix-robot.github.io/。
问题解决一直是推动人类在众多领域进步的根本动力。随着人工智能技术的进步,大型语言模型(LLMs)已成为能够跨多个领域应对复杂问题的强大工具。与传统的计算系统不同,LLMs将原始计算能力与近似人类推理相结合,使其能够生成解决方案、进行推理,甚至利用外部计算工具。然而,将LLMs应用于现实世界的问题解决面临诸多挑战,包括多步推理、领域知识整合以及结果验证。本综述探讨了LLMs在复杂问题解决中的能力与局限,考察了包括思维链(CoT)推理、知识增强以及多种基于LLM和工具的验证技术。此外,我们强调了软件工程、数学推理与证明、数据分析与建模以及科学研究等不同领域中的特定挑战。本文还从多步推理、领域知识整合和结果验证的角度,讨论了当前LLM解决方案的基本局限以及基于LLM的复杂问题解决的未来方向。
本文介绍了OSUniverse:一个面向高级GUI导航AI代理的复杂多模态桌面任务基准,该基准着重于易用性、可扩展性、测试案例的全面覆盖以及自动化验证。我们将任务按复杂度递增划分,从基本的精确点击到需要代理具备灵活性、精确性和清晰思维的多步骤、多应用程序测试。在本文展示的基准第一版中,我们已校准了测试案例的复杂度,确保在发布时,最先进的(SOTA)代理无法取得超过50%的成绩,而普通白领工作者则能完美完成所有任务。该基准可手动评分,但我们还引入了一个平均错误率低于2%的自动化验证机制。因此,这一基准为全面自动化衡量GUI导航AI代理在短期和中期的进展、能力及有效性提供了坚实基础。基准的源代码可在https://github.com/agentsea/osuniverse获取。
智能体主要通过任务成功率进行评估和优化,然而这些指标较为粗糙,依赖专家手动设计,且无法奖励中间涌现的行为。我们提出了AutoLibra,一个智能体评估框架,它将开放式的人类反馈(例如,“如果发现按钮被禁用,就不要再点击它”,或“该智能体在自主决策上拥有过多自主权”)转化为评估智能体轨迹中细粒度行为的指标。AutoLibra通过将反馈与智能体行为关联、聚类相似的正负面行为,并创建具有明确定义和具体示例的指标来实现这一点,这些指标可用于引导作为评判者的LLM进行评估。我们进一步提出了两个元指标来评估一组(诱导出的)指标与开放反馈的一致性:“覆盖率”和“冗余度”。通过优化这些元指标,我们实验性地证明了AutoLibra能够诱导出比以往智能体评估基准中提出的更为具体的评估指标,并发现新的指标来分析智能体。我们还展示了AutoLibra在智能体改进中的两个应用:首先,我们表明,在广泛的文本游戏任务中,AutoLibra诱导的指标作为提示工程目标优于任务成功率,将智能体性能较基线平均提升了20%。其次,我们展示了AutoLibra能够迭代选择高质量微调数据用于网页导航智能体。我们的结果表明,AutoLibra是一个强大的任务无关工具,用于评估和改进语言智能体。
现有的大多数视频异常检测器仅依赖于RGB帧,这些帧缺乏捕捉突发或短暂运动线索所需的时间分辨率,而这些线索正是异常事件的关键指标。为解决这一局限,我们提出了图像-事件融合视频异常检测框架(IEF-VAD),该框架直接从RGB视频中合成事件表示,并通过一种基于原则、考虑不确定性的过程将其与图像特征融合。该系统(i)采用学生t分布似然对传感器噪声进行建模,通过拉普拉斯近似得出值级逆方差权重;(ii)应用卡尔曼式逐帧更新,以平衡不同模态随时间的变化;(iii)迭代优化融合的潜在状态,以消除残留的跨模态噪声。无需专用事件传感器或帧级标签,IEF-VAD在多个现实世界异常检测基准测试中确立了新的技术标杆。这些发现凸显了合成事件表示在强调RGB帧中常被忽视的运动线索方面的效用,使得无需专用事件传感器即可实现跨多样应用的准确且鲁棒的视频理解。代码与模型已发布于https://github.com/EavnJeong/IEF-VAD。
大型语言模型(LLMs)通过采用多样化的适应策略,在众多任务中展现出卓越性能。然而,在资源受限的情况下,如何最优选择模型及适应策略颇具挑战,往往需要大量实验验证。本研究探讨了是否能在不进行昂贵试验的情况下,准确预测性能与成本。我们将LLM的策略选择问题形式化,并引入了COSMOS这一统一预测框架,该框架能够以最小成本高效估算适应结果。我们通过一对强大的预测器实例化并研究了该框架的能力:嵌入增强的轻量级代理模型用于预测微调性能,以及低样本扩展法则用于预测检索增强的上下文学习。在八个代表性基准上的广泛评估表明,COSMOS在平均降低92.72%计算成本的同时,实现了高预测精度,在资源密集型场景下最高可降低98.71%。我们的结果表明,高效预测适应结果不仅可行,还能在保持性能标准的同时,显著减少LLM部署的计算开销。
半监督学习已成为从CBCT扫描中进行三维牙齿分割的一种引人注目的方法,尤其是在标注数据稀缺的情况下。然而,现有方法仍面临两大持续挑战:在监督训练过程中,结构模糊或错误标注区域缺乏有效的纠正监督;以及未标注数据上不可靠的伪标签导致的性能下降。为解决这些问题,我们提出了区域感知指导学习(RAIL),一种双组双学生的半监督框架。每组包含两个由共享教师网络指导的学生模型。通过两组间的交替训练,RAIL促进了组间知识转移和协作式区域感知指导,同时减少了对单一模型特性的过拟合。具体而言,RAIL引入了两种指导机制。分歧聚焦监督(DFS)控制器通过仅在学生输出与真实标签及最佳学生预测存在差异的区域指导预测,从而将监督集中在结构模糊或错误标注的区域,提升了监督学习的效果。在无监督阶段,置信度感知学习(CAL)调节器强化了高模型确定性区域的一致性,同时减少了训练过程中低置信度预测的影响,这有助于防止模型学习不稳定模式,并提高了伪标签的整体可靠性。在四个CBCT牙齿分割数据集上的大量实验表明,RAIL在有限标注条件下超越了现有最先进方法。我们的代码将发布于https://github.com/Tournesol-Saturday/RAIL。
随着人类与AI系统从工具使用关系发展为协同进化的认知伙伴关系,科学知识创造正在发生根本性变革。当AlphaFold彻底改变蛋白质结构预测领域时,研究人员描述了他们如何与一个重塑其基础关系认知的认知伙伴进行互动。本文引入"涌现认知"(Cognitio Emergens, CE)框架,该框架针对现有模型的局限性,这些模型关注静态角色或狭隘指标,却未能捕捉科学理解如何通过递归的人机交互随时间涌现。CE整合了三个解决这些局限的组件:描述权威在人类与AI之间如何分配的"主体配置"(Directed, Contributory, Partnership),其中伙伴关系在配置间动态振荡而非线性发展;捕捉通过协作在发现、整合和预测三个维度上涌现的六种具体能力的"认知维度",形成指导发展的独特"能力特征";以及识别塑造这些关系演变力量的"伙伴关系动力学",特别是研究人员可能失去对其正式认可知识的解释控制权的"认知异化"风险。借鉴自创生理论、社会系统理论和组织模块化理论,CE揭示了知识共创如何通过角色、价值观和组织结构的持续协商而涌现。通过将人机科学协作重新概念化为根本上的协同进化,CE提供了一个平衡的视角,既不盲目颂扬也不过度担忧AI的演变角色,而是提供了培育伙伴关系的概念工具,在保持人类有意义参与的同时,实现变革性的科学突破。