每日精选AI研究论文及翻译
问题修复任务旨在修改代码库以生成解决特定问题的补丁。然而,现有的基准测试,如SWE-bench,几乎仅专注于Python,这使得它们在评估大型语言模型(LLMs)跨多样化软件生态系统时显得不足。为此,我们引入了一个多语言问题修复基准,名为Multi-SWE-bench,涵盖Java、TypeScript、JavaScript、Go、Rust、C和C++。该基准包含总计1,632个高质量实例,这些实例由68位专家标注者从2,456个候选样本中精心标注,确保基准能够提供准确可靠的评估。基于Multi-SWE-bench,我们采用三种代表性方法(无代理、SWE代理和OpenHands)评估了一系列最先进的模型,并提供了包含关键实证见解的全面分析。此外,我们启动了Multi-SWE-RL开源社区,旨在构建大规模强化学习(RL)训练数据集,用于问题修复任务。作为初步贡献,我们发布了一组跨越七种编程语言的4,723个结构良好的实例,为该领域的RL研究奠定了坚实基础。更重要的是,我们开源了整个数据生产流程,并附有详细教程,鼓励开源社区持续贡献并扩展数据集。我们预见Multi-SWE-bench及不断壮大的Multi-SWE-RL社区将成为推动RL迈向其全部潜力的催化剂,让我们离通用人工智能(AGI)的曙光更近一步。
数学推理是人类智能的基石,也是衡量大型语言模型(LLMs)高级能力的关键指标。然而,研究界仍缺乏一个开放、大规模、高质量的语料库,专门满足以数学为核心的LLM预训练需求。为此,我们推出了MegaMath,这是一个通过以下实践从多样化的数学相关资源中精心构建的开放数据集:(1) 重新审视网络数据:我们通过数学导向的HTML优化、基于fasttext的过滤与去重,从Common Crawl中重新提取数学文档,旨在获取互联网上更高质量的数据。(2) 召回数学相关代码数据:我们从大型代码训练语料库Stack-V2中筛选出高质量的数学相关代码,进一步丰富了数据的多样性。(3) 探索合成数据:我们基于网络数据或代码数据,合成了问答式文本、数学相关代码以及文本与代码交织的块。通过整合这些策略,并通过广泛的消融实验验证其有效性,MegaMath提供了371B个标记,在现有开放的数学预训练数据集中,无论是数量还是质量均位居前列。
大型语言模型(LLMs)在各类代理规划任务中已展现出显著性能。然而,传统代理规划方法采用“大水漫灌”式策略,不加区分地将黄金轨迹、外部反馈及领域知识注入代理模型。这种做法忽视了人类决策过程中情境自我认知的基本原则——即动态评估情境需求并在决策时策略性运用资源的能力。为填补这一空白,我们提出了具备知识性自我认知的代理新范式,使基于LLM的代理能够自主调控知识利用。具体而言,我们提出了KnowSelf,一种以数据为中心的方法,赋予代理如人类般的知识性自我认知能力。我们设计了一种启发式情境判断准则,在代理自我探索的轨迹上标记特殊符号以收集训练数据。通过两阶段训练过程,代理模型能够通过生成特定特殊符号在不同情境间切换,以最小成本实现最优规划效果。实验表明,KnowSelf在多种任务和模型上均能以最少的外部知识使用量超越多个强基线。代码已发布于https://github.com/zjunlp/KnowSelf。
在本研究中,我们推出了VARGPT-v1.1,这是一款基于先前框架VARGPT构建的先进统一视觉自回归模型。该模型保留了用于视觉理解的下一个标记预测与用于图像合成的下一个尺度生成的双重范式。具体而言,VARGPT-v1.1整合了以下创新:(1) 一种结合迭代视觉指令调优与通过直接偏好优化(DPO)进行强化学习的新颖训练策略;(2) 包含830万视觉生成指令对的扩展训练语料库;(3) 采用Qwen2升级的语言模型骨干;(4) 增强的图像生成分辨率;以及(5) 无需架构修改即具备的图像编辑能力。这些进步使VARGPT-v1.1在多模态理解及文本到图像指令跟随任务中实现了业界领先的性能,在理解和生成指标上均展现出显著提升。尤为值得一提的是,通过视觉指令调优,模型在保持与前代架构一致性的同时,获得了图像编辑功能,揭示了统一视觉理解、生成与编辑的潜力。我们的研究结果表明,设计精良的统一视觉自回归模型能够有效借鉴大型语言模型(LLMs)的灵活训练策略,展现出良好的可扩展性。代码库及模型权重已公开发布于https://github.com/VARGPT-family/VARGPT-v1.1。
Transformer是现代大型语言模型的基石,但其二次方的计算复杂度限制了长序列处理的效率。近期,Mamba作为一种具有线性复杂度的状态空间模型(SSM)取得了进展,展现出显著的效率提升潜力,但在上下文学习稳定性和多任务泛化方面存在不足。本文提出TransMamba,一个创新框架,通过共享参数矩阵(如QKV和CBx)将Transformer与Mamba统一起来,从而能够在不同令牌长度和层级间动态切换注意力机制与SSM机制。我们设计了记忆转换器,通过将注意力输出转换为SSM兼容的状态,在发生转换的TransPoints处确保信息流畅传递,以此桥接Transformer与Mamba。此外,TransPoint调度策略也得到了深入探索以进一步提升性能。通过大量实验,我们证实了TransMamba在训练效率和性能上均优于基线模型,并验证了Transformer与Mamba范式之间更深层次的一致性,为下一代序列建模提供了一个可扩展的解决方案。
在智能体与其环境的交互过程中,智能体通过规划并执行行动来扩展其能力。然而,基于大语言模型(LLM)的智能体在部署于新环境或需驾驭非传统行动空间时,面临重大挑战。为赋予智能体自主探索环境、优化工作流程及深化对行动理解的能力,我们提出了SynWorld框架。该框架使智能体能够在行动空间内合成多步骤行动调用的可能场景,并执行蒙特卡洛树搜索(MCTS)探索,以在当前环境中有效精炼其行动知识。实验表明,SynWorld是一种在新环境中学习行动知识的有效且通用的方法。代码已发布于https://github.com/zjunlp/SynWorld。
基于基础模型的自主智能体已在各类现实应用中广泛部署。然而,这些智能体极易受到恶意指令和攻击的影响,可能导致隐私泄露和财务损失等严重后果。更为关键的是,由于智能体复杂且动态的特性,现有的大型语言模型防护措施并不适用。为应对这些挑战,我们提出了ShieldAgent,这是首个通过逻辑推理来确保其他受保护智能体行为轨迹明确遵循安全策略的防护智能体。具体而言,ShieldAgent首先从策略文档中提取可验证的规则,并将其构建为一组基于行为的概率规则电路,以此建立安全策略模型。针对受保护智能体的行为轨迹,ShieldAgent检索相关规则电路,并利用其丰富的工具库和可执行代码生成防护计划,进行形式化验证。此外,鉴于当前缺乏针对智能体的防护基准,我们引入了ShieldAgent-Bench,这是一个包含3,000对与安全相关的智能体指令和行为轨迹的数据集,这些数据通过最先进的攻击手段在6个网络环境和7个风险类别中收集。实验表明,ShieldAgent在ShieldAgent-Bench及三个现有基准测试上均达到了最先进水平,平均超越先前方法11.3%,召回率高达90.1%。同时,ShieldAgent将API调用减少了64.7%,推理时间缩短了58.2%,展现了其在保护智能体方面的高精度与高效性。
训练高效的多轮交互AI智能体,需要捕捉真实人机互动动态的高质量数据,然而这类数据稀缺且手动收集成本高昂。我们推出了APIGen-MT,一个两阶段框架,用于生成可验证且多样化的多轮智能体数据。在第一阶段,我们的智能体管道通过利用LLM评审委员会和迭代反馈循环,生成包含真实动作的详细任务蓝图。随后,这些蓝图通过模拟人机互动转化为完整的交互轨迹。我们训练了一系列模型——xLAM-2-fc-r系列,参数规模从1B到70B不等。我们的模型在tau-bench和BFCL基准测试中超越了GPT-4o和Claude 3.5等前沿模型,其中较小模型在多轮设置下尤其超越其更大版本,同时在多次试验中保持卓越的一致性。全面实验证明,我们经过验证的蓝图到细节方法生成了高质量的训练数据,促进了更可靠、高效和能干的智能体开发。我们开源了收集的合成数据及训练好的xLAM-2-fc-r模型,以推动AI智能体研究。模型可在HuggingFace获取,地址为https://huggingface.co/collections/Salesforce/xlam-2-67ef5be12949d8dcdae354c4,项目网站为https://apigen-mt.github.io。
现有的多模态大语言模型(MLLM)基准在评估统一多模态大语言模型(U-MLLMs)时面临显著挑战,原因在于:1)缺乏针对传统任务的标准化基准,导致比较结果不一致;2)缺少混合模态生成任务的基准,无法全面评估多模态推理能力。为此,我们提出了一套全面的评估框架,旨在系统性地评估U-MLLMs。我们的基准包含:1. 标准化传统任务评估。我们从12个数据集中采样,涵盖10个任务及30个子任务,确保研究间的一致性和公平比较。2. 统一任务评估。我们引入了五项新颖任务,测试多模态推理能力,包括图像编辑、结合图像生成的常识问答以及几何推理。3. 全面模型基准测试。我们评估了12个领先的U-MLLMs,如Janus-Pro、EMU3、VILA-U和Gemini2-flash,同时对比了专门的理解模型(如Claude-3.5-Sonnet)和生成模型(如DALL-E-3)。研究结果显示,现有U-MLLMs在性能上存在显著差距,强调了开发更强大模型以有效处理混合模态任务的必要性。代码及评估数据可在https://mme-unify.github.io/获取。
单图像人体重建对于数字人体建模应用至关重要,但依然是一项极具挑战性的任务。现有方法依赖生成模型合成多视角图像,以便进行后续的三维重建与动画制作。然而,直接从单张人体图像生成多视角时,往往存在几何不一致性问题,导致重建模型中出现肢体断裂或模糊等现象。为应对这些局限,我们提出了HumanDreamer-X,一个将多视角人体生成与重建整合到统一流程中的创新框架,显著提升了重建三维模型的几何一致性与视觉保真度。在该框架中,3D高斯溅射作为显式三维表示,提供了初始几何与外观优先级。在此基础上,HumanFixer被训练用于修复3DGS渲染,确保生成结果达到照片级真实感。此外,我们深入探讨了多视角人体生成中注意力机制的内在挑战,并提出了一种注意力调制策略,有效增强了多视角间的几何细节与身份一致性。实验结果表明,我们的方法在生成与重建的PSNR质量指标上分别提升了16.45%和12.65%,最高PSNR可达25.62 dB,同时在野外数据上展现了良好的泛化能力,并适用于多种人体重建骨干模型。
本文提出了全面重光照技术,这是首个能够从任意场景中的人体图像或视频中控制并协调光照的一体化方法。由于数据集的缺乏,构建这样一个通用模型极具挑战性,现有的基于图像的重光照模型通常局限于特定场景(如面部或静态人体)。为解决这一难题,我们重新利用预训练的扩散模型作为通用图像先验,并在由粗到细的框架中联合建模人体重光照与背景协调。为进一步增强重光照的时间一致性,我们引入了一种无监督的时间光照模型,该模型从大量真实世界视频中学习光照周期一致性,无需任何真实标签。在推理阶段,我们的时间光照模块通过时空特征融合算法与扩散模型结合,无需额外训练;同时,我们采用了一种新的引导细化作为后处理步骤,以保留输入图像中的高频细节。实验表明,全面重光照技术展现出强大的通用性和光照时间一致性,超越了现有的基于图像的人体重光照与协调方法。
医学图像与视频分割是精准医疗中的关键任务,近年来在开发针对特定任务或模态的2D图像通用模型方面取得了显著进展。然而,关于构建适用于3D图像和视频的通用模型,并辅以全面用户研究的工作仍较为有限。本文介绍MedSAM2,一种可提示的3D图像与视频分割基础模型。该模型通过在包含超过45.5万对3D图像-掩码及7.6万帧视频的大型医学数据集上微调Segment Anything Model 2而开发,其在多种器官、病变及成像模态上的表现均超越了以往模型。此外,我们实施了一个人机协作流程,以促进大规模数据集的创建,据我们所知,这构成了迄今为止最广泛的用户研究,涵盖了5000个CT病变、3984个肝脏MRI病变及251,550帧超声心动图视频的标注,证明MedSAM2能将人工成本降低超过85%。MedSAM2还被集成到广泛使用的平台中,提供本地与云端部署的用户友好界面,使其成为支持研究与医疗环境中高效、可扩展及高质量分割的实用工具。
在有限的计算预算下平衡时间分辨率与空间细节,仍是基于视频的多模态大语言模型(MLLMs)面临的核心挑战。现有方法通常采用预定义规则压缩视频表示后再输入大语言模型,导致不可逆的信息丢失,且常忽视输入指令。为此,我们提出了一种新颖的慢-快架构,自然规避了这一权衡,能够在保留空间细节的同时利用更多输入帧。受人类先快速浏览视频再聚焦相关部分的启发,我们的慢-快设计采用双令牌策略:1)“快”视觉令牌——一组紧凑的压缩视频特征——与文本嵌入一同输入大语言模型,提供快速概览;2)“慢”视觉令牌——未压缩的视频特征——通过特别设计的混合解码器层与文本嵌入进行交叉注意力,实现指令感知的相关视觉细节提取,且计算复杂度为线性。我们系统性地探索了整体架构与关键组件的优化。实验表明,我们的模型显著优于仅依赖自注意力的基线,在计算量仅增加3%的情况下,将输入帧数从16扩展至128,并在五个视频理解基准测试中平均性能提升16%。我们的7B模型在同等规模模型中达到了最先进的性能。此外,慢-快架构采用即插即用设计,可集成到其他视频MLLMs中,以提升效率与可扩展性。
本研究提出了BEATS框架,这是一个用于评估大型语言模型(LLMs)中偏见、伦理、公平性和事实性的创新体系。基于BEATS框架,我们构建了一个针对LLMs的偏见基准测试,该测试涵盖29项不同的评估指标。这些指标广泛涉及人口统计、认知和社会偏见等多个维度,同时还包括伦理推理、群体公平性以及与事实性相关的错误信息风险等衡量标准。通过这些指标,我们能够量化评估LLM生成响应可能延续或加剧社会偏见、进而强化系统性不平等的程度。要在该基准测试中取得高分,LLM必须在响应中展现出极高的公平性,这使其成为负责任AI评估的严格标准。根据实验数据的实证结果显示,行业领先模型生成的输出中有37.65%存在某种形式的偏见,凸显了在关键决策系统中使用这些模型的重大风险。BEATS框架及其基准测试提供了一种可扩展且统计严谨的方法论,用于对LLMs进行基准测试、诊断导致偏见的因素,并制定缓解策略。借助BEATS框架,我们的目标是助力开发更具社会责任感和伦理对齐的AI模型。
当声波撞击物体时,会引发振动,产生高频且细微的视觉变化,这些变化可用于恢复声音。早期研究常面临采样率、带宽、视野范围及光路简洁性之间的权衡。近年来,事件相机硬件的进步展现了其在视觉声音恢复应用中的巨大潜力,因其在捕捉高频信号方面具有卓越能力。然而,现有基于事件的振动恢复方法在声音恢复方面仍不尽如人意。本研究提出了一种全新的非接触式声音恢复流程,充分利用事件流中的时空信息。首先,我们通过创新的模拟流程生成了大规模训练集。随后,设计了一个网络,利用事件的稀疏性捕捉空间信息,并采用Mamba模型来建模长期时间信息。最后,训练了一个空间聚合模块,以整合来自不同位置的信息,进一步提升信号质量。为了捕捉由声波引发的事件信号,我们还设计了一套采用激光矩阵的成像系统,以增强梯度,并收集了多组数据序列用于测试。在合成数据与真实世界数据上的实验结果验证了本方法的有效性。
近期行为克隆技术的进步已使机器人能够执行复杂的操作任务。然而,准确评估训练性能仍具挑战性,尤其是在现实世界应用中,因为行为克隆损失往往与实际任务成功率关联性较差。因此,研究人员不得不依赖于耗时且成本高昂的现实世界评估得出的成功率指标,这使得识别最优策略及检测过拟合或欠拟合变得不切实际。为解决这些问题,我们提出了real-is-sim,一种新颖的行为克隆框架,该框架在整个策略开发流程(数据收集、训练与部署)中整合了动态数字孪生体(基于Embodied Gaussians)。通过持续将模拟世界与物理世界对齐,可以在现实世界中收集演示,同时从模拟器中提取状态信息。模拟器通过渲染任意视角的图像输入或从场景中物体提取低级状态信息,实现了灵活的状态表示。在训练期间,策略可以直接在模拟器内以离线且高度并行化的方式进行评估。最后,在部署阶段,策略在模拟器内运行,真实机器人直接跟踪模拟机器人的关节,有效解耦了策略执行与真实硬件,缓解了传统的领域迁移挑战。我们在PushT操作任务上验证了real-is-sim,展示了模拟器内成功率与现实世界评估结果之间的强相关性。系统视频可访问https://realissim.rai-inst.com。
从卫星影像中精确划定农田边界对于土地管理和作物监测至关重要。然而,现有方法因数据集规模有限、分辨率差异及多样化的环境条件而面临挑战。为此,我们将该任务重新定义为实例分割,并引入了农田边界实例分割-22M数据集(FBIS-22M),这是一个大规模、多分辨率的数据集,包含672,909个高分辨率卫星图像块(分辨率范围从0.25米到10米)和22,926,427个独立农田的实例掩码,显著缩小了农业数据集与其他计算机视觉领域数据集之间的差距。此外,我们提出了“Delineate Anything”模型,这是一个基于我们新FBIS-22M数据集训练的实例分割模型。该模型确立了新的技术标杆,在[email protected]和[email protected]:0.95指标上分别实现了88.5%和103%的显著提升,同时展现出更快的推理速度以及在多种图像分辨率和未见地理区域上的强大零样本泛化能力。代码、预训练模型及FBIS-22M数据集可在https://lavreniuk.github.io/Delineate-Anything获取。
在定制肖像数据集上微调预训练的文本到图像(T2I)模型,是实现文本驱动肖像属性定制的主流方法。然而,由于微调过程中的语义污染,现有方法难以在定制目标属性的同时保持原模型的行为并实现增量学习。为解决这一问题,我们提出了SPF-Portrait,这是一项开创性工作,旨在纯化理解定制语义的同时,消除文本驱动肖像定制中的语义污染。在SPF-Portrait中,我们设计了一种双路径管道,将原模型作为传统微调路径的参考。通过对比学习,我们确保了对目标属性的适应,并有意将其他无关属性与原肖像对齐。我们引入了一种新颖的语义感知精细控制图,它代表了目标语义的精确响应区域,以空间上指导对比路径之间的对齐过程。这一对齐过程不仅有效保留了原模型的性能,还避免了过度对齐。此外,我们提出了一种新的响应增强机制,以强化目标属性的表现,同时缓解直接跨模态监督中固有的表示差异。大量实验证明,SPF-Portrait实现了最先进的性能。项目网页:https://spf-portrait.github.io/SPF-Portrait/