每日精选AI研究论文及翻译
大型语言模型(LLMs)的开发和评估主要集中在个体能力上。然而,这忽视了跨不同类型专业技能的多种能力相交集,而这些技能通常是实现真实世界任务所必需的,我们将其称为跨能力。为了系统地探索这一概念,我们首先定义了七种核心个体能力,然后将它们配对形成七种常见的跨能力,每种跨能力都由一个手动构建的分类法支持。基于这些定义,我们引入了CrossEval,一个包含1,400个人工注释提示的基准测试,每种个体和跨能力各有100个提示。为了确保可靠评估,我们邀请专家注释员评估4,200个模型响应,收集了8,400个带有详细解释的人工评分作为参考示例。我们的研究结果显示,无论是在静态评估还是试图增强特定能力方面,当前的LLMs都始终表现出“最弱环节法则”,即跨能力表现受到最弱组成部分的显著限制。具体而言,在来自17个模型的58个跨能力得分中,有38个得分低于所有个体能力,而20个介于强和弱之间,但更接近较弱的能力。这些结果突显了LLMs在跨能力任务中的表现不佳,使得识别和改进最弱能力成为未来研究中优化在复杂、多维场景中表现的关键优先事项。
由于对用户交互数据隐私的担忧,大型模型推理正从云端转向边缘。然而,边缘设备通常面临计算能力、内存和带宽有限的问题,需要跨多个设备进行协作以运行和加速大型模型推理。流水线并行,作为主流解决方案,在单用户场景下效率低下,而张量并行则在频繁通信方面遇到困难。本文认为,在低资源设备上,张量并行可能比流水线更有效,并提出了一种计算和内存高效的张量并行推理系统,名为TPI-LLM,用于服务70亿规模的模型。TPI-LLM将敏感原始数据保留在用户设备本地,并引入滑动窗口内存调度器,在推理过程中动态管理层权重,使磁盘I/O延迟与计算和通信重叠。这使得更大的模型可以在内存有限的设备上平稳运行。我们分析了通信瓶颈,并发现链路延迟,而非带宽,成为主要问题,因此实施了基于星型的全局归约算法。通过对模拟和真实测试平台上的大量实验,TPI-LLM相比于Accelerate的首个标记时间和标记延迟减少了超过80%,相比于Transformers和Galaxy减少了超过90%,同时将Llama 2-70B的峰值内存占用减少了90%,仅需要3.1GB内存来运行70亿规模的模型。
我们介绍了Atlas-Chat,这是首个专门为方言阿拉伯语开发的大型语言模型集合。我们专注于摩洛哥阿拉伯语,也称为达里加,通过整合现有的达里加语言资源、手动和合成地创建新数据集,并通过严格的质量控制将英语指令翻译成达里加语来构建我们的指令数据集。在该数据集上微调的Atlas-Chat-9B和2B模型展现出优越的能力,能够遵循达里加语指令并执行标准自然语言处理任务。值得注意的是,我们的模型在达里加MMLU上表现优于最先进的阿拉伯语专用LLM(如LLaMa、Jais和AceGPT),例如,在我们新引入的旨在涵盖判别性和生成性任务的达里加评估套件上,与更大的13B模型相比,实现了13%的性能提升。此外,我们对各种微调策略和基础模型选择进行了实验分析,以确定最佳配置。我们所有的资源都是公开可访问的,我们认为我们的工作提供了面向低资源语言变体的指令微调的全面设计方法,这些语言变体在当代LLM中常常被忽视,而更多关注数据丰富的语言。
从文本、单个图像或稀疏视图图像生成高质量的3D内容仍然是一个具有广泛应用的具有挑战性的任务。现有方法通常采用多视图扩散模型来合成多视图图像,然后通过前馈过程进行3D重建。然而,这些方法通常受制于少量且固定的输入视图,限制了其捕获多样观点的能力,更糟糕的是,如果合成的视图质量较差,会导致生成结果次优。为了解决这些限制,我们提出了Flex3D,这是一个新颖的两阶段框架,能够利用任意数量的高质量输入视图。第一阶段包括候选视图生成和筛选流程。我们采用经过微调的多视图图像扩散模型和视频扩散模型来生成候选视图池,实现对目标3D对象的丰富表示。随后,视图选择流程根据质量和一致性筛选这些视图,确保只有高质量和可靠的视图用于重建。在第二阶段,经过筛选的视图被馈送到一个灵活重建模型(FlexRM),该模型建立在可以有效处理任意数量输入的变压器架构之上。FlexRM直接输出3D高斯点,利用三平面表示,实现高效且详细的3D生成。通过对设计和训练策略的广泛探索,我们优化了FlexRM,使其在重建和生成任务中均表现出卓越性能。我们的结果表明,与几种最新的前馈3D生成模型相比,Flex3D在3D生成任务中取得了最先进的性能,用户研究获胜率超过92%。
我们介绍了VideoLISA,这是一个基于视频的多模态大型语言模型,旨在解决视频中基于语言指导的推理分割问题。利用大型语言模型的推理能力和世界知识,并借助“Segment Anything Model”的增强,VideoLISA根据语言指令在视频中生成时间上连贯的分割蒙版。现有基于图像的方法(如LISA)在处理视频任务时面临困难,因为视频具有额外的时间维度,需要对时间动态进行理解,并在帧间实现一致的分割。VideoLISA通过将“Sparse Dense Sampling”策略整合到视频-LLM中来解决这些挑战,该策略在计算约束内平衡了时间上下文和空间细节。此外,我们提出了一种使用特殊设计的<TRK>标记的“One-Token-Seg-All”方法,使模型能够跨多个帧分割和跟踪对象。对包括我们新引入的ReasonVOS基准在内的多样化基准进行了广泛评估,结果表明VideoLISA在涉及复杂推理、时间理解和对象跟踪的视频对象分割任务中表现出优越性能。虽然针对视频进行了优化,但VideoLISA在图像分割方面也显示出有希望的泛化能力,揭示了其作为语言指导对象分割的统一基础模型的潜力。代码和模型将在以下网址提供:https://github.com/showlab/VideoLISA。
在这项工作中,我们分享了实现我们文本到图像动漫图像生成模型Illustrious的最先进质量的见解。为了实现高分辨率、动态色彩范围图像和高恢复能力,我们专注于三种关键的模型改进方法。首先,我们深入探讨了批量大小和辍学控制的重要性,这使得基于可控令牌的概念激活能够更快地学习。其次,我们提高了图像的训练分辨率,影响了对角色解剖在更高分辨率下的准确描绘,利用适当的方法将其生成能力扩展到超过20MP。最后,我们提出了精细的多级标题,涵盖了所有标签和各种自然语言标题,作为模型发展的关键因素。通过广泛的分析和实验,Illustrious在动画风格方面表现出最先进的性能,超越了插图领域中广泛使用的模型,推动了更容易定制和个性化的开源特性。我们计划按顺序公开发布更新的Illustrious模型系列,以及改进的可持续计划。
扩散模型已成为一种强大的生成技术,并已被发现适用于各种场景。大多数现有的基础扩散模型主要设计用于文本引导的视觉生成,并不支持多模态条件,而这对于许多视觉编辑任务至关重要。这一限制阻碍了这些基础扩散模型在视觉生成领域中像自然语言处理领域的GPT-4那样作为统一模型的应用。在这项工作中,我们提出了ACE,一种全能创作者和编辑器,它在各种视觉生成任务中取得了与专家模型相媲美的性能。为实现这一目标,我们首先引入了一种统一的条件格式,称为长上下文条件单元(LCU),并提出了一种使用LCU作为输入的基于Transformer的新型扩散模型,旨在实现跨各种生成和编辑任务的联合训练。此外,我们提出了一种高效的数据收集方法来解决缺乏可用训练数据的问题。它涉及通过细调多模态大型语言模型,获取基于合成或聚类的流水线的成对图像,并提供这些成对图像与准确的文本指令。为了全面评估我们模型的性能,我们建立了一个手动注释的成对数据基准,涵盖各种视觉生成任务。广泛的实验结果展示了我们模型在视觉生成领域的优越性。由于我们模型的一体化功能,我们可以轻松构建一个多模态聊天系统,使用单一模型作为后端响应任何关于图像创建的交互请求,避免了通常在视觉代理中采用的繁琐流水线。代码和模型将在项目页面上提供:https://ali-vilab.github.io/ace-page/。
自动驾驶技术的进步越来越依赖于高质量的标注数据集,特别是在3D占据预测任务中,占据标签需要密集的3D标注,需要大量人力投入。在本文中,我们提出了SyntheOcc,这是一个表示扩散模型,通过将驾驶场景中的占据标签作为条件,合成具有照片逼真性和几何控制的图像。这为训练感知模型和模拟等应用提供了数量不限、多样化、可控的数据集。SyntheOcc解决了如何有效地将3D几何信息编码为2D扩散模型的条件输入的关键挑战。我们的方法创新地将3D语义多平面图像(MPIs)结合起来,为条件输入提供全面且空间对齐的3D场景描述。因此,SyntheOcc能够生成与给定几何标签(3D体素空间中的语义)完全对齐的照片逼真的多视角图像和视频。对nuScenes数据集上对SyntheOcc进行的广泛定性和定量评估证明了它在生成可控占据数据集方面的有效性,可作为感知模型的有效数据增强。
大型多模态模型(LMMs)在短视频理解任务中展现出令人印象深刻的性能,但在长视频理解方面面临巨大挑战。相比之下,大型语言模型(LLMs)在建模长文本方面表现出色。现有研究尝试通过在训练过程中引入长视频文本对来解决这一问题。然而,这些方法需要大量的计算资源和数据资源。本文从上下文窗口的角度解决了长视频理解的挑战,旨在将LMMs应用于长视频任务,而无需在大规模长视频数据集上重新训练。我们首先深入分析了为什么预训练的LMMs难以理解冗长视频内容,发现视觉和语言模态之间的差异导致视觉和语言标记具有不同的上下文窗口,使得直接扩展视觉标记以匹配语言上下文窗口变得困难。基于此,我们提出通过扩展视觉上下文窗口,适应LMMs用于长视频理解任务,从而消除了在大规模长视频数据集上重新训练的需求。为了进一步减轻长序列带来的显著内存消耗,我们引入了一种渐进式池化推理策略,有选择地调整帧嵌入的空间分辨率,减少视觉标记数量同时保留重要的空间信息。在多个长视频理解基准测试中,我们的方法在视频帧数量增加时始终提高性能。在MLVU基准测试中,即使我们的模型大小仅为7B,我们的方法也优于GPT-4o。此外,在256帧设置中,我们的方法相较于基准,将内存使用量降低约45%,而不会引入任何性能损失。
通常,逼真图像恢复算法的评估通过失真度量(例如 PSNR、SSIM)和感知质量度量(例如 FID、NIQE)进行,其目标是在不影响感知质量的前提下实现尽可能低的失真。为实现这一目标,当前方法通常尝试从后验分布中采样,或优化失真损失(例如 MSE)和感知质量损失(例如 GAN)的加权和。与以往研究不同,本文专注于在完美感知指数约束下最小化 MSE 的最优估计器,即重建图像的分布等于地面真实图像的分布。最近的理论结果表明,通过将后验均值预测(MMSE 估计)最优地传输到地面真实图像的分布,可以构建这样的估计器。受此结果启发,我们引入后验均值矫正流(PMRF),这是一种简单而高效的算法,可近似实现这一最优估计器。具体而言,PMRF 首先预测后验均值,然后使用近似所需最优传输映射的矫正流模型将结果传输到高质量图像。我们研究了 PMRF 的理论效用,并证明在各种图像恢复任务中,它始终优于以往方法。
我们提出了一种从单目视频中重建时间一致的人体模型的方法,重点关注极松散的服装或手持物体的互动。先前的人体重建工作要么局限于紧身服装且没有物体互动,要么需要校准的多视图捕捉或个性化模板扫描,这在大规模收集时成本高昂。我们实现高质量且灵活重建的关键见解是将关于关节身体形状的通用先验(从大规模训练数据中学习)与视频特定的关节“骨袋”变形(通过测试时优化适应单个视频)进行精心组合。我们通过学习一个神经隐式模型来实现这一点,该模型将身体与服装变形解开为单独的运动模型层。为了捕捉服装的微妙几何特征,我们在优化过程中利用基于图像的先验,如人体姿势、表面法线和光流。生成的神经场可以提取为时间一致的网格,或进一步优化为明确的三维高斯函数,用于高保真交互式渲染。在具有极具挑战性的服装变形和物体互动的数据集上,DressRecon比现有技术产生了更高保真度的3D重建。项目页面:https://jefftan969.github.io/dressrecon/
基于学习的方法在四足动物的运动中取得了强大的表现。然而,有几个挑战阻碍了四足动物学习需要与环境和人类进行交互的有用的室内技能:缺乏用于操作的末端执行器,仅使用模拟数据的有限语义理解能力,以及在室内环境中的低可穿透性和可达性。我们提出了一个用于室内环境中四足动物移动操作的系统。它使用一个前置夹持器进行物体操作,一个在模拟环境中使用自我中心深度训练的低层控制器,用于敏捷技能(如攀爬和全身倾斜),以及预先训练的视觉-语言模型(VLMs),其中包括第三人称鱼眼摄像头和自我中心RGB摄像头,用于语义理解和命令生成。我们在两个未知环境中评估了我们的系统,而没有进行任何真实世界数据收集或训练。我们的系统可以零次泛化到这些环境,并完成任务,例如遵循用户的命令,越过一张大号床后取回一个随机放置的玩具,成功率达到60%。项目网站:https://helpful-doggybot.github.io/
机器翻译(MT)中的性别偏见被认为是一个可能伤害人们和社会的问题。然而,该领域的进展很少涉及最终的MT用户,也很少告知他们可能受到偏见技术影响的方式。目前的评估通常局限于自动方法,这些方法提供了性别差异可能带来的下游影响的不透明估计。我们进行了一项广泛的以人为中心的研究,以检查MT中的偏见是否带来了实质性成本,如服务质量差距在女性和男性之间。为此,我们从90名参与者那里收集了行为数据,他们对MT输出进行了后期编辑,以确保正确的性别翻译。在多个数据集、语言和用户类型中,我们的研究表明,女性后期编辑明显需要更多的技术和时间投入,也对应着更高的财务成本。然而,现有的偏见测量未能反映出发现的差异。我们的发现倡导以人为中心的方法,可以告知偏见的社会影响。
机器人探索和学习的可能性是无限的,但所有这些知识都需要是可搜索和可操作的。在语言研究领域,检索增强生成(RAG)已经成为大规模非参数化知识的主要工具,然而现有技术无法直接转移到具身领域,这是多模态的,数据高度相关,并且感知需要抽象化。 为了解决这些挑战,我们引入了具身-RAG,这是一个框架,通过将具身代理的基础模型与一个能够自主构建用于导航和语言生成的分层知识的非参数化记忆系统相结合。具身-RAG处理各种环境和查询类型的空间和语义分辨率范围,无论是针对特定对象还是对环境氛围的整体描述。在其核心,具身-RAG的记忆被构建为语义森林,以不同层次的详细程度存储语言描述。这种分层组织使系统能够在不同的机器人平台上高效生成上下文敏感的输出。我们证明,具身-RAG有效地将RAG与机器人领域连接起来,成功处理了19个环境中超过200个解释和导航查询,突显了其作为具身代理通用非参数化系统的潜力。