每日精选AI研究论文及翻译
我们介绍了Qwen-Audio的最新进展,这是一个名为Qwen2-Audio的大规模音频-语言模型,能够接受各种音频信号输入,并根据语音指令进行音频分析或直接文本回应。与复杂的分层标签相比,我们通过利用自然语言提示简化了预训练过程,针对不同数据和任务,并进一步扩大了数据量。我们增强了Qwen2-Audio的指令跟随能力,并实现了语音聊天和音频分析两种不同的音频交互模式。在语音聊天模式下,用户可以自由与Qwen2-Audio进行语音交互,无需文本输入。在音频分析模式下,用户可以在交互过程中提供音频和文本指令进行分析。请注意,我们不使用任何系统提示来在语音聊天和音频分析模式之间切换。Qwen2-Audio能够智能理解音频内容并遵循语音指令做出适当回应。例如,在同时包含声音、多人对话和语音指令的音频片段中,Qwen2-Audio能直接理解指令并对音频进行解释和回应。此外,DPO已优化了模型在事实性和符合期望行为方面的性能。根据AIR-Bench的评估结果,Qwen2-Audio在着重于音频中心指令跟随能力的测试中胜过了之前的SOTAs,如Gemini-1.5-pro。Qwen2-Audio是开源的,旨在促进多模态语言社区的发展。
在评估大型语言模型(LLMs)的长文本能力时,从原始长文档中识别与用户查询相关的内容对于任何LLM来说都是回答基于长文本问题的关键先决条件。我们提出了NeedleBench,这是一个框架,由一系列逐渐具有挑战性的任务组成,用于评估双语长文本能力,涵盖多个长度区间(4k、8k、32k、128k、200k、1000k及更大)和不同深度范围,允许在不同文本深度区域中策略性地插入关键数据点,以严格测试模型在不同背景下的检索和推理能力。我们使用NeedleBench框架来评估领先的开源模型在识别与问题相关的关键信息以及将该信息应用于双语长文本推理方面的能力。此外,我们提出了祖先追踪挑战(ATC),以模拟逻辑推理挑战的复杂性,这些挑战可能存在于真实世界的长文本任务中,为评估LLMs处理复杂长文本情况提供了一种简单方法。我们的结果表明,当前的LLMs在实际长文本应用中仍有很大的改进空间,因为它们在处理可能存在于真实世界长文本任务中的逻辑推理挑战的复杂性方面存在困难。所有代码和资源均可在OpenCompass获取:https://github.com/open-compass/opencompass。
本文介绍了DiT-MoE,这是扩展Transformer的稀疏版本,可扩展且与密集网络竞争力强,同时展现高度优化的推断能力。DiT-MoE包括两个简单设计:共享专家路由和专家级平衡损失,从而捕获共同知识并减少不同路由专家之间的冗余。当应用于条件图像生成时,对专家专业化的深入分析得出一些有趣的观察:(i) 专家选择显示出对空间位置和去噪时间步的偏好,对不同类别条件信息不敏感;(ii) 随着MoE层的加深,专家的选择逐渐从特定的空间位置转向分散性和平衡性;(iii) 专家专业化倾向于在早期时间步更加集中,然后在后半部分逐渐均匀。我们将其归因于扩散过程,首先对低频空间信息进行建模,然后是高频复杂信息。根据上述指导,一系列DiT-MoE实验在推断过程中实现了与密集网络相当的性能,但需要更少的计算负载。更令人鼓舞的是,我们展示了DiT-MoE在合成图像数据上的潜力,将扩散模型扩展到165亿参数,在512×512分辨率设置下获得了新的SoTA FID-50K分数1.80。项目页面:https://github.com/feizc/DiT-MoE。
传统的参考分割任务主要集中在静默的视觉场景上,忽视了多模态感知和人类体验中互动的重要作用。在这项工作中,我们引入了一个名为参考音视频分割(Ref-AVS)的新任务,旨在基于包含多模态线索的表达来对视觉领域内的对象进行分割。这些表达以自然语言形式表达,但又融合了包括音频和视觉描述在内的多模态线索。为了促进这项研究,我们构建了第一个Ref-AVS基准,为相应的多模态线索表达中描述的对象提供了像素级注释。为了解决Ref-AVS任务,我们提出了一种新方法,充分利用多模态线索提供精确的分割指导。最后,我们对三个测试子集进行定量和定性实验,将我们的方法与相关任务中现有方法进行比较。结果表明我们的方法的有效性,突显了其利用多模态线索表达精确分割对象的能力。数据集可在以下链接获取:https://gewu-lab.github.io/Ref-AVS。
基于大型语言模型(LLMs)的现有代理通过整合LLMs固有的知识、强大的上下文学习和零样本能力,以及人类结合精心设计的LLM调用工作流的工具使用,展示了强大的问题解决能力。然而,这些代理在长期推理方面仍存在缺陷,并且未充分利用现有工具的潜力,导致在复杂的现实推理场景中存在明显的不足。为了解决这些限制,我们引入了Sibyl,这是一个简单而强大的基于LLM的代理框架,旨在通过高效利用一组最小化的工具来解决复杂的推理任务。受全局工作空间理论启发,Sibyl引入了一个全局工作空间,以增强系统中知识和对话历史的管理和共享。此外,受心智社会理论的指导,Sibyl实现了一个基于多代理辩论的陪审团,以自我完善最终答案,确保全面和平衡的方法。这种方法旨在减少系统复杂性,同时扩大可解决问题的范围-从通常由人类在几分钟内解决的问题到需要几个小时甚至几天解决的问题,从而促进从系统1到系统2思维的转变。Sibyl的设计侧重于可扩展性和易于调试,从其最初就引入了函数式编程中的可重入性的概念,旨在实现与其他LLM应用的无缝且低成本集成,以提高能力。我们在GAIA基准测试集上的实验结果显示,使用GPT-4实例化的Sibyl代理实现了平均得分为34.55%的最新性能,相较于其他基于GPT-4的代理。我们希望Sibyl能激发更可靠和可重复使用的基于LLM的代理解决方案,以解决复杂的现实推理任务。
我们提出了VLMEvalKit:一个基于PyTorch的用于评估大型多模态模型的开源工具包。该工具旨在为研究人员和开发人员提供一个用户友好且全面的框架,用于评估现有的多模态模型并发布可复现的评估结果。在VLMEvalKit中,我们实现了超过70种不同的大型多模态模型,包括专有API和开源模型,以及超过20种不同的多模态基准测试。通过实现单一接口,新模型可以轻松添加到工具包中,同时工具包会自动处理其余的工作负载,包括数据准备、分布式推断、预测后处理和指标计算。虽然该工具包目前主要用于评估大型视觉-语言模型,但其设计与未来更新兼容,可以整合其他模态,如音频和视频。基于使用该工具包获得的评估结果,我们托管OpenVLM Leaderboard,这是一个全面的排行榜,用于跟踪多模态学习研究的进展。该工具包发布在https://github.com/open-compass/VLMEvalKit,并得到积极维护。
由于其固有的三维一致性,得分蒸馏采样(SDS)已成为文本驱动的三维编辑任务中的有效框架。然而,现有基于SDS的三维编辑方法存在训练时间长且导致低质量结果的问题,主要是因为这些方法偏离了扩散模型的采样动态。在本文中,我们提出了DreamCatalyst,这是一个新颖的框架,将基于SDS的编辑解释为扩散反向过程。我们的目标函数考虑了采样动态,从而使DreamCatalyst的优化过程成为编辑任务中扩散反向过程的近似。DreamCatalyst的目标是减少训练时间并提高编辑质量。DreamCatalyst提供两种模式:(1)更快速的模式,仅需约25分钟编辑NeRF场景;(2)高质量模式,在不到70分钟内产生优越结果。具体而言,我们的高质量模式在速度和质量方面均优于当前NeRF编辑方法的最新技术。更多详尽结果请查看我们的项目页面:https://dream-catalyst.github.io。
最近在4D生成方面的最新进展主要集中在通过提炼预训练文本或单视图图像条件模型来生成4D内容。它们难以利用各种现成的具有多视角属性的3D资产,并且由于监督信号中固有的模糊性,它们的结果存在时空不一致性。在这项工作中,我们提出了Animate3D,这是一个用于为任何静态3D模型添加动画的新颖框架。核心思想是双重的:1)我们提出了一种新颖的多视图视频扩散模型(MV-VDM),它以静态3D对象的多视图渲染为条件,并在我们提出的大规模多视图视频数据集(MV-Video)上进行训练。2)基于MV-VDM,我们引入了一个结合重建和4D得分蒸馏采样(4D-SDS)的框架,以利用多视图视频扩散先验来为3D对象添加动画。具体来说,对于MV-VDM,我们设计了一个新的时空注意力模块,通过整合3D和视频扩散模型来增强空间和时间一致性。此外,我们利用静态3D模型的多视图渲染作为条件来保留其身份。为了为3D模型添加动画,我们提出了一个有效的两阶段流程:首先我们直接从生成的多视图视频中重建动作,然后通过引入的4D-SDS来优化外观和动作。定性和定量实验表明,Animate3D在性能上明显优于先前的方法。数据、代码和模型将会开源发布。
良好的权重初始化是减少深度神经网络(DNN)模型训练成本的有效措施。如何初始化参数的选择具有挑战性,可能需要手动调整,这可能耗时且容易出现人为错误。为了克服这些限制,本研究采取了一种新颖的方法,构建了一个权重生成器来合成神经网络的初始化权重。我们以生成对抗网络(GANs)在图像到图像翻译任务中的应用为例,因为容易收集涵盖广泛范围的模型权重。具体而言,我们首先收集包含各种图像编辑概念及其对应训练权重的数据集,后续用于训练权重生成器。为了解决各层之间的不同特征和需要预测的大量权重,我们将权重分成大小相等的块,并为每个块分配一个索引。随后,使用该数据集训练扩散模型,同时利用概念的文本条件和块索引。通过使用我们的扩散模型预测的去噪权重初始化图像翻译模型,训练仅需43.3秒。与从头开始训练(即Pix2pix)相比,我们在获得更好的图像生成质量的同时,为新概念实现了15倍的训练时间加速。
视觉语言模型(VLMs)在各种应用中取得了令人瞩目的进展,成为一种普遍的研究方向。本文中,我们构建了一个名为FIRE的反馈-细化数据集,包含110万个多轮对话,这些对话源自27个数据集,使VLMs能够根据用户反馈跨不同任务自动细化其回应。为了扩大数据收集规模,FIRE分为两个部分:FIRE-100K和FIRE-1M,其中FIRE-100K由GPT-4V生成,而FIRE-1M则通过在FIRE-100K上训练的模型自由生成。然后,我们构建了FIRE-Bench,一个用于全面评估VLMs反馈细化能力的基准,其中包含11K个反馈细化对话作为测试数据,两种评估设置以及一个为VLMs提供反馈的模型。我们通过在FIRE-100K和FIRE-1M上微调LLaVA来开发FIRE-LLaVA模型,该模型在FIRE-Bench上展现出显著的反馈细化能力,比未经训练的VLMs表现提高了50%,使用户-代理交互更加高效,并突显了FIRE数据集的重要性。
即使是像美国手语(ASL)这样研究较多的手语,数据仍然是机器学习研究的瓶颈。对于世界各地聋人/听障社区使用的许多其他手语来说,情况更糟。在本文中,我们介绍了YouTube-SL-25,这是一个大规模、开放领域的手语视频语料库,其中包含来自YouTube的似乎对齐良好的字幕。YouTube-SL-25拥有超过25种手语的3000多小时视频,a)是YouTube-ASL大小的3倍以上,b)是迄今为止最大的平行手语数据集,c)是许多组成语言的第一个或最大的平行数据集。我们使用基于T5的统一多语种多任务模型为手语到文本任务提供基线,并在4种手语的基准测试中报告分数。结果表明,多语种迁移对YouTube-SL-25中的高资源和低资源手语都有益。
大型语言模型(LLMs)对现代自然语言处理和人工智能至关重要。然而,它们在管理显著的内存需求方面面临挑战。尽管量化感知训练(QAT)通过采用低位表示来减少内存消耗并最小化精度损失提供了解决方案,但它需要大量训练资源来优化模型权重和量化参数。为了解决这个问题,我们提出了高效量化感知训练(EfficientQAT),这是一种用于压缩LLMs的新型量化技术。EfficientQAT包括两个连续阶段:所有参数的块状训练(Block-AP)和量化参数的端到端训练(E2E-QP)。Block-AP依次对每个变压器块中的所有参数进行量化感知训练,并通过块状重构来保持效率,避免对整个LLM进行训练。使用量化模型初始化,E2E-QP然后端到端训练仅量化参数(步长),通过固定的量化骨干和减少的可训练参数数量提高效率。大量实验证明,EfficientQAT在各种模型上表现优于以往的量化方法,包括基础LLMs、指令调整LLMs和多模态LLMs,参数规模从7B到70B,量化位数不等。例如,EfficientQAT在单个A100-80GB GPU上以41小时获得了一个2位Llama-2-70B模型,与全精度相比准确度下降不到3%(69.48对72.41)。值得注意的是,这个INT2量化的70B模型比Llama-2-13B模型(69.48对67.81)准确度提高了1.67,同时需要更少的内存(19.2GB对24.2GB)。代码可在https://github.com/OpenGVLab/EfficientQAT找到。
现代大型语言模型(LLMs)由拥有数十亿元素的矩阵组成,这使得它们在计算资源和内存使用方面要求相当高。由于这些矩阵非常庞大,因此通常可以用低秩格式来表示,从而放宽资源需求。与以往侧重于开发新型矩阵分解算法的研究不同,在这项工作中,我们首先研究了LLMs不同层中矩阵之间低秩结构的出现,并建立了梯度动态与矩阵低秩表达能力之间的关系。我们的研究发现,不同层展现出不同程度的收敛低秩结构,需要在它们之间进行非均匀的秩降以最小化由压缩导致的性能下降。基于此,我们提出了Weight Low-Rank Projection(WeLore),将权重压缩和内存高效微调统一为一个数据无关且一次完成的过程。WeLore利用奇异值的重尾分布来确定LLMs中矩阵的适当秩降比率。WeLore不仅仅是一种压缩技术,还根据其作为低秩表达的能力,将权重矩阵分类为低秩组件(LRCs)和非低秩组件(N-LRCs)。我们的梯度视角和大量实验表明,LRCs往往具有更好的微调能力,并且可以紧密模拟(有时甚至优于)完全微调的训练损失轨迹和性能,同时显著减少内存和计算资源占用。例如,仅使用LRCs中一小部分参数(WeLore)对50\%压缩的LLaMa-27B模型进行微调,可以比全面微调获得约3倍更好的吞吐量和约0.6倍的GPU需求。我们的代码可在https://github.com/VITA-Group/welore 上获取。
最近,人机交互在各种模态下展示出了许多有前景的应用,比如GPT-4o和Gemini。鉴于多模态联合表示在理解和生成流程中的基础作用,高质量的全方位联合表示将是朝着共同处理更多多样化多模态信息的一大步。在这项工作中,我们提出了OmniBind,大规模多模态联合表示模型,参数规模从70亿到300亿不等,支持3D、音频、图像和语言输入。由于各模态之间数据配对稀缺,我们提出了重新映射和绑定各种预训练专家模型空间的方法,而非从头开始训练大型模型。这种方法通过间接增加模型参数和已见数据量来实现“扩展”。为了有效整合各种空间,我们通过学习路由器动态分配不同空间的权重,具有两个目标:跨模态整体对齐和语言表示解耦。值得注意的是,由于绑定和路由空间都只需要轻量级网络,OmniBind 的训练效率极高。学习最大的300亿模型仅需要未配对的单模态数据,大约在单个8-4090节点上花费3天时间。大量实验证明了OmniBind 作为全方位表示模型的多功能性和优越性,突显了其在各种应用中的巨大潜力,比如任意查询和可组合多模态理解。
我们提出了一种控制模拟人形角色抓取物体并沿着物体轨迹移动的方法。由于控制具有灵巧手部的人形角色存在挑战,先前的方法通常使用无身体的手,仅考虑垂直抬升或短轨迹。这种有限的范围限制了它们在动画和模拟所需的物体操作方面的适用性。为了弥补这一差距,我们学习了一个控制器,可以拾取大量(>1200)的物体并将它们携带到沿着随机生成的轨迹移动。我们的关键见解是利用提供类人运动技能并显著加快训练速度的人形运动表示。仅使用简单的奖励、状态和物体表示,我们的方法在各种物体和轨迹上显示出良好的可扩展性。在训练过程中,我们不需要配对的全身运动和物体轨迹数据集。在测试时,我们仅需要物体网格和所需的抓取和运输轨迹。为了展示我们方法的能力,我们展示了在跟踪物体轨迹和泛化到未见过的物体方面的最新成功率。代码和模型将被发布。
Vibravox是一个符合《通用数据保护条例》(GDPR)的数据集,其中包含使用五种不同的体导音频传感器录制的音频记录:两个耳塞麦克风、两个骨传导振动拾音器和一个喉话筒。数据集还包括来自空中麦克风的音频数据,用作参考。Vibravox语料库包含由188名参与者在高阶Ambisonics 3D空间化器施加的不同声学条件下录制的38小时语音样本和生理声音。语料库中还包括有关录制条件和语言转录的注释。我们针对各种与语音相关的任务进行了一系列实验,包括语音识别、语音增强和说话人验证。这些实验使用最先进的模型进行,以评估和比较它们在Vibravox数据集提供的不同音频传感器捕获的信号上的性能,旨在更好地了解它们各自的特征。
大规模多模态生成模型的出现极大推动了人工智能的发展,引入了前所未有的性能和功能水平。然而,由于历史上模型中心和数据中心发展的孤立路径,优化这些模型仍然具有挑战性,导致结果不佳和资源利用效率低下。为此,我们提出了一个专为集成数据-模型共同开发量身定制的新型沙盒套件。该沙盒提供了一个全面的实验平台,实现数据和模型的快速迭代和基于洞察力的改进。我们提出的“探测-分析-优化”工作流程,通过在最先进的LLaVA和基于DiT的模型上的应用,实现了显著的性能提升,例如在VBench排行榜上名列前茅。我们还从详尽的基准测试中发现了有益的见解,揭示了数据质量、多样性和模型行为之间的关键相互作用。希望通过维护和提供我们的代码、数据集和模型,促进对多模态数据和生成建模的深入理解和未来进展。这些资源可在以下网址获得:https://github.com/modelscope/data-juicer/blob/main/docs/Sandbox.md。
交互式三维高斯分割为实时操作三维场景提供了巨大机遇,得益于三维高斯喷洒的实时渲染能力。然而,当前方法存在处理嘈杂分割输出的耗时后处理问题。此外,它们难以提供重要的用于三维场景精细操作的详细分割。在本研究中,我们提出了Click-Gaussian,学习了两级粒度的可区分特征字段,促进了无需耗时后处理的分割。我们深入探讨了由于独立于三维场景获得的二维分割而导致的学习特征字段不一致所带来的挑战。当跨视图的二维分割结果,即三维分割的主要线索,存在冲突时,三维分割准确性会下降。为了克服这些问题,我们提出了全局特征引导学习(GFL)。GFL从跨视图的嘈杂二维分割中构建全局特征候选群,这有助于在训练三维高斯特征时消除噪声。我们的方法每次点击运行在10毫秒内,速度是先前方法的15到130倍,同时显著提高了分割准确性。我们的项目页面位于https://seokhunchoi.github.io/Click-Gaussian。
大型语言模型(LLMs)被广泛应用于各种高风险领域,其输出的可靠性至关重要。评估LLMs响应可靠性的常用方法之一是不确定性估计,用于衡量它们的答案正确性的可能性。虽然许多研究侧重于改进LLMs不确定性估计的准确性,但我们的研究调查了不确定性估计的脆弱性并探讨了潜在攻击。我们证明了攻击者可以在LLMs中嵌入后门,当输入中的特定触发器激活时,可以操纵模型的不确定性而不影响最终输出。具体而言,所提出的后门攻击方法可以改变LLM的输出概率分布,导致概率分布收敛到攻击者预定义的分布,同时确保最高概率预测保持不变。我们的实验结果表明,这种攻击有效地破坏了模型在多项选择问题中的自我评估可靠性。例如,在四个模型中,我们通过三种不同的触发策略实现了100%的攻击成功率(ASR)。此外,我们研究了这种操纵是否可以泛化到不同的提示和领域。这项工作突显了对LLMs可靠性的重大威胁,并强调了未来需要应对此类攻击的防御措施。代码可在https://github.com/qcznlp/uncertainty_attack找到。