每日精选AI研究论文及翻译
大型语言模型(LLMs)以其庞大的参数数量而著称,通常会导致显著的冗余。本文介绍了MaskLLM,这是一种可学习的修剪方法,旨在在LLMs中建立半结构化(或“N:M”)稀疏性,以减少推理过程中的计算开销。MaskLLM并未开发新的重要性标准,而是通过Gumbel Softmax采样明确地将N:M模式建模为可学习的分布。这种方法有助于在大规模数据集上进行端到端训练,并具有两个显著优势:1)高质量的蒙版 - 我们的方法能够有效扩展到大型数据集并学习准确的蒙版;2)可迁移性 - 蒙版分布的概率建模使得稀疏性能够在不同领域或任务之间进行迁移学习。我们使用2:4的稀疏性评估了MaskLLM在各种LLMs上的效果,包括LLaMA-2、Nemotron-4和GPT-3,这些模型的参数范围从843M到15B不等。我们的实证结果显示,与最先进的方法相比,MaskLLM取得了显著的改进。例如,领先的方法在Wikitext上的困惑度(PPL)达到10或更高,而密集模型的PPL为5.12,但MaskLLM仅通过学习带有冻结权重的蒙版就实现了显著较低的6.72 PPL。此外,MaskLLM的可学习性使得可以为下游任务或领域定制蒙版,实现无损应用2:4稀疏性。代码可在https://github.com/NVlabs/MaskLLM找到。
GPT-4o是一种全模态模型,可以进行带有多样情感和语调的语音对话,标志着全模态基础模型的一个里程碑。然而,让大型语言模型能够端到端地感知和生成图像、文本和语音,且使用公开可用数据,在开源社区中仍然具有挑战性。现有的视觉-语言模型依赖于外部工具进行语音处理,而语音-语言模型仍然缺乏有限甚至没有视觉理解能力。为了解决这一差距,我们提出了EMOVA(情感全在场语音助手),以赋予大型语言模型端到端的语音能力,同时保持领先的视觉-语言性能。通过语义-声学解耦的语音分词器,我们惊讶地发现,全模态对齐相较于相应的双模态对齐模型,可以进一步增强视觉-语言和语音能力。此外,我们提出了一种轻量级样式模块,用于灵活控制语音风格(例如情感和音高)。EMOVA首次在视觉-语言和语音基准测试中实现了最先进的性能,同时支持具有生动情感的全模态口语对话。
最近大型多模态模型(LMMs)的进展极大地增强了它们在2D视觉理解任务中的熟练程度,使其能够有效地处理和理解图像和视频。然而,具有3D感知能力以进行3D场景理解的LMMs的发展受到了缺乏大规模3D视觉-语言数据集和强大的3D编码器的阻碍。在本文中,我们介绍了一个简单而有效的框架,名为LLaVA-3D。利用来自LLaVA的强大2D理解先验知识,我们的LLaVA-3D可以在不损害2D理解能力的情况下,有效地将LLaVA调整为3D场景理解。为了实现这一目标,我们采用了一种简单而有效的表示方法,即3D Patch,它将2D CLIP patch特征与它们在3D空间中的对应位置连接起来。通过将3D Patch集成到2D LMMs中,并采用联合的2D和3D视觉-语言指导调整,我们建立了一个统一的架构,既用于2D图像理解,又用于3D场景理解。实验结果表明,当在3D视觉-语言数据集上训练时,LLaVA-3D的收敛速度比现有的3D LMMs快3.5倍。此外,LLaVA-3D不仅在各种3D任务中实现了最先进的性能,而且在2D图像理解和视觉-语言对话能力方面与LLaVA保持了可比的水平。
利用预训练的文本到图像扩散模型的视觉先验,为增强在密集预测任务中的零样本泛化提供了一个有前途的解决方案。然而,现有方法常常不加批判地使用原始的扩散公式,这可能并不是最佳选择,因为密集预测与图像生成之间存在根本差异。在本文中,我们对密集预测的扩散公式进行了系统分析,着重考虑质量和效率。我们发现,用于图像生成的原始参数化类型,即学习预测噪声的方式,对于密集预测是有害的;多步噪声/去噪扩散过程也是不必要的,并且很难优化。基于这些见解,我们引入了Lotus,这是一个基于扩散的视觉基础模型,具有简单而有效的适应协议,用于密集预测。具体而言,Lotus被训练为直接预测注释而不是噪声,从而避免有害的方差。我们还重新构建了扩散过程,将其简化为单步程序,简化了优化过程,显著提高了推理速度。此外,我们引入了一种称为细节保留者的新调整策略,实现了更准确和细粒度的预测。在不增加训练数据或模型容量的情况下,Lotus在各种数据集上实现了零样本深度和法线估计的最先进性能。它还显著提高了效率,比大多数现有的基于扩散的方法快几百倍。
指导调整通常意味着在指导-响应对上微调语言模型。我们发现两种适应(调整)形式相对于指导调整来说存在不足,但仍会产生指导遵循;我们将其称为隐式指导调整。我们首先发现指导-响应对并非必要:仅在响应上进行训练,没有任何相应的指导,也会导致指导遵循。这表明预训练模型具有一个指导-响应映射,通过教授模型所需的响应分布来揭示。然而,我们随后发现并不需要教授所需的响应分布:在像诗歌这样的狭窄领域数据上进行指导-响应训练仍会导致像食谱生成这样的广泛指导遵循行为。特别是,当指导与微调领域中的指导非常不同时,模型的响应不会遵循微调领域的风格。为了开始解释隐式指导调整,我们假设对语言模型的分布进行非常简单的更改会导致指导遵循。我们通过手写基于规则的语言模型来支持这一点,在与预训练模型的专家乘积中实现指导遵循。这些规则是逐渐增加结束序列的概率,惩罚重复,并均匀改变15个单词的概率。总之,未经设计以产生指导遵循的调整可以隐式地实现这一目标。
大型语言模型(LLMs)展示了处理长上下文输入的显著能力,但这是以增加计算资源和延迟为代价的。我们的研究引入了一种新颖的方法来加速LLM推理并减少GPU内存消耗,以解决长上下文瓶颈。我们的研究表明,LLMs可以在生成查询答案之前在早期层识别相关标记。利用这一洞察力,我们提出了一种算法,利用LLM的早期层作为过滤器来选择和压缩输入标记,显著减少后续处理的上下文长度。我们的方法GemFilter相较于现有技术(如标准注意力和SnapKV/H2O)在速度和内存效率方面展示了显著的改进。值得注意的是,与SOTA方法相比,它实现了2.4倍的加速和30%的GPU内存使用减少。在“大海捞针”任务上的评估显示,GemFilter在性能上明显优于标准注意力、SnapKV,并在LongBench挑战赛上展示了可比的性能。GemFilter简单、无需训练,并且适用于不同LLMs。至关重要的是,它通过允许人类检查所选输入序列来提供可解释性。这些发现不仅为LLM部署提供了实际好处,还增进了我们对LLM内部机制的理解,为LLM设计和推理的进一步优化铺平了道路。我们的代码可在https://github.com/SalesforceAIResearch/GemFilter找到。
最近几年,潜在扩散模型(LDMs)在图像生成领域取得了重大进展。LDMs的一个主要优势是能够在压缩的潜在空间中运行,从而实现更高效的训练和部署。然而,尽管具有这些优势,LDMs仍然面临挑战。例如,观察到LDMs经常无法完美地生成高频细节和复杂构图。我们假设造成这些缺陷的一个原因是所有LDMs的预训练和后训练都是在潜在空间中进行的,而潜在空间通常比输出图像低8倍的空间分辨率。为了解决这个问题,我们建议在后训练过程中添加像素空间监督,以更好地保留高频细节。实验证明,添加像素空间目标显著改善了基于偏好的后训练和有监督质量微调,大幅提升了最先进的DiT变换器和U-Net扩散模型在视觉质量和视觉缺陷指标上的表现,同时保持了相同的文本对齐质量。
在大型语言模型(LLMs)时代,由于语言用户界面的快速发展趋势,将积累大量对话记录。对话分析(CA)致力于从对话数据中揭示和分析关键信息,简化手动流程,支持业务洞察和决策制定。CA需要提取可操作的见解并推动赋能的需求日益突出,吸引了广泛关注。然而,由于缺乏对CA的明确范围,导致各种技术的分散,使得形成系统化技术协同以赋能业务应用变得困难。本文对CA任务进行了彻底审查和系统化,总结了现有相关工作。具体而言,我们正式定义CA任务,以应对这一领域中碎片化和混乱的局面,并从对话场景重建、深入归因分析,到执行有针对性的训练,最终基于有针对性训练生成对话以实现特定目标,推导出CA的四个关键步骤。此外,我们展示了相关基准,讨论了潜在挑战,并指出了行业和学术界的未来方向。鉴于当前的进展,明显大部分工作仍集中在分析表面对话元素,这在研究和业务之间存在相当大的差距,而借助LLMs,最近的工作显示出研究因果关系和战略任务的趋势,这些任务复杂且高级。分析的经验和见解必将在针对对话记录的业务运营中具有更广泛的应用价值。
我们提出了Disco4D,这是一个新颖的高斯飘粒框架,用于从单个图像生成和动画化4D人物。与现有方法不同,Disco4D独特地将服装(使用高斯模型)与人体(使用SMPL-X模型)进行了解耦,显著增强了生成细节和灵活性。它具有以下技术创新。1)Disco4D学习有效地将服装高斯分布拟合到SMPL-X高斯分布上。2)它采用扩散模型来增强3D生成过程,例如,对输入图像中不可见的遮挡部分进行建模。3)它为每个服装高斯分布学习了一个身份编码,以促进服装资产的分离和提取。此外,Disco4D自然地支持具有生动动态的4D人物动画。大量实验证明了Disco4D在4D人物生成和动画任务上的优越性。我们的可视化结果可以在https://disco-4d.github.io/找到。
在过去几年中,由ColBERT带头的多向量检索方法已成为神经信息检索中越来越流行的方法。通过在标记级别而非文档级别存储表示,这些方法展示了非常强大的检索性能,特别是在领域外的情况下。然而,存储大量相关向量所需的存储和内存需求仍然是一个重要的缺点,阻碍了实际采用。在本文中,我们引入了一种基于聚类的标记汇集方法,以侵略性地减少需要存储的向量数量。这种方法可以将ColBERT索引的空间和内存占用减少50%,几乎不会降低检索性能。该方法还可以进一步减少向量数量,将其减少66%至75%,在绝大多数数据集上,性能降低保持在5%以下。重要的是,这种方法无需进行架构更改或查询时处理,可以作为一种简单的插件在索引时与任何类似ColBERT的模型一起使用。
人类可以通过观察他人学会操纵新物体;让机器人具备从这些演示中学习的能力将使其能够自然地指定新行为接口。本研究开发了机器人看、机器人学(RSRD),一种从单眼RGB人类演示和单个静态多视角物体扫描中模仿关节式物体操纵的方法。我们首先提出了4D可微分部件模型(4D-DPM),一种从单眼视频中恢复3D部件运动的方法,采用可微分渲染。这种分析合成方法使用部件中心特征场进行迭代优化,从而能够利用几何正则化器仅从单个视频中恢复3D运动。在获得这种4D重建后,机器人通过规划双手臂运动来复制物体轨迹,从而诱导演示的物体部件运动。通过将演示表示为部件中心轨迹,RSRD专注于复制演示的预期行为,同时考虑机器人自身的形态限制,而不是试图复制手的运动。我们在地面真实标注的3D部件轨迹上评估了4D-DPM的3D跟踪准确性,以及在双手臂YuMi机器人上的9个物体上每个10次试验的RSRD的物理执行性能。RSRD的每个阶段都实现了平均87%的成功率,总体端到端成功率为60%,共进行了90次试验。值得注意的是,这是仅使用从大型预训练视觉模型中提炼出的特征场而实现的,而没有任何特定任务的训练、微调、数据集收集或标注。项目页面:https://robot-see-robot-do.github.io
从大型和复杂数据集中提取有意义的见解面临着重大挑战,特别是在确保检索信息的准确性和相关性方面。传统的数据检索方法,如顺序搜索和基于索引的检索,在处理复杂和相互关联的数据结构时经常失败,导致输出不完整或误导性。为了克服这些局限性,我们引入了Structured-GraphRAG,这是一个多功能框架,旨在增强自然语言查询中对结构化数据集的信息检索。Structured-GraphRAG利用多个知识图,这些图以结构化格式表示数据并捕获实体之间的复杂关系,从而实现更加细致和全面的信息检索。这种基于图的方法通过将响应基于结构化格式,降低了语言模型输出错误的风险,从而提高了结果的可靠性。我们通过将其性能与最近发表的一种使用传统检索增强生成的方法进行比较,展示了Structured-GraphRAG的有效性。我们的研究结果显示,Structured-GraphRAG显著提高了查询处理效率并减少了响应时间。虽然我们的案例研究集中在足球数据上,但该框架的设计具有广泛适用性,为数据分析提供了强大工具,并增强了各种结构化领域中语言模型应用的能力。