每日精选AI研究论文及翻译
准确解释复杂视觉信息的能力是多模态大语言模型(MLLMs)的一个关键主题。最近的研究表明,增强的视觉感知显著减少了幻觉,并改善了对分辨率敏感任务的表现,例如光学字符识别和文档分析。一些最近的MLLMs通过使用多种视觉编码器的混合来实现这一目标。尽管它们取得了成功,但缺乏系统性比较和详细的消融研究,以解决关键方面,如专家选择和多个视觉专家的整合。本研究对使用多种视觉编码器和分辨率的MLLMs的设计空间进行了广泛探索。我们的研究结果揭示了一些存在于各种现有策略中的基本原则,导致了一种简化而有效的设计方法。我们发现,简单地将一组互补的视觉编码器的视觉标记串联起来与更复杂的混合架构或策略一样有效。我们另外引入了Pre-Alignment来弥合以视觉为重点的编码器和语言标记之间的差距,增强模型的连贯性。由此产生的MLLMs系列Eagle,在主要MLLM基准测试中超越了其他领先的开源模型。模型和代码:https://github.com/NVlabs/Eagle
大型语言模型(LLM)的一般能力高度依赖于广泛的预训练数据集的组成和选择,这些数据集被一些机构视为商业机密。为了缓解这一问题,我们公开了一个通用的数据处理流程的细节,并通过引入一个竞争性的LLM基线来验证其有效性和潜力。具体而言,数据处理流程包括广泛的收集以扩大规模,以及重新加权以提高质量。然后,我们使用我们的流程处理了30亿标记,预训练了一个7B模型BaichuanSEED,没有进行任何刻意针对下游任务的优化,接着是一个简单但有效的监督微调阶段。BaichuanSEED在整个训练过程中表现一致且可预测,并在多个综合基准测试中取得了与几种商业先进大型语言模型(如Qwen1.5和Llama3)可比的性能。我们还进行了几个启发式实验,讨论了进一步优化下游任务(如数学和编码)的潜力。
本文介绍了Dolphin,一种用于在语言模型中高效处理长上下文的创新解码器-解码器架构。我们的方法解决了设备上模型固有的显著能耗和延迟挑战。Dolphin采用紧凑的0.5B参数解码器,将广泛的上下文信息提炼为内存嵌入,从而大幅减少主要的7B参数解码器模型的输入长度。受视觉-语言模型启发,我们重新利用图像嵌入投影器来编码长文本上下文,有效地将扩展上下文视为一个独特的模态。这种创新方法使得能够处理大幅更长的上下文,而无需处理扩展输入序列所带来的典型计算开销。实证评估表明,与传统的全长上下文处理方法相比,我们的方法在能效方面提升了10倍,在延迟方面减少了5倍,同时不会降低响应质量。我们的工作有助于开发更具可持续性和可扩展性的设备上语言模型,解决了资源受限环境中对能效高且响应快的人工智能技术的迫切需求,同时保持了理解长上下文的准确性。这项研究对自然语言处理的更广泛领域具有影响,特别是在为资源受限环境设计高效模型方面。通过在边缘设备上实现更复杂的人工智能功能,Dolphin为在计算资源稀缺的各种应用中实现先进的语言处理铺平了道路。Dolphin模型可在https://huggingface.co/NexaAIDev/Dolphin 上公开获取。
我们介绍了LLaVA-MoD,这是一个新颖的框架,旨在通过从大规模MLLM(l-MLLM)中提炼知识,实现对小规模多模态语言模型(s-MLLM)的高效训练。我们的方法解决了MLLM蒸馏中的两个基本挑战。首先,我们通过将稀疏专家混合(MoE)架构整合到语言模型中,优化了s-MLLM的网络结构,实现了计算效率和模型表现力之间的平衡。其次,我们提出了一种渐进式知识迁移策略,以确保全面的知识迁移。这一策略始于模仿蒸馏,通过最小化输出分布之间的Kullback-Leibler(KL)散度,使得学生模型能够模拟教师网络的理解能力。随后,我们引入了通过直接偏好优化(DPO)进行的偏好蒸馏,其中关键在于将l-MLLM视为参考模型。在这个阶段,s-MLLM在区分优劣示例方面的能力显著提升,超越了l-MLLM,特别是在幻觉基准测试中,使得学生模型更胜一筹。大量实验表明,LLaVA-MoD在各种多模态基准测试中表现优于现有模型,同时保持了最少数量的激活参数和低计算成本。值得注意的是,LLaVA-MoD仅使用了2B个激活参数,在各项基准测试中平均超过Qwen-VL-Chat-7B 8.8%,仅使用了0.3%的训练数据和23%的可训练参数。这些结果突显了LLaVA-MoD有效地从其教师模型中提炼全面的知识,为更高效的MLLM的发展铺平了道路。代码将在以下链接提供:https://github.com/shufangxun/LLaVA-MoD。
在大型语言模型(LLM)推理中,LLM请求的输出长度通常被视为事先未知。因此,大多数LLM服务系统采用简单的先来先服务(FCFS)调度策略,导致先到先服务(HOL)阻塞,降低了吞吐量和服务质量。在本文中,我们重新审视这一假设--我们展示了,虽然预测每个请求的确切生成长度是不可行的,但可以使用学习排序来预测一批请求中输出长度的相对排名。排名信息为请求调度提供了宝贵的指导。基于这一见解,我们开发了一种新颖的LLM推理和服务调度器,可以更好地近似最短作业优先(SJF)调度,优于现有方法。我们将此调度器与最先进的LLM服务系统集成,并在几个重要应用中展示了显著的性能改进:在聊天机器人服务中延迟降低了2.8倍,在合成数据生成中吞吐量提高了6.5倍。我们的代码可在 https://github.com/hao-ai-lab/vllm-ltr.git 获取。
为了培养大型语言模型(LLMs)在解决特定领域任务时的专业知识,通常需要进行专门调整,以在预期稳定输出上进行校准行为。为了避免手动准备指导数据集和培训资源带来的巨大成本,利用包括大量低秩适应(LoRA)模型和指导数据集在内的开放知识成为一个良好的起点。然而,现有的模型和数据选择方法侧重于通用能力的表现,而忽视了领域特定部署中暴露的知识差距。在本研究中,我们提出通过引入少量人工标注样本(即K-shot)来提升LLMs任务专业知识的开放知识,以弥补这种差距。具体来说,我们开发了一个高效且可扩展的流水线,以成本效益地生成任务专家,其中K-shot数据介入选择最有前途的专家候选人和与任务相关的指导。我们构建了一个混合专家(MoE)系统,以最大程度地利用多个专家之间的个体但互补的知识。我们揭示了MoE系统成功的两个关键因素,即1)遵循K-shot,2)坚持多样性。对于前者,我们确保选择真正具有K-shot问题解决能力的模型,而不是那些盲目猜测者。此外,在数据选择过程中,优先考虑与K-shot共享任务相关背景的指导。对于后者,我们强调构成专家和模型和数据选择过程中微调指导的多样性。广泛的实验结果证实了我们的方法在各种任务中利用开放知识方面优于现有方法。代码和模型将稍后发布。
加速扩散模型采样速度仍然是一个重要挑战。最近的得分蒸馏方法将一个庞大的教师模型蒸馏成一个一步生成器学生模型,通过计算学生模型生成的样本上两个得分函数之间的差异来优化该模型。然而,在蒸馏过程的早期阶段存在得分不匹配问题,因为现有方法主要集中在将预训练扩散模型的端点用作教师模型,忽视了学生生成器与教师模型之间的收敛轨迹的重要性。为了解决这个问题,我们通过引入教师模型的整个收敛轨迹扩展了得分蒸馏过程,并提出了分布回溯蒸馏(DisBack)用于蒸馏学生生成器。DisBack包括两个阶段:退化记录和分布回溯。退化记录旨在获得教师模型的收敛轨迹,记录了从训练有素的教师模型到未经训练的初始学生生成器的退化路径。该退化路径隐含地表示了教师模型的中间分布。然后,分布回溯训练一个学生生成器来回溯中间分布,以逼近教师模型的收敛轨迹。大量实验证明,DisBack比现有的蒸馏方法实现了更快更好的收敛,并实现了可比的生成性能。值得注意的是,DisBack易于实现,并且可以推广到现有的蒸馏方法以提升性能。我们的代码可以在https://github.com/SYZhang0805/DisBack 上公开获取。
随着科学文献的指数增长,需要先进的工具来进行有效的知识探索。我们提出了知识导航器(Knowledge Navigator),这是一个旨在通过将广泛主题查询检索到的文档组织和结构化为可导航的两级命名和描述性科学主题和子主题层次结构,以增强探索性搜索能力的系统。这种结构化组织提供了领域内研究主题的整体视图,同时还通过允许用户细化焦点并检索到额外相关文档,使用户能够在特定子主题内进行迭代搜索和深入知识发现。知识导航器结合了LLM能力和基于聚类的方法,以实现一种有效的浏览方法。我们通过对两个新颖基准数据集CLUSTREC-COVID和SCITOC进行自动和手动评估,展示了我们方法的有效性。我们的代码、提示和基准数据集已公开提供。
对于混合专家(Mixture-of-Experts,MoE)模型,不平衡的专家负载会导致路由崩溃或增加计算开销。现有方法通常采用辅助损失来鼓励负载平衡,但大型辅助损失会在训练过程中引入非可忽略的干扰梯度,从而损害模型性能。为了在训练过程中控制负载平衡而不产生不良梯度,我们提出了Loss-Free Balancing,其特点是采用无辅助损失的负载平衡策略。具体而言,在进行前K个路由决策之前,Loss-Free Balancing将首先对每个专家的路由分数应用专家智能偏差。通过根据最近负载动态更新每个专家的偏差,Loss-Free Balancing可以始终保持专家负载的平衡分布。此外,由于Loss-Free Balancing不会产生任何干扰梯度,它还提高了从MoE训练中获得的模型性能上限。我们在具有多达30亿参数、训练多达2000亿标记的MoE模型上验证了Loss-Free Balancing的性能。实验结果表明,与传统的辅助损失控制的负载平衡策略相比,Loss-Free Balancing在性能和负载平衡方面均取得了更好的效果。
尽管曼巴架构在短文本自然语言处理(NLP)任务中展现出卓越的推理效率和竞争性能,但实证证据表明,与基于Transformer的模型相比,其理解长文本的能力受到限制。在本研究中,我们调查了曼巴模型在处理长文本时遇到的效率问题,并提出了ReMamba,它增强了曼巴理解长文本的能力。ReMamba在两阶段的重新前向过程中结合了选择性压缩和适应技术,几乎不增加额外的推理成本开销。在LongBench和L-Eval基准测试上的实验结果表明,ReMamba的有效性,分别比基线提高了3.2和1.6个点,并且几乎达到了同等规模Transformer模型的性能水平。
我们探讨了如何增强下一个标记预测模型,以在真实机器人上执行上下文内模仿学习,其中机器人通过解释输入阶段提供的上下文信息来执行新任务,而无需更新其基础策略参数。我们提出了上下文机器人Transformer(ICRT),这是一个因果Transformer,对感知运动轨迹进行自回归预测,而无需依赖任何语言数据或奖励函数。这种表述使得在测试阶段通过使用新任务的感知运动轨迹(由图像观察、动作和状态元组组成,通过人类远程操作收集)提示模型,从而实现了灵活且无需训练的执行新任务。通过对Franka Emika机器人进行实验,结果表明ICRT可以适应由提示指定的新任务,即使在与提示和训练数据都不同的环境配置中也能胜任。在多任务环境设置中,ICRT在泛化到未见任务方面明显优于当前机器人学领域中最先进的下一个标记预测模型。代码、检查点和数据可在https://icrt.dev/ 上获取。
将现有模型的部分用于重建新模型,通常被称为基于示例的建模,在计算机图形领域是一种经典方法。先前的研究主要集中在形状组合上,使其在从现实场景中捕获的3D对象的逼真组合方面难以使用。这导致将多个NeRF合并为单个3D场景,以实现无缝外观混合。然而,当前的SeamlessNeRF方法由于其基于梯度的策略和基于网格的表示而难以实现对真实场景的交互式编辑和和谐拼接。为此,我们提出了一种基于示例的建模方法,使用样本引导合成将多个高斯场组合到基于点的表示中。具体而言,对于组合,我们创建了一个GUI,用于实时分割和转换多个场,轻松获得由3D高斯喷洒(3DGS)表示的模型的语义有意义的组合。对于纹理混合,由于3DGS的离散和不规则性质,直接应用梯度传播如SeamlessNeRF并不支持。因此,提出了一种新颖的基于采样的克隆方法,用于协调混合同时保留原始丰富的纹理和内容。我们的工作流程包括三个步骤:1)使用精心设计的GUI实时分割和转换高斯模型,2)KNN分析以识别源模型和目标模型之间交叉区域的边界点,以及3)使用基于采样的克隆和梯度约束对目标模型进行两阶段优化。广泛的实验结果验证了我们的方法在逼真合成方面明显优于先前的工作,展示了其实用性。更多演示可在https://ingra14m.github.io/gs_stitching_website找到。
在过去的几年里,已经取得了显著进展,能够仅通过真实人类的视频创建逼真且可驾驶的3D化身。然而,一个核心的挑战是通过文本描述对服装风格进行精细和用户友好的编辑。为此,我们提出了TEDRA,这是第一种允许基于文本编辑化身的方法,保持化身的高保真度、时空连贯性和动态性,并实现骨骼姿势和视角控制。我们首先训练一个模型,创建一个可控且高保真度的真实演员数字副本。接下来,我们通过在不同摄像机角度捕获的真实角色的各种帧上微调预训练的生成扩散模型,个性化地调整它,以确保数字表示忠实地捕捉真实人物的动态和运动。这两阶段的过程为我们的动态人类化身编辑方法奠定了基础。利用这个个性化的扩散模型,我们使用基于我们的个性化正常对齐得分蒸馏采样(PNA-SDS)的模型引导框架,根据提供的文本提示修改动态化身。此外,我们提出了一种时间步骤退火策略,以确保高质量的编辑。我们的结果表明,在功能性和视觉质量方面,相比先前的工作有明显的改进。