每日精选AI研究论文及翻译
最近多模态大型语言模型(MLLMs)的激增从根本上改变了人工智能研究和产业的格局,为迈向下一个人工智能里程碑指明了一条充满希望的道路。然而,仍然存在重大挑战阻碍了MLLMs在实际应用中的可行性。最显著的挑战来自运行具有大量参数和广泛计算的MLLM的巨大成本。因此,大多数MLLMs需要部署在高性能云服务器上,这极大地限制了它们的应用范围,如移动、离线、对能源敏感和保护隐私的场景。在这项工作中,我们提出了MiniCPM-V,一系列可部署在端侧设备上的高效MLLMs。通过在架构、预训练和对齐方面整合最新的MLLM技术,最新的MiniCPM-Llama3-V 2.5具有几个显著特点:(1)强大性能,在OpenCompass上胜过GPT-4V-1106、Gemini Pro和Claude 3,这是对11个热门基准测试的全面评估,(2)强大的OCR能力和1.8M像素的高分辨率图像感知,适用于任何纵横比,(3)低幻觉率的可信行为,(4)支持30多种语言的多语言支持,以及(5)在手机上的高效部署。更重要的是,MiniCPM-V可以被视为一个有前途的趋势的代表性示例:为了实现可用性(例如GPT-4V)级别的性能,模型大小正在迅速减小,同时端侧计算能力快速增长。这共同表明,部署在端设备上的GPT-4V级别MLLMs正变得越来越可能,从而在不久的将来打开更广泛的实际人工智能应用领域。
对话是人机交互(HCI)中最自然的方式。最近语音语言模型(SLM)的进展显著增强了基于语音的对话人工智能。然而,这些模型局限于基于轮次的对话,缺乏在实时口语场景中与人类互动的能力,例如在生成内容不理想时被打断。为解决这些限制,我们探索了交互式语音语言模型(iSLM)中的全双工建模(FDM),重点是增强实时互动,更明确地探索打断的基本能力。我们引入了一种新颖的模型设计,即听说语言模型(LSLM),这是一个端到端系统,配备了听和说两个通道。我们的LSLM采用基于标记的仅解码器TTS进行语音生成,以及用于实时音频输入的流式自监督学习(SSL)编码器。LSLM融合了两个通道以进行自回归生成,并实时检测轮次交替。我们探索了三种融合策略——早期融合、中间融合和晚期融合,其中中间融合在语音生成和实时互动之间实现了最佳平衡。两个实验设置,基于命令的FDM和基于语音的FDM,展示了LSLM对噪声的稳健性和对多样指令的敏感性。我们的结果突显了LSLM在最小影响现有系统的情况下实现全双工通信的能力。本研究旨在推动交互式语音对话系统的发展,增强其在现实世界环境中的适用性。
实现检索增强生成(RAG)系统本质上是复杂的,需要对数据、使用案例和复杂设计决策有深刻的理解。此外,评估这些系统面临重大挑战,需要通过多方面的方法评估检索准确性和生成质量。我们介绍了RAG Foundry,这是一个用于增强大型语言模型以应用于RAG案例的开源框架。RAG Foundry将数据创建、训练、推理和评估整合为一个工作流程,促进了为在RAG环境中训练和评估大型语言模型而创建数据增强数据集。这种整合使得可以快速原型设计和尝试各种RAG技术,让用户能够轻松生成数据集并使用内部或专业知识源训练RAG模型。我们通过使用多样的RAG配置增强和微调Llama-3和Phi-3模型来展示框架的有效性,在三个知识密集型数据集上展示了一致的改进。代码已作为开源发布在https://github.com/IntelLabs/RAGFoundry。
我们介绍了 Lumina-mGPT,这是一系列多模态自回归模型,能够执行各种视觉和语言任务,特别擅长根据文本描述生成灵活逼真的图像。与现有的自回归图像生成方法不同,Lumina-mGPT 使用预训练的仅解码器变压器作为建模多模态标记序列的统一框架。我们的关键洞察是,一个简单的仅解码器变压器与多模态生成预训练(mGPT)相结合,利用大规模交错文本-图像序列上的下一个标记预测目标,可以学习广泛和通用的多模态能力,从而实现逼真的文本到图像生成。基于这些预训练模型,我们提出了灵活渐进监督微调(FP-SFT),在高质量图像-文本对上进行,以充分释放它们在任何分辨率下进行高美学图像合成的潜力,同时保持它们的通用多模态能力。此外,我们引入了全能监督微调(Omni-SFT),将 Lumina-mGPT 转变为一个基础模型,无缝实现全能任务统一。结果模型展示了多样的多模态能力,包括视觉生成任务,如灵活的文本到图像生成和可控生成,视觉识别任务,如分割和深度估计,以及视觉-语言任务,如多轮视觉问答。此外,我们在直接比较中分析了扩散基础和自回归方法之间的差异和相似之处。
我们介绍 MeshAnything V2,这是一种自回归变换器,用于生成与给定形状对齐的艺术家创建的网格(AM)。它可以与各种3D资产生产流程集成,实现高质量、高度可控的AM生成。MeshAnything V2在相同规模的模型下,效率和性能均超越先前的方法。这些改进归功于我们新提出的网格标记方法:相邻网格标记(AMT)。与以往将每个面用三个顶点表示的方法不同,AMT在可能的情况下使用单个顶点。与以往的方法相比,AMT平均需要大约一半的标记序列长度来表示相同的网格。此外,来自AMT的标记序列更紧凑、结构更良好,从根本上有利于AM生成。我们的大量实验证明,AMT显著提高了AM生成的效率和性能。项目页面:https://buaacyw.github.io/meshanything-v2/
基于模型的评估是成功模型开发的核心 -- 作为训练的奖励模型,以及替代人类评估。为了训练这样的评估者,标准方法是收集大量关于模型响应的人类偏好判断,这既昂贵又随着模型改进而变得陈旧。在这项工作中,我们提出了一种旨在改进评估者的方法,无需人类注释,仅使用合成训练数据。从未标记的指令开始,我们的迭代自我改进方案生成对比模型输出,并训练一个LLM作为评判者产生推理迹象和最终判断,在每个新迭代中重复这种训练,使用改进的预测。在没有任何标记的偏好数据的情况下,我们的自学习评估者可以将强大的LLM(Llama3-70B-Instruct)从75.4提高到88.3(通过多数投票达到88.7)在RewardBench上。这优于常用的LLM评判者,如GPT-4,并与使用标记示例训练的性能最佳的奖励模型的性能相匹敌。
指导调整在将大型语言模型(LLMs)与人类偏好对齐中发挥关键作用。尽管存在大量开放的指导数据集,但简单地训练LLM使用所有现有指导可能并不是最佳选择,也不切实际。为了找出最有益的数据点,自然语言处理(NLP)和深度学习领域提出了数据评估和选择方法。然而,在指导调整的背景下,仍然存在一个知识空白,即可以采用何种数据评估指标以及如何将其整合到选择机制中。为了弥补这一空白,我们对现有文献进行了全面回顾,特别是针对LLMs的指导调整的数据评估和选择方法。我们将所有适用方法系统地分类为基于质量、基于多样性和基于重要性的方法,构建了一个统一的、细粒度的分类法。对于每个类别,详细阐述了代表性方法,描述了相关研究的格局。此外,对最新方法进行了官方报告结果的比较,以深入讨论它们的局限性。最后,我们总结了开放挑战,并提出了未来研究的有前途的方向。所有相关内容可在https://github.com/yuleiqin/fantastic-data-engineering找到。
视频文本对的质量从根本上决定了文本到视频模型的上限。目前,用于训练这些模型的数据集存在显著缺陷,包括低时间一致性、质量低劣的字幕、视频质量不佳以及数据分布不均衡。目前的视频筛选过程依赖于图像模型进行标记和基于手动规则的筛选,导致计算负荷高,留下了不干净的数据。因此,缺乏适用于文本到视频模型的训练数据集。为解决这一问题,我们提出了VidGen-1M,这是一个优秀的文本到视频模型训练数据集。通过粗到精的筛选策略生成,该数据集保证了高质量的视频和详细的字幕,具有出色的时间一致性。将该数据集用于训练视频生成模型后,实验结果超过了其他模型的表现。
本文提出了ProCreate,这是一种简单易实现的方法,用于提高基于扩散的图像生成模型的样本多样性和创造力,并防止训练数据的复制。ProCreate作用于一组参考图像,并在生成过程中积极推动生成的图像嵌入远离参考嵌入。我们提出了FSCG-8(Few-Shot Creative Generation 8),这是一个少样本创造性生成数据集,涵盖了八个不同类别,包括不同概念、风格和设置,其中ProCreate实现了最高的样本多样性和保真度。此外,我们展示了ProCreate在使用训练文本提示进行大规模评估时有效防止复制训练数据。代码和FSCG-8可在https://github.com/Agentic-Learning-AI-Lab/procreate-diffusion-public获取。项目页面位于https://procreate-diffusion.github.io。
生物学中自然语言处理(NLP)的进展取决于模型解释复杂生物医学文献的能力。传统模型通常在这一领域复杂且特定的语言中遇到困难。本文介绍了BioMamba,这是一个专门为生物医学文本挖掘设计的预训练模型。BioMamba基于Mamba架构,经过大量生物医学文献的预训练。我们的实证研究表明,BioMamba在各种生物医学任务中明显优于BioBERT和通用领域的Mamba等模型。例如,BioMamba在BioASQ测试集上实现了100倍困惑度的降低和4倍交叉熵损失的降低。我们概述了模型架构、预训练过程和微调技术。此外,我们发布了代码和训练模型,以促进进一步研究。
多智能体学习算法在各种游戏中成功生成了超人类规划,但对部署的多智能体规划器设计影响甚微。将这些技术应用于多智能体规划的一个关键瓶颈是它们需要数十亿步的经验。为了实现对这一规模的多智能体规划的研究,我们提出了GPUDrive,这是一个基于Madrona游戏引擎构建的GPU加速多智能体模拟器,每秒可以生成超过一百万步的经验。观察、奖励和动力学函数直接用C++编写,使用户能够定义复杂、异构的智能体行为,并转换为高性能的CUDA。我们展示了使用GPUDrive,我们能够在Waymo Motion数据集的许多场景中有效训练强化学习智能体,在几分钟内为单个场景生成高效的目标达成智能体,通常在几小时内生成具备一般能力的智能体。我们将这些训练有素的智能体作为代码库的一部分发布在https://github.com/Emerge-Lab/gpudrive。
组合式视觉推理方法将复杂查询转化为可行视觉任务的结构化组合,已在复杂的多模态任务中展现出强大潜力。受最近大型语言模型(LLMs)的进展的推动,通过将LLMs视为少样本/零样本规划器,即视觉-语言(VL)编程,这一多模态挑战已经迈入新阶段。尽管这些方法具有许多优点,但由于LLM规划错误或视觉执行模块的准确性不足而面临挑战,落后于非组合模型。在这项工作中,我们设计了一种“即插即用”方法ExoViP,通过内省验证来纠正规划和执行阶段的错误。我们利用验证模块作为“外骨骼”来增强当前的VL编程方案。具体而言,我们提出的验证模块利用三个子验证器的混合来验证每个推理步骤后的预测,随后校准视觉模块的预测并优化LLMs规划的推理轨迹。在两种代表性的VL编程方法上的实验结果展示了在标准基准上五个组合推理任务上的一致改进。基于此,我们相信ExoViP可以促进在开放领域多模态挑战中的更好性能和泛化能力。
最近开源大型语言模型(LLMs)的激增使开发人员能够创建基于人工智能的解决方案,同时保持对隐私和合规等方面的控制,从而提供模型部署过程的治理和所有权。为了利用这些LLMs,需要推理引擎。这些引擎将模型的权重加载到可用资源(如GPU)上,并处理查询以生成响应。LLM的推理速度或性能对于实时应用至关重要,因为它每次推理计算数百万或数十亿次浮点运算。最近,出现了先进的推理引擎,如vLLM,它们融合了诸如高效内存管理之类的新颖机制,以实现最先进的性能。在本文中,我们分析了20个LLM的性能,特别是通过两个推理库(vLLM和HuggingFace的pipelines)生成的吞吐量(单位时间内生成的标记数)。我们调查了开发人员必须配置的各种超参数如何影响推理性能。我们的结果显示,吞吐量景观不规则,具有明显的峰值,突显了超参数优化对实现最大性能的重要性。我们还表明,在升级或降级用于推理的GPU模型时应用超参数优化可以将HuggingFace pipelines的吞吐量分别平均提高9.16%和13.7%。
先进的人工智能助手结合前沿的LLMs和工具访问,可以自主地代表用户执行复杂任务。虽然这类助手的帮助性可以通过访问用户信息(包括电子邮件和文档)大幅提升,但这也带来了隐私方面的担忧,即助手在没有用户监督的情况下与第三方分享不当信息。为了引导信息共享助手按照隐私期望行事,我们提出将情境完整性(CI)操作化,这是一个将隐私与特定情境中信息适当流动相提并论的框架。具体而言,我们设计并评估了多种策略,以引导助手的信息共享行为符合CI的要求。我们的评估基于一个由合成数据和人类注释组成的新颖表单填充基准,结果显示,促使前沿LLMs进行基于CI的推理产生了良好的效果。