每日精选AI研究论文及翻译
视觉-语言模型(VLMs)领域以图像和文本作为输入并输出文本,正在迅速发展,但在开发流程的若干关键方面尚未达成共识,包括数据、架构和训练方法。本文可被视为构建VLM的教程。我们首先全面概述当前最先进的方法,突出每种方法的优势和劣势,解决该领域面临的主要挑战,并为未充分探索的领域提出有前景的研究方向。然后,我们详细介绍构建Idefics3-8B的实际步骤,这是一种强大的VLM,明显优于其前身Idefics2-8B,同时在开放数据集上高效训练,使用简单的流程。这些步骤包括创建Docmatix,一个用于提高文档理解能力的数据集,比以前可用的数据集大240倍。我们发布了该模型以及为其训练创建的数据集。
最近,对多模态大型语言模型(MLLMs)进行全面评估在研究界引起了广泛关注。然而,我们注意到现有基准存在一些共同障碍,使得难以衡量模型在现实世界中面临的重大挑战,包括:1)数据规模小导致性能变化很大;2)依赖基于模型的注释会导致数据质量受限;3)任务难度不足,尤其是由于图像分辨率有限而引起的。为了解决这些问题,我们引入了MME-RealWorld。具体而言,我们从公共数据集和互联网收集了超过30万张图像,筛选出13,366张高质量图像进行注释。这涉及到25名专业标注员和7名MLLMs专家的努力,共贡献了29,429个问题-答案对,涵盖了5个真实场景中的43个子任务,即使对人类来说也极具挑战性。据我们所知,MME-RealWorld是迄今为止最大的手动注释基准,具有最高分辨率,并专注于真实世界应用。我们进一步进行了全面评估,涉及28个知名MLLMs,如GPT-4o、Gemini 1.5 Pro和Claude 3.5 Sonnet。我们的结果显示,即使是最先进的模型也难以应对我们的基准,其中没有一个达到60%的准确率。感知高分辨率图像和理解复杂的真实世界场景的挑战仍然是亟待解决的问题。数据和评估代码已发布在https://mme-realworld.github.io/。
在计算机视觉和图形学中,3D沉浸式场景生成是一项具有挑战性但又至关重要的任务。理想的虚拟3D场景应该具备以下特点:1)展现全方位视角的一致性,2)允许在复杂场景层次结构中自由探索。现有方法要么依赖于通过修补逐步扩展场景,要么采用全景表示来表达大视场场景环境。然而,在扩展过程中生成的场景容易出现语义漂移,并且无法处理场景层次结构中的遮挡。为了解决这些挑战,我们引入了LayerPano3D,这是一个新颖的框架,用于从单个文本提示生成全景式的可探索的3D场景。我们的关键洞察是将参考的2D全景图分解成不同深度级别的多个层,其中每个层通过扩散先验从参考视角中展示未见空间。LayerPano3D包括多个专门设计:1)我们引入了一种新颖的文本引导的锚定视图合成流程,用于高质量、一致的全景生成。2)我们开创了作为底层表示的分层3D全景,用于管理复杂的场景层次结构,并将其提升为3D高斯函数,以涂抹详细的360度全方位场景,具有不受限制的观看路径。大量实验证明,我们的框架在全景一致性和沉浸式探索体验方面生成了最先进的3D全景场景。我们相信LayerPano3D在推进3D全景场景创建方面具有广泛的应用前景。
流行的Transformer架构中自注意机制中的二次计算复杂度对训练和推断提出了重大挑战,特别是在效率和内存需求方面。为了解决这些挑战,本文介绍了一种新颖的快速计算方法,用于多层Transformer模型中的梯度计算。我们的方法使得几乎可以在线性时间n^{1+o(1)}内计算整个多层Transformer模型的梯度,其中n为输入序列长度。这一突破显著降低了与传统二次时间复杂度相关的计算瓶颈。我们的理论适用于任何损失函数,并在整个模型中保持有界的近似误差。此外,我们的分析可以应用于包含许多实用子模块的多层Transformer模型,例如残差连接、自回归掩码和多头注意力。通过提高大型语言模型中梯度计算的效率,我们希望我们的工作能基于我们的理论结果促进更有效的长上下文语言模型的训练和部署。
最近,一系列内存高效的LLM训练算法备受青睐。这些方法利用梯度的低秩结构,通过奇异值分解(SVD)找到的投影矩阵将优化器状态投影到一个子空间中。然而,这些算法的收敛性很大程度上取决于它们的投影矩阵的更新规则。在这项工作中,我们首次为投影矩阵的任意更新规则提供了收敛性保证。这个保证通常适用于可以用哈密顿下降进行分析的优化器,包括大多数常见的优化器,如LION、Adam等。受我们对理论的理解启发,我们提出了在线子空间下降(Online Subspace Descent),这是一种新的无需SVD的子空间下降优化器系列。在线子空间下降不是通过更新特征向量来更新投影矩阵,而是通过在线PCA来更新投影矩阵。在线子空间下降灵活,并且对训练只引入最小的额外开销。我们展示,在C4数据集上预训练LLaMA模型(参数范围从6千万到70亿)的任务中,相比最先进的低秩训练方法,在线子空间下降在不同设置下实现了更低的困惑度和更好的下游任务性能,并缩小了与全秩基准之间的差距。
基于语音驱动的3D运动合成旨在基于人类语音创建逼真的动画,可用于虚拟现实、游戏和电影制作等领域。现有方法仅依赖语音音频进行运动生成,导致合成结果不准确且缺乏灵活性。为了解决这一问题,我们引入了一种新颖的文本引导的3D人体运动合成方法,称为T3M。与传统方法不同,T3M允许通过文本输入精确控制运动合成,增强了多样性和用户定制程度。实验结果表明,T3M在定量指标和定性评估方面均能明显优于现有方法。我们已在https://github.com/Gloria2tt/T3M.git上公开发布了我们的代码。
定制视频生成旨在通过文本提示和主题参考图像生成高质量视频。然而,由于仅在静态图像上训练,主题学习的微调过程会破坏视频扩散模型(VDMs)结合概念和生成动作的能力。为恢复这些能力,一些方法使用类似于提示的额外视频来微调或引导模型。这需要频繁更改引导视频,甚至在生成不同动作时重新调整模型,这对用户来说非常不便。在本文中,我们提出了CustomCrafter,这是一个新颖的框架,可以保留模型的动作生成和概念组合能力,无需额外视频和微调即可恢复。为了保留概念组合能力,我们设计了一个即插即用模块,用于更新VDMs中的少量参数,增强模型捕捉外观细节和概念组合能力以适应新主题。对于动作生成,我们观察到VDMs倾向于在去噪的早期阶段恢复视频的运动,而在后期专注于恢复主题细节。因此,我们提出了动态加权视频采样策略。利用我们主题学习模块的可插拔性,我们减少了该模块对去噪早期阶段动作生成的影响,保留了VDMs生成动作的能力。在去噪的后期阶段,我们恢复该模块以修复指定主题的外观细节,从而确保主题外观的保真度。实验结果表明,我们的方法与先前方法相比有显著改进。
高分辨率视觉语言模型(VLMs)被广泛应用于多模态任务中,通过保留详细的图像信息来提高准确性。然而,由于对输入图像的多个分区进行编码,这些模型通常会生成过多的视觉标记。在资源受限的环境中,特别是在使用通用GPU的情况下,处理这些过多的视觉标记具有挑战性。为了支持高分辨率图像并满足资源约束,我们提出了高分辨率早期丢弃(HiRED),这是一种在大型语言模型(LLM)阶段之前在固定标记预算内运行的标记丢弃方案。HiRED可以与现有的高分辨率VLMs轻松集成,因为它无需额外训练,同时仍保持优越的准确性。我们在初始层中策略性地利用视觉编码器的注意力来评估每个图像分区的视觉内容,并相应地分配标记预算。然后,利用最终层中的注意力,我们从分配的预算中选择每个分区中最重要的视觉标记,丢弃其余的标记。经验上,在NVIDIA TESLA P40 GPU上应用于LLaVA-Next-7B时,HiRED在20%标记预算下,将标记生成吞吐量提高了4.7倍,将首个标记生成延迟缩短了15秒,并为单次推断节省了2.3 GB的GPU内存。
联邦学习(FL)为跨分布式设备的协作机器学习提供了一种有前景的方法。然而,其采用受到建立可靠通信架构的复杂性和对机器学习和网络编程专业知识的需求的阻碍。本文提出了一个全面的解决方案,简化了FL任务的编排,同时整合了基于意图的自动化。我们开发了一个用户友好的Web应用程序,支持联邦平均(FedAvg)算法,使用户能够通过直观的界面配置参数。后端解决方案有效地管理参数服务器和边缘节点之间的通信。我们还实现了模型压缩和调度算法,以优化FL的性能。此外,我们利用在定制数据集上训练的经过微调的语言模型(LLM)探索了FL中基于意图的自动化,使用户能够使用高级提示进行FL任务。我们观察到,基于LLM的自动化解决方案在减少了最多64%的传输字节和最多46%的CPU时间的同时,实现了与标准基于Web的解决方案相当的测试准确性。此外,我们利用LLM进行神经架构搜索(NAS)和超参数优化(HPO)以提高性能。我们观察到,通过使用这种方法,FL任务的测试准确性可以提高10-20%。
3D高斯喷洒(3DGS)通过使用大量小高斯函数实现快速且高质量的渲染,但这也导致了显著的内存消耗。对大量高斯函数的依赖限制了基于3DGS的模型在低成本设备上的应用,因为内存限制。然而,简单地减少高斯函数的数量以适应内存容量较小的设备会导致较低的质量,无法与高端硬件上实现的质量相媲美。为解决这种缺乏可伸缩性的问题,我们提出将灵活细节级别(FLoD)集成到3DGS中,以允许根据硬件能力在不同细节级别上呈现场景。虽然现有的具有细节级别的3DGS侧重于详细重建,但我们的方法提供了使用少量高斯函数进行重建以减少内存需求,以及使用更多高斯函数以获得更多细节。实验证明了我们的各种渲染选项在渲染质量和内存使用之间的权衡,从而允许在不同内存约束下进行实时渲染。此外,我们展示了我们的方法适用于不同的3DGS框架,表明其具有整合到未来最先进发展中的潜力。项目页面:https://3dgs-flod.github.io/flod.github.io/
随着大型语言模型(LLMs)的进步,一个重要的应用案例是用普通英语查询数据库,将用户问题翻译成可执行的数据库查询,这方面取得了显著进展。然而,现实世界中的数据集往往具有大量属性和复杂值,使得LLMs准确识别自然语言查询中相关列或值的任务变得复杂。传统方法无法充分传达数据集的规模和复杂性给LLM。为了解决这些挑战,我们提出了一个新颖的框架,利用输入表格上的全文搜索(FTS)。这种方法不仅能够精确检测特定值和列,还能缩小语言模型的搜索空间,从而提高查询准确性。此外,它支持自定义自动完成功能,根据表中的数据提供查询建议。这种集成显著改进了用户与复杂数据集之间的交互,为当前表查询能力所面临的局限性提供了一个复杂的解决方案。这项工作附带了适用于Mac和Windows平台的应用程序,读者可以在自己的数据上尝试。
条件图像生成有助于实现无缝编辑和创作逼真图像。然而,在嘈杂或超出分布范围(OoD)的图像上进行条件处理会带来重大挑战,特别是在平衡对输入的忠实度和输出的逼真度方面。我们引入了自信普通微分编辑(CODE),这是一种新颖的图像合成方法,能有效处理OoD引导图像。CODE利用扩散模型作为生成先验,通过沿着概率流普通微分方程(ODE)轨迹进行基于分数的更新来增强图像。这种方法不需要特定任务的训练,也不需要手工模块,也不对影响条件图像的破坏做出任何假设。我们的方法与任何扩散模型兼容。CODE位于条件图像生成和盲图像恢复的交叉点,以完全盲目的方式运行,仅依赖于预训练的生成模型。我们的方法提出了一种盲目恢复的替代方法:不是针对基于对底层破坏的假设而定位特定的真实图像,而是旨在增加输入图像的可能性同时保持忠实度。这将导致在输入周围出现最可能的分布内图像。我们的贡献有两个方面。首先,CODE引入了基于ODE的新颖编辑方法,相比其基于SDE的对应物,提供了增强的控制、逼真度和忠实度。其次,我们引入了基于置信区间的剪切方法,通过允许忽略某些像素或信息,从而在盲目方式下增强恢复过程,提高了CODE的有效性。实验结果表明,CODE在现有方法中的有效性,特别是在涉及严重退化或OoD输入的情况下。