每日精选AI研究论文及翻译
在这份技术报告中,我们提出了 ChemVLM,这是首个专注于化学领域的开源多模态大型语言模型,旨在解决化学图像理解与文本分析之间的不兼容性。我们基于 VIT-MLP-LLM 架构构建了这一模型,利用 ChemLLM-20B 作为基础大型模型,赋予我们的模型在理解和利用化学文本知识方面强大的能力。此外,我们采用 InternVIT-6B 作为强大的图像编码器。我们从化学领域精心筛选了高质量的数据,包括分子、反应式和化学考试数据,并将其编制成双语多模态问答数据集。我们在多个开源基准测试和三个自定义评估集上测试了我们模型的性能。实验结果表明,我们的模型取得了出色的表现,在六个涉及任务中的五个中获得了最先进的结果。我们的模型可在 https://huggingface.co/AI4Chem/ChemVLM-26B 找到。
文本到图像模型是图像生成的强大工具。然而,生成过程类似于掷骰子,很难实现捕捉用户需求的单一图像。本文提出了一个框架,通过从生成图像的各个部分合成图像,从而创建用户期望的图像,本质上形成了一个生成式拼贴照片。给定由ControlNet生成的一堆图像,使用相同的输入条件和不同的种子,我们让用户使用刷子界面从生成的结果中选择所需部分。我们引入了一种新颖的技术,接受用户的刷子笔画,利用基于图的优化在扩散特征空间中对生成的图像进行分割,然后通过一种新的特征空间混合方法合成分割区域。我们的方法在合成时忠实地保留了用户选择的区域,使它们和谐地组合在一起。我们展示了我们灵活的框架可用于许多应用,包括生成新的外观组合,修复不正确的形状和瑕疵,以及改进提示对齐。我们展示了每个应用的引人注目的结果,并证明我们的方法优于现有的图像混合方法和各种基准线。
本文介绍了Aquila2系列,包括参数大小为70、34和7亿的多语言模型。这些模型是基于一种名为HeuriMentor(HM)的创新框架进行训练的,该框架提供了关于模型收敛的实时见解,增强了训练过程和数据管理。HM系统包括自适应训练引擎(ATE)、训练状态监视器(TSM)和数据管理单元(DMU),可以精确监控模型的训练进度,实现数据分发的高效优化,从而提高训练效果。广泛的评估显示,Aquila2模型系列在英文和中文基准测试中表现出色。具体而言,Aquila2-34B在量化为Int4时仅表现出轻微性能下降。此外,我们已经公开发布了我们的训练代码(https://github.com/FlagOpen/FlagScale)和模型权重(https://github.com/FlagAI-Open/Aquila2),以支持正在进行的研究和应用程序开发。
我们描述了一个大规模数据集——{\em DeepSpeak}——其中包含真实和深度伪造的人们在网络摄像头前说话和做手势的视频。该数据集的第一个版本中,真实视频包括来自220名不同个体的9小时录影。虚假视频包括一系列不同的最先进的换脸和嘴唇同步深度伪造视频,总计超过25小时,具有自然和人工智能生成的声音。我们计划发布该数据集的未来版本,其中将包含不同和更新的深度伪造技术。该数据集可供研究和非商业用途免费使用;对于商业使用的请求将予考虑。
最近在思维链(CoT)和思维程序(PoT)方法方面的最新进展极大地增强了语言模型的数学推理能力,促进了它们与LLM一起集成到指导调优数据集中。然而,现有的大规模数据集创建方法需要大量种子数据和高计算成本进行数据合成,这对可扩展性构成了重大挑战。我们引入了InfinityMATH,一个可扩展的用于程序化数学推理的指导调优数据集。构建流程强调将数字与数学问题解耦,以合成独立于数字的程序,从而实现高效灵活的扩展,同时最大程度地减少对特定数值的依赖。使用开源语言和代码模型(如Llama2和CodeLlama)进行微调实验展示了InfinityMATH的实际优势。这些微调模型在领域内和领域外基准测试中都表现出显著的相对改进,平均范围从184.7%到514.3%不等。此外,这些模型在GSM8K+和MATH+基准测试中表现出很高的稳健性,这些测试集是简单数字变化的增强版本。InfinityMATH确保模型在更广泛的数学问题范围内更加多才多艺和有效。数据可在https://huggingface.co/datasets/flagopen/InfinityMATH获取。
从现实世界捕获的3D场景的建模和操作在各种应用中至关重要,吸引了越来越多的研究兴趣。虽然先前关于编辑的研究通过操纵3D网格取得了有趣的结果,但它们通常需要准确重建的网格来执行编辑,这限制了它们在3D内容生成中的应用。为了填补这一空白,我们引入了一种基于3D高斯散射的新型单图驱动3D场景编辑方法,通过直接在2D图像平面上编辑内容实现直观操作。我们的方法学习优化3D高斯函数,使其与从原始场景的用户指定视点渲染的图像的编辑版本对齐。为了捕捉远程物体变形,我们在3D高斯散射的优化过程中引入位置损失,并通过重新参数化实现梯度传播。为了处理从指定视点渲染时的遮挡3D高斯函数,我们构建了一个基于锚点的结构,并采用了适用于处理远程变形并保持结构稳定的粗到细的优化策略。此外,我们设计了一种新颖的遮罩策略,自适应地识别非刚性变形区域进行精细建模。大量实验证明了我们的方法在处理几何细节、远程和非刚性变形方面的有效性,展示了与先前方法相比卓越的编辑灵活性和质量。
最近,人们研究了在各种分布场景下生成通用波形的任务。虽然基于GAN的方法在快速波形生成方面表现出了优势,但它们容易受到训练-推断不匹配的情况的影响,比如两阶段文本转语音。与此同时,基于扩散的模型在其他领域展现了强大的生成性能;然而,在波形生成任务中由于推断速度慢而鲜为人知。最重要的是,目前还没有一种生成器架构能够明确地解开高分辨率波形信号的自然周期特征。在本文中,我们提出了一种新颖的通用波形生成模型PeriodWave。首先,我们引入了一种能够在估计矢量场时捕捉波形信号周期特征的周期感知流匹配估计器。此外,我们利用多周期估计器避免重叠,捕捉波形信号的不同周期特征。虽然增加周期数可以显著提高性能,但这需要更多的计算成本。为了减少这个问题,我们还提出了一种单周期条件通用估计器,可以通过逐周期批量推断进行前馈。此外,我们利用离散小波变换无损解开波形信号的频率信息,用于高频建模,并引入FreeU来减少波形生成中的高频噪声。实验结果表明,我们的模型在Mel频谱重建和文本转语音任务中均优于先前的模型。所有源代码将在https://github.com/sh-lee-prml/PeriodWave 上提供。
理解场景的三维语义是各种场景的基本问题,比如具身代理。虽然 NeRF 和 3DGS 擅长新视角合成,但先前用于理解它们语义的方法局限于不完整的三维理解:它们的分割结果是二维掩模,监督则锚定在二维像素上。本文重新审视这一问题集,以追求对由 NeRF 和 3DGS 建模的场景的更好三维理解。1)我们直接监督三维点以训练语言嵌入场。它在不依赖多尺度语言嵌入的情况下实现了最先进的准确性。2)我们将预训练的语言场转移到 3DGS,实现了首个实时渲染速度,而不牺牲训练时间或准确性。3)我们引入了一个用于评估重建几何和语义的三维查询和评估协议。代码、检查点和注释将在网上提供。项目页面:https://hyunji12.github.io/Open3DRF