每日精选AI研究论文及翻译
高质量的指导数据对齐大型语言模型(LLMs)至关重要。尽管一些模型,如Llama-3-Instruct,具有开放权重,但它们的对齐数据仍然保持私密,这阻碍了人工智能的民主化。高昂的人力成本和有限的、预定义的提示范围阻碍了现有开源数据创建方法的有效扩展,可能限制了公共对齐数据集的多样性和质量。通过直接从对齐的LLM中提取,能否合成大规模高质量的指导数据?我们提出了一种用于生成大规模对齐数据的自我合成方法,称为Magpie。我们的关键观察是,像Llama-3-Instruct这样的对齐LLMs可以在我们仅输入左侧模板直到保留给用户消息位置时生成用户查询,这要归功于它们的自回归特性。我们利用这种方法提示Llama-3-Instruct,并生成了400万条指导以及它们对应的响应。我们对提取的数据进行了全面分析,并选择了30万个高质量实例。为了将Magpie数据与其他公共指导数据集进行比较,我们使用每个数据集对Llama-3-8B-Base进行微调,并评估微调模型的性能。我们的结果表明,在某些任务中,使用Magpie微调的模型的性能与官方Llama-3-8B-Instruct相当,尽管后者通过受监督微调(SFT)和随后的反馈学习增强了1000万数据点。我们还表明,仅使用Magpie进行SFT可以超越以往用于SFT和偏好优化的公共数据集的性能,例如使用UltraFeedback进行直接偏好优化。这种优势在对齐基准测试中明显,如AlpacaEval、ArenaHard和WildBench。
我们提出了一个视频编辑框架 NaRCan,它整合了混合变形场和扩散先验,以生成高质量的自然规范图像来表示输入视频。我们的方法利用单应性来建模全局运动,并采用多层感知器(MLPs)来捕捉局部残差变形,增强模型处理复杂视频动态的能力。通过在训练的早期阶段引入扩散先验,我们的模型确保生成的图像保持高质量的自然外观,使生成的规范图像适用于视频编辑中的各种下游任务,这是当前基于规范的方法所无法实现的。此外,我们还融合了低秩适应(LoRA)微调,并引入了一种噪声和扩散先验更新调度技术,可以将训练过程加速 14 倍。大量实验结果表明,我们的方法在各种视频编辑任务中优于现有方法,并产生连贯且高质量的编辑视频序列。请查看我们的项目页面以获取视频结果:https://koi953215.github.io/NaRCan_page/。
网络爬虫抓取的图像文本对固有地带有噪音。先前的研究表明,语义对齐和丰富这些对的文本描述可以显著增强模型在各种视觉语言任务中的训练效果,特别是文本到图像生成。然而,这一领域的大规模调查仍然主要是闭源的。我们的论文旨在弥合这一社区努力,利用功能强大且开源的LLaMA-3,一个GPT-4级别的LLM。我们的重新描述流程很简单:首先,我们微调一个由LLaMA-3-8B提供支持的LLaVA-1.5,然后利用它重新描述DataComp-1B数据集中的13亿张图像。我们的实证结果证实,这一增强数据集Recap-DataComp-1B在训练先进的视觉语言模型方面提供了实质性的好处。对于像CLIP这样的判别模型,我们观察到在跨模态检索任务中的零样本性能得到了提升。对于像文本到图像扩散变换器这样的生成模型,生成的图像在与用户的文本指令对齐方面表现出显著改善,特别是在遵循复杂查询时。我们的项目页面是https://www.haqtu.me/Recap-Datacomp-1B/
基于运动的可控文本到视频生成涉及利用运动来控制视频生成。先前的方法通常需要训练模型来编码运动线索或微调视频扩散模型。然而,这些方法在应用于训练领域之外时,往往会导致次优的运动生成。在这项工作中,我们提出了MotionClone,这是一个无需训练的框架,可以实现从参考视频中克隆运动以控制文本到视频的生成。我们在视频反演中采用时间注意力来表示参考视频中的运动,并引入主要的时间注意力指导来减轻注意力权重中嘈杂或非常微妙运动的影响。此外,为了帮助生成模型合成合理的空间关系并增强其及时跟随能力,我们提出了一个位置感知语义指导机制,利用参考视频中前景的粗略位置和原始无分类器指导特征来指导视频生成。大量实验证明,MotionClone 在全局摄像机运动和局部物体运动方面表现出色,具有显著的运动保真度、文本对齐度和时间一致性方面的优势。
近年来,3D生成模型取得了快速发展,为模拟3D物体的动态运动和定制其行为等应用开辟了新的可能性。然而,当前的3D生成模型往往只关注表面特征,如颜色和形状,忽视了控制物体在现实世界中行为的固有物理特性。为了准确模拟与物理一致的动态,必须预测材料的物理特性并将其纳入行为预测过程中。然而,由于现实世界物体的多样化材料具有复杂的物理属性,因此预测其物理属性仍然具有挑战性。在本文中,我们提出了Physics3D,一种通过视频扩散模型学习3D物体各种物理属性的新方法。我们的方法涉及设计基于粘弹性材料模型的高度通用的物理模拟系统,使我们能够以高保真度模拟各种材料。此外,我们从包含更多对现实物体材料理解的视频扩散模型中提取物理先验知识。大量实验证明了我们的方法在弹性和塑性材料上的有效性。Physics3D展现了极大的潜力,可以弥合物理世界与虚拟神经空间之间的差距,提供更好地在虚拟环境中整合和应用现实物理原理的可能性。项目页面:https://liuff19.github.io/Physics3D。
本文介绍了PowerInfer-2,这是一个专为智能手机上大型语言模型(LLMs)进行高速推断而设计的框架,特别适用于模型大小超过设备内存容量的情况。PowerInfer-2的关键见解在于通过将传统矩阵计算分解为细粒度神经元簇计算,利用智能手机中的异构计算、内存和I/O资源。具体而言,PowerInfer-2具有一个多态神经元引擎,可为LLM推断的各个阶段自适应计算策略。此外,它引入了分段神经元缓存和细粒度神经元簇级流水线技术,有效地减少并隐藏了I/O操作带来的开销。PowerInfer-2的实现和评估展示了其支持多种LLM模型的能力,可在两款智能手机上实现高达29.2倍的速度提升,相比于最先进的框架。值得注意的是,PowerInfer-2是第一个在智能手机上以每秒11.68个标记的速率为TurboSparse-Mixtral-47B模型提供服务的系统。对于完全适合内存的模型,PowerInfer-2可以实现大约40%的内存使用减少,同时保持与llama.cpp和MLC-LLM相当的推断速度。欲了解更多详情,包括演示视频,请访问项目网站www.powerinfer.ai/v2。
也许并非如此。我们识别并分析了流行的大规模多任务语言理解(MMLU)基准中的错误。尽管MMLU被广泛采用,但我们的分析显示存在许多地面真相错误,这些错误掩盖了LLM的真实能力。例如,我们发现分析的病毒学子集中有57%的问题存在错误。为了解决这个问题,我们引入了一个全面的框架,使用一种新颖的错误分类法来识别数据集中的错误。然后,我们创建了MMLU-Redux,这是30个MMLU主题中3,000个手动重新注释的问题的子集。利用MMLU-Redux,我们展示了与最初报告的模型性能指标存在显著差异。我们的结果强烈主张修订MMLU中错误频发的问题,以增强其作为基准的未来实用性和可靠性。因此,我们开放了MMLU-Redux以进行额外的注释。https://huggingface.co/datasets/edinburgh-dawg/mmlu-redux。
本文介绍了VideoLLaMA 2,这是一组Video Large Language Models(Video-LLMs),旨在增强视频和音频导向任务中的时空建模和音频理解。在其前身基础上,VideoLLaMA 2集成了定制的时空卷积(STC)连接器,有效捕捉视频数据的复杂时空动态。此外,我们通过联合训练将音频分支整合到模型中,从而通过无缝整合音频线索,丰富了模型的多模态理解能力。在多项选择视频问答(MC-VQA)、开放式视频问答(OE-VQA)和视频字幕(VC)任务上进行全面评估表明,VideoLLaMA 2在开源模型中始终取得竞争力强的结果,甚至在几个基准测试中接近一些专有模型。此外,VideoLLaMA 2在现有模型的音频问答(AQA)和音视频问答(OE-AVQA)基准测试中表现出了合理的改进。这些进展突显了VideoLLaMA 2在多模态理解方面的卓越性能,为智能视频分析系统树立了新的标准。所有模型均为公开,以促进进一步研究。
语言和三维感知的整合对于开发理解并与物理世界互动的具身代理和机器人至关重要。尽管大型语言模型(LLMs)展示了令人印象深刻的语言理解和生成能力,但它们在适应三维环境的过程中(3D-LLMs)仍处于早期阶段。主要挑战之一是缺乏提供语言和三维场景之间密集基础的大规模数据集。在本文中,我们介绍了3D-GRAND,这是一个开创性的大规模数据集,包括40,087个家庭场景,配对了620万个密集基础的场景语言指令。我们的结果表明,使用3D-GRAND进行指令调整显著增强了基础能力,并减少了3D-LLMs中的幻觉。作为我们的贡献的一部分,我们提出了一个全面的基准测试3D-POPE,以系统评估3D-LLMs中的幻觉,从而使未来模型之间能够进行公平比较。我们的实验突显了数据集大小与3D-LLM性能之间的扩展效应,强调了大规模三维文本数据集在推动具身人工智能研究中的关键作用。值得注意的是,我们的结果显示了有效的从模拟到真实的转移的早期信号,表明在大规模合成数据上训练的模型可以在真实世界的三维扫描中表现良好。通过3D-GRAND和3D-POPE,我们旨在为具身人工智能社区提供必要的资源和见解,为更可靠和更有基础的3D-LLMs奠定基础。项目网站:https://3d-grand.github.io
多模态语言模型(MLLMs)展示了“世界模型”的新兴能力——解释和推理复杂的现实世界动态。为了评估这些能力,我们认为视频是理想的媒介,因为它们包含了丰富的现实世界动态和因果关系表示。为此,我们引入了MMWorld,这是一个用于多学科、多方面的多模态视频理解的新基准。MMWorld通过两个独特优势与先前的视频理解基准有所区别:(1)多学科,涵盖通常需要领域专业知识才能全面理解的各种学科;(2)多方面推理,包括解释、反事实思考、未来预测等。MMWorld包括一个人工注释的数据集,用于评估MLLMs对整个视频的问题,以及一个合成数据集,用于分析MLLMs在单一感知模态内的表现。总体而言,MMWorld涵盖了来自七个广泛学科和69个子学科的1,910个视频,配有6,627个问题-答案对和相关字幕。评估包括2个专有和10个开源MLLMs,它们在MMWorld上表现不佳(例如,GPT-4V的准确率仅为52.3%),显示出有很大的改进空间。进一步的消融研究揭示了其他有趣的发现,比如模型与人类的不同技能集。我们希望MMWorld能成为视频中世界模型评估的一个重要步骤。
利用激活稀疏性是显著加速大型语言模型(LLMs)推理过程的一种有前途的方法,而不会影响性能。然而,激活稀疏性取决于激活函数,常用的如SwiGLU和GeGLU等表现出有限的稀疏性。简单地用ReLU替换这些函数无法实现足够的稀疏性。此外,训练数据不足可能进一步增加性能下降的风险。为了解决这些挑战,我们提出了一种新颖的dReLU函数,旨在改善LLM激活稀疏性,同时提供高质量的训练数据混合比例以促进有效的稀疏化。此外,我们利用混合专家模型(MoE)中前馈网络(FFN)专家内的稀疏激活模式,进一步提高效率。通过将我们的神经元稀疏化方法应用于Mistral和Mixtral模型,分别在每次推理迭代中仅激活25亿和43亿个参数,同时实现更强大的模型性能。评估结果表明,这种稀疏性实现了2-5倍的解码加速。值得注意的是,在手机上,我们的TurboSparse-Mixtral-47B实现了每秒11个标记的推理速度。我们的模型可在https://huggingface.co/PowerInfer获得。
最近,应用现代基于扩散的文本到图像生成模型来创作艺术字体,传统上是专业设计师的领域,引起了极大关注。与大多数现有研究集中于生成艺术字体不同,我们的研究旨在解决一个新颖且更具挑战性的问题:多语言字体文本效果的生成。这一任务基本上要求在字体形状画布的限制内生成连贯一致的视觉内容,而不是传统的矩形画布。为了解决这一任务,我们引入了一种新颖的形状自适应扩散模型,能够解释给定形状并在不规则画布内策略性地规划像素分布。为了实现这一目标,我们整理了一个高质量的形状自适应图像文本数据集,并将分割掩模作为视觉条件,引导在不规则画布内进行图像生成过程。这种方法使得传统基于矩形画布的扩散模型能够根据提供的几何形状产生所需的概念。其次,为了保持多个字母之间的一致性,我们还提出了一种无需训练的形状自适应效果转移方法,用于将纹理从生成的参考字母转移到其他字母上。关键见解包括构建字体效果噪声先验并在连接的潜在空间中传播字体效果信息。通过用户偏好研究,我们验证了我们的FontStudio系统的有效性,结果显示我们的系统在审美方面的胜率高达78%,甚至与最新无与伦比的商业产品Adobe Firefly相比也更受青睐。
最近的扩散Transformer(DiTs)展示了在生成高质量的单模态内容方面的卓越能力,包括图像、视频和音频。然而,目前尚未深入探讨基于Transformer的扩散器是否能有效去噪高斯噪声,以实现出色的多模态内容创作。为了弥补这一差距,我们引入了AV-DiT,这是一种新颖高效的音视频扩散Transformer,旨在生成具有视觉和音频轨道的高质量逼真视频。为了最小化模型复杂性和计算成本,AV-DiT利用了一个在仅图像数据上预训练的共享DiT骨干,仅有轻量级的新插入适配器是可训练的。这个共享骨干促进了音频和视频的生成。具体来说,视频分支将一个可训练的时间注意力层整合到一个冻结的预训练DiT块中,以实现时间一致性。此外,少量可训练参数使基于图像的DiT块适应音频生成。另外,一个额外的共享DiT块,配备了轻量级参数,促进了音频和视觉模态之间的特征交互,确保了对齐。在AIST++和Landscape数据集上的大量实验表明,AV-DiT在联合音视频生成方面实现了最先进的性能,且可调参数明显较少。此外,我们的结果突显了,一个共享的图像生成骨干与模态特定的适应是足以构建一个联合音视频生成器。我们将发布源代码和预训练模型。
离线偏好优化是增强和控制大型语言模型(LLM)输出质量的关键方法。通常,偏好优化被视为离线监督学习任务,使用手工设计的凸损失函数。虽然这些方法基于理论洞见,但受人类创造力的固有限制,因此可能损失函数的大搜索空间仍未被充分探索。我们通过执行基于LLM的客观发现来解决这个问题,自动发现新的最先进的偏好优化算法,而无需(专家)人为干预。具体而言,我们迭代地促使LLM提出并实施新的偏好优化损失函数,基于先前评估的性能指标。这一过程导致了先前未知且性能优越的偏好优化算法的发现。其中表现最佳的我们称之为发现的偏好优化(DiscoPOP),这是一种新颖的算法,能够自适应地融合逻辑和指数损失。实验证明了DiscoPOP的最先进性能以及其成功转移到保留任务。
扩散模型在图像和视频合成方面表现出色。然而,将它们扩展到高分辨率输入具有挑战性,需要将扩散管道重组为多个独立组件,从而限制了可扩展性并使下游应用变得复杂。这在训练过程中非常高效,并实现了对高分辨率视频的端到端优化。我们以两种原则方式改进了PDMs。首先,为了强化各个补丁之间的一致性,我们开发了深度上下文融合——一种从低尺度到高尺度补丁以分层方式传播上下文信息的架构技术。其次,为了加快训练和推断速度,我们提出了自适应计算,该方法将更多的网络容量和计算资源分配给粗略图像细节。最终的模型在UCF-101 256^2的条件类视频生成中取得了新的FVD得分66.32和Inception得分87.68的最新成果,超过了最近方法超过100%。接着,我们展示了它可以从基础的36×64低分辨率生成器快速微调,用于高分辨率64×288×512的文本到视频合成。据我们所知,我们的模型是第一个完全端到端训练在如此高分辨率上的基于扩散的架构。项目网页:https://snap-research.github.io/hpdm。
高分辨率的清晰视觉是大型多模态模型(LMMs)的基础,已被证明对视觉感知和推理至关重要。现有作品通常采用直接的分辨率放大方法,其中图像包括全局和局部分支,后者是切割的图像块,但调整为与前者相同的分辨率。这意味着更高的分辨率需要更多的局部块,导致高昂的计算开销,同时,局部图像标记的主导可能会减弱全局上下文。在本文中,我们深入探讨了这些问题,并提出了一个新的框架以及一个精心设计的优化策略。具体而言,我们利用适配器混合从全局视图中提取上下文信息,基于观察到不同的适配器在不同任务上表现出色。关于局部块,引入了可学习的查询嵌入以减少图像标记,最重要的标记将通过基于相似性的选择器进一步选择,这些标记占用户问题的重要部分。我们的实证结果表明了“少即是多”的模式,利用更少但更具信息量的局部图像标记可以提高性能。此外,训练策略面临着重大挑战,因为全局挖掘块和局部压缩块的同时端到端训练并不能产生最佳结果。因此,我们主张采用交替训练方式,确保在全局和局部方面之间平衡学习。最后,我们还介绍了一个对图像细节要求很高的具有挑战性的数据集,增强了局部压缩层的训练。所提出的方法,称为具有复杂任务、局部图像压缩和全局专家混合的LMM(SliME),在各种基准测试中取得了领先的性能,仅使用了200万个训练数据。
我们介绍了一项名为视觉字幕修复(VCR)的新型视觉-语言任务,该任务挑战模型使用图像内的像素级提示准确修复部分遮挡的文本。这一任务源于这样一个观察结果:嵌入在图像中的文本与常见的视觉元素和自然语言有本质区别,因为需要对齐视觉、文本和嵌入在图像中的文本的模态。虽然许多研究已经将嵌入在图像中的文本整合到视觉问答任务中,但是对这些任务的方法通常依赖于光学字符识别或遮罩语言建模,从而将任务主要转化为基于文本的处理。然而,在VCR中,基于文本的处理变得无效,因为准确的文本恢复取决于提供的图像、上下文以及遮挡文本的微小暴露区域的微妙线索的综合信息。我们开发了一个流程来为VCR任务生成合成图像,使用图像-字幕对,可调节字幕的可见性以控制任务难度。通过这一流程,我们构建了一个名为VCR-Wiki的VCR数据集,使用来自维基百科的图像及字幕,包括211万个英文实体和34.6万个中文实体,分为简单和困难两个变体。我们的结果显示,当前的视觉语言模型在VCR任务中明显落后于人类表现,仅仅在我们的数据集上微调模型并不能带来显著改进。我们发布了VCR-Wiki和数据构建代码,以促进未来的研究。
建模多变量时间序列是一个已经被广泛接受的问题,其应用范围涵盖从医疗保健到金融市场等多个领域。传统的状态空间模型(SSMs)是用于建模单变量时间序列的经典方法,因其简单性和表达能力强以表示线性依赖而闻名。然而,它们在捕捉非线性依赖方面的表达能力基本有限,实践中速度较慢,并且无法建模变量间的信息流。尽管最近有尝试通过使用深度结构化SSMs来提升SSMs的表达能力,但现有方法要么局限于单变量时间序列,要么无法建模复杂模式(如季节性模式),要么无法动态建模变量和时间维度的依赖关系,或者是独立于输入的。我们提出了Chimera,它使用两个依赖于输入的2-D SSM头部,采用不同的离散化过程来学习长期进展和季节性模式。为了提高复杂的2D循环的效率,我们提出了一种快速训练方法,使用新的二维并行选择性扫描。我们进一步介绍和讨论了2D SSM的特殊情况,即2D Mamba和Mamba-2。我们的实验评估显示了Chimera在广泛和多样的基准测试中的卓越性能,包括心电图和语音时间序列分类、长期和短期时间序列预测,以及时间序列异常检测。
大型语言模型(LLMs)已经发展到涵盖各个领域的广泛知识。然而,控制大型语言模型不应该知道的内容对于确保对齐性和安全使用至关重要。然而,由于保留和遗忘之间模糊边界可能导致的潜在附带损害,以及在具有数千亿参数的最先进模型上进行优化所需的大量计算资源,准确高效地从LLM中遗忘知识仍然具有挑战性。在这项工作中,我们提出了Embedding-COrrupted(ECO)Prompts,这是一个轻量级的大型语言模型遗忘框架,旨在解决知识纠缠和遗忘效率方面的挑战。我们不依赖LLM本身进行遗忘,而是通过使用提示分类器在推理过程中强制实现一个已遗忘状态,以识别和保护需要遗忘的提示。我们通过零阶优化学习离线添加到提示嵌入中的破坏,朝向遗忘目标,并在推理过程中标记分类器标记的破坏提示。我们发现,这些嵌入破坏的提示不仅导致符合遗忘目标的理想输出,而且与从未受过针对遗忘数据训练的模型的输出非常接近。通过对遗忘进行广泛实验,我们展示了我们的方法在一般领域和与遗忘领域密切相关的领域中实现了几乎零副作用的有前途的遗忘的优越性。此外,我们强调了我们的方法在100个LLMs上的可扩展性,这些LLMs的参数范围从0.5B到236B,随着参数数量的增加不会产生额外成本。
病理学是对患病组织进行显微检查,对于诊断各种医学疾病尤其是癌症至关重要。传统方法耗时且容易出现人为错误。数字病理学将玻璃切片转换为高分辨率数字图像,供计算机算法分析,通过自动化图像分析和大规模数据处理,革新了该领域,提高了诊断准确性、一致性和效率。基础变压器预训练对于开发稳健、具有泛化能力的模型至关重要,因为它能够从大量未标记数据中学习。 本文介绍了用于病理学的基础视觉变压器Hibou系列,利用DINOv2框架预训练了两个模型变体,Hibou-B和Hibou-L,使用了超过100万张代表多种组织类型和染色技术的专有数据集。我们的预训练模型在补丁级和切片级基准测试中表现出色,超越了现有的最先进方法。值得注意的是,Hibou-L在多个基准数据集上实现了最高的平均准确率。为了支持该领域的进一步研究和应用,我们已经开源了Hibou-B模型,可在https://github.com/HistAI/hibou 上获取。
掩码扩散(或吸收扩散)被积极探索作为离散数据生成建模的自回归模型的替代方案。然而,该领域现有工作受到模型公式过于复杂和不同视角之间关系不清晰的阻碍,导致参数化、训练目标和临时调整方面存在亚优化问题。在本研究中,我们旨在提供一个简单且通用的框架,释放掩码扩散模型的全部潜力。我们展示掩码扩散模型的连续时间变分目标是交叉熵损失的简单加权积分。我们的框架还能够训练具有状态相关掩码调度的广义掩码扩散模型。通过困惑度评估,我们在OpenWebText上训练的模型在GPT-2规模上超越先前的扩散语言模型,并在5个零样本语言建模任务中表现出色。此外,我们的模型在像素级图像建模方面远远优于先前的离散扩散模型,在CIFAR-10上达到2.78比特/维度,在ImageNet 64×64上达到3.42比特/维度,与类似规模的自回归模型相当或更好。