每日精选AI研究论文及翻译
传统的光学字符识别系统(OCR-1.0)由于对人造光学字符进行智能处理需求不断增长,已经越来越难以满足人们的使用需求。本文将所有人造光学信号(例如普通文本、数学/分子公式、表格、图表、乐谱,甚至几何形状)统称为“字符”,并提出了通用光学字符识别理论以及一个优秀的模型,即GOT,以推动OCR-2.0的到来。GOT模型具有58亿参数,是一个统一、优雅且端到端的模型,由高压缩编码器和长上下文解码器组成。作为OCR-2.0模型,GOT能够处理各种OCR任务下的所有上述“字符”。在输入端,该模型支持常用的场景和文档风格的图像,包括切片和整页样式。在输出端,GOT能够通过简单提示生成普通或格式化的结果(markdown/tikz/smiles/kern)。此外,该模型还具有交互式OCR功能,即通过坐标或颜色引导的区域级识别。此外,我们还将动态分辨率和多页OCR技术应用于GOT,以提高实用性。在实验中,我们提供充分的结果来证明我们模型的优越性。
我们介绍了OLMoE,这是一个充分开放且最先进的语言模型,利用稀疏的专家混合模型(MoE)。OLMoE-1B-7B拥有70亿(B)参数,但每个输入标记仅使用10亿。我们在5000亿标记上对其进行预训练,并进一步调整以创建OLMoE-1B-7B-Instruct。我们的模型胜过所有具有类似活跃参数的现有模型,甚至超越像Llama2-13B-Chat和DeepSeekMoE-16B这样更大的模型。我们展示了关于MoE训练的各种实验,分析了我们模型中显示高度专业化的路由,并开源了我们工作的所有方面:模型权重、训练数据、代码和日志。
我们介绍了Kvasir-VQA,这是从HyperKvasir和Kvasir-Instrument数据集衍生出的扩展数据集,增加了问题-答案注释,以促进在胃肠(GI)诊断中进行高级机器学习任务。该数据集包括6,500张带有注释的图像,涵盖了各种GI道路病变和外科器械,并支持包括是/否、选择、位置和数字计数在内的多种问题类型。该数据集旨在用于诸如图像字幕、视觉问答(VQA)、基于文本生成合成医学图像、目标检测和分类等应用。我们的实验展示了该数据集在三个选定任务的模型训练中的有效性,展示了在医学图像分析和诊断中的重要应用。我们还为每个任务提供了评估指标,突出了我们数据集的可用性和多功能性。数据集和支持工件可在https://datasets.simula.no/kvasir-vqa 获取。
大型语言模型(LLMs)在处理长上下文任务时面临重大挑战,因为它们在预训练期间的有效上下文窗口大小有限,这限制了它们在延长序列上的泛化能力。同时,通过后续预训练来扩展LLMs中的上下文窗口是非常资源密集的。为了解决这个问题,我们引入了**LongRecipe**,这是一种用于扩展LLMs上下文窗口的高效训练策略,包括有影响力的标记分析、位置索引转换和训练优化策略。它模拟长序列输入,同时保持训练效率,并显著提高模型对长距离依赖关系的理解。对三种类型的LLMs进行的实验表明,LongRecipe可以利用长序列,同时只需目标上下文窗口大小的30%,并且与完整序列训练相比,减少了超过85%的计算训练资源。此外,LongRecipe还保留了原始LLM在一般任务中的能力。最终,*我们可以将开源LLMs的有效上下文窗口从8k扩展到128k,在只使用一天的专用训练和单个具有80G内存的GPU的情况下,实现接近GPT-4的性能。*我们的代码已发布在[链接](https://github.com/zhiyuanhubj/LongRecipe)。
尽管在静态图像的单目深度估计方面取得了显著进展,但在开放世界中估计视频深度仍然具有挑战性,因为开放世界视频在内容、运动、摄像机移动和长度上具有极大的多样性。我们提出了DepthCrafter,这是一种创新方法,可以为开放世界视频生成具有复杂细节的时间一致的长深度序列,而无需任何额外信息,如摄像机姿势或光流。DepthCrafter通过从预训练的图像到视频扩散模型训练视频到深度模型,通过我们精心设计的三阶段训练策略和编制的配对视频深度数据集,实现了对开放世界视频的泛化能力。我们的训练方法使模型能够一次生成长度可变的深度序列,最多达到110帧,并从真实和合成数据集中获取精确的深度细节和丰富的内容多样性。我们还提出了一种推断策略,通过分段估计和无缝拼接处理极长视频。在多个数据集上进行的全面评估显示,DepthCrafter在零样本设置下实现了开放世界视频深度估计的最先进性能。此外,DepthCrafter促进了各种下游应用,包括基于深度的视觉效果和有条件的视频生成。
现代扩散模型,特别是利用基于Transformer的UNet进行去噪的模型,大量依赖自注意力操作来管理复杂的空间关系,从而实现令人印象深刻的生成性能。然而,这种现有范式在生成高分辨率视觉内容方面面临重大挑战,因为它与空间标记数量的二次时间和内存复杂度相关。为了解决这一局限性,本文旨在提出一种新颖的线性注意力机制作为替代方案。具体而言,我们从最近引入的具有线性复杂度的模型(例如Mamba、Mamba2和门控线性注意力)开始探索,并确定了两个关键特性——注意力归一化和非因果推断——这些特性增强了高分辨率视觉生成性能。基于这些见解,我们引入了一个广义线性注意力范式,它作为一种广泛线性标记混合器的低秩近似。为了节省训练成本并更好地利用预训练模型,我们初始化我们的模型并从预训练的StableDiffusion(SD)中提炼知识。我们发现,经过适度训练后,所提炼的模型,称为LinFusion,在减少时间和内存复杂度的同时,实现了与原始SD相当或优越的性能。对SD-v1.5、SD-v2.1和SD-XL的大量实验表明,LinFusion提供了令人满意的零样本跨分辨率生成性能,生成高分辨率图像,如16K分辨率。此外,它与预训练的SD组件(如ControlNet和IP-Adapter)高度兼容,无需任何适应工作。代码可在https://github.com/Huage001/LinFusion找到。
本文探讨了扩展基于扩散的修正流Transformer用于文本到音乐生成的简单方法,称为FluxMusic。通常,除了在先进的Flux模型设计中,我们将其转换为mel频谱的潜在VAE空间。这涉及首先对双文本-音乐流应用一系列独立的注意力,然后对去噪补丁预测进行堆叠的单音乐流。我们使用多个预训练文本编码器来充分捕获标题语义信息以及推理灵活性。在此过程中,粗糙的文本信息与时间步骤嵌入一起被用于调制机制,而细粒度的文本细节则与音乐补丁序列连接作为输入。通过深入研究,我们证明了使用经过优化的架构进行修正流训练明显优于已建立的扩散方法,这一事实得到了各种自动指标和人类偏好评估的证明。我们的实验数据、代码和模型权重已公开发布在:https://github.com/feizc/FluxMusic。
最近大规模视频-语言模型的进展显示出实时规划和详细交互的巨大潜力。然而,它们高计算需求和标注数据集稀缺限制了学术研究者的实用性。在这项工作中,我们介绍了VideoLLaMB,这是一个新颖的框架,利用桥接层内的时间记忆标记,允许对整个视频序列进行编码,同时保留历史视觉数据,有效地保持语义连续性,并增强模型在各种任务中的性能。这种方法包括循环记忆标记和SceneTilling算法,将视频分割成独立的语义单元,以保持语义完整性。实证结果显示,VideoLLaMB在三个VideoQA基准测试中明显优于现有视频-语言模型,与竞争对手相比提高了5.5个点,在自我中心规划上提高了2.06个点。在MVBench上的综合结果显示,VideoLLaMB-7B的表现明显优于先前的相同LLM的7B模型。值得注意的是,即使视频长度增加到8倍,它仍然保持与PLLaVA相同的稳健性能。此外,在我们专门的Needle in a Video Haystack(NIAVH)基准测试中的帧检索结果进一步验证了VideoLLaMB在准确识别长视频中特定帧的能力。我们的SceneTilling算法还能够直接生成流式视频字幕,无需额外训练。在效率方面,VideoLLaMB在16帧上训练,在单个Nvidia A100 GPU上支持高达320帧,具有线性GPU内存扩展,确保高性能和成本效益,从而为学术和实际应用中的长视频-语言模型奠定了新基础。
我们介绍了扩散策略优化(DPPO),这是一个算法框架,包括了在连续控制和机器人学习任务中对基于扩散的策略(如扩散策略)进行微调的最佳实践,使用来自强化学习的策略梯度(PG)方法。PG方法在训练其他策略参数化的RL策略中是无处不在的;然而,据推测,对于基于扩散的策略来说,它们可能效率较低。令人惊讶的是,我们展示了DPPO相对于其他RL方法在基于扩散的策略的微调中实现了最强的整体性能和效率,同时与其他策略参数化的PG微调相比也是如此。通过实验研究,我们发现DPPO利用了RL微调和扩散参数化之间独特的协同作用,实现了结构化和在流形上的探索,稳定的训练以及强大的策略鲁棒性。我们进一步展示了DPPO在一系列现实环境中的优势,包括使用像素观测进行模拟机器人任务,并通过在长时间跨度、多阶段操作任务中对机器人硬件进行零次部署的模拟训练策略。网站代码:diffusion-ppo.github.io
通过强大的生成模型和大规模互联网数据的使用,在文本到视频生成方面取得了显著进展。然而,在精确控制生成视频中的个别概念方面仍然存在重大挑战,例如特定角色的运动和外观以及视角的移动。在这项工作中,我们提出了一种新颖的范式,即分别生成3D表示中的每个概念,然后结合来自大型语言模型(LLM)和2D扩散模型的先验知识。具体而言,给定一个输入文本提示,我们的方案包括三个阶段:1)我们利用LLM作为导演,首先将复杂查询分解为几个子提示,指示视频中的个别概念(例如场景、物体、动作),然后让LLM调用预训练的专家模型获取相应的概念3D表示。2)为了组合这些表示,我们提示多模态LLM产生关于物体轨迹的比例和坐标的粗略指导。3)为了使生成的帧符合自然图像分布,我们进一步利用2D扩散先验,并使用得分蒸馏采样来优化组合。大量实验证明,我们的方法能够从文本生成高保真度的视频,具有多样的运动和对每个概念的灵活控制。项目页面:https://aka.ms/c3v。
变分自编码器(VAE)将视频压缩为潜在表示,是潜在视频扩散模型(LVDMs)的一个至关重要的前置组件。在保持相同重建质量的情况下,VAE对视频的压缩越充分,LVDMs的效率就越高。然而,大多数LVDMs使用二维图像VAE,其对视频的压缩仅在空间维度上,往往忽略了时间维度。如何在VAE中对视频进行时间压缩,以获得更简洁的潜在表示并保证准确的重建,很少有人探讨。为了填补这一空白,我们提出了一种全方位压缩VAE,命名为OD-VAE,可以在时间和空间上压缩视频。尽管OD-VAE更充分的压缩给视频重建带来了巨大挑战,但通过我们精心设计,仍然能够实现高重建准确性。为了在视频重建质量和压缩速度之间取得更好的平衡,我们介绍并分析了四种OD-VAE的变体。此外,设计了一种新颖的尾部初始化方法,以更有效地训练OD-VAE,并提出了一种新颖的推理策略,使OD-VAE能够处理长度任意的视频并限制GPU内存。对视频重建和基于LVDM的视频生成进行的全面实验表明了我们提出方法的有效性和效率。
语言模型在生成响应时如何利用提供的上下文信息?我们能否推断特定生成的语句实际上是基于上下文、误解还是虚构的?为了帮助回答这些问题,我们引入了上下文归因的问题:确定上下文中的哪些部分(如果有的话)导致模型生成特定语句。然后,我们提出了ContextCite,这是一种简单且可扩展的方法,用于在任何现有语言模型之上应用上下文归因。最后,我们通过三个应用展示了ContextCite 的实用性:(1)帮助验证生成的语句(2)通过修剪上下文来提高响应质量(3)检测毒化攻击。我们在 https://github.com/MadryLab/context-cite 提供了 ContextCite 的代码。
文本到图像扩散模型已经成为一个强大的框架,用于根据文本提示生成高质量图像。它们的成功推动了生产级扩散模型的快速发展,这些模型不断增大,已经包含数十亿个参数。因此,最先进的文本到图像模型在实践中变得越来越不易访问,特别是在资源有限的环境中。后训练量化(PTQ)通过将预训练模型权重压缩为较低位表示来解决这个问题。最近的扩散量化技术主要依赖于均匀标量量化,为将模型压缩到4位的模型提供了良好的性能。这项工作表明,更多功能的向量量化(VQ)可能会为大规模文本到图像扩散模型实现更高的压缩率。具体而言,我们将基于向量的PTQ方法定制为最近的十亿级文本到图像模型(SDXL和SDXL-Turbo),并展示了将具有20亿参数的扩散模型使用VQ压缩到约3位时,其图像质量和文本对齐与先前的4位压缩技术相似。
先前许多人工智能研究都集中在开发单体模型,以最大化其智能和能力,主要目标是提高特定任务的性能。相比之下,本文探讨了一种替代方法:协作人工智能系统,利用工作流程集成模型、数据源和管道来解决复杂和多样化的任务。我们介绍了GenAgent,这是一个基于LLM的框架,可以自动生成复杂工作流程,相比单体模型具有更大的灵活性和可扩展性。GenAgent的核心创新在于用代码表示工作流程,并通过逐步构建工作流程的协作代理。我们在ComfyUI平台上实现了GenAgent,并提出了一个新的基准测试,OpenComfy。结果表明,GenAgent在运行级别和任务级别评估中均优于基准方法,显示其生成复杂工作流程的能力具有更高的效果和稳定性。
本文探讨了利用广泛内容生成进行更高分辨率视频外推的方法。我们指出了现有方法在尝试大规模外推视频时面临的常见问题:生成低质量内容和GPU内存所施加的限制。为了解决这些挑战,我们提出了一种基于扩散的方法,称为Follow-Your-Canvas。它建立在两个核心设计之上。首先,我们不采用“单次拍摄”外推的常见做法,而是将任务分布在空间窗口中,并无缝地合并它们。这使我们能够在不受GPU内存限制的情况下外推任何大小和分辨率的视频。其次,源视频及其相对位置关系被注入到每个窗口的生成过程中。这使得每个窗口内生成的空间布局与源视频协调一致。结合这两个设计,我们能够生成具有丰富内容的高分辨率外推视频,同时保持空间和时间的一致性。Follow-Your-Canvas在大规模视频外推方面表现出色,例如,从512X512到1152X2048(9倍),同时产生高质量且美观的结果。它在各种分辨率和比例设置下均取得了最佳的定量结果。代码已发布在https://github.com/mayuelala/FollowYourCanvas。
基于语音的抑郁检测由于在个体间表现独特且数据稀缺,对自动化检测提出了重大挑战。为了解决这些挑战,我们引入了DAAMAudioCNNLSTM和DAAMAudioTransformer,这两种参数高效且可解释的模型用于音频特征提取和抑郁检测。DAAMAudioCNNLSTM采用了一种新颖的CNN-LSTM框架,配备多头密度自适应注意力机制(DAAM),动态关注信息丰富的语音片段。DAAMAudioTransformer则利用变压器编码器取代CNN-LSTM架构,并整合了相同的DAAM模块以增强注意力和可解释性。这些方法不仅提高了检测的稳健性和可解释性,还取得了最先进的性能:DAAMAudioCNNLSTM在DAIC-WOZ数据集上的F1宏分数为0.702,DAAMAudioTransformer为0.72,而且在训练/验证期间不依赖于先前方法中的元音位置和说话者信息等补充信息。这两种模型在利用语音信号进行抑郁检测方面的显著可解释性和效率代表了朝着更可靠、临床实用的诊断工具迈出的一大步,为语音和心理健康护理的进步带来了希望。为了促进该领域的进一步研究,我们将我们的代码公开提供。
混合搜索已经成为一种有效的策略,以抵消不同匹配范式的局限性,特别是在领域外上下文中,观察到了检索质量的显著提升。然而,现有研究主要集中在有限的一组检索方法上,在仅限于英语的领域通用数据集上进行评估。在这项工作中,我们研究了在法语领域中未被探索的领域内,评估了各种知名检索模型的混合搜索的有效性,同时评估了零样本和领域内情景。我们的研究结果显示,在零样本情境中,融合不同领域通用模型相对于使用独立模型,无论融合方法如何,都能持续提升性能。令人惊讶的是,当模型在领域内训练时,我们发现相对于使用最佳单一系统,融合通常会降低性能,除非使用经过精心调整权重的分数进行融合。这些新颖见解等扩展了先前发现的适用性,跨越了新的领域和语言,并有助于更深入地理解非英语专业领域中的混合搜索。
本文介绍了MERIT数据集,这是一个多模态(文本 + 图像 + 布局)的完全标记数据集,用于学校报告的背景下。MERIT数据集包含超过400个标签和33,000个样本,是训练在要求视觉丰富文档理解(VrDU)任务中的模型的宝贵资源。由于其本质(学生成绩报告),MERIT数据集可能以一种受控的方式包含偏见,使其成为评估语言模型(LLMs)中诱发偏见的宝贵工具。本文概述了数据集的生成流程,并突出了其在文本、视觉、布局和偏见领域的主要特点。为了展示数据集的实用性,我们提出了一个基准测试,使用标记分类模型,表明即使对于最先进的模型,该数据集也构成了一个重大挑战,并且这些模型在预训练阶段将极大受益于包含来自MERIT数据集的样本。
随着语言模型(LMs)在个性化通信场景中被广泛应用(例如发送电子邮件、撰写社交媒体帖子)并赋予一定程度的代理能力,确保它们遵循上下文隐私规范变得日益关键。然而,由于隐私敏感案例具有上下文和长尾特性,并且缺乏捕捉现实应用场景的评估方法,量化LMs的隐私规范意识和LMs介导的通信中新兴隐私风险具有挑战性。为了解决这些挑战,我们提出了PrivacyLens,这是一个新颖的框架,旨在将隐私敏感种子扩展为富有表现力的小品,进而延伸至代理轨迹,实现对LM代理行为中隐私泄漏的多层次评估。我们在PrivacyLens中实例化了一系列基于隐私文献和众包种子的隐私规范。利用这一数据集,我们揭示了LM在回答探究性问题和在代理设置中执行用户指令时的实际行为之间的差异。像GPT-4和Llama-3-70B这样的最先进LMs,在25.68%和38.69%的情况下泄露敏感信息,即使在提示使用隐私增强指令时也是如此。我们还通过将每个种子扩展为多个轨迹来展示PrivacyLens的动态特性,以对抗LM的隐私泄漏风险。数据集和代码可在https://github.com/SALT-NLP/PrivacyLens 上获得。