每日精选AI研究论文及翻译
对从文本描述生成高保真视频的需求不断增长,这在该领域引发了大量研究。在这项工作中,我们介绍了MagicVideo-V2,它将文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块整合到端到端视频生成管道中。借助这些架构设计,MagicVideo-V2能够生成具有美学感、高分辨率、出色保真度和流畅性的视频。通过大规模用户评估,它展现出比Runway、Pika 1.0、Morph、Moon Valley和Stable Video Diffusion模型等领先的文本到视频系统更优越的性能。
我们介绍了MAGNeT,这是一种遮蔽生成序列建模方法,直接处理几个音频令牌流。与先前的工作不同,MAGNeT由单阶段、非自回归变压器组成。在训练过程中,我们通过遮蔽调度器预测遮蔽令牌的跨度,而在推断过程中,我们逐步使用多个解码步骤构建输出序列。为了进一步提高生成音频的质量,我们引入了一种新颖的再评分方法,其中我们利用外部预训练模型对MAGNeT的预测进行再评分和排序,然后用于后续解码步骤。最后,我们探索了MAGNeT的混合版本,在这个版本中,我们在自回归方式下生成前几秒钟,而其余序列则并行解码。我们展示了MAGNeT在文本转音乐和文本转音频生成任务中的效率,并进行了广泛的实证评估,考虑了客观指标和人类研究。所提出的方法与评估基线相当,同时速度显著更快(比自回归基线快7倍)。通过消融研究和分析,我们阐明了构成MAGNeT的每个组件的重要性,同时指出了自回归和非自回归建模之间的权衡,考虑了延迟、吞吐量和生成质量。示例可在我们的演示页面https://pages.cs.huji.ac.il/adiyoss-lab/MAGNeT 上找到。
线性注意力是一种高效的注意力机制,最近作为传统 softmax 注意力的一种有前途的替代方案而出现。线性注意力能够以线性计算复杂度处理标记,理论上可以处理长度不受限制的序列而不降低速度,即在固定内存消耗下为不同序列长度保持恒定的训练速度。然而,由于累积求和(cumsum)存在问题,目前的线性注意力算法无法在因果设置中展现其理论优势。本文提出了 Lightning Attention-2,这是第一个能够实现线性注意力理论计算优势的线性注意力实现。为了实现这一目标,我们利用了平铺的思想,分别处理线性注意力计算中的块内和块间组件。具体来说,我们利用传统的注意力计算机制处理块内部分,并为块间部分应用线性注意力核技巧。我们通过前向和后向过程采用了一种平铺技术,充分利用 GPU 硬件。我们在 Triton 中实现了我们的算法,使其具有 IO 意识并且友好于硬件。我们在不同模型大小和序列长度上进行了各种实验。Lightning Attention-2 保持了一致的训练和推断速度,不受输入序列长度影响,并且比其他注意力机制快得多。源代码可在 https://github.com/OpenNLPLab/lightning-attention 找到。
基于大型语言模型(LLMs)的基于表格的推理是解决许多表格理解任务的一个有前途的方向,例如基于表格的问答和事实验证。与通用推理相比,基于表格的推理需要从自由形式问题和半结构化表格数据中提取潜在语义。Chain-of-Thought及其类似方法以文本上下文的形式整合推理链,但如何有效地利用表格数据在推理链中仍然是一个悬而未决的问题。我们提出Chain-of-Table框架,其中表格数据明确地在推理链中用作中间思想的代理。具体来说,我们引导LLMs使用上下文学习来迭代生成操作并更新表格,以表示表格推理链。因此,LLMs可以根据先前操作的结果动态规划下一个操作。表格的持续演变形成一个链条,展示了给定表格问题的推理过程。该链携带中间结果的结构化信息,实现更准确和可靠的预测。Chain-of-Table在WikiTQ、FeTaQA和TabFact基准上实现了新的最先进性能,跨多个LLM选择。
跳切是观看体验中的突然、有时是不受欢迎的变化。我们提出了一个新颖的框架,用于在谈话视频中平滑这些跳切。我们利用视频中其他源帧中主体的外观,将其与由DensePose关键点和面部地标驱动的中级表示融合。为了实现运动,我们在切割周围的末帧之间插值关键点和地标。然后,我们使用一个图像转换网络从关键点和源帧中合成像素。由于关键点可能包含错误,我们提出了一个跨模态注意机制,以选择并为每个关键点从多个选项中挑选最合适的源。通过利用这种中级表示,我们的方法可以比强视频插值基线获得更强的结果。我们在谈话视频中的各种跳切上演示了我们的方法,如切割填充词、停顿,甚至随机切割。我们的实验表明,即使在谈话头像在跳切中旋转或移动剧烈的挑战性情况下,我们也能实现无缝过渡。
神经网络的视觉和视觉语言应用,如图像分类和字幕生成,依赖于需要进行繁琐数据收集过程的大规模注释数据集。这种耗时的工作阻碍了大规模数据集的出现,限制了研究人员和从业者的选择。因此,我们寻求更高效的图像收集和标注方法。先前的尝试从HTML alt文本和社交媒体帖子中收集字幕,但这些数据源存在噪音、稀疏性或主观性问题。因此,我们转向商业购物网站,这些数据满足三个标准:干净、信息丰富和流畅。我们介绍了Let's Go Shopping(LGS)数据集,这是一个来自公开电子商务网站的包含1500万图像-字幕对的大规模公共数据集。与现有的通用领域数据集相比,LGS的图像侧重于前景对象,背景较简单。我们在LGS上的实验表明,在现有基准数据集上训练的分类器不容易泛化到电子商务数据,而特定的自监督视觉特征提取器可以更好地泛化。此外,LGS的高质量电子商务焦点图像和双模态特性使其在视觉语言双模任务中具有优势:LGS使图像字幕生成模型能够生成更丰富的字幕,并帮助文本到图像生成模型实现电子商务风格转换。
事实性问题通常可以以不同的细粒度正确回答。例如,“1961年8月4日”和“1961年”都是对问题“巴拉克·奥巴马是何时出生的?”的正确答案。然而,标准问答(QA)评估协议并未明确考虑这一点,而是将预测答案与单一粒度级别的答案进行比较。在这项工作中,我们提出了GRANOLA QA,这是一种新颖的评估设置,其中预测答案根据一组多粒度答案在准确性和信息量上进行评估。我们提出了一种简单的方法来丰富现有数据集的多粒度答案,并创建了GRANOLA-EQ,这是EntityQuestions数据集的多粒度版本。我们在GRANOLA-EQ上评估了一系列解码方法,包括一种新算法,称为响应聚合解码(DRAG),该算法旨在使响应粒度与模型的不确定性对齐。我们的实验表明,具有标准解码的大型语言模型往往会生成具体且常常不正确的答案。相比之下,在多粒度答案上进行评估时,DRAG平均准确率增加了近20个百分点,对于罕见实体来说增加更多。总体而言,这表明标准评估和解码方案可能严重低估了语言模型所包含的知识。
尽管扩散模型在语音增强中具有潜力,但它们在声学回声消除(AEC)中的应用受到限制。在本文中,我们提出了DI-AEC,开创了一种基于扩散的随机再生方法,专门用于AEC。此外,我们提出了FADI-AEC,一种快速基于得分的扩散AEC框架,以节省计算需求,使其适用于边缘设备。它通过在每帧中运行得分模型一次,实现了处理效率的显著提升。除此之外,我们引入了一种新颖的噪声生成技术,利用远端信号,将远端和近端信号结合起来,以提高得分模型的准确性。我们在ICASSP2023微软深度回声消除挑战评估数据集上测试了我们提出的方法,在那里我们的方法优于一些端到端方法和其他基于扩散的回声消除方法。