每日精选AI研究论文及翻译
开源大型语言模型(LLMs)的快速发展令人瞩目。然而,先前文献中描述的标度定律得出了不同的结论,给LLMs的扩展带来了阴影。我们深入研究标度定律,并提出了我们独特的发现,促进了两种常用开源配置下大规模模型的扩展,即7B和67B。在标度定律的指导下,我们推出了DeepSeek LLM,这是一个致力于以长期视角推进开源语言模型的项目。为支持预训练阶段,我们开发了一个数据集,目前包含2万亿标记,并不断扩展。我们进一步在DeepSeek LLM基础模型上进行了监督微调(SFT)和直接偏好优化(DPO),从而创建了DeepSeek Chat模型。我们的评估结果表明,DeepSeek LLM 67B在各种基准测试中超过了LLaMA-2 70B,特别是在代码、数学和推理领域。此外,开放式评估显示,DeepSeek LLM 67B Chat在性能上优于GPT-3.5。
在视觉丰富文档理解(VrDU)方面取得的进展已经实现了对具有复杂布局的文档进行信息提取和问题回答。出现了两种架构的范式——受LLM启发的基于Transformer的模型和图神经网络。在本文中,我们介绍了DocGraphLM,这是一个将预训练语言模型与图语义相结合的新框架。为了实现这一目标,我们提出了1)一个联合编码器架构来表示文档,以及2)一种新颖的链接预测方法来重建文档图。DocGraphLM使用一个收敛的联合损失函数来预测节点之间的方向和距离,该损失函数优先考虑邻域恢复并降低远程节点检测的权重。我们在三个最先进数据集上的实验表明,在采用图特征的情况下,IE和QA任务的性能始终有所提升。此外,我们报告称,尽管仅通过链接预测构建,但采用图特征加速了学习过程中的收敛。
我们深入探讨了视觉Transformer(ViTs)固有的一个微妙但重要的挑战:这些模型的特征图呈现出类似网格的伪影,严重影响了ViTs在下游任务中的性能。我们的研究将这一根本问题追溯到输入阶段的位置嵌入。为了解决这个问题,我们提出了一种新颖的噪声模型,适用于所有ViTs。具体而言,该噪声模型将ViT的输出分解为三个部分:一个不受噪声伪影影响的语义项,以及两个与伪影相关的项,这些项取决于像素位置。通过在每个图像基础上利用神经场强制实现跨视图特征一致性,实现了这种分解。这种每个图像的优化过程从原始ViT输出中提取出无伪影的特征,为离线应用提供清洁的特征。为了扩展我们的解决方案以支持在线功能,我们引入了一个可学习的去噪器,直接从未经处理的ViT输出中预测无伪影的特征,展现了对新数据的显著泛化能力,无需每个图像的优化。我们的两阶段方法,称为去噪视觉Transformer(DVT),无需重新训练现有的预训练ViTs,可立即应用于任何基于Transformer的架构。我们在各种代表性ViTs(DINO、MAE、DeiT-III、EVA02、CLIP、DINOv2、DINOv2-reg)上评估了我们的方法。广泛的评估表明,我们的DVT在多个数据集上的语义和几何任务中持续且显著地改善了现有的最先进通用模型(例如,+3.84 mIoU)。我们希望我们的研究将鼓励重新评估ViT的设计,特别是关于位置嵌入的朴素使用。
CLIP和Segment Anything Model(SAM)是卓越的视觉基础模型(VFMs)。SAM在各个领域的分割任务中表现出色,而CLIP以其零样本识别能力而闻名。本文深入探讨了将这两个模型整合到一个统一框架中的方法。具体而言,我们介绍了Open-Vocabulary SAM,这是一个受SAM启发的模型,旨在实现同时交互式分割和识别,利用两个独特的知识转移模块:SAM2CLIP和CLIP2SAM。前者通过蒸馏和可学习的Transformer适配器将SAM的知识调整到CLIP中,而后者将CLIP的知识转移到SAM,增强其识别能力。在各种数据集和检测器上进行的大量实验显示,Open-Vocabulary SAM在分割和识别任务中的有效性,明显优于简单组合SAM和CLIP的朴素基线。此外,在辅以图像分类数据训练的情况下,我们的方法可以分割和识别大约22,000个类别。
稳定扩散 XL(SDXL)已成为最优秀的开源文本到图像模型(T2I),因其多功能性和一流的图像质量而著称。有效地解决 SDXL 模型的计算需求对于扩大影响范围和适用性至关重要。在这项工作中,我们介绍了两个经过缩减的变体,Segmind 稳定扩散(SSD-1B)和 Segmind-Vega,分别具有 13 亿和 7.4 亿参数的 UNets,通过逐渐移除层级损失来专注于减小模型大小同时保留生成质量。我们在 https://hf.co/Segmind 上发布了这些模型的权重。我们的方法涉及从 SDXL 的 U-Net 结构中消除残余网络和变换器块,从而显著减少参数和延迟。我们的紧凑模型通过利用转移知识有效地模拟了原始的 SDXL,与更大的数十亿参数的 SDXL 取得了竞争性结果。我们的工作强调了知识蒸馏与层级损失相结合在减小模型大小的同时保留 SDXL 高质量生成能力的有效性,从而在资源受限环境中促进更易部署。
近年来,语音生成取得了显著进展,如今已经实现了一次性生成能力,往往几乎无法与真实人类声音区分开来。将这些语音生成方面的进步与大型语言模型相结合,可能会彻底改变各种应用。然而,某些应用,如辅助对话系统,需要自然而富有对话性的语音生成工具,同时还能够在实时环境中高效运行。目前的最先进模型,如VALL-E和SoundStorm,由分层神经音频编解码器驱动,需要大型神经组件和大量训练数据才能发挥良好效果。相比之下,MQTTS旨在构建更紧凑的对话式TTS模型,同时利用小规模真实对话语音数据。然而,其自回归性质导致推理延迟高,从而限制了其实时使用。为了缓解目前最先进TTS模型的限制,并充分利用其优势,在本研究中我们介绍了Pheme模型系列,该系列:1)提供紧凑且高性能的模型,2)允许并行生成自然对话语音,3)可以在小规模对话数据上高效训练,将数据需求降低超过10倍,但仍能匹配自回归TTS模型的质量。我们还表明,通过简单的师生蒸馏,我们可以在预训练的Pheme检查点上为单发言者设置的语音质量实现显著改进,仅依赖于更大的师生模型生成的合成语音。音频样本和预训练模型可在线获取。