每日精选AI研究论文及翻译
我们提出了LayerSkip,这是一个端到端的解决方案,用于加速大型语言模型(LLMs)的推断。首先,在训练过程中,我们应用层丢弃,对于较早的层采用较低的丢弃率,对于较晚的层采用较高的丢弃率,并且采用早期退出损失,其中所有变压器层共享相同的退出。其次,在推断过程中,我们展示了这种训练配方增加了在较早层的早期退出的准确性,而无需向模型添加任何辅助层或模块。第三,我们提出了一种新颖的自我推测解码解决方案,在这种解决方案中,我们在早期层退出,然后使用模型的其余层进行验证和校正。我们提出的自我推测解码方法比其他推测解码方法具有更小的内存占用,并且受益于草稿和验证阶段的共享计算和激活。我们在不同的Llama模型大小上进行了实验,采用不同类型的训练:从头开始的预训练、持续预训练、在特定数据领域上微调,以及在特定任务上微调。我们实现了我们的推断解决方案,并展示了在CNN/DM文档的摘要、编码以及TOPv2语义解析任务上的加速效果,分别达到了2.16倍、1.82倍和2.0倍。我们在https://github.com/facebookresearch/LayerSkip 上开源了我们的代码和检查点。
在本报告中,我们介绍 InternVL 1.5,这是一个开源的多模态大型语言模型(MLLM),旨在弥合多模态理解方面开源与专有商业模型之间的能力差距。我们引入了三项简单的改进:(1)强视觉编码器:我们探索了一种针对大规模视觉基础模型 InternViT-6B 的持续学习策略,增强了其视觉理解能力,并使其能够在不同的LLM中进行转移和重复使用。 (2)动态高分辨率:我们根据输入图像的长宽比和分辨率,将图像分割成1至40个448x448像素的瓦片,支持高达4K分辨率的输入。 (3)高质量双语数据集:我们精心收集了一个涵盖常见场景、文档图像的高质量双语数据集,并用英文和中文问答对进行了标注,显著提升了OCR和中文相关任务的性能。我们通过一系列基准测试和比较研究评估了InternVL 1.5。与开源和专有模型相比,InternVL 1.5表现出竞争力强,在18项基准测试中有8项取得了最先进的结果。代码已发布在 https://github.com/OpenGVLab/InternVL。
尽管许多当代大型语言模型(LLMs)能够处理较长的输入,但它们仍然难以充分利用长上下文中的信息,这被称为“中间迷失”挑战。我们假设这是由于长上下文训练过程中缺乏足够明确的监督所致,未能强调长上下文中的任何位置都可能包含关键信息。基于这种直觉,我们的研究提出了信息密集(IN2)训练,这是一个纯数据驱动的解决方案,用于克服“中间迷失”问题。具体而言,IN2训练利用了一个合成的长上下文问答数据集,其中答案需要(1)对合成长上下文(4K-32K tokens)中的一个短片段(~128 tokens)具有细粒度的信息意识,以及(2)整合和推理来自两个或更多短片段的信息。通过将这种信息密集训练应用于Mistral-7B,我们提出了FILM-7B(FILl-in-the-Middle)。为了全面评估FILM-7B利用长上下文的能力,我们设计了三个探测任务,涵盖各种上下文风格(文档、代码和结构化数据上下文)和信息检索模式(向前、向后和双向检索)。探测结果表明,FILM-7B能够稳健地从其32K上下文窗口中的不同位置检索信息。除了这些探测任务外,FILM-7B显著提高了在现实世界长上下文任务上的性能(例如,在NarrativeQA上从23.5提高到26.9的F1分数),同时在短上下文任务上保持了可比的表现(例如,在MMLU上从59.3的准确率保持为59.2)。Github链接:https://github.com/microsoft/FILM。
3D物体生成已经取得了显著的进展,产生了高质量的结果。然而,它们在实现精确用户控制方面还存在不足,通常会产生与用户期望不符的结果,从而限制了它们的适用性。用户设想的3D物体生成面临着重大挑战,因为当前生成模型的交互能力有限,难以实现其概念。现有方法主要提供两种途径:(i) 解释文本指令并具有受限的可控性,或者(ii) 从2D图像重建3D物体。这两种方法都将定制限制在2D参考范围内,并在3D提升过程中可能引入不良伪影,限制了直接和多样化的3D修改范围。在这项工作中,我们介绍了Interactive3D,这是一个创新的交互式3D生成框架,通过广泛的3D交互能力赋予用户对生成过程的精确控制。Interactive3D分为两个级联阶段,利用不同的3D表示。第一阶段采用高斯点阵化进行直接用户交互,允许在任何中间步骤通过(i) 添加和删除组件,(ii) 可变形和刚性拖动,(iii) 几何变换和(iv) 语义编辑来修改和引导生成方向。随后,高斯点阵被转换为InstantNGP。我们引入了一个新颖的(v) 交互式哈希细化模块,以在第二阶段进一步添加细节并提取几何形状。我们的实验表明,Interactive3D显著改善了3D生成的可控性和质量。我们的项目网页可在https://interactive-3d.github.io/ 上找到。
基于扩散的技术取得了显著进展,特别是在个性化和定制化面部生成方面。然而,现有方法在实现高保真度和详细身份(ID)一致性方面面临挑战,主要是由于对面部区域缺乏细粒度控制以及缺乏全面的身份保留策略,未能充分考虑复杂的面部细节和整体面部。为了解决这些限制,我们引入了ConsistentID,这是一种创新方法,专为在细粒度多模态面部提示下生成保持多样性身份的肖像而设计,仅利用单个参考图像。ConsistentID包括两个关键组件:一个多模态面部提示生成器,结合面部特征、相应的面部描述和整体面部背景,以增强面部细节的精确性;以及一个经过面部关注定位策略优化的身份保留网络,旨在保持面部区域的ID一致性。这些组件共同通过从面部区域引入细粒度多模态ID信息,显著提高了ID保留的准确性。为了便于ConsistentID的训练,我们提出了一个细粒度肖像数据集FGID,其中包含超过50万张面部图像,比现有公共面部数据集(如LAION-Face、CelebA、FFHQ和SFHQ)具有更大的多样性和全面性。实验结果证实,我们的ConsistentID在个性化面部生成方面实现了出色的精度和多样性,在MyStyle数据集中超过了现有方法。此外,虽然ConsistentID引入了更多的多模态ID信息,但在生成过程中仍保持了快速的推理速度。
大型语言模型(LLMs)展示了在语言理解和生成方面的深远能力,促进了各种应用。然而,存在着一个明显的问题,即关于如何有效地扩展超过500亿参数的LLMs,同时最小化试错成本和计算资源的详细开源方法的匮乏。在本报告中,我们介绍了Tele-FLM(又名FLM-2),这是一个拥有520亿参数的开源多语言大型语言模型,具有稳定高效的预训练范式和增强的事实判断能力。Tele-FLM展示了出色的多语言语言建模能力,通过文本语料库上的BPB进行衡量。此外,在英文和中文基础模型评估中,它与涉及更大的预训练FLOPs的强大开源模型(如Llama2-70B和DeepSeek-67B)相媲美。除了模型权重,我们还分享了核心设计、工程实践和训练细节,我们期望这将使学术界和工业界都受益。
Set-of-Mark(SoM)Prompting释放了GPT-4V的视觉基准能力,使模型能够将视觉对象与插入图像的标记相关联。这些标记用字母数字标记,可以通过文本标记进行索引以便轻松引用。尽管GPT-4V表现出色,我们发现其他多模态大型语言模型(MLLMs)难以理解这些视觉标记。为了促进开源模型对SoM提示的学习,我们提出了一种新的学习范式:“逐一列出项目”,要求模型枚举并描述按照标记的字母数字顺序放置在图像上的所有视觉标记。通过将我们的策划数据集与其他视觉指导调整数据集相结合,我们能够为现有的MLLMs提供SoM提示能力。此外,我们在五个MLLM基准测试上评估了我们微调的SoM模型。我们发现,即使是在相对较小的规模(10k-30k带标记的图像)下,这个新数据集也显著增强了视觉推理能力,并减少了MLLMs的幻觉。也许令人惊讶的是,即使在推理过程中省略了输入图像中的视觉标记,这些改进仍然持续存在。这表明“逐一列出项目”有潜力成为训练MLLMs的新范式,通过在训练阶段使用视觉标记来加强对象-文本对齐。最后,我们通过对经过训练的模型进行探究性分析来了解SoM的工作机制。我们的代码和数据可在https://github.com/zzxslp/SoM-LLaVA找到。
尽管文本到图像(T2I)生成模型已经变得无处不在,但它们不一定生成与给定提示相符的图像。先前的研究通过提出度量标准、基准测试和用于收集人类判断的模板来评估T2I的对齐性,但这些组件的质量并未得到系统性的衡量。人工评定的提示集通常较小,评分的可靠性以及用于比较模型的提示集也未经评估。我们通过进行广泛的研究,评估自动评估度量和人类模板来填补这一空白。我们提供三个主要贡献:(1)我们引入了一个全面的基于技能的基准测试,可以区分不同人类模板下的模型。这个基于技能的基准测试将提示分为不同的子技能,使从业者不仅能够确定哪些技能具有挑战性,还能确定技能在何种复杂程度下变得具有挑战性。(2)我们收集了四个模板和四个T2I模型的人类评分,总计超过100K个注释。这使我们能够了解差异是由于提示中固有的歧义还是由于度量标准和模型质量的差异引起的。(3)最后,我们引入了一种新的基于问答的自动评估度量,与我们的新数据集、不同的人类模板以及TIFA160上的现有度量相比,与人类评分更相关。
我们提出了NeRF-XL,这是一种将神经辐射场(Neural Radiance Fields,NeRFs)分布在多个GPU上的原则性方法,从而实现对具有任意大容量的NeRFs进行训练和渲染。我们首先重新审视现有的多GPU方法,这些方法将大场景分解为多个独立训练的NeRFs,并确定了这些方法存在的几个根本问题,这些问题阻碍了随着额外的计算资源(GPU)在训练中的使用而改善重建质量。NeRF-XL解决了这些问题,通过简单地使用更多硬件,实现了对具有任意参数数量的NeRFs进行训练和渲染。我们方法的核心是一种新颖的分布式训练和渲染公式,从数学上等价于经典的单GPU情况,并最小化了GPU之间的通信。通过解锁具有任意大参数数量的NeRFs,我们的方法是首个揭示NeRFs多GPU扩展规律的方法,显示了随着更大参数数量的改善而提高的重建质量和随着更多GPU而加快的速度改进。我们在各种数据集上展示了NeRF-XL的有效性,包括迄今为止最大的开源数据集MatrixCity,其中包含258K张图像,覆盖了25平方公里的城市区域。
理解文本丰富的视觉内容对于实际应用多模态大型语言模型(MLLMs)至关重要,因为文本丰富的场景在现实世界中随处可见,其特点是图像中嵌入了大量文本。最近,具有出色多功能性的MLLMs的出现提高了我们对MLLMs期望的标准。然而,由于当前MLLM基准主要侧重于评估一般视觉理解能力,它们在文本丰富的场景中的熟练程度尚未得到全面和客观的评估。在这项工作中,我们介绍了SEED-Bench-2-Plus,这是一个专门设计用于评估MLLMs文本丰富的视觉理解能力的基准。我们的基准包括2.3K个带有精确人工注释的多项选择题,涵盖三个广泛类别:图表、地图和网络,每个类别都涵盖了现实世界中各种文本丰富的场景。由于这些类别固有的复杂性和多样性,它们有效地模拟了现实世界中的文本丰富环境。我们进一步进行了一项全面评估,涉及34个知名MLLMs(包括GPT-4V、Gemini-Pro-Vision和Claude-3-Opus),并强调了MLLMs在文本丰富的视觉理解方面目前的局限性。我们希望我们的工作能成为现有MLLM基准的有价值补充,提供深刻的观察,并激发在MLLMs文本丰富的视觉理解领域进一步研究。数据集和评估代码可在https://github.com/AILab-CVC/SEED-Bench 上获取。