每日精选AI研究论文及翻译
随着大型语言模型规模的增加,部署面临挑战,由于高能耗引发了环境影响的担忧。在这项工作中,我们介绍了BitNet,这是一种可扩展且稳定的1比特Transformer架构,专为大型语言模型设计。具体而言,我们引入了BitLinear作为nn.Linear层的即插即用替代,以便从头开始训练1比特权重。在语言建模的实验结果显示,与最先进的8比特量化方法和FP16 Transformer基线相比,BitNet在实现竞争性能的同时,大幅减少了内存占用和能耗。此外,BitNet表现出类似于全精度Transformer的扩展定律,表明其在保持效率和性能优势的同时,具有有效扩展至更大型语言模型的潜力。
本文旨在实现动态3D场景在4K分辨率下的高保真实时视图合成。最近,一些动态视图合成方法展示了令人印象深刻的渲染质量。然而,在渲染高分辨率图像时,它们的速度仍然受限。为了克服这一问题,我们提出了4K4D,一种支持硬件光栅化并实现前所未有渲染速度的4D点云表示。我们的表示建立在4D特征网格上,使点自然正则化,并能够稳健地优化。此外,我们设计了一种新颖的混合外观模型,显著提升了渲染质量同时保持效率。此外,我们开发了一种可微的深度剥离算法,有效地从RGB视频中学习所提出的模型。实验表明,我们的表示可以在DNA-Rendering数据集的1080p分辨率上以超过400 FPS进行渲染,在ENeRF-Outdoor数据集的4K分辨率上以80 FPS在RTX 4090 GPU上进行渲染,比先前方法快30倍,并实现了最先进的渲染质量。我们将发布代码以便复现研究结果。
低秩适应(LoRA)是一种流行的方法,用于微调大型语言模型时减少可训练参数的数量,但在扩展到更大模型或部署大量每用户或每任务适应模型时仍面临严峻的存储挑战。在这项工作中,我们提出了基于向量的随机矩阵适应(VeRA),与LoRA相比,它将可训练参数数量减少了10倍,同时保持了相同的性能。它通过在所有层之间共享一对低秩矩阵并学习小的缩放向量来实现这一点。我们在GLUE和E2E基准测试上展示了其有效性,并展示了它在指令跟随中的应用,仅使用Llama2 7B模型的1.4M参数。
我们提出了一种名为Mark集合(SoM)的新视觉提示方法,旨在释放大型多模态模型(LMMs)如GPT-4V的视觉基础能力。如图1(右)所示,我们使用现成的交互式分割模型,如SAM,将图像分割为不同粒度的区域,并在这些区域上叠加一组标记,例如字母数字、蒙版、框等。使用带有标记的图像作为输入,GPT-4V可以回答需要视觉基础的问题。我们进行了全面的实证研究,验证了SoM在广泛的细粒度视觉和多模态任务上的有效性。例如,我们的实验表明,具有SoM的GPT-4V在零-shot设置下在RefCOCOg上的表现优于最先进的完全微调的指代分割模型。
近年来,视觉和语言生成模型已经迅速发展。对于视频生成,各种开源模型和公开服务已发布,用于生成高视觉质量的视频。然而,这些方法通常使用一些学术指标,例如FVD或IS,来评估性能。我们认为很难仅通过简单指标来评判大型条件生成模型,因为这些模型通常是在非常庞大的数据集上训练的,具有多方面的能力。因此,我们提出了一个新的框架和流程,以全面评估生成视频的性能。为实现这一目标,我们首先通过分析真实世界提示列表,借助大型语言模型,制定了一个新的文本到视频生成的提示列表。然后,我们根据视觉质量、内容质量、动态质量以及文本-标题对齐等约18个客观指标,在我们精心设计的基准测试上评估最先进的视频生成模型。为获得模型的最终排行榜,我们还拟合了一系列系数,将客观指标与用户意见进行对齐。根据提出的意见对齐方法,我们的最终得分显示出比简单平均指标更高的相关性,展示了所提出的评估方法的有效性。
像ChatGPT这样的大型语言模型展示了在推断过程中学习新概念的显著能力,而无需任何微调。然而,训练用于在推断过程中检测新对象的视觉模型却无法复制这种能力,而是表现不佳或需要在类似对象上进行元训练和/或微调。在这项工作中,我们提出了一种元学习算法,通过在推断过程中学习新的视觉概念而无需微调来模拟大型语言模型。我们的方法利用了一个冻结的预训练特征提取器,并类似于上下文学习,将元学习重新构建为在具有已知标签的数据点和一个具有未知标签的测试数据点上进行序列建模。在11个元学习基准中的8个中,我们的方法 - 无需元训练或微调 - 超过或与基准上经过元训练的最先进算法P>M>F相匹配。
如何在不牺牲性能的情况下减少神经网络(NNs)的计算和内存需求?许多最近的研究使用稀疏的专家混合(MoEs)来构建资源高效的大型语言模型(LMs)。在这里,我们介绍了有关MoEs的几个新颖视角,提出了一个统一各种方法的通用框架,用于近似两层神经网络(例如,Transformer的前馈块)以及产品键记忆(PKMs)。利用这一框架的见解,我们提出了改进MoEs和PKMs的方法。与以往将MoEs与密集基线在计算相等条件下进行比较的研究不同,我们的评估条件是参数相等,这对正确评估LMs至关重要。我们展示了我们的MoEs在WikiText-103和enwiki8数据集上与密集Transformer-XL在两个不同规模上具有竞争力,同时更加资源高效。这表明MoEs不仅与极大型LMs相关,也与任何规模的资源高效LMs相关。我们的代码是公开的。
随着大型语言模型(LLMs)变得越来越普遍,对新型和改进的量化方法的需求日益增长,这些方法可以满足这些现代架构的计算需求,同时保持准确性。在本文中,我们提出了TEQ,这是一种可训练的等效转换,可以保持模型输出的FP32精度,同时利用低精度量化,特别是3位和4位的仅权重量化。训练过程轻量级,仅需要1K步骤和少于原始模型可训练参数的0.1%。此外,该转换在推断期间不会增加任何计算开销。我们的结果与典型LLMs上的最先进方法(SOTA)持平。我们的方法可以与其他方法结合,以实现更好的性能。代码可在https://github.com/intel/neural-compressor 上找到。
随着基于扩散的文本到图像生成技术取得的显著进展,将这种强大的生成能力扩展到文本到视频引起了极大关注。现有方法要么需要大规模的文本-视频对和大量的训练资源,要么学习与模板视频精确对齐的动作。在视频生成中平衡生成自由度与资源成本之间的权衡并不简单。在我们的研究中,我们提出了一种基于少样本调整的框架,LAMP,它可以在单个GPU上使用8~16个视频训练文本到图像扩散模型以学习特定的运动模式。具体来说,我们设计了一个以第一帧为条件的流水线,该流水线使用现成的文本到图像模型进行内容生成,使我们调整的视频扩散模型主要集中于学习运动。成熟的文本到图像技术可以提供视觉上令人愉悦和多样化的内容作为生成条件,这极大地提高了视频质量和生成自由度。为了捕捉时间维度的特征,我们将预训练的2D卷积层扩展到我们的新颖时空运动学习层,并将注意力块修改为时间级别。此外,我们开发了一种有效的推断技巧,即共享噪声采样,可以提高视频的稳定性并降低计算成本。我们的方法还可以灵活应用于其他任务,例如真实世界图像动画和视频编辑。大量实验证明,LAMP能够有效地从有限数据中学习运动模式并生成高质量视频。代码和模型可在https://rq-wu.github.io/projects/LAMP 上获取。
代码补全模型在近年取得了显著进展,然而当前流行的评估数据集,如HumanEval和MBPP,主要集中在单个文件内的代码补全任务上。这种过于简化的设置无法代表现实世界的软件开发场景,其中存储库跨越多个文件,具有许多文件间的依赖关系,通常需要访问和理解跨文件上下文才能正确完成代码。 为了填补这一空白,我们提出了CrossCodeEval,这是一个多样化且多语言的代码补全基准,需要深入的跨文件上下文理解才能准确完成代码。CrossCodeEval建立在一组多样化的真实世界、开源、许可证宽松的存储库上,涵盖四种流行的编程语言:Python、Java、TypeScript和C#。为了创建严格需要跨文件上下文才能准确完成的示例,我们提出了一种简单而高效的基于静态分析的方法,以确定当前文件中跨文件上下文的使用。 对于像CodeGen和StarCoder这样的最先进代码语言模型的广泛实验表明,当相关的跨文件上下文缺失时,CrossCodeEval极具挑战性,而在提示中添加这些上下文时我们看到明显的改进。然而,尽管有这些改进,即使使用最高性能的模型,性能的巅峰仍然尚未达到,这表明CrossCodeEval也能够评估模型利用广泛上下文以实现更好代码补全的能力。最后,我们对检索跨文件上下文的各种方法进行了基准测试,并展示CrossCodeEval也可用于衡量代码检索器的能力。