每日精选AI研究论文及翻译
科学知识主要存储在书籍和科学期刊中,通常以PDF形式存在。然而,PDF格式会导致语义信息的丢失,特别是对数学表达式而言。我们提出了Nougat(学术文档的神经光学理解),这是一个视觉Transformer模型,用于执行光学字符识别(OCR)任务,将科学文档处理成标记语言,并展示了我们模型在一组新的科学文档数据集上的有效性。所提出的方法为增强数字时代科学知识的可访问性提供了一个有前途的解决方案,通过弥合人类可读文档和机器可读文本之间的差距。我们发布了模型和代码,以加速未来科学文本识别工作的进展。
大型语言模型(LLMs)已经彻底改变了自然语言处理任务。然而,它们的实际部署受到了巨大的内存和计算需求的阻碍。尽管最近的后训练量化(PTQ)方法在减少内存占用和提高LLM的计算效率方面非常有效,但它们手工制定量化参数,导致性能低下,并且无法处理极低比特量化。为了解决这个问题,我们引入了一种全方位校准量化(OmniQuant)技术,用于LLMs,它在各种量化设置中取得良好性能,同时通过有效优化各种量化参数来保持PTQ的计算效率。OmniQuant包括两个创新组件,包括可学习权重剪切(LWC)和可学习等效变换(LET)。LWC通过优化剪切阈值来调节权重的极端值。与此同时,LET通过可学习等效变换将量化的挑战从激活转移到权重,以解决激活异常值的问题。在可微分框架内运行,通过分块误差最小化,OmniQuant可以有效地为仅权重和权重-激活量化优化量化过程。例如,大小为7-70B的LLaMA-2模型系列可以在单个A100-40G GPU上使用128个样本在1-16小时内通过OmniQuant处理。大量实验证实了OmniQuant在各种量化配置(如W4A4、W6A6、W4A16、W3A16和W2A16)中的卓越性能。此外,OmniQuant在经过指令调整的模型中表现出有效性,并在实际设备上提高了推理速度和减少内存占用。代码和模型可在https://github.com/OpenGVLab/OmniQuant 上找到。
软件开发在推动现代社会创新和效率方面发挥着至关重要的作用。为了满足这一不断变化领域的需求,迫切需要一款高效的软件开发助手。然而,现有的大型语言模型,如ChatGPT,存在训练数据和模型权重等方面的可及性有限。虽然其他大型开源模型,如LLaMA,显示出一定的潜力,但它们仍然在理解人类意图方面存在困难。本文介绍了SoTaNa,一款开源软件开发助手。SoTaNa利用ChatGPT生成基于指令的高质量软件工程领域数据,并采用参数高效的微调方法来增强开源基础模型LLaMA。我们评估了SoTaNa在回答Stack Overflow问题方面的有效性,并展示了其能力。此外,我们讨论了它在代码摘要和生成方面的能力,以及生成数据量变化对模型性能的影响。值得注意的是,SoTaNa可以在单个GPU上运行,使更广泛的研究人员能够使用。我们的代码、模型权重和数据可在https://github.com/DeepSoftwareAnalytics/SoTaNa 上公开获取。
视觉Transformer在各种视觉识别任务中取得了令人印象深刻的准确性。不幸的是,它们的准确性通常伴随着高计算成本。这在视频识别中尤为突出,因为模型经常在帧或时间块之间重复应用。在这项工作中,我们利用连续输入之间的时间冗余来降低视频处理中Transformer的成本。我们描述了一种方法,用于识别和重新处理那些随时间发生显着变化的令牌。我们提出的模型系列,称为“事件型Transformer”,可以从现有的Transformer转换而来(通常无需重新训练),并在运行时提供对计算成本的自适应控制。我们在大规模数据集上评估了我们的方法,包括视频目标检测(ImageNet VID)和动作识别(EPIC-Kitchens 100)。我们的方法导致了显著的计算节约(约2-4倍),仅在准确性上略有降低。
本文提出了一种新颖的神经隐式辐射表示方法,用于从一小组非结构化照片中的物体进行自由视点照明。这些照片中的物体由一个移动的点光源照亮,该光源与视角位置不同。我们将形状表示为由多层感知器建模的有符号距离函数。与先前的可照明隐式神经表示不同,我们不对不同的反射分量进行分离,而是通过第二个多层感知器在每个点上同时建模局部和全局反射。除了密度特征、当前位置、法线(来自有符号距离函数)、视角方向和光源位置外,该多层感知器还考虑阴影和高光提示,以帮助网络建模相应的高频光传输效应。这些提示只是作为建议提供,我们让网络决定如何将其纳入最终的照明结果中。我们在展示和验证我们的神经隐式表示时使用了合成和真实场景,这些场景展示了各种形状、材质属性和全局照明光传输。