每日精选AI研究论文及翻译
大型语言模型(LLMs)已经改变了人工智能的格局,然而它们巨大的规模在计算成本方面带来了重大挑战。我们介绍了 LoRAShear,这是一种新颖的高效方法,用于在结构上修剪LLMs并恢复知识。给定一般的LLMs,LoRAShear首先创建依赖图以发现最小移除结构并分析知识分布。然后,它在LoRA适配器上进行渐进式结构修剪,并实现固有知识转移,以更好地保留冗余结构中的信息。为了在修剪过程中恢复丢失的知识,LoRAShear认真研究并提出了动态微调方案,配合动态数据适配器,有效地缩小与完整模型之间的性能差距。数值结果表明,仅使用一台GPU在几天内,LoRAShear将LLMs的占用空间有效减少了20%,仅有1.0%的性能降级,并且明显优于现有技术。源代码将在https://github.com/microsoft/lorashear 上提供。
我们提出了MM-VID,这是一个集成系统,利用GPT-4V的能力,结合视觉、音频和语音等专门工具,促进高级视频理解。MM-VID旨在解决长视频和复杂任务带来的挑战,如在长达一小时的内容中进行推理和理解跨多集的故事情节。MM-VID利用视频到脚本生成与GPT-4V结合,将多模态元素转录为长文本脚本。生成的脚本详细描述了角色的移动、动作、表情和对话,为大型语言模型(LLMs)实现视频理解铺平了道路。这使得实现高级功能成为可能,包括音频描述、角色识别和多模态高层次理解。实验结果展示了MM-VID在处理不同视频类型和不同长度视频时的有效性。此外,我们展示了将其应用于交互环境(如视频游戏和图形用户界面)时的潜力。
视频生成在学术界和工业界越来越受到关注。尽管商业工具可以生成合理的视频,但对于研究人员和工程师来说,开源模型的数量有限。在这项工作中,我们介绍了两种用于高质量视频生成的扩散模型,即文本到视频(T2V)模型和图像到视频(I2V)模型。T2V模型根据给定的文本输入合成视频,而I2V模型则包含额外的图像输入。我们提出的T2V模型可以生成分辨率为1024乘576的逼真且具有电影质量的视频,质量方面优于其他开源T2V模型。I2V模型旨在生成严格遵循所提供参考图像内容的视频,保留其内容、结构和风格。该模型是第一个开源I2V基础模型,能够将给定图像转换为视频片段,同时保持内容保留约束。我们相信这些开源视频生成模型将为社区内的技术进步做出重大贡献。
在内容生成、智能聊天机器人和情感分析等应用中对大型语言模型(LLMs)日益增长的需求,给LLM服务提供商带来了相当大的挑战。为了高效利用GPU资源并提高吞吐量,批处理多个请求已成为一种流行的范式;为了进一步加快批处理速度,LLM量化技术减少内存消耗并增加计算能力。然而,普遍存在的量化方案(例如8位权重-激活量化)无法充分利用现代GPU的能力,比如4位整数运算器,导致性能不佳。 为了最大化LLMs的服务吞吐量,我们引入了Atom,一种低位量化方法,实现了高吞吐量改进,几乎没有准确性损失。Atom通过使用低位运算器显著提高服务吞吐量,并通过低位量化大幅减少内存消耗。它通过应用新颖的混合精度和细粒度量化过程实现高准确性。我们在服务环境中的4位权重-激活量化设置上评估了Atom。Atom相比于FP16提高了端到端吞吐量高达7.73倍,相比于INT8量化提高了2.53倍,同时保持相同的延迟目标。
将定制对象纳入图像生成中在文本到图像生成中具有吸引人的特点。然而,现有基于优化和编码器的方法受到诸如耗时的优化、不足的身份保留以及普遍存在的复制粘贴效应等缺点的阻碍。为了克服这些限制,我们引入了CustomNet,这是一种新颖的对象定制方法,明确地将3D新视图合成能力融入到对象定制过程中。这种集成有助于调整空间位置关系和视角,产生多样化的输出,同时有效地保留对象身份。此外,我们引入精心设计,通过文本描述或特定用户定义的图像实现位置控制和灵活的背景控制,克服了现有3D新视图合成方法的局限性。我们进一步利用数据集构建流程,更好地处理现实世界的对象和复杂背景。凭借这些设计,我们的方法实现了零-shot对象定制,无需测试时间优化,同时实现了对视角、位置和背景的同时控制。因此,我们的CustomNet确保了增强的身份保留,并生成多样化、和谐的输出。
大型语言模型(LLMs)在各种自然语言处理任务中展现出令人印象深刻的推理和数据增强能力。但是,小型模型呢?在这项工作中,我们提出了TeacherLM-7.1B,能够为大多数自然语言处理样本注释相关基础知识、思维链和常见错误,使注释不仅仅是一个答案,从而让其他模型学会“为什么”而不仅仅是“什么”。TeacherLM-7.1B模型在MMLU上取得了52.3的零-shot得分,超过了大多数具有超过100B参数的模型。更令人瞩目的是它的数据增强能力。基于TeacherLM-7.1B,我们增强了58个自然语言处理数据集,并在多任务设置中使用来自OPT和BLOOM系列的不同参数的各种学生模型进行了教学。实验结果表明,TeacherLM提供的数据增强带来了显著的好处。我们将以开源形式发布TeacherLM系列模型和增强的数据集。
本文对最先进的多模态大型语言模型 GPT-4 带视觉(GPT-4V)在视觉问答(VQA)任务中的能力进行了批判性评估。我们的实验全面评估了 GPT-4V 在回答配对图像问题方面的熟练程度,使用了来自 11 种模态(如显微镜、皮肤镜、X 射线、CT 等)和十五种感兴趣对象(脑、肝脏、肺等)的病理学和放射学数据集。我们的数据集涵盖了广泛的医学问题,包括十六种不同类型的问题。在我们的评估过程中,我们为 GPT-4V 设计了文本提示,引导其将视觉和文本信息进行协同。准确度评分实验得出结论,当前版本的 GPT-4V 由于在回答诊断性医学问题时的不可靠和次优准确性,不建议用于实际诊断。此外,我们描述了 GPT-4V 在医学 VQA 中行为的七个独特方面,突出了其在这一复杂领域内的限制。我们评估案例的完整细节可在 https://github.com/ZhilingYan/GPT4V-Medical-Report 上获取。
随着功能强大的封闭源LLM(如ChatGPT、GPT-4)的崛起,人们对将封闭源LLM的能力提炼至规模较小的开源LLM表现出越来越浓厚的兴趣。先前的提炼方法通常促使ChatGPT生成一组指令和答案,供学生模型学习。然而,这种标准的提炼方法忽视了学生模型的优点和条件。受现代教学原则启发,我们设计了一种个性化提炼过程,其中学生首先尝试解决一个任务,然后老师提供适应性的改进,以帮助学生提高。个性化提炼不同于向学生灌输老师的先验知识,它实现了学生模型的个性化学习,因为学生模型只学习在哪些示例上犯错,并学会改进自己的解决方案。在代码生成方面,个性化提炼始终优于标准提炼,且仅需三分之一的数据。仅需2.5-3K个个性化示例,数据收集成本为4-6美元,我们将CodeGen-mono-16B的通过率提高了7%,达到36.4%,将StarCoder提高了12.2%,达到45.8%的通过率在HumanEval上。
在这份技术报告中,我们介绍了Skywork-13B,这是一个大型语言模型(LLMs)系列,训练数据来自包括英文和中文在内的超过3.2万亿标记的语料库。这个双语基础模型是迄今为止训练最为广泛且公开发布的同等规模的LLMs。我们提出了一种两阶段训练方法,使用分段语料库,分别针对通用训练和领域特定增强训练。我们展示了我们的模型不仅在流行的基准测试中表现出色,而且在各种领域的中文语言建模中达到了最先进的性能。此外,我们提出了一种新颖的泄漏检测方法,证明了测试数据污染是一个迫切需要LLM社区进一步调查的问题。为了推动未来的研究,我们发布了Skywork-13B以及在训练过程中获得的中间阶段的检查点。我们还发布了我们的SkyPile语料库的一部分,这是一个包含超过1500亿标记的网络文本集合,是迄今为止最大的高质量开放式中文预训练语料库。我们希望Skywork-13B和我们的开放语料库能够作为宝贵的开源资源,使高质量的LLMs能够民主化获取。
最近,文本到3D生成取得了显著进展,特别是基于得分蒸馏采样(SDS)的方法,利用预训练的2D扩散模型。虽然无分类器指导的使用被广泛认为对于成功优化至关重要,但被视为辅助技巧而非最重要的组成部分。在本文中,我们重新评估了分类器无指导在得分蒸馏中的作用,并发现了一个令人惊讶的发现:仅凭指导就足以实现有效的文本到3D生成任务。我们将这种方法命名为分类器得分蒸馏(CSD),可以解释为在生成过程中使用隐式分类模型。这种新视角揭示了对于理解现有技术的新见解。我们验证了CSD在各种文本到3D任务中的有效性,包括形状生成、纹理合成和形状编辑,在结果上优于现有技术。我们的项目页面是https://xinyu-andy.github.io/Classifier-Score-Distillation