每日精选AI研究论文及翻译
大型语言模型已成为自然语言处理的基石,但它们的使用会带来大量的计算和内存资源成本。稀疏化提供了一种解决方案来缓解这些资源约束,最近的研究表明,经过训练的模型可以在事后进行稀疏化。现有的稀疏化技术面临挑战,因为它们需要额外的数据结构,并且在当前硬件上提供了受限的加速。在本文中,我们提出了SliceGPT,一种新的后训练稀疏化方案,它用较小的(密集的)矩阵替换每个权重矩阵,从而降低网络的嵌入维度。通过大量实验,我们展示了SliceGPT可以删除LLAMA2-70B、OPT 66B和Phi-2模型中高达25%的模型参数(包括嵌入),同时分别保持了密集模型的99%、99%和90%的零样本任务性能。我们的切片模型在更少的GPU上运行,并且速度更快,无需任何额外的代码优化:在24GB消费级GPU上,我们将LLAMA2-70B的推断计算总量减少到密集模型的64%;在40GB的A100 GPU上,我们将其减少到66%。我们提供了一个新的见解,即变压器网络中的计算不变性,这使得SliceGPT成为可能,并希望它能激发和促成未来减少预训练模型内存和计算需求的途径。代码可在以下链接找到:https://github.com/microsoft/TransformerCompression
元学习已经成为一种强大的方法,用于训练神经网络从有限数据中快速学习新任务。对不同任务的广泛接触导致多才多艺的表示,从而实现了通用问题解决能力。但是,元学习的局限性在哪里?在这项工作中,我们探讨了将最强大的通用预测器——Solomonoff归纳(SI)——通过充分利用元学习的潜力,嵌入神经网络的可能性。我们使用通用图灵机(UTMs)生成训练数据,用于让网络接触各种模式。我们对UTM数据生成过程和元训练协议进行了理论分析。我们使用神经架构(如LSTM、Transformer)和不同复杂性和通用性的算法数据生成器进行了全面实验。我们的结果表明,UTM数据是元学习的宝贵资源,可以用来训练能够学习通用预测策略的神经网络。
自回归解码使得推断大型语言模型(LLMs)变得耗时。我们提出了一个简单的框架,EAGLE(Greater Language-model Efficiency的Extrapolation Algorithm),用于无损加速。与传统的猜测抽样方法不同,EAGLE在更规则(第二顶层)的特征级别上自回归地进行起草过程,并通过整合提前一个时间步的标记来解决下一个特征预测问题中的抽样不确定性问题。EAGLE提供的加速是无损的:它不涉及对目标LLM的微调,并且生成的文本保持与普通自回归解码相同的分布。截至本文提交时,EAGLE是已知的猜测抽样家族中速度最快的框架。在MT-bench上,EAGLE比普通解码快3倍,比Lookahead快2倍,比Medusa快1.6倍。使用gpt-fast,EAGLE在单个RTX 3090 GPU上平均达到每秒160个标记,而Huggingface的实现为每秒24个标记。
最近文本到图像模型的进展显著增强了图像生成能力,然而在双语或中文语言支持方面仍存在明显的开源模型空白。为了解决这一需求,我们提出了Taiyi-Diffusion-XL,这是一种新的中英双语文本到图像模型,通过扩展CLIP和Stable-Diffusion-XL的能力,通过双语连续预训练的过程进行开发。该方法包括通过将最常用的中文字符整合到CLIP的分词器和嵌入层中,结合绝对位置编码扩展,实现词汇的高效扩展。此外,我们通过大型视觉-语言模型丰富文本提示,从而获得更好的图像描述并具有更高的视觉质量。这些增强措施随后应用于下游文本到图像模型。我们的实证结果表明,开发的CLIP模型在双语图像-文本检索方面表现出色。此外,Taiyi-Diffusion-XL的双语图像生成能力超越了先前的模型。这项研究促成了Taiyi-Diffusion-XL模型的开发和开源,代表了图像生成领域的一项显著进步,特别是对于中文应用。这一贡献是在多模态研究中更多样化语言支持需求方面的一大步。该模型和演示可在以下网址公开获取:https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-XL-3.5B/{此https网址},促进该领域的进一步研究和合作。
基于文本驱动的3D场景编辑因其便利性和用户友好性而受到了广泛关注。然而,由于文本描述的固有限制,现有方法仍然缺乏对编辑结果指定外观和位置的精确控制。为此,我们提出了一个3D场景编辑框架,TIPEditor,它接受文本和图像提示以及3D边界框来指定编辑区域。通过图像提示,用户可以方便地指定目标内容的详细外观/风格,以补充文本描述,实现外观的精确控制。具体而言,TIP-Editor采用逐步的2D个性化策略来更好地学习现有场景和参考图像的表示,其中提出了一个定位损失来鼓励按照边界框指定的正确对象放置。此外,TIPEditor利用显式和灵活的3D高斯光斑作为3D表示,以促进局部编辑同时保持背景不变。大量实验证明,TIP-Editor在指定边界框区域内根据文本和图像提示进行精确编辑,始终优于基准线在编辑质量和对提示的对齐方面,在定性和定量上表现出色。
人们利用表达行为有效地与他人沟通和协调行动,比如点头以示认可别人的注视,或说“对不起”以在拥挤的走廊中通行。我们希望机器人在人机交互中也能展示表达行为。先前的研究提出了基于规则的方法,但这些方法难以扩展到新的沟通模式或社交场景,而数据驱动的方法则需要针对机器人使用的每种社交场景专门的数据集。我们建议利用大型语言模型(LLMs)提供的丰富社交背景以及它们根据指令或用户偏好生成动作的能力,来生成具有适应性和可组合性的表达性机器人动作,这些动作可以相互构建。我们的方法利用少样本连贯思维提示,将人类语言指令转换为参数化控制代码,利用机器人已有的和学习到的技能。通过用户研究和模拟实验,我们展示了我们的方法产生的行为被用户认为是胜任且易于理解的。补充材料可在https://generative-expressive-motion.github.io/找到。