每日精选AI研究论文及翻译
在这项工作中,我们开发并发布了Llama 2,这是一组预训练和微调的大型语言模型(LLMs),规模从70亿到700亿参数不等。我们的微调LLMs,称为Llama 2-Chat,经过优化以用于对话用例。我们的模型在我们测试的大多数基准上均优于开源聊天模型,并根据我们进行的有关帮助性和安全性的人工评估,可能是封闭源模型的合适替代品。我们提供了对Llama 2-Chat微调和安全改进方法的详细描述,以便让社区能够在我们的工作基础上进行拓展,并为LLMs的负责任开发做出贡献。
GPT-3.5和GPT-4是两种最广泛使用的大型语言模型(LLM)服务。然而,这些模型何时以及如何随时间更新是不透明的。在这里,我们评估了2023年3月和2023年6月版本的GPT-3.5和GPT-4在四个不同任务上的表现:1)解决数学问题,2)回答敏感/危险问题,3)生成代码和4)视觉推理。我们发现,无论是GPT-3.5还是GPT-4的性能和行为随时间变化可能会有很大差异。例如,GPT-4(2023年3月)在识别质数方面表现非常出色(准确率97.6%),但GPT-4(2023年6月)在同样的问题上表现非常糟糕(准确率2.4%)。有趣的是,GPT-3.5(2023年6月)在这个任务上比GPT-3.5(2023年3月)要好得多。GPT-4在6月份回答敏感问题时不如3月份乐意,而GPT-4和GPT-3.5在6月份生成代码时出现更多格式错误。总的来说,我们的发现表明,同一种LLM服务的行为在相对短的时间内可能会发生显著变化,凸显了对LLM质量进行持续监控的必要性。
电路分析是一种有前途的技术,用于理解语言模型的内部机制。然而,现有的分析是在远未达到最新技术水平的小型模型上进行的。为了解决这个问题,我们提出了对70B Chinchilla模型进行电路分析的案例研究,旨在测试电路分析的可扩展性。具体而言,我们研究了多项选择题回答,并调查了Chinchilla在了解正确答案文本的情况下识别正确答案标签的能力。 我们发现现有的logit归因、注意力模式可视化和激活修补技术自然地适用于Chinchilla,使我们能够识别和分类一小组“输出节点”(注意力头和MLP)。 我们进一步研究了“正确字母”类别的注意力头,旨在理解其特征的语义,结果参差不齐。对于普通的多项选择题答案,我们在操作多项选择题答案标签时,显著压缩了头部的查询、键和值子空间,而性能没有损失,并且我们表明查询和键子空间在某种程度上代表“枚举中的第N个项目”特征。然而,当我们尝试使用这个解释来理解在包括随机答案标签在内的更一般分布上的头部行为时,我们发现这只是一个部分解释,表明我们还有更多关于“正确字母”头部在多项选择题回答中运作的内容需要学习。
像CLIP这样的图像文本对比模型对各种下游应用非常有用,包括零样本分类、图像文本检索和迁移学习。然而,这些经过对比训练的视觉-语言模型在诸如Winoground之类的组合视觉-语言任务上通常表现不佳,其性能相当于随机猜测。在我们的论文中,我们解决了这个问题,并提出了一种名为SDS-CLIP的样本高效轻量级方法,以提高CLIP的组合视觉-语言推理能力。我们方法的核心思想是利用可微分的图像参数化,通过从大型文本到图像生成模型(如Stable-Diffusion)的蒸馏目标对CLIP进行微调,这些模型在视觉-语言推理任务中表现相对较好。在具有挑战性的Winoground组合推理基准测试中,我们的方法将不同CLIP模型的绝对视觉-语言性能提高了高达7%,而在ARO数据集上,我们的方法将视觉-语言性能提高了高达3%。通过将视觉-语言推理引入CLIP的副产品,我们还发现零样本性能在各种下游数据集上略有改善。我们的方法强调了精心设计的蒸馏目标可以被利用来扩展现有的对比图像-文本模型,从而提高其视觉-语言推理能力。
从单视图RGB-D输入进行3D重建取得了显著进展。MCC是当前该领域的最先进方法,通过将视觉Transformer与大规模训练相结合,取得了前所未有的成功。然而,我们确定了MCC的两个关键局限:1)Transformer解码器在处理大量查询点时效率低下;2)3D表示难以恢复高保真细节。在本文中,我们提出了一种名为NU-MCC的新方法来解决这些局限。NU-MCC包括两个关键创新:邻域解码器和斥力无符号距离函数(Repulsive UDF)。首先,我们的邻域解码器引入中心点作为输入视觉特征的高效代理,使每个查询点仅关注一个小邻域。这种设计不仅导致更快的推理速度,还能利用更精细的视觉特征来改善3D纹理的恢复。其次,我们的斥力UDF是MCC中占用字段的一种新颖替代方案,显著提高了3D对象重建的质量。与标准UDF存在结果中的空洞问题相比,我们提出的斥力UDF可以实现更完整的表面重建。实验结果表明,NU-MCC能够学习到强大的3D表示,显著推动了单视图3D重建的最新技术。特别是,在CO3D-v2数据集上,它在F1分数上比MCC高出9.7%,且运行速度快5倍以上。
我们介绍了Biomaker CA:一个使用元胞自动机(CA)的生物制造者项目。 在Biomaker CA中,形态发生是一个一等公民,小种子需要在养分匮乏的环境中生长成类植物的有机体,最终以变异繁衍,使生物群在长时间内生存。我们通过2D网格中的CA规则模拟复杂的生物群落,并通过Python JAX框架在GPU上并行化所有计算。我们展示了这个项目如何允许多种不同类型的环境和“物理”规律,以及不同的模型架构和突变策略。我们进一步分析了一些配置,展示了植物代理如何生长、生存、繁殖和进化,形成稳定和不稳定的生物群落。然后,我们展示了如何通过端到端元进化或更为精确高效的方法,即Petri皿元进化,来使模型在恶劣环境中生存。最后,我们展示了如何进行交互式进化,用户决定如何与植物模型进行互动进化,然后将其部署在更大的环境中。我们在以下网址开源Biomaker CA:https://tinyurl.com/2x8yu34s。