每日精选AI研究论文及翻译
随着大型语言模型(LLMs)的进步,它们已经超越了我们准确评估其质量的能力。不仅是找到足够的数据来充分探究特定模型属性困难,而且仅评估模型自由生成的正确性本身就是一项挑战。为了解决这个问题,许多评估现在依赖于使用LLMs本身作为评判者来评分其他LLMs的输出质量。评估最常用的是像GPT4这样的单一大型模型。虽然这种方法越来越受欢迎,但成本高昂,已被证明会引入模型内部偏见,在这项工作中,我们发现非常大的模型通常是不必要的。我们建议改为使用LLM评估者小组(PoLL)来评估模型。在三种不同的评委设置和涵盖六个不同数据集的情况下,我们发现使用由较多较小模型组成的PoLL优于单一大评委,由于其由不同模型系列组成,表现出更少的模型内部偏见,并且成本要低七倍以上。
推测解码已经证明了其在加速大型语言模型推理过程中的有效性,同时保持了一致的采样分布。然而,传统的训练单独的草稿模型以实现令人满意的标记接受率的方法可能成本高昂。受早期退出的启发,我们提出了一种新颖的自我推测解码框架 Kangaroo,它使用一个固定的浅层子网络作为自草稿模型,剩余的层作为更大的目标模型。我们在子网络顶部训练了一个轻量级高效的适配器模块,以弥合子网络和完整模型的表示能力之间的差距。值得注意的是,自草稿模型的推理延迟可能与大模型相比不再可以忽略,因此需要采取策略来提高标记接受率,同时最小化小模型的草拟步骤。为了解决这一挑战,我们引入了一个额外的早期退出机制来生成草稿标记。具体而言,在草拟阶段,一旦当前标记的置信水平低于一定阈值,我们就会停止小模型的后续预测。在 Spec-Bench 上进行的大量实验表明了 Kangaroo 的有效性。在单序列验证下,Kangaroo 在 Spec-Bench 上实现了高达 1.68 倍的加速,胜过 Medusa-1,且额外参数数量减少了 88.7\%(67M 对比 591M)。Kangaroo 的代码可在 https://github.com/Equationliu/Kangaroo 获取。
在各种医疗应用中取得卓越成就对人工智能提出了相当大的挑战,需要先进的推理能力、获取最新的医学知识以及理解复杂的多模态数据。Gemini模型在多模态和长上下文推理方面具有强大的通用能力,在医学领域提供了令人兴奋的可能性。基于Gemini的这些核心优势,我们引入了Med-Gemini,这是一系列在医学领域专门针对性强的多模态模型,能够无缝地利用网络搜索,并且可以通过自定义编码器高效地适应新的模态。我们在14个医学基准测试上评估了Med-Gemini,在其中有10个基准测试上取得了新的最先进性能,并且在每个可以进行直接比较的基准测试上都超过了GPT-4模型系列,通常领先很大。在流行的MedQA(USMLE)基准测试中,我们表现最佳的Med-Gemini模型实现了91.1%的准确率,采用了一种新颖的基于不确定性引导的搜索策略。在包括NEJM图像挑战和MMMU(健康与医学)在内的7个多模态基准测试中,Med-Gemini相对于GPT-4V平均提升了44.5%。我们通过在长匿名健康记录和医学视频问答中的针对长上下文能力的最先进表现,展示了Med-Gemini的有效性,超越了先前仅使用上下文学习的定制方法。最后,Med-Gemini的表现表明在医学文本摘要等任务上超越了人类专家,同时还展示了在多模态医学对话、医学研究和教育方面的潜在前景。综合起来,我们的结果为Med-Gemini的潜力提供了令人信服的证据,尽管在这个安全关键领域进行实际部署之前,进一步严格评估将至关重要。
尽管大型语言模型(LLMs)和大型多模态模型(LMMs)取得了进展,但它们与基于语言、类人化实体代理的整合仍然不完整,阻碍了在物理环境中执行复杂现实任务。现有的整合通常存在开源受限,阻碍了该领域的集体进展。我们引入了LEGENT,这是一个开放且可扩展的平台,用于利用LLMs和LMMs开发实体代理。LEGENT提供了双重方法:一个丰富的、互动的3D环境,具有可交流和可操作的代理,配合用户友好的界面,以及一个利用先进算法从模拟世界中规模化利用监督的复杂数据生成流水线。在我们的实验中,一个在LEGENT生成数据上训练的视觉-语言-动作模型超越了GPT-4V在实体任务中,展示了有前途的泛化能力。
图形设计对于各种应用至关重要,包括电影制作和游戏设计。为了创造高质量的场景,设计师通常需要在诸如Blender之类的软件中花费数小时,其中他们可能需要交错和重复操作,比如连接材质节点,数百次。此外,稍有不同的设计目标可能需要完全不同的序列,使自动化变得困难。在本文中,我们提出了一个系统,利用视觉-语言模型(VLMs),如GPT-4V,智能搜索设计行动空间,以得出能满足用户意图的答案。具体而言,我们设计了一个基于视觉的编辑生成器和状态评估器,共同寻找正确的行动序列以实现目标。受人类设计过程中视觉想象力的启发,我们通过从图像生成模型获取“想象”的参考图像,为VLMs的视觉推理能力提供视觉基础,从而补充了VLMs的视觉推理能力。在本文中,我们提供了实证证据,表明我们的系统可以为诸如从文本和/或参考图像编辑程序材质以及调整复杂场景中产品渲染的照明配置等任务生成简单但繁琐的Blender编辑序列。
除了通过更多数据或参数来扩展基础模型之外,微调适配器提供了一种替代方法,可以以较低成本生成高保真度、定制化的图像。因此,适配器已被开源社区广泛采用,积累了超过10万个适配器的数据库,其中大多数都高度定制化,但缺乏充分的描述。本文探讨了将提示与一组相关适配器进行匹配的问题,基于最近强调组合适配器性能增益的工作。我们引入了Stylus,它可以根据提示的关键词高效选择并自动组合特定任务的适配器。Stylus概述了一个三阶段方法,首先通过改进描述和嵌入来总结适配器,检索相关适配器,然后根据提示的关键词进一步组装适配器,通过检查它们与提示的匹配程度来确定。为了评估Stylus,我们开发了StylusDocs,这是一个精心策划的数据集,包含了预先计算的适配器嵌入,共有7.5万个适配器。在我们对流行的Stable Diffusion检查点进行评估时,Stylus实现了更高的CLIP-FID Pareto效率,并且在人类和多模态模型作为评估者时,比基础模型更受欢迎。更多信息请访问stylus-diffusion.github.io。
能够学习新颖操纵任务的自主机器人系统有望改变从制造业到服务自动化的行业。然而,现代方法(例如,VIP和R3M)仍然面临重大障碍,特别是在机器人实体之间的领域差距和特定动作空间内成功任务执行的稀疏性方面,导致任务表示不一致和模糊。我们引入了Ag2Manip(用于操纵的Agent-Agnostic表示),这是一个旨在通过两个关键创新克服这些挑战的框架:一种新颖的与代理无关的视觉表示,源自人类操纵视频,其中实体的具体细节被隐藏以增强泛化能力;以及一个与代理无关的动作表示,将机器人的运动学抽象为通用代理,强调末端执行器和物体之间的关键交互。Ag2Manip在模拟基准测试中(如FrankaKitchen、ManiSkill和PartManip)的实证验证显示性能提高了325%,而无需领域特定的演示。消融研究强调了视觉和动作表示对这一成功的重要贡献。将我们的评估扩展到现实世界,Ag2Manip将模仿学习的成功率从50%提高到77.5%,展示了其在模拟和物理环境中的有效性和泛化能力。
服装在人类外表中的重要作用凸显了服装数字化对数字人类创作的重要性。最近在3D内容创作方面的进展对数字人类创作至关重要。然而,通过文本指导生成服装的技术仍处于起步阶段。我们引入了一种文本驱动的3D服装生成框架,名为DressCode,旨在为新手民主化设计,并在时尚设计、虚拟试穿和数字人类创作领域具有巨大潜力。在我们的框架中,我们首先介绍了SewingGPT,这是一种基于GPT的架构,将交叉注意力与文本条件嵌入相结合,以生成带有文本指导的缝纫图案。我们还定制了一个预训练的Stable Diffusion,用于生成高质量、基于瓷砖的PBR纹理。通过利用大型语言模型,我们的框架通过自然语言交互生成CG友好的服装。我们的方法还促进了图案完成和纹理编辑,通过用户友好的交互简化了设计师的流程。通过全面评估和与其他最先进方法的比较,我们的方法展示了最佳质量,并与输入提示对齐。用户研究进一步验证了我们高质量的渲染结果,突显了其在生产环境中的实用性和潜力。