每日精选AI研究论文及翻译
大型语言模型(LLMs)在许多自然语言处理任务中非常有用,并且随着规模的增加变得更加强大,目前最好的开源模型拥有超过500亿个参数。然而,使用这些超过500亿参数的模型需要高端硬件,这使得大多数研究人员无法接触到。在这项工作中,我们研究了LLMs的成本高效推理和微调方法,比较了本地和分布式策略。我们观察到,足够大的模型(超过500亿参数)甚至可以在消费级网络中的地理分布设备上高效运行。这可以通过整合多个研究团体和志愿者的空闲计算资源来高效运行LLMs。我们解决了两个开放性问题:(1)如果任何设备突然断开连接,如何可靠地执行推理和微调,以及(2)如何在硬件不均匀的设备之间对LLMs进行分区,这些设备可以随意加入和离开。为此,我们开发了特殊的容错推理算法和负载均衡协议,自动分配设备以最大化整个系统的吞吐量。我们在Petals中展示了这些算法 - 一个分散式系统,可以在互联网上比离线处理快10倍,用于交互生成的Llama 2(70B)和BLOOM(176B)。我们在模拟条件和跨越两个大陆的真实环境中评估了我们系统的性能。
现有的开放词汇图像分割方法需要在掩模标注和/或图像文本数据集上进行微调。掩模标签需要大量人力投入,这限制了分割数据集中类别的数量。因此,在微调后,预训练的VLM的开放词汇能力严重降低。然而,如果不进行微调,受弱图像文本监督训练的VLM在存在指向图像中不存在概念的文本查询时,往往会产生次优的掩模预测。为了缓解这些问题,我们引入了一种新颖的循环框架,逐渐过滤掉不相关的文本,并增强掩模质量,而无需进行训练。循环单元是一个基于具有冻结权重的VLM构建的两阶段分割器。因此,我们的模型保留了VLM的广泛词汇空间,并增强了其分割能力。实验结果表明,我们的方法不仅优于无需训练的对应方法,还优于使用数百万额外数据样本进行微调的方法,并为零样本语义和指代图像分割任务创造了新的最先进记录。具体而言,在Pascal VOC、COCO Object和Pascal Context上,我们将当前记录提高了28.8、16.0和6.9 mIoU。
在具体化人工智能中,3D模拟环境发挥着关键作用,但它们的创建需要专业知识和大量手动工作,限制了它们的多样性和范围。为了缓解这一限制,我们提出了Holodeck,这是一个系统,可以完全自动地生成与用户提供的提示相匹配的3D环境。Holodeck能够生成各种场景,例如游戏厅、温泉和博物馆,调整设计风格,并能捕捉复杂查询的语义,如“一名带猫的研究员的公寓”和“是星战迷的教授的办公室”。Holodeck利用大型语言模型(GPT-4)对场景可能的外观有常识性知识,并使用Objaverse的大量3D资产来填充场景中的各种对象。为了解决正确放置对象的挑战,我们提示GPT-4生成对象之间的空间关系约束,然后优化布局以满足这些约束。我们的大规模人类评估显示,注释者更喜欢Holodeck而不是手动设计的程序化基线在住宅场景中,Holodeck可以为各种场景类型生成高质量的输出。我们还展示了Holodeck在具体化人工智能中的一个令人兴奋的应用,即训练代理在像音乐室和托儿所这样的新颖场景中导航,而无需人工构建的数据,这是在发展通用具体化代理方面的重要一步。
本工作旨在提高文本到图像扩散模型的效率。尽管扩散模型在每一代中使用基于UNet的计算昂贵的去噪操作,但我们发现并非所有操作对最终输出质量都同等重要。特别是,我们观察到在高分辨率特征图上操作的UNet层对微小扰动相对敏感。相反,低分辨率特征图影响最终图像的语义布局,并且通常可以在不会引起输出明显变化的情况下被扰动。基于这一观察,我们提出了Clockwork Diffusion,一种周期性地重复利用先前去噪步骤的计算,以在一个或多个随后的步骤中近似低分辨率特征图的方法。对于多个基线以及文本到图像生成和图像编辑,我们证明Clockwork方法在大大降低计算复杂度的同时,实现了与基线相当或更好的感知评分。例如,对于具有8个DPM++步骤的Stable Diffusion v1.5,我们节省了32%的FLOPs,而FID和CLIP变化可以忽略不计。
我们提出了FoundationPose,这是一个统一的基础模型,用于6D物体姿态估计和跟踪,支持基于模型和无模型设置。我们的方法可以立即应用于新物体的测试阶段,无需微调,只要提供其CAD模型,或者捕获少量参考图像。我们通过神经隐式表示来弥合这两种设置之间的差距,这种表示允许有效的新视角合成,在相同统一框架下保持下游姿态估计模块的不变性。通过大规模合成训练、大语言模型(LLM)、一种新型基于Transformer的架构以及对比学习公式的帮助,我们实现了强大的泛化能力。在涉及具有挑战性场景和物体的多个公共数据集上进行了广泛评估,结果表明我们的统一方法在性能上大大优于现有专门针对每个任务的方法。此外,即使在减少了假设的情况下,它也实现了与实例级方法可比的结果。项目页面:https://nvlabs.github.io/FoundationPose/
大型语言模型(LLMs)在解决需要全面解析陈述、关联领域知识、执行复合逻辑推理和整合中间推理的复杂数学问题方面面临挑战。一次性解决所有这些问题对LLMs来说可能是困难的,因此可能导致生成过程中的混乱。在这项工作中,我们通过精心分解和建模数学推理过程,探讨了通过代理增强LLMs的潜力。具体地,我们提出了数学求解的形式化描述,并使用基于代理的零-shot框架PRER对LLMs进行扩展。我们进一步提供并实现了两个MathAgents,通过不同粒度和方向的一系列动作定义逻辑形式和内在关系:MathAgent-M将其动作调整到LLMs,而MathAgent-H与人类对齐。在miniF2F和MATH上的实验表明了PRER和提出的MathAgents的有效性,分别在MiniF2F上实现了12.3%(53.9%至66.2%)的增长,在MATH上实现了9.2%(49.8%至59.0%)的增长,以及在MATH的5级问题上实现了13.2%(23.2%至35.4%)的增长,相对于GPT-4。进一步的分析结果提供了更深入的洞察,以利用LLMs作为代理的行为。
理性发现被定义为找到输入数据的一个子集,最大程度地支持下游任务的预测。在图机器学习背景下,图理性被定义为定位给定图拓扑中的关键子图,这基本上决定了预测结果。与理性子图相反,其余子图被称为环境子图。图理性化可以增强模型性能,因为图理性和预测标签之间的映射被视为不变的,根据假设。为了确保提取的理性子图具有区分能力,应用了一种名为“干预”的关键技术。干预的核心思想是,鉴于任何变化的环境子图,来自理性子图的语义是不变的,这保证了正确的预测结果。然而,现有的几乎所有关于图数据的理性化工作都在图级别上开发其干预策略,这是粗粒度的。在本文中,我们提出了针对图数据的精心设计的干预策略。我们的想法受到Transformer模型的发展驱动,其自注意力模块提供了输入节点之间丰富的交互。基于自注意力模块,我们提出的不变图Transformer(IGT)可以实现细粒度,更具体地说,节点级和虚拟节点级的干预。我们的全面实验涉及7个真实世界的数据集,提出的IGT相对于13种基准方法显示出显著的性能优势。
最近神经渲染方面的进展表明,尽管速度较慢,隐式紧凑模型可以从多个视角学习场景的几何形状和视角相关外观。为了保持较小的内存占用,同时实现更快的推理时间,最近的研究采用了“采样器”网络,该网络可以自适应地沿着隐式神经辐射场中的每条射线对一小部分点进行采样。尽管这些方法在渲染时间上实现了高达10倍的减少,但与基本的神经辐射场相比,它们仍然存在相当大的质量下降。相比之下,我们提出了ProNeRF,它在内存占用(类似于NeRF)、速度(快于HyperReel)和质量(优于K-Planes)之间提供了最佳的折衷方案。ProNeRF配备了一种新颖的投影感知采样(PAS)网络,以及一种针对射线探索和利用的新训练策略,从而实现了高效的细粒度粒子采样。我们的ProNeRF在性能指标上达到了最先进水平,比NeRF快15-23倍,PSNR高0.65dB,并且比最佳的已发表基于采样器的方法HyperReel高0.95dB的PSNR。我们的探索和利用训练策略使ProNeRF能够学习完整场景的颜色和密度分布,同时学习针对最高密度区域的有效射线采样。我们提供了大量实验结果,证明了我们的方法在广泛采用的前向和360数据集LLFF和Blender上的有效性。