每日精选AI研究论文及翻译
指令调整已被广泛采用,以确保大型语言模型(LLMs)有效地遵循用户指令。LLMs的指令遵循能力主要依赖于用于调整的指令数据集。最近,合成指令数据集作为一种经济可行的解决方案出现,为LLMs提供多样化和高质量的指令。然而,现有方法通常假定更大或更强的模型对指令调整更有帮助,因此简单地采用这些模型作为合成指令的响应生成器。在本文中,我们挑战这一普遍接受的假设。我们在五个基础模型和二十个响应生成器之间进行了大量实验,发现更大更强的模型未必是更小模型的更好教师。我们将这一现象称为更大模型的悖论。我们观察到,现有的度量指标不能准确预测响应生成器的有效性,因为它们忽略了教师和被微调的基础模型之间的兼容性。因此,我们开发了一种新的度量指标,名为兼容性调整奖励(CAR),来衡量响应生成器的有效性。我们在五个基础模型上的实验表明,CAR优于几乎所有基线。
我们提出了JanusFlow,这是一个强大的框架,将图像理解和生成统一在一个模型中。JanusFlow引入了一种极简的架构,将自回归语言模型与修正流结合起来,后者是生成建模中的一种最先进方法。我们的关键发现表明,修正流可以直接在大型语言模型框架内进行训练,无需复杂的架构修改。为了进一步提高我们统一模型的性能,我们采用了两种关键策略:(i) 解耦理解和生成编码器,以及(ii) 在统一训练期间对它们的表示进行对齐。大量实验证明,JanusFlow在各自领域中达到了与专门模型相媲美或优越的性能,同时在标准基准测试中明显优于现有的统一方法。这项工作代表了迈向更高效、更多才多艺的视觉-语言模型的一步。
3D部件分割是三维感知中至关重要且具有挑战性的任务,在机器人技术、三维生成和三维编辑等应用中发挥着关键作用。最近的方法利用强大的视觉语言模型(VLMs)进行二维到三维知识蒸馏,实现了零样本三维部件分割。然而,这些方法受制于对文本提示的依赖,限制了在大规模未标记数据集上的可扩展性以及处理部件模糊性的灵活性。在这项工作中,我们引入了SAMPart3D,一种可扩展的零样本三维部件分割框架,可以将任何三维对象分割为多个粒度的语义部件,而无需预定义的部件标签集作为文本提示。为了实现可扩展性,我们使用文本无关的视觉基础模型来蒸馏三维特征提取骨干,从而实现对大规模未标记三维数据集的扩展以学习丰富的三维先验知识。为了实现灵活性,我们蒸馏出尺度条件下的部件感知三维特征,用于多个粒度的三维部件分割。一旦从尺度条件下的部件感知三维特征中获得分割部件,我们使用VLMs基于多视角渲染为每个部件分配语义标签。与以往方法相比,我们的SAMPart3D可以扩展到最新的大规模三维对象数据集Objaverse,并处理复杂的非常规对象。此外,我们提出了一个新的三维部件分割基准,以解决现有基准中对象和部件的缺乏多样性和复杂性问题。实验证明,我们的SAMPart3D明显优于现有的零样本三维部件分割方法,并可以促进各种应用,如部件级编辑和交互式分割。
我们介绍了BLIP3-KALE数据集,其中包含2.18亿个图像-文本对,弥合了描述性合成标题和事实性网络规模替代文本之间的差距。KALE通过将合成的密集图像标题与网络规模的替代文本相结合,生成基于事实的图像标题。我们的两阶段方法利用大型视觉-语言模型和语言模型创建知识增强标题,然后用于训练专门的VLM以扩大数据集。我们在KALE上训练视觉-语言模型,并展示在视觉-语言任务上的改进。我们的实验表明,KALE对于训练更具能力和知识的多模态模型具有实用性。我们在https://huggingface.co/datasets/Salesforce/blip3-kale发布了KALE数据集。
本文认为,采用扩散模型进行迭代计算不仅为生成任务,还为视觉感知任务提供了强大的范式。我们将深度估计、光流和分割等任务统一归类为图像到图像的转换,并展示了扩散模型如何从这些感知任务的训练和测试计算中受益。通过对这些扩展行为的仔细分析,我们提出了各种技术,以有效地训练扩散模型用于视觉感知任务。我们的模型在使用明显更少的数据和计算资源的情况下,实现了优化或可比较的性能,与最先进的方法相媲美。要使用我们的代码和模型,请访问 https://scaling-diffusion-perception.github.io 。
大规模的3D生成模型需要大量的计算资源,但往往在捕捉高分辨率下的细节和复杂几何结构方面表现不佳。我们将这种局限归因于当前表示法的低效性,缺乏有效建模生成模型所需的紧凑性。为了解决这个问题,我们引入了一种名为Wavelet Latent Diffusion(WaLa)的新方法,将3D形状编码为基于小波的紧凑潜在编码。具体地,我们将一个256^3的有符号距离场压缩成一个12^3乘以4的潜在网格,实现了惊人的2427倍压缩比,同时最小程度地损失细节。这种高度的压缩使我们的方法能够高效地训练大规模生成网络,而不会增加推断时间。我们的模型,无论是有条件的还是无条件的,都包含大约10亿个参数,并成功地在256^3分辨率下生成高质量的3D形状。此外,WaLa提供了快速的推断能力,根据条件,在两到四秒内生成形状,尽管模型的规模很大。我们展示了在多个数据集上的最先进性能,生成质量、多样性和计算效率均有显著提高。我们开源我们的代码,并据我们所知,发布了跨不同模态的最大预训练3D生成模型。
为了在虚拟和增强现实中创造沉浸式体验,捕捉准确的声学现象的真实音频合成至关重要。合成在任何位置接收到的声音依赖于脉冲响应(IR)的估计,IR表征了声音在一个场景中沿不同路径传播到达听者位置之前的方式。在本文中,我们提出声学体积渲染(AVR),这是一种将体积渲染技术应用于建模声学脉冲响应的新方法。虽然体积渲染在建模图像和神经场景表示的辐射场方面取得了成功,但IR作为时间序列信号具有独特的挑战。为了解决这些挑战,我们引入了频域体积渲染,并使用球形积分来拟合IR测量。我们的方法构建了一个脉冲响应场,从根本上编码了波传播原理,并在合成新姿势的脉冲响应方面实现了最先进的性能。实验证明AVR在很大程度上超越了当前领先方法。此外,我们开发了一个声学模拟平台AcoustiX,提供比现有模拟器更准确和逼真的IR模拟。AVR和AcoustiX的代码可在https://zitonglan.github.io/avr 上找到。
现在,购买大型语言模型(LLM)推理的访问权限而不是自行托管已成为一种常见的商业实践,因为存在着显著的前期硬件基础设施和能源成本。然而,作为购买者,并没有机制可以验证广告服务的真实性,包括提供服务的硬件平台,例如是否实际上是使用 NVIDIA H100 进行服务。此外,有报告表明,模型提供者可能会提供与广告不完全相同的模型,通常是为了使其在更便宜的硬件上运行。这样一来,客户为在更昂贵的硬件上访问功能强大的模型付费,但最终却是由更便宜的硬件上的(潜在较差的)廉价模型提供服务。在本文中,我们介绍了\textbf{硬件和软件平台推理(HSPI)}——一种仅基于其输入-输出行为识别(黑盒)机器学习模型底层架构和软件堆栈的方法。我们的方法利用各种架构和编译器之间的固有差异来区分不同类型和软件堆栈。通过分析模型输出中的数值模式,我们提出了一个能够准确识别用于模型推理的硬件类型以及底层软件配置的分类框架。我们的研究结果表明了从黑盒模型中推断硬件类型的可行性。我们对在不同真实硬件上提供服务的模型进行了HSPI评估,发现在白盒设置下,我们可以以83.9%至100%的准确率区分不同的硬件类型。即使在黑盒设置下,我们也能够获得高达随机猜测准确率三倍的结果。