每日精选AI研究论文及翻译
使用网络规模的图像文本对进行训练文本到图像模型,可以生成各种视觉概念。然而,这些预训练模型在生成高度美学图像时经常面临挑战。这导致了在预训练后需要进行美学对齐。本文提出了质量微调,以有效引导预训练模型专门生成高度视觉吸引力图像,同时保持跨视觉概念的普遍性。我们的关键见解是,通过使用一组数量惊人少但极具视觉吸引力的图像进行监督微调,可以显著提高生成质量。我们在 11 亿图像文本对上预训练了一个潜在扩散模型,并仅使用几千张精心挑选的高质量图像进行微调。得到的模型 Emu 在视觉吸引力上的胜率为 82.9%,相较于仅预训练的对应模型。与最先进的 SDXLv1.0 相比,Emu 在视觉吸引力上在标准 PartiPrompts 和我们的基于真实世界文本到图像模型使用的 Open User Input 基准上分别被偏好 68.4% 和 71.3% 的时间。此外,我们展示了质量微调是一种通用方法,对其他架构也有效,包括像素扩散和遮蔽生成变压器模型。
我们建议在VQ-VAE的潜在表示中用一种简单的方案有限标量量化(FSQ)取代向量量化(VQ),其中我们将VAE表示投影到少量维度(通常少于10)。每个维度被量化为一组固定值,导致一个(隐式的)码书由这些集合的乘积给出。通过适当选择维度的数量和每个维度可以取的值,我们获得与VQ中相同的码书大小。在这种离散表示之上,我们可以训练已经在VQ-VAE表示上训练过的相同模型。例如,自回归和掩蔽变压器模型用于图像生成、多模态生成以及密集预测计算机视觉任务。具体来说,我们在图像生成中使用MaskGIT进行FSQ,在深度估计、着色和全景分割中使用UViM。尽管FSQ的设计要简单得多,但我们在所有这些任务中获得了有竞争力的性能。我们强调,FSQ不会遭受码书崩溃,并且不需要VQ中使用的复杂机制(承诺损失、码书重新种植、码拆分、熵惩罚等)来学习表达力强的离散表示。
我们提出了一种基于低秩适应(LoRA)的神经语言建模系统,用于语音识别输出重评分。尽管像BERT这样的预训练语言模型在二次重评分中表现出优越性能,但是扩展预训练阶段的高计算成本以及将预训练模型调整到特定领域的限制限制了它们在重评分中的实际应用。在这里,我们提出了一种基于低秩分解的方法,用于训练一个重评分的BERT模型,并仅使用预训练参数的一小部分(0.08%)来将其调整到新领域。这些插入的矩阵通过一个判别式训练目标以及基于相关性的正则化损失进行优化。提出的低秩适应Rescore-BERT(LoRB)架构在LibriSpeech和内部数据集上进行了评估,训练时间缩短了5.4到3.6倍。
在大规模预训练文本到视频扩散模型(VDMs)领域取得了重大进展。然而,先前的方法要么仅依赖基于像素的VDMs,这会带来高计算成本,要么依赖基于潜在特征的VDMs,这经常难以实现精确的文本-视频对齐。在本文中,我们首次提出了一个混合模型,命名为Show-1,将基于像素和基于潜在特征的VDMs融合用于文本到视频生成。我们的模型首先使用基于像素的VDMs生成具有强文本-视频相关性的低分辨率视频。之后,我们提出了一种新颖的专家翻译方法,利用基于潜在特征的VDMs进一步将低分辨率视频上采样到高分辨率。与潜在特征VDMs相比,Show-1能够生成具有精确文本-视频对齐的高质量视频;与像素VDMs相比,Show-1更加高效(推理期间GPU内存使用为15G vs 72G)。我们还在标准视频生成基准上验证了我们的模型。我们的代码和模型权重可在https://github.com/showlab/Show-1 上公开获取。
我们提出了一种新型的神经场,使用通用径向基来表示信号。当前最先进的神经场通常依赖于基于网格的表示来存储本地神经特征和N维线性核以在连续查询点上插值特征。它们的神经特征的空间位置固定在网格节点上,不能很好地适应目标信号。相比之下,我们的方法建立在具有灵活核位置和形状的通用径向基之上,具有更高的空间适应性,可以更紧密地拟合目标信号。为了进一步提高径向基函数的通道容量,我们建议将它们与多频正弦函数组合。这种技术将径向基扩展到不同频段的多个傅立叶径向基,而无需额外参数,有助于表示细节。此外,通过将自适应径向基与基于网格的基结合,我们的混合组合继承了适应性和插值平滑性。我们精心设计了加权方案,使径向基能够有效地适应不同类型的信号。我们在2D图像和3D有符号距离场表示上的实验表明,我们的方法比先前的方法具有更高的准确性和紧凑性。当应用于神经辐射场重建时,我们的方法实现了最先进的渲染质量,模型尺寸小,训练速度可比。
近年来,语言和文本到图像模型的大规模预训练取得了重大进展,彻底改变了机器学习领域。然而,将这两种模态整合到一个能够生成无缝多模输出的强大模型仍然是一个重大挑战。为了解决这一问题,我们提出了联合自回归混合(JAM)框架,这是一种模块化方法,系统地融合了现有的文本和图像生成模型。我们还引入了一种专门针对混合模态生成任务的数据高效指导调整策略。我们最终的指导调整模型展示了在生成高质量多模输出方面无与伦比的性能,并且是第一个明确为此目的而设计的模型。
理解人类如何利用身体接触与世界互动对于实现以人为中心的人工智能至关重要。推断3D接触对于建模逼真且符合物理规律的人-物互动至关重要,然而现有方法要么专注于2D,要么考虑身体关节而非表面,要么使用粗糙的3D身体区域,要么无法推广到野外图像。相反,我们专注于推断在任意图像中人体表面与物体之间的密集3D接触。为实现这一目标,我们首先收集了DAMON,一个新的数据集,其中包含与包含复杂人-物和人-场景接触的RGB图像配对的密集顶点级接触注释。其次,我们训练了DECO,一种新颖的3D接触检测器,它利用基于身体部位驱动和场景上下文驱动的注意力来估计SMPL身体上的顶点级接触。DECO建立在这样一个洞察力之上,即人类观察者通过推理接触的身体部位、它们与场景物体的接近程度以及周围场景上下文来识别接触。我们在DAMON以及RICH和BEHAVE数据集上对我们的检测器进行了广泛评估。我们在所有基准测试中明显优于现有的SOTA方法。我们还定性展示DECO在自然图像中广泛且具有挑战性的真实世界人类互动中具有良好的泛化能力。代码、数据和模型可在https://deco.is.tue.mpg.de获取。
最近,大量的研究声称大型语言模型(LLMs)具有新兴的认知能力。然而,大多数研究依赖于案例,忽视训练集的污染,或缺乏涉及多个任务、对照条件、多次迭代和统计鲁棒性测试的系统评估。在这里,我们做出了两个重要贡献。首先,我们提出了CogEval,这是一个受认知科学启发的协议,用于系统评估大型语言模型的认知能力。CogEval协议可用于评估各种能力。其次,在这里我们遵循CogEval协议,系统评估了八个LLMs(OpenAI GPT-4、GPT-3.5-turbo-175B、davinci-003-175B、Google Bard、Cohere-xlarge-52.4B、Anthropic Claude-1-52B、LLaMA-13B 和 Alpaca-7B)的认知地图和规划能力。我们的任务提示基于人类实验,这些实验既为评估规划提供了建立的构建效度,又不包含在LLM的训练集中。我们发现,虽然LLMs在一些结构较简单的规划任务中表现出明显的能力,但系统评估揭示了规划任务中引人注目的失败模式,包括产生无效轨迹的幻觉和陷入循环。这些发现并不支持LLMs具有即插即用的规划能力的观点。这可能是因为LLMs不理解规划问题背后的潜在关系结构,即认知地图,并且无法根据基础结构展开目标导向的轨迹。对应用和未来方向的影响进行了讨论。
文本提示调整已经在适应自然语言处理模型到各种下游任务方面展示出显著的性能改进,通过将手工设计的提示视为可训练参数。受文本提示成功的启发,一些研究已经调查了视觉提示调整的有效性。在这项工作中,我们提出了视觉提示适应(VPA),这是第一个将视觉提示与测试时适应相结合的框架。VPA引入了少量可学习的标记,实现了完全的测试时和存储高效的适应,而无需源领域信息。我们在不同的适应设置下检验了我们的VPA设计,包括单图像、批处理图像和伪标签适应。我们在多个任务上评估了VPA,包括超出分布(OOD)泛化、污染鲁棒性和领域适应。实验结果显示,VPA能够有效地提高各种模型的OOD泛化能力,超过了先前的测试时方法,提高了3.3%。此外,我们展示了VPA相对于强基线提高了6.5%的污染鲁棒性。最后,我们证明了VPA也能够相对提高5.2%的领域适应性能。我们的VPA还在提高视觉-语言模型的零样本识别的鲁棒性方面表现出显著的效果。