每日精选AI研究论文及翻译
我们介绍了Magicoder,这是一系列完全开源(代码、权重和数据)的大型语言模型(LLMs),用于代码,可以显著缩小与顶级代码模型之间的差距,同时参数数量不超过70亿。Magicoder模型是在75K合成指令数据上训练的,使用了一种新方法OSS-Instruct,通过开源代码片段启发LLMs生成高质量的代码指令数据。我们的主要动机是通过为其提供丰富的开源参考资料,使LLMs能够生成更多样化、更真实和可控的数据,从而缓解LLMs生成的合成数据固有的偏见。OSS-Instruct与Evol-Instruct等其他数据生成方法的正交性进一步使我们能够构建增强型MagicoderS。Magicoder和MagicoderS在各种编码基准测试中都明显优于同等甚至更大规模的最先进代码模型,包括Python文本到代码生成、多语言编码和数据科学程序完成。值得注意的是,基于CodeLlama的MagicoderS-CL-7B甚至在HumanEval+上超过了知名的ChatGPT(在pass@1方面为66.5比65.9)。总的来说,OSS-Instruct为使用丰富的开源参考资料进行低偏见和高质量指令调整开辟了新方向。
文本到视频扩散模型显著推动了视频生成的发展。然而,定制这些模型以生成具有定制动作的视频存在重大挑战。具体而言,它们在以下方面遇到困难:(a) 准确复制目标视频中的运动,以及 (b) 创建多样化的视觉变化。例如,将静态图像定制方法直接扩展到视频往往会导致外观和运动数据的错综复杂。为了解决这个问题,我们在这里提出了视频运动定制(VMC)框架,这是一种新颖的一次性调整方法,旨在调整视频扩散模型中的时间注意力层。我们的方法引入了一种新颖的运动蒸馏目标,使用连续帧之间的残差向量作为运动参考。然后,扩散过程在图像空间中保留低频运动轨迹,同时减轻高频运动无关的噪音。我们通过在不同真实世界的运动和背景下与最先进的视频生成模型进行验证,证实了我们的方法。我们的代码、数据和项目演示可在https://video-motion-customization.github.io 找到。
大型语言模型(LLMs)的对齐调整过程通常涉及通过监督微调(SFT)进行指导学习和通过来自人类反馈的强化学习进行偏好调整(RLHF)。最近的一项研究,LIMA(Zhou等,2023),表明仅使用1K个示例进行SFT也可以实现显著的对齐性能,这也表明对齐调整的效果可能是“表面的”。这引发了对对齐调整如何确切地转变基础LLM的问题。 我们通过检查基础LLMs及其对齐版本之间的标记分布变化来分析对齐调整的效果。我们的研究结果显示,在大多数标记位置上,基础LLMs及其经过对齐调整的版本在解码时表现几乎相同。大多数分布变化发生在风格标记上。这些直接证据强烈支持LIMA提出的“表面对齐假设”。 基于这些发现,我们重新思考LLMs的对齐,提出了研究问题:在没有SFT或RLHF的情况下,我们能多有效地对齐基础LLMs吗?为了解决这个问题,我们引入了一种简单的、无需调整的对齐方法,URIAL。URIAL通过与基础LLMs的上下文学习(ICL)实现有效对齐,只需三个固定风格示例和一个系统提示。我们对一个名为JUST-EVAL-INSTRUCT的多样化示例集进行了细致且可解释的评估。结果表明,通过URIAL,基础LLMs可以达到甚至超越通过SFT或SFT+RLHF对齐的LLMs的性能。我们展示了无需调整和基于调整的对齐方法之间的差距可以通过策略提示和ICL显著缩小。我们对对齐调整的表面性质的发现以及URIAL的结果表明,对对齐的深入分析和理论理解对未来LLM研究至关重要。
本研究探讨了保持身份的图像合成,这是图像生成中的一个引人注目的任务,旨在在保持主体身份的同时增加个性化、风格化的触感。传统方法,如文本反转和梦幻摄影亭,在定制图像创建方面取得了进展,但存在显著缺点。这些包括需要大量资源和时间进行微调,以及需要多个参考图像。为了克服这些挑战,我们的研究引入了一种新颖的保持身份合成方法,特别关注人类图像。我们的模型利用直接前馈机制,避免了需要进行密集微调,从而促进快速高效的图像生成。我们创新的核心是混合引导框架,结合了风格化图像、面部图像和文本提示来引导图像生成过程。这种独特组合使我们的模型能够产生各种应用,如艺术肖像和身份融合图像。我们的实验结果,包括定性和定量评估,展示了我们的方法在效率和保持主体身份的高保真度方面优于现有基准模型和先前作品,尤其是其卓越的效率和能力。
最近,由于其卓越的生成能力,扩散模型在图像合成领域引起了前所未有的关注。尽管这些模型强大,但往往会产生大量的计算成本,主要归因于顺序去噪过程和庞大的模型尺寸。传统的扩散模型压缩方法通常涉及大量的重新训练,带来了成本和可行性方面的挑战。本文介绍了DeepCache,一种新颖的无需训练的范例,从模型架构的角度加速扩散模型。DeepCache利用扩散模型顺序去噪步骤中观察到的固有时间冗余,缓存并检索相邻去噪阶段的特征,从而削减了冗余计算。利用U-Net的特性,我们以一种非常廉价的方式重复使用高级特征,同时更新低级特征。这一创新策略进而使Stable Diffusion v1.5的加速比因子达到2.3倍,仅在CLIP Score下降0.05的情况下,以及LDM-4-G的加速比因子达到4.1倍,在ImageNet上FID略微下降0.22。我们的实验还展示了DeepCache相对于现有的修剪和蒸馏方法的优越性,这些方法需要重新训练,并且与当前的采样技术兼容。此外,我们发现在相同的吞吐量下,DeepCache能够有效地实现与DDIM或PLMS相当甚至略有改进的结果。代码可在https://github.com/horseee/DeepCache找到。
当前基于扩散的视频编辑主要侧重于通过利用各种密集对应关系来实现结构保留编辑,以确保时间一致性和运动对齐。然而,当目标编辑涉及形状变化时,这些方法通常效果不佳。为了开始进行具有形状变化的视频编辑,我们在这项工作中探讨了定制视频主体交换,旨在将源视频中的主体替换为具有独特身份和可能不同形状的目标主体。与依赖密集对应关系的先前方法相比,我们引入了VideoSwap框架,该框架利用语义点对应关系,灵感来自我们的观察,即只有少量语义点是必要的,以对齐主体的运动轨迹并修改其形状。我们还引入了各种用户点交互(例如,删除点和拖动点)来处理各种语义点对应关系。大量实验证明,在各种真实世界视频中,我们的视频主体交换结果达到了最先进的水平。
我们提出了一种方法,可以有效地为“Segment Anything Model”(SAM)增加生成区域描述的能力。SAM在对任何内容进行分割时表现出强大的泛化能力,同时也代表着语义理解的缩写。通过引入一个轻量级的基于查询的特征混合器,我们将区域特定的特征与语言模型的嵌入空间对齐,以便后续生成描述。由于可训练参数数量较少(通常在数千万数量级),这种方法计算成本低、内存使用少、通信带宽消耗小,从而实现了快速且可扩展的训练。为了解决区域描述数据稀缺的问题,我们建议首先在目标检测和分割任务上对模型进行预训练。我们将这一步骤称为弱监督预训练,因为预训练数据仅包含类别名称,而不是完整的句子描述。弱监督预训练使我们能够利用许多公开可用的目标检测和分割数据集。我们进行了大量实验,以展示我们方法的优越性并验证每个设计选择。这项工作为扩展区域描述数据奠定了基础,并为探索将SAM与区域语义相结合的高效方法提供了启示。项目页面以及相关代码可以通过以下链接访问:https://xk-huang.github.io/segment-caption-anything/。
尽管文本到视频生成方面取得了近期的进展,现有研究通常忽视了合成视频中只有空间内容而没有时间运动是受文本控制的问题。针对这一挑战,本文提出了一个实用系统,名为LivePhoto,允许用户使用文本描述来为感兴趣的图像添加动画。我们首先建立了一个强大的基准线,帮助一个经过良好训练的文本到图像生成器(即稳定扩散)接受图像作为进一步的输入。然后,我们为改进后的生成器配备了一个用于时间建模的运动模块,并提出了一个精心设计的训练流程,以更好地连接文本和运动。特别地,考虑到(1)文本只能粗略描述运动(例如,不考虑移动速度)和(2)文本可能包含内容和运动描述,我们引入了一个运动强度估计模块以及一个文本重新加权模块,以减少文本到运动映射的歧义性。经验证据表明,我们的方法能够将与运动相关的文本指令很好地解码为视频,例如动作、摄像机移动,甚至从虚空中召唤新内容(例如,将水倒入空杯中)。有趣的是,由于提出的强度学习机制,我们的系统为用户提供了一个额外的控制信号(即运动强度),除文本外用于视频定制。
人类反馈强化学习(RLHF)已成为将大型语言模型(LLMs)与人类偏好对齐的主要范式。通常,RLHF 包括从人类反馈中学习奖励模型的初始步骤,通常表达为在预训练的LLM生成的文本对之间的偏好。随后,通过强化学习算法优化LLM的策略,以最大化奖励模型。然而,当前奖励模型的固有局限性在于无法充分表示人类偏好的丰富性以及其对采样分布的依赖。 在本研究中,我们介绍了一种使用人类成对反馈对LLMs进行微调的替代流程。我们的方法包括首先学习一个偏好模型,该模型在给定提示的情况下取决于两个输入,然后追求一种策略,该策略始终生成优于任何竞争策略生成的响应,从而定义了该偏好模型的纳什均衡。我们将这种方法称为人类反馈纳什学习(NLHF)。 在表格策略表示的背景下,我们提出了一种基于镜像下降原理的新颖算法解决方案,即Nash-MD。该算法生成一系列策略,最后一次迭代收敛到正则化的纳什均衡。此外,我们探讨了策略的参数化表示,并引入了用于深度学习架构的梯度下降算法。为了证明我们方法的有效性,我们提供了涉及LLM文本摘要任务微调的实验结果。我们相信NLHF为偏好学习和策略优化提供了一个引人注目的途径,有望推动将LLMs与人类偏好对齐的领域的发展。
两组图像有何不同?识别集合级别的差异对于理解模型行为和分析数据集至关重要,然而,手动筛选成千上万张图像是不切实际的。为了辅助这一发现过程,我们探讨了自动描述两组图像之间差异的任务,我们将其称为集合差异字幕生成。这项任务接收图像集合 D_A 和 D_B,并输出一种在 D_A 上更常为真的描述。我们概述了一个两阶段方法,首先从图像集中提出候选差异描述,然后通过检查它们能够多好地区分这两组来重新排列这些候选项。我们引入了 VisDiff,它首先为图像生成字幕,然后促使语言模型提出候选描述,最后使用 CLIP 重新排列这些描述。为了评估 VisDiff,我们收集了 VisDiffBench 数据集,其中包含 187 对图像集合和地面真实差异描述。我们将 VisDiff 应用于各种领域,例如比较数据集(例如 ImageNet 与 ImageNetV2)、比较分类模型(例如零样本 CLIP 与监督式 ResNet)、总结模型失败模式(监督式 ResNet)、表征生成模型之间的差异(例如 StableDiffusionV1 和 V2),以及发现使图像令人难忘的因素。利用 VisDiff,我们能够发现数据集和模型中有趣且以前未知的差异,展示了其在揭示微妙见解方面的实用性。
扩散模型以其强大的表达能力和高质量样本生成能力,在各个领域中实现了许多新的应用和用例。对于样本生成,这些模型依赖于一个通过迭代去噪生成图像的神经网络。然而,去噪网络架构的作用并未得到深入研究,大多数工作都依赖于卷积残差U-Net。本文研究了视觉Transformer在基于扩散的生成学习中的有效性。具体地,我们提出了一个新模型,称为扩散视觉Transformer(DiffiT),它由具有U形编码器和解码器的混合分层架构组成。我们引入了一种新颖的时间相关自注意力模块,使注意力层能够以高效的方式在去噪过程的不同阶段调整其行为。我们还引入了潜在的DiffiT,它由具有提出的自注意力层的Transformer模型组成,用于高分辨率图像生成。我们的结果表明,DiffiT在生成高保真图像方面效果显著,并在各种有条件和无条件合成任务的基准测试中取得了最先进的成绩。在潜在空间中,DiffiT在ImageNet-256数据集上实现了新的最先进FID分数为1.73。代码库:https://github.com/NVlabs/DiffiT
基于大型语言模型(LLM)的基于列表的重新排序器是零-shot 最先进的。然而,这一方向的当前工作都依赖于GPT模型,使得科学可重现性存在单一故障点。此外,这引发了一个担忧,即当前的研究结果仅适用于GPT模型,而不适用于LLM。在这项工作中,我们消除了这一先决条件,首次构建了在不依赖于GPT的情况下有效的基于列表的重新排序器。我们的段落检索实验表明,我们最佳的列表重新排序器比基于GPT-3.5的列表重新排序器高出13%,并且达到了基于GPT-4构建的列表重新排序器效果的97%。我们的结果还表明,现有的训练数据集,这些数据集明确是为点对点排序而构建的,不足以构建这种基于列表的重新排序器。相反,需要高质量的基于列表的排序数据,这是必不可少的,呼吁进一步努力构建人工注释的基于列表的数据资源。
随着大型多模态模型(LMMs)的显著进展,人们越来越意识到它们在视觉对话中的基础能力的重要性。尽管最近已经有努力使LMMs支持基础能力,但它们的基础和对话能力通常是分开的,当要求进行基础时,它们的对话性能会急剧下降。问题在于缺乏用于基础视觉对话(GVC)的数据集。现有的基础数据集只包含简短的标题。为解决这一问题,我们创建了允许结合基础和对话能力的GVC数据。为了更好地评估GVC的能力,我们引入了一个名为Grounding-Bench的基准。此外,我们提出了一种模型设计,可以通过连接分割模型和语言模型来支持GVC和各种类型的视觉提示。实验结果表明,我们的模型在Grounding-Bench上优于其他LMMs。此外,我们的模型在经典的基础基准测试中,如RefCOCO/+/g和Flickr30K Entities上取得了竞争性能。我们的代码将在https://github.com/UX-Decoder/LLaVA-Grounding 上发布。
我们提出了一种名为GPS-Gaussian的新方法,用于以实时方式合成角色的新视图。所提出的方法在稀疏视图相机设置下实现了2K分辨率渲染。与原始的高斯点渲染或神经隐式渲染方法不同,这些方法需要对每个主体进行优化,我们引入了在源视图上定义的高斯参数图,并直接回归高斯点渲染属性,以便立即合成新视图,无需任何微调或优化。为此,我们在大量人体扫描数据上训练我们的高斯参数回归模块,同时结合深度估计模块将2D参数图提升到3D空间。所提出的框架是完全可微的,对几个数据集的实验表明,我们的方法在实现超越渲染速度的同时优于最先进的方法。
我们提出了一种将物体识别作为下一个标记预测的方法。 这个想法是应用一个语言解码器,自回归地从图像嵌入中预测文本标记以形成标签。为了将这种预测过程基于自回归,我们定制了一个非因果关注蒙版给解码器,结合了两个关键特征:对来自不同标签的标记进行独立建模,以及将图像标记视为前缀。这种蒙版机制启发了一种高效的方法 - 一次性采样 - 可以同时并行地采样多个标签的标记,并在推断过程中根据它们的概率对生成的标签进行排名。为了进一步提高效率,我们提出了一个简单的策略,通过简单地丢弃预训练语言模型的中间块来构建一个紧凑的解码器。这种方法产生了一个与完整模型性能相匹配且明显更高效的解码器。代码可在 https://github.com/kaiyuyue/nxtp 找到。
文本到视频生成已经显示出了令人充满希望的结果。然而,仅接受自然语言作为输入,用户通常难以提供详细信息以精确控制模型的输出。在这项工作中,我们提出了细粒度可控视频生成(FACTOR)来实现详细的控制。具体而言,FACTOR旨在控制对象的外观和上下文,包括它们的位置和类别,结合文本提示。为了实现详细的控制,我们提出了一个统一的框架,将控制信号联合注入现有的文本到视频模型中。我们的模型包括一个联合编码器和自适应交叉注意力层。通过优化编码器和插入的层,我们使模型能够生成与文本提示和细粒度控制对齐的视频。与依赖密集控制信号(如边缘映射)的现有方法相比,我们提供了一个更直观和用户友好的界面,允许对象级的细粒度控制。我们的方法实现了对象外观的可控性,无需微调,从而减少了用户的每个主题优化工作。对标准基准数据集和用户提供的输入进行了大量实验,验证了我们的模型在可控性指标上比竞争基线提高了70%。
我们介绍生成无限词汇变压器(GIVT),它生成具有实值条目的向量序列,而不是来自有限词汇的离散标记。为此,我们对仅解码器变压器提出了两个令人惊讶的简单修改:1)在输入端,我们用输入向量的线性投影替换有限词汇查找表;2)在输出端,我们用多元高斯混合模型的参数替换对数预测(通常映射到分类分布)。受 VQ-GAN 和 MaskGIT 的图像生成范式启发,其中变压器用于建模 VQ-VAE 的离散潜在序列,我们使用 GIVT 来建模 VAE 的未量化实值潜在序列。将 GIVT 应用于具有迭代掩模建模的类别条件图像生成时,我们展示了与 MaskGIT 的竞争结果,而在用于因果建模时,我们的方法优于 VQ-GAN 和 MaskGIT。最后,当将我们的方法应用于基于 VAE 变体的 UViM 框架的全景分割和深度估计时,我们获得了具有竞争力的结果。
从野外视频中合成新视角是困难的,因为存在场景动态和缺乏视差等挑战。虽然现有方法利用隐式神经辐射场显示了有希望的结果,但它们训练和渲染速度较慢。本文重新审视显式视频表示,以高效合成单目视频的高质量新视角。我们将静态和动态视频内容分开处理。具体而言,我们使用扩展的基于平面的场景表示构建全局静态场景模型,以合成具有时间连贯性的新视频。我们的基于平面的场景表示通过球谐函数和位移贴图进行增强,以捕捉视角相关效应并对非平面复杂表面几何进行建模。我们选择将动态内容表示为逐帧点云以提高效率。虽然这种表示容易出现不一致性,但由于运动,轻微的时间不一致性在感知上被掩盖。我们开发了一种快速估算这种混合视频表示并实时渲染新视角的方法。我们的实验表明,我们的方法可以从野外视频中渲染高质量的新视角,质量可与最先进的方法相媲美,同时训练速度快100倍,并实现实时渲染。
大规模文本到图像(T2I)模型在创意领域迅速崭露头角,能够从文本提示中生成视觉上引人注目的输出。然而,控制这些模型以确保一致的风格仍然具有挑战性,现有方法需要微调和手动干预以区分内容和风格。在本文中,我们介绍了StyleAligned,一种旨在在一系列生成的图像中建立风格对齐的新颖技术。通过在扩散过程中采用最小的“注意力共享”,我们的方法在T2I模型中保持图像之间的风格一致性。这种方法允许使用参考风格通过简单的反演操作创建风格一致的图像。我们的方法在不同风格和文本提示上的评估表明,具有高质量的合成和保真度,突显了其在实现各种输入的一致风格方面的有效性。
传统的3D内容创建工具赋予用户直接控制场景的几何形状、外观、运动和摄像机路径,从而将他们的想象变为现实。然而,创建计算机生成视频是一个繁琐的手动过程,可以通过新兴的文本到视频扩散模型实现自动化。尽管视频扩散模型具有巨大潜力,但难以控制,阻碍用户施展创造力,而非增强创造力。为解决这一挑战,我们提出了一种新颖方法,将动态3D网格的可控性与新兴扩散模型的表现力和可编辑性相结合。为此,我们的方法以动画、低保真度渲染的网格作为输入,并将从动态网格获得的地面真实对应信息注入预训练的文本到图像生成模型的各个阶段,输出高质量且时间连贯的帧。我们在各种示例上展示了我们的方法,其中运动可以通过对绑定资产进行动画处理或更改摄像机路径来实现。
在文本转3D生成领域,通过评分蒸馏采样(SDS)利用2D扩散模型经常会导致问题,如模糊外观和多面几何,主要是由于SDS损失的固有噪声特性。我们的分析确定了这些挑战的核心,即2D扩散过程中噪声水平、扩散网络架构和3D模型表示之间的相互作用。为了克服这些限制,我们提出了StableDreamer,这是一种结合了三项进展的方法。首先,受InstructNeRF2NeRF启发,我们明确了SDS生成先验与简单监督L2重建损失的等效性。这一发现提供了一种新的调试SDS的工具,我们利用这一工具展示了时间退火噪声水平对减少多面几何的影响。其次,我们的分析表明,虽然图像空间扩散有助于几何精度,但潜在空间扩散对生动的颜色呈现至关重要。基于这一观察,StableDreamer引入了一个两阶段训练策略,有效地结合了这些方面,从而产生高保真的3D模型。第三,我们采用各向异性3D高斯表示,取代神经辐射场(NeRFs),以提高整体质量,在训练期间减少内存使用,并加快渲染速度,更好地捕捉半透明物体。StableDreamer减少了多面几何,生成了精细细节,并稳定收敛。
在辐射场中进行交互式三维分割是一项吸引人的任务,因为它在三维场景理解和操作中的重要性。然而,现有方法在实现细粒度、多粒度分割或应对大量计算开销方面面临挑战,从而阻碍了实时交互。本文介绍了Segment Any 3D GAussians(SAGA),这是一种新颖的三维交互式分割方法,它将2D分割基础模型与辐射场的最新突破——三维高斯点喷洒(3DGS)巧妙地融合在一起。SAGA通过精心设计的对比训练,将分割基础模型生成的多粒度2D分割结果高效地嵌入到3D高斯点特征中。对现有基准进行评估表明,SAGA能够与最先进的方法实现竞争性表现。此外,SAGA实现了多粒度分割,并支持各种提示,包括点、涂鸦和2D蒙版。值得注意的是,SAGA可以在毫秒内完成三维分割,与之前的最先进方法相比,实现了近1000倍的加速。项目页面位于https://jumpat.github.io/SAGA。
大型语言模型(LLMs)在使用“思维链”(CoT)提示逐步解答问题时,能够更准确和可解释地解决问题。通过在一些可调参数上使用梯度上升最大化标记训练集中正确答案的平均对数似然,可以通过监督微调来提高LLMs在特定任务上的性能。将CoT与监督微调天真地结合需要监督不仅正确答案,还需要导致这些答案的详细原因; 这些原因手工制作成本高昂。相反,我们提出了一种微调策略,试图通过CoT提示最大化生成正确答案的边际对数似然,大致平均考虑所有可能的原因。核心挑战是从条件于正确答案的原因后验中进行采样; 我们使用受自学推理者(STaR)、记忆化唤醒-睡眠、马尔可夫分数爬升和持续对比散度启发的简单马尔可夫链蒙特卡洛(MCMC)期望最大化(EM)算法来解决这个问题。该算法还采用一种新颖的控制变量技术,随着模型的改进,将我们的梯度估计方差驱动到零。将我们的技术应用于GSM8K和BIG-Bench Hard中的任务时,我们发现,与STaR或带有或不带有CoT的提示微调相比,这种MCMC-EM微调技术通常能够更多地提高模型对留存示例的准确性。
多模态大型语言模型(MLLMs)在2D图像文本理解和图像生成方面表现出色,但它们对3D世界的理解明显不足,限制了3D语言理解和生成的进展。为了解决这一问题,我们引入了GPT4Point,这是一种创新的突破性点语言多模态模型,专为在MLLM框架内实现统一的3D对象理解和生成而设计。GPT4Point作为一种强大的3D MLLM,可以无缝执行各种点文本参考任务,如点云字幕和问答。此外,GPT4Point具备先进的可控3D生成能力,可以通过保持几何形状和颜色的低质量点文本特征获得高质量的结果。为了支持对3D对象文本对的广泛需求,我们开发了Pyramid-XL,一种点语言数据集注释引擎。它在Objaverse-XL数据集的基础上构建了一个包含100万个不同文本粒度级别对象的大规模数据库,这对于训练GPT4Point至关重要。我们提出了一个全面的基准测试来评估3D点语言理解能力。在广泛的评估中,GPT4Point展现出了优越的理解和生成性能。
大型语言模型(LLMs)如GPT-4的显著能力部分源自后期训练过程,如从人类反馈中进行强化学习(RLHF),其中包括编码在奖励模型中的人类偏好。然而,这些奖励模型(RMs)通常缺乏直接了解偏好注释是基于何种原因或原则的知识。在这项研究中,我们确定指导奖励模型更好地与人类偏好一致的原则,然后开发了一个公理框架,生成多样化的偏好信号以支持这些原则。我们使用这些公理信号训练一个模型,用于评分长篇问题的答案。我们的方法产生了一个只有约2.2亿参数的偏好模型,比GPT-4更频繁地与黄金人类注释的偏好标签一致。这项工作的贡献包括:训练一个独立的偏好模型,可以在相同尺度上评分人类和LLM生成的答案;开发一个生成针对特定原则的训练数据对的公理框架;以及展示少量公理信号可以帮助小模型在偏好评分方面胜过GPT-4。我们在huggingface上发布了我们的模型:https://huggingface.co/corbyrosset/axiomatic_preference_model
训练多种输入模态可以增强语言模型的能力。在这里,我们探讨这种训练模式是否能够提高这些系统的质量和效率。我们专注于文本-音频,并引入了Whisbert,灵感来自FLAVA singh_flava_2022的文本-图像方法。根据Babylm warstadt2023papers的指导方针,我们在一个数据集上对Whisbert进行预训练,该数据集仅包括1亿个词及其对应的语音,这些语音来自People's Speech数据集galvez_peoples_2021的单词对齐版本。为了评估多模态的影响,我们比较了仅训练文本和同时训练音频和文本的模型版本。我们发现,虽然Whisbert在多模态掩码建模方面表现良好,并在大多数基准任务中超越了Babylm基线,但它在优化其复杂目标并超越仅文本的Whisbert基线方面仍存在困难。
神经辐射场(NeRFs)在逼真地渲染静态场景方面表现出色。然而,在普遍设备上渲染动态、长时间辐射场仍然具有挑战性,这是由于数据存储和计算约束所致。本文介绍了VideoRF,这是第一种在移动平台上实现动态辐射场实时流式传输和渲染的方法。其核心是一个序列化的二维特征图像流,代表了四维辐射场的全部内容。我们引入了一种定制的训练方案,直接应用于这个二维域,以施加特征图像流的时间和空间冗余。通过利用冗余,我们展示了特征图像流可以通过二维视频编解码器进行高效压缩,从而允许我们利用视频硬件加速器实现实时解码。另一方面,基于特征图像流,我们提出了VideoRF的新型渲染流程,其中包括专门的空间映射,以便高效查询辐射特性。配合延迟着色模型,VideoRF由于其高效性,具有在移动设备上实时渲染的能力。我们开发了一个实时互动播放器,实现了动态场景的在线流式传输和渲染,为用户提供了从台式电脑到手机等各种设备上无缝且沉浸式的自由视角体验。
我们提出了一种方法,利用文本到图像模型生成跨多个图像尺度一致的内容,实现对场景的极端语义缩放,例如,从森林的广角景观视图到昆虫停在树枝上的微距镜头。我们通过联合多尺度扩散采样方法实现这一目标,该方法鼓励在不同尺度上保持一致性,同时保留每个单独采样过程的完整性。由于每个生成的尺度受不同的文本提示指导,我们的方法能够实现比传统超分辨率方法更深层次的缩放,传统方法可能难以在完全不同的尺度上创建新的上下文结构。我们在图像超分辨率和外部绘制的替代技术上定性地比较了我们的方法,并表明我们的方法在生成一致的多尺度内容方面效果最佳。
最近,片段任意模型(Segment Anything Model,SAM)展示了零-shot 分割的显著能力,而神经辐射场(Neural Radiance Fields,NeRF)作为一种方法在新视角合成之外也在各种 3D 问题中变得流行。尽管存在将这两种方法纳入 3D 分割的初步尝试,但它们面临着在复杂场景中准确且一致地分割对象的挑战。在本文中,我们介绍了用于在给定场景中实现任何对象高质量 3D 分割的 SANeRF-HQ(Segment Anything for NeRF in High Quality)。SANeRF-HQ 利用 SAM 进行由用户提供提示进行开放世界对象分割,同时利用 NeRF 从不同视角聚合信息。为了克服上述挑战,我们采用密度场和 RGB 相似性来增强聚合过程中分割边界的准确性。强调分割准确性,我们在多个 NeRF 数据集上定量评估了我们的方法,其中提供了高质量的地面真实数据或手动注释。SANeRF-HQ 在 NeRF 对象分割方面显示出明显的质量改进,为对象定位提供了更高的灵活性,并在多个视角下实现了更一致的对象分割。更多信息请访问 https://lyclyc52.github.io/SANeRF-HQ/。
本文增强了图像-GPT(iGPT),这是引入自回归预训练以预测视觉表示学习中下一个像素的开创性工作之一。我们进行了两项简单但至关重要的改变。首先,我们将预测目标从原始像素转移到语义标记,实现了对视觉内容的更高级理解。其次,我们通过指导模型预测不仅是下一个标记,还包括可见标记,来补充自回归建模。当语义标记由如CLIP等经过区分性训练的模型编码时,这种流程特别有效。我们将这种新颖方法称为D-iGPT。大量实验证明,D-iGPT在视觉表示学习中表现出色:D-iGPT的一个显著成就是在ImageNet-1K数据集上表现出色——通过在公开可用数据集上训练,D-iGPT使用Vanilla ViT-Large模型实现了89.5%的top-1准确率。该模型还在下游任务上表现出强大的泛化能力,并对分布之外的样本具有鲁棒性。代码可在https://github.com/OliverRensu/D-iGPT{https://github.com/OliverRensu/D-iGPT}获取。
本文针对自适应源驱动的3D场景编辑任务,提出了一种CustomNeRF模型,将文本描述或参考图像作为编辑提示统一起来。然而,获得符合编辑提示的期望编辑结果并不容易,因为存在两个重要挑战,包括仅准确编辑前景区域和在给定单视角参考图像的情况下实现多视角一致性。为了解决第一个挑战,我们提出了一种局部-全局迭代编辑(LGIE)训练方案,交替进行前景区域编辑和整体图像编辑,旨在仅对前景进行操作同时保留背景。针对第二个挑战,我们还设计了一种类别引导的正则化方法,利用生成模型内的类别先验来缓解图像驱动编辑中不同视角之间的不一致性问题。大量实验证明,我们的CustomNeRF在各种真实场景下,无论是文本驱动还是图像驱动设置,都能产生精确的编辑结果。
寻找加速深度运动障碍者文本输入的方法一直是一个长期研究领域。缩小替代和辅助沟通(AAC)设备(如眼动跟踪键盘)的速度差距对于提高这些个体的生活质量至关重要。自然语言神经网络的最新进展为重新思考AAC用户的增强文本输入策略和用户界面提供了新机遇。在本文中,我们提出了SpeakFaster,包括大型语言模型(LLMs)和一个共同设计的用户界面,用于高度缩写形式的文本输入,离线模拟中比传统预测键盘节省了57%的动作。在一个由19名非AAC参与者手动在移动设备上输入的试点研究中,展示了与离线模拟一致的动作节省增益,同时对整体输入速度产生了相对较小的影响。对两名患有肌萎缩侧索硬化症(ALS)的眼球注视输入用户进行的实验室和现场测试表明,由于通过上下文感知LLMs的短语和单词预测实现了显著的节省昂贵击键,文本输入速度比传统基线快29-60%。这些发现为进一步探索面向运动受损用户的大幅加速文本通信奠定了坚实基础,并展示了将LLMs应用于基于文本的用户界面的方向。
大型语言模型(LLMs)由于其日益准确的响应和连贯的推理能力,在实际应用中引起了极大的兴趣。由于它们作为黑匣子,使用复杂的推理过程处理其输入,对于为LLMs生成的内容提供可扩展和忠实解释的需求将不可避免地增长。过去十年里,神经网络模型的可解释性已经取得了重大进展。其中,事后解释方法,特别是Shapley值,已被证明对解释深度学习模型非常有效。然而,在为LLMs扩展Shapley值时存在重大挑战,特别是在处理包含数千个标记和自回归生成的输出序列的长输入上。此外,如何有效利用生成的解释来提高LLMs性能通常是不明确的。在本文中,我们介绍了TextGenSHAP,这是一种高效的事后解释方法,结合了LM特定的技术。我们证明,与传统的Shapley值计算相比,这将大大提高速度,将处理时间从几小时缩短到几分钟,用于标记级别的解释,甚至仅需几秒用于文档级别的解释。此外,我们展示了如何在两个重要场景中利用实时Shapley值,通过定位重要单词和句子来更好地理解长文档问答;并通过增强所选段落的准确性,从而提高现有文档检索系统的性能,最终改善最终响应。