每日精选AI研究论文及翻译
我们提出了可驾驶的三维高斯化身(D3GA),这是第一个使用高斯斑点渲染的人体三维可控模型。目前逼真的可驾驶化身在训练期间要求准确的三维配准、在测试期间要求密集的输入图像,或者两者兼而有之。基于神经辐射场的模型在远程呈现应用中往往速度过慢。本研究利用最近提出的三维高斯斑点(3DGS)技术以实时帧速率渲染逼真的人体,使用密集校准的多视角视频作为输入。为了变形这些基元,我们摒弃了常用的线性混合蒙皮(LBS)的点变形方法,而是采用了经典的体积变形方法:笼状变形。鉴于它们较小的尺寸,我们使用关节角度和关键点来驱动这些变形,这对于通信应用更为合适。我们在九个主体上进行的实验涵盖了各种体型、服装和动作,结果表明在使用相同的训练和测试数据时,我们的方法比现有技术获得了更高质量的结果。
我们提出了一种方法,可以从单个输入图像生成一个具有一致、高分辨率外观的人物360度视图。NeRF及其变体通常需要来自不同视角的视频或图像。大多数现有方法接受单眼输入,要么依赖于地面真实的3D扫描来进行监督,要么缺乏3D一致性。尽管最近的3D生成模型展示了具有3D一致性的人体数字化的潜力,但这些方法在不同服装外观上泛化能力不强,结果缺乏照片级逼真度。与现有工作不同,我们利用预先训练用于一般图像合成任务的高容量2D扩散模型作为着装人体外观的先验。为了实现更好的3D一致性同时保留输入身份,我们通过修补缺失区域的外形引导扩散条件(轮廓和表面法线)逐步合成输入图像中人物的多个视角。然后通过反渲染融合这些合成的多视图图像,以获得给定人物的完全纹理高分辨率3D网格。实验证明,我们的方法优于先前方法,并可以从单个图像实现广泛服装人物的照片级360度综合,包括复杂纹理。
我们提出了DMV3D,一种新颖的3D生成方法,它使用基于Transformer的3D大型重建模型来去噪多视角扩散。我们的重建模型融合了三面NeRF表示,并可以通过NeRF重建和渲染去噪多视角图像,实现在单个A100 GPU上的sim30s内的单阶段3D生成。我们在大规模多视角图像数据集上训练DMV3D,这些数据集包含高度多样化的对象,仅使用图像重建损失,而无需访问3D资产。我们展示了针对需要对未见对象部分进行概率建模以生成具有清晰纹理的多样化重建的单图像重建问题的最新结果。我们还展示了高质量的文本到3D生成结果,优于先前的3D扩散模型。我们的项目网站位于:https://justimyhxu.github.io/projects/dmv3d/。
音频扩散模型能够合成各种各样的声音。现有模型通常在潜在域上运行,使用级联的相位恢复模块来重建波形。这在生成高保真音频时存在挑战。本文提出了EDMSound,这是一个基于扩散的生成模型,位于频谱图域内,采用了阐明的扩散模型(EDM)框架。结合高效确定性采样器,我们仅使用10个步骤就实现了类似于排名靠前基线的Fr\'echet音频距离(FAD)分数,并在DCASE2023 foley声音生成基准测试中使用50个步骤达到了最先进的性能。我们还揭示了一个潜在的问题,即基于扩散的音频生成模型倾向于生成与训练数据具有高感知相似性的样本。项目页面:https://agentcooper2002.github.io/EDMSound/
基于对话的角色扮演游戏(RPG)需要强大的叙事能力。这些叙事可能需要数年时间来撰写,通常涉及一个庞大的创作团队。在这项工作中,我们展示了大型生成文本模型在协助这一过程中的潜力。GRIM是一个原型系统,即基于图形的互动叙事可视化系统,用于游戏,它生成一个包含分支故事线的丰富叙事图,与设计师提供的高层叙事描述和约束相匹配。游戏设计师可以通过自动生成符合原始叙事和约束内的编辑的新子图来交互式地编辑该图。我们演示了GRIM与GPT-4结合使用,为四个知名故事生成具有不同上下文约束的分支叙事。
大型语言模型(LLM)的互补潜力假设现成的LLM在广泛领域和任务中具有异质专业知识,因此LLM集合可以实现更加一致的性能提升。现有的LLM集成方法主要侧重于奖励模型输出的排名,导致了显著的计算开销。为了解决这个问题,我们重新审视了LLM的互补潜力,并通过利用现成的奖励模型挖掘潜在专业知识进行了进一步阐述。我们提出了Zooter,一种基于奖励引导的路由方法,通过在训练查询上提炼奖励来训练一个路由函数,该函数可以精确地将每个查询分配给具有相关专业知识的LLM。我们还整合了基于标签的标签增强方法,以减轻在使用奖励作为银标注时由不确定性引起的噪音。Zooter在推理中表现出计算效率,因为与奖励模型排名方法相比,引入了一个仅具有轻微计算开销的路由函数。我们在包含26个不同领域和任务子集的全面基准集上评估了Zooter。Zooter在平均性能上优于最佳单模型,并在44%的任务上排名第一,甚至超过了多种奖励模型排名方法。
准确建模事件动态的语言技术必须进行常识推理。现有的评估常识推理的工作侧重于对常见、日常情况进行推断。为了研究模拟不寻常、意外和不太可能情况的能力,我们探索了非常识性推理任务。在给定一个具有意外结果的背景情境时,这项任务要求通过演绎推理生成一个自然语言解释,使意外结果在背景情境中更加可能发生。为此,我们策划并发布了一个名为UNcommonsense的新英语语料库。我们对人类解释者和表现最佳的大型语言模型的性能差异进行了表征,发现通过在具体性和多样性之间权衡,模型增强的人类撰写解释实现了最高质量。最后,我们尝试了几种在线模仿学习算法,以在这一任务上训练开放且可访问的语言模型。与基本的监督微调方法相比,这些方法在常识和非常识性推理上都能持续降低失误率,经由人类评估者评判。
参数高效调整已成为使大型语言模型适应下游任务的一个重要方法。大多数先前的研究考虑添加密集可训练参数,其中所有参数用于适应特定任务。我们在LoRA的示例中经验性地发现,引入更多可训练参数并不会有所帮助。受此启发,我们研究了利用“稀疏”计算的重要性,并提出了SiRA:稀疏低秩适应混合。SiRA利用稀疏专家混合(SMoE)来提升LoRA的性能。具体而言,它通过强制执行具有容量限制的前k个专家路由来限制每个专家可以处理的最大标记数。我们提出了一种新颖且简单的专家辍学方法,用于减少过拟合问题。通过大量实验,我们验证了SiRA在不同单一任务和多任务设置下的表现优于LoRA和其他专家混合方法。
强大的大型语言模型促进了写作助手的发展,承诺显著提高作文和沟通的质量和效率。然而,有效辅助的一个障碍是大型语言模型输出缺乏对作者沟通风格和专业知识的个性化。本文通过提出PEARL来解决这一挑战,这是一个使用生成校准的检索增强型大型语言模型写作助手,实现个性化。我们的检索器经过训练,选择历史用户撰写的文档进行提示增强,从而最有可能为用户请求最佳个性化大型语言模型生成。我们提出了两个训练检索器的关键创新:1)识别可能受益于个性化的用户请求和提供该益处的文档的训练数据选择方法;2)尺度校准的KL-散度目标,确保我们的检索器紧密跟踪文档对个性化生成的益处。我们展示了PEARL在生成个性化的工作场所社交媒体帖子和Reddit评论方面的有效性。最后,我们展示了生成校准的检索器作为性能预测器的潜力,通过大型语言模型串联进一步改善低质量生成。
最近基于Transformer的大型语言模型取得了在自然语言生成方面的巨大进展。然而,为了解码K个标记,自回归模型需要进行K个顺序前向传递,这可能成为大型语言模型的性能瓶颈。许多非自回归(NAR)研究旨在解决这种顺序性瓶颈,尽管许多研究已经专注于在监督基准测试中的专用架构。在这项工作中,我们研究了通过展开去噪的无监督预训练,针对非自回归T5模型,并展示了其在下游生成任务(如SQuAD问题生成和XSum)中的最先进结果。
为了维护用户信任,大型语言模型(LLMs)应在错误时表现出低置信度,而不是误导用户。估计置信度的标准方法是使用这些模型的softmax概率,但截至2023年11月,诸如GPT-4和Claude-v1.3等最先进的LLMs并未提供访问这些概率的途径。我们首先研究了在语言上引导置信度的方法——询问LLM对其答案的置信度——在12个问答数据集上表现合理(在GPT-4上平均为80.5%的AUC,比随机基线高出7%),但仍有改进的空间。然后,我们探讨了使用替代置信度模型的方法——使用我们拥有概率的模型来评估原始模型对给定问题的置信度。令人惊讶的是,即使这些概率来自不同且通常较弱的模型,这种方法在12个数据集中有9个的AUC高于语言置信度。我们最佳的方法是将语言置信度和替代模型概率结合起来,在所有12个数据集上提供了最先进的置信度估计(在GPT-4上平均为84.6%的AUC)。
大型语言模型(LLMs)已经引领了自然语言处理领域的变革时代,在文本理解和生成相关任务方面表现出色。然而,当面对混乱语境(例如,干扰因素而非长篇无关上下文)时,它们会遇到困难,导致在混乱语境中无意中省略了某些细节。针对这些挑战,我们引入了“思维线索”(ThoT)策略,灵感来源于人类认知过程。ThoT系统地分割和分析扩展语境,同时熟练选择相关信息。该策略作为一种多功能的“即插即用”模块,可以与各种LLMs和提示技术无缝集成。在实验中,我们利用PopQA和EntityQ数据集,以及我们收集的多轮对话回复数据集(MTCR),以说明与其他提示技术相比,ThoT显著改善了推理性能。
评估大型语言模型(LLMs)是一项复杂的任务,特别是考虑到自然语言理解的复杂性和对高级推理的期望。传统评估通常依赖于基于人类、基于模型或基于自动度量的范式,每种方法都有其优点和缺点。我们引入了“融合评估”(Fusion-Eval)系统,该系统不仅仅利用LLMs进行直接评估,而且巧妙地整合了来自不同评估者的见解。这使得融合评估具有灵活性,能够在各种任务中有效工作,并充分利用多个参考文献。在SummEval数据集上的测试中,融合评估实现了0.96的Spearman相关性,胜过其他评估者。融合评估的成功凸显了LLMs产生与人类观点密切一致的评估的潜力,在LLM评估领域树立了新的标准。