每日精选AI研究论文及翻译
我们提出了Recognize Anything Model(RAM):一种用于图像标记的强基础模型。RAM能够以高准确度识别任何常见类别。RAM引入了一种新的图像标记范式,利用大规模的图像-文本配对进行训练,而非手动注释。RAM的开发包括四个关键步骤。首先,通过自动文本语义解析在规模上获取无注释的图像标记。随后,通过统一字幕和标记任务训练初步模型,由原始文本和解析标记分别进行监督自动注释。第三,利用数据引擎生成额外注释并清理不正确的注释。最后,使用处理后的数据对模型进行重新训练,并使用较小但更高质量的数据集进行微调。我们在多个基准测试上评估了RAM的标记能力,并观察到令人印象深刻的零样本性能,明显优于CLIP和BLIP。值得注意的是,RAM甚至超越了完全监督的方式,并展现出与Google API竞争性能。我们将RAM发布在https://recognize-anything.github.io/,以促进计算机视觉中大型模型的进展。
指导调优已显著推进大型语言模型(LLMs),如ChatGPT,使它们能够在各种任务中与人类指导相匹配。然而,开放式视觉-语言模型(VLMs)的进展受限于高质量指导数据集的稀缺。为了解决这一挑战并推动视觉-语言领域的研究,我们引入了多模态、多语言指导调优(M^3IT)数据集,旨在优化VLM与人类指导的对齐。我们的M^3IT数据集包括40个精心策划的数据集,包括240万个实例和400个手动编写的任务指导,重新格式化为视觉到文本结构。关键任务被翻译成80种语言,采用先进的翻译系统,确保更广泛的可访问性。M^3IT在任务覆盖范围、指导数量和实例规模方面超越了先前的数据集。此外,我们开发了Ying-VLM,这是一个在我们的M^3IT数据集上训练的VLM模型,展示了它回答需要世界知识的复杂问题、泛化到未见过的视频任务,并理解中文未见指导的潜力。为了鼓励进一步研究,我们已开源数据集和训练模型。
我们对一项新颖的任务感兴趣,即低资源文本转语音头像。仅提供几分钟长的说话人视频作为训练数据,音频轨道作为输入,我们旨在合成与输入文本对应的高质量说话头像视频。这一任务在数字人类产业中具有广泛的应用前景,但由于两个挑战,目前尚未在技术上实现:(1)对于传统的多说话人文本转语音系统来说,模仿来自领域外音频的音色是具有挑战性的。 (2)使用有限的训练数据渲染高保真度和唇部同步的说话头像是困难的。在本文中,我们介绍了自适应文本转语音头像(Ada-TTA),它(1)设计了一个通用的零样本多说话人TTS模型,能够很好地区分文本内容、音色和语调;(2)结合了神经渲染的最新进展,实现了逼真的音频驱动说话面部视频生成。通过这些设计,我们的方法克服了上述两个挑战,并实现了生成保持身份的语音和逼真的说话人视频。实验证明,我们的方法能够合成逼真、保持身份和音视频同步的说话头像视频。
在计算机视觉中,寻找图像之间的对应关系是一个基本问题。本文展示了在图像扩散模型中,对应关系会在没有明确监督的情况下出现。我们提出了一种简单的策略,从扩散网络中提取这种隐含知识作为图像特征,即扩散特征(DIFT),并将其用于建立真实图像之间的对应关系。在没有对任务特定数据或标注进行额外微调或监督的情况下,DIFT 能够在识别语义、几何和时间对应关系方面胜过弱监督方法和竞争性现成特征。特别是对于语义对应关系,来自稳定扩散的 DIFT 能够在具有挑战性的 SPair-71k 基准测试中分别比 DINO 和 OpenCLIP 高出 19 和 14 个准确度点。甚至在 18 个类别中的 9 个中,DIFT 能够胜过最先进的监督方法,同时在整体性能上保持一致。项目页面:https://diffusionfeatures.github.io
大型语言模型(LLMs)可用于生成文本数据,用于训练和评估其他模型。然而,利用LLMs创建高质量数据集可能具有挑战性。在这项工作中,我们探讨人工智能与人类合作,以促进基于LLMs的文本数据生成的高多样性和准确性。我们首先研究了两种增加文本生成多样性的方法:1)对数抑制,可以减少已经频繁生成的语言的生成,2)温度抽样,可以使标记抽样概率变得平坦。我们发现,多样化方法可以增加数据多样性,但往往以数据准确性为代价(即文本和标签是否适合目标领域)。为了解决这个问题,我们研究了两种人类干预方法,1)标签替换(LR),用于纠正不对齐的标签,2)超出范围过滤(OOSF),用于删除用户不感兴趣的实例或无相关标签适用的实例。通过专家研究,我们发现LR可以使通过多样化数据集训练的模型的绝对准确性提高14.4%。此外,我们发现,一些通过LR干预生成的数据训练的模型表现优于基于LLM的少样本分类。相比之下,OOSF并未有效提高模型准确性,这意味着需要在人机协作文本数据生成领域进行未来工作。
语言模型在复杂任务中逐步推理时通常能够获得更高的准确性。然而,它们的推理可能不可靠、不一致或依赖不良的先验假设。为了解决这些问题,我们引入了一类针对语言模型的工具,称为“指南”,它们利用状态和增量约束来引导生成。模型可以调用指南来约束自身的生成,使其仅生成由工具给出的一组有效语句。反过来,模型的选择可以改变指南的状态。我们展示了一个用于逻辑推理的通用系统可以作为指南使用,我们称之为LogicGuide。对于自然语言中的推理问题,模型可以为LogicGuide形式化其假设,从而保证其推理步骤是可靠的。在PrOntoQA和ProofWriter推理数据集的实验中,LogicGuide显著改善了GPT-3、GPT-3.5 Turbo和LLaMA的性能(准确率提高达35%)。LogicGuide还大大减少了内容效应:即先前和当前假设的干扰,这是人类和语言模型都已经表现出受到影响的。最后,我们探讨了通过自身推理引导LLaMA 13B的启动过程,并发现LogicGuide至关重要:仅通过在经过认证的自我生成推理上进行训练,LLaMA可以自我改进,避免从自身幻觉中学习。
在端到端(E2E)语音识别中,仅使用文本语料库进行领域自适应是具有挑战性的。通过文本合成语音的TTS进行自适应是资源密集型的。我们提出了一种学习统一语音-文本表示的Conformer Transducer(USTR-CT)方法,以实现使用仅文本语料库进行快速领域自适应。与先前的文本图方法不同,我们的工作引入了额外的文本编码器来学习文本表示,并在推断过程中将其移除,因此无需对在线部署进行修改。为了提高自适应的效率,我们还探讨了单步和多步自适应。将LibriSpeech自适应到SPGISpeech的实验表明,所提出的方法在目标领域将词错误率(WER)相对降低了44%,优于TTS方法和文本图方法。此外,结果表明所提出的方法可以与内部语言模型估计(ILME)结合,进一步提高性能。
尽管预训练语言模型(LMs)能够轻松记忆关于实体的世界知识,但在组合两个或多个事实以执行多跳推理的问答任务中仍存在困难。在这项工作中,我们提出了一种技术,通过依赖结构化知识图中的随机游走来改善这一局限性。具体而言,我们使用软提示来引导LMs通过学习将多跳问题映射到通往答案的随机游走路径,从而将它们编码的知识链接在一起。将我们的方法应用于两个T5 LM上,在需要进行2跳推理的问题回答中,相较于标准调整方法,显示出了显著的改进。
本文介绍了一种在叙述的操作性视频中定位步骤的方法。为了解决缺乏大规模标记数据的问题,我们从包含大量操作性任务说明文章的语言知识库(wikiHow)中获取步骤描述。在没有任何形式的手动监督的情况下,我们的模型通过匹配三种模态:帧、叙述和步骤描述,学会了将操作性文章的步骤在操作性视频中进行时间上的定位。具体来说,我们的方法通过融合两个不同路径的信息来将步骤与视频进行对齐:i)将步骤描述直接对齐到帧,ii)通过将步骤与叙述组合,再将叙述与视频对应来获得间接对齐。值得注意的是,我们的方法通过利用顺序信息一次性执行文章中所有步骤的全局时间定位,并使用经过迭代细化和积极过滤的步骤伪标签进行训练。为了验证我们的模型,我们引入了一个新的评估基准 - HT-Step,通过手动注释从wikiHow文章中获取的HowTo100MA测试服务器的124小时子集获得,可在\url{https://eval.ai/web/challenges/challenge-page/2082.}上访问。在这个基准上的实验以及在CrossTask上的零-shot评估表明,我们的多模态对齐相对于几种基线和先前工作取得了显著的增益。最后,我们展示了我们用于匹配叙述与视频的内部模块在HTM-Align叙述-视频对齐基准上远远优于现有技术水平。