每日精选AI研究论文及翻译
本文介绍了Weaver,我们首个专注于内容创作的大型语言模型(LLM)系列。Weaver经过精心挑选的语料库进行预训练,重点是提升大型语言模型的写作能力。然后,我们通过一套新颖的方法对Weaver进行微调,用于创意和专业写作,并根据专业作家的偏好进行调整,采用指导数据合成和LLM对齐的方法,使其能够生成更具人类风格的文本,并遵循更多样化的内容创作指令。Weaver系列包括Weaver Mini(1.8B)、Weaver Base(6B)、Weaver Pro(14B)和Weaver Ultra(34B)等不同规模的模型,适用于不同应用,并可根据查询复杂性由路由代理动态分配,以平衡响应质量和计算成本。在精心策划的用于评估LLM写作能力的基准测试中,Weaver各规模的模型表现优于比它们大数倍的通用LLM。值得注意的是,我们最强大的Weaver Ultra模型在各种写作场景中超越了GPT-4,一种最先进的通用LLM,展示了为写作目的训练专门的LLM的优势。此外,Weaver原生支持检索增强生成(RAG)和函数调用(工具使用)。我们展示了这些能力的各种用例,用于改进AI辅助写作系统,包括整合外部知识库、工具或API,并提供个性化写作辅助。此外,我们讨论并总结了预训练和微调领域特定LLM的指南和最佳实践。
YOLO(You Only Look Once)系列检测器已经被证明是高效和实用的工具。然而,它们依赖预定义和训练好的物体类别限制了它们在开放场景中的适用性。为了解决这一限制,我们引入了YOLO-World,这是一种创新方法,通过视觉-语言建模和在大规模数据集上的预训练,增强了YOLO的开放词汇检测能力。具体来说,我们提出了一种新的可重新参数化的视觉-语言路径聚合网络(RepVL-PAN)和区域-文本对比损失,以促进视觉和语言信息之间的交互。我们的方法在以零样本方式高效检测各种物体方面表现出色。在具有挑战性的LVIS数据集上,YOLO-World在V100上实现了35.4的AP,帧率为52.0,这超过了许多在准确性和速度方面的最新方法。此外,经过微调的YOLO-World在几个下游任务上表现出色,包括物体检测和开放词汇实例分割。
我们提出了BlockFusion,这是一种基于扩散的模型,可以将3D场景生成为单位块,并无缝地将新块整合到场景中。BlockFusion使用从完整3D场景网格中随机裁剪的3D块数据集进行训练。通过逐块拟合,所有训练块都被转换为混合神经场:一个包含几何特征的三平面,然后是用于解码有符号距离值的多层感知器(MLP)。采用变分自动编码器将三平面压缩为潜在三平面空间,然后执行去噪扩散过程。对潜在表示应用扩散允许高质量和多样化的3D场景生成。在生成过程中扩展场景时,只需附加空块以与当前场景重叠,并外推现有的潜在三平面以填充新块。外推是通过在去噪迭代期间使用来自重叠三平面的特征样本来调节生成过程完成的。潜在三平面外推产生语义和几何上有意义的过渡,与现有场景和谐融合。使用2D布局调节机制来控制场景元素的放置和排列。实验结果表明,BlockFusion能够生成多样化、几何一致且无限大的高质量形状的3D场景,适用于室内和室外场景。
为了利用LLMs进行视觉合成,传统方法通过专门的视觉模块将光栅图像信息转换为离散的网格标记,同时破坏了模型捕捉视觉场景真实语义表示的能力。本文认为,图像的另一种表示形式,矢量图形,可以通过实现更自然和语义连贯的图像信息分割,有效地克服这一局限。因此,我们介绍了StrokeNUWA,这是一项开创性工作,探索了在矢量图形上更好的视觉表示“笔画标记”,这种表示方式在视觉语义方面丰富,与LLMs自然兼容,并且高度压缩。搭载笔画标记,StrokeNUWA在矢量图形生成任务中可以显著超越传统的基于LLMs和基于优化的方法在各种指标上的表现。此外,StrokeNUWA在推断速度上实现了高达94倍的加速,具有出色的SVG代码压缩比达到6.9%。
在快速发展的语音生成模型领域,迫切需要确保音频的真实性,以防止声音克隆的风险。我们提出了AudioSeal,这是第一个专为本地化检测人工智能生成语音而设计的音频水印技术。AudioSeal采用了一个生成器/检测器架构,与一个本地化损失一起进行联合训练,以实现直至样本级别的本地化水印检测,并采用了受听觉掩蔽启发的新型感知损失,使得AudioSeal能够实现更好的不可察觉性。在真实生活音频处理和基于自动和人工评估指标的不可察觉性方面,AudioSeal实现了最先进的性能。此外,AudioSeal设计了一个快速的单次检测器,明显超越现有模型的速度 - 实现了高达两个数量级的更快检测速度,使其非常适用于大规模和实时应用。
我们介绍了H2O-Danube-1.8B,这是一个在1T标记上训练的1.8B语言模型,遵循了LLama 2和Mistral的核心原则。我们利用并改进了各种用于预训练大型语言模型的技术。尽管与类似规模的参考模型相比,我们的模型在训练的总标记数量上明显较少,但在多个基准测试中表现出高竞争力的指标。我们还发布了一个通过监督微调和直接偏好优化训练的聊天模型。我们以Apache 2.0许可证开放了H2O-Danube-1.8B,进一步使更广泛的受众经济上获得LLM的机会。
在本报告中,我们探讨了文本扩散替代自回归(AR)解码用于大型语言模型(LLMs)的训练和部署的潜力。我们特别感兴趣的是,预训练的AR模型是否可以通过我们称之为“AR2Diff”的轻量级适应过程转变为文本扩散模型。我们首先建立了一个强大的基准设置,用于训练文本扩散模型。通过比较多种架构和预训练目标,我们发现,仅使用解码器模型并采用前缀语言模型目标在多个任务中是最佳或接近最佳的。基于这一发现,我们测试了各种文本扩散模型的迁移学习设置。在机器翻译中,我们发现文本扩散模型表现不及标准的AR方法。然而,在代码合成和抽取式问答方面,我们发现从头开始训练的扩散模型在许多情况下优于AR模型。我们还观察到从AR转换为使用扩散解码的AR2Diff可以提高质量。这些结果是令人鼓舞的,因为文本扩散相对未被充分探索,并且在长文本生成方面可以比AR解码快得多。
尽管已经付出了大量努力来对齐大型语言模型(LLMs),但红队报告表明,这些经过精心对齐的LLMs仍然可能通过敌对提示、调整或解码而被越狱。在检查对齐LLMs的越狱漏洞时,我们发现越狱和对齐模型的解码分布仅在初始生成方面存在差异。这一观察结果激发了我们提出的弱到强越狱攻击,敌对方可以利用较小的不安全/对齐LLMs(例如7B)来引导对较大对齐LLMs(例如70B)的越狱攻击。要进行越狱,只需额外解码两个较小的LLMs一次,与解码较大的LLMs相比,这涉及的计算量和延迟都很小。通过在来自三个不同组织的五个模型上进行的实验来展示了这种攻击的有效性。我们的研究揭示了一种以前未被注意但高效的越狱方式,暴露了在对齐LLMs时需要考虑的紧急安全问题。作为一种初步尝试,我们提出了一种防御策略来防范此类攻击,但是创建更先进的防御措施仍然具有挑战性。可在以下网址找到复制该方法的代码:https://github.com/XuandongZhao/weak-to-strong
当前图像处理主要集中在静态处理,例如替换图像中的特定区域或改变其整体风格。在本文中,我们介绍一项创新的动态处理任务,主体重新定位。该任务涉及将用户指定的主体移动到所需位置,同时保持图像的保真度。我们的研究表明,主体重新定位的基本子任务,包括填补重新定位主体留下的空白区域、重建被遮挡的主体部分以及将主体与周围区域保持一致,可以有效地重新构建为一个统一的、受提示引导的修复任务。因此,我们可以利用单一的扩散生成模型来处理这些子任务,通过我们提出的任务反演技术学习各种任务提示。此外,我们还整合了预处理和后处理技术,以进一步提高主体重新定位的质量。这些元素共同构成了我们的SEgment-gEnerate-and-bLEnd(SEELE)框架。为了评估SEELE在主体重新定位中的有效性,我们构建了一个名为ReS的真实世界主体重新定位数据集。我们在ReS上的结果展示了重新定位图像生成的质量。
最近的研究主张采用完全开放的基础模型来促进透明度和开放科学。作为一个初始步骤,开放式Whisper风格语音模型(OWSM)使用公开可获得的数据和开源工具包复制了OpenAI的Whisper。为了复制Whisper,之前的OWSM v1到v3模型仍然基于Transformer,这可能导致性能低于其他最先进的语音编码器。在这项工作中,我们旨在提高OWSM的性能和效率,而无需额外的训练数据。我们提出了基于E-Branchformer的OWSM v3.1模型,分别在100M和1B两个规模上。1B模型是迄今为止公开提供的最大的基于E-Branchformer的语音模型。它在绝大多数评估基准上优于之前的OWSM v3,同时展示了高达25%的更快推理速度。我们公开发布数据准备脚本、预训练模型和训练日志。
图像恢复是一个基本问题,涉及从受损观测中恢复高质量干净图像。全能图像恢复模型可以有效地从各种类型和级别的退化中恢复图像,利用特定于退化的信息作为提示来指导恢复模型。在这项工作中,我们提出了第一种使用人类编写的指令来指导图像恢复模型的方法。在给定自然语言提示的情况下,我们的模型可以从其受损对应物中恢复高质量图像,考虑多种退化类型。我们的方法InstructIR 在包括图像去噪、去雨、去模糊、去雾和(低光)图像增强在内的多个恢复任务上实现了最先进的结果。InstructIR 比先前的全能恢复方法提高了 +1dB。此外,我们的数据集和结果为基于文本引导的图像恢复和增强的新研究建立了一个新的基准。我们的代码、数据集和模型可在以下网址获取:https://github.com/mv-lab/InstructIR
尽管大型语言模型(LLMs)越来越多地用于程序合成,但它们缺乏开发有用抽象所需的全局视图;它们通常一次预测一个程序,经常重复相同的功能。从头开始生成冗余代码既低效又容易出错。为了解决这个问题,我们提出了用于通用抽象学习的重构(ReGAL)方法,这是一种无梯度方法,通过代码重构学习可重用函数库,即重构代码而不改变其执行输出。ReGAL从一小组现有程序中学习,通过执行迭代验证和完善其抽象。我们发现,ReGAL发现的共享函数库使得跨不同领域的程序更容易预测。在三个数据集(LOGO图形生成、日期推理和TextCraft,一个基于Minecraft的文本游戏)上,使用ReGAL函数预测程序时,无论是开源还是专有的LLMs,在准确性上都有所提高。对于CodeLlama-13B,ReGAL在图形方面的绝对准确率提高了11.5%,日期理解提高了26.1%,TextCraft提高了8.1%,在三个领域中有两个超越了GPT-3.5。我们的分析揭示了ReGAL的抽象封装了频繁使用的子程序以及环境动态。
当前的大型视觉-语言模型(VLMs)经常面临挑战,例如单个视觉组件能力不足和过长的视觉标记。这些问题可能限制模型在准确解释复杂视觉信息和过长上下文信息方面的有效性。解决这些挑战对于提升VLMs的性能和适用性至关重要。本文提出使用集成专家技术来协同个别视觉编码器的能力,包括擅长图像-文本匹配、OCR、图像分割等。该技术引入融合网络来统一处理来自不同视觉专家的输出,同时弥合图像编码器和预训练LLMs之间的差距。此外,我们探索不同的位置编码方案,以减轻由于长度图像特征序列而导致的位置编码浪费,有效解决位置溢出和长度限制问题。例如,在我们的实现中,这一技术将模型中的位置占用显著减少,例如在SAM模型中,从显著的4096减少到更高效和可管理的64甚至1。实验结果表明,具有多个专家的VLMs表现出比孤立视觉编码器更优越的性能,并且随着集成更多专家,性能得到显著提升。我们已经在本报告中开源了训练代码。所有这些资源都可以在我们的项目网站上找到。
大型语言模型在训练和推断中越来越依赖分布式技术。这些技术需要跨设备进行通信,随着设备数量的增加,可能会降低扩展效率。虽然一些分布式技术可以重叠,从而隐藏这种通信与独立计算之间的关系,但诸如张量并行(TP)之类的技术本质上会将通信与模型执行串行化。隐藏这种串行通信的一种方法是以细粒度的方式将其与生产者操作(通信数据的生产者)交错进行。然而,在软件中进行这种细粒度的通信和计算交错可能会很困难。此外,与任何并发执行一样,它需要在计算和通信之间共享计算和内存资源,导致资源争用,降低重叠效果。 为了克服这些挑战,我们提出了T3,它应用硬件-软件共同设计,透明地重叠串行通信,同时最大程度减少与计算的资源争用。T3通过简单配置生产者的输出地址空间,透明地将生产者操作与随后的通信融合在一起,并且只需要进行轻微的软件更改。在硬件层面,T3添加了轻量级的跟踪和触发机制来协调生产者的计算和通信。它进一步利用增强计算的内存来进行通信的相关计算。因此,T3减少了资源争用,并有效地将串行通信与计算重叠在一起。对于像T-NLG这样重要的Transformer模型,T3将通信密集型子层的速度提高了30%的几何平均值(最大47%),并将数据移动减少了22%的几何平均值(最大36%)。此外,T3的好处在模型扩展时仍然存在:对于PALM和MT-NLG这样的sim500亿参数模型中的子层,几何平均值为29%。