每日精选AI研究论文及翻译
随着大型语言模型(LLM)在各个领域变得日益重要。然而,在加速LLM推断过程中仍存在以下挑战尚未解决:(1)同步部分softmax更新。softmax操作需要在每个部分softmax结果之间进行同步更新操作,导致LLM中注意力计算的开销约为20%。 (2)扁平GEMM计算的计算资源未充分利用。在LLM推断中执行GEMM的矩阵形状是扁平的,导致计算资源未充分利用,在之前的设计中填充零后性能损失超过50%。 (3)由于静态数据流而导致的性能损失。LLM中的内核性能取决于不同的输入数据特征、硬件配置等。单一和静态数据流可能导致LLM推断中不同形状的GEMM性能损失达50.25%。 我们提出FlashDecoding++,这是一个快速的LLM推断引擎,支持主流LLM和硬件后端。为了解决上述挑战,FlashDecoding++创造性地提出了:(1)带有统一最大值的异步softmax。FlashDecoding++引入了一种统一的最大值技术,用于不同部分softmax计算,以避免同步。 (2)带有双缓冲的扁平GEMM优化。FlashDecoding++指出,具有不同形状的扁平GEMM面临不同的瓶颈。然后,引入了双缓冲等技术。 (3)具有硬件资源适应性的启发式数据流。FlashDecoding++通过考虑输入动态,启发式地优化数据流使用不同的硬件资源。由于FlashDecoding++中优化的多样性,与Hugging Face实现相比,FlashDecoding++在NVIDIA和AMD GPU上可以实现高达4.86倍和2.18倍的加速。FlashDecoding++还在主流LLM上实现了比最先进的LLM推断引擎平均加速1.37倍。
我们提出了RoboGen,这是一个生成式机器人代理,通过生成式模拟自动学习各种机器人技能。RoboGen利用了基础和生成模型的最新进展。我们主张采用生成式方案,而不是直接使用或调整这些模型来生成策略或低级动作,通过使用这些模型自动生成多样化的任务、场景和训练监督,从而在最小人类监督下扩展机器人技能学习。我们的方法为机器人代理配备了一个自主提出-生成-学习循环:代理首先提出有趣的任务和技能以开发,然后通过在适当的空间配置中填充相关对象和资产来生成相应的模拟环境。随后,代理将提出的高级任务分解为子任务,选择最佳学习方法(强化学习、运动规划或轨迹优化),生成所需的训练监督,然后学习获取提出的技能的策略。我们的工作旨在提取大规模模型中蕴含的广泛多样的知识,并将其转移到机器人领域。我们的完全生成式流水线可以反复查询,生成与各种任务和环境相关的技能演示的无尽流。
我们提出了一种基于训练神经网络成为幂等的生成建模新方法。幂等算子是指可以连续应用而不改变结果超出初始应用的算子,即f(f(z))=f(z)。所提出的模型f被训练来将源分布(例如,高斯噪声)映射到目标分布(例如,逼真图像),使用以下目标:(1) 目标分布中的实例应映射到它们自身,即f(x)=x。我们将目标流形定义为所有f映射到自身的实例的集合。(2) 形成源分布的实例应映射到定义的目标流形上。这是通过优化幂等性项f(f(z))=f(z)来实现的,这鼓励f(z)的范围在目标流形上。在理想假设下,这样的过程可以被证明收敛到目标分布。这种策略导致了一个能够在一步中生成输出的模型,保持一致的潜在空间,同时也允许进行顺序应用以进行细化。此外,我们发现通过处理来自目标和源分布的输入,该模型能够熟练地将损坏或修改的数据投影回目标流形。这项工作是通向“全局投影器”的第一步,它使得能够将任何输入投影到目标数据分布中。
我们提出了基于扩散的端到端简易文本转语音(Easy End-to-End Diffusion-based Text to Speech)模型,这是一个基于扩散的简单高效的端到端文本转语音模型。E3 TTS直接接受纯文本作为输入,并通过迭代细化过程生成音频波形。与许多先前的工作不同,E3 TTS不依赖于任何中间表示,如声谱图特征或对齐信息。相反,E3 TTS通过扩散过程对波形的时间结构进行建模。在不依赖额外的条件信息的情况下,E3 TTS可以支持给定音频中的灵活潜在结构。这使得E3 TTS可以轻松适应零-shot任务,如编辑,而无需额外的训练。实验证明,E3 TTS能够生成高保真音频,接近最先进的神经TTS系统的性能。音频样本可在https://e3tts.github.io找到。
在部署机器学习模型时,分布偏移是一个核心挑战,因为模型可能无法很好地适应真实世界的数据。这在文本转音频生成中尤为明显,编码表示很容易受到未见提示的影响,导致生成的音频质量下降 —— 有限的文本-音频对集合对于野外条件下的有条件音频生成仍然不足,因为用户提示不够明确。具体而言,我们观察到生成的音频样本中存在一致的音频质量下降,与训练集提示相比。为此,我们提出了一种基于检索的上下文提示编辑框架,利用训练字幕作为示范样本来重新审视用户提示。我们展示了该框架提高了整个收集的用户提示集的音频质量,这些提示是根据训练字幕作为示范样本进行编辑的。
我们提出了一种可扩展、自底向上且固有多样化的数据收集方案,可用于具有长期和中期视野的高级推理,其吞吐量比传统的狭窄自上而下逐步收集高出2.2倍。我们通过在3栋办公大楼的全部范围内执行任何用户请求,并利用多个机器人和人类实体来收集现实数据。通过这些数据,我们展示了在所有实体上训练的模型比仅在机器人数据上训练的模型表现更好,即使仅在机器人情节上评估也是如此。我们发现,在固定的收集预算下,利用更便宜的人类收集与机器人收集是有益的。我们发布了一个名为RoboVQA的大型且高度多样化(29,520个独特指令)的数据集,其中包含829,502个(视频、文本)对,用于面向机器人的视觉问答。我们还展示了如何通过干预机制评估真实机器人实验,使其能够完成任务,即使存在缺陷也可以在人类监督下部署,同时提供单一性能指标。我们展示了一个名为RoboVQA-VideoCoCa的单一视频条件模型,该模型在我们的数据集上训练,能够在广泛的现实环境中执行各种基于视频的高级推理任务,其认知干预率比零样本最先进的视觉语言模型(VLM)基线低46%,并且能够引导真实机器人完成长期任务。与零样本最先进模型之间的性能差距表明,仍需收集大量基于实地的数据以进行实际部署,强调了可扩展数据收集方法的关键需求。最后,我们展示了视频VLM在所有VQA任务中平均错误率降低了19%,明显优于单图像VLM。数据和视频可在https://robovqa.github.io获取。