每日精选AI研究论文及翻译
我们提出了一种基于预训练扩散模型的新型推理技术,用于文本条件视频生成。我们的方法名为FIFO-Diffusion,概念上能够生成无限长的视频而无需训练。这是通过迭代执行对角去噪来实现的,该方法同时处理一个队列中噪声水平逐渐增加的一系列连续帧;我们的方法在头部出队一个完全去噪的帧,同时在尾部入队一个新的随机噪声帧。然而,对角去噪是一把双刃剑,因为靠近尾部的帧可以通过向前引用利用更干净的帧,但这种策略会导致训练和推理之间的差异。因此,我们引入了潜在分区来减少训练和推理之间的差距,并引入了前瞻去噪来利用向前引用的好处。我们已经展示了所提方法在现有文本到视频生成基线上的有希望的结果和有效性。
低秩适应是大型语言模型的一种流行的参数高效微调方法。在本文中,我们分析了低秩更新的影响,如LoRA中所实现的。我们的研究发现表明,低秩更新机制可能会限制LLM有效学习和记忆新知识的能力。受到这一观察的启发,我们提出了一种名为MoRA的新方法,它利用一个方阵来实现高秩更新,同时保持相同数量的可训练参数。为了实现这一点,我们引入了相应的非参数操作符,以减少方阵的输入维度并增加输出维度。此外,这些操作符确保权重可以合并回LLM中,使得我们的方法可以像LoRA一样部署。我们在五个任务上对我们的方法进行了全面评估:指令微调、数学推理、持续预训练、记忆和预训练。我们的方法在对内存密集型任务上表现优于LoRA,并在其他任务上取得了可比较的性能。
随着大型语言模型(LLMs)按照规模定律不断增长,基于人类反馈的强化学习(RLHF)因其出色的性能而受到了广泛关注。然而,与对单个模型进行预训练或微调不同,为了训练大型语言模型,通过人类反馈进行强化学习(RLHF)存在着跨四个模型的协调挑战。我们提出了OpenRLHF,这是一个开源框架,可以实现高效的RLHF扩展。与现有的RLHF框架不同,这些框架将四个模型放置在同一GPU上,OpenRLHF通过使用Ray、vLLM和DeepSpeed重新设计了模型的调度,实现了超过70B参数的模型的训练,从而提高了资源利用率并采用了多样化的训练方法。OpenRLHF与Hugging Face完美集成,提供了一个即插即用的解决方案,具有优化的算法和启动脚本,确保了用户友好性。OpenRLHF实现了RLHF、DPO、拒绝抽样和其他对齐技术。作为最先进的LLM开发的助力,OpenRLHF的代码可在https://github.com/OpenLLMAI/OpenRLHF 上获得。
随着基于大型语言模型(LLM)的参数高效适应版本数量不断增加,迫使我们研究是否可以重复使用这些训练好的适配器来提高新任务的性能。我们研究了如何在给定多任务数据的情况下最佳构建适配器库,并通过在该库中进行路由设计技术,实现零-shot和监督任务泛化。我们对构建此库的现有方法进行了基准测试,并引入了基于模型的聚类(MBC)方法,该方法根据适配器参数的相似性对任务进行分组,间接优化跨多任务数据集的转移。为了重复使用该库,我们提出了一种新颖的零-shot路由机制,Arrow,它能够动态选择最相关的适配器用于新输入,无需重新训练。我们在多个LLM(如Phi-2和Mistral)上进行实验,针对大量保留任务验证了基于MBC的适配器和Arrow路由能够更好地泛化到新任务。我们正在努力创建模块化、可适应的LLM,能够与传统的联合训练相匹敌甚至胜过。
通过利用大型语言模型(LLMs)的能力,最近的大型多模态模型(LMMs)展现出在开放世界多模态理解方面的显著多功能性。然而,它们通常参数庞大且计算密集,从而阻碍了它们在资源受限场景中的适用性。为此,已经连续提出了几种轻量级LMMs,以最大程度地发挥在受限规模(例如3B)下的能力。尽管这些方法取得了令人鼓舞的结果,但它们大多只关注设计空间的一个或两个方面,并且影响模型能力的关键设计选择尚未得到彻底调查。在本文中,我们从模型架构、训练策略和训练数据等方面对轻量级LMMs进行了系统研究。根据我们的发现,我们获得了Imp - 一系列在2B-4B规模下非常有能力的LMMs。值得注意的是,我们的Imp-3B模型稳定地优于所有现有规模相似的轻量级LMMs,甚至超越了13B规模下的最先进LMMs。通过低比特量化和分辨率降低技术,我们的Imp模型可以部署在高通骁龙8Gen3移动芯片上,推理速度约为13个标记/秒。
在各种机器人数据集上预训练的大型策略具有改变机器人学习的潜力:与从头开始训练新策略不同,这种通用机器人策略可以仅通过少量领域内数据进行微调,却能广泛泛化。然而,为了在各种机器人学习场景、环境和任务中广泛适用,这些策略需要处理多样的传感器和动作空间,适应各种常用的机器人平台,并且能够快速高效地在新领域进行微调。在这项工作中,我们旨在为开发面向机器人操作的开源、广泛适用的通用策略奠定基础。作为第一步,我们介绍了Octo,这是一个基于大型Transformer的策略,通过对迄今为止最大的机器人操作数据集Open X-Embodiment中的800k条轨迹进行训练而得到。它可以通过语言命令或目标图像进行指导,并且可以在标准消费级GPU上在几小时内有效地对具有新感知输入和动作空间的机器人设置进行微调。在对9个机器人平台进行的实验中,我们展示了Octo作为一种多才多艺的策略初始化,可以有效地微调到新的观察和动作空间。我们还对Octo模型的设计决策进行了详细的消融分析,从架构到训练数据,以指导未来构建通用机器人模型的研究。
Transformer已成为自然语言处理和计算机视觉任务的基础架构。然而,高昂的计算成本使其在资源受限设备上部署变得非常具有挑战性。本文研究了高效Transformer的计算瓶颈模块,即归一化层和注意力模块。LayerNorm通常用于Transformer架构,但由于推断期间的统计计算,不够计算友好。然而,在Transformer中用更高效的BatchNorm替换LayerNorm通常会导致性能较差和训练崩溃。为解决这一问题,我们提出了一种名为PRepBN的新方法,在训练中逐步用重新参数化的BatchNorm替换LayerNorm。此外,我们提出了一种简化的线性注意力(SLA)模块,简单而有效地实现了强大性能。对图像分类和目标检测的大量实验表明了我们提出方法的有效性。例如,我们的SLAB-Swin在ImageNet-1K上获得了83.6%的top-1准确率,延迟为16.2ms,比Flatten-Swin低2.4ms,准确率高0.1%。我们还对我们的方法进行了语言建模任务的评估,获得了可比较的性能和更低的延迟。代码可在以下网址公开获取:https://github.com/xinghaochen/SLAB 和 https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SLAB。
在这项工作中,我们提出了一种新颖的轨迹分数匹配(TSM)方法,旨在解决使用去噪扩散隐式模型(DDIM)反演过程时,由于区间分数匹配(ISM)中累积误差导致的伪地面真实性不一致的问题。与ISM不同,ISM采用DDIM的反演过程在单一路径上进行计算,而我们的TSM方法利用DDIM的反演过程从同一起点生成两条路径进行计算。由于两条路径均起始于同一起点,TSM相较于ISM可以减少累积误差,从而缓解伪地面真实性不一致的问题。TSM增强了模型在蒸馏过程中生成路径的稳定性和一致性。我们通过实验证明了这一点,并进一步表明ISM是TSM的一个特例。此外,为了优化从高分辨率文本到3D生成的当前多阶段优化过程,我们采用了稳定扩散XL进行指导。针对在使用稳定扩散XL时由于3D高斯飞溅过程中不稳定梯度导致的异常复制和分裂问题,我们提出了一种逐像素梯度剪切方法。大量实验证明,我们的模型在视觉质量和性能方面显著超越了现有模型。源代码:https://github.com/xingy038/Dreamer-XL。