每日精选AI研究论文及翻译
先前的语言模型预训练方法一直将下一个标记的预测损失均匀地应用于所有训练标记。挑战这一规范,我们提出“语言模型训练并非所有语料库中的标记同等重要”。我们的初步分析深入研究了语言模型的标记级训练动态,揭示了不同标记的明显损失模式。利用这些见解,我们引入了一种名为Rho-1的新语言模型。与传统的语言模型不同,传统语言模型学习预测语料库中的每个下一个标记,Rho-1采用选择性语言建模(SLM),有选择地训练与期望分布对齐的有用标记。这种方法涉及使用参考模型对预训练标记进行评分,然后通过对具有更高过度损失的标记施加专注损失来训练语言模型。在对15B OpenWebMath语料库进行持续预训练时,Rho-1在9个数学任务的少样本准确率上取得了高达30%的绝对改进。在微调后,Rho-1-1B和7B在MATH数据集上分别实现了40.6%和51.8%的最新结果,与DeepSeekMath相匹配,仅使用了预训练标记的3%。此外,在对80B通用标记进行预训练时,Rho-1在15个不同任务中平均提高了6.8%,提高了语言模型预训练的效率和性能。
实现复杂计算机任务并最小化人类干预的自主代理有潜力改变人机交互,显著提高可访问性和生产力。然而,现有基准要么缺乏交互环境,要么仅限于特定应用程序或领域的环境,未能反映真实计算机使用的多样复杂性,从而限制了任务范围和代理的可扩展性。为解决这一问题,我们引入了OSWorld,这是一种首创的可扩展真实计算机环境,用于支持多模态代理的任务设置、基于执行的评估和跨Ubuntu、Windows和macOS等各种操作系统的交互式学习。OSWorld可作为一个统一的、集成的计算机环境,用于评估涉及任意应用程序的开放式计算机任务。基于OSWorld,我们创建了一个基准,涉及369个计算机任务,涵盖开放领域中的真实网络和桌面应用程序、操作系统文件I/O以及跨多个应用程序的工作流。每个任务示例源自真实世界的计算机使用案例,包括详细的初始状态设置配置和用于可靠、可重现评估的自定义基于执行的评估脚本。在OSWorld上对基于LLM/VLM的最新代理进行广泛评估揭示了它们作为计算机助手的显著不足。尽管人类可以完成72.36%以上的任务,但最佳模型仅实现了12.24%的成功率,主要困难在于GUI基础和操作知识。利用OSWorld进行全面分析为开发以前基准无法实现的多模态通用代理提供了宝贵的见解。我们的代码、环境、基准模型和数据可在https://os-world.github.io 公开获取。
为了增强文本到图像扩散模型的可控性,现有的努力如ControlNet纳入了基于图像的条件控制。在本文中,我们揭示了现有方法在生成与图像条件控制相一致的图像方面仍面临重大挑战。为此,我们提出了ControlNet++,一种通过明确优化生成图像与条件控制之间的像素级循环一致性来改进可控生成的新方法。具体来说,对于输入的条件控制,我们使用预训练的鉴别奖励模型来提取生成图像的相应条件,然后优化输入条件控制和提取条件之间的一致性损失。一个直接的实现方法是从随机噪声中生成图像,然后计算一致性损失,但这种方法需要存储多个采样时间步长的梯度,导致相当大的时间和内存成本。为了解决这个问题,我们引入了一种有效的奖励策略,通过故意向输入图像添加噪声来干扰,然后使用经过单步去噪的图像进行奖励微调。这避免了与图像采样相关的巨大成本,从而实现更高效的奖励微调。大量实验证明,ControlNet++在各种条件控制下显著提高了可控性。例如,对于分割掩模、线条艺术边缘和深度条件,它分别比ControlNet提高了7.9%的mIoU,13.4%的SSIM和7.6%的RMSE。
我们介绍了RecurrentGemma,这是一个使用谷歌创新的Griffin架构的开放式语言模型。Griffin将线性循环与局部注意力相结合,以在语言任务上取得出色的性能。它具有固定大小的状态,可降低内存使用量,并能够高效地推断长序列。我们提供了一个预训练模型,具有20亿非嵌入参数,以及一个经过调优的变体。尽管这两个模型训练的标记数量较少,但在性能上与Gemma-2B相当。
尽管Ferret将区域理解无缝集成到大型语言模型(LLM)中,以促进其指代和基础能力,但它存在一定的限制:受预训练的固定视觉编码器的限制,无法在更广泛的任务上表现良好。在这项工作中,我们揭示了Ferret-v2,这是对Ferret的重大升级,具有三个关键设计。 (1)任何分辨率的基础和指代:一种灵活的方法,可以轻松处理更高的图像分辨率,提高模型处理和理解图像细节的能力。 (2)多粒度视觉编码:通过集成额外的DINOv2编码器,模型学习更好和多样化的全局和细粒度视觉信息的基础上下文。 (3)三阶段训练范式:除了图像-标题对齐外,提出了一个额外阶段,用于在最终指导调整之前进行高分辨率密集对齐。实验证明,由于其高分辨率缩放和细粒度视觉处理,Ferret-v2在Ferret和其他最先进方法上提供了实质性的改进。
AI 模型的成功取决于大量、多样化和高质量的数据集的可用性,由于数据稀缺、隐私问题和高成本,获取这些数据集可能具有挑战性。合成数据作为一种有前途的解决方案出现,通过生成模拟真实世界模式的人工数据。本文概述了合成数据研究,讨论了其应用、挑战和未来方向。我们提供了来自先前研究的经验证据,以展示其有效性,并强调确保其真实性、忠实性和无偏见性的重要性。我们强调了对合成数据的负责任使用,以构建更强大、包容和值得信赖的语言模型的必要性。
由于自注意机制的二次计算和内存开销以及在生成过程中的大量KV缓存大小,处理长上下文对大型语言模型(LLMs)仍然是一个挑战。我们提出了一种新方法来解决这个问题,通过离线学习上下文,通过上下文压缩和领域内参数高效微调。我们的方法使LLM能够创建原始上下文的简洁表示,并有效地检索相关信息以准确回答问题。我们引入了LLoCO,这是一种使用LoRA结合上下文压缩、检索和参数高效微调的技术。我们的方法将4k标记LLaMA2-7B模型的有效上下文窗口扩展到处理高达128k标记。我们在几个长上下文问答数据集上评估了我们的方法,结果表明LLoCO在推理过程中使用的标记数量比上下文学习少30倍,性能显著优于上下文学习。LLoCO实现了高达7.62倍的加速,并大幅降低了长文档问答的成本,使其成为处理长上下文高效的有前景的解决方案。我们的代码可在https://github.com/jeffreysijuntan/lloco 公开获取。
在网络代理研究领域,实现泛化和准确性的双重目标仍然是一个具有挑战性的问题。由于网站结构的高变异性,现有方法经常失败。此外,现有的微调和上下文学习技术无法在多个网站之间实现泛化。我们引入了Wilbur,这是一种使用可微分排名模型和新颖的指令合成技术的方法,可以最优地填充黑盒大型语言模型的提示,使用来自先前运行的任务演示。为了最大化端到端的成功率,我们还提出了一种智能回溯机制,可以学习并从错误中恢复。最后,我们展示了我们的排名模型可以在生成式自动课程数据上进行训练,该数据从LLM中采样代表性目标,运行代理,并自动评估,无需手动注释。Wilbur在WebVoyager基准测试中取得了最先进的结果,整体上比仅文本模型高出8%,在某些网站上高达36%。在相同的基准测试中,尽管仅接收文本输入,Wilbur与强大的多模态模型之间的差距仅为5%,进一步分析显示,大量失败是由于操作网络的工程挑战。
分层门控线性循环神经网络(HGRN,Qin等,2023)在语言建模中表现出竞争力的训练速度和性能,同时提供高效的推断。然而,HGRN的循环状态大小仍然相对较小,这限制了其表现力。为了解决这个问题,受线性注意力的启发,我们引入了一种基于外积的简单状态扩展机制,从而可以显著扩大循环状态的大小,而不引入任何额外的参数。线性注意力形式还可以实现硬件高效的训练。我们的大量实验证实了HGRN2在语言建模、图像分类和长距离竞技场中优于HGRN1的优势。在受控实验环境中,我们最大的30亿参数的HGRN2模型在语言建模方面略优于Mamba和LLaMa架构变压器;在使用更少的总训练标记的情况下,在下游评估中与许多开源的30亿参数模型竞争力相当。
引导是从图像生成扩散模型中提取最佳性能的关键技术。传统上,在图像的采样链中始终应用恒定的引导权重。我们表明,在链的开始阶段(高噪声水平)引导明显有害,末端(低噪声水平)基本不需要,只有在中间阶段才有益。因此,我们将其限制在特定噪声水平范围内,提高了推断速度和结果质量。这种有限的引导间隔显著提高了ImageNet-512中的记录FID,从1.81提高到1.40。我们展示了在不同采样器参数、网络架构和数据集上,包括Stable Diffusion XL的大规模设置中,定量和定性上都有益。因此,我们建议将引导间隔作为所有使用引导的扩散模型的超参数。
车道检测是自动驾驶中的基本任务,在深度学习兴起时取得了巨大进展。先前基于锚点的方法通常设计密集锚点,这些锚点高度依赖于训练数据集,并在推断过程中保持不变。我们分析得出密集锚点对于车道检测并非必要,提出了一种基于稀疏锚点机制的基于Transformer的车道检测框架。为此,我们使用位置感知车道查询和角度查询生成稀疏锚点,而非传统的显式锚点。我们采用水平感知注意力(HPA)沿水平方向聚合车道特征,并采用车道角度交叉注意力(LACA)在车道查询和角度查询之间执行交互。我们还提出了基于可变交叉注意力的车道感知注意力(LPA),以进一步优化车道预测。我们的方法名为Sparse Laneformer,易于实现且端到端可训练。大量实验证明Sparse Laneformer在CULane数据集上表现优异,例如在相同的ResNet-34骨干网络上,F1分数比Laneformer高出3.0%,比O2SFormer高出0.7%,并且MACs更少。