每日精选AI研究论文及翻译
我们介绍了Yi模型系列,这是一系列展示出强大多维能力的语言和多模态模型。Yi模型系列基于6B和34B的预训练语言模型,然后我们将其扩展为聊天模型、200K长上下文模型、深度放大模型和视觉-语言模型。我们的基础模型在诸如MMLU之类的广泛基准测试中表现出色,我们微调的聊天模型在AlpacaEval和Chatbot Arena等主要评估平台上获得了强大的人类偏好率。借助我们可扩展的超级计算基础设施和经典的Transformer架构,我们主要将Yi模型的性能归因于我们的数据工程工作所带来的数据质量。对于预训练,我们使用级联数据去重和质量过滤流水线构建了3100亿个英文和中文语料库的标记。对于微调,我们通过多次迭代对小规模(不到10K)的指令数据集进行了优化,以确保每个实例都经过我们的机器学习工程师直接验证。对于视觉-语言,我们将聊天语言模型与视觉Transformer编码器相结合,并训练模型将视觉表示对齐到语言模型的语义空间。我们通过轻量级持续预训练将上下文长度扩展到200K,并展示了强大的大海捞针检索性能。我们展示了通过持续预训练扩展预训练检查点的深度进一步提高了性能。我们相信,鉴于我们目前的结果,继续使用经过彻底优化的数据来扩大模型参数规模将会带来更强大的前沿模型。
从人类反馈中进行强化学习(RLHF)已成为将LLM输出与人类偏好对齐的主要方法。受RLHF成功的启发,我们研究了多种学习从反馈中获得的算法(专家迭代、近端策略优化(PPO)、回报条件化RL)在提高LLM推理能力方面的表现。我们研究了启发式和通过学习奖励模型提供给LLM的稀疏和稠密奖励。此外,我们从多个模型大小和初始化开始,有的进行了监督微调(SFT)数据,有的没有。总体而言,我们发现所有算法的表现相当,专家迭代在大多数情况下表现最佳。令人惊讶的是,我们发现专家迭代的样本复杂度与PPO相似,从预训练检查点收敛最多需要约10^6个样本。我们调查了这种情况的原因,得出结论在RL训练期间,模型未能探索明显超出SFT模型已产生的解决方案。此外,我们讨论了在SFT训练期间maj@1和pass@96指标表现之间的权衡,以及相反RL训练如何同时改善两者。最后,我们讨论了我们的发现对RLHF以及RL在LLM微调中未来角色的影响。
大型语言模型(LLMs)已经开启了新的能力和应用领域;然而,评估其与人类偏好的一致性仍然存在重大挑战。为了解决这一问题,我们引入了Chatbot Arena,这是一个基于人类偏好评估LLMs的开放平台。我们的方法采用了一种两两比较的方式,并通过众包获取了来自多样化用户群体的输入。该平台已经运行了数个月,积累了超过240K的投票。本文描述了该平台,分析了我们迄今收集的数据,并解释了我们正在使用的高效准确的评估和排名模型的经过验证的统计方法。我们确认众包问题足够多样化和具有区分性,并且众包人类投票与专家评分者的投票具有很好的一致性。这些分析共同为Chatbot Arena的可信度奠定了坚实基础。由于其独特价值和开放性,Chatbot Arena已成为最受引用的LLM排行榜之一,被领先的LLM开发者和公司广泛引用。我们的演示可在https://chat.lmsys.org 上公开获取。
自从DragGAN出现以来,基于点的图像编辑引起了显著关注。最近,DragDiffusion进一步通过将这种拖动技术应用于扩散模型来推动生成质量。尽管取得了巨大成功,但这种拖动方案存在两个主要缺点,即不准确的点跟踪和不完整的运动监督,这可能导致令人不满意的拖动结果。为了解决这些问题,我们构建了一个稳定且精确的基于拖动的编辑框架,命名为StableDrag,通过设计一种具有区分性的点跟踪方法和基于置信度的潜在增强策略来实现运动监督。前者使我们能够精确定位更新的控制点,从而提高长距离操作的稳定性,而后者负责确保在所有操作步骤中优化的潜在尽可能高质量。由于这些独特设计,我们实例化了两种类型的图像编辑模型,包括StableDrag-GAN和StableDrag-Diff,通过对DragBench进行广泛的定性实验和定量评估,实现了更稳定的拖动性能。
工具对于大型语言模型(LLMs)在获取最新信息并在外部环境中采取重要行动方面至关重要。现有关于工具增强型LLMs的研究主要集中在工具的广泛覆盖范围和添加新工具的灵活性上。然而,一个被人们惊讶地忽视的关键方面是LLM准确地使用其训练过的工具。我们发现,包括GPT-4和专门针对工具使用进行微调的开源LLMs在正确率方面仅达到30%至60%的范围,远未达到实际可靠使用的水平。我们提出了一种受生物启发的工具增强型LLMs方法,即模拟试错(STE),它协调了生物系统中成功使用工具行为的三个关键机制:试错、想象力和记忆。具体而言,STE利用LLM的“想象力”模拟使用工具的可能场景,之后LLM与工具互动以从执行反馈中学习。短期和长期记忆被用来分别提高探索的深度和广度。在ToolBench上进行的全面实验表明,STE显著改善了LLMs的工具学习,在上下文学习和微调设置下,为Mistral-Instruct-7B带来了46.7%的提升,并使其胜过了GPT-4。我们还展示了通过简单的经验重放策略有效地持续学习工具。
视觉-语言模型(VLMs)如GPT-4V最近在各种视觉语言任务上展示了令人难以置信的进展。我们深入研究了基于视觉的演绎推理,这是一个更复杂但较少被探索的领域,并发现了当前最先进的VLMs中以前未暴露的盲点。具体来说,我们利用雷文渐进矩阵(RPMs)来评估VLMs仅依赖视觉线索执行多跳关系和演绎推理的能力。我们对几种流行的VLMs进行了全面评估,采用了标准策略,如上下文学习、自一致性和思维链(CoT),在包括Mensa智商测试、智力测试和RAVEN在内的三个不同数据集上进行评估。结果显示,尽管LLMs在基于文本的推理方面具有令人印象深刻的能力,但在视觉演绎推理方面,我们仍然远未达到可比较的熟练水平。我们发现,一些对LLMs有效的标准策略在应用于视觉推理任务时并不完全适用。此外,详细分析显示,VLMs难以解决这些任务主要是因为它们无法感知和理解RPM示例中的多个、混淆的抽象模式。
以前人们普遍认为数学能力只会在规模非常大的通用语言模型中出现,或者需要进行大量与数学相关的预训练。本文表明,具有通用预训练的LLaMA-2 7B模型已经展现出强大的数学能力,其在GSM8K和MATH基准测试中选择256个随机生成的最佳响应时,准确率分别达到了97.7%和72.0%。当前基础模型的主要问题在于难以始终激发其固有的数学能力。值得注意的是,对于第一个答案的准确率在GSM8K和MATH基准测试中分别降至49.5%和7.9%。我们发现,简单地扩大SFT数据可以显著提升生成正确答案的可靠性。然而,公开可用的数学问题稀缺限制了大规模扩展的潜力。为了克服这一限制,我们使用合成数据,证明其几乎与真实数据一样有效,并且在扩展到大约一百万个样本时没有明显的饱和。这种简单直接的方法利用LLaMA-2 7B模型在GSM8K和MATH上分别取得了82.6%和40.6%的准确率,分别超过先前模型14.2%和20.8%。我们还提供了关于不同推理复杂性和错误类型的扩展行为的见解。
我们提出了Pix2Gif,这是一种用于图像到GIF(视频)生成的运动引导扩散模型。我们通过将任务制定为由文本和运动幅度提示引导的图像翻译问题来解决这个问题,如teaser fig所示。为了确保模型遵循运动引导,我们提出了一种新的运动引导变形模块,用于在两种类型的提示的条件下对源图像的特征进行空间变换。此外,我们引入了感知损失,以确保转换后的特征图保持在与目标图像相同的空间内,确保内容的一致性和连贯性。为了为模型训练做准备,我们通过从TGIF视频字幕数据集中提取连贯的图像帧来精心筛选数据,该数据集提供了关于主体的时间变化的丰富信息。在预训练之后,我们以零-shot方式将我们的模型应用于多个视频数据集。广泛的定性和定量实验证明了我们模型的有效性 - 它不仅捕捉了来自文本的语义提示,还捕捉了来自运动引导的空间提示。我们使用16xV100 GPU的单节点训练了所有模型。代码、数据集和模型已在以下网址公开:https://hiteshk03.github.io/Pix2Gif/。
由于X射线的穿透能力强于自然光,因此广泛应用于传输成像。在渲染新视角的X射线投影时,现有方法主要基于NeRF,但存在训练时间长和推理速度慢的问题。本文提出了一种基于3D高斯飞溅的框架,名为X-Gaussian,用于X射线新视角合成。首先,我们重新设计了一个受X射线成像各向同性特性启发的辐射高斯点云模型。我们的模型在学习预测3D点的辐射强度时排除了视角方向的影响。基于这一模型,我们开发了一个带CUDA实现的可微辐射光栅化(DRR)。其次,我们定制了一个角度-姿态立方体均匀初始化(ACUI)策略,直接使用X射线扫描仪的参数计算相机信息,然后在包围扫描对象的立方体内均匀采样点位置。实验表明,我们的X-Gaussian在享受少于15%的训练时间和超过73倍推理速度的同时,优于最先进的方法6.5 dB。在稀疏视图CT重建上的应用也揭示了我们方法的实际价值。代码和模型将在https://github.com/caiyuanhao1998/X-Gaussian 上公开。训练过程可视化的视频演示请访问https://www.youtube.com/watch?v=gDVf_Ngeghg。