每日精选AI研究论文及翻译
最近对大型语言模型(LLMs)的研究取得了显著进展,展示了在自然语言理解和生成任务方面的实质性能力。随着LLMs数量的增长,如何利用多个LLMs的集体专业知识是一个令人兴奋的开放方向。为了实现这一目标,我们提出了一种新方法,通过“混合代理人”(MoA)方法利用多个LLMs的集体优势。在我们的方法中,我们构建了一个分层MoA架构,其中每一层包含多个LLM代理人。每个代理人将前一层代理人的所有输出作为辅助信息,用于生成其响应。MoA模型在AlpacaEval 2.0、MT-Bench和FLASK上实现了最先进的性能,超越了GPT-4 Omni。例如,我们仅使用开源LLMs的MoA在AlpacaEval 2.0中领先GPT-4 Omni相当大的差距,取得了65.1%的得分,而GPT-4 Omni仅为57.5%。
最近,检索增强生成(RAG)已经成为缓解大型语言模型(LLM)在知识匮乏方面的不足的一种有前景的解决方案。然而,现有的RAG数据集并未充分代表现实世界问答(QA)任务的多样性和动态性质。为了弥合这一差距,我们引入了全面的RAG基准(CRAG),这是一个包含4,409个问答对和模拟Web和知识图谱(KG)搜索的虚拟API的事实问答基准。CRAG旨在涵盖五个领域和八个问题类别的各种问题,反映了从热门到长尾的各种实体流行度以及从年份到秒的时间动态。我们在这一基准上的评估突显了实现完全可信问答的差距。大多数先进的LLM在CRAG上的准确率仅为<=34%,简单地添加RAG仅将准确率提高到44%。最先进的工业RAG解决方案仅能回答63%的问题而不产生幻觉。CRAG还揭示了在回答涉及具有更高动态性、较低流行度或更高复杂性事实的问题时准确率较低,这表明了未来的研究方向。CRAG基准奠定了KDD Cup 2024挑战的基础,在竞赛的前50天内吸引了数千名参与者和提交。我们致力于维护CRAG,以服务研究社区推进RAG解决方案和通用QA解决方案。
我们介绍了WildBench,这是一个自动化评估框架,旨在使用具有挑战性的真实用户查询对大型语言模型(LLMs)进行基准测试。WildBench包括从超过一百万个人-聊天机器人对话日志中精心挑选出的1,024个任务。为了使用WildBench进行自动化评估,我们开发了两个指标,即WB-Reward和WB-Score,这些指标可使用高级LLMs(如GPT-4-turbo)进行计算。WildBench评估使用特定任务的检查表系统地评估模型输出,并提供结构化解释,用以证明得分和比较,从而产生更可靠和可解释的自动判断。WB-Reward采用模型响应之间的细粒度两两比较,生成五种潜在结果:更好得多、稍微更好、稍微更差、更差得多或平局。与以往只使用单个基准模型的评估不同,我们选择了三个基准模型,性能水平不同,以确保全面的两两评估。此外,我们提出了一种简单的方法来减轻长度偏差,即如果获胜响应超过败者响应超过K个字符,则将“稍微更好/更差”的结果转换为“平局”。WB-Score单独评估模型输出的质量,使其成为一种快速且成本效益高的评估指标。WildBench的结果显示,与Chatbot Arena上难度较大任务的人类评分Elo评级强相关。具体而言,WB-Reward与排名靠前的模型达到了0.98的皮尔逊相关性。此外,WB-Score达到了0.95,超过了ArenaHard的0.91和AlpacaEval2.0的0.89的长度控制胜率,以及0.87的常规胜率。
生成式人工智能在改变图像和视频生成等领域取得了显著进展。这些进步是由创新算法、架构和数据推动的。然而,生成模型的快速增长凸显了一个关键缺口:缺乏可信赖的评估指标。当前的自动评估方法,如FID、CLIP、FVD等,经常无法捕捉与生成输出相关的微妙质量和用户满意度。本文提出了一个名为GenAI-Arena的开放平台,用于评估不同的图像和视频生成模型,用户可以积极参与对这些模型的评估。通过利用集体用户反馈和投票,GenAI-Arena旨在提供更民主和准确的模型性能评估。它涵盖了文本到图像生成、文本到视频生成和图像编辑三个领域。目前,我们涵盖了总共27个开源生成模型。GenAI-Arena已经运营了四个月,从社区中获得了超过6000次投票。我们描述了我们的平台,分析了数据,并解释了排名模型的统计方法。为了进一步推动建立基于模型的评估指标的研究,我们发布了我们三个任务的偏好数据的清理版本,即GenAI-Bench。我们促使现有的多模态模型如Gemini、GPT-4o去模仿人类投票。我们计算模型投票与人类投票之间的相关性,以了解它们的评判能力。我们的结果显示,现有的多模态模型在评估生成的视觉内容方面仍然落后,即使最佳模型GPT-4o在质量子分数上也仅达到0.22的皮尔逊相关性,并在其他方面表现得像随机猜测一样。
在评估模型响应的不确定性或置信度方面可能是非常重要的,这不仅可以评估对响应的信任度,还可以评估整个模型的信任度。在本文中,我们探讨了如何估计具有黑盒或查询访问权限的大型语言模型(LLMs)响应的置信度问题。我们提出了一个简单且可扩展的框架,在这个框架中,我们设计了新颖的特征,并在这些特征上训练了一个(可解释的)模型(即逻辑回归)来估计置信度。我们通过实验证明,我们的简单框架在估计flan-ul2、llama-13b和mistral-7b的置信度方面非常有效,其在诸如TriviaQA、SQuAD、CoQA和自然问题等基准数据集上的表现甚至在某些情况下超过10%(在AUROC上)。此外,我们的可解释方法提供了对置信度预测有预测能力的特征的洞察,这导致了一个有趣且有用的发现,即我们为一个LLM构建的置信度模型可以在给定数据集上零-shot泛化到其他模型。
大型语言模型(LLMs)的印象深刻能力提供了重新构想用户输入体验的强大途径。本文展示了Proofread,这是一项由Gboard上的服务器端LLM驱动的新颖功能,可通过一次轻点实现无缝的句子级和段落级校正。我们在本文中描述了完整的系统,从数据生成、指标设计到模型调优和部署。为了获得具有足够质量的模型,我们实施了一个针对在线使用情况量身定制的谨慎数据合成流程,设计了多方面的指标,采用了两阶段调优方法来获得专用于该功能的LLM:首先是用于基础质量的监督微调(SFT),然后是用于针对性改进的强化学习(RL)调优方法。具体来说,我们发现在SFT阶段,对重写和校对任务进行顺序调优可以获得最佳质量,并提出在RL调优阶段采用全局和直接奖励以寻求进一步改进。在人工标记的黄金数据集上进行了大量实验,结果显示我们调优的PaLM2-XS模型达到了85.56\%的良好比例。我们通过在Google Cloud的TPU v5上提供模型,将该功能推出到Pixel 8设备,拥有数千名每日活跃用户。通过量化、桶推断、文本分割和猜测解码,服务延迟显著降低。我们的演示视频可在https://youtu.be/4ZdcuiwFU7I{Youtube}中观看。
我们介绍了NATURAL PLAN,这是一个包含三个关键任务的自然语言实际规划基准:旅行规划、会议规划和日历安排。我们专注于具有任务完整信息的LLMs的规划能力评估,通过提供来自Google Flights、Google Maps和Google Calendar等工具的输出作为模型的上下文。这消除了在规划评估中需要工具使用环境的需求。我们观察到NATURAL PLAN对于最先进模型来说是一个具有挑战性的基准。例如,在旅行规划中,GPT-4和Gemini 1.5 Pro仅能分别实现31.1%和34.8%的解决率。我们发现随着问题复杂性的增加,模型性能急剧下降:当涉及10个城市时,所有模型的表现均低于5%,突显了最先进LLMs在自然语言规划方面存在重大差距。我们还对NATURAL PLAN进行了广泛的消融研究,以进一步阐明自我校正、少样本泛化和长上下文中的上下文规划等方法对LLM规划改进的(无)效性。
从扩展先进AI系统中获得可预测的行为是一种极其理想的特性。尽管有大量文献已经阐明了预训练性能如何扩展,但关于特定下游能力如何扩展的文献则显得更加混乱。在这项工作中,我们退后一步问:为什么预测规模下特定下游能力仍然是困难的?虽然肯定有许多因素起作用,但我们确定了一个新因素,这个因素使得在广泛使用的多项选择问答基准上建模扩展行为变得具有挑战性。通过使用五种模型系列和十二个广泛应用的多项选择基准,我们展示了下游性能是通过负对数似然逐渐降低统计关系而计算的,这种关系是性能和规模之间的。然后,我们揭示了导致这种降级的机制:下游指标需要将正确选择与少量特定的错误选择进行比较,这意味着准确预测下游能力不仅需要预测概率质量如何随规模集中在正确选择上,还需要预测概率质量如何随规模在特定错误选择上波动。我们通过实证研究了随着计算量的增加,正确选择上的概率质量如何与错误选择上的概率质量协变,表明错误选择的规模定律可能是可以实现的。我们的工作还解释了为什么预训练规模定律通常被认为比下游能力更可预测,并有助于建立对前沿AI模型的规模可预测评估。
大型语言模型(LLMs)的出现需要采用并行训练技术,涉及部署数千个GPU来训练单个模型。不幸的是,我们发现当前并行训练的效率通常不够理想,主要是由于以下两个主要问题。首先,硬件故障是不可避免的,会导致训练任务中断。由于无法快速识别故障组件,导致GPU资源大量浪费。其次,由于GPU必须等待参数同步完成后才能继续下一轮计算,网络拥塞会大大增加GPU的等待时间。为了解决这些挑战,本文介绍了一种基于通信的解决方案,即C4。C4的关键见解有两个方面。首先,在并行训练中,集体通信表现出周期性和均匀性特征,因此任何异常肯定是由某种形式的硬件故障引起的。通过利用这一特性,C4可以快速识别故障组件,迅速隔离异常,并重新启动任务,从而避免由于异常检测延迟而导致的资源浪费。其次,集体通信的可预测通信模型涉及少量大流量,使C4能够有效执行流量规划,大大减少网络拥塞。C4已广泛应用于我们的生产系统中,将由错误引起的开销大约减少30%,并且对于某些通信成本适中的应用程序,提高了大约15%的运行时性能。