每日精选AI研究论文及翻译
随着大型语言模型(LLMs)在安全关键应用中的影响日益增大,利用护栏确保它们的安全性仍然是一个关键挑战。本文提出了GuardReasoner,这是一种新的LLMs保护措施,通过引导护栏模型学习推理。具体而言,我们首先创建了GuardReasonerTrain数据集,包括127K个样本和460K个详细的推理步骤。然后,我们引入推理SFT来释放护栏模型的推理能力。此外,我们提出了难样本DPO来进一步加强它们的推理能力。通过这种方式,GuardReasoner实现了更好的性能、可解释性和泛化能力。对3个护栏任务的13个基准进行了大量实验和分析,证明了其优越性。值得注意的是,GuardReasoner 8B在平均F1分数上超过了GPT-4o+CoT的5.74%,超过了LLaMA Guard 3 8B的20.84%。我们发布了不同规模(1B、3B、8B)的GuardReasoner的训练数据、代码和模型:https://github.com/yueliu1999/GuardReasoner/。
大型语言模型(LLMs)如OpenAI的o1已经展示出在复杂推理任务中的显著能力,通过扩展测试时计算量并展现类似人类的深度思考。然而,我们发现了一种我们称之为“欠思考”的现象,在这种现象中,类似o1的LLMs经常在不充分探索有前景的路径以达到正确解决方案的情况下在不同的推理思路之间频繁切换。这种行为导致推理深度不足和性能下降,特别是在具有挑战性的数学问题上。为了系统地分析这个问题,我们在三个具有挑战性的测试集和两个代表性的开源o1-like模型上进行实验,揭示了频繁的思维切换与错误响应相关。我们引入了一个新颖的度量标准来量化欠思考,通过测量错误答案中的标记效率。为了解决欠思考问题,我们提出了一种解码策略,即思维切换惩罚(TIP),它抑制了过早地在不同思路之间切换,鼓励更深入地探索每个推理路径。实验结果表明,我们的方法提高了在具有挑战性的数据集上的准确性,而无需对模型进行微调。我们的发现有助于理解类似o1的LLMs中的推理低效问题,并提供了一个实用的解决方案来增强它们的问题解决能力。
大型语言模型(LLMs)的训练通常分布在大量加速器上,以缩短训练时间。由于在每个梯度步骤中需要交换内部状态和参数梯度,因此所有设备都需要通过低延迟高带宽的通信链路进行互连,以支持所需的大量交换位数。最近,像DiLoCo这样的分布式算法已经放宽了这种互连约束:加速器可以分组为“工作者”,其中工作者之间的同步只会偶尔发生。这意味着工作者可以通过带宽较低的通信链路连接,而不会影响学习质量。然而,在这些方法中,跨工作者的通信仍然需要与以前一样的峰值带宽,因为同步需要在所有工作者之间交换所有参数。在本文中,我们以三种方式改进了DiLoCo。首先,我们仅按顺序同步参数的子集,而不是一次性同步所有参数,这大大降低了峰值带宽。其次,我们允许工作者在同步时继续训练,从而减少了挂钟时间。第三,我们对工作者交换的数据进行量化,进一步降低了工作者之间的带宽。通过正确结合这些修改,我们实验证明可以分布式训练数十亿规模的参数,并达到与以前相似的质量水平,但将所需带宽降低了两个数量级。
DeepSeek-R1的出现标志着AI行业整体以及特别是LLMs迎来了一个转折点。它的能力在多项任务中表现出色,包括创造性思维、代码生成、数学和自动程序修复,似乎在执行成本上更低。然而,LLMs必须遵守一个重要的定性属性,即它们与安全和人类价值观的一致性。DeepSeek-R1的明显竞争对手是其美国对应物OpenAI的o3-mini模型,预计将在性能、安全性和成本方面设定高标准。本文对DeepSeek-R1(70b版本)和OpenAI的o3-mini(beta版本)的安全级别进行了系统评估。为此,我们利用我们最近发布的自动安全测试工具ASTRAL。通过利用这一工具,我们在两个模型上自动生成并系统执行了总共1260个不安全的测试输入。在对两个LLMs提供的结果进行半自动评估后,结果表明DeepSeek-R1相比OpenAI的o3-mini更不安全。根据我们的评估,DeepSeek-R1对执行的提示作出了不安全回应的比例为11.98%,而o3-mini仅为1.19%。
大型语言模型已经展现出许多智能能力。尽管有许多基准评估它们的智能,但对它们的探索能力却付之闻言,而探索能力对于在自然和人工系统中发现新信息并适应新环境至关重要。LLM能够在开放式任务中有效探索的程度,特别是在开放式任务中,仍然不清楚。本研究调查了LLM在开放式任务中是否能够超越人类的探索能力,以Little Alchemy 2作为范例,代理通过组合元素来发现新元素。结果显示,除了o1模型外,大多数LLM在探索方面表现不及人类,这些传统LLM主要依赖于不确定性驱动的策略,而不像人类那样平衡不确定性和赋权。通过对稀疏自动编码器的模型进行表征分析,发现不确定性和选择在较早的变压器块中得到了表征,而赋权值则在后期处理,导致LLM思考过快并做出过早决策,阻碍了有效的探索。这些发现揭示了LLM探索的局限性,并提出了改善它们适应性的方向。
我们介绍MedXpertQA,这是一个非常具有挑战性和全面性的基准,用于评估专家级医学知识和高级推理能力。MedXpertQA包含4,460个问题,涵盖17个专业领域和11个身体系统。它包括两个子集,Text用于文本评估,MM用于多模态评估。值得注意的是,MM引入了具有多样化图像和丰富临床信息的专家级考试问题,包括患者记录和检查结果,使其与仅生成自图像标题的简单问答对的传统医学多模态基准有所区别。MedXpertQA应用严格的过滤和增强措施来解决现有基准(如MedQA)存在的不足难度,并整合专业委员会问题以提高临床相关性和全面性。我们进行数据合成以减少数据泄漏风险,并进行多轮专家审查以确保准确性和可靠性。我们在MedXpertQA上评估了16个领先模型。此外,医学与现实决策紧密相连,为评估超越数学和代码的推理能力提供了丰富和具代表性的环境。为此,我们开发了一个面向推理的子集,以便评估类似o1模型的能力。
语言模型(LLM)的后训练,从DPO到蒸馏,可以优化行为并开发新技能,但支持这些后训练技术的开放科学仍处于萌芽阶段。一个限制因素是难以进行大规模的合成数据生成模型和LLM评估模型的比较分析。为了弥补这一差距,我们介绍了迄今为止最大的公共聊天数据集WILDCHAT-50M。我们扩展了现有的WildChat数据集,不仅包括来自GPT的回复,还包括来自超过50种不同的开放权重模型,其参数规模从0.5B到104B不等。我们进行了广泛的比较分析,并通过创建RE-WILD展示了这一数据集的潜力,我们自己的公共SFT混合物仅使用了Allen AI最近的Tulu-3 SFT混合物样本数量的40%就取得了更好的表现。我们的数据集、样本和代码可在https://github.com/penfever/wildchat-50m 上获取。
本文介绍了SANA-1.5,这是一种用于文本到图像生成的线性扩散变压器,可实现高效扩展。在SANA-1.0的基础上,我们引入了三项关键创新:(1) 高效训练扩展:采用深度增长范式,使模型参数从16亿扩展到48亿,大幅减少计算资源的同时结合了内存高效的8位优化器。(2) 模型深度修剪:一种用于高效模型压缩至任意大小的块重要性分析技术,质量损失最小。(3) 推理时扩展:一种重复采样策略,以交换计算量为模型容量,使较小的模型在推理时能够达到与较大模型相匹配的质量。通过这些策略,SANA-1.5在GenEval上实现了0.72的文本-图像对齐分数,通过推理扩展可进一步提高至0.80,在GenEval基准上确立了新的SoTA。这些创新能够在不同计算预算下实现高效的模型扩展,同时保持高质量,使高质量图像生成更加易于实现。
在具身体性的人工智能研究中,理解现实世界是一个基本挑战,对于使代理能够执行复杂任务并在真实环境中安全运行至关重要。虽然视觉语言模型(VLMs)在推理和任务规划方面表现出极大的潜力,但它们理解物理现象的能力仍然非常有限。为了弥补这一差距,我们引入了PhysBench,这是一个全面的基准测试,旨在评估VLMs在各种任务中对物理世界理解能力。 PhysBench包含10,002个交织的视频-图像-文本数据条目,分为四个主要领域:物理对象属性、物理对象关系、物理场景理解和基于物理的动态,进一步细分为19个子类和8个不同的能力维度。我们进行了大量实验,针对75个代表性的VLMs进行了实验,结果显示,尽管这些模型在常识推理方面表现出色,但它们在理解物理世界方面存在困难,这可能是因为它们的训练数据中缺乏物理知识并且缺乏嵌入的物理先验知识。为了解决这一不足,我们引入了PhysAgent,这是一个结合了VLMs的泛化优势和视觉模型专业知识的新框架,显著增强了VLMs在各种任务中对物理理解,包括对GPT-4o的18.4\%改进。此外,我们的结果表明,增强VLMs对物理世界理解能力可以帮助像MOKA这样的具身体性代理。我们相信,PhysBench和PhysAgent提供了宝贵的见解,并有助于弥合VLMs与物理世界理解之间的差距。
尽管许多关于网络代理的研究强调了代理可以自主代表用户执行任务的前景,但实际上,在现实世界的情境中,代理通常在复杂任务和建模用户偏好方面表现不佳。这为人类与代理合作并有效利用代理的能力提供了机会。我们提出了CowPilot,一个支持自主以及人-代理协作网络导航的框架,并通过任务成功和任务效率进行评估。CowPilot通过允许代理提出下一步行动来减少人类需要执行的步骤数量,同时用户可以暂停、拒绝或采取替代行动。在执行过程中,用户可以通过覆盖建议或在需要时恢复代理控制来与代理交错执行操作。我们在五个常见网站上进行了案例研究,发现人-代理协作模式实现了95%的最高成功率,仅需要人类执行总步骤的15.2%。即使在任务执行过程中有人类干预,代理也能独立成功推动高达一半的任务成功率。CowPilot可以作为跨网站数据收集和代理评估的有用工具,我们相信这将促进关于用户和代理如何共同工作的研究。视频演示可在https://oaishi.github.io/cowpilot.html 上找到。