每日精选AI研究论文及翻译
本文提出了扩散强制(Diffusion Forcing),这是一种新的训练范式,其中扩散模型被训练用于去噪一组具有独立每个标记噪声水平的标记。我们将扩散强制应用于序列生成建模,通过训练因果下一个标记预测模型来生成一个或多个未来标记,而无需完全扩散过去的标记。我们的方法被证明结合了下一个标记预测模型的优势,如可变长度生成,以及完整序列扩散模型的优势,如引导采样到理想轨迹的能力。我们的方法提供了一系列额外功能,例如(1)连续标记序列的展开,如视频,长度超过训练范围,基线发散,以及(2)新的采样和引导方案,这些方案从扩散强制的可变范围和因果架构中获益,从而在决策制定和规划任务中实现显著的性能提升。除了实证成功外,我们的方法被证明优化了一个变分下界,该下界涵盖了从真实联合分布中抽取的所有子标记序列的可能性。项目网站:https://boyuan.space/diffusion-forcing/
对于具有受限资源的定制大型语言模型(LLMs),参数高效微调(PEFT)至关重要。尽管针对密集架构LLMs存在各种PEFT方法,但对于稀疏架构LLMs的PEFT研究仍未深入。本研究探讨了Mixture-of-Experts(MoE)架构LLMs的PEFT方法,主要内容包括三个方面:(1)我们研究了在定制任务中激活专家的分散程度,发现特定任务的路由分布往往高度集中,而激活的专家分布在不同任务之间变化显著。(2)我们提出了专家专用微调(ESFT)方法,调整与下游任务最相关的专家,同时冻结其他专家和模块;实验结果表明,我们的方法不仅提高了调整效率,还与全参数微调的性能相匹敌甚至超越。(3)我们进一步分析了MoE架构对专家专用微调的影响。我们发现,具有更精细专家的MoE模型更有利于选择与下游任务最相关的专家组合,从而提高训练效率和效果。
近年来,许多研究作品探讨了利用语言模型解决规划问题的可能性。一系列研究关注将规划任务的自然语言描述转换为结构化规划语言,例如规划领域定义语言(PDDL)。虽然这种方法很有前景,但准确衡量生成的PDDL代码质量仍然存在重大挑战。首先,生成的PDDL代码通常通过规划验证器进行评估,以检查问题是否可以通过规划器解决。这种方法不够,因为语言模型可能生成有效的PDDL代码,但与任务的自然语言描述不一致。其次,现有的评估集通常包含与真实PDDL密切相似的规划任务的自然语言描述,降低了任务的挑战性。为了弥合这一差距,我们引入了\benchmarkName,这是一个旨在评估语言模型从规划任务的自然语言描述生成PDDL代码能力的基准。我们首先创建了一个PDDL等价算法,通过灵活地将生成的PDDL代码与真实PDDL进行比较,严格评估了语言模型生成的正确性。然后,我们提供了一个包含13种不同任务、共132,037个文本到PDDL对的数据集,难度各异。最后,我们评估了几种API访问和开放权重的语言模型,揭示了这一任务的复杂性。例如,GPT-4o生成的87.6%的PDDL问题描述在语法上可解析,82.2%是有效的、可解决的问题,但只有35.1%在语义上正确,突显了对这一问题更严格基准的需求。