AI研究论文每日精选

每日精选AI研究论文及翻译

MMLU-Pro：一个更健壮且具挑战性的多任务语言理解基准测试
MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark

Jun 3

ByYubo Wang, Xueguang Ma, Ge Zhang, Yuansheng Ni, Abhranil Chandra, Shiguang Guo, Weiming Ren, Aaran Arulraj, Xuan He, Ziyan Jiang, Tianle Li, Max Ku, Kai Wang, Alex Zhuang, Rongqi Fan, Xiang Yue, Wenhu Chen

在大规模语言模型时代，像大规模多任务语言理解（MMLU）这样的基准对推动人工智能在语言理解和推理方面在不同领域取得的成就起到了关键作用。然而，随着模型的不断改进，它们在这些基准上的表现已经开始趋于平稳，这使得越来越难以区分模型能力上的差异。本文介绍了MMLU-Pro，这是一个增强型数据集，旨在通过整合更具挑战性、注重推理的问题，并将选项选择从四个扩展到十个，来扩展主要基于知识的MMLU基准。此外，MMLU-Pro消除了MMLU中的琐碎和嘈杂问题。我们的实验结果表明，MMLU-Pro不仅提高了挑战性，使准确率较MMLU下降了16%至33%，而且在不同提示下表现出更大的稳定性。在测试了24种不同提示风格后，模型得分对提示变化的敏感性从MMLU的4-5%降至MMLU-Pro的仅为2%。此外，我们发现，利用“思维链”（CoT）推理的模型在MMLU-Pro上的表现优于直接回答，这与原始MMLU的研究结果形成鲜明对比，表明MMLU-Pro包含了更复杂的推理问题。我们的评估证实，MMLU-Pro是一个更具区分性的基准，可更好地跟踪该领域的进展。

展示，而非告知：利用展示的反馈来对齐语言模型
Show, Don't Tell: Aligning Language Models with Demonstrated Feedback

Jun 2

ByOmar Shaikh, Michelle Lam, Joey Hejna, Yijia Shao, Michael Bernstein, Diyi Yang

语言模型被调整以模拟许多人的集体声音，导致输出与特定个体无关。通过监督微调或RLHF，可以将LLM从生成通用输出的方向转移，但对于新的即席任务，这需要使用成本过高的大型数据集。我们认为，可以通过利用极少量（<10）的演示作为反馈，将LLM对齐到特定环境。我们的方法，即演示迭代任务优化（DITTO），直接将语言模型的输出与用户展示的行为对齐。借鉴在线模仿学习的思想，DITTO通过将用户的演示视为优于LLM及其中间检查点的输出，廉价地生成在线比较数据。我们评估了DITTO在学习跨领域细粒度风格和任务对齐方面的能力，如新闻文章、电子邮件和博客文章。此外，我们进行了一项用户研究，从参与者（N=16）那里收集了各种演示。在我们的基准测试和用户研究中，我们发现DITTO的胜率比少样本提示、监督微调和其他自我对弈方法平均高出19%点。通过直接使用演示作为反馈，DITTO提供了一种有效定制LLM的新方法。

从视频扩散先验中学习时间一致的视频深度
Learning Temporally Consistent Video Depth from Video Diffusion Priors

Jun 3

ByJiahao Shao, Yuanbo Yang, Hongyu Zhou, Youmin Zhang, Yujun Shen, Matteo Poggi, Yiyi Liao

本工作解决了视频深度估计的挑战，期望不仅实现逐帧准确性，更重要的是跨帧一致性。我们并非直接从头开始开发深度估计器，而是将预测任务重新构建为条件生成问题。这使我们能够利用现有视频生成模型中嵌入的先验知识，从而降低学习难度并增强泛化能力。具体而言，我们研究如何驯服公开的稳定视频扩散（SVD），利用图像深度和视频深度数据集的混合来预测输入视频的可靠深度。我们在实证中证实，一种程序化的训练策略 - 先优化SVD的空间层，然后在保持空间层冻结的同时优化时间层 - 在空间准确性和时间一致性方面取得了最佳结果。我们进一步研究了用于对任意长视频进行推断的滑动窗口策略。我们的观察表明，在效率和性能之间存在权衡，仅一个帧的重叠就能产生良好的结果。大量实验结果证明了我们的方法ChronoDepth相对于现有替代方案的优越性，特别是在估计深度的时间一致性方面。此外，我们强调了更一致的视频深度在两个实际应用中的好处：深度条件视频生成和新视角合成。我们的项目页面位于https://jhaoshao.github.io/ChronoDepth/{此http网址}。

人工生成智能：强化学习中的文化积累
Artificial Generational Intelligence: Cultural Accumulation in Reinforcement Learning

Jun 1

ByJonathan Cook, Chris Lu, Edward Hughes, Joel Z. Leibo, Jakob Foerster

文化积累推动着人类历史上涵盖各种能力的开放性和多样化进步。它通过将个体探索与代际信息传递相结合来构建日益扩大的知识和技能体系。尽管在人类中取得了广泛成功，但人工学习代理积累文化的能力仍未得到充分探讨。特别是，强化学习方法通常仅致力于在单个生命周期内的改进。现有的代际算法未能捕捉文化积累的开放性、新兴特性，这使个体能够在创新和模仿之间权衡选择。基于先前展示的强化学习代理执行社会学习的能力，我们发现通过平衡社会学习和独立学习的训练设置会促成文化积累。这些积累代理的表现优于仅接受单个生命周期训练的代理，但二者具有相同的累积经验。我们通过构建两个模型来探索这种积累，这两个模型基于两种不同的代际概念：情境代际，其中积累通过情境学习发生；训练时间代际，其中积累通过权重学习发生。情境和权重文化积累可以被解释为类似于知识和技能积累。据我们所知，这项工作是第一个提出在强化学习中实现新兴文化积累的通用模型，为更加开放性的学习系统开辟了新途径，同时为建模人类文化提供了新机会。

μLO：学习优化器的计算高效元泛化
μLO: Compute-Efficient Meta-Generalization of Learned Optimizers

May 31

ByBenjamin Thérien, Charles-Étienne Joseph, Boris Knyazev, Edouard Oyallon, Irina Rish, Eugene Belilovsky

学习优化器（LOs）可以显著减少神经网络的挂钟训练时间，从而大幅降低训练成本。然而，它们在元泛化方面通常表现不佳，特别是在训练比元训练中看到的更大的网络时。为了解决这个问题，我们使用了最近提出的最大更新参数化（muP），它允许从较小模型到较大模型的零-shot泛化优化器超参数。我们将muP理论扩展到学习优化器，将元训练问题视为在muP下找到学习优化器。我们的评估表明，使用muP进行元训练的LOs在元泛化方面明显优于在标准参数化（SP）下训练的LOs。值得注意的是，当应用于大宽度模型时，我们最佳的muLO，在进行了103 GPU小时的训练后，与VeLO的性能相匹配或超过，VeLO是最大的公开可用学习优化器，经过了4000 TPU月的计算进行了元训练。此外，与它们的SP对应物相比，muLOs对更深的网络和比元训练中看到的训练时间跨度长得多的情况（长25倍）表现出更好的泛化能力。

ZeroSmooth：无需训练的扩散器适应方法，用于高帧率视频生成
ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation

Jun 3

ByShaoshu Yang, Yong Zhang, Xiaodong Cun, Ying Shan, Ran He

近年来，视频生成取得了显著进展，尤其是自视频扩散模型问世以来。许多视频生成模型能够生成逼真的合成视频，例如稳定视频扩散（SVD）。然而，由于有限的GPU内存以及对大量帧进行建模的困难，大多数视频模型只能生成低帧率视频。训练视频总是以指定间隔均匀采样以进行时间压缩。先前的方法通过在像素空间训练视频插值模型作为后处理阶段，或者针对特定基础视频模型在潜在空间训练插值模型来提升帧率。本文提出了一种无需训练的视频插值方法，适用于生成式视频扩散模型，并可通用地应用于不同模型。我们研究了视频扩散模型特征空间中的非线性，并将视频模型转换为自级联视频扩散模型，并融入设计的隐藏状态校正模块。自级联架构和校正模块被提出以保持关键帧和插值帧之间的时间一致性。我们对多个流行视频模型进行了广泛评估，以展示所提出方法的有效性，特别是我们的无需训练方法甚至与由大量计算资源和大规模数据集支持的训练插值模型相媲美。