AI研究论文每日精选

每日精选AI研究论文及翻译

SFT记忆，RL泛化：基础模型后训练的比较研究
SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

Jan 28, 2025

Tianzhe Chu, Yuexiang Zhai, Jihan Yang, Shengbang Tong, Saining Xie, Dale Schuurmans, Quoc V. Le, Sergey Levine, Yi Ma

1226

监督微调（SFT）和强化学习（RL）是广泛应用于基础模型的后训练技术。然而，它们在增强模型泛化能力方面的作用仍不清楚。本文研究了SFT和RL在泛化和记忆方面的差异，重点关注基于文本规则变体和视觉变体。我们引入了GeneralPoints，一个算术推理卡牌游戏，并采用了V-IRL，一个真实世界的导航环境，来评估通过SFT和RL训练的模型如何泛化到文本和视觉领域中的未见变体。我们展示了RL，特别是在使用基于结果的奖励进行训练时，能够跨越基于规则的文本和视觉变体进行泛化。相比之下，SFT倾向于记忆训练数据，并且难以泛化到分布之外的场景。进一步的分析揭示了RL改善了模型的基础视觉识别能力，有助于其在视觉领域的增强泛化。尽管RL具有更好的泛化能力，我们展示了SFT对于有效的RL训练仍然至关重要；SFT稳定了模型的输出格式，使随后的RL能够实现其性能提升。这些发现展示了RL在复杂的多模态任务中获取可泛化知识的能力。

利用FP4量化优化大型语言模型训练
Optimizing Large Language Model Training Using FP4 Quantization

Jan 28, 2025

Ruizhe Wang, Yeyun Gong, Xiao Liu, Guoshuai Zhao, Ziyue Yang, Baining Guo, Zhengjun Zha, Peng Cheng

382

训练大型语言模型（LLMs）所需的计算需求不断增长，需要更高效的方法。量化训练提供了一种有前途的解决方案，通过使用低位算术运算来降低成本。虽然FP8精度已经证明是可行的，但利用FP4仍然是一个挑战，因为存在显著的量化误差和有限的表示能力。本研究引入了第一个针对LLMs的FP4训练框架，通过两个关键创新来解决这些挑战：一个可微分的量化估计器用于精确的权重更新，以及一种异常值夹紧和补偿策略，以防止激活崩溃。为确保稳定性，该框架集成了混合精度训练方案和矢量化量化。实验结果表明，我们的FP4框架实现了与BF16和FP8相当的准确性，降级最小，有效扩展到使用多达100B标记训练的13B参数LLMs。随着支持FP4的下一代硬件的出现，我们的框架为高效的超低精度训练奠定了基础。

过度标记的Transformer：通常值得调整词汇量
Over-Tokenized Transformer: Vocabulary is Generally Worth Scaling

Jan 28, 2025

Hongzhi Huang, Defa Zhu, Banggu Wu, Yutao Zeng, Ya Wang, Qiyang Min, Xun Zhou

324

在大型语言模型（LLMs）中，分词是一个基础组件，但其对模型扩展和性能的影响尚未完全探讨。本文介绍了一种新颖的框架——过度分词的Transformer，该框架将输入和输出词汇解耦以提高语言建模性能。具体而言，我们的方法通过扩展输入词汇以利用多克隆标记。通过大量实验，我们发现输入词汇大小与训练损失之间存在对数线性关系，表明较大的输入词汇始终能提升模型性能，而模型大小并不影响这一结果。利用大型输入词汇，我们实现了与双倍基线相媲美的性能，且无需额外成本。我们的研究强调了分词在扩展规律中的重要性，并为分词器设计提供了实用见解，为更高效、更强大的LLMs铺平了道路。

DiffSplat：将图像扩散模型重新用于可扩展的高斯喷洒生成
DiffSplat: Repurposing Image Diffusion Models for Scalable Gaussian Splat Generation

Jan 28, 2025

Chenguo Lin, Panwang Pan, Bangbang Yang, Zeming Li, Yadong Mu

223

最近在从文本或单个图像生成3D内容方面取得了进展，但面临着高质量3D数据集有限以及来自2D多视角生成的不一致性的挑战。我们引入了DiffSplat，这是一种新颖的3D生成框架，通过驯服大规模文本到图像扩散模型，本地生成3D高斯斑点。它与先前的3D生成模型不同之处在于，在统一模型中有效利用了Web规模的2D先验，同时保持3D一致性。为了启动训练，提出了一个轻量级重建模型，可立即生成用于可扩展数据集整理的多视角高斯斑点网格。结合这些网格上的常规扩散损失，引入了一个3D渲染损失，以促进在任意视角上的3D连贯性。与图像扩散模型的兼容性使得能够将许多图像生成技术无缝地适应到3D领域。大量实验揭示了DiffSplat在文本和图像条件下的生成任务以及下游应用中的优越性。彻底的消融研究验证了每个关键设计选择的有效性，并提供了对基础机制的洞察。

机械解释性中的未解之谜
Open Problems in Mechanistic Interpretability

Jan 27, 2025

Lee Sharkey, Bilal Chughtai, Joshua Batson, Jack Lindsey, Jeff Wu, Lucius Bushnaq, Nicholas Goldowsky-Dill, Stefan Heimersheim, Alejandro Ortega, Joseph Bloom, Stella Biderman, Adria Garriga-Alonso, Arthur Conmy, Neel Nanda, Jessica Rumbelow, Martin Wattenberg, Nandi Schoots, Joseph Miller, Eric J. Michaud, Stephen Casper, Max Tegmark, William Saunders, David Bau, Eric Todd, Atticus Geiger, Mor Geva, Jesse Hoogland, Daniel Murfet, Tom McGrath

192

机械解释性旨在理解神经网络能力背后的计算机制，以实现具体的科学和工程目标。因此，该领域的进展有望提供对人工智能系统行为更大的保证，并阐明有关智能本质的激动人心的科学问题。尽管在这些目标方面取得了最新进展，但该领域存在许多需要解决的开放性问题，这些问题需要在许多科学和实际利益实现之前找到解决方案：我们的方法需要在概念和实践上进行改进，以揭示更深层次的见解；我们必须找出如何最好地应用我们的方法来追求具体目标；该领域必须应对影响和受到我们工作影响的社会技术挑战。这篇前瞻性综述讨论了机械解释性的当前前沿和该领域可能受益于优先考虑的开放性问题。

低秩适配器遇上神经架构搜索用于LLM压缩
Low-Rank Adapters Meet Neural Architecture Search for LLM Compression

Jan 23, 2025

J. Pablo Muñoz, Jinjie Yuan, Nilesh Jain

112

大型语言模型（LLMs）的快速扩展给微调和部署所需的计算资源带来了重大挑战。最近在低秩适配器方面取得的进展展示了它们在这些模型的参数高效微调（PEFT）中的功效。本回顾性论文全面讨论了将低秩表示与神经架构搜索（NAS）技术相结合的创新方法，特别是权重共享的超网络。通过整合这些方法论，开发了压缩和微调大型预训练模型的稳健解决方案。我们的分析突显了这些组合策略在民主化LLMs的使用方面的潜力，使其更易于在资源受限环境中部署。由此产生的模型具有较小的内存占用和更快的推理时间，为LLMs的更实用和可扩展应用铺平了道路。模型和代码可在以下链接找到：https://github.com/IntelLabs/Hardware-Aware-Automated-Machine-Learning。

TAID：用于语言模型中高效知识迁移的时间自适应插值蒸馏
TAID: Temporally Adaptive Interpolated Distillation for Efficient Knowledge Transfer in Language Models

Jan 28, 2025

Makoto Shing, Kou Misaki, Han Bao, Sho Yokoi, Takuya Akiba

因果语言模型展示了卓越的能力，但其规模对于在资源受限环境中部署提出了重大挑战。知识蒸馏是一种广泛使用的技术，用于将大型教师模型的知识转移至小型学生模型，为模型压缩提供了一种有前途的途径。一个重要的问题在于教师模型和学生模型之间存在的主要差异，即实质性的容量差距、模式平均和模式坍缩，这些在蒸馏过程中构成了障碍。为了解决这些问题，我们引入了一种新颖的知识蒸馏方法，即“时间自适应插值蒸馏”（TAID），通过一个自适应的中间分布动态地插值学生和教师分布，逐渐从学生的初始分布向教师的分布过渡。我们提供了理论分析，证明了TAID能够防止模式崩溃，并在实证中展示了其在解决容量差距、平衡模式平均和模式崩溃方面的有效性。我们的全面实验表明，TAID在各种模型规模和架构中均表现出优异的性能，无论是在指导调整还是预训练场景中。此外，我们通过开发两个最新的紧凑基础模型展示了TAID的实际影响：TAID-LLM-1.5B 用于语言任务，以及 TAID-VLM-2B 用于视觉-语言任务。这些结果展示了TAID在创建高性能高效模型方面的有效性，推动了更易接近的人工智能技术的发展。

IndicMMLU-Pro：在多任务语言理解上对印度语系大型语言模型进行基准测试
IndicMMLU-Pro: Benchmarking Indic Large Language Models on Multi-Task Language Understanding

Jan 27, 2025

Sankalp KJ, Ashutosh Kumar, Laxmaan Balaji, Nikunj Kotecha, Vinija Jain, Aman Chadha, Sreyoshi Bhaduri

印度次大陆有超过15亿人口使用的印度语言，由于其丰富的文化遗产、语言多样性和复杂结构，为自然语言处理（NLP）研究提供了独特的挑战和机遇。IndicMMLU-Pro是一个全面的基准，旨在评估大型语言模型（LLMs）在印度语言中的表现，构建在MMLU Pro（大规模多任务语言理解）框架之上。涵盖印地语、孟加拉语、古吉拉特语、马拉地语、卡纳达语、旁遮普语、泰米尔语、泰卢固语和乌尔都语等主要语言，我们的基准考虑了印度次大陆语言多样性带来的独特挑战和机遇。该基准涵盖了语言理解、推理和生成等广泛任务，精心设计以捕捉印度语言的复杂性。IndicMMLU-Pro提供了一个标准化评估框架，推动印度语言人工智能研究的边界，促进更准确、高效和具有文化敏感性的模型的发展。本文概述了基准设计原则、任务分类法和数据收集方法，并展示了来自最先进多语言模型的基准结果。

道德故事：用于评估道德一致性的法语数据集
Histoires Morales: A French Dataset for Assessing Moral Alignment

Jan 28, 2025

Thibaud Leteno, Irina Proskurina, Antoine Gourru, Julien Velcin, Charlotte Laclau, Guillaume Metzler, Christophe Gravier

将语言模型与人类价值观对齐至关重要，特别是在它们越来越融入日常生活的情况下。虽然模型通常会根据用户偏好进行调整，但确保它们与现实社会情境中的道德规范和行为相一致同样重要。尽管在英语和中文等语言取得了显著进展，但法语在这方面受到的关注较少，导致我们对LLM在该语言中处理道德推理的方式了解不足。为填补这一空白，我们介绍了Histoires Morales，这是一个源自道德故事的法语数据集，通过翻译创建，并在后续通过母语者的协助进行了精炼，以确保语法准确性和适应法国文化背景。我们还依赖数据集中道德价值观的标注，以确保它们与法国规范相一致。Histoires Morales涵盖了各种社会情境，包括小费习惯的差异、在人际关系中的诚实表达以及对待动物的责任。为促进未来研究，我们还对多语言模型在法语和英语数据上的对齐以及对齐的稳健性进行了初步实验。我们发现，虽然LLM通常默认与人类道德规范一致，但它们很容易受到用户偏好优化的影响，无论是对道德还是不道德数据。

DeepFlow：规模化无服务器大型语言模型服务
DeepFlow: Serverless Large Language Model Serving at Scale

Jan 24, 2025

Junhao Hu, Jiang Xu, Zhixia Liu, Yulong He, Yuetao Chen, Hao Xu, Jiang Liu, Baoquan Zhang, Shining Wan, Gengyuan Dan, Zhiyu Dong, Zhihao Ren, Jie Meng, Chao He, Changhong Liu, Tao Xie, Dayun Lin, Qin Zhang, Yue Yu, Hao Feng, Xusheng Chen, Yizhou Shan

本文介绍了DeepFlow，这是一个可扩展且无服务器的人工智能平台，旨在在云环境中高效地为大型语言模型（LLMs）提供服务。DeepFlow通过四个主要设计组件解决了资源分配、服务效率和冷启动延迟等关键挑战。首先，它使用了一个简单的无服务器抽象，称为请求-作业-任务模型，有助于管理人工智能工作负载跨越后训练和模型服务任务。其次，它构建了一个内部服务引擎FlowServe，采用微内核设计、以NPU为中心的执行和基于SPMD的并行性，以优化LLM的服务。该系统还包括针对PD-分离和PD-共置配置量身定制的新型调度策略。通过预热的Pod、DRAM预加载和NPU分叉等优化，DeepFlow可以在几秒钟内扩展到64个实例。DeepFlow已经投入生产超过一年，运行在一个大型Ascend NPU集群上，并为我们的客户提供了行业标准的API，用于微调、代理服务和模型服务。