AI研究论文每日精选

每日精选AI研究论文及翻译

随着词汇量的增加而产生的规模定律：更大的模型应配备更大的词汇量
Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies

Jul 18

ByChaofan Tao, Qian Liu, Longxu Dou, Niklas Muennighoff, Zhongwei Wan, Ping Luo, Min Lin, Ngai Wong

大型语言模型（LLMs）的扩展研究主要集中在模型参数和训练数据规模上，忽视了词汇量的作用。直觉上，更大的词汇量能够通过用更少的标记表示句子来实现更高效的标记化，但也会增加对稀有标记拟合不足的风险。我们研究了词汇量如何影响LLM的扩展规律，通过在多达500B个字符上训练从33M到3B参数的模型，采用不同的词汇配置。我们提出了三种互补的方法来预测计算最优的词汇量：IsoFLOPs分析、导数估计和损失函数的参数拟合。我们的方法收敛于相同的结果，即最优的词汇量取决于可用的计算预算，并且更大的模型应该使用更大的词汇量。然而，大多数LLMs使用的词汇量都太小。例如，我们预测Llama2-70B的最佳词汇量至少应该为216K，比其32K的词汇量大7倍。我们通过在不同FLOPs预算下训练具有3B参数的模型来实证验证我们的预测。采用我们预测的最优词汇量一致地提高了常用词汇量的性能。通过将词汇量从传统的32K增加到43K，我们在相同的2.3e21 FLOPs下将ARC-Challenge的性能从29.1提高到32.0。我们的工作强调了联合考虑模型参数和词汇量以实现高效扩展的必要性。

利用万亿标记数据存储扩展基于检索的语言模型
Scaling Retrieval-Based Language Models with a Trillion-Token Datastore

Jul 9

ByRulin Shao, Jacqueline He, Akari Asai, Weijia Shi, Tim Dettmers, Sewon Min, Luke Zettlemoyer, Pang Wei Koh

关于训练数据量和参数数量的规模律使我们能够预测在不同配置下预训练语言模型（LMs）的成本效益权衡。本文考虑了另一个规模方面：推断时可用数据量。具体而言，我们发现通过增加检索型LM使用的数据存储大小，语言建模和多个下游任务均呈单调改善趋势，且没有明显饱和点，因此，一个较小的模型搭配一个大型数据存储在知识密集型任务上胜过仅有较大LM的模型。通过绘制计算最优规模曲线，其中数据存储、模型和预训练数据大小各异，我们展示了使用更大数据存储可以显著提升模型性能，而训练计算预算相同。我们通过构建一个名为MassiveDS的1.4万亿标记数据存储进行研究，这是迄今为止用于检索型LM的最大和最多样化的开源数据存储，并设计了一个高效的流水线，以便以计算可访问的方式研究数据存储规模。最后，我们分析了改进检索器、数据存储质量过滤和其他设计选择对我们观察到的规模趋势的影响。总体而言，我们的结果表明数据存储大小应被视为LM效率和性能权衡的一个重要组成部分。为促进未来研究，我们在https://github.com/RulinShao/retrieval-scaling 开源了我们的数据存储和代码。

将花岗岩代码模型扩展到128K上下文
Scaling Granite Code Models to 128K Context

Jul 18

ByMatt Stallone, Vaibhav Saxena, Leonid Karlinsky, Bridget McGinn, Tim Bula, Mayank Mishra, Adriana Meza Soria, Gaoyuan Zhang, Aditya Prasad, Yikang Shen, Saptha Surendran, Shanmukha Guttula, Hima Patel, Parameswaran Selvam, Xuan-Hong Dang, Yan Koyfman, Atin Sood, Rogerio Feris, Nirmit Desai, David D. Cox, Ruchir Puri, Rameswar Panda

本文介绍了支持长上下文窗口长达128K标记的Granite代码模型。我们针对将Granite 3B/8B代码模型的上下文长度从2K/4K扩展到128K的解决方案包括通过逐渐增加RoPE基础频率进行轻量级持续预训练，以及使用存储库级文件打包和长度上采样的长上下文数据。此外，我们还发布了针对长上下文支持的经过指令调整的模型，这些模型是通过在允许许可的短和长上下文指令-响应对上进一步微调长上下文基础模型得出的。与原始短上下文Granite代码模型相比，我们的长上下文模型在长上下文任务上取得了显著改进，在常规代码补全基准测试（例如HumanEval）上没有明显的性能下降。我们根据Apache 2.0许可发布了所有长上下文Granite代码模型，供研究和商业使用。

运动的形状：从单个视频进行的4D重建
Shape of Motion: 4D Reconstruction from a Single Video

Jul 18

ByQianqian Wang, Vickie Ye, Hang Gao, Jake Austin, Zhengqi Li, Angjoo Kanazawa

单目动态重建是一个具有挑战性且长期存在的视觉问题，这是由于任务的高度不适定性。现有方法存在局限性，要么依赖模板，只在准静态场景中有效，要么未能明确建模三维运动。在这项工作中，我们介绍了一种能够从随意拍摄的单目视频中重建通用动态场景的方法，具有显式的、完整序列长度的三维运动。我们通过两个关键见解来解决问题的不完全约束性：首先，我们利用三维运动的低维结构，通过用紧凑的SE3运动基组表示场景运动。每个点的运动被表达为这些基组的线性组合，有助于将场景软分解为多个刚性移动组。其次，我们利用包括单目深度图和长距离2D轨迹在内的全面数据驱动的先验，并设计了一种方法来有效整合这些嘈杂的监督信号，从而得到动态场景的全局一致表示。实验证明，我们的方法在长距离3D/2D运动估计和动态场景的新视角合成方面实现了最先进的性能。项目页面：https://shape-of-motion.github.io/

街景：使用自回归视频扩散实现大规模一致的街景生成
Streetscapes: Large-scale Consistent Street View Generation Using Autoregressive Video Diffusion

Jul 18

ByBoyang Deng, Richard Tucker, Zhengqi Li, Leonidas Guibas, Noah Snavely, Gordon Wetzstein

我们提出了一种生成街景的方法，通过即时合成的城市规模场景生成长序列的视图。我们的生成受语言输入（例如城市名称、天气）以及包含所需轨迹的基础地图/布局的条件约束。与最近用于视频生成或3D视图合成的模型相比，我们的方法可以扩展到跨越多个城市街区的更长范围摄像机轨迹，同时保持视觉质量和一致性。为实现这一目标，我们借鉴了最近关于视频扩散的研究成果，该成果应用于能够轻松扩展到长序列的自回归框架。具体而言，我们引入了一种新的时间插补方法，防止我们的自回归方法偏离真实城市图像的分布。我们在一个引人注目的数据来源上训练我们的街景系统，该数据来源是来自Google街景视图的图像，以及上下文地图数据，这使用户可以生成基于任何所需城市布局的城市视图，并具有可控摄像机姿势。请在我们的项目页面https://boyangdeng.com/streetscapes 上查看更多结果。

多模态大型语言模型可信度基准测试：一项全面研究
Benchmarking Trustworthiness of Multimodal Large Language Models: A Comprehensive Study

Jun 11

ByYichi Zhang, Yao Huang, Yitong Sun, Chang Liu, Zhe Zhao, Zhengwei Fang, Yifan Wang, Huanran Chen, Xiao Yang, Xingxing Wei, Hang Su, Yinpeng Dong, Jun Zhu

尽管多模式大型语言模型（MLLMs）在各种任务上具有出色的能力，但它们仍然面临着重大的可信度挑战。然而，目前关于可信MLLMs评估的文献仍然有限，缺乏全面评估以提供对未来改进的深入见解。在这项工作中，我们建立了MultiTrust，这是关于MLLMs可信度的第一个全面统一基准，涵盖了真实性、安全性、鲁棒性、公平性和隐私五个主要方面。我们的基准采用严格的评估策略，既考虑了多模态风险，也包括了交叉模态影响，涵盖了32个多样化任务和自定义数据集。通过对21个现代MLLMs进行广泛实验，揭示了一些以前未探索的可信度问题和风险，突显了多模态引入的复杂性，并强调了增强它们可靠性的先进方法的必要性。例如，典型的专有模型仍然难以识别视觉上混乱的图像，并容易受到多模态越狱和对抗性攻击的影响；MLLMs更倾向于在文本中泄露隐私，并在推理中揭示意识形态和文化偏见，即使与无关图像配对，也表明多模态放大了基本LLMs的内部风险。此外，我们发布了一个可扩展的工具箱，用于标准化可信度研究，旨在促进这一重要领域的未来进展。代码和资源可在以下网址公开获取：https://multi-trust.github.io/。

直接偏好优化中的参考策略理解
Understanding Reference Policies in Direct Preference Optimization

Jul 18

ByYixin Liu, Pengfei Liu, Arman Cohan

直接偏好优化（Direct Preference Optimization，DPO）已成为大型语言模型（LLMs）微调训练的广泛使用方法。在这项工作中，我们探讨了DPO的一个少为人知的方面 - 它对参考模型或策略的依赖性。这些参考策略通常被实例化为进一步微调的模型，因为它们可以对DPO的有效性施加上限，所以它们非常重要。因此，我们在这项工作中探讨了三个相关的研究问题。首先，我们探讨了KL散度约束在DPO中的最佳强度，该约束惩罚与参考策略的偏差，并发现DPO对这种强度非常敏感。接下来，我们通过理论和实证比较DPO与相关学习目标的必要性，来研究参考策略对微调的重要性，展示了DPO的优越性。此外，我们调查了DPO是否受益于更强的参考策略，发现更强的参考策略可以提高性能，但前提是它与待微调的模型相似。我们的研究突显了参考策略在DPO中的混淆作用，并为最佳实践提供了见解，同时也确定了未来研究的开放问题。

CLAY：一个可控的用于创建高质量3D资产的大规模生成模型
CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets

May 30

ByLongwen Zhang, Ziyu Wang, Qixuan Zhang, Qiwei Qiu, Anqi Pang, Haoran Jiang, Wei Yang, Lan Xu, Jingyi Yu

在数字创意领域，我们从想象中打造复杂的3D世界的潜力常常受到现有数字工具的限制，这些工具需要广泛的专业知识和努力。为了缩小这种差距，我们引入了CLAY，一个3D几何和材质生成器，旨在轻松将人类想象转化为复杂的3D数字结构。CLAY支持经典文本或图像输入，以及来自各种基元（多视图图像、体素、边界框、点云、隐式表示等）的3D感知控制。其核心是一个大规模生成模型，由多分辨率变分自动编码器（VAE）和一个简约的潜在扩散变换器（DiT）组成，可直接从各种3D几何中提取丰富的3D先验。具体而言，它采用神经场来表示连续完整的表面，并在潜在空间中使用具有纯变换器块的几何生成模块。我们提出了一个渐进式训练方案，通过精心设计的处理流程获得一个超大规模的3D模型数据集来训练CLAY，从而得到一个拥有15亿参数的3D本地几何生成器。对于外观生成，CLAY旨在通过采用多视图材质扩散模型生成基于物理的渲染（PBR）纹理，可以生成包含漫反射、粗糙度和金属度模式的2K分辨率纹理。我们展示了如何使用CLAY进行一系列可控的3D资产创建，从草图概念设计到具有复杂细节的生产就绪资产。即使是首次用户也可以轻松使用CLAY将他们生动的3D想象变为现实，释放无限创造力。

BRIGHT：一个逼真且具有挑战性的基准，用于依赖推理的检索。
BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval

Jul 16

ByHongjin Su, Howard Yen, Mengzhou Xia, Weijia Shi, Niklas Muennighoff, Han-yu Wang, Haisu Liu, Quan Shi, Zachary S. Siegel, Michael Tang, Ruoxi Sun, Jinsung Yoon, Sercan O. Arik, Danqi Chen, Tao Yu

现有的检索基准主要由信息检索查询（例如，来自搜索引擎的聚合问题）组成，其中关键词或基于语义的检索通常足够。然而，许多复杂的现实世界查询需要深入推理，以识别超出表面形式匹配的相关文档。例如，查找编程问题的文档需要理解涉及的函数的逻辑和语法。为了更好地在这些具有挑战性的查询上进行检索基准测试，我们介绍了BRIGHT，这是第一个需要进行深入推理才能检索相关文档的文本检索基准。BRIGHT由来自不同领域（如经济学、心理学、机器人技术、软件工程、地球科学等）收集的1,398个现实世界查询构建而成，这些查询来源于自然发生或经过精心筛选的人类数据。广泛的评估显示，即使是最先进的检索模型在BRIGHT上表现不佳。在MTEB排行榜上领先的模型[38]，在MTEB上取得了59.0的nDCG@10分数，在BRIGHT上仅获得了18.0的nDCG@10分数。我们进一步证明，通过使用大型语言模型（LLMs）生成的Chain-of-Thought推理来增强查询，性能可以提高多达12.2个点。此外，BRIGHT对于基准模型的预训练期间的数据泄漏具有鲁棒性，我们通过验证表明，即使将基准中的文档包含在训练数据中，性能也相似。我们相信BRIGHT为未来在更现实和具有挑战性的环境中的检索系统研究铺平了道路。我们的代码和数据可在https://brightbenchmark.github.io上获得。

CodeV：通过多层摘要为LLMs生成Verilog的增强
CodeV: Empowering LLMs for Verilog Generation through Multi-Level Summarization

Jul 15

ByYang Zhao, Di Huang, Chongxiao Li, Pengwei Jin, Ziyuan Nan, Tianyun Ma, Lei Qi, Yansong Pan, Zhenxing Zhang, Rui Zhang, Xishan Zhang, Zidong Du, Qi Guo, Xing Hu, Yunji Chen

随着现代处理器设计日益复杂和成本高昂，导致了对处理器设计自动化的需求激增。针对通用编程语言如Python等，经过指令调优的大型语言模型（LLMs）已经展示出在自动生成代码方面的显著性能。然而，这些方法在硬件描述语言（HDLs）如Verilog上表现不佳，原因在于缺乏高质量的指令调优数据，即使像GPT-3.5这样的先进LLMs在Verilog生成方面也表现有限。针对这一问题，我们观察到：（1）从现实世界收集的Verilog代码质量高于LLMs生成的代码；（2）像GPT-3.5这样的LLMs擅长总结Verilog代码而非生成它。基于这些观察，本文介绍了CodeV，一系列开源的经指令调优的Verilog生成LLMs。我们不再首先生成描述，然后从先进的LLMs获取相应代码，而是用Verilog代码提示LLMs，并让LLMs通过多级摘要生成相应的自然语言描述。实验结果显示，CodeV在VerilogEval中相对于之前的开源SOTA（VerilogEval中的BetterV）和RTLLM中的RTLCoder分别提升了14.4%和11.3%，并且在VerilogEval中相对于之前的商业SOTA GPT-4提升了22.1%。

注意力溢出：长上下文期间语言模型输入模糊缺失项目推荐
Attention Overflow: Language Model Input Blur during Long-Context Missing Items Recommendation

Jul 18

ByDamien Sileo

大型语言模型（LLMs）可以从提示中列出的项目中提供建议缺失的元素，这可以用于完成列表或基于用户历史记录进行推荐。然而，当呈现太多项目时，它们的性能会下降，因为它们开始建议已包含在输入列表中的项目。这种情况在2024年中期的旗舰LLMs中大约100个项目时发生。我们在合成问题（例如，在打乱的整数范围中查找缺失数字）和现实电影推荐场景中评估了这种现象。我们将这个问题称为注意力溢出，因为防止重复需要同时关注所有项目。尽管迭代循环可以减轻这个问题，但它们的成本随着重复率的增加而增加，影响语言模型从冗长输入中提取新颖性的能力。

检索增强机器学习：综合与机遇
Retrieval-Enhanced Machine Learning: Synthesis and Opportunities

Jul 17

ByTo Eun Kim, Alireza Salemi, Andrew Drozdov, Fernando Diaz, Hamed Zamani

在语言建模领域，增加检索组件的模型已经成为解决自然语言处理（NLP）领域面临的多个挑战的一种有前途的解决方案，其中包括知识基础、可解释性和可扩展性。尽管主要关注于NLP，我们认为检索增强范式可以扩展到更广泛的机器学习（ML）领域，如计算机视觉、时间序列预测和计算生物学。因此，本文通过综合各个ML领域的文献，引入了一个正式的框架，即检索增强机器学习（REML）范式，并使用一致的符号表示，这在当前文献中尚未涉及。此外，我们发现，虽然许多研究采用检索组件来增强其模型，但缺乏与基础信息检索（IR）研究的整合。我们通过研究构成REML框架的每个组件，弥合了开创性IR研究与当代REML研究之间的差距。最终，本研究的目标是为各个学科的研究人员提供一个全面、形式化结构的检索增强模型框架，从而促进跨学科未来研究的发展。

自动编码医学信函的可解释性比较研究
A Comparative Study on Automatic Coding of Medical Letters with Explainability

Jul 18

ByJamie Glen, Lifeng Han, Paul Rayson, Goran Nenadic

本研究旨在探索自然语言处理（NLP）和机器学习（ML）技术在医学信函编码自动化方面的应用，实现可视化解释性和轻量级本地计算机设置。目前在临床环境中，编码是一个手动过程，涉及为患者文件中的每种病症、程序和药物分配代码（例如，使用SNOMED CT代码的56265001心脏病）。在这一领域已经有关于使用最先进的ML模型进行自动编码的初步研究；然而，由于模型的复杂性和规模，尚未实现在现实世界中的部署。为进一步促进自动编码实践的可能性，我们在本地计算机设置中探索了一些解决方案；此外，我们探讨了解释性功能以透明化AI模型。我们使用了公开可用的MIMIC-III数据库和HAN/HLAN网络模型进行ICD代码预测。我们还尝试了ICD和SNOMED CT知识库之间的映射。在我们的实验中，模型为97.98%的代码提供了有用信息。这项研究的结果可以为在实践中实现自动临床编码提供一些启示，例如在医院环境中，临床医生使用的本地计算机上，项目页面https://github.com/Glenj01/Medical-Coding。

基准一致性测试的正确实施：LLM基准评估指南
Benchmark Agreement Testing Done Right: A Guide for LLM Benchmark Evaluation

Jul 18

ByYotam Perlitz, Ariel Gera, Ofir Arviv, Asaf Yehudai, Elron Bandel, Eyal Shnarch, Michal Shmueli-Scheuer, Leshem Choshen

最近语言模型（LMs）的进展推动了多个基准的创建，旨在评估这些模型的通用能力。然而，一个关键任务是评估基准本身的有效性。这通常通过基准一致性测试（BAT）来完成，新基准会使用某种一致性度量（例如，排名相关性）与已建立的基准进行验证。尽管BAT对于基准的构建者和用户至关重要，但目前尚无针对此类一致性测试的标准化程序。这种不足可能导致无效结论的产生，从而引发对基准的不信任，并破坏了正确选择适当基准的能力。通过分析超过40个知名基准，我们展示了一些被忽视的方法选择如何显著影响BAT结果，潜在地削弱结论的有效性。为解决这些不一致性，我们提出了一套BAT最佳实践，并展示了如何利用这些方法显著提高BAT的稳健性和有效性。为促进采用和促进未来研究，我们推出了BenchBench，一个用于BAT的Python软件包，并发布了BenchBench排行榜，一个元基准，旨在使用同行评估基准。我们的研究结果强调了标准化BAT的必要性，确保在语言模型研究不断发展的背景下基准评估的稳健性和有效性。 BenchBench软件包：https://github.com/IBM/BenchBench 排行榜：https://huggingface.co/spaces/per/BenchBench

PM-LLM-Benchmark：在过程挖掘任务上评估大型语言模型
PM-LLM-Benchmark: Evaluating Large Language Models on Process Mining Tasks

Jul 18

ByAlessandro Berti, Humam Kourani, Wil M. P. van der Aalst

大型语言模型（LLMs）有潜力在一些过程挖掘（PM）分析中实现半自动化。虽然商业模型已经足够满足许多分析任务的需求，但开源LLMs在PM任务中的竞争水平尚不明确。本文提出了PM-LLM-Benchmark，这是首个专注于领域知识（过程挖掘特定和过程特定）以及不同实现策略的PM全面基准。我们还关注创建这样一个基准所面临的挑战，包括数据的公开可用性以及LLMs可能存在的评估偏见。总体而言，我们观察到大多数考虑的LLMs能够以令人满意的水平执行一些过程挖掘任务，但在边缘设备上运行的微小模型仍然不足够。我们还得出结论，虽然所提出的基准对于识别适合进行过程挖掘任务的LLMs很有用，但需要进一步研究来克服评估偏见，并对竞争LLMs进行更全面的排名。