AI研究论文每日精选

每日精选AI研究论文及翻译

构建视觉-语言模型时需要考虑哪些因素？
What matters when building vision-language models?

May 3

ByHugo Laurençon, Léo Tronchon, Matthieu Cord, Victor Sanh

103

对视觉语言模型（VLMs）日益增长的兴趣是由于大型语言模型和视觉Transformer的改进。尽管关于这一主题的文献丰富，但我们观察到关于VLM设计的关键决策通常缺乏合理的论证。我们认为这些不受支持的决定阻碍了该领域的进展，因为很难确定哪些选择会提高模型性能。为了解决这一问题，我们围绕预训练模型、架构选择、数据和训练方法进行了大量实验。我们的研究成果包括开发了Idefics2，一个拥有80亿参数的高效基础VLM。Idefics2在各种多模态基准测试中实现了同类规模中的最新性能，并且通常与其四倍大小的模型不相上下。我们发布了该模型（基础、指导和聊天版本），以及为其训练创建的数据集。

RLHF 工作流程：从奖励建模到在线 RLHF
RLHF Workflow: From Reward Modeling to Online RLHF

May 13

ByHanze Dong, Wei Xiong, Bo Pang, Haoxiang Wang, Han Zhao, Yingbo Zhou, Nan Jiang, Doyen Sahoo, Caiming Xiong, Tong Zhang

在本技术报告中，我们介绍了在线迭代强化学习从人类反馈（RLHF）的工作流程，据广泛报道，它在最近的大型语言模型（LLM）文献中远远优于其离线对应物。然而，现有的开源RLHF项目仍然主要局限于离线学习环境。在本技术报告中，我们旨在填补这一空白，并提供一个易于复现的在线迭代RLHF详细步骤。特别是，由于在线人类反馈通常对于资源有限的开源社区来说是不可行的，我们首先使用各种开源数据集构建偏好模型，并使用构建的代理偏好模型来近似人类反馈。然后，我们讨论在线迭代RLHF背后的理论见解和算法原理，接着是详细的实际实现。我们训练的LLM，SFR-Iterative-DPO-LLaMA-3-8B-R，在LLM聊天机器人基准测试中表现出色，包括AlpacaEval-2、Arena-Hard和MT-Bench，以及其他学术基准测试，如HumanEval和TruthfulQA。我们已经证明，监督微调（SFT）和迭代RLHF可以利用完全开源数据集获得最先进的性能。此外，我们已经公开提供了我们的模型、策划数据集和详细的逐步代码指南。更多详细信息，请参阅https://github.com/RLHFlow/RLHF-Reward-Modeling 和 https://github.com/RLHFlow/Online-RLHF。

SUTRA：可扩展多语言语言模型架构
SUTRA: Scalable Multilingual Language Model Architecture

May 7

ByAbhijit Bendale, Michael Sapienza, Steven Ripplinger, Simon Gibbs, Jaewon Lee, Pranav Mistry

本文介绍了SUTRA，一种多语言大型语言模型架构，能够理解、推理和生成50多种语言的文本。SUTRA的设计独特地将核心概念理解与特定语言处理分离，从而促进了可扩展和高效的多语言对齐和学习。在语言和概念处理中都采用了专家混合框架，SUTRA展现出了计算效率和响应能力。通过广泛的评估，证明SUTRA在领先的大规模多任务语言理解（MMLU）基准测试中比现有模型如GPT-3.5、Llama2提高了20-30%的多语言任务表现。SUTRA模型也是在线LLM，可以利用互联网知识提供无幻觉、事实和最新回应，同时保持多语言能力。此外，我们探讨了其架构对未来多语言人工智能的广泛影响，强调其潜力在全球范围内使人工智能技术民主化，并改善在主要使用非英语语言的地区中人工智能的公平性和实用性。我们的研究结果表明，SUTRA不仅填补了多语言模型能力的关键空白，还为人工智能应用的运行效率和可扩展性建立了新的基准。

SambaNova SN40L：通过数据流和专家组合扩展人工智能内存墙
SambaNova SN40L: Scaling the AI Memory Wall with Dataflow and Composition of Experts

May 13

ByRaghu Prabhakar, Ram Sivaramakrishnan, Darshan Gandhi, Yun Du, Mingran Wang, Xiangyu Song, Kejie Zhang, Tianren Gao, Angela Wang, Karen Li, Yongning Sheng, Joshua Brot, Denis Sokolov, Apurv Vivek, Calvin Leung, Arjun Sabnis, Jiayu Bai, Tuowen Zhao, Mark Gottscho, David Jackson, Mark Luttrell, Manish K. Shah, Edison Chen, Kaizhao Liang, Swayambhoo Jain, Urmish Thakker, Dawei Huang, Sumti Jairath, Kevin J. Brown, Kunle Olukotun

像GPT-4这样的单体大型语言模型(LLMs)为现代生成式人工智能应用铺平了道路。然而，在规模上训练、提供服务和维护单体LLMs仍然成本高昂且具有挑战性。现代人工智能加速器计算与内存比例的不成比例增长造成了内存墙，迫使采用新方法部署人工智能。专家组合（CoE）是一种降低训练和提供服务成本和复杂性的替代模块化方法。然而，这种方法在使用传统硬件时存在两个关键挑战：(1) 在没有融合操作的情况下，较小的模型具有较低的操作强度，这使得更难实现高利用率；(2) 托管大量模型可能要么成本高昂，要么在动态切换之间速度慢。在本文中，我们描述了如何结合CoE、流式数据流和三层内存系统来扩展人工智能内存墙。我们描述了Samba-CoE，这是一个具有150个专家和一万亿总参数的CoE系统。我们将Samba-CoE部署在SambaNova SN40L可重构数据流单元（RDU）上，这是一种商用数据流加速器架构，专为企业推理和训练应用而共同设计。该芯片引入了一个新的三层内存系统，包括片上分布式SRAM、封装HBM和片外DDR DRAM。专用的RDU网络使其能够在多个插槽上进行扩展。我们展示了在八个RDU插槽上运行各种基准测试时，与未融合的基准相比，速度提升从2倍到13倍不等。我们表明，对于CoE推理部署，8个插槽的RDU节点可以将机器占地面积减少高达19倍，将模型切换时间加快15倍至31倍，并在DGX H100上实现整体速度提升3.7倍，在DGX A100上实现整体速度提升6.6倍。

MS MARCO Web Search：一个包含数百万真实点击标签的大规模信息丰富的网络数据集
MS MARCO Web Search: a Large-scale Information-rich Web Dataset with Millions of Real Click Labels

May 13

ByQi Chen, Xiubo Geng, Corby Rosset, Carolyn Buractaon, Jingwen Lu, Tao Shen, Kun Zhou, Chenyan Xiong, Yeyun Gong, Paul Bennett, Nick Craswell, Xing Xie, Fan Yang, Bryan Tower, Nikhil Rao, Anlei Dong, Wenqi Jiang, Zheng Liu, Mingqin Li, Chuanjie Liu, Zengzhong Li, Rangan Majumder, Jennifer Neville, Andy Oakley, Knut Magne Risvik, Harsha Vardhan Simhadri, Manik Varma, Yujing Wang, Linjun Yang, Mao Yang, Ce Zhang

最近大型模型的突破强调了数据规模、标签和模态的关键重要性。在本文中，我们介绍了 MS MARCO Web Search，这是第一个大规模信息丰富的网络数据集，包含数百万真实点击的查询-文档标签。该数据集紧密模拟了真实世界的网络文档和查询分布，为各种下游任务提供丰富信息，鼓励在各个领域进行研究，如通用端到端神经检索器模型、通用嵌入模型以及具有大型语言模型的下一代信息访问系统。MS MARCO Web Search 提供了一个检索基准，包括三个网络检索挑战任务，需要在机器学习和信息检索系统研究领域进行创新。作为满足大规模、真实和丰富数据需求的第一个数据集，MS MARCO Web Search 为未来在人工智能和系统研究领域的进展铺平了道路。MS MARCO Web Search 数据集可在以下链接获取：https://github.com/microsoft/MS-MARCO-Web-Search。

Piccolo2：多任务混合损失训练的通用文本嵌入
Piccolo2: General Text Embedding with Multi-task Hybrid Loss Training

May 11

ByJunqin Huang, Zhongjie Hu, Zihao Jing, Mengya Gao, Yichao Wu

在本报告中，我们介绍了Piccolo2，这是一个嵌入模型，在CMTEB基准测试的6个任务上的综合评估中超越了其他模型，创造了新的技术水平。Piccolo2主要利用高效的多任务混合损失训练方法，有效地利用来自不同下游任务的文本数据和标签。此外，Piccolo2扩展了嵌入维度，并使用MRL训练来支持更灵活的向量维度。有关piccolo模型的最新信息，请访问：https://huggingface.co/sensenova/

Plot2Code：一个全面的基准，用于评估多模态大型语言模型在从科学图表生成代码方面的表现。
Plot2Code: A Comprehensive Benchmark for Evaluating Multi-modal Large Language Models in Code Generation from Scientific Plots

May 13

ByChengyue Wu, Yixiao Ge, Qiushan Guo, Jiahao Wang, Zhixuan Liang, Zeyu Lu, Ying Shan, Ping Luo

多模态大型语言模型（MLLMs）取得了显著进展，由于在视觉环境中表现出色，因此引起了广泛关注。然而，它们在将视觉图转换为可执行代码方面的能力尚未得到充分评估。为了解决这一问题，我们引入了Plot2Code，这是一个全面的视觉编码基准，旨在公平、深入地评估MLLMs。我们精心收集了来自公开可用的matplotlib库的六种图表类型中共132个手动选择的高质量绘图。对于每个图表，我们仔细提供其源代码，并由GPT-4总结的描述性指令。这种方法使Plot2Code能够全面评估MLLMs在各种输入模态下的代码能力。此外，我们提出了三个自动评估指标，包括代码通过率、文本匹配比和GPT-4V整体评分，用于对输出代码和渲染图像进行细致评估。我们不仅仅是判断通过或失败，而是利用GPT-4V对生成的图像与参考图像进行整体评判，这已被证明与人类评估一致。评估结果包括对14个MLLMs的分析，如专有的GPT-4V、Gemini-Pro和开源的Mini-Gemini，突显了Plot2Code所面临的重大挑战。通过Plot2Code，我们揭示了大多数现有MLLMs在处理文本密集图表的视觉编码方面存在困难，严重依赖文本指令。我们希望Plot2Code对视觉编码的评估结果能指导MLLMs未来的发展。Plot2Code涉及的所有数据均可在https://huggingface.co/datasets/TencentARC/Plot2Code上获得。

LogoMotion：面向内容感知动画的视觉引导代码生成
LogoMotion: Visually Grounded Code Generation for Content-Aware Animation

May 11

ByVivian Liu, Rubaiat Habib Kazi, Li-Yi Wei, Matthew Fisher, Timothy Langlois, Seth Walker, Lydia Chilton

动画标志是个人和品牌在线展示自己的一种引人注目且普遍的方式。手动制作这些标志可能需要相当大的艺术技巧和努力。为了帮助新手设计师制作动画标志，设计工具目前提供模板和动画预设。然而，这些解决方案在表现范围上可能受限。大型语言模型有潜力帮助新手设计师通过生成针对其内容定制的动画代码来创建动画标志。在本文中，我们介绍了一种基于LLM的系统LogoMotion，它接收分层文档并通过视觉基础程序合成生成动画标志。我们介绍了创建画布的HTML表示、识别主要和次要元素、合成动画代码以及视觉调试动画错误的技术。与行业标准工具相比，我们发现LogoMotion生成的动画在内容意识方面更胜一筹，并在质量上不相上下。最后，我们讨论了LLM生成动画对动态设计的影响。

大型语言模型作为规划领域生成器
Large Language Models as Planning Domain Generators

Apr 2

ByJames Oswald, Kavitha Srinivas, Harsha Kokel, Junkyu Lee, Michael Katz, Shirin Sohrabi

在AI规划中，开发领域模型是仅存的几个需要人工劳动的地方之一。因此，为了使规划更易于访问，自动化领域模型生成的过程是可取的。为此，我们研究了大型语言模型（LLMs）是否可以用于从简单的文本描述中生成规划领域模型。具体来说，我们引入了一个框架，通过比较领域实例的计划集来自动评估LLM生成的领域。最后，我们对7个大型语言模型进行了实证分析，包括跨9个不同规划领域的编码和聊天模型，以及三类自然语言领域描述。我们的结果表明，LLMs，特别是参数数量较高的模型，表现出从自然语言描述中生成正确规划领域的中等水平的熟练程度。我们的代码可在 https://github.com/IBM/NL2PDDL 找到。