AI研究论文每日精选

每日精选AI研究论文及翻译

RedPajama：用于训练大型语言模型的开放数据集
RedPajama: an Open Dataset for Training Large Language Models

Nov 19

ByMaurice Weber, Daniel Fu, Quentin Anthony, Yonatan Oren, Shane Adams, Anton Alexandrov, Xiaozhong Lyu, Huu Nguyen, Xiaozhe Yao, Virginia Adams, Ben Athiwaratkun, Rahul Chalamala, Kezhen Chen, Max Ryabinin, Tri Dao, Percy Liang, Christopher Ré, Irina Rish, Ce Zhang

大型语言模型正日益成为人工智能、科学和整个社会的基石技术，然而有关数据集构成和过滤的最佳策略仍然大多数情况下难以捉摸。许多表现最佳的模型在数据集策划和模型开发过程中缺乏透明度，这对于全面开放的语言模型的发展构成了障碍。本文中，我们确定了必须解决的三个核心与数据相关的挑战，以推动开源语言模型的发展。这些挑战包括：（1）模型开发中的透明度，包括数据策划过程，（2）获取大量高质量数据，以及（3）数据集策划和分析的文物和元数据的可用性。为了解决这些挑战，我们发布了RedPajama-V1，LLaMA训练数据集的开放复制品。此外，我们发布了RedPajama-V2，一个庞大的仅限网络的数据集，包含原始、未经过滤的文本数据，以及质量信号和元数据。这两个RedPajama数据集共涵盖超过100万亿标记，涵盖多个领域，其质量信号有助于数据的过滤，旨在激发众多新数据集的开发。迄今为止，这些数据集已被用于训练用于生产的强大语言模型，如Snowflake Arctic、Salesforce的XGen和AI2的OLMo。为了提供关于RedPajama质量的见解，我们使用高达16亿参数的仅解码器语言模型进行了一系列分析和消融研究。我们的发现表明，网络数据的质量信号可以有效利用，以策划数据集的高质量子集，突显了RedPajama在推动透明和高性能语言模型大规模发展方面的潜力。

FlipSketch：将静态图形翻转为文本引导的草图动画
FlipSketch: Flipping Static Drawings to Text-Guided Sketch Animations

Nov 16

ByHmrishav Bandyopadhyay, Yi-Zhe Song

素描动画为视觉叙事提供了强大的媒介，从简单的翻页手绘到专业的工作室制作。传统动画需要一支技艺娴熟的艺术家团队来绘制关键帧和中间帧，而现有的自动化尝试仍然需要通过精确的运动路径或关键帧规范来投入大量艺术工作。我们提出了FlipSketch，这是一个系统，它带回了翻页手绘动画的魔力--只需绘制您的想法并描述您希望它如何移动！我们的方法利用文本到视频扩散模型中的运动先验，通过三个关键创新来生成素描动画：(i) 为素描风格帧生成进行微调，(ii) 通过噪声细化保留输入素描的视觉完整性的参考帧机制，以及(iii) 一种双重注意力组合，实现流畅运动而不失视觉一致性。与受限的矢量动画不同，我们的光栅帧支持动态素描变换，捕捉了传统动画的表现自由。其结果是一个直观的系统，使素描动画变得像涂鸦和描述一样简单，同时保持了手绘动画的艺术本质。

SymDPO：基于符号演示直接偏好优化增强大型多模态模型的上下文学习能力
SymDPO: Boosting In-Context Learning of Large Multimodal Models with Symbol Demonstration Direct Preference Optimization

Nov 17

ByHongrui Jia, Chaoya Jiang, Haiyang Xu, Wei Ye, Mengfan Dong, Ming Yan, Ji Zhang, Fei Huang, Shikun Zhang

随着语言模型规模的持续扩大，大型语言模型（LLMs）在上下文学习（ICL）中展现出新兴能力，能够通过前置少量上下文示例（ICDs）作为语境来解决语言任务。受这些进展启发，研究者将此类技术拓展至多模态领域，开发出具备上下文学习能力的大型多模态模型（LMMs）。然而，现有LMMs面临一个关键问题：它们往往难以有效利用多模态示例中的视觉上下文，而只是简单地遵循文本模式。这表明LMMs尚未实现多模态示例与模型输出之间的有效对齐。为解决这一问题，我们提出符号演示直接偏好优化（SymDPO）。具体而言，SymDPO通过用随机符号替换示例中的文本答案，旨在打破构建多模态示例的传统范式。这种方法迫使模型深入理解演示图像，并建立图像与符号之间的关联以正确回答问题。我们在多个基准测试上验证了该方法的有效性，结果表明采用SymDPO的LMMs能更有效地理解示例中的多模态上下文，并利用这些知识更好地回答问题。

连续推测解码用于自回归图像生成
Continuous Speculative Decoding for Autoregressive Image Generation

Nov 18

ByZili Wang, Robert Zhang, Kun Ding, Qi Yang, Fei Li, Shiming Xiang

连续值自回归（AR）图像生成模型已经显示出明显优势，优于其离散令牌对应物，展示出相当的重建质量和更高的生成保真度。然而，自回归框架的计算需求导致了显著的推断开销。虽然推测解码已被证明对加速大型语言模型（LLMs）有效，但将其应用于连续值视觉自回归模型尚未被探索。本文将推测解码算法从离散令牌推广到连续空间。通过分析输出分布的固有特性，我们为这类模型中普遍存在的扩散分布建立了定制的接受标准。为了克服推测解码输出分布中出现的不一致性，我们引入了去噪轨迹对齐和令牌预填充方法。此外，我们确定了拒绝阶段中难以采样的分布。为了缓解这个问题，我们提出了一种细致的接受-拒绝采样方法，设定适当的上界，从而避免复杂的积分。实验结果表明，我们的连续推测解码在现成模型上实现了显著的2.33倍加速，同时保持了输出分布。代码将在 https://github.com/MarkXCloud/CSpD 上提供。

ITACLIP：通过图像、文本和架构增强提升无需训练的语义分割
ITACLIP: Boosting Training-Free Semantic Segmentation with Image, Text, and Architectural Enhancements

Nov 18

ByM. Arda Aydın, Efe Mert Çırpar, Elvin Abdinli, Gozde Unal, Yusuf H. Sahin

最近在基础视觉语言模型（VLMs）方面取得的进展已经重塑了计算机视觉任务的评估范式。这些基础模型，尤其是CLIP，加速了对开放词汇计算机视觉任务的研究，包括开放词汇语义分割（OVSS）。尽管最初的结果令人鼓舞，但VLMs的密集预测能力仍需要进一步改进。在这项研究中，我们通过引入新模块和修改来增强CLIP的语义分割性能： 1）在ViT的最后一层进行架构更改，并将中间层的注意力图与最后一层结合， 2）图像工程：应用数据增强来丰富输入图像表示， 3）使用大型语言模型（LLMs）为每个类别名称生成定义和同义词，以利用CLIP的开放词汇能力。我们的无需训练的方法，ITACLIP，在诸如COCO-Stuff、COCO-Object、Pascal Context和Pascal VOC等分割基准测试中胜过当前的最先进方法。我们的代码可在https://github.com/m-arda-aydn/ITACLIP 找到。

建立信任：人工智能安全、安全性和透明度的基础
Building Trust: Foundations of Security, Safety and Transparency in AI

Nov 19

ByHuzaifa Sidhpurwala, Garth Mollett, Emily Fox, Mark Bestavros, Huamin Chen

本文探讨了公开可用人工智能模型生态系统迅速发展的情况，以及它们对安全和安全领域的潜在影响。随着人工智能模型变得日益普及，了解它们潜在的风险和漏洞至关重要。我们审查了当前的安全和安全场景，同时强调了诸如跟踪问题、补救措施以及人工智能模型生命周期和所有权流程明显缺失等挑战。提出了增强模型开发者和最终用户安全性和安全性的全面策略。本文旨在为更加标准化的人工智能模型开发和运行中的安全、安全和透明度提供一些基础性支持，并围绕其形成的更大规模的开放生态系统和社区。

软体机器人动态手持笔旋转
Soft Robotic Dynamic In-Hand Pen Spinning

Nov 19

ByYunchao Yao, Uksang Yoo, Jean Oh, Christopher G. Atkeson, Jeffrey Ichnowski

软机器人系统在安全的柔性交互方面表现出优势，但在高速动态任务方面存在困难，特别是在手部动态操作方面。本文介绍了一种名为SWIFT的系统，用于学习使用软性和柔顺机械手执行动态任务。与先前依赖模拟、准静态动作和精确物体模型的工作不同，所提出的系统通过试错学习旋转笔，仅利用真实世界数据，无需明确先验知识即可了解笔的物理属性。通过从真实世界中采样的自标记试验，系统发现了一组笔抓握和旋转基本参数，使柔性手能够稳健可靠地旋转笔。在每个物体进行了130次采样动作后，SWIFT在三支不同重量和重量分布的笔上实现了100%的成功率，展示了系统对物体属性变化的泛化能力和稳健性。结果突显了软性机器人末端执行器执行动态任务（包括快速手部操作）的潜力。我们还展示了SWIFT可以泛化到旋转具有不同形状和重量的物品，如刷子和螺丝刀，分别以10/10和5/10的成功率旋转。视频、数据和代码可在https://soft-spin.github.io获取。

SEAGULL：基于视觉语言指导调整的感兴趣区域无参考图像质量评估
SEAGULL: No-reference Image Quality Assessment for Regions of Interest via Vision-Language Instruction Tuning

Nov 15

ByZewen Chen, Juan Wang, Wen Wang, Sunhan Xu, Hang Xiong, Yun Zeng, Jian Guo, Shuxun Wang, Chunfeng Yuan, Bing Li, Weiming Hu

现有的图像质量评估（IQA）方法在分析整体图像质量方面取得了显著成功，但很少有研究探讨感兴趣区域（ROIs）的质量分析。ROIs的质量分析可以为图像质量改进提供细致的指导，在侧重于区域级质量的场景中至关重要。本文提出了一种新颖的网络，SEAGULL，它可以利用大型视觉-语言模型的指导来查看和评估ROIs的质量。SEAGULL整合了一个视觉-语言模型（VLM）、由Segment Anything Model（SAM）生成的掩模以指定ROIs，以及一个精心设计的基于掩模的特征提取器（MFE）来提取指定ROIs的全局和局部标记，实现对ROIs的准确细粒度IQA。此外，本文构建了两个基于ROI的IQA数据集，SEAGULL-100w和SEAGULL-3k，用于训练和评估基于ROI的IQA。SEAGULL-100w包括约100w个合成失真图像，其中包含3300万个ROIs，用于预训练以提高模型对区域质量感知的能力，而SEAGULL-3k包含约3k个真实失真ROIs，以增强模型感知真实世界失真的能力。在SEAGULL-100w上进行预训练并在SEAGULL-3k上进行微调后，SEAGULL在细粒度ROI质量评估方面表现出色。代码和数据集可在https://github.com/chencn2020/Seagull 上公开获取。

评估大型语言模型在印度官方语言中的分词器性能
Evaluating Tokenizer Performance of Large Language Models Across Official Indian Languages

Nov 19

ByS. Tamang, D. J. Bora

基于Transformer架构的大型语言模型(LLMs)已经在各个领域引起了革命，而标记化在它们的预处理和微调阶段中起着至关重要的作用。在多语言模型中，特别是针对印度语言定制的模型中，有效的标记化对于优化性能至关重要。本文对12个LLMs使用的分词器在印度的所有22种官方语言中进行了全面评估，重点比较它们标记化过程的效率。我们采用了归一化序列长度（NSL）作为我们分析的关键指标。我们的研究结果显示，SUTRA分词器在14种语言中表现优异，胜过所有其他模型，包括几个针对印度语言的模型。值得注意的见解包括SUTRA分词器在处理印度语言方面的卓越表现，GPT-4o相对于其前身GPT-4在处理印度语言方面的进步，以及Project Indus在某些语言中的有限性能。这项研究强调了为多语言和以印度语为中心的模型开发定向标记化策略的重要性，为未来改进分词器设计以增强语言覆盖范围和模型效率奠定了基础。