AI研究论文每日精选

每日精选AI研究论文及翻译

普罗米修斯2：专精于评估其他语言模型的开放源代码语言模型
Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models

May 2

BySeungone Kim, Juyoung Suk, Shayne Longpre, Bill Yuchen Lin, Jamin Shin, Sean Welleck, Graham Neubig, Moontae Lee, Kyungjae Lee, Minjoon Seo

124

诸如GPT-4等专有语言模型常被用于评估各类语言模型的应答质量。然而，透明度、可控性及成本效益等方面的顾虑强烈推动了专门用于评估的开源语言模型的研发。现有开源评估模型存在明显缺陷：1）其评分与人类评分存在显著偏差；2）缺乏同时执行直接评估和配对排序（两种最主流评估形式）的灵活性。此外，这些模型无法基于定制化评估标准进行评判，仅能聚焦于帮助性、无害性等通用属性。为解决这些问题，我们推出Prometheus 2——相较于前代更强大的评估语言模型，其评估结果与人类及GPT-4的判断高度吻合。该模型不仅能处理直接评估和配对排序两种模式，还可结合用户自定义的评估标准进行综合分析。在四项直接评估基准和四项配对排序基准测试中，Prometheus 2在所有开源评估模型中取得了与人类及专有模型评估者最高的相关性评分和一致率。我们的模型、代码及数据均已公开于https://github.com/prometheus-eval/prometheus-eval。

LoRA Land：310个媲美GPT-4的微调大语言模型技术报告
LoRA Land: 310 Fine-tuned LLMs that Rival GPT-4, A Technical Report

Apr 29

ByJustin Zhao, Timothy Wang, Wael Abid, Geoffrey Angus, Arnav Garg, Jeffery Kinnison, Alex Sherstinsky, Piero Molino, Travis Addair, Devvret Rishi

122

低秩自适应（LoRA）已成为大语言模型（LLM）参数高效微调（PEFT）中最广泛采用的方法之一。该方法在保持与全参数微调相当性能的同时，显著减少了可训练参数数量和内存占用。本研究旨在评估基于LoRA微调的LLM在实际应用中的训练与服务可行性。首先，我们在10个基础模型和31项任务上对量化低秩适配器微调的LLM进行质量评估（共计310个模型）。实验表明，4比特LoRA微调模型相较基础模型平均提升34个点，较GPT-4平均领先10个点。其次，我们探究了最适合微调的基础模型类型，并评估了任务复杂度启发式方法在预测微调结果时的关联性与预测能力。最后，我们测试了开源多LoRA推理服务器LoRAX的延迟与并发性能——该系统通过共享基础模型权重与动态适配器加载技术，实现在单GPU上部署多个LoRA微调模型。LoRAX支撑着LoRA Land应用平台，该平台在单个80GB显存的NVIDIA A100 GPU上同时托管25个基于Mistral-7B的LoRA微调模型。LoRA Land的实践印证了采用多个专用LLM相较于单一通用LLM在质量与成本效益上的双重优势。

WildChat：来自真实场景的100万条ChatGPT交互日志
WildChat: 1M ChatGPT Interaction Logs in the Wild

May 2

ByWenting Zhao, Xiang Ren, Jack Hessel, Claire Cardie, Yejin Choi, Yuntian Deng

当前，GPT-4和ChatGPT等聊天机器人正为数百万用户提供服务。尽管这些工具已被广泛使用，但学术界仍缺乏能够真实反映用户群体实际使用情况的公开数据集。为填补这一空白，我们向在线用户提供免费ChatGPT访问权限，并通过用户主动同意的授权方式，匿名收集其聊天记录和请求头信息。基于此，我们构建了WildChat语料库——一个包含100万次用户与ChatGPT对话的数据集，涵盖超过250万轮交互内容。通过与其他主流用户-聊天机器人交互数据集的对比，我们发现WildChat具有最丰富的用户提问类型、最多样化的语言种类，并为研究者提供了最全面的潜在有害使用场景样本。除时间戳标记的对话记录外，我们还为数据集补充了用户地域信息（包括州/省、国家）和哈希处理的IP地址及请求头信息。这一增强功能使得跨地域维度和时间维度的用户行为细粒度分析成为可能。最后，由于该数据集覆盖了广泛的使用场景，我们验证了其在指令跟随模型微调方面的潜在应用价值。WildChat数据集已在https://wildchat.allen.ai发布，采用AI2 ImpACT许可协议。

StoryDiffusion：面向长序列图像与视频生成的一致性自注意力机制
StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation

May 2

ByYupeng Zhou, Daquan Zhou, Ming-Ming Cheng, Jiashi Feng, Qibin Hou

对于近期基于扩散的生成模型而言，在生成包含主体和复杂细节的图像序列时保持内容一致性仍存在显著挑战。本文提出一种新型自注意力计算机制——一致性自注意力，能够在零样本条件下显著提升生成图像间的连贯性，并增强现有预训练文生图扩散模型的效果。为将方法拓展至长视频生成领域，我们进一步设计了语义空间时序运动预测模块。该模块通过训练学习在语义空间中估算给定图像间的运动条件，可将生成的图像序列转化为具有平滑过渡与稳定主体的视频，尤其在生成长视频时展现出远优于仅基于潜空间方法的稳定性。通过融合这两项创新组件，我们的StoryDiffusion框架能够用包含丰富内容的连贯图像或视频来呈现文本故事。该框架实现了通过图像与视频进行视觉故事生成的先驱性探索，我们期望其能从架构改进角度激发更多相关研究。代码已公开于：https://github.com/HVision-NKU/StoryDiffusion。

FLAME：面向大语言模型的事实感知对齐方法
FLAME: Factuality-Aware Alignment for Large Language Models

May 2

BySheng-Chieh Lin, Luyu Gao, Barlas Oguz, Wenhan Xiong, Jimmy Lin, Wen-tau Yih, Xilun Chen

对齐是一种标准流程，旨在对预训练大语言模型进行微调，使其能够遵循自然语言指令并作为有用的AI助手。然而我们发现，传统对齐过程不仅无法提升大语言模型的事实准确性，反而经常导致更多虚假事实的生成（即幻觉现象）。本文通过系统分析对齐过程中两个关键阶段——监督微调与强化学习——导致幻觉产生的因素，探索如何增强大语言模型对齐过程的事实性。研究发现，在模型未掌握的新知识或陌生文本上进行训练会加剧幻觉现象。这使得监督微调的事实性降低，因为其训练所用的人工标注数据可能包含模型未曾接触的内容。此外，标准强化学习使用的奖励函数也会助长幻觉，因其倾向于引导模型对多样化指令生成更具帮助性的回复，往往偏好更冗长详尽的响应。基于这些发现，我们提出事实感知对齐方法，包含通过直接偏好优化实现的事实感知监督微调与事实感知强化学习。实验表明，我们提出的事实感知对齐方法能在保持指令遵循能力的同时，有效引导大语言模型输出更具事实依据的响应。

LLM-AD：基于大语言模型的音频描述系统
LLM-AD: Large Language Model based Audio Description System

May 2

ByPeng Chu, Jiang Wang, Andre Abrantes

音频描述技术的发展是提升视频内容可访问性与包容性的关键进步。传统音频描述制作需要大量专业人力投入，而现有自动化方法仍需通过大量训练来整合多模态输入，并将输出从字幕风格调整为音频描述风格。本文提出一种基于GPT-4V强大多模态与指令跟随能力的自动化音频描述生成流程。值得注意的是，该方法采用现成组件构建，无需额外训练即可生成既符合自然语言音频描述制作标准，又能通过基于追踪的角色识别模块保持跨帧角色信息上下文一致性的音频描述。在MAD数据集上的全面分析表明，我们的方法在自动化音频描述生产方面达到与基于学习的方法相当的性能，CIDEr评分达到20.5即为明证。

基于单张图像对定制文本到图像模型（注：根据AI领域术语使用习惯，"Image Pair"在此语境下更适合译为"图像对"而非"图像配对"，因后者多指匹配过程而非数据单元。标题采用动态对等译法，既保留"Pair"的复数含义，又通过"单张"明确数量限制，符合中文技术文献标题简洁性要求。）
Customizing Text-to-Image Models with a Single Image Pair

May 2

ByMaxwell Jones, Sheng-Yu Wang, Nupur Kumari, David Bau, Jun-Yan Zhu

艺术重诠释是指基于参照作品创作变体，生成具有独特艺术风格的配对艺术作品。我们探讨能否利用此类图像对来定制生成模型，以捕捉其中展现的风格差异。本文提出配对定制方法——一种从单对图像中学习风格差异并将其应用于生成过程的新颖定制技术。与现有方法从图像集合中学习模仿单一概念不同，我们的方法能捕捉配对图像间的风格差异，从而在应用风格变化时避免对示例中具体图像内容的过拟合。针对这一新任务，我们采用联合优化方法，将风格与内容显式分离至不同的LoRA权重空间。通过优化风格权重与内容权重，在保持二者正交性的同时重现风格图像与内容图像。在推理阶段，我们基于习得的权重通过新型风格引导机制调整扩散过程。定性与定量实验表明，本方法能有效学习风格特征并避免对图像内容的过拟合，彰显了从单对图像中建模风格差异的潜力。