AI研究论文每日精选

每日精选AI研究论文及翻译

nabla^2DFT：一种包含药物样分子的通用量子化学数据集，同时也是神经网络势函数的基准测试。
nabla^2DFT: A Universal Quantum Chemistry Dataset of Drug-Like Molecules and a Benchmark for Neural Network Potentials

Jun 20

ByKuzma Khrabrov, Anton Ber, Artem Tsypin, Konstantin Ushenin, Egor Rumiantsev, Alexander Telepov, Dmitry Protasov, Ilya Shenbin, Anton Alekseev, Mikhail Shirokikh, Sergey Nikolenko, Elena Tutubalina, Artur Kadurin

102

计算量子化学方法提供了对分子性质的准确近似，这对于计算辅助药物发现和化学科学的其他领域至关重要。然而，高计算复杂性限制了其应用的可扩展性。神经网络势（NNPs）是量子化学方法的一种有前途的替代方案，但它们需要大量和多样化的数据集进行训练。本研究提出了一个基于nablaDFT的新数据集和基准测试，名为nabla^2DFT。它包含两倍数量的分子结构、三倍数量的构象、新的数据类型和任务，以及最先进的模型。该数据集包括能量、力、17个分子性质、哈密顿量和重叠矩阵，以及一个波函数对象。所有计算均在每个构象的DFT水平（omegaB97X-D/def2-SVP）上执行。此外，nabla^2DFT是第一个包含大量类药物分子弛豫轨迹的数据集。我们还引入了一个新颖的基准测试，用于评估NNPs在分子性质预测、哈密顿量预测和构象优化任务中的表现。最后，我们提出了一个可扩展的框架用于训练NNPs，并在其中实现了10个模型。

指导预训练：语言模型是受监督的多任务学习者。
Instruction Pre-Training: Language Models are Supervised Multitask Learners

Jun 20

ByDaixuan Cheng, Yuxian Gu, Shaohan Huang, Junyu Bi, Minlie Huang, Furu Wei

无监督多任务预训练是最近语言模型（LMs）取得成功的关键方法。然而，监督多任务学习仍然具有重要潜力，因为在后期训练阶段扩展它有助于更好的泛化。在本文中，我们通过提出指导预训练（Instruction Pre-Training）探索监督多任务预训练，这是一种框架，通过可扩展地增加大规模原始语料库中的指导-响应对来预训练LMs。这些指导-响应对是由一个基于开源模型构建的高效指导合成器生成的。在我们的实验中，我们合成了涵盖40多个任务类别的2亿个指导-响应对，以验证指导预训练的有效性。在从头开始的预训练中，指导预训练不仅始终增强了预训练基础模型，而且在进一步指导调整中获益更多。在持续预训练中，指导预训练使Llama3-8B能够与甚至胜过Llama3-70B。我们的模型、代码和数据可在 https://github.com/microsoft/LMOps 获取。

细节决定成败：用于细节丰富的StyleGAN反演和高质量图像编辑的StyleFeatureEditor
The Devil is in the Details: StyleFeatureEditor for Detail-Rich StyleGAN Inversion and High Quality Image Editing

Jun 15

ByDenis Bobkov, Vadim Titov, Aibek Alanov, Dmitry Vetrov

通过StyleGAN反演来操纵真实图像属性的任务已经得到广泛研究。这个过程涉及从经过良好训练的StyleGAN生成器中搜索潜在变量，这些变量可以合成真实图像，修改这些潜在变量，然后合成具有所需编辑的图像。必须在重建质量和编辑能力之间取得平衡。早期研究利用低维度的W空间进行潜在搜索，这有助于有效编辑，但在重建复杂细节方面存在困难。最近的研究转向高维特征空间F，成功地反演输入图像，但在编辑过程中丢失了许多细节。在本文中，我们介绍了StyleFeatureEditor -- 一种新颖的方法，可以在w-latents和F-latents中进行编辑。这种技术不仅允许重建更精细的图像细节，还确保在编辑过程中保留这些细节。我们还提出了一种新的训练流程，专门设计用于训练我们的模型准确编辑F-latents。我们的方法与最先进的编码方法进行了比较，表明我们的模型在重建质量方面表现优异，并且能够编辑甚至具有挑战性的跨领域示例。代码可在https://github.com/AIRI-Institute/StyleFeatureEditor获得。

HARE：人类先验，小型语言模型效率的关键
HARE: HumAn pRiors, a key to small language model Efficiency

Jun 17

ByLingyun Zhang, Bin jin, Gaojian Ge, Lunhui Liu, Xuewen Shen, Mingyong Wu, Houqian Zhang, Yongneng Jiang, Shiqi Chen, Shi Pu

人类先验在深度学习中高效利用数据中扮演着至关重要的角色。然而，随着大型语言模型（LLMs）的发展，越来越强调模型规模和数据量的扩展，这往往减弱了人类先验在数据构建中的重要性。受这些趋势影响，现有的小型语言模型（SLMs）主要依赖于网络抓取的大规模训练数据，忽视了正确整合人类先验的重要性。这一疏忽限制了语言模型在资源受限环境中的训练效率。本文提出了一项利用人类先验进行数据构建的原则。该原则强调通过在包含语义多样性和数据质量一致性的简明数据集上训练，避免基准数据泄漏，从而实现高性能SLMs。根据这一原则，我们训练了一个名为HARE-1.1B的SLM。对大规模基准数据集进行的大量实验表明，HARE-1.1B在表现上优于最先进的SLMs，验证了所提原则的有效性。此外，从人类先验的角度为资源受限环境中的高效语言模型训练提供了新的见解。

Prism：一个用于解耦和评估VLM能力的框架
Prism: A Framework for Decoupling and Assessing the Capabilities of VLMs

Jun 20

ByYuxuan Qiao, Haodong Duan, Xinyu Fang, Junming Yang, Lin Chen, Songyang Zhang, Jiaqi Wang, Dahua Lin, Kai Chen

视觉语言模型（VLMs）展示出在处理各种视觉问题方面的显著能力，这需要强大的感知和推理能力。独立评估这两种能力对于模型的改进至关重要，尽管由于现有VLMs中视觉和推理的交织性而存在困难。为了解决这个问题，我们提出了Prism，这是一个创新的框架，旨在将视觉问题解决中涉及的感知和推理过程解耦。Prism包括两个不同阶段：一个利用VLM提取和表达视觉信息的感知阶段，以及一个利用大型语言模型（LLM）根据提取的视觉信息制定响应的推理阶段。这种模块化设计使得可以系统地比较和评估专有和开源VLM的感知和推理能力。我们的分析框架提供了一些有价值的见解，突显了Prism作为视觉语言任务的经济有效解决方案的潜力。通过将专注于感知的简化VLM与专为推理而设计的强大LLM相结合，Prism在一般视觉语言任务中取得了卓越的结果，同时大幅减少了培训和运营成本。定量评估显示，当配置了基础的2B LLaVA和免费获取的GPT-3.5时，Prism在严格的多模态基准MMStar上的性能与规模大10倍的VLMs相当。该项目发布在：https://github.com/SparksJoe/Prism。

MMBench-Video：一种用于整体视频理解的长形式多镜头基准测试
MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding

Jun 20

ByXinyu Fang, Kangrui Mao, Haodong Duan, Xiangyu Zhao, Yining Li, Dahua Lin, Kai Chen

大型视觉语言模型（LVLMs）的出现推动了对它们在多模态环境中的应用的研究，特别是在视频理解方面。传统的视频问答基准尽管提供了定量指标，但往往无法涵盖视频内容的全部范围，并且未能充分评估模型的时间理解能力。为了解决这些局限性，我们引入了MMBench-Video，这是一个定量基准，旨在严格评估LVLMs在视频理解方面的熟练程度。MMBench-Video包含来自YouTube的长视频，并使用自由形式的问题，反映了实际用例。该基准经过精心设计，旨在探究模型的时间推理能力，所有问题均按照精心构建的能力分类法由人类进行注释。我们使用GPT-4进行自动评估，展示了相对于早期基于LLM的评估而言更高的准确性和稳健性。利用MMBench-Video，我们进行了全面评估，包括针对图像和视频的专有和开源LVLMs。MMBench-Video是研究社区的宝贵资源，有助于改进LVLMs的评估，并推动视频理解领域的进展。MMBench-Video的评估代码将集成到VLMEvalKit中：https://github.com/open-compass/VLMEvalKit。

模型合并与安全对齐：一个糟糕的模型会影响整体
Model Merging and Safety Alignment: One Bad Model Spoils the Bunch

Jun 20

ByHasan Abed Al Kader Hammoud, Umberto Michieli, Fabio Pizzati, Philip Torr, Adel Bibi, Bernard Ghanem, Mete Ozay

将大型语言模型（LLMs）合并是一种经济高效的技术，可将多个专家LLMs合并为一个通用模型，保留原始模型的专业知识。然而，当前方法往往忽视了在合并过程中安全对齐的重要性，导致模型高度不对齐。本研究调查了模型合并对齐的影响。我们评估了几种流行的模型合并技术，表明现有方法不仅可以转移领域专业知识，还会传播不对齐。我们提出了一个简单的两步方法来解决这个问题：（一）生成合成的安全和领域特定数据，（二）将这些生成的数据纳入现有数据感知模型合并技术的优化过程中。这使我们能够将对齐视为一种可以在最终合并的LLMs中最大化的技能。我们的实验展示了在合并过程中整合与对齐相关的数据的有效性，从而产生在领域专业知识和对齐方面表现优异的模型。

思维白板：跨模态逐步思考
Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities

Jun 20

BySachit Menon, Richard Zemel, Carl Vondrick

当面对涉及视觉思维的问题时，人类自然会切换推理模式，通常会形成心理图像或绘制视觉辅助工具。大型语言模型已经展示出在算术和符号推理方面取得了令人期待的结果，通过将中间推理表达为一系列思维链的文本，但难以将这种能力扩展到回答文本查询，即使进行了广泛的多模态预训练也是如此，这些查询很容易通过视觉推理来解决。我们引入了一种简单的方法，即“思维白板提示”，以解锁多模态大型语言模型在各种模态下的视觉推理能力。思维白板提示为多模态大型语言模型提供了一个比喻性的“白板”，用于将推理步骤绘制为图像，然后将这些图像返回给模型进行进一步处理。我们发现，这可以在没有演示或专门模块的情况下完成，而是利用模型已有的使用诸如Matplotlib和Turtle等库编写代码的能力。这种简单方法在涉及视觉和空间推理的四项困难自然语言任务上展示了最先进的结果。我们确定了多个情景，在这些情景中，使用思维链的GPT-4o会出现严重失败，其中有一个情景中准确率达到了0%，而思维白板提示在这些相同情景中能够实现高达92%的准确率。我们对这种技术成功的详细探讨以及其错误来源进行了阐述。

在大约7个步骤中进行文本引导的图像编辑的可逆一致性蒸馏
Invertible Consistency Distillation for Text-Guided Image Editing in Around 7 Steps

Jun 20

ByNikita Starodubcev, Mikhail Khoroshikh, Artem Babenko, Dmitry Baranchuk

扩散蒸馏代表了实现在少数采样步骤中实现忠实的文本到图像生成的一个极具前景的方向。然而，尽管最近取得了成功，现有的蒸馏模型仍未提供完整的扩散能力范围，比如实际图像反演，这使得许多精确的图像操作方法成为可能。本研究旨在丰富经过蒸馏的文本到图像扩散模型，使其能够有效地将真实图像编码到其潜在空间中。为此，我们引入了可逆一致性蒸馏（iCD），这是一个通用的一致性蒸馏框架，可以在仅3-4个推理步骤中促进高质量图像合成和准确图像编码。虽然文本到图像扩散模型的反演问题受到高无分类器引导尺度的加剧，但我们注意到动态引导显著减少了重建错误，而生成性能几乎没有下降。因此，我们证明了配备动态引导的iCD可能作为一种高效的零样本文本引导图像编辑工具，可以与更昂贵的最先进替代方案竞争。

GLiNER多任务：通用轻量级模型用于各种信息提取任务
GLiNER multi-task: Generalist Lightweight Model for Various Information Extraction Tasks

Jun 14

ByIhor Stepanov, Mykhailo Shtopko

信息抽取任务需要准确、高效和具有泛化能力的模型。经典的监督深度学习方法可以实现所需的性能，但它们需要大量数据集，并且在适应不同任务方面存在局限性。另一方面，大型语言模型（LLMs）展现出良好的泛化能力，意味着它们可以根据用户请求适应许多不同的任务。然而，LLMs 在计算上昂贵，并且往往无法生成结构化输出。在本文中，我们将介绍一种新型的GLiNER模型，可用于各种信息抽取任务，同时作为一个小型编码器模型。我们的模型在零-shot NER基准测试中取得了最先进的性能，并在问答、摘要和关系抽取任务中表现出色。此外，在本文中，我们将介绍使用GLiNER模型进行命名实体识别的自学习方法的实验结果。

PIN：一种用于成对和交错多模态文档的知识密集型数据集
PIN: A Knowledge-Intensive Dataset for Paired and Interleaved Multimodal Documents

Jun 20

ByJunjie Wang, Yin Zhang, Yatai Ji, Yuxiang Zhang, Chunyang Jiang, Yubo Wang, Kang Zhu, Zekun Wang, Tiezhen Wang, Wenhao Huang, Jie Fu, Bei Chen, Qunshu Lin, Minghao Liu, Ge Zhang, Wenhu Chen

最近在大型多模态模型（LMMs）方面取得的进展利用了广泛的多模态数据集，以增强在复杂知识驱动任务中的能力。然而，感知和推理错误方面的持续挑战限制了它们的有效性，特别是在解释复杂视觉数据和推断多模态关系方面。为了解决这些问题，我们引入了一种新颖的数据集格式，称为PIN（配对和交错多模态文档），旨在显著提高多模态训练的深度和广度。PIN格式建立在三个基本原则上：知识密集、可扩展性以及支持多样化训练模态。这种创新格式结合了Markdown文件和全面的图像，通过密集的知识结构和多样化的训练策略丰富了训练数据。我们提出了PIN-14M，这是一个开源数据集，包括来自各种中英文来源的1400万个样本，旨在包含复杂的网络和科学内容。这个数据集经过精心构建，以确保数据质量和道德完整性，旨在促进先进的训练策略，并提高模型对常见多模态训练陷阱的鲁棒性。我们的初步结果构成了本技术报告的基础，表明PIN格式在优化LMM性能方面具有显著潜力，未来计划扩展并详细评估其对模型能力的影响。

DigiRL：使用自主强化学习训练野外设备控制代理
DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning

Jun 14

ByHao Bai, Yifei Zhou, Mert Cemri, Jiayi Pan, Alane Suhr, Sergey Levine, Aviral Kumar

视觉语言模型（VLMs）的训练语料库通常缺乏足够的决策中心数据。这使得现成的VLMs在决策任务（例如通过图形用户界面（GUIs）进行野外设备控制）方面表现不佳。虽然使用静态演示进行训练显示出一些潜力，但我们发现这种方法在控制真实GUIs方面存在不足，因为它们无法处理静态观测数据中未捕获的真实世界随机性和非稳态性。本文介绍了一种名为DigiRL的新型自主强化学习方法，用于通过两个阶段对预训练的VLM进行微调来训练野外设备控制代理：离线强化学习以初始化模型，然后是离线到在线强化学习。为此，我们构建了一个可扩展且可并行化的Android学习环境，配备了基于VLM的评估器，并为在该领域学习开发了一种简单而有效的强化学习方法。我们的方法采用了增强估计器增强的优势加权强化学习，以考虑随机性，并使用自动课程表来获取最大的学习信号。我们使用Android-in-the-Wild（AitW）数据集展示了DigiRL的有效性，我们的13亿VLM经过强化学习训练，在成功率上取得了49.5%的绝对改善，从17.7%提高到67.2%。这些结果显著超越了以往最佳代理，包括带有GPT-4V的AppAgent（8.3%成功率）和使用AitW数据训练的17B CogAgent（38.5%），以及基于过滤行为克隆的以往最佳自主强化学习方法（57.8%），从而确立了野外设备控制数字代理的新技术水平。

自我对弈与执行反馈：提高大型语言模型的指令遵循能力
Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models

Jun 19

ByGuanting Dong, Keming Lu, Chengpeng Li, Tingyu Xia, Bowen Yu, Chang Zhou, Jingren Zhou

大型语言模型（LLMs）的一个核心能力是遵循自然语言指令。然而，如何自动构建高质量的训练数据，以增强LLMs的复杂指令遵循能力，而无需手动注释，这一问题仍未解决。在本文中，我们介绍了AutoIF，这是第一个可扩展且可靠的方法，用于自动生成指令遵循训练数据。AutoIF将指令遵循数据质量的验证转化为代码验证，要求LLMs生成指令、相应的用于检查指令响应正确性的代码，以及用于验证代码正确性的单元测试样本。然后，基于执行反馈的拒绝抽样可以为监督微调（SFT）和来自人类反馈的强化学习（RLHF）训练生成数据。在应用于顶级开源LLMs Qwen2和LLaMA3时，AutoIF在自对齐和强到弱蒸馏设置中，对三种训练算法SFT、离线DPO和在线DPO都取得了显著的改进。我们的代码公开可用于https://github.com/QwenLM/AutoIF。

LiveMind：具有同时推理功能的低延迟大型语言模型
LiveMind: Low-latency Large Language Models with Simultaneous Inference

Jun 20

ByChuangtao Chen, Grace Li Zhang, Xunzhao Yin, Cheng Zhuo, Ulf Schlichtmann, Bing Li

本文介绍了一种新颖的用于大型语言模型（LLMs）推断的低延迟推断框架，使LLMs能够在不完整提示的情况下进行推断。通过将计算过程重新分配到提示输入阶段，我们实现了大幅减少延迟，从而显著提升了LLMs用户的交互体验。该框架熟练地管理了流式提示对模型的可见性，使其能够从不完整提示中推断或等待额外提示。与利用完整提示的传统推断方法相比，我们的方法在MMLU-Pro数据集上表现出59%的平均响应延迟减少，同时保持了可比较的准确性。此外，我们的框架促进了跨不同模型的协作推断和输出。通过使用LLM进行推断和小型语言模型（SLM）进行输出，我们在MMLU-Pro数据集上实现了平均68%的响应延迟减少，同时与SLM基准相比准确性提高了5.5%。对于超过20个句子的长提示，响应延迟可减少高达93%。

通过多图像生成改善语言模型中的视觉常识
Improving Visual Commonsense in Language Models via Multiple Image Generation

Jun 19

ByGuy Yariv, Idan Schwartz, Yossi Adi, Sagie Benaim

常识推理基本上是基于多模态知识的。然而，现有的大型语言模型（LLMs）主要是使用文本数据进行训练的，限制了它们整合基本视觉信息的能力。相比之下，擅长视觉任务的视觉语言模型在非视觉任务，如基本常识推理方面经常失败。这种分歧凸显了一个关键挑战 - 将强大的视觉理解与基于文本的语言推理相融合。为此，我们提出了一种旨在增强LLMs视觉常识的方法。具体而言，我们的方法基于输入文本提示生成多个图像，并通过混合它们的预测概率将其整合到模型的决策过程中。为促进多模态基础语言建模，我们采用了一个迟到融合层，将投影的视觉特征与仅以文本为条件的预训练LLM的输出结合起来。这个迟到融合层使得在需要时可以基于全面的图像文本知识以及仅文本进行预测。我们使用几个视觉常识推理任务以及传统的自然语言处理任务来评估我们的方法，包括常识推理和阅读理解。我们的实验结果显示出明显优于现有基线的优势。当应用于最近的最先进LLMs（例如Llama3）时，我们观察到不仅在视觉常识方面有改进，而且在传统的自然语言处理基准上也有改进。代码和模型可在https://github.com/guyyariv/vLMIG 下载。

迭代长度正则化直接偏好优化：提升7B语言模型至GPT-4水平的案例研究
Iterative Length-Regularized Direct Preference Optimization: A Case Study on Improving 7B Language Models to GPT-4 Level

Jun 17

ByJie Liu, Zhanhui Zhou, Jiaheng Liu, Xingyuan Bu, Chao Yang, Han-Sen Zhong, Wanli Ouyang

直接偏好优化（DPO）是一种用于将语言模型与人类偏好对齐的标准方法，传统上应用于离线偏好。最近的研究表明，DPO受益于通过训练有标记的在线偏好的奖励模型进行迭代训练。在这项工作中，我们确定了基本迭代DPO的一个缺陷 - 改进的响应质量可能导致冗长。为了解决这个问题，我们引入了迭代长度正则化DPO（iLR-DPO）来惩罚响应长度。我们的实证结果表明，iLR-DPO可以使一个7B模型在不增加冗长的情况下表现与GPT-4相当。具体来说，我们的7B模型在AlpacaEval 2.0上以50.5%的长度受控胜率击败了GPT-4预览，并在MT-Bench、Arena-Hard和OpenLLM排行榜等标准基准上表现出色。这些结果展示了迭代DPO在将语言模型与人类反馈对齐方面的有效性。

REPOEXEC：使用存储库级可执行基准评估代码生成
REPOEXEC: Evaluate Code Generation with a Repository-Level Executable Benchmark

Jun 17

ByNam Le Hai, Dung Manh Nguyen, Nghi D. Q. Bui

CodeLLM 的能力在存储库级别规模生成可执行且在功能上正确的代码的能力仍然大部分未被探索。我们引入 RepoExec，这是一个用于评估存储库级别规模下代码生成的新型基准。RepoExec 主要关注三个方面：可执行性、通过具有高覆盖率的自动生成测试用例实现功能正确性，以及精心设计的跨文件上下文以准确生成代码。我们的工作探索了一个受控场景，开发人员在其中指定必要的代码依赖关系，挑战模型准确集成这些依赖关系。实验证明，虽然预训练的 LLM 在正确性方面优于指令调整的模型，但后者在利用提供的依赖关系和展示调试能力方面表现出色。我们还引入了一个新的指令调整数据集，侧重于代码依赖关系，并展示了在我们的数据集上微调的 CodeLLMs 具有更好地利用这些依赖关系的能力。RepoExec 旨在全面评估代码功能和与开发人员意图的一致性，为在实际场景中更可靠和适用的 CodeLLMs 打下基础。数据集和源代码可在以下链接找到：https://github.com/FSoft-AI4Code/RepoExec。

ExVideo：通过参数高效后调来扩展视频扩散模型
ExVideo: Extending Video Diffusion Models via Parameter-Efficient Post-Tuning

Jun 20

ByZhongjie Duan, Wenmeng Zhou, Cen Chen, Yaliang Li, Weining Qian

最近，视频合成方面取得了显著进展，诸如AnimateDiff和Stable Video Diffusion等视频合成模型展示了扩散模型在创造动态视觉内容方面的实际适用性。SORA的出现进一步突显了视频生成技术的潜力。然而，视频长度的延伸受到计算资源限制的约束。大多数现有视频合成模型只能生成短视频片段。在本文中，我们提出了一种新颖的视频合成模型后调优方法，称为ExVideo。该方法旨在增强当前视频合成模型的能力，使其能够在较长的时间跨度内生成内容，同时降低训练成本。具体而言，我们分别设计了跨常见时间模型架构的扩展策略，包括3D卷积、时间注意力和位置嵌入。为了评估我们提出的后调优方法的有效性，我们在Stable Video Diffusion模型上进行了扩展训练。我们的方法增加了模型生成帧数的能力，最多可达到原始帧数的5倍，在包含40,000个视频的数据集上仅需1.5k GPU小时的训练。重要的是，视频长度的显著增加并不会损害模型固有的泛化能力，该模型展示了在生成不同风格和分辨率的视频方面的优势。我们将公开发布源代码和增强模型。

τ-bench：一个针对现实世界领域中工具-代理-用户交互的基准测试
τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains

Jun 17

ByShunyu Yao, Noah Shinn, Pedram Razavi, Karthik Narasimhan

现有的基准测试并未测试语言代理与人类用户的互动或遵循特定领域规则的能力，这两者对于将它们部署到现实世界应用中至关重要。我们提出了tau-bench，这是一个基准测试，模拟用户（由语言模型模拟）与语言代理之间的动态对话，语言代理配备特定领域的API工具和策略指南。我们采用了高效且忠实的评估过程，将对话结束时的数据库状态与注释的目标状态进行比较。我们还提出了一个新的度量标准（pass^k），用于评估代理在多次试验中的行为可靠性。我们的实验表明，即使是最先进的函数调用代理（如gpt-4o）也只能在不到50%的任务上成功，并且相当不一致（在零售领域，pass^8 <25%）。我们的发现表明需要改进代理的能力以一致行动并可靠遵循规则的方法。

基于模型内部的答案归因用于可信的检索增强生成
Model Internals-based Answer Attribution for Trustworthy Retrieval-Augmented Generation

Jun 19

ByJirui Qi, Gabriele Sarti, Raquel Fernández, Arianna Bisazza

确保模型答案的可验证性是检索增强生成（RAG）在问答（QA）领域面临的基本挑战。最近，提出了自引用提示，旨在使大型语言模型（LLMs）生成对支持文档的引用以及其答案。然而，自引用的LLMs经常难以匹配所需格式，参考不存在的来源，并未能忠实地反映LLMs在生成过程中的上下文使用。在这项工作中，我们提出了MIRAGE -- 基于模型内部的RAG解释 -- 一种使用模型内部进行忠实答案归因的即插即用方法。MIRAGE通过显著性方法检测上下文敏感的答案标记，并将其与通过检索的文档配对，这些文档有助于其预测。我们在一个多语言抽取式QA数据集上评估了我们提出的方法，发现与人类答案归因高度一致。在开放式QA上，MIRAGE实现了与自引用相当的引文质量和效率，同时还允许对归因参数进行更精细的控制。我们的定性评估突出了MIRAGE归因的忠实性，并强调了将模型内部应用于RAG答案归因的前景。

稳定语义：一种合成的语言-视觉数据集，其中包含自然图像中的语义表示。
StableSemantics: A Synthetic Language-Vision Dataset of Semantic Representations in Naturalistic Images

Jun 19

ByRushikesh Zawar, Shaurya Dewan, Andrew F. Luo, Margaret M. Henderson, Michael J. Tarr, Leila Wehbe

在计算机视觉中，理解视觉场景的语义是一个基本挑战。这一挑战的关键在于，具有相似语义含义或功能的物体可能在视觉上存在显著差异，这使得准确识别和分类变得困难。近期文本到图像框架的进展导致了能够隐式捕捉自然场景统计信息的模型。这些框架考虑了物体的视觉变化性，以及复杂的物体共现和诸如不同照明条件之类的噪声来源。通过利用大规模数据集和交叉注意力调节，这些模型生成了详细且具有上下文丰富性的场景表示。这种能力为改进在各种具有挑战性的环境中的物体识别和场景理解开辟了新途径。我们的工作介绍了StableSemantics，这是一个包含22.4万个经人工筛选的提示、处理过的自然语言标题、超过200万张合成图像以及1000万个与单个名词块对应的注意力图的数据集。我们明确利用与视觉上有趣的稳定扩散生成相对应的人类生成提示，每个短语提供10代，并为每个图像提取交叉注意力图。我们探索了生成图像的语义分布，检查了图像中物体的分布，并在我们的数据上对字幕生成和开放词汇分割方法进行了基准测试。据我们所知，我们是第一个发布具有语义属性的扩散数据集。我们期望我们提出的数据集能够推动视觉语义理解方面的进展，并为开发更复杂和有效的视觉模型奠定基础。网站：https://stablesemantics.github.io/StableSemantics

文本摘要的系统调查：从统计方法到大型语言模型
A Systematic Survey of Text Summarization: From Statistical Methods to Large Language Models

Jun 17

ByHaopeng Zhang, Philip S. Yu, Jiawei Zhang

随着深度神经网络、预训练语言模型（PLMs）和最近的大型语言模型（LLMs）的出现，文本摘要研究经历了几次重大转变。因此，本调查全面审视了文本摘要研究在这些范式转变的视角下的进展和演变。本调查分为两个主要部分：（1）LLM 时代之前数据集、评估指标和摘要方法的详细概述，涵盖传统统计方法、深度学习方法和PLM 微调技术，以及（2）对LLM 时代摘要基准、建模和评估最新进展的首次详细审查。通过综合现有文献并提供一致的概述，本调查还讨论了研究趋势、面临的挑战，并提出了摘要研究中有前景的研究方向，旨在引导研究人员穿越摘要研究的不断演变的领域。

从洞察到行动：可解释性和分析对自然语言处理的影响研究
From Insights to Actions: The Impact of Interpretability and Analysis Research on NLP

Jun 18

ByMarius Mosbach, Vagrant Gautam, Tomás Vergara-Browne, Dietrich Klakow, Mor Geva

可解释性和分析（IA）研究是自然语言处理（NLP）领域内一个日益发展的子领域，旨在深入了解NLP系统和方法的行为或内部运作。尽管该子领域引起了越来越多的关注，但普遍的批评是缺乏可操作的见解，因此对NLP的影响有限。在本文中，我们旨在量化IA研究对更广泛的NLP领域的影响。我们采用混合方法分析：（1）从2018年至2023年在ACL和EMNLP会议上发表的所有论文构建的包含185K+篇论文的引文图，以及（2）对NLP社区的138名成员进行的调查。我们的定量结果显示，IA工作在IA之外得到了很好的引用，并且在NLP引文图中处于核心位置。通过对调查回复和手动标注的556篇论文的定性分析，我们发现NLP研究人员借鉴了IA工作的发现，并认为这对NLP的进展、多个子领域至关重要，并依赖其发现和术语来进行自己的工作。许多新颖的方法是基于IA发现提出的，并受其影响深远，但具有高影响力的非IA工作引用了IA的发现，但并非受其驱动。最后，我们总结了当今IA工作中的缺失，并提出了行动号召，为IA研究的更有影响力的未来铺平道路。

使用潜在扩散模型在几秒钟内对3D高斯场景进行采样
Sampling 3D Gaussian Scenes in Seconds with Latent Diffusion Models

Jun 18

ByPaul Henderson, Melonie de Almeida, Daniela Ivanova, Titas Anciukevičius

我们提出了一个潜在扩散模型，用于3D场景，可以仅使用2D图像数据进行训练。为实现这一目标，我们首先设计了一个自动编码器，将多视角图像映射到3D高斯斑点，并同时构建这些斑点的压缩潜在表示。然后，我们在潜在空间上训练一个多视角扩散模型，以学习一个高效的生成模型。这个流程不需要对象掩模或深度，并适用于具有任意摄像机位置的复杂场景。我们在两个大规模数据集MVImgNet和RealEstate10K的复杂现实世界场景上进行了仔细的实验。我们展示了我们的方法能够在仅0.2秒内生成3D场景，无论是从头开始，从单个输入视图，还是从稀疏输入视图。它产生多样且高质量的结果，同时比非潜在扩散模型和早期基于NeRF的生成模型运行速度快一个数量级。