每日精选AI研究论文及翻译
我们推出Qwen2.5-VL,作为Qwen视觉语言系列的最新旗舰模型,它在基础能力和创新功能上均实现了显著进步。Qwen2.5-VL通过增强的视觉识别、精确的目标定位、强大的文档解析以及长视频理解能力,在理解和交互世界方面迈出了重要一步。Qwen2.5-VL的一个突出特点是能够准确使用边界框或点来定位对象。它能够从发票、表格和表单中提取稳健的结构化数据,并对图表、图示和布局进行详细分析。为处理复杂输入,Qwen2.5-VL引入了动态分辨率处理和绝对时间编码,使其能够处理不同尺寸的图像和长达数小时的视频,并实现秒级事件定位。这使得模型能够原生感知空间尺度和时间动态,而无需依赖传统的归一化技术。通过从头训练原生动态分辨率的视觉Transformer(ViT)并结合窗口注意力机制,我们在保持原生分辨率的同时降低了计算开销。因此,Qwen2.5-VL不仅在静态图像和文档理解方面表现出色,还作为交互式视觉代理,能够在操作计算机和移动设备等现实场景中进行推理、工具使用和任务执行。Qwen2.5-VL提供三种规模,满足从边缘AI到高性能计算的多样化用例。旗舰型号Qwen2.5-VL-72B在文档和图表理解方面与GPT-4o和Claude 3.5 Sonnet等顶尖模型相媲美。此外,Qwen2.5-VL保持了强大的语言性能,延续了Qwen2.5大语言模型的核心语言能力。
生成式基础模型(GenFMs)已成为变革性的工具。然而,其广泛应用引发了关于多维度可信度的关键问题。本文通过三项核心贡献,提出了一个全面应对这些挑战的框架。首先,我们系统性地梳理了全球各国政府及监管机构在人工智能治理方面的法律法规,以及行业实践与标准。基于此分析,我们提出了一套针对GenFMs的指导原则,这些原则通过广泛的多学科合作制定,融合了技术、伦理、法律及社会视角。其次,我们推出了TrustGen,这是首个动态基准测试平台,旨在跨多种维度和模型类型(包括文本到图像、大语言模型及视觉语言模型)评估可信度。TrustGen利用模块化组件——元数据整理、测试案例生成及上下文变化——实现自适应和迭代评估,克服了静态评估方法的局限。通过TrustGen,我们揭示了可信度方面的显著进展,同时识别出持续存在的挑战。最后,我们深入探讨了可信GenFMs面临的挑战与未来方向,揭示了可信度复杂且不断演变的本质,强调了效用与可信度之间的微妙权衡,以及针对不同下游应用的考量,识别出持续挑战并为未来研究提供了战略路线图。本工作为推进生成式人工智能的可信度建立了整体框架,为GenFMs更安全、更负责任地融入关键应用铺平了道路。为促进社区进步,我们发布了动态评估工具包。
文本到歌曲生成,即从文本输入中创作人声与伴奏的任务,因领域复杂性和数据稀缺性而面临重大挑战。现有方法多采用多阶段生成流程,导致训练与推理管道繁琐。本文提出SongGen,一个完全开源、单阶段自回归变换器,专为可控歌曲生成设计。该模型支持对歌词及乐器配置、风格、情绪和音色等多样音乐属性的细粒度控制,同时提供可选的三秒参考片段用于声音克隆。在统一的自回归框架内,SongGen支持两种输出模式:混合模式直接生成人声与伴奏的混合,双轨模式则分别合成二者,为下游应用提供更大灵活性。我们探索了每种模式下的多样化标记模式策略,取得了显著改进并获得了宝贵洞见。此外,我们设计了一个自动化数据预处理流程,并实施了有效的质量控制。为促进社区参与和未来研究,我们将公开模型权重、训练代码、标注数据及预处理流程。生成样本展示于项目页面https://liuzh-19.github.io/SongGen/,代码将发布于https://github.com/LiuZH-19/SongGen。
现有的端到端自动驾驶(AD)算法通常遵循模仿学习(IL)范式,但这一范式面临着因果混淆和开环差距等挑战。在本研究中,我们建立了一种基于3D高斯散射(3DGS)的闭环强化学习(RL)训练范式。通过运用3DGS技术,我们构建了一个真实物理世界的高保真数字复制品,使AD策略能够广泛探索状态空间,并通过大规模试错学习处理分布外场景。为了增强安全性,我们设计了专门的奖励机制,引导策略有效应对安全关键事件并理解现实世界的因果关系。为了更好地与人类驾驶行为对齐,我们将IL作为正则化项融入RL训练中。我们引入了一个由多样化、前所未见的3DGS环境组成的闭环评估基准。与基于IL的方法相比,RAD在大多数闭环指标上表现出更强的性能,尤其是碰撞率降低了3倍。丰富的闭环实验结果展示在https://hgao-cv.github.io/RAD。
大型语言模型(LLMs)在复杂推理任务中表现出色,将其推理能力提炼至较小模型已展现出潜力。然而,我们发现了一个有趣的现象,称之为“小模型可学习性差距”:参数规模较小(≤30亿)的模型并未从长链思维(CoT)推理或大模型蒸馏中持续获益。相反,当它们针对更短、更简单的推理链进行微调时,表现更佳,这些推理链更契合其内在学习能力。为此,我们提出了混合蒸馏(Mix Distillation),一种简单而有效的策略,通过结合长短CoT示例或大小模型的推理,来平衡推理复杂度。实验表明,相较于单独使用任一数据训练,混合蒸馏显著提升了小模型的推理性能。这些发现揭示了直接强模型蒸馏的局限性,并强调了调整推理复杂度对于有效推理能力迁移的重要性。
线性序列建模方法,如线性注意力、状态空间建模和线性循环神经网络(RNNs),通过降低训练和推理的复杂度,显著提升了效率。然而,这些方法通常将整个输入序列压缩为单一固定大小的记忆状态,导致在需要大量记忆检索的下游任务中表现欠佳。受神经科学启发,特别是大脑在维持强大长期记忆同时减轻“记忆干扰”的能力,我们提出了一种名为记忆混合(Mixture-of-Memories, MoM)的新架构。MoM利用多个独立的记忆状态,并通过路由网络将输入令牌定向至特定记忆状态。这一方法极大地提升了整体记忆容量,同时最小化了记忆干扰。因此,MoM在需要大量记忆检索的任务上表现卓越,超越了现有的线性序列建模技术。尽管引入了多个记忆状态,每个记忆状态的计算仍保持线性复杂度,使得MoM在训练时保留线性复杂度优势,在推理时保持常数复杂度。我们的实验结果表明,MoM在下游语言任务,尤其是需要大量记忆检索的任务上,显著优于当前的线性序列模型,甚至达到了与Transformer模型相媲美的性能。代码已发布于https://github.com/OpenSparseLLMs/MoM,并作为https://github.com/OpenSparseLLMs/Linear-MoE的一部分发布。
文本嵌入模型通常仅在有限的任务集上进行评估,这些任务受限于语言、领域和任务的多样性。为了突破这些限制并提供更全面的评估,我们引入了大规模多语言文本嵌入基准(MMTEB)——这是对MTEB的一次大规模、社区驱动的扩展,涵盖了超过500项经过质量控制的评估任务,涉及250多种语言。MMTEB包含了一系列多样且具有挑战性的新任务,如指令跟随、长文档检索和代码检索,代表了迄今为止最大的多语言嵌入模型评估任务集合。利用这一集合,我们开发了多个高度多语言的基准,并用于评估一组代表性模型。我们发现,尽管拥有数十亿参数的大型语言模型(LLMs)能在某些语言子集和任务类别上达到最先进的性能,但表现最佳的公开可用模型是仅含5.6亿参数的多语言e5-large-instruct。为了提升可访问性并降低计算成本,我们引入了一种基于任务间相关性的新颖下采样方法,确保在保持模型相对排名多样性的同时进行选择。此外,我们通过采样困难负例来优化诸如检索等任务,创建了更小但有效的子集。这些优化使我们能够引入大幅降低计算需求的基准。例如,我们新推出的零样本英语基准在保持与完整版本相似排名顺序的同时,仅需极少的计算成本。
大型语言模型(LLMs)通过预训练和对齐展现了卓越的能力。然而,在短上下文场景中表现出色的LLMs,在长上下文场景中可能表现不佳,这主要是由于长上下文对齐不足所致。这一对齐过程面临挑战,原因在于人类对长上下文进行标注的不可行性,以及平衡短上下文与长上下文性能的难度。为解决这些问题,我们提出了LongPO方法,它使短上下文LLMs能够通过内部转移短上下文能力,自我进化以在长上下文任务中表现出色。LongPO利用LLMs从自我生成的短到长偏好数据中学习,这些数据包含针对相同指令生成的长上下文输入响应及其压缩后的短上下文对应响应。这种偏好揭示了在短上下文对齐过程中培养的LLMs能力与潜力,这些在长上下文对齐不足的场景中可能被削弱。此外,LongPO引入了短到长的KL约束,以减轻长上下文对齐过程中短上下文性能的下降。当应用于从128K到512K上下文长度的Mistral-7B-Instruct-v0.2时,LongPO完全保留了短上下文性能,并在长上下文和短上下文任务中大幅超越了简单的SFT和DPO方法。具体而言,经过\ourMethod训练的模型在长上下文基准测试中取得的成果,可与甚至超越那些涉及大量长上下文标注和更大参数规模的顶级LLMs(如GPT-4-128K)相媲美。
网络爬取是大规模语言模型(LLMs)预训练数据的主要来源,然而,由于数据质量较低,大多数爬取的网页在预训练过程中被舍弃。本文提出了Crawl4LLM,一种高效的网络爬取方法,该方法基于LLM预训练的需求探索网络图。具体而言,它利用网页在LLM预训练中的影响力作为爬虫调度器的优先级评分,替代了传统的基于图连通性的优先级标准。我们在一个包含商业搜索引擎索引中9亿网页的网络图上进行的实验表明,Crawl4LLM在获取高质量预训练数据方面表现出色。仅需爬取21%的URL,基于Crawl4LLM数据预训练的LLMs即可达到以往爬取数据的下游任务性能,显著减少了爬取浪费,并减轻了对网站的压力。我们的代码已公开于https://github.com/cxcscmu/Crawl4LLM。
大型语言模型(LLM)应用正从简单的聊天机器人演进为动态的通用型智能代理程序,这些程序通过扩展LLM调用和输出令牌,协助AI代理进行推理、探索及解决复杂任务。然而,现有的LLM服务系统忽视了程序与调用间的依赖关系,错失了显著的优化机会。我们的分析表明,提交至LLM服务引擎的程序会经历较长的累计等待时间,这主要源于单个LLM请求及程序层面的队首阻塞问题。为此,我们推出了Autellix,一个将程序视为首要服务对象以最小化其端到端延迟的LLM服务系统。Autellix拦截程序提交的LLM调用,为调度器注入程序级上下文信息。我们提出了两种调度算法——分别针对单线程和分布式程序——它们基于程序已完成调用的历史,对LLM调用进行抢占和优先级排序。评估结果显示,在多种LLM和智能代理工作负载下,与vLLM等先进系统相比,Autellix在相同延迟条件下将程序的吞吐量提升了4至15倍。
监督微调(SFT)一直是提升较小规模大语言模型(LLMs)长链思维(CoT)推理能力的有效方法,通过使用来自更大LLMs的长CoT响应进行微调。为了持续提升推理能力,我们既可以收集新的高质量长CoT推理SFT数据,也可以对现有SFT数据集进行重复训练。然而,获取新的长CoT SFT数据成本高昂且有限,而重复训练往往导致性能停滞或下降。为了进一步利用SFT数据提升性能,我们提出了思维偏好优化(ThinkPO),这是一种简单而有效的后SFT方法,无需新的长CoT响应即可增强长链推理能力。ThinkPO利用现成或易于获取的短CoT推理响应作为被拒绝的答案,而将长CoT响应作为同一问题的优选答案,随后应用直接偏好优化,促使模型倾向于生成更长的推理输出。实验表明,ThinkPO进一步提升了SFT模型的推理性能,例如,它将SFT模型的数学推理准确率提高了8.6%,输出长度增加了25.9%。值得注意的是,ThinkPO能够持续提升公开蒸馏SFT模型的性能,例如,将DeepSeek-R1-Distill-Qwen-7B在MATH500上的官方性能从87.4%提升至91.2%。
大型语言模型(LLMs)在通用领域展现出了卓越的能力,但在需要专业知识的任务上往往表现欠佳。传统的检索增强生成(RAG)技术通常从静态知识库中检索外部信息,这些信息可能已过时或不完整,缺乏对准确医疗问答至关重要的精细临床细节。本研究中,我们提出了SearchRAG,一种新颖的框架,通过利用实时搜索引擎克服了这些限制。我们的方法采用合成查询生成技术,将复杂的医疗问题转化为适合搜索引擎的查询,并利用基于不确定性的知识选择机制,筛选并整合最相关且信息丰富的医学知识到LLM的输入中。实验结果表明,我们的方法显著提高了医疗问答任务中的回答准确性,特别是在需要详细和最新知识的复杂问题上。
大型语言模型(LLMs)在自然语言处理领域取得了显著进展,展现出卓越的任务泛化能力。低秩适应(LoRA)提供了一种经济高效的微调方案,它冻结原始模型参数,仅训练轻量级的低秩适配矩阵。然而,LoRA的内存占用主要由原始模型参数主导。为缓解这一问题,我们提出了LoRAM,一种基于内存高效的LoRA训练方案,其核心思想在于:在过参数化的LLMs中,许多神经元虽训练效用低,但对推理至关重要。LoRAM引入了一个独特的设计:它在剪枝后的小模型上进行训练,获得剪枝后的低秩矩阵,随后将这些矩阵恢复并与原始大模型结合用于推理。此外,模型发布者预先进行的最低成本持续预训练,有效弥合了剪枝模型与原始模型间的知识差异。我们的大量实验验证了LoRAM在多种剪枝策略及下游任务中的有效性。对于拥有700亿参数的模型,LoRAM仅需20G HBM的GPU即可完成训练,替代了LoRA训练所需的A100-80G GPU及全量微调所需的15块GPU。特别地,结合结构化剪枝与4位量化的QLoRAM,在LLaMA-3.1-70B(LLaMA-2-70B)上,将低秩矩阵训练中主导内存使用的参数存储成本降低了15.81倍(16.95倍),同时在性能上显著超越了原始LLaMA-3.1-70B(LLaMA-2-70B)及LoRA训练的LLaMA-3.1-8B(LLaMA-2-13B)。
姓名与人类身份紧密相连,它们不仅是个人独特性的标志,也承载着文化遗产与个人历史。然而,将姓名作为身份的核心标识可能导致对复杂身份的过度简化。在与大型语言模型(LLMs)互动时,用户姓名是实现个性化的重要信息点。姓名可能通过用户直接输入(由聊天机器人请求)、作为任务上下文的一部分(如简历审查)或作为内置记忆功能存储用户信息以实现个性化,进入聊天机器人对话。我们通过测量LLMs在回应常见建议寻求查询时产生的文化预设,研究了与姓名相关的偏见,这些查询可能涉及对用户的假设。我们的分析表明,在多种文化背景下,LLM生成的内容中存在着与姓名相关的强烈文化身份假设。本研究对设计更为细致的个性化系统具有启示意义,旨在避免强化刻板印象的同时,保持有意义的定制化。
大型语言模型(LLMs)的安全对齐仍存在脆弱性,其初始行为极易被相对简单的攻击所破解。鉴于现有LLMs普遍采用在输入指令与初始模型输出之间填充固定模板的做法,我们推测这一模板正是其脆弱性的关键所在:LLMs的安全相关决策过度依赖于模板区域聚合的信息,这极大地影响了模型的安全行为。我们将此问题称为模板锚定的安全对齐。本文通过大量实验验证了模板锚定的安全对齐在各类对齐后的LLMs中普遍存在。我们的机制分析揭示了它如何导致模型在遭遇推理时破解攻击时易受攻击。此外,我们展示了将安全机制与模板区域分离在缓解破解攻击脆弱性方面具有潜力。我们鼓励未来研究开发更为鲁棒的安全对齐技术,减少对模板区域的依赖。
当前训练过程奖励模型(PRMs)的方法通常依赖于基于规则的技巧来分解响应为多个推理步骤,例如使用预定义的占位符标记或将推理步骤的长度固定为特定尺寸。这些方法忽视了特定词汇通常并不真正标识文本中的决策点这一事实。为此,我们提出了AdaptiveStep方法,该方法依据模型预测下一个词的置信度来划分推理步骤。这种划分方式在每个步骤中提供了更多决策信息,从而增强了如奖励模型学习等下游任务的效果。此外,我们的方法无需人工标注。通过在数学推理和代码生成任务中对采用AdaptiveStep训练的PRMs进行实验,我们验证了其有效性。实验结果显示,所得到的PRM在Best-of-N性能上达到了当前最优水平,超越了基于词级别价值引导解码的贪婪搜索策略,同时与现有开源PRMs相比,构建成本降低了超过30%。此外,我们还对PRM的性能、可迁移性及泛化能力进行了深入分析和案例研究。
三维分子生成对于药物发现和材料设计至关重要。尽管先前的研究侧重于利用三维扩散模型在连续三维构象建模中的优势,但它们忽视了基于一维SELFIES的语言模型(LMs)的优点,后者能够生成100%有效的分子,并能利用数十亿规模的一维分子数据集。为了将这些优势结合用于三维分子生成,我们提出了一个基础模型——NExT-Mol:三维扩散与一维语言建模相结合的三维分子生成方法。NExT-Mol首先使用经过广泛预训练的分子LM进行一维分子生成,随后通过三维扩散模型预测生成分子的三维构象。我们通过扩大LM的模型规模、优化扩散神经架构以及应用一维到三维的迁移学习,显著提升了NExT-Mol的性能。值得注意的是,我们的一维分子LM在保证有效性的同时,在分布相似性上显著超越了基线模型,而我们的三维扩散模型在构象预测方面也达到了领先水平。鉴于这些在一维和三维建模上的改进,NExT-Mol在GEOM-DRUGS数据集上的全新三维生成任务中实现了26%的相对FCD提升,在QM9-2014数据集上的条件三维生成任务中平均获得了13%的相对增益。我们的代码和预训练检查点可在https://github.com/acharkq/NExT-Mol获取。
大型语言模型(LLMs)与多模态大型语言模型(MLLMs)在推理能力上取得了显著进展,但仍面临高计算需求与隐私保护等挑战。本文致力于开发高效的小型语言模型(SLMs)及多模态小型语言模型(MSLMs),在保持竞争力推理能力的同时,提出了一种创新的训练流程,该流程不仅增强了模型的推理能力,还便于在边缘设备上部署,实现了性能的顶尖水平,同时大幅降低了开发成本。\InfR~旨在通过缩小模型规模,提升AI系统的推理能力,降低应用门槛,并有效应对隐私问题。相关资源已发布于https://github.com/Reallm-Labs/InfiR。
作为现代人工智能基石,机器学习推动了彻底改变世界的创新。然而,在这些进步背后,隐藏着一个复杂且往往繁琐的过程,需要大量人力和计算资源进行迭代与实验。开发机器学习模型的工程师和科学家们,将大量时间耗费在试错任务上,而非构思创新解决方案或研究假设。为应对这一挑战,我们推出了AI驱动探索(AIDE),一个由大型语言模型(LLMs)赋能的机器学习工程代理。AIDE将机器学习工程视为代码优化问题,并将试错过程构建为潜在解决方案空间中的树搜索。通过策略性地复用和精炼有前景的解决方案,AIDE有效地以计算资源换取性能提升,在包括我们的Kaggle评估、OpenAI MLE-Bench和METRs RE-Bench在内的多个机器学习工程基准测试中,均取得了业界领先的成绩。
我们推出了TESS 2,这是一款通用的指令跟随扩散语言模型,其性能超越了当前经过指令调优的扩散模型,并在某些情况下与强大的自回归(AR)模型相媲美甚至更胜一筹。我们通过首先采用一个强大的AR模型,利用常规的交叉熵作为扩散损失进行持续预训练,随后进行进一步的指令调优来训练TESS 2。我们发现,适应训练以及基础模型的选择对于训练出优秀的指令跟随扩散模型至关重要。此外,我们提出了奖励引导,这是一种新颖且模块化的推理时引导方法,无需训练底层模型即可对齐模型输出。最后,我们展示了TESS 2随着推理时计算资源的增加而进一步改进,凸显了扩散语言模型在推理时对计算量进行细粒度控制的价值。代码和模型可在https://github.com/hamishivi/tess-2获取。
长期、开放领域的对话能力对于旨在回忆过往互动并展现情感智能(EI)的聊天机器人至关重要。然而,现有研究大多依赖合成、由大型语言模型(LLM)生成的数据,这导致对真实世界对话模式的探讨仍存疑问。为填补这一空白,我们引入了REALTALK,一个为期21天的真实即时通讯应用对话语料库,为直接评估与真实人类互动的表现提供了基准。 我们首先进行了数据集分析,聚焦于情感智能属性和角色一致性,以理解现实对话带来的独特挑战。通过与LLM生成的对话对比,我们揭示了关键差异,包括多样化的情感表达和角色稳定性的变化,这些往往是合成对话难以捕捉的。 基于这些洞察,我们提出了两项基准任务:(1)角色模拟,即模型在给定先前对话上下文的情况下,代表特定用户继续对话;(2)记忆探测,即模型回答需要长期记忆过去互动的针对性问题。 我们的研究发现,仅凭对话历史,模型难以准确模拟用户,而在特定用户聊天记录上进行微调则能提升角色模仿效果。此外,现有模型在回忆和利用现实对话中的长期上下文方面面临显著挑战。
利用大型语言模型(LLMs)进行相关性评估,为提升信息检索(IR)、自然语言处理(NLP)及相关领域提供了广阔前景。实际上,LLMs有望让IR实验者以当前所需人工劳动的一小部分构建评估集。这对于知识尚有限的新兴主题尤为有利,并能缓解在低资源环境下评估排序系统的挑战,这类环境中寻找人工标注者往往困难重重。鉴于该领域近期的快速发展,关于LLMs作为评估者的诸多问题仍有待解答。在需要进一步探究的方面中,我们可以列举出相关性判断生成流程中各个环节的影响,例如所使用的提示词或选定的LLM。 本文基准测试并报告了SIGIR 2024大会上LLMJudge挑战赛的大规模自动相关性判断评估结果,该挑战赛提出了多种相关性评估方法。具体而言,我们发布并基准测试了由参与挑战的八支国际团队生成的TREC 2023深度学习赛道相关性判断的42个LLM生成标签。鉴于其多样性,这些自动生成的相关性判断不仅有助于社区研究LLM引起的系统性偏差,还能探索集成模型的有效性,分析不同模型与人工评估者之间的权衡,并推进改进自动化评估技术的方法论。发布的资源可通过以下链接获取:https://llm4eval.github.io/LLMJudge-benchmark/
大型语言模型(LLMs)在工作环境中正被日益广泛地应用于各类任务,其在独立解决单一问题方面表现卓越。然而,它们是否也能在长期互动中有效协作呢?为探究此问题,我们引入了MemoryCode,一个合成的多会话数据集,旨在测试LLMs在模拟真实环境中追踪并执行简单编码指令的能力,同时处理无关信息。尽管所有测试模型均能良好处理孤立指令,但即便是如GPT-4o这样的顶尖模型,在指令分散于多个会话时,其表现也会显著下降。我们的分析表明,这归因于它们无法有效检索并整合长指令链中的信息。研究结果揭示了当前LLMs的一个根本性局限,限制了其在长期互动中有效协作的能力。
生成式推荐(GR)是一种新兴范式,它将用户行为离散化为令牌模式,并通过自回归方式生成预测结果。然而,现有的GR模型在令牌化时独立处理每个行为,为所有序列中的相同行为分配相同的固定令牌,而忽略了上下文关系。这种缺乏上下文感知的机制可能导致性能欠佳,因为相同的行为在不同上下文中可能具有不同的含义。为解决这一问题,我们提出了ActionPiece,在令牌化行为序列时显式地融入上下文信息。在ActionPiece中,每个行为被表示为一组物品特征,作为初始令牌。基于行为序列语料库,我们通过合并特征模式构建词汇表,这些新令牌的生成依据特征在单个集合内及相邻集合间的共现频率。考虑到特征集的无序性,我们进一步引入了集合排列正则化,它能够生成具有相同语义的行为序列的多种分割方式。在公开数据集上的实验表明,ActionPiece在NDCG@10指标上持续优于现有的行为令牌化方法,提升幅度达6.00%至12.82%。
大型语言模型(LLM)输出中的幻觉现象严重限制了其在知识密集型任务(如问答)中的可靠性。为应对这一挑战,我们提出了REFIND(检索增强的事实性幻觉检测),这是一种新颖的框架,通过直接利用检索到的文档来检测LLM输出中的幻觉片段。作为REFIND的一部分,我们引入了上下文敏感度比率(CSR),这一新指标量化了LLM输出对检索证据的敏感程度。这一创新方法使REFIND能够高效且准确地检测幻觉,从而与现有方法区分开来。在评估中,REFIND在包括低资源环境在内的九种语言中展现了鲁棒性,并显著超越了基线模型,在识别幻觉片段方面获得了更高的IoU分数。本研究强调了量化上下文敏感度在幻觉检测中的有效性,从而为跨多种语言开发更可靠、更值得信赖的LLM应用铺平了道路。
多项选择题问答(MCQA)因其简洁性和类人测试特性,在大语言模型(LLM)评估中广受欢迎,但我们主张对其进行改革。首先,我们揭示了MCQA格式的缺陷,它难以:1)测试生成能力与主观性;2)匹配LLM的实际应用场景;3)全面检验知识掌握程度。我们转而提倡基于人类测试的生成式评估方式——让LLM构建并解释答案——这样能更好地捕捉用户需求与知识掌握情况,同时保持评分简便。接着,我们指出即便MCQA在某些情况下是有效的评估形式,其数据集仍存在泄露、不可答性、捷径效应及饱和等问题。针对每项问题,我们借鉴教育领域的解决方案,如制定评分标准指导多选题编写;采用评分方法抑制猜测行为;以及运用项目反应理论构建更具挑战性的多选题。最后,我们探讨了LLM在MCQA中的错误表现——鲁棒性不足、偏见及不忠实的解释——并展示了我们先前提出的解决方案如何更有效地衡量或解决这些问题。虽然我们无需完全摒弃MCQA,但我们鼓励基于教育测试原理对该任务进行更多优化,以推动评估方法的进步。
大型视觉语言模型(LVLMs)近期因其卓越性能与广泛适用性而备受瞩目。尽管已有研究表明,在涉及非西方语境的使用场景中,这些模型的表现不尽如人意,但现有研究范围有限,仅覆盖了少数文化,专注于少量文化层面,或仅针对单一任务评估了有限数量的模型。为了推动全球包容性的LVLM研究,我们引入了GIMMICK,一个全面的多模态基准测试,旨在评估代表全球六大区域的144个国家中的广泛文化知识。GIMMICK包含基于三个新数据集的六项任务,涵盖了728个独特的文化事件或方面,我们在此基准上评估了20个LVLMs和11个LLMs,其中包括五个专有模型及26个不同规模的开源模型。我们系统性地考察了(1)区域文化偏见,(2)模型规模的影响,(3)输入模态,以及(4)外部提示。分析结果显示,所有模型和任务中均存在对西方文化的强烈偏见,并揭示了模型规模与性能之间的强相关性,以及多模态输入和外部地理提示的有效性。此外,我们发现模型对有形文化元素(如食物)的了解优于无形元素(如仪式),且在识别广泛文化起源方面表现出色,但在更细致入微的理解上则面临挑战。
现有的多语言视觉-语言(VL)基准通常仅涵盖少数几种语言。因此,对大型视觉-语言模型(LVLMs)的评估主要针对高资源语言,这凸显了对低资源语言评估数据的需求。为应对这一局限,我们引入了MVL-SIB,一个大规模多语言视觉-语言基准,它评估了205种语言中的跨模态和纯文本主题匹配——比现有最广泛的多语言VL基准多出100多种语言。随后,我们在一系列开放权重的LVLMs以及GPT-4o(迷你版)上对MVL-SIB进行了基准测试。结果显示,LVLMs在低资源语言的跨模态主题匹配上表现欠佳,对于如N'Koo这样的语言,其表现甚至不优于随机猜测。通过比较跨模态与纯文本主题匹配的表现,我们的分析进一步揭示,在低资源语言中,LVLMs的视觉-语言支持相对于文本支持呈不成比例下降。此外,我们观察到,开放权重的LVLMs并未因使用多张图像表示同一主题而获益,这表明这些模型在处理多图像任务方面尚未完全有效。通过将MVL-SIB上的表现与其他多语言VL基准相关联,我们强调MVL-SIB作为全面探测LVLMs多语言视觉-语言理解能力的工具。
尽管新视角合成(NVS)领域近期取得了进展,但从单张或稀疏观测中生成高保真视图仍面临重大挑战。现有的基于点云渲染的方法常因渲染误差导致几何失真。而基于扩散模型的方法虽能利用丰富的三维先验知识改善几何结构,却往往存在纹理幻觉问题。本文提出SplatDiff,一种像素点云引导的视频扩散模型,旨在从单张图像合成高保真新视角。具体而言,我们提出了一种对齐合成策略,以实现对目标视角的精确控制及几何一致的视图合成。为缓解纹理幻觉,我们设计了一个纹理桥接模块,通过自适应特征融合实现高保真纹理生成。如此,SplatDiff结合了点云渲染与扩散模型的优势,生成具有一致几何结构和高保真细节的新视角。大量实验验证了SplatDiff在单视图NVS中的领先性能。此外,无需额外训练,SplatDiff在稀疏视图NVS及立体视频转换等多种任务上展现了卓越的零样本性能。
半监督异构域适应(SHDA)致力于解决特征表示和分布截然不同的跨域学习问题,其中源域样本带有标签,而目标域样本大多无标签,仅有一小部分被标注。此外,源域与目标域样本之间不存在一一对应关系。尽管已开发出多种SHDA方法来应对这一挑战,但跨异构域传递的知识本质仍不明确。本文从实证角度深入探讨了这一问题。我们在约330个SHDA任务上进行了广泛实验,采用了两种监督学习方法和七种代表性SHDA方法。出乎意料的是,我们的观察表明,源域样本的类别信息和特征信息对目标域性能的影响并不显著。此外,从简单分布中抽取的噪声,当作为源域样本时,可能蕴含可迁移的知识。基于这一发现,我们进行了一系列实验以揭示SHDA中可迁移知识的基本原理。具体而言,我们为SHDA设计了一个统一的知识迁移框架(KTF)。基于KTF,我们发现SHDA中的可迁移知识主要源于源域的可迁移性和判别性。因此,确保源域样本具备这些属性,无论其来源如何(如图像、文本、噪声),都能提升SHDA任务中知识迁移的效果。代码与数据集可在https://github.com/yyyaoyuan/SHDA获取。
从自然语言问题生成SPARQL查询的能力,对于确保从知识图谱(KG)中高效准确地检索结构化数据至关重要。尽管大型语言模型(LLMs)在SPARQL查询生成中已被广泛采用,但在基于内部参数知识生成如统一资源标识符(URIs)等KG元素时,它们往往容易产生幻觉和分布外错误。这通常导致生成的内容看似合理实则事实错误,为其在现实世界信息检索(IR)应用中的使用带来了重大挑战。因此,针对此类错误的检测与缓解研究日益增多。本文提出了PGMR(后生成记忆检索),一个模块化框架,它引入了一个非参数记忆模块来检索KG元素,从而增强基于LLM的SPARQL查询生成。实验结果表明,PGMR在多种数据集、数据分布及LLMs上均展现出稳定的优异性能。尤为突出的是,PGMR显著减少了URI幻觉问题,在多个场景下几乎完全消除了这一现象。