每日精选AI研究论文及翻译
我们推出了Meta MLGym与MLGym-Bench,这是一套全新的框架与基准测试,旨在评估和开发面向AI研究任务的大语言模型(LLM)智能体。这是首个专为机器学习(ML)任务设计的Gym环境,为研究训练此类智能体的强化学习(RL)算法提供了平台。MLGym-Bench包含了13项来自不同领域的多样化且开放式的AI研究任务,涵盖计算机视觉、自然语言处理、强化学习及博弈论等。解决这些任务需要具备现实世界中的AI研究技能,如生成新想法与假设、创建与处理数据、实施ML方法、训练模型、运行实验、分析结果,并通过这一过程迭代以提升特定任务的表现。我们在基准测试中评估了多款前沿大语言模型,包括Claude-3.5-Sonnet、Llama-3.1 405B、GPT-4o、o1-preview及Gemini-1.5 Pro。MLGym框架简化了添加新任务、集成与评估模型或智能体、大规模生成合成数据以及开发新学习算法以训练AI研究任务智能体的过程。我们发现,当前的前沿模型能够通过寻找更优的超参数来改进给定基线,但尚未能生成新颖的假设、算法、架构或实现显著提升。我们开源了此框架与基准测试,以促进未来在提升LLM智能体AI研究能力方面的探索。
我们推出了SigLIP 2,这是一系列基于原版SigLIP成功经验的多语言视觉-语言编码器。在此次迭代中,我们将原有的图文训练目标与多项先前独立开发的技术相结合,形成了一套统一的训练方案——这包括基于字幕的预训练、自监督损失(自蒸馏、掩码预测)以及在线数据筛选。通过这些改进,SigLIP 2模型在所有模型规模的核心能力上均超越了其前代SigLIP,这些能力涵盖零样本分类、图文检索,以及为视觉-语言模型(VLMs)提取视觉表征时的迁移性能。此外,新的训练方案还显著提升了定位和密集预测任务的表现。我们还训练了支持多种分辨率并保持输入原始宽高比的变体模型。最后,我们在包含去偏技术的更加多样化的数据混合上进行训练,从而大幅提升了多语言理解能力并增强了公平性。为了让用户能够在推理成本与性能之间做出权衡,我们发布了四种规模的模型检查点:ViT-B(86M)、L(303M)、So400m(400M)和g(1B)。
大型语言模型(LLMs)在数学、物理和计算机科学等主流学科领域展现出了卓越的能力。然而,人类知识涵盖超过200个专业学科,远超出现有基准测试的范围。LLMs在众多专业领域,尤其是轻工业、农业和服务导向型学科中的表现,仍缺乏充分评估。为填补这一空白,我们提出了SuperGPQA,一个全面评估285个学科研究生水平知识与推理能力的基准测试。我们的基准采用了一种新颖的人机协作过滤机制,通过基于LLM响应和专家反馈的迭代优化,剔除简单或模糊的问题。实验结果表明,当前最先进的LLMs在多样化知识领域(例如,以推理为核心的模型DeepSeek-R1在SuperGPQA上取得了61.82%的最高准确率)仍有显著提升空间,凸显了当前模型能力与人工通用智能之间的巨大差距。此外,我们分享了管理大规模标注过程的全面见解,涉及超过80位专家标注员及一个互动式人机协作系统,为未来类似规模的研究项目提供了宝贵的方法论指导。
大型语言模型(LLMs)在许多任务上的表现,很大程度上受限于预训练期间学习并存储于模型参数中的知识。低秩适应(LoRA)作为一种流行且高效的训练技术,常用于LLMs的更新或领域特定适应。本研究探讨了如何在不损害已学知识的前提下,利用LoRA将新事实融入LLM。我们采用LoRA对Llama-3.1-8B-instruct进行了微调,并引入了不同量的新知识。实验表明,当训练数据混合已知与新事实时,效果最佳。然而,这种方法仍存在潜在风险,因为微调后模型在外部问答基准上的表现有所下降。当训练数据偏向某些实体时,模型倾向于回归到少数过度代表的答案。此外,我们发现模型在仅少数情况下变得更加自信,并拒绝提供答案。这些发现揭示了基于LoRA的LLM更新可能存在的陷阱,并强调了训练数据构成与调参在平衡新知识整合与模型通用能力方面的重要性。
增加大语言模型(LLM)在测试时的计算资源,已在多个领域展现出潜力,但在代码生成方面却仍待深入探索,尽管在数学领域已有广泛研究。本文提出S*,首个混合测试时扩展框架,显著提升了生成代码的覆盖范围与选择准确性。S*在现有并行扩展范式基础上,引入顺序扩展,以突破性能极限。此外,它采用了一种新颖的选择机制,自适应地生成用于成对比较的区分性输入,并结合执行基础信息,以稳健识别正确解决方案。我们在12个大语言模型和大推理模型上进行了评估,结果表明:(1)S*持续提升不同模型家族及规模的性能,使一个3B模型超越GPT-4o-mini;(2)S*使非推理模型超越推理模型——搭载S*的GPT-4o-mini在LiveCodeBench上比o1-preview高出3.7%;(3)S*进一步提升了顶尖推理模型的表现——结合S*的DeepSeek-R1-Distill-Qwen-32B在LiveCodeBench上达到85.7%,接近o1(高)的88.5%。代码将发布于https://github.com/NovaSky-AI/SkyThought。
受DeepSeek-R1成功的启发,我们探索了基于规则的强化学习(RL)在大型推理模型中的潜力。为了分析推理动态,我们采用合成逻辑谜题作为训练数据,因其复杂度可控且答案验证直接。我们做出了一些关键的技术贡献,实现了高效且稳定的RL训练:强调思维与答题过程的系统提示、严格格式的奖励函数以惩罚走捷径的输出,以及一个实现稳定收敛的简洁训练方案。我们的7B模型发展出了逻辑语料库中未见的先进推理技能——如反思、验证和总结。值得注意的是,仅经过5千个逻辑问题的训练后,该模型在具有挑战性的数学基准测试AIME和AMC上展现出了泛化能力。
实现可扩展的容错量子计算,预计将依赖于量子纠错码。在追求更高效的量子容错过程中,一个关键的编码参数是用于提取错误信息以进行纠错的测量权重:由于更高的测量权重需要更高的实现成本并引入更多错误,因此在编码设计中优化测量权重至关重要。这推动了人们对量子低密度奇偶校验(qLDPC)码日益增长的兴趣,其研究主要集中在渐近(大码限)特性上。在本研究中,我们引入了一种基于强化学习(RL)的通用且计算高效的稳定子码权重降低方法,该方法生成了新的低权重码,在实际相关参数范围内显著超越了现有技术水平,并大幅扩展了之前可触及的小距离范围。例如,对于权重为6的编码,我们的方法相比现有结果在物理量子比特开销上节省了1到2个数量级,并将开销带入了近未来实验的可行范围。我们还利用RL框架研究了编码参数之间的相互作用,为实际可行的编码策略的潜在效率和能力提供了新的见解。总体而言,我们的结果表明,RL如何有效推进量子码发现这一关键而具挑战性的问题,从而加速容错量子技术的实际实现进程。
近期研究证实了LLM(大语言模型)测试时扩展的有效性。然而,现有方法在激励LLM深度思考能力方面,通常需要大规模数据或大量训练投入。同时,如何提升性能较弱的基础模型的思考能力仍不明确。本研究中,我们提出了S^2R框架,通过教导模型在推理过程中自我验证与自我修正,高效地增强了LLM的推理能力。具体而言,我们首先利用精心筛选的数据进行监督微调,初始化LLM的迭代自我验证与自我修正行为。随后,通过结果层面和过程层面的强化学习,以最小化资源需求的方式,进一步强化这些自我验证与修正技能,使模型能在推理过程中自适应地优化其推理流程。实验结果显示,仅使用3.1k个自我验证与修正行为初始化样本,Qwen2.5-math-7B的准确率从51.0%提升至81.6%,优于同等量长链思维蒸馏数据训练的模型。基于三个基础模型在领域内及跨领域基准上的广泛实验与分析,验证了S^2R的有效性。我们的代码与数据公开于https://github.com/NineAbyss/S2R。
尽管语言模型提取事实的能力已得到广泛研究,但其如何处理随时间变化的事实仍鲜有探讨。我们通过电路分析发现了“时间头”——主要负责处理时间知识的特定注意力头。我们证实,这些时间头存在于多个模型中,尽管其具体位置可能有所不同,且它们的响应会因知识类型及其对应年份而异。禁用这些时间头会削弱模型回忆特定时间知识的能力,同时保持其一般能力,且不影响时间不变性和问答表现。此外,这些时间头不仅对数字条件(如“2004年”)有响应,也对文本别名(如“在……年”)有响应,表明它们编码了超越简单数字表示的时间维度。更进一步,我们通过展示如何通过调整这些时间头的值来编辑时间知识,拓展了研究发现的潜在应用。
现有的大型视觉-语言模型(LVLMs)虽能处理多达128k视觉与文本标记的输入,但在生成超过1000字的连贯输出时仍显吃力。我们发现,这一局限主要源于监督微调(SFT)阶段缺乏长输出示例。为解决此问题,我们推出了LongWriter-V-22k,一个包含22,158个样本的SFT数据集,每个样本包含多张输入图像、一条指令及对应输出,输出长度从0到10,000字不等。此外,为确保长输出与输入图像保持高保真度,我们对SFT模型采用了直接偏好优化(DPO)。鉴于收集长输出(如3000字)的人类反馈成本高昂,我们提出了IterDPO方法,将长输出分段处理,并通过迭代修正与原输出形成偏好对。同时,我们开发了MMLongBench-Write基准测试,包含六项任务,用于评估视觉-语言模型的长文本生成能力。我们的7B参数模型,结合LongWriter-V-22k和IterDPO训练,在该基准测试中表现卓越,超越了如GPT-4o等更大规模的专有模型。代码与数据详见:https://github.com/THU-KEG/LongWriter-V。
在多模态大语言模型(MLLM)驱动的图形用户界面(GUI)代理领域,相较于智能手机,个人电脑(PC)场景不仅呈现出更为复杂的交互环境,还涉及更为精细的应用内及跨应用工作流程。针对这些挑战,我们提出了一种名为PC-Agent的分层代理框架。具体而言,从感知层面出发,我们设计了主动感知模块(APM),以克服当前MLLM在截图内容理解上的不足。在决策层面,为更高效地处理复杂的用户指令及相互依赖的子任务,我们提出了一种分层多代理协作架构,将决策过程分解为指令-子任务-动作三个层级。该架构中,分别设立了管理代理、进度代理和决策代理,分别负责指令分解、进度跟踪及逐步决策。此外,还引入了反思代理,以实现自下而上的及时错误反馈与调整。我们还推出了包含25条真实世界复杂指令的新基准测试PC-Eval。在PC-Eval上的实验结果表明,PC-Agent相较于之前的最优方法,任务成功率实现了32%的绝对提升。相关代码将公开提供。
大型语言模型(LLMs)的快速发展催生了对严谨且全面评估方法的新需求。传统的人工标注因生成高质量、高难度问题所涉及的复杂性和成本而日益显得不切实际。本研究中,我们提出了CHASE框架,这是一个无需人工干预、利用LLMs合成生成挑战性问题的统一框架。针对特定任务,我们的方法从简单组件自底向上构建难题。此外,该框架将生成过程分解为可独立验证的子任务,从而确保了高质量与正确性。我们应用CHASE在三个不同领域创建了评估基准:(1)基于文档的问答,(2)仓库级别的代码补全,以及(3)数学推理。在这些合成基准上,当前最先进的LLMs表现出的准确率介于40%至60%之间,有效证明了我们框架在生成挑战性问题方面的效能。我们公开了这些基准及代码。
生成式文本到图像模型的个性化已取得显著进展,但将这种个性化扩展到文本到视频模型则面临独特挑战。与静态概念不同,个性化文本到视频模型具备捕捉动态概念的潜力,即不仅通过外观定义实体,还通过其运动来定义。本文提出了一种名为“集合与序列”的新框架,用于将基于扩散变换器(DiTs)的生成视频模型与动态概念进行个性化。我们的方法在未明确分离空间与时间特征的架构中,构建了一个时空权重空间。这一目标通过两个关键阶段实现:首先,我们利用视频中无序帧集微调低秩适应(LoRA)层,学习一个代表外观的身份LoRA基,不受时间干扰;其次,在冻结身份LoRA的基础上,通过运动残差增强其系数,并在完整视频序列上进行微调,以捕捉运动动态。我们的“集合与序列”框架构建了一个时空权重空间,有效将动态概念嵌入视频模型的输出域,实现了前所未有的可编辑性和组合性,同时为动态概念的个性化设立了新标杆。
大型语言模型(LLMs)在语言处理方面展现了卓越的能力,但在需要真正视觉空间推理的任务上往往表现欠佳。本文提出了一种新颖的两阶段训练框架,旨在为标准的LLMs赋予迷宫导航所需的视觉推理能力。首先,我们利用监督微调(SFT)技术,在一个经过精心挑选的符号化迷宫表示数据集上训练模型,使其能够预测逐步移动指令。接着,我们采用深度探索R1(DeepSeekR1)中的组相对策略优化(GRPO)方法,结合精心设计的奖励函数,以优化模型的序列决策能力,并促使其产生链式思维行为。在合成生成的迷宫上的实验结果表明,基线模型无法完成迷宫导航,而经过SFT训练的模型达到了86%的准确率,进一步的GRPO微调则将准确率提升至93%。定性分析显示,GRPO促进了更稳健且具备自我修正能力的推理过程,凸显了我们的方法在弥合语言模型与视觉空间任务之间差距的潜力。这些发现为机器人技术、自主导航以及其他需要整合视觉与序列推理的领域应用提供了有前景的启示。
大型语言模型(LLMs)在处理长序列方面展现了显著潜力,然而,由于预填充阶段注意力机制的二次计算复杂度以及解码阶段键值(KV)缓存的大内存占用,高效服务这些长上下文模型仍具挑战。为解决这些问题,我们引入了LServe,一个通过混合稀疏注意力加速长序列LLM服务的高效系统。该方法将预填充和解码阶段的不同硬件友好型结构化稀疏模式统一到一个框架中,其中对重要性较低的令牌进行块级跳过计算。LServe展示了静态与动态稀疏性在长上下文LLM注意力机制中的兼容性。这一设计通过结合这些优化实现了乘法级的加速。具体而言,我们将预填充和解码阶段中一半的注意力头转换为近乎零成本的流式处理头。此外,我们发现无论上下文长度如何,仅需恒定数量的KV页面即可保持长上下文能力。随后,我们设计了一种基于查询中心相似性的分层KV页面选择策略,动态修剪KV页面。平均而言,LServe在保持长上下文准确性的同时,将LLM预填充速度提升至vLLM的2.9倍,解码速度提升1.3至2.1倍。代码已发布于https://github.com/mit-han-lab/omniserve。
针对包含丰富文本的图像(如图表和文档)进行推理,是视觉-语言模型(VLMs)的关键应用之一。然而,由于多样化的文本密集型视觉-语言数据稀缺,VLMs在这些领域往往表现不佳。为应对这一挑战,我们提出了CoSyn框架,该框架利用纯文本大语言模型(LLMs)的编码能力,自动生成合成文本密集型多模态数据。给定描述目标领域(如“营养标签”)的输入文本,CoSyn会引导LLM生成用于渲染合成图像的代码(如Python、HTML、LaTeX等)。借助这些代码作为合成图像的文本表示,CoSyn能够再次依赖纯文本LLM生成高质量的指令调优数据。通过CoSyn,我们构建了一个包含40万张图像和270万行视觉-语言指令调优数据的数据集。在七个基准测试上的全面实验表明,使用我们合成数据训练的模型在包括Llama 3.2在内的竞争性开源模型中实现了最先进的性能,并超越了GPT-4V和Gemini 1.5 Flash等专有模型。此外,CoSyn还能生成合成指向数据,使VLMs能够在输入图像中定位信息,展示了其开发能够在现实环境中执行任务的多模态代理的潜力。
我们持续获取、组织并利用知识的能力,是人类智能的关键特征,也是人工智能系统必须模拟以实现其全部潜力的核心要素。鉴于大型语言模型(LLMs)在持续学习方面面临的挑战,检索增强生成(RAG)已成为引入新信息的主导方式。然而,RAG对向量检索的依赖限制了其模拟人类长期记忆动态与互联特性的能力。近期RAG方法通过结合知识图谱等多种结构来增强向量嵌入,旨在弥补理解力与关联性方面的不足。但它们在基础事实记忆任务上的表现却显著低于标准RAG。针对这一非预期的性能下降,我们提出了HippoRAG 2框架,该框架在事实记忆、理解力及关联记忆任务上全面超越标准RAG。HippoRAG 2基于HippoRAG中使用的个性化PageRank算法,通过更深层次的段落整合及更高效的LLM在线应用加以强化。这一组合使RAG系统更接近人类长期记忆的效能,在关联记忆任务上较当前最先进的嵌入模型提升了7%,同时展现出更优的事实知识与理解记忆能力。本工作为LLMs的非参数持续学习开辟了道路。我们的代码与数据将在https://github.com/OSU-NLP-Group/HippoRAG 发布。
扩散变换器在推动文本到图像和文本到视频生成方面发挥着关键作用,这主要归功于其固有的可扩展性。然而,现有的可控扩散变换器方法由于未能考虑控制信息在不同变换器层中的相关性差异,导致了显著的参数和计算开销,并存在资源分配效率低下的问题。为解决这一问题,我们提出了基于相关性的高效可控生成框架——RelaCtrl,实现了控制信号在扩散变换器中的高效且资源优化的集成。首先,我们通过评估“ControlNet相关性评分”——即在推理过程中跳过每个控制层对生成质量和控制效果的影响——来衡量扩散变换器各层与控制信息的相关性。根据相关性强弱,我们随后定制控制层的位置、参数规模和建模能力,以减少不必要的参数和冗余计算。此外,为进一步提升效率,我们将常用复制块中的自注意力机制和前馈网络替换为精心设计的二维混洗混合器(TDSM),实现了令牌混合器和通道混合器的高效实现。定性和定量实验结果均表明,与PixArt-delta相比,我们的方法仅需15%的参数和计算复杂度即可达到更优的性能。更多示例请访问https://relactrl.github.io/RelaCtrl/。
图像地理定位是一项预测图像具体位置的任务,需要在视觉、地理和文化背景之间进行复杂的推理。尽管现有的视觉语言模型(VLMs)在此任务上具有最佳准确率,但高质量的数据集和分析推理模型仍显匮乏。我们首先创建了NaviClues,这是一个源自热门地理游戏GeoGuessr的高质量数据集,旨在提供语言层面的专家推理示例。利用该数据集,我们提出了Navig,一个综合性的图像地理定位框架,整合了全局和细粒度的图像信息。通过语言推理,Navig将平均距离误差较之前的最先进模型降低了14%,且所需训练样本不足1000个。我们的数据集和代码可在https://github.com/SparrowZheyuan18/Navig/获取。
大型语言模型(LLM)开发者日益依赖合成数据,但为复杂的长上下文推理任务生成高质量数据仍具挑战性。我们提出了CLIPPER,一种基于压缩的方法,专门用于生成针对叙事性声明验证的合成数据——这一任务要求通过整本书的推理来验证给定声明。与直接从书籍原始文本生成声明(这会导致声明充满人工痕迹)不同,CLIPPER首先将书籍压缩为章节概要和书籍摘要,然后利用这些中间表示来生成复杂的声明及相应的思维链。与简单方法相比,CLIPPER生成的声明更加有效、有据可依且复杂。借助CLIPPER,我们构建了一个包含19,000条合成书籍声明的数据集,每条声明均与其源文本及思维链推理配对,并利用该数据集微调了三个开放权重模型。我们的最佳模型在叙事性声明验证上取得了突破性成果(测试集准确率从28%提升至76%),并在NoCha排行榜上为10B以下模型设立了新的技术标杆。进一步分析表明,我们的模型生成了更为详尽且基于事实的思维链推理,同时在其他叙事理解任务(如NarrativeQA)上的表现也有所提升。
大型多模态模型(LMMs)在广泛的视觉任务中展现了卓越的能力。然而,它们在细粒度视觉推理方面往往表现欠佳,难以识别特定领域的目标,也无法为其预测提供合理的解释。为解决这一问题,我们提出了一种新颖的视觉拒绝采样框架,通过自我合成数据来提升LMMs的认知与可解释性。具体而言,视觉微调需要图像、查询及目标答案。我们的方法首先生成包含可验证视觉特征的可解释答案,这些特征基于专家定义的概念,并依据其与图像内容的契合度精心挑选。每轮微调后,我们采用无奖励模型的过滤机制,筛选出最高质量的可解释答案用于下一轮调优。通过这种数据合成与微调的迭代过程,模型生成准确且合理解释的能力逐步提升。实验结果表明,该方法在提升专业视觉分类任务的准确性和可解释性方面效果显著。
奖励模型在训练视觉-语言模型(VLMs)中扮演着关键角色,通过评估输出质量来实现与人类偏好的对齐。尽管其重要性不言而喻,研究界仍缺乏全面的开放基准来评估VLMs中的多模态奖励模型。为填补这一空白,我们推出了Multimodal RewardBench,这是一个专家标注的基准,涵盖六大领域:通用正确性、偏好、知识、推理、安全性和视觉问答。我们的数据集包含从多种VLMs中收集的5,211个标注的(提示、优选响应、拒绝响应)三元组。在评估一系列VLM评判者时,我们发现即使表现最佳的模型,如Gemini 1.5 Pro和Claude 3.5 Sonnet,整体准确率也仅为72%。值得注意的是,大多数模型在推理和安全性领域表现欠佳。这些发现表明,Multimodal RewardBench为跨多个领域推进奖励模型的发展提供了一个具有挑战性的测试平台。我们已在https://github.com/facebookresearch/multimodal_rewardbench上发布了该基准。
为各类数据驱动的人工智能和机器学习模型准备高质量数据集,已成为数据驱动分析中的基石任务。传统的数据发现方法通常围绕单一预定义的质量指标整合数据集,这可能导致下游任务产生偏差。本文提出了MODis框架,该框架通过优化多个用户定义的模型性能指标来发现数据集。给定一组数据源和一个模型,MODis选择并整合数据源,形成一个天际线数据集,在此之上,模型有望在所有性能指标上达到预期表现。我们将MODis建模为一个多目标有限状态转换器,并推导出三种可行的算法来生成天际线数据集。我们的第一个算法采用“从全集缩减”策略,从通用模式出发,逐步剔除无望的数据。第二个算法通过双向策略进一步降低成本,该策略交替进行数据增强与缩减。我们还引入了一种多样化算法,以减轻天际线数据集中的偏差。我们通过实验验证了天际线数据发现算法的效率与有效性,并展示了其在优化数据科学流程中的应用。
大型语言模型(LLMs)的快速发展为推荐系统开辟了新的机遇,使其能够实现无需传统训练的零样本推荐。尽管潜力巨大,但现有研究大多仅依赖用户的购买历史,通过整合用户生成的文本数据(如评论和产品描述)仍有显著提升空间。针对这一不足,我们提出了PURE,一种基于LLM的新型推荐框架,它通过系统性地提取和总结用户评论中的关键信息,构建并维护动态演化的用户画像。PURE包含三个核心组件:用于识别用户偏好和关键产品特征的评论提取器、用于精炼和更新用户画像的画像更新器,以及利用最新画像生成个性化推荐的推荐器。为评估PURE,我们引入了一项连续序列推荐任务,该任务通过随时间添加评论并逐步更新预测,反映了现实世界场景。在亚马逊数据集上的实验结果表明,PURE在有效利用长期用户信息的同时,妥善处理了令牌限制,其性能优于现有的基于LLM的方法。
生成具有分布外特性的新型分子是分子发现领域的一项重大挑战。尽管监督学习方法能够生成与数据集中相似的高质量分子,但在泛化至分布外特性方面却存在困难。强化学习虽能探索新的化学空间,却常陷入“奖励欺骗”并生成难以合成的分子。本研究通过将先进的监督学习方法STGG+整合至主动学习循环中,有效解决了这一问题。我们的方法通过迭代生成、评估及微调STGG+,持续扩展其知识库,我们将此方法命名为STGG+AL。我们将STGG+AL应用于有机π功能材料的设计,具体针对两项挑战性任务:1)生成以高振子强度为特征的高吸收性分子;2)设计在近红外(NIR)范围内具有合理振子强度的吸收性分子。所生成的分子通过时间依赖密度泛函理论进行了计算机模拟验证与合理化分析。结果表明,相较于强化学习(RL)等现有方法,我们的方法在生成高振子强度新型分子方面极为高效。我们开源了主动学习代码,以及包含290万π共轭分子的Conjugated-xTB数据集,以及基于sTDA-xTB的振子强度与吸收波长近似计算功能。
近期研究表明,大型视觉-语言模型(VLMs)往往忽视图像内容,过度依赖语言模型的先验知识,导致在视觉基础任务中出现错误和幻觉。我们推测,这一问题的根源在于现有VLMs未经过明确训练以生成与图像细粒度细节准确对应的文本。为了增强VLM训练期间的视觉反馈,我们提出了S-VCO(对称视觉对比优化),这是一种新颖的微调目标,旨在引导模型捕捉重要视觉细节并将其与相应的文本标记对齐。为进一步促进这种细节对齐,我们引入了MVC,这是一个通过自动筛选和增强视觉反事实数据构建的配对图像-文本数据集,旨在通过涉及最小视觉对比的困难对比案例挑战模型。实验表明,我们的方法在涵盖多种能力和领域的多样化基准测试中持续提升了VLM的性能,实现了高达22%的幻觉减少,并在视觉中心及通用任务上取得了显著进步。值得注意的是,这些改进在视觉依赖性更高的基准测试中愈发明显。简而言之,S-VCO在保持甚至提升模型通用能力的同时,显著增强了VLM在视觉依赖任务上的表现。我们的代码已在https://s-vco.github.io/开源。
地理定位,即识别图像所在位置的任务,需要复杂的推理能力,对于导航、监控及文化保护至关重要。然而,现有方法往往只能提供粗略、不精确且难以解释的定位结果。这一领域面临的主要挑战在于现有地理定位数据集的质量与规模。这些数据集通常规模较小且为自动构建,导致数据噪声大、任务难度不一致,图像要么过于简单直接暴露答案,要么缺乏足够线索进行可靠推断。为应对这些挑战,我们提出了一套全面的地理定位框架,包含三个核心组件:GeoComp,一个大规模数据集;GeoCoT,一种新颖的推理方法;以及GeoEval,一个评估指标,三者协同设计,旨在解决关键难题并推动地理定位研究的进步。该框架的核心是GeoComp(地理定位竞赛数据集),这是一个从地理定位游戏平台收集的大规模数据集,涉及74万用户历时两年的参与。它包含了2500万条元数据条目和300万个遍布全球大部分地区的地理标记位置,每个位置由人类用户标注了数千至数万次。该数据集提供了多样化的难度级别,便于深入分析,并突显了当前模型的关键不足。基于此数据集,我们提出了地理链式思维(GeoCoT),一种新颖的多步推理框架,旨在增强大型视觉模型(LVMs)在地理定位任务中的推理能力。GeoCoT通过多步过程整合上下文与空间线索,模拟人类地理定位的推理方式,从而提升性能。最后,利用GeoEval指标,我们证明了GeoCoT将地理定位准确率显著提高了高达25%,同时增强了结果的可解释性。
大型语言模型(LLMs)能够根据用户查询从极长的上下文中生成连贯的摘要。提取并恰当引用证据片段有助于提升这些摘要的透明度和可靠性。然而,LLMs在处理和理解信息时存在位置偏差,这可能影响证据的引用。以往的研究多聚焦于预定义粒度(如句子、段落、文档等)的证据引用,我们则提出了长上下文查询聚焦摘要与无结构证据引用的任务。我们揭示了现有系统在从其上下文中生成并正确引用无结构证据方面的困难,以及证据往往“迷失在中间”的现象。为缓解这一问题,我们创建了“无结构证据文本摘要数据集”(SUnsET),这是一个通过新颖的领域无关流程生成的合成数据集,可作为监督数据来调整LLMs以适应此任务。我们通过五种不同规模的LLMs和四种包含多样文档类型及长度的数据集进行验证,发现使用SUnsET数据调整后的LLMs相较于基础模型,能生成更相关且事实一致的证据,从上下文中更广泛的位置提取证据,并能生成更相关且一致的摘要。
在信息误传的时代,幻觉——即大型语言模型(LLMs)生成非事实或不忠实回应的倾向——构成了其全球应用的主要风险。尽管LLMs正日益多语言化,但绝大多数关于检测和量化LLM幻觉的研究(a)以英语为中心,(b)集中于机器翻译(MT)和摘要生成,这些任务在现实场景中远不如开放信息检索常见。与此相对,我们旨在量化LLMs在知识密集型长问答任务中跨语言的幻觉程度。为此,我们训练了一个多语言幻觉检测模型,并在30种语言和6个开源LLM家族中进行了大规模研究。我们从英语幻觉检测数据集出发,依赖MT生成其他语言的(含噪声)训练数据。同时,我们手动标注了五种高资源语言的黄金数据;随后,我们证明,在这些语言中,幻觉率的估计在银(LLM生成)测试集与黄金测试集之间相似,验证了使用银数据估算其他语言幻觉率的有效性。为最终估算幻觉率,我们构建了一个涵盖30种语言的知识密集型问答数据集,其中包含LLM生成的提示和维基百科文章作为参考。我们发现,虽然LLMs为高资源语言生成了更长的回答,包含更多幻觉词汇,但语言的长度标准化幻觉率与其数字表征之间并无关联。此外,我们还发现,较小的LLM比大型模型表现出更高的幻觉率。