每日精选AI研究论文及翻译
最近多模态模型的进展突显了改写标题以提高性能的价值,但仍存在关键挑战。例如,尽管合成标题通常提供更优质的质量和图像文本对齐,但尚不清楚它们是否能完全取代AltTexts:合成标题及其与原始网络抓取的AltTexts在预训练中的作用仍不为人了解。此外,不同的多模态基础模型可能对特定标题格式有独特偏好,但为每个模型确定最佳标题的努力仍然有限。在这项工作中,我们提出了一种新颖、可控且可扩展的字幕生成流程,旨在生成多样的标题格式,以适应各种多模态模型。通过将短合成标题(SSC)转向密集合成标题(DSC+)作为案例研究,我们系统地探讨它们与AltTexts在CLIP、多模态LLMs和扩散模型等模型中的影响和互动。我们的研究结果表明,保留合成标题和AltTexts两者的混合方法可以优于仅使用合成标题,提高对齐和性能,每个模型都展现出对特定标题格式的偏好。这一全面分析为优化字幕策略提供了宝贵的见解,从而推动多模态基础模型的预训练。
变压器架构在各种模型中占主导地位。作为变压器的核心,注意力的计算复杂度为O(N^2),而线性变换为O(N)。在处理大序列长度时,注意力成为主要耗时组件。尽管量化已被证明是加速模型推断的有效方法,但现有的量化方法主要集中在优化线性层。为此,我们首先详细分析了在注意力中量化的可行性。随后,我们提出了SageAttention,这是一种高效准确的注意力量化方法。我们的方法的每秒操作数(OPS)优于FlashAttention2和xformers约2.1倍和2.7倍。SageAttention在准确性表现上也优于FlashAttention3。全面的实验证实了我们的方法在各种模型上几乎不会造成端到端指标损失,包括用于大型语言处理、图像生成和视频生成的模型。
我们提出了一种用于零样本度量单目深度估计的基础模型。我们的模型Depth Pro能够合成具有无与伦比的清晰度和高频细节的高分辨率深度图。预测是度量的,具有绝对尺度,无需依赖诸如相机内参等元数据的可用性。该模型速度快,在标准GPU上能够在0.3秒内生成一张225万像素的深度图。这些特性得益于多项技术贡献,包括用于密集预测的高效多尺度视觉Transformer,结合真实和合成数据集的训练协议以实现高度度量准确性和精细边界跟踪,专门用于评估估计深度图中边界准确性的评估指标,以及来自单张图像的最先进焦距估计。广泛的实验分析了特定设计选择,并表明Depth Pro在多个方面优于先前的工作。我们在https://github.com/apple/ml-depth-pro发布了代码和权重。
视频大型多模态模型(LMMs)的发展受到了从网络中筛选大量高质量原始数据的困难的阻碍。为了解决这一问题,我们提出了一种替代方法,即专门为视频指令跟随创建高质量合成数据集,即LLaVA-Video-178K。该数据集包括详细字幕生成、开放式问题回答(QA)和多项选择题QA等关键任务。通过在该数据集上训练,结合现有的视觉指令微调数据,我们引入了一种新的视频LMM,即LLaVA-Video。我们的实验表明,LLaVA-Video在各种视频基准测试中取得了出色的性能,突显了我们数据集的有效性。我们计划发布数据集、生成流程以及模型检查点。
在几分钟的时间尺度内生成内容丰富的长视频是令人期待但具有挑战性的。自回归大型语言模型(LLMs)在自然语言处理领域生成连贯且长序列的标记方面取得了巨大成功,而自回归LLMs在视频生成方面的探索仅限于生成几秒钟的短视频。在这项工作中,我们对阻碍基于自回归LLM的视频生成器生成长视频的挑战进行了深入分析。基于观察和分析,我们提出了Loong,这是一个新的基于自回归LLM的视频生成器,可以生成长达一分钟的视频。具体而言,我们将文本标记和视频标记建模为自回归LLMs的统一序列,并从头开始训练模型。我们提出了渐进式的短到长训练,并采用损失重新加权方案来缓解长视频训练中的损失不平衡问题。我们进一步研究了推理策略,包括视频标记重新编码和采样策略,以减少推理过程中的错误累积。我们提出的Loong可以在10秒的视频上进行训练,并可扩展到生成以文本提示为条件的长达一分钟的视频,实验结果证明了这一点。更多样本可在以下链接找到:https://epiphqny.github.io/Loong-video。
对比语言-图像预训练(CLIP)是一种备受赞誉的方法,用于训练视觉编码器生成图像/文本表示,促进各种应用。最近,CLIP已被广泛采用作为多模态大型语言模型(MLLMs)的视觉骨干,以连接图像输入以进行语言交互。CLIP作为视觉-语言基础模型的成功依赖于在图像级别对齐网络爬取的嘈杂文本注释。然而,这样的标准对于需要细粒度视觉表示的下游任务可能不足,特别是当对MLLMs来说,区域级别的理解对任务要求较高时。在本文中,我们通过几项进展改进了CLIP的定位能力。我们提出了一种名为对比定位语言-图像预训练(CLOC)的预训练方法,通过补充CLIP与区域-文本对比损失和模块。我们构建了一个新概念,即可提示的嵌入,其中编码器生成易于根据空间提示转换为区域表示的图像嵌入。为了支持大规模预训练,我们设计了一个视觉丰富且空间定位的字幕框架,以有效生成规模化的区域-文本伪标签。通过扩展到数十亿个带注释图像,CLOC实现了用于图像区域识别和检索任务的高质量区域嵌入,并可以作为CLIP的替代以增强MLLMs,特别是在指代和定位任务上。
我们介绍了LLaVA-Critic,这是第一个开源的大型多模态模型(LMM),旨在作为通用评估器,评估广泛的多模态任务性能。LLaVA-Critic使用高质量的评论指令跟随数据集进行训练,该数据集包含多样的评估标准和场景。我们的实验表明该模型在两个关键领域的有效性:(1)LMM作为评判者,在多个评估基准上,LLaVA-Critic提供可靠的评估分数,表现与或超过GPT模型;(2)偏好学习,它为偏好学习生成奖励信号,增强模型对齐能力。这项工作强调了开源LMM在自我批评和评估中的潜力,为未来研究提供了舞台,探讨LMM的可扩展、超人类对齐反馈机制。
大型语言模型(LLMs)已被证明在广泛的自然语言处理任务以及更广泛的领域中都非常高效。然而,对它们出色性能起源的全面理论分析仍然难以捉摸。在本文中,我们通过将具有大小为T的词汇和大小为K的上下文窗口的通用自回归语言模型与定义在大小为O(T^K)的有限状态空间上的马尔可夫链进行等价,来尝试解决这一具有挑战性的任务。我们得出了几个关于捕获LLMs推理能力的马尔可夫链的平稳分布的存在、它们收敛速度以及温度对后者的影响的令人惊讶的发现。然后,我们证明了预训练和上下文泛化界限,并展示了如何通过所得到的等价关系丰富它们的解释。最后,我们通过对几个最近的LLMs进行实验来说明我们的理论保证,以突出它们捕捉到的实践中观察到的行为。
无分类器指导(CFG)对于改善扩散模型中生成质量和输入条件与最终输出之间的对齐至关重要。虽然通常需要较高的指导尺度来增强这些方面,但也会导致过饱和和不真实的伪影。在本文中,我们重新审视了CFG更新规则,并引入了修改以解决这一问题。我们首先将CFG中的更新项分解为与条件模型预测平行和正交的两个分量,并观察到平行分量主要导致过饱和,而正交分量则提高了图像质量。因此,我们提出减小平行分量的权重以实现高质量的生成而不过饱和。此外,我们将CFG与梯度上升之间建立联系,并基于这一见解引入了一种新的重新缩放和动量方法用于CFG更新规则。我们的方法,称为自适应投影指导(APG),保留了CFG的提高质量优势,同时使得可以在不过饱和的情况下使用更高的指导尺度。APG易于实现,并在采样过程中几乎不增加额外的计算负担。通过大量实验证明,APG与各种条件扩散模型和采样器兼容,导致改进的FID、召回率和饱和度分数,同时保持与CFG可比的精度,使我们的方法成为标准无分类器指导的卓越即插即用替代方案。
大型语言模型(LLMs)越来越多地应用于需要执行多个复杂步骤才能获得奖励的复杂推理任务。正确地为这些步骤分配信用对于提高模型性能至关重要。Proximal Policy Optimization(PPO)是一种用于LLM微调的最先进的强化学习(RL)算法,它使用价值网络来处理信用分配。然而,在复杂推理任务中,价值网络在准确预测预期累积奖励方面面临挑战,通常导致高方差更新和次优性能。在这项工作中,我们系统评估了价值网络的有效性,并揭示了它们在重推理LLM任务中的重大缺陷,表明在比较替代步骤时,它们几乎只能略胜一筹。为了解决这个问题,我们提出了VinePPO,这是一种简单的方法,利用语言环境的灵活性来计算无偏的基于蒙特卡洛的估计,从而避免了对大型价值网络的需求。我们的方法在MATH和GSM8K数据集上始终优于PPO和其他无RL基线,而且梯度更新次数更少(高达9倍),墙钟时间更短(高达3.0倍)。这些结果强调了在LLM的RL微调中准确的信用分配的重要性,并展示了VinePPO作为一个更优越替代方案的潜力。
语音助手,如Siri和Google助手,通常将音频和文本分开建模,导致语音信息丢失并增加复杂性。最近的努力通过端到端语音大型语言模型(LLMs)进行训练,采用监督微调(SFT)来解决这个问题,导致模型“遗忘”了来自仅文本LLMs的功能。我们的工作提出了一种替代范式,用于训练语音LLMs而无需指导数据,利用仅文本LLMs对转录的响应作为自我监督。重要的是,这个过程可以在没有注释响应的情况下进行。我们展示了我们的精简语音助手(DiVA)推广到口语问答、分类和翻译。此外,我们展示了DiVA更好地符合用户偏好,与Qwen 2 Audio等最先进模型相比,获得了72%的胜率,尽管使用的训练计算量少于100倍。
密集文档嵌入是神经检索的核心。主导范式是通过直接在单个文档上运行编码器来训练和构建嵌入。在这项工作中,我们认为这些嵌入虽然有效,但对于检索的目标用例来说隐含着脱离上下文,并且一个具有上下文的文档嵌入应该考虑文档本身和上下文中的相邻文档,类似于上下文化词嵌入。我们提出了两种互补的上下文化文档嵌入方法:首先,是一种替代对比学习目标,明确将文档邻居纳入批内上下文损失;其次,是一种新的上下文化架构,明确将邻居文档信息编码到编码表示中。结果表明,这两种方法在多个设置中均比双编码器表现更好,尤其在领域外表现明显。我们在MTEB基准测试中取得了最先进的结果,无需硬负采样、分数蒸馏、特定于数据集的指导、GPU内示例共享或极大的批量大小。我们的方法可用于提高任何对比学习数据集和任何双编码器的性能。
近年来,对比语言-图像预训练(CLIP)已成为多模态智能的基石。然而,最近的研究发现,CLIP 编码过程中存在大量信息丢失,CLIP 倾向于仅捕获输入中的粗粒度特征。这种不足显著限制了单个 CLIP 模型处理视觉细节丰富的图像的能力。在这项工作中,我们提出了一种简单而有效的模型无关策略,即多样化多重升级(DMU),用于 CLIP。DMU 有效地微调一系列捕获不同特征空间的 CLIP 模型,这些模型来自于一个稠密预训练的 CLIP 检查点,参数共享,除了前馈网络(FFN)。然后,这些模型可以转换为具有更大模型容量的 CLIP-MoE,从而显著提高性能,而计算开销最小。据我们所知,多样化多重升级是第一个在 CLIP 基础模型中引入稀疏激活 MoE 的方法。大量实验证明了 CLIP-MoE 在各种零样本检索、零样本图像分类任务和下游多模态大型语言模型(MLLM)基准上的显著性能,作为视觉编码器。此外,多样化多重升级使得任何稠密 CLIP 模型都能转换为 CLIP-MoE,可以在下游框架中以即插即用的方式无缝替换 CLIP,而无需进一步调整。通过多样化多重升级,我们旨在为未来研究提供有关开发更高效和有效的多模态学习系统的宝贵见解。
软件工程师主要通过编辑现有程序来编写代码。相比之下,大型语言模型(LLMs)会自回归地在单次遍历中合成程序。其中一个解释是开源编辑数据的稀缺性。尽管用于代码合成的高质量指导数据已经稀缺,但高质量的编辑数据更加稀缺。为了填补这一空白,我们开发了一种名为LintSeq的合成数据生成算法。该算法通过使用一个代码检查器来程序化地采样无错误插入,将现有代码重构为一系列代码编辑的序列。它将编辑序列输出为由连续程序差异组成的文本字符串。为了测试LintSeq,我们将其用于将一组指令+程序对的数据集重构为指令+程序差异序列元组。然后,我们对一系列从2.6B到14B参数的较小LLMs进行指令微调,使用这个数据集的重构版本和原始版本,在代码合成基准测试中比较零样本性能。我们展示了在重复采样过程中,编辑序列微调模型产生比基线更多样化的程序。这导致了更好的基准覆盖推理时间扩展,即作为样本函数的问题“pass@k”的分数,即给定“k”次尝试中任何尝试解决的问题的比例。例如,在HumanEval pass@50上,微调了合成编辑序列的小型LLMs在绝对分数上与GPT-4竞争,并在绝对分数上比在基线数据集上微调的模型表现出+20%(+/-3%)的优势。最后,我们还对我们自己的微型LM进行了代码理解的预训练。我们展示了在合成代码编辑上微调微型模型会产生适用于设备模型类的最先进代码合成。我们的1.5亿参数编辑序列LM与具有两倍参数的代码模型相匹配或表现优异,无论是否进行重复采样,包括Codex和AlphaCode。
长文本模型(LCMs)近年取得了显著进展,为用户处理涉及长篇背景的任务(如文档摘要)提供了极大便利。随着社区对生成结果忠实性的重视日益增加,仅确保LCM输出的准确性是不够的,因为人类很难验证极其长篇背景的结果。尽管一些努力已经开始评估LCMs是否真实地基于背景作出响应,但这些工作要么局限于特定任务,要么严重依赖像GPT-4这样的外部评估资源。在本研究中,我们引入了L-CiteEval,这是一个涵盖引文的长篇背景理解综合多任务基准,旨在评估LCMs的理解能力和忠实性。L-CiteEval涵盖了来自不同领域的11项任务,涵盖的背景长度从8K到48K不等,并提供了完全自动化的评估套件。通过对11个尖端闭源和开源LCMs进行测试,我们发现尽管这些模型在生成结果上存在细微差异,但开源模型在引文准确性和召回率方面明显落后于闭源模型。这表明目前的开源LCMs很容易基于其固有知识而非给定背景作出响应,这对实际应用中的用户体验构成重大风险。我们还评估了RAG方法,并观察到RAG能够显著提高LCMs的忠实性,尽管会略微降低生成质量。此外,我们发现LCMs的注意机制与引文生成过程之间存在相关性。
检索增强生成(RAG)已被证明能够提升大型语言模型(LLMs)的事实准确性,但现有方法在有效利用检索证据时往往存在推理能力有限的问题,特别是在使用开源LLMs时。为了弥补这一差距,我们引入了一种新颖的框架,Open-RAG,旨在增强使用开源LLMs的RAG的推理能力。我们的框架将任意的密集LLM转换为能够处理复杂推理任务的参数高效的稀疏专家混合模型(MoE),包括单跳和多跳查询。Open-RAG独特地训练模型以应对看似相关但具有误导性的具有挑战性的干扰因素。因此,Open-RAG利用潜在学习,动态选择相关专家并有效整合外部知识,以获得更准确和具有情境相关性的响应。此外,我们提出了一种混合自适应检索方法,以确定检索的必要性并平衡性能提升与推理速度之间的权衡。实验结果表明,基于Llama2-7B的Open-RAG在各种知识密集型任务中优于最先进的LLMs和RAG模型,如ChatGPT、Self-RAG和Command R+。我们在https://openragmoe.github.io/开源我们的代码和模型。
我们研究了视觉-语言模型(VLMs)的内部表示,以解决幻觉问题,尽管模型规模和训练取得了进展,但幻觉问题仍然是一个持久的挑战。我们将VLMs的内部图像表示投影到它们的语言词汇,并观察到对于真实对象,输出概率比幻觉对象更加自信。我们另外利用这些输出概率来空间定位真实对象。基于这种方法,我们引入了一种知识消除算法,通过将图像特征与幻觉对象特征正交化,从而消除幻觉。我们展示了对模型的潜在表示进行有针对性的编辑可以在COCO2014数据集上将幻觉减少高达25.7%,同时保持性能。我们的研究结果表明,对VLMs的潜在表示有更深入的理解可以增强可靠性,并实现新的能力,比如零样本分割。
大型语言模型(LLMs)以其在文本数据中的多功能性而闻名,越来越多地被探索其潜力,以增强医学图像分割,这是准确诊断成像的关键任务。本研究通过整合预训练的LLM变换器块,探讨了增强用于医学图像分割的Vision Transformers(ViTs)。我们的方法将一个冻结的LLM变换器块整合到基于ViT的模型的编码器中,导致在各种医学成像模态下分割性能显著提高。我们提出了一种混合注意力机制,结合全局和局部特征学习,以及一个多尺度融合块,用于跨不同尺度聚合特征。增强模型显示出显著的性能提升,包括平均Dice分数从0.74提高到0.79,以及准确性、精确度和Jaccard指数的改善。这些结果展示了基于LLM的变换器在优化医学图像分割方面的有效性,突显了它们显著提升模型准确性和鲁棒性的潜力。源代码和我们的实现可在以下链接找到:https://bit.ly/3zf2CVs
自主代理已经展示了在自动化复杂多步决策任务方面的巨大潜力。然而,即使是最先进的视觉语言模型(VLMs),如GPT-4o,在复杂网络环境和长期规划任务中仍然无法达到人类水平的表现。为了解决这些限制,我们引入了反思蒙特卡洛树搜索(R-MCTS),这是一种新颖的测试时间算法,旨在增强AI代理的能力,例如由GPT-4o驱动,以实时探索决策空间。R-MCTS通过以下方式扩展了传统MCTS:1)融入对比反思,使代理能够从过去的互动中学习并动态提高其搜索效率;2)使用多代理辩论来提供可靠的状态评估。此外,我们通过自学习对GPT-4o进行微调,使用R-MCTS生成的树遍历,而无需任何人工提供的标签,以提高代理的性能。在具有挑战性的VisualWebArena基准测试中,我们基于GPT-4o的R-MCTS代理相对于先前最先进技术,在各种任务中实现了6%至30%的相对改进。此外,我们展示了从测试时间搜索中获得的知识可以通过微调有效地转移到GPT-4o。经过微调的GPT-4o在测试时间将性能与R-MCTS的97%相匹配,同时将计算使用量减少了四倍。此外,定性结果显示,经过微调的GPT-4o模型展示了探索环境、评估状态以及在检测到当前状态无法成功时回溯到可行状态的能力。此外,我们的工作展示了在训练 - 使用R-MCTS进行数据收集 - 和测试时间中的计算扩展特性。这些结果表明了通过测试时间搜索和自学习来增强VLMs的推理和规划能力以用于代理应用的有前途的研究方向。
最近关于体积渲染的研究,例如NeRF和3D高斯光斑(3DGS),通过学习的隐式神经辐射场或3D高斯函数显著提高了渲染质量和效率。在显式表示的基础上进行渲染,基本的3D高斯光斑及其变体通过在训练过程中每次迭代优化参数模型以实现实时效率,这一方法源自NeRF。因此,某些视角被过度拟合,导致新视角合成的外观不尽如人意,以及3D几何形状不够精确。为了解决上述问题,我们提出了一种新的3D高斯光斑优化方法,包含四个关键的创新贡献:1)我们将传统的单视角训练范式转变为多视角训练策略。通过我们提出的多视角调节,3D高斯特性得到进一步优化,避免过度拟合某些训练视角。作为一种通用解决方案,我们在各种场景和不同高斯变体中提高了整体准确性。2)受到额外视角带来的好处启发,我们进一步提出了一种交叉内在引导方案,引导进行不同分辨率的由粗到细的训练过程。3)在我们的多视角调节训练基础上,我们进一步提出了一种交叉射线致密化策略,从一组视角中在射线相交区域密集更多的高斯核。4)通过进一步研究致密化策略,我们发现当某些视角差异显著时,致密化效果应该得到增强。作为解决方案,我们提出了一种新颖的多视角增强致密化策略,鼓励3D高斯函数根据需要致密化到足够数量,从而提高重建准确性。
最近越来越多的人认为现代大型多模态模型(LMMs)已经解决了与短视频理解相关的大部分关键挑战。因此,学术界和工业界逐渐将注意力转向理解长视频所带来的更复杂挑战。然而,事实真的是这样吗?我们的研究表明,即使处理短视频,LMMs仍然缺乏许多基本的推理能力。我们引入了Vinoground,一个包含1000个短自然视频-字幕对的时间反事实LMM评估基准。我们展示现有的LMMs在区分不同动作和物体转换之间的时间差异方面遇到了严重困难。例如,最佳模型GPT-4o只在我们的文本和视频分数上获得了约50%,与人类基准约90%相比存在很大差距。所有开源多模态模型和基于CLIP的模型表现得更差,主要产生随机的准确率。通过这项工作,我们揭示了短视频中的时间推理仍然是一个尚未完全解决的问题。数据集和评估代码可在https://vinoground.github.io 上获得。
通过研究基于规则系统的复杂性如何影响训练用于预测这些规则的模型的能力,我们探讨了人工系统中智能行为的出现。我们的研究集中在基本元胞自动机(ECA)上,这是一种简单但功能强大的一维系统,能够产生从琐碎到高度复杂的行为。通过在不同的ECA上训练不同的大型语言模型(LLMs),我们评估了规则行为的复杂性与LLMs展现的智能之间的关系,这体现在它们在下游任务中的表现上。我们的研究发现,具有更高复杂性的规则会导致模型展现出更大的智能,这表现在它们在推理和国际象棋走法预测任务上的表现上。无论是均匀还是周期性系统,甚至是高度混沌的系统,都导致下游表现较差,突显了有利于智能的复杂性的平衡点。我们推测智能源于预测复杂性的能力,并且创造智能可能只需要接触复杂性。
我们提出了Synthio,这是一种新颖的方法,用于通过合成数据来增强小规模音频分类数据集。我们的目标是在有限标记数据的情况下提高音频分类的准确性。传统的数据增强技术,如应用人工转换(例如添加随机噪音或遮蔽片段),很难创建能够捕捉真实世界音频中存在的真实多样性的数据。为了解决这一缺点,我们提出使用从文本到音频(T2A)扩散模型生成的合成音频来增强数据集。然而,合成有效的增强是具有挑战性的,因为生成的数据不仅应该在声学上与基础小规模数据集保持一致,而且还应具有足够的组成多样性。为了克服第一个挑战,我们使用偏好优化将T2A模型的生成与小规模数据集对齐。这确保了生成数据的声学特征与小规模数据集保持一致。为了解决第二个挑战,我们提出了一种新颖的标题生成技术,利用大型语言模型的推理能力来(1)生成多样且有意义的音频标题,以及(2)迭代地提高它们的质量。生成的标题然后用于提示对齐的T2A模型。我们在十个数据集和四个模拟有限数据设置上对Synthio进行了广泛评估。结果表明,我们的方法在仅在弱标记的AudioSet上训练的T2A模型上始终优于所有基线方法,提高了0.1%-39%。
我们展示了,具有数百万参数的小型预训练基础生成语言模型可以从与该过程相关的数据中学习过程的潜在规则。受斯特凡·茨威格的中篇小说《国王游戏》启发,我们展示了具有 28M 和 125M 参数的预训练基础小语言模型(SLMs)可以通过 1,000 到 1,000,000 个示例进行指导微调,以学习国际象棋的规则,提出合法移动,并准确解决国际象棋问题。我们还探讨了连续语言模型微调时期对改善结果的影响,并通过增加指导微调示例的数量展示了减少模型幻觉的效果。
模型合并,如模型混合,是将具有相同架构的不同模型结合在一起而无需进一步训练的做法。在这项工作中,我们提出了一种模型合并方法,解决了在非英语语言中为目标任务微调大型语言模型(LLMs)的困难,其中任务特定数据通常不可用。我们专注于数学推理,在没有语言内数学数据的情况下,通过组合语言和数学能力促进跨语言转移。从相同的预训练模型开始,我们在英语数学指导数据和目标语言通用指导数据上分别对“专家”进行微调。然后,我们直接用语言专家的层替换数学专家的顶部和底部Transformer层,从而增强目标语言中的数学性能。合并后的模型在数学基准测试MGSM中表现优于单个专家和其他合并方法,跨四种主要语言,其中数学指导数据稀缺,性能提高了10%。此外,这种层交换简单、廉价且直观,因为它基于对每个专家微调过程中最重要参数变化的解释性分析。成功以这种方式重新组合LLMs以实现跨语言转移的能力,为将来结合模型专业知识、创建模块化解决方案以及跨语言传递推理能力打开了未来可能性。
最近对3D大型语言模型(3DLLMs)的进展突显了它们在构建通用代理在3D真实世界中的潜力,然而由于缺乏高质量的强大指令遵循数据,导致3DLLMs的辨别能力和泛化能力受限,挑战依然存在。在本文中,我们介绍了Robin3D,这是一个强大的3DLLM,它是在我们的新颖数据引擎Robust Instruction Generation(RIG)引擎生成的大规模指令遵循数据上进行训练的。RIG生成了两种关键指令数据:1)对抗指令遵循数据,其中包含混合的负面和正面样本,以增强模型的辨别理解能力。2)多样化指令遵循数据,其中包含各种指令风格,以增强模型的泛化能力。因此,我们构建了100万条指令遵循数据,包括344K个对抗样本、508K个多样化样本和165K个基准训练集样本。为了更好地处理这些复杂指令,Robin3D首先引入了关系增强投影仪以增强空间理解,然后通过ID-Feature Bonding加强了对象引用和定位能力。Robin3D在五个广泛使用的3D多模态学习基准测试中始终优于先前的方法,而无需进行特定任务的微调。值得注意的是,我们在定位任务(Multi3DRefer)中实现了7.8\%的改进,在字幕任务(Scan2Cap)中实现了6.9\%的改进。
基于提示的微调已成为一种重要方法,用于从预训练语言模型中提取编码的信息,适用于各种任务,包括文本分类。对于多类分类任务,在资源稀缺情况下进行基于提示的微调已导致性能水平与完全微调方法相媲美。先前的研究使用精心设计的提示模板和语言化器,从标签术语空间映射到类空间,将分类问题解决为掩码语言建模任务。然而,跨领域和细粒度的基于提示的微调与自动丰富的语言化器仍未被探索,主要是因为手动选择领域标签术语用于语言化器的困难和成本高昂,需要具有领域专业知识的人类。为了解决这一挑战,我们引入了SciPrompt,这是一个旨在为资源稀缺的文本分类任务自动检索科学主题相关术语的框架。为此,我们在科学文献的背景下选择语义相关且领域特定的标签术语,用于语言化器增强。此外,我们提出了一种新的语言化策略,利用相关性分数作为额外权重,以增强语言模型在模型调整期间的预测性能。我们的方法在少量和零次迁移设置下,在科学文本分类任务中胜过了最先进的基于提示的微调方法,特别是在对细粒度和新兴科学主题进行分类时。