每日精选AI研究论文及翻译
预训练数据集通常从网络内容中收集,缺乏固有的领域划分。例如,广泛使用的Common Crawl数据集并未包含明确的领域标签,而手动整理如The Pile这样的标注数据集则费时费力。因此,尽管优化预训练数据混合对提升预训练性能具有显著益处,但确定最佳预训练数据混合仍是一个具有挑战性的问题。为应对这些挑战,我们提出了基于聚类的迭代数据混合自举框架(CLIMB),这是一个在预训练环境中自动发现、评估并优化数据混合的框架。具体而言,CLIMB将大规模数据集嵌入并聚类于语义空间,随后利用较小的代理模型和预测器迭代搜索最优混合方案。当我们的1B模型在4000亿个token上持续训练并采用此混合方案时,其性能超越了当前最先进的Llama-3.2-1B模型2.0%。此外,我们观察到针对特定领域(如社会科学)进行优化,相比随机采样可带来5%的性能提升。最后,我们推出了ClimbLab,一个包含20个聚类、经过筛选的1.2万亿token语料库,作为研究平台;以及ClimbMix,一个紧凑而强大的4000亿token数据集,专为高效预训练设计,在同等token预算下展现出卓越性能。我们分析了最终的数据混合,阐明了最优数据混合的特征。我们的数据可在以下网址获取:https://research.nvidia.com/labs/lpr/climb/。
前沿模型在生成扩展推理轨迹时,无意中产生了丰富的标记序列,这些序列有助于模型蒸馏。意识到这一漏洞,模型所有者可能会寻求在不影响模型性能的前提下限制蒸馏效果的采样策略。反蒸馏采样正是提供了这种能力。通过策略性地修改模型的下一个标记概率分布,反蒸馏采样污染了推理轨迹,使其在蒸馏中的效果大幅降低,同时保持了模型的实际效用。更多详情,请参见https://antidistillation.com。
我们提出了一种名为FramePack的神经网络结构,用于训练视频生成中的下一帧(或下一帧片段)预测模型。FramePack通过压缩输入帧,使得无论视频长度如何,Transformer的上下文长度都保持固定。因此,我们能够利用视频扩散处理大量帧,同时计算瓶颈与图像扩散相似。这也使得训练视频的批量大小显著提高(批量大小变得与图像扩散训练相当)。我们还提出了一种防漂移采样方法,该方法以倒序时间顺序生成帧,并预先设定端点,以避免暴露偏差(迭代过程中的误差累积)。最后,我们展示了现有视频扩散模型可以通过FramePack进行微调,并且由于下一帧预测支持更平衡的扩散调度器,减少了极端流移时间步长,其视觉质量可能得到提升。
视觉语言模型(VLMs)在视觉理解方面表现出色,但常常面临视觉幻觉问题,即生成对不存在物体、动作或概念的描述,这在安全关键应用中构成重大风险。现有的幻觉缓解方法通常遵循两种范式之一:生成调整,即修改解码行为以使文本与视觉输入对齐;以及事后验证,即通过外部模型评估并修正输出。尽管有效,生成调整方法往往依赖启发式规则且缺乏修正机制,而事后验证则较为复杂,通常需要多个模型,并倾向于拒绝输出而非精炼它们。在本研究中,我们引入了REVERSE,一个统一框架,将幻觉感知训练与实时自我验证相结合。通过利用包含超过130万半合成样本的新幻觉验证数据集,以及一种新颖的推理时回顾重采样技术,我们的方法使VLMs能够在生成过程中检测幻觉并动态修正这些幻觉。评估结果显示,REVERSE在减少幻觉方面达到了最先进水平,在CHAIR-MSCOCO上比现有最佳方法高出12%,在HaloQuest上高出28%。我们的数据集、模型及代码可在以下网址获取:https://reverse-vlm.github.io。
我们推出了感知编码器(Perception Encoder, PE),这是一种通过简单的视觉-语言学习训练而成、用于图像和视频理解的最先进编码器。传统上,视觉编码器依赖于多种预训练目标,每种目标都针对特定的下游任务(如分类、字幕生成或定位)进行了定制。令人惊讶的是,在扩展了我们精心调整的图像预训练方案并通过我们强大的视频数据引擎进行优化后,我们发现仅对比视觉-语言训练就能为所有这些下游任务生成强大且通用的嵌入表示。唯一需要注意的是:这些嵌入隐藏在网络的中间层中。为了提取它们,我们引入了两种对齐方法:用于多模态语言建模的语言对齐,以及用于密集预测的空间对齐。结合核心对比检查点,我们的PE模型家族在广泛的任务上实现了最先进的性能,包括零样本图像和视频分类与检索;文档、图像和视频问答;以及检测、深度估计和跟踪等空间任务。为了促进进一步研究,我们将发布我们的模型、代码以及一个包含合成和人工标注视频的新颖数据集。
世界模拟因其能够建模虚拟环境并预测行为后果而日益受到关注。然而,有限的时间上下文窗口常常导致在维持长期一致性方面出现失败,特别是在保持三维空间一致性时。在本研究中,我们提出了WorldMem框架,该框架通过一个由存储记忆帧和状态(如姿态和时间戳)的记忆单元组成的内存库来增强场景生成。通过采用一种基于记忆帧状态有效提取相关信息的记忆注意力机制,我们的方法能够准确重建先前观察到的场景,即使存在显著的视角或时间间隔。此外,通过将时间戳纳入状态,我们的框架不仅模拟了一个静态世界,还捕捉了其随时间的动态演变,从而在模拟世界中实现了感知与交互。在虚拟和真实场景中的大量实验验证了我们方法的有效性。
大型语言模型(LLMs)的规模迅速增长,为在资源受限硬件上的高效部署带来了显著挑战。本文提出了一种无损压缩框架——动态长度浮点数(DFloat11),该框架能将LLM的规模减少30%,同时保持输出与原始模型在比特级别上完全一致。DFloat11的灵感来源于LLMs中BFloat16权重表示的低熵特性,这揭示了现有存储格式的效率低下。通过应用熵编码,DFloat11根据权重频率分配动态长度编码,实现了近乎信息最优的压缩,且无精度损失。为了支持动态长度编码的高效推理,我们开发了一种定制GPU内核,用于快速在线解压。我们的设计包含以下要素:(i) 将内存密集型的查找表(LUTs)分解为适合GPU SRAM的紧凑LUTs,(ii) 采用两阶段内核,利用轻量级辅助变量协调线程的读写位置,(iii) 在Transformer块级别进行解压以最小化延迟。在包括Llama-3.1、Qwen-2.5和Gemma-3在内的最新模型上的实验验证了我们的假设,即DFloat11能在保持比特级精确输出的同时,实现约30%的模型规模缩减。与将未压缩模型部分卸载至CPU以满足内存限制的潜在替代方案相比,DFloat11在令牌生成上实现了1.9至38.8倍的吞吐量提升。在固定GPU内存预算下,DFloat11支持比未压缩模型长5.3至13.17倍的上下文长度。尤为突出的是,我们的方法使得810GB的Llama-3.1-405B模型能够在配备8x80GB GPU的单节点上实现无损推理。我们的代码和模型可在https://github.com/LeanModels/DFloat11获取。
尽管数据合成与蒸馏是增强小型语言模型的有效策略,但现有方法严重依赖大型语言模型(LLMs),这些模型存在计算成本高、环境效率低以及从单一架构中继承潜在偏见等问题。相比之下,小型LLMs更具可访问性和可持续性,但其个体能力在生成高质量、多样且可靠的数据方面往往不足。受人类协作过程(如同行评审)的启发,我们提出了一个多小型LLMs参与的框架——GRA,该框架通过聚合小型LLMs的专门角色,实现通常由单一大型LLM完成的迭代优化与质量控制。在这一协作框架中,多个小型LLMs承担不同角色——生成器、评审员和仲裁者,以模拟一个受同行评审启发的数据合成流程。生成器提出初始数据样本,评审员对其质量和多样性进行评价,仲裁者则解决冲突以最终确定输出。通过将合成过程分解为专门子任务,协作的小型LLMs能够在数据层面达到与基于大型LLM蒸馏相当的水平。通过多项基准测试,我们证明GRA生成的数据质量与单一大型LLM(如Qwen-2.5-72B-Instruct)的输出相当甚至更优。我们的研究结果挑战了高质量数据合成必须依赖单一大型模型的必要性,转而提倡对小型智能体进行战略协调。我们的数据集、模型及代码已公开于https://github.com/GX-XinGao/GRA。
图表无处不在,人们常用其分析数据、解答问题并挖掘关键洞见。然而,利用图表执行复杂的分析任务需要大量的感知与认知努力。图表问答系统(CQA)通过使模型能够解读并推理数据的视觉表示,自动化了这一过程。然而,现有的基准测试如ChartQA缺乏现实世界的多样性,且近期在现代大型视觉语言模型(LVLMs)上表现出性能饱和。为应对这些局限,我们推出了ChartQAPro,这一新基准包含来自157个不同来源的1,341张图表,涵盖多种图表类型,包括信息图和仪表板,并设计了1,948道问题,题型多样,如选择题、对话式问题、假设性问题及不可答问题,以更好地反映现实世界的挑战。我们对21个模型的评估显示,LVLMs在ChartQAPro上的性能显著下降;例如,Claude Sonnet 3.5在ChartQA上得分为90.5%,而在ChartQAPro上仅为55.81%,凸显了图表推理的复杂性。我们通过详细的错误分析和消融研究补充了发现,识别出提升LVLMs在图表理解与推理方面能力的关键挑战与机遇。ChartQAPro已发布于https://github.com/vis-nlp/ChartQAPro。
基于大型语言模型(LLMs)构建的大型视频模型(LVMs)在视频理解方面展现出潜力,但常面临与人类直觉不符及视频幻觉问题。为解决这些挑战,我们提出了VistaDPO,一种新颖的视频层次时空直接偏好优化框架。VistaDPO在三个层次上增强文本与视频的偏好对齐:i) 实例层面,确保视频整体内容与回答一致;ii) 时间层面,使视频时间语义与事件描述相匹配;iii) 感知层面,将空间对象与语言标记对齐。鉴于缺乏细粒度视频-语言偏好对齐的数据集,我们构建了VistaDPO-7k,一个包含7.2K问答对的数据集,每个问答对均标注了优选与拒绝回答,以及时空定位信息,如时间戳、关键帧和边界框。在视频幻觉、视频问答及字幕生成等基准测试上的广泛实验表明,VistaDPO显著提升了现有LVMs的性能,有效缓解了视频与语言间的错位及幻觉现象。代码与数据已公开于https://github.com/HaroldChen19/VistaDPO。
文本到图像(T2I)生成模型取得的成功,催生了大量基于同一基础模型在不同专业数据集上微调的模型检查点。这种大规模的专业模型生产带来了参数冗余和存储成本高昂的新挑战,因此亟需开发有效方法,将多种强大模型的能力整合统一到一个模型中。模型合并的常见做法是在参数空间采用静态线性插值,以实现风格混合的目标。然而,这种方法忽视了T2I生成任务的特点,即众多不同模型涵盖了多种风格,可能导致合并后的模型出现不兼容和混淆问题。为解决这一问题,我们引入了一种风格可提示的图像生成流程,能够在风格向量的控制下精确生成任意风格的图像。基于这一设计,我们提出了基于分数蒸馏的模型合并范式(DMM),将多个模型压缩为一个多功能的T2I模型。此外,我们重新思考并重新定义了T2I生成背景下的模型合并任务,提出了新的合并目标和评估协议。实验表明,DMM能够紧凑地重组多个教师模型的知识,并实现可控的任意风格生成。
近期强化学习(RL)的进展显著增强了视觉-语言模型(VLMs)的推理能力。然而,在VLMs中,如何提升策略探索以更有效地扩展测试时计算资源仍待深入探索。此外,VLMs在应对不完美的视觉感知方面持续面临挑战,这进而影响了后续的推理过程。为此,我们提出了NoisyRollout,一种简单而有效的RL方法,它通过混合来自清晰图像和适度失真图像的轨迹,在视觉感知及由此产生的推理模式中引入有针对性的多样性。无需额外训练成本,NoisyRollout通过融入视觉导向的归纳偏置,增强了VLMs的探索能力。此外,NoisyRollout采用了一种噪声退火调度策略,在训练过程中逐步降低失真强度,确保早期从噪声信号中获益,同时保持后期训练的稳定性和可扩展性。仅使用2.1K训练样本,NoisyRollout在涵盖推理与感知任务的5个域外基准测试中,实现了开源RL调优模型中的最先进性能,同时保持了相当甚至更优的域内性能。
视觉语言模型是计算机视觉研究的重要组成部分,然而许多高性能模型仍保持闭源状态,其数据、设计和训练方法均不透明。研究界通过从黑箱模型中提取知识来标注训练数据作为回应,虽在基准测试中取得了优异成果,却以可衡量的科学进展为代价。然而,在不了解教师模型及其数据源细节的情况下,科学进步仍难以量化。本文探讨了在一个完全开放且可复现的框架下构建感知语言模型(PLM),旨在推动图像与视频理解领域的透明研究。我们分析了不依赖专有模型知识蒸馏的标准训练流程,并探索大规模合成数据以识别关键数据缺口,特别是在细粒度视频理解方面。为填补这些缺口,我们发布了280万条人工标注的精细视频问答对及时空定位视频描述。此外,我们推出了PLM-VideoBench,一套专注于评估视频理解中“什么”、“哪里”、“何时”及“如何”推理能力的挑战性任务集。为确保研究的完全可复现性,我们提供了数据、训练方案、代码及模型。
当前基于学习的角色定制方法主要依赖U-Net架构,存在泛化能力有限和图像质量受损的问题。与此同时,基于优化的方法需要进行特定角色的微调,这不可避免地降低了文本控制性。为解决这些挑战,我们提出了InstantCharacter,一个基于基础扩散变换器的可扩展角色定制框架。InstantCharacter展现出三大核心优势:首先,它实现了跨多样角色外观、姿态和风格的开域个性化,同时保持高保真效果。其次,该框架引入了带有堆叠变换器编码器的可扩展适配器,能有效处理开域角色特征,并无缝与现代扩散变换器的潜在空间交互。第三,为有效训练该框架,我们构建了一个包含千万级样本的大规模角色数据集。该数据集系统性地组织为配对(多视角角色)和非配对(文本-图像组合)子集。这种双重数据结构通过不同的学习路径,同步优化了身份一致性和文本可编辑性。定性实验展示了InstantCharacter在生成高保真、文本可控且角色一致的图像方面的先进能力,为角色驱动的图像生成设立了新基准。我们的源代码可在https://github.com/Tencent/InstantCharacter获取。
扩展测试时计算已成为大型语言模型(LLMs)解决复杂问题的关键要素,但这也带来了高延迟和推理成本。我们引入了休眠时计算,使模型能够在查询提出之前离线“思考”上下文:通过预测用户可能提出的问题并预先计算有用信息,我们能够显著降低测试时的计算需求。为验证该方法的有效性,我们创建了两个推理任务的改进版本——状态保持型GSM-Symbolic和状态保持型AIME。研究发现,休眠时计算可将达到相同准确率所需的测试时计算量减少约5倍,在状态保持型GSM-Symbolic和状态保持型AIME上分别提升准确率最高达13%和18%。此外,我们提出了多查询GSM-Symbolic,它通过在每个上下文中包含多个相关查询来扩展GSM-Symbolic。利用多查询GSM-Symbolic,将休眠时计算分摊到同一上下文的相关查询上,可使每个查询的平均成本降低2.5倍。随后,我们进行了进一步分析,以了解休眠时计算何时最为有效,发现用户查询的可预测性与休眠时计算的效果高度相关。最后,我们通过案例研究,将休眠时计算应用于一个现实的自主软件工程任务中。
大型语言模型(LLMs)作为智能体展现出了巨大潜力,在需要多轮推理与交互的任务中表现卓越。拒绝采样微调(RFT)已成为微调LLMs作为智能体的有效方法:它首先模仿专家生成的成功轨迹,进而通过在自我生成的成功轨迹上进行迭代微调,进一步提升智能体技能。然而,由于专家(如GPT-4)主要在较简单的子任务上取得成功,且RFT本身倾向于简单场景,许多复杂的子任务仍未被解决,持续处于分布外(OOD)状态。通过研究这些具有挑战性的子任务,我们发现,专家先前失败的轨迹往往能提供宝贵的指导,例如计划和关键行动,这些能显著提升智能体探索效率及关键技能的掌握。基于这些观察,我们提出了探索专家失败(EEF)方法,该方法从失败的专家轨迹中识别出有益行动,并将其整合到训练数据集中。同时,我们精心排除潜在有害行动,以避免污染模型学习过程。通过利用专家失败中的有益行动,EEF成功解决了一些先前无法解决的子任务,并提升了智能体微调性能。值得注意的是,我们的方法在WebShop中取得了62%的胜率,超越了RFT(53.6%)和GPT-4(35.6%),据我们所知,这是首个在WebShop中超过0.81分并在SciWorld中超过81分的方法,创下了新的技术标杆。
计算色彩恒常性,或称白平衡,是相机图像信号处理器(ISP)中的关键模块,用于校正由场景光照引起的色偏。由于这一操作在相机特定的原始色彩空间中进行,白平衡算法必须适应不同的相机。本文提出了一种基于学习的跨相机色彩恒常性方法,该方法无需重新训练即可泛化至新相机。我们的方法利用了ISP上预先校准的色彩校正矩阵(CCMs),这些矩阵将相机的原始色彩空间映射至标准空间(如CIE XYZ)。我们利用这些CCMs将预定义的照明颜色(即沿普朗克轨迹)转换到测试相机的原始空间。映射后的光源被编码为紧凑的相机指纹嵌入(CFE),使网络能够适应未见过的相机。为了防止训练过程中因相机和CCMs数量有限导致的过拟合,我们引入了一种数据增强技术,该技术在相机及其CCMs之间进行插值。跨多个数据集和骨干网络的实验结果表明,我们的方法在实现最先进的跨相机色彩恒常性的同时,保持了轻量级,并且仅依赖于相机ISP中现成的数据。
电影音频描述(AD)旨在在无对话片段中叙述视觉内容,尤其惠及盲人和视障(BVI)观众。与普通视频字幕相比,AD要求提供与剧情相关的叙述,并明确提及角色姓名,这对电影理解提出了独特挑战。为识别活跃的主要角色并聚焦于与故事情节相关的区域,我们提出了FocusedAD,一个新颖的框架,用于生成以角色为中心的电影音频描述。该框架包含:(i)角色感知模块(CPM),用于追踪角色区域并将其与姓名关联;(ii)动态先验模块(DPM),通过可学习的软提示从先前的AD和字幕中注入上下文线索;(iii)聚焦字幕模块(FCM),生成富含剧情细节和命名角色的叙述。为克服角色识别中的限制,我们还引入了一个自动化流程来构建角色查询库。FocusedAD在多个基准测试中实现了最先进的性能,包括在MAD-eval-Named和我们新提出的Cinepile-AD数据集上取得的强劲零样本结果。代码和数据将在https://github.com/Thorin215/FocusedAD 发布。
我们推出了Complex-Edit,这是一个旨在系统评估基于指令的图像编辑模型在不同复杂度指令下表现的综合性基准。为构建此基准,我们利用GPT-4o自动大规模收集多样化的编辑指令。我们的方法遵循一个结构化的“编辑链”流程:首先生成独立的原子级编辑任务,随后将其整合形成连贯的复杂指令。此外,我们引入了一套评估编辑性能多方面的指标,以及一个支持大规模评估的基于视觉语言模型(VLM)的自动评估流程。我们的基准揭示了几个重要发现:1)开源模型相较于闭源专有模型表现显著落后,且随着指令复杂度的增加,性能差距进一步扩大;2)指令复杂度的提升主要削弱了模型保留输入图像关键元素及维持整体美学质量的能力;3)将复杂指令分解为一系列原子步骤并按步执行,会显著降低多项指标上的表现;4)简单的Best-of-N选择策略对直接编辑和分步顺序方法均能提升效果;5)我们观察到“合成数据诅咒”:当模型训练涉及合成数据时,随着编辑指令复杂度的增加,这些模型生成的编辑图像倾向于显得愈发合成化——这一现象在最新的GPT-4o输出中也同样有趣地显现。
大型语言模型(LLM)代理正日益采用检索增强生成(RAG)技术,以提升其回答的事实准确性。然而,在实际应用中,这些系统常需应对用户查询的模糊性及来自多源信息的潜在冲突,同时还需抑制来自噪声或无关文档的不准确信息。以往的研究通常孤立地探讨并解决这些挑战,每次仅考虑一个方面,如处理模糊性或增强对噪声与错误信息的鲁棒性。我们则同时考虑多重因素,提出:(i) RAMDocs(文档中的模糊性与错误信息检索),这是一个新数据集,模拟了用户查询中复杂且现实的证据冲突场景,包括模糊性、错误信息及噪声;(ii) MADAM-RAG,一种多代理方法,其中LLM代理在多轮辩论中评估答案的优劣,使聚合器能够整理对应于消歧实体的回答,同时摒弃错误信息与噪声,从而共同处理多样化的冲突来源。我们通过在AmbigDocs(要求为模糊查询呈现所有有效答案)上使用闭源与开源模型验证了MADAM-RAG的有效性,相较于强RAG基线提升了高达11.40%;在FaithEval(要求抑制错误信息)上,使用Llama3.3-70B-Instruct模型时,我们实现了高达15.80%(绝对值)的提升。此外,我们发现RAMDocs对现有RAG基线构成了挑战(Llama3.3-70B-Instruct仅获得32.60的精确匹配分数)。尽管MADAM-RAG开始着手解决这些冲突因素,但我们的分析表明,尤其是在支持证据与错误信息的不平衡程度增加时,仍存在显著差距。
确保文本到图像模型的伦理部署,需要有效技术来防止生成有害或不适当内容。尽管概念擦除方法提供了有前景的解决方案,现有的基于微调的方法仍存在显著局限。无锚点方法可能扰乱采样轨迹,导致视觉伪影,而有锚点方法则依赖于启发式选择的锚点概念。为克服这些不足,我们引入了一种名为ANT的微调框架,它能自动引导去噪轨迹避开不期望的概念。ANT基于一个关键洞见:在去噪中后期阶段反转无分类器引导的条件方向,可在不牺牲早期结构完整性的前提下实现精确内容修改。这启发了一种轨迹感知的目标函数,它保护了早期得分函数场的完整性,引导样本趋向自然图像流形,而无需依赖启发式锚点概念选择。对于单概念擦除,我们提出了一种增强权重显著图,以精确识别对不期望概念贡献最大的关键参数,从而实现更彻底且高效的擦除。对于多概念擦除,我们的目标函数提供了一个灵活即插即用的解决方案,显著提升了性能。大量实验证明,ANT在单概念和多概念擦除上均达到了最先进水平,在保持生成保真度的同时,输出了高质量、安全的内容。代码可在https://github.com/lileyang1210/ANT获取。
近期的小型语言模型如Phi-3.5和Phi-4依赖于利用更大语言模型生成的合成数据。关于如何将合成数据应用于其他场景,例如使大语言模型适应特定领域,仍存在诸多疑问。合成数据的一个关键局限在于其多样性不足,这对其在提升其他模型性能方面的下游应用产生了负面影响。为解决这一问题,我们提出了MetaSynth方法,通过元提示(meta-prompting)生成增强多样性的合成数据,即由一个语言模型协调多个“专家”LLM代理协作生成数据。仅使用MetaSynth生成的2500万token合成数据,我们成功地将一个训练有素的大语言模型(Mistral-7B-v0.3)适配到两个专业领域——金融与生物医学,且未损害模型在通用任务上的能力。此外,我们采用七项自动化指标评估了合成数据的多样性,发现其接近大语言模型预训练语料的多样性水平。 持续使用MetaSynth对Mistral-7B-v0.3进行预训练显著超越了基础大语言模型,在金融领域提升了最高达4.08%,在生物医学领域提升了13.75%。相比之下,当模型使用基于模板提示生成的数据进行训练时,即使模板包含了先前的生成结果和多样化的真实数据上下文示例,其性能仍有所下降。我们的研究结果表明,在使用MetaSynth的情况下,仅需数百万token的多样化合成数据,无需混合任何真实数据,即可实现有效的领域适应。
近期,采用视觉Transformer(ViT)骨干的单流架构在实时无人机(UAV)跟踪中展现出巨大潜力。然而,建筑物、树木等障碍物频繁造成的遮挡暴露了这类模型的一个主要缺陷:它们往往缺乏有效处理遮挡的策略。因此,亟需新方法来增强单流ViT模型在航空跟踪中的遮挡鲁棒性。在本研究中,我们提出基于ViT学习遮挡鲁棒表示(ORR),通过强制目标特征表示对由空间Cox过程建模的随机掩码操作保持不变性,以期这些随机掩码能近似模拟目标遮挡,从而训练出对目标遮挡具有鲁棒性的ViT模型,用于无人机跟踪。该框架被命名为ORTrack。此外,为促进实时应用,我们提出了一种基于特征的自适应知识蒸馏(AFKD)方法,以创建一个更紧凑的跟踪器,它根据任务难度自适应地模仿教师模型ORTrack的行为。这一学生模型,称为ORTrack-D,在保持ORTrack大部分性能的同时,提供了更高的效率。在多个基准上的广泛实验验证了我们方法的有效性,展示了其最先进的性能。代码可在https://github.com/wuyou3474/ORTrack获取。