每日精选AI研究论文及翻译
我们提出了一份关于使用剪枝和蒸馏技术,将Llama 3.1 8B和Mistral NeMo 12B模型压缩至4B和8B参数的全面报告。我们探讨了两种不同的剪枝策略:(1)深度剪枝和(2)联合隐藏层/注意力/MLP(宽度)剪枝,并在LM评估工具中对结果进行评估。然后,我们使用NeMo Aligner对模型进行对齐,并在经过指导微调的版本中进行测试。这种方法从Llama 3.1 8B生成了一个引人注目的4B模型,并从Mistral NeMo 12B生成了一流的Mistral-NeMo-Minitron-8B(简称MN-Minitron-8B)模型。我们发现,在没有访问原始数据的情况下,对蒸馏数据集上的教师模型进行轻微微调是有益的。我们在Hugging Face上以一种宽松的许可证开源了我们的基础模型权重。
在这项工作中,我们讨论了以公平和稳健的方式评估视频基础模型。与语言或图像基础模型不同,许多视频基础模型是以不同的参数(如采样率、帧数、预训练步骤等)进行评估的,这使得进行公平和稳健的比较具有挑战性。因此,我们提出了一个精心设计的评估框架,用于衡量视频理解的两个核心能力:外观和运动理解。我们的研究发现,现有的视频基础模型,无论是像UMT或InternVideo2这样的文本监督模型,还是像V-JEPA这样的自监督模型,在这些能力中至少存在一种局限性。作为替代方案,我们介绍了TWLV-I,这是一个新的视频基础模型,为基于运动和外观的视频构建了稳健的视觉表示。根据仅在公开可访问数据集上预训练的模型在五个动作识别基准测试上进行线性探测的平均top-1准确率,我们的模型相比于V-JEPA(ViT-L)提高了4.6个百分点,相比于UMT(ViT-L)提高了7.7个百分点。即使与更大的模型进行比较,我们的模型与DFN(ViT-H)相比提高了7.2个百分点,与V-JEPA(ViT-H)相比提高了2.7个百分点,与InternVideo2(ViT-g)相比提高了2.8个百分点。我们提供了由TWLV-I从几个常用视频基准测试的视频中获得的嵌入向量,以及可以直接利用这些嵌入的评估源代码。该代码可在"https://github.com/twelvelabs-io/video-embeddings-evaluation-framework"上找到。
赋予LLM利用长上下文中有用信息的能力对许多下游应用至关重要。然而,使用传统的Transformer架构实现长上下文长度需要大量的训练和推理资源。本文提出了FocusLLM,这是一个旨在扩展任何仅具有解码器的LLM上下文长度的框架,使模型能够专注于来自非常长序列的相关信息。FocusLLM通过将长文本输入分成基于模型原始上下文长度的块来处理长文本输入,以减轻注意力分散的问题。然后,它将本地上下文附加到每个块作为提示,基于一种新颖的并行解码机制从每个块中提取关键信息,并最终将提取的信息整合到本地上下文中。FocusLLM在训练效率和多功能性方面脱颖而出:使用8K输入长度进行训练,比以往方法的训练成本要低得多,FocusLLM在处理下游长上下文任务时表现出色,并在处理大量长文本时保持强大的语言建模能力,甚至可达400K标记。我们的代码可在https://github.com/leezythu/FocusLLM找到。
近年来,在基于扩散的可控视频生成方面取得了实质性进展。然而,在复杂场景中实现精确控制,包括细粒度对象部分、复杂运动轨迹和连贯背景移动,仍然是一个挑战。本文介绍了TrackGo,这是一种新颖方法,利用自由形式的蒙版和箭头进行有条件的视频生成。这种方法为用户提供了一种灵活且精确的机制来操纵视频内容。我们还提出了TrackAdapter用于控制实现,这是一种高效且轻量级的适配器,旨在无缝集成到预训练视频生成模型的时间自注意力层中。这种设计利用了我们的观察结果,即这些层的注意力图可以准确激活与视频中运动对应的区域。我们的实验结果表明,我们的新方法在FVD、FID和ObjMC等关键指标上通过TrackAdapter的增强实现了最先进的性能。TrackGo的项目页面可在以下网址找到:https://zhtjtcz.github.io/TrackGo-Page/
大型多模态模型(LMMs)在许多视觉任务中展现出了高超的能力。尽管存在许多知名基准来评估模型性能,但它们的提升空间日益不足。因此,迫切需要一批具有挑战性的新一代基准,以应对未来LMMs的需求。LMMs展现潜力的一个领域是图分析,特别是分析人员在解释图表时通常执行的任务,如估计函数和数据序列的均值、截距或相关性。在这项工作中,我们介绍了GRAB,一个适用于当前和未来前沿LMMs的图分析基准。我们的基准完全是合成的,确保问题高质量且无噪音。GRAB包含2170个问题,涵盖四个任务和23个图属性。我们在GRAB上评估了20个LMMs,发现这是一个具有挑战性的基准,最高表现模型的得分仅为21.7%。最后,我们进行了各种消融实验,以调查模型成功和困难的地方。我们发布GRAB以促进这一重要且不断增长的领域的进展。
文本到图像(T2I)扩散模型展示了在给定文本提示的情况下生成高质量图像的令人印象深刻的能力。然而,确保提示-图像对齐仍然是一个相当大的挑战,即生成与提示语义忠实对齐的图像。最近的研究尝试通过优化潜在代码来改善忠实性,这可能导致潜在代码超出分布范围,从而产生不现实的图像。在本文中,我们提出了FRAP,这是一种简单但有效的方法,基于自适应调整每个标记提示权重来改善提示-图像对齐和生成图像的真实性。我们设计了一种在线算法来自适应地更新每个标记的权重系数,通过最小化一个统一的目标函数来实现,该函数鼓励对象存在和对象-修饰符对的绑定。通过广泛的评估,我们展示了FRAP生成的图像与复杂数据集中的提示具有显著更高的提示-图像对齐度,同时与最近的潜在代码优化方法相比具有更低的平均延迟,例如在COCO-Subject数据集上比D&B快4秒。此外,通过视觉比较和在CLIP-IQA-Real指标上的评估,我们展示了FRAP不仅改善了提示-图像对齐,还生成了外观更真实的图像。我们还探讨了将FRAP与提示重写LLM相结合以恢复其降级的提示-图像对齐,观察到在提示-图像对齐和图像质量方面的改进。
现代机器学习系统依赖大型数据集来实现广泛泛化,这在机器人学习中常常构成挑战,因为每个机器人平台和任务可能只有一个小数据集。通过在许多不同种类的机器人上训练单一策略,机器人学习方法可以利用更广泛和多样化的数据集,从而实现更好的泛化和鲁棒性。然而,在多机器人数据上训练单一策略具有挑战性,因为机器人的传感器、执行器和控制频率可能差异很大。我们提出CrossFormer,这是一种可扩展且灵活的基于Transformer的策略,可以处理任何具象的数据。我们在迄今为止最大和最多样化的数据集上训练CrossFormer,包括20种不同机器人具象的90万条轨迹。我们展示了相同的网络权重可以控制非常不同的机器人,包括单臂和双臂操纵系统、轮式机器人、四轴飞行器和四足动物。与先前的工作不同,我们的模型不需要手动对齐观测或行动空间。在现实世界中进行的大量实验表明,我们的方法与为每种具象量身定制的专家策略的性能相匹配,同时在跨具象学习方面明显优于先前的最新技术水平。
我们解决了文本到图像模型中的一个持久性挑战:准确生成指定数量的对象。当前的模型从图像文本对中学习,在计数方面存在困难,因为训练数据无法展示任何给定对象的所有可能数量。为了解决这个问题,我们提出基于计数模型导出的计数损失对生成的图像进行优化,该计数模型聚合了对象的潜力。使用现成的计数模型具有挑战性,原因有两点:首先,该模型需要一个用于潜力聚合的缩放超参数,这个超参数会根据对象的视角而变化;其次,分类器指导技术需要修改的模型,这些模型在嘈杂的中间扩散步骤上运行。为了解决这些挑战,我们提出了一个迭代的在线训练模式,可以改善推断图像的准确性,同时改变文本调节嵌入并动态调整超参数。我们的方法提供了三个关键优势:(i) 它可以考虑基于检测模型的非可导计数技术,(ii) 它是一种零-shot即插即用的解决方案,便于快速更改计数技术和图像生成方法,(iii) 优化的计数令牌可以被重复使用以生成准确的图像,无需额外优化。我们评估了各种对象的生成,并展示了准确性的显著提高。项目页面位于https://ozzafar.github.io/count_token。
在机器学习应用中,检测异常分布(OOD)数据对于降低模型过度自信的风险、增强部署系统的可靠性和安全性至关重要。现有大多数OOD检测方法主要针对单模态输入,如图像或文本。在多模态文档的背景下,对这些方法在性能上的研究相对缺乏,这些方法主要专注于计算机视觉任务的开发。我们提出了一种新的方法学,称为注意力头掩蔽(AHM),用于文档分类系统中的多模态OOD任务。我们的实证结果表明,所提出的AHM方法优于所有最先进方法,并与现有解决方案相比显著降低了误报率(FPR)高达7.5%。该方法在多模态数据(如文档)中具有良好的泛化能力,其中视觉和文本信息在同一Transformer架构下建模。为了解决高质量公开文档数据集的稀缺问题,鼓励进一步研究文档OOD检测,我们推出了FinanceDocs,一个新的文档人工智能数据集。我们的代码和数据集均已公开。
视觉检索系统在更新模型时面临重大挑战,因为旧表示和新表示之间存在不对齐。昂贵且资源密集的回填过程涉及在引入新模型时重新计算图库集中图像的特征向量。为解决这一问题,先前的研究探讨了向后兼容的训练方法,使得新旧表示可以直接进行比较,无需回填。尽管取得了这些进展,但在向后兼容性和独立训练模型性能之间取得平衡仍然是一个未解决的问题。本文通过扩展表示空间的附加维度并学习正交变换来解决这一问题,以实现与旧模型的兼容性,并同时整合新信息。这种变换保留了原始特征空间的几何结构,确保我们的模型与先前版本保持一致,同时学习新数据。我们的正交兼容对齐(OCA)方法在模型更新期间消除了重新索引的需要,并确保特征可以在不同模型更新之间直接进行比较,无需额外的映射函数。在CIFAR-100和ImageNet-1k上的实验结果表明,我们的方法不仅保持与先前模型的兼容性,而且实现了最先进的准确性,优于几种现有方法。
大型语言模型(LLMs)往往会继承和放大其训练数据中嵌入的社会偏见,可能会强化与性别、职业和其他敏感类别相关的有害刻板印象。这一问题尤为棘手,因为存在偏见的LLMs可能会导致深远影响,导致不公平做法,并加剧招聘、在线内容管理甚至刑事司法系统等各个领域的社会不平等。尽管先前的研究侧重于使用专门设计的数据集来检测LLMs中的偏见,以凸显内在偏见,但对这些发现与权威数据集(如美国劳工统计局(NBLS)数据)之间的关联缺乏研究。为填补这一空白,我们进行了实证研究,评估LLMs在“开箱即用偏见”环境中的表现,分析生成的输出与NBLS数据中发现的分布的比较。此外,我们提出了一个简单而有效的去偏见机制,直接将NBLS实例纳入以减轻LLMs内的偏见。我们的研究涵盖了七种不同的LLMs,包括可指导的、基础和专家混合模型,并揭示了通常被现有偏见检测技术忽视的显著偏见水平。重要的是,我们的去偏见方法不依赖外部数据集,显示出偏见得分显著降低,突显了我们方法在创建更公平、更可靠的LLMs方面的有效性。
作为开放语言数据倡议的共享任务的一部分,我们扩展了FLORES+评估集,包括Emakhuwa,这是莫桑比克广泛使用的低资源语言。我们将dev和devtest集从葡萄牙语翻译成Emakhuwa,并详细介绍了翻译过程和质量保证措施。我们的方法包括各种质量检查,包括后编辑和充分性评估。最终的数据集包括每个源句的多个参考句子。我们展示了训练神经机器翻译系统和微调现有多语言翻译模型的基线结果。我们的研究结果表明,在Emakhuwa中,拼写不一致仍然是一个挑战。此外,基线模型在这个评估集上表现不佳,强调了需要进一步研究以提高Emakhuwa机器翻译质量的必要性。数据可在https://huggingface.co/datasets/LIACC/Emakhuwa-FLORES 公开获取。