每日精选AI研究论文及翻译
在少样本情况下,神经辐射场(Neural Radiance Fields,NeRF)面临着重大挑战,主要是由于过拟合和高保真渲染的长时间训练。现有方法,如FreeNeRF和SparseNeRF,使用频率正则化或预训练先验,但在复杂调度和偏差方面存在困难。我们引入了FrugalNeRF,这是一种新颖的少样本NeRF框架,它利用跨多个尺度共享权重的体素来高效表示场景细节。我们的关键贡献是跨尺度几何适应方案,根据跨尺度的重投影误差选择伪地面实际深度。这在训练过程中引导,而无需依赖外部学习的先验知识,从而充分利用训练数据。它还可以集成预训练先验,提高质量而不减慢收敛速度。在LLFF、DTU和RealEstate-10K上的实验证明,FrugalNeRF优于其他少样本NeRF方法,同时显著减少训练时间,使其成为高效准确的3D场景重建的实用解决方案。
Segment Anything Model 2 (SAM 2)已成为图像和视频中物体分割的强大基础模型,为各种下游视频应用铺平了道路。SAM 2在视频分割中的关键设计是其记忆模块,它从先前帧中的物体感知记忆中获取当前帧的预测。然而,其贪婪选择记忆设计存在“错误累积”问题,即一个错误或遗漏的蒙版会级联并影响随后帧的分割,从而限制了SAM 2在复杂长期视频中的性能。为此,我们引入了SAM2Long,一种改进的无需训练的视频物体分割策略,它考虑了每帧内的分割不确定性,并以受限制的树搜索方式从多个分割路径中选择视频级最佳结果。在实践中,我们在整个视频中保持固定数量的分割路径。对于每帧,基于现有路径提出多个蒙版,创建各种候选分支。然后,我们选择具有更高累积分数的相同固定数量的分支作为下一帧的新路径。在处理最终帧之后,选择具有最高累积分数的路径作为最终分割结果。由于其启发式搜索设计,SAM2Long对遮挡和物体重新出现具有鲁棒性,并且能够有效地分割和跟踪复杂长期视频中的物体。值得注意的是,SAM2Long在所有24个头对头比较中平均改进了3.0个点,在长期视频物体分割基准测试(如SA-V和LVOS)中J&F提高了高达5.3个点。代码已发布在https://github.com/Mark12Ding/SAM2Long。
高效准确的评估对于大型语言模型(LLMs)的持续改进至关重要。在各种评估方法中,主观评估因其与真实世界使用场景和人类偏好的卓越契合而备受关注。然而,基于人类的评估成本高昂且缺乏可复制性,这使得精确的自动评估器(评判者)在这一过程中至关重要。在本报告中,我们介绍了CompassJudger-1,这是第一个开源的全能评判者LLM。CompassJudger-1是一个通用型LLM,展示了卓越的多功能性。它能够:1. 作为奖励模型执行单一评分和双模型比较;2. 根据指定格式进行评估;3. 生成批评;4. 执行像一般LLM那样的多样化任务。为了在统一设置下评估不同评判者模型的评估能力,我们还建立了JudgerBench,这是一个新的基准,涵盖了各种主观评估任务并涉及广泛的主题。CompassJudger-1为各种评估任务提供了全面的解决方案,同时保持了适应各种需求的灵活性。CompassJudger和JudgerBench均已发布并可供研究社区使用,网址为https://github.com/open-compass/CompassJudger。我们相信通过开源这些工具,我们可以促进合作,加速LLM评估方法的进展。
随着开源模型的进步,对自定义数据集进行训练(或微调)已成为开发针对特定工业或开源应用定制解决方案的关键部分。然而,目前尚无一种工具能简化跨不同类型模态或任务的训练过程。我们介绍了AutoTrain(又称AutoTrain Advanced)——一种开源、无代码工具/库,可用于训练(或微调)不同类型任务的模型,例如:大型语言模型(LLM)微调、文本分类/回归、标记分类、序列到序列任务、句子转换器微调、视觉语言模型(VLM)微调、图像分类/回归,甚至表格数据上的分类和回归任务。AutoTrain Advanced是一个提供在自定义数据集上训练模型的最佳实践的开源库。该库可在https://github.com/huggingface/autotrain-advanced 上找到。AutoTrain可在完全本地模式或云计算机上使用,并与Hugging Face Hub上共享的数以万计的模型及其变体配合使用。
最近在多模态基础模型方面取得了重大进展,为视觉-语言理解带来了显著进步。最初的尝试还探索了多模态大型语言模型(MLLMs)在视觉内容生成方面的潜力。然而,现有研究尚未充分解决统一MLLM范式中不同图像生成任务的不同粒度需求问题 - 从文本到图像生成所需的多样性到图像操作所需的精确可控性。在这项工作中,我们提出了PUMA,即利用多粒度视觉生成赋能统一MLLM。PUMA将多粒度视觉特征统一为MLLM的输入和输出,优雅地解决了统一MLLM框架中各种图像生成任务的不同粒度要求。在多模态预训练和任务特定指导调整之后,PUMA展示了在广泛的多模态任务中的熟练表现。这项工作代表了朝着能够适应各种视觉任务粒度需求的真正统一MLLM迈出的重要一步。代码和模型将在https://github.com/rongyaofang/PUMA发布。
我们介绍了Baichuan Alignment,对Baichuan系列模型中采用的对齐技术进行了详细分析。这代表了行业首次全面记录对齐方法论,为推进人工智能研究提供了宝贵的见解。我们研究了在对齐过程中增强模型性能的关键组成部分,包括优化方法、数据策略、能力增强和评估流程。该过程涵盖了三个关键阶段:Prompt增强系统(PAS)、监督微调(SFT)和偏好对齐。记录了所遇到的问题、应用的解决方案和所做的改进。 通过与成熟基准的比较,我们突出了Baichuan Alignment带来的技术进步。Baichuan-Instruct是一个内部模型,而Qwen2-Nova-72B和Llama3-PBM-Nova-70B是Qwen2-72B和Llama-3-70B基础模型的指导版本,通过Baichuan Alignment进行了优化。Baichuan-Instruct在核心能力方面取得了显著改进,用户体验提升在17%至28%之间,并在专门基准上表现出色。在开源基准评估中,无论是Qwen2-Nova-72B还是Llama3-PBM-Nova-70B,在几乎所有数据集上始终优于各自的官方指导版本。本报告旨在阐明对齐过程背后的关键技术,促进社区对此有更深入的理解。 Llama3-PBM-Nova-70B模型可在https://huggingface.co/PKU-Baichuan-MLSystemLab/Llama3-PBM-Nova-70B找到。
监督微调(SFT)对于调整大型语言模型(LLMs)以适应特定领域或任务至关重要。然而,在实际应用中只有有限量的标记数据可用,这给SFT在产生令人满意的结果方面带来了严峻挑战。因此,一种能够充分利用标记和未标记数据进行LLM微调的数据高效框架备受期待。为此,我们引入了一种名为SemiEvol的半监督微调框架,用于从传播和选择方式进行LLM适应。对于知识传播,SemiEvol采用双层方法,通过权重内传播和上下文内传播方法将知识从标记数据传播到未标记数据。对于知识选择,SemiEvol融入协作学习机制,选择更高质量的伪响应样本。我们在七个通用或领域特定数据集上使用GPT-4o-mini和Llama-3.1进行了实验,展示了模型在目标数据上性能显著提升。此外,我们将SemiEvol与SFT和自我演化方法进行了比较,突出了其在混合数据场景中的实用性。
尽管多模态大型语言模型(MLLMs)近年来取得了进展,但它们的发展主要集中在英语和西方为中心的数据集和任务上,导致世界上大多数语言和多样化文化背景的代表性不足。本文介绍了Pangea,这是一个多语言多模态LLM,它是在PangeaIns上训练的,该数据集包含39种语言的多样化600万条指令。PangeaIns具有以下特点:1)高质量的英语指令,2)经过精心机器翻译的指令,以及3)涵盖跨文化内容的文化相关多模态任务。为了严格评估模型的能力,我们引入了PangeaBench,这是一个全面的评估套件,涵盖了47种语言的14个数据集。结果显示,Pangea在多语言环境和多样化文化背景下明显优于现有的开源模型。消融研究进一步揭示了英语数据比例、语言流行度以及多模态训练样本数量对整体性能的重要性。我们完全开源我们的数据、代码和训练检查点,以促进包容性和健壮的多语言MLLMs的发展,推动在更广泛的语言和文化领域实现公平和可访问性。
奖励模型在诸如人类反馈强化学习(RLHF)和推理缩放定律等技术中至关重要,它们指导语言模型对齐并选择最佳响应。尽管它们的重要性,现有的奖励模型基准常常通过要求模型区分不同强度模型生成的响应来评估模型。然而,这种方法未能评估奖励模型对于微妙但关键的内容变化和风格变化的敏感性,导致与策略模型性能的低相关性。为此,我们引入了RM-Bench,一个新颖的基准,旨在评估奖励模型对微妙内容差异的敏感性和对风格偏见的抵抗力。大量实验证明,RM-Bench与策略模型性能强相关,使其成为选择有效对齐语言模型的奖励模型的可靠参考。我们在RM-Bench上评估了近40个奖励模型。我们的结果显示,即使是最先进的模型在面对风格偏见干扰时,平均性能也仅为46.6%,低于随机水平准确率(50%)。这些发现突显了当前奖励模型有很大改进空间。相关代码和数据可在https://github.com/THU-KEG/RM-Bench找到。
检索增强生成(RAG)虽然作为大型语言模型(LLMs)的一个可行补充,但常常忽视其管道中文本分块的关键方面,这影响了知识密集型任务的质量。本文介绍了“元分块”概念,指的是介于句子和段落之间的粒度,由段落内具有深层语言逻辑关系的句子集合组成。为了实现元分块,我们设计了两种基于LLMs的策略:边界采样分块和困惑度分块。前者利用LLMs对连续句子是否需要分割进行二元分类,根据从边界采样获得的概率差异做出决策。后者通过分析困惑度分布的特征精确识别文本分块边界。此外,考虑到不同文本的固有复杂性,我们提出了一种将元分块与动态合并相结合的策略,以在细粒度和粗粒度文本分块之间取得平衡。在十一个数据集上进行的实验表明,元分块可以更有效地提高基于RAG的单跳和多跳问答的性能。例如,在2WikiMultihopQA数据集上,它的表现优于相似性分块1.32,同时只消耗了45.8%的时间。我们的代码可在https://github.com/IAAR-Shanghai/Meta-Chunking找到。
知识蒸馏(KD)旨在将知识从大型教师模型转移至较小的学生模型。先前在大型语言模型(LLMs)领域应用KD的研究通常集中在训练后阶段,学生LLM直接从教师模型生成的指令和相应响应中学习。本文将KD扩展到LLMs的预训练阶段,命名为预训练蒸馏(PD)。我们首先进行了一项初步实验,使用GLM-4-9B作为教师LLM,对一个包含1.9B参数的学生LLM进行蒸馏,验证了PD的有效性。考虑到蒸馏的关键影响因素,我们系统地探索了预训练蒸馏的设计空间,涵盖了四个方面:logits处理、损失选择、缩放定律以及离线或在线logits。我们进行了大量实验来探索预训练蒸馏的设计空间,并找到了更好的配置和有趣的结论,例如更大的学生LLM通常更多受益于预训练蒸馏,而更大的教师LLM并不一定能够保证更好的结果。我们希望我们对设计空间的探索能够为未来的预训练蒸馏实践提供参考。
即使对经验丰富的专家来说,编写形式化证明也是具有挑战性的。最近神经定理证明(NTP)领域的进展显示出加快这一过程的潜力。然而,互联网上可用的形式化语料库相对于一般文本来说是有限的,这给NTP带来了重要的数据稀缺挑战。为了解决这一问题,本研究提出了Alchemy,一个通用的数据合成框架,通过符号变异构建形式化定理。具体而言,对于Mathlib中的每个候选定理,我们确定所有可调用的定理,这些定理可以用于重写或应用于它。随后,我们通过用等价形式或前提替换陈述中的相应术语来变异候选定理。因此,我们的方法将Mathlib中的定理数量增加了一个数量级,从110k增加到6M。此外,我们对这个增广语料库进行持续的预训练和监督微调,用于大型语言模型。实验结果表明了我们方法的有效性,在Leandojo基准测试中实现了5%的绝对性能提升。此外,我们的合成数据在超出分布的miniF2F基准测试中获得了2.5%的绝对性能提升。为了提供更多见解,我们对合成数据的构成和训练范式进行了全面分析,为开发强大的定理证明器提供了有价值的指导。
大型语言模型(LLMs)已经彻底改变了自然语言处理,但将它们应用于基于语音的任务仍然具有挑战性,因为需要整合音频和文本模态的复杂性。本文介绍了Ichigo,一种混合模态模型,能够无缝处理交错的语音和文本序列。利用一种标记化的早期融合方法,Ichigo将语音量化为离散标记,并采用统一的基于Transformer的架构用于语音和文本模态。这种方法使得跨模态的联合推理和生成成为可能,而无需单独的适配器。我们提出了一套全面的训练方法,包括在多语种语音识别数据集上进行预训练,并在经过精心筛选的指令数据集上进行微调。Ichigo在语音问答基准测试中展现出最先进的性能,优于现有的开源语音语言模型,并且实现了与级联系统相媲美的结果。值得注意的是,Ichigo生成第一个标记的延迟仅为111毫秒,远低于当前模型。我们的方法不仅推动了多模态人工智能领域的发展,还为规模较小的研究团队提供了一个有效贡献开源语音语言模型的框架。
大型语言模型(LLMs)新兴的零-shot能力已经使它们的应用领域扩展到远远超出自然语言处理任务的范畴。在强化学习中,虽然LLMs在基于文本的环境中得到广泛应用,但它们与连续状态空间的整合仍未得到充分研究。本文研究了如何利用预训练的LLMs来预测连续马尔可夫决策过程的动态。我们确定处理多变量数据和整合控制信号是限制LLMs在这一设置中部署潜力的关键挑战,并提出了“解耦上下文学习”(DICL)来解决这些问题。我们在两个强化学习设置中展示了概念验证应用:基于模型的策略评估和数据增强的离线策略强化学习,并支持所提出方法的理论分析。我们的实验进一步证明了我们的方法产生了良好校准的不确定性估计。我们在https://github.com/abenechehab/dicl 上发布了代码。
大型语言模型扩展以有效处理具有极长上下文的指令尚未得到充分调查。主要障碍在于构建一个专为长上下文对齐而设计的高质量长指令遵循数据集。现有研究已尝试通过合成长指令遵循样本来扩大可用数据量。然而,如果没有明确定义确保数据质量的策略,盲目增加数据量可能会引入低质量样本并限制最终性能。为弥合这一差距,我们旨在解决长上下文对齐的独特挑战,即对处理指令和长输入上下文的长距离依赖进行建模。我们提出了GATEAU,这是一个新颖的框架,旨在通过利用精心设计的同源模型引导(HMG)和上下文感知度量(CAM)来识别富含长距离依赖关系的有影响力和高质量样本。具体而言,HMG 试图通过使用两个具有不同上下文窗口的同源模型的回应的困惑度分数来衡量由于长距离依赖关系而生成相应回应的困难程度。此外,CAM 的作用是通过评估模型的注意力是否集中在重要部分,来衡量由于长距离依赖关系而理解长输入上下文的困难程度。基于提出的两种方法,我们选择最具挑战性的样本作为有影响力的数据,以有效构建长距离依赖关系,从而提高LLMs的性能。全面的实验表明,GATEAU 能够有效识别富含长距离依赖关系的样本,而在这些选定样本上训练的模型表现出更好的指令遵循和长上下文理解能力。
文本到图像模型是使用从互联网上爬取的图像-文本对组成的大型数据集进行训练的。这些数据集通常包括私人、受版权保护和许可的材料。在这些数据集上训练模型使其能够生成具有此类内容的图像,这可能违反版权法和个人隐私。这种现象被称为模仿 —— 生成具有与其训练图像相似度可识别的内容的图像。在这项工作中,我们研究了概念在训练数据集中的频率与模型模仿该概念的能力之间的关系。我们试图确定模型在训练了足够多实例以模仿一个概念的点 —— 模仿阈值。我们将这个问题提出为一个新问题:寻找模仿阈值(FIT),并提出了一种高效的方法,可以估计模仿阈值,而无需耗费大量成本从头开始训练多个模型。我们在两个领域 —— 人脸和艺术风格 —— 进行实验,创建了四个数据集,并评估了在两个预训练数据集上训练的三个文本到图像模型。我们的结果显示,这些模型的模仿阈值在200-600张图像的范围内,取决于领域和模型。模仿阈值可以为版权侵权索赔提供经验依据,并作为遵守版权和隐私法律的文本到图像模型开发者的指导原则。我们在https://github.com/vsahil/MIMETIC-2.git发布了代码和数据,项目网站托管在https://how-many-van-goghs-does-it-take.github.io。
我们提出了Agent-to-Sim(ATS)框架,用于从日常纵向视频集合中学习3D代理的互动行为模型。与依赖基于标记的跟踪和多视角摄像头的先前作品不同,ATS通过在单一环境中记录的视频观察,非侵入性地学习动物和人类代理的自然行为,这些视频观察跨越很长一段时间(例如,一个月)。对代理的3D行为建模需要在长时间段内持续进行3D跟踪(例如,知道哪个点对应于哪个点)。为了获得这样的数据,我们开发了一种粗到细的配准方法,通过一个规范的3D空间随时间跟踪代理和摄像机,从而产生完整且持久的时空4D表示。然后,我们使用从4D重建中查询的代理感知和运动的配对数据训练代理行为的生成模型。ATS实现了从代理的视频记录到互动行为模拟器的实时转换。我们通过智能手机捕获的单眼RGBD视频展示了在宠物(例如猫、狗、兔子)和人类上的结果。
当今患者需求与现有心理健康支持之间存在显著差距。本文旨在深入探讨利用大型语言模型(LLMs)辅助专业心理治疗的潜力。为此,我们提出了一个新的基准,CBT-BENCH,用于系统评估认知行为疗法(CBT)辅助。CBT-BENCH包括三个任务级别:I:基础CBT知识获取,包括多项选择题任务;II:认知模型理解,包括认知扭曲分类、主要核心信念分类和细粒度核心信念分类任务;III:治疗响应生成,包括在CBT治疗会话中生成对患者言辞的回应任务。这些任务涵盖了CBT的关键方面,潜在地可以通过AI辅助进行增强,同时还勾勒了一套能力需求的层次结构,从基础知识背诵到参与真实治疗对话。我们在我们的基准上评估了代表性的LLMs。实验结果表明,虽然LLMs在背诵CBT知识方面表现良好,但在需要深入分析患者认知结构并生成有效回应的复杂现实场景中表现不佳,暗示了未来的潜在工作。
传统的Transformer模型通常为每个输入token分配固定数量的计算资源,导致计算效率低下且存在不必要的计算。为解决这一问题,引入了深度混合(MoD)来动态调整计算深度,通过跳过不重要的层。尽管MoD具有潜力,但当前的方法仍未得到充分探索,并面临两个主要挑战:(1)由于需要训练整个模型以及确定要跳过哪些层的路由器,导致高训练成本;(2)当重要层被绕过时,存在性能下降的风险。针对第一个问题,我们提出了路由器调整(Router-Tuning)方法,仅在小数据集上微调路由器,大幅减少了与完整模型训练相关的计算开销。针对第二个挑战,我们提出了MindSkip,采用带有动态深度的注意力机制。该方法在显著提高计算和内存效率的同时保持了模型的性能。大量实验证明,我们的方法提供了竞争性结果,同时显著提高了计算效率,例如加速21%,仅0.2%的性能下降。代码已发布在https://github.com/CASE-Lab-UMD/Router-Tuning。
最近在语音语言模型方面取得的进展显著提高了语音标记和合成的能力。然而,有效地将语音的复杂、多维属性映射到离散标记仍然具有挑战性。这一过程需要声学、语义和语境信息以精确表示语音。现有的语音表示通常可分为两类:来自音频编解码器的声学标记和来自语音自监督学习模型的语义标记。尽管最近的努力将声学和语义标记统一起来以提高性能,但它们忽视了语境表示在全面语音建模中的关键作用。我们的实证研究表明,缺乏语境表示会导致语音转录中的词错误率(WER)和词信息丢失(WIL)得分升高。为解决这些限制,我们提出了两种新颖的蒸馏方法:(1)一种语言模型(LM)引导的蒸馏方法,将语境信息纳入考虑;(2)一种结合了LM和自监督语音模型(SM)引导的蒸馏技术,有效地将多模态表示(声学、语义和语境)蒸馏为一种全面的语音标记器,称为DM-Codec。DM-Codec架构采用了简化的编码器-解码器框架,配备了一个残差向量量化器(RVQ),并在训练过程中整合了LM和SM。实验证明,DM-Codec在很大程度上优于最先进的语音标记模型,在LibriSpeech基准数据集上将WER降低了高达13.46%,WIL降低了9.82%,语音质量提高了5.84%,可懂度提高了1.85%。代码、样本和模型检查点可在https://github.com/mubtasimahasan/DM-Codec 上获取。
机器学习的目标是泛化。尽管“没有免费午餐”定理指出,我们无法在没有进一步假设的情况下获得泛化的理论保证,但在实践中,我们观察到解释训练数据的简单模型具有最佳的泛化能力:这一原则被称为奥卡姆剃刀。尽管需要简单模型,但目前大多数机器学习方法仅最小化训练误差,并且最多通过正则化或架构设计间接促进简单性。在这里,我们建立了奥卡姆剃刀与上下文学习之间的联系:这是某些序列模型(如Transformer)在推理时从序列中过去的观察中学习的一种新兴能力。具体而言,我们展示了用于训练上下文学习者的下一个标记预测损失直接等同于一种称为预测编码的数据压缩技术,通过最小化这种损失,实际上是联合最小化了从上下文中隐式学习的模型的训练误差和复杂性。我们的理论和用于支持它的实证实验不仅提供了上下文学习的规范解释,还阐明了当前上下文学习方法的缺点,提出了改进方法。我们将我们的代码公开在https://github.com/3rdCore/PrequentialCode。
随着大型语言模型(LLMs)在各行业中的日益部署,人们对其可靠性的担忧日益增长,特别是由于幻觉——即事实不准确或与用户输入无关的输出。我们的研究调查了训练过程与幻觉出现之间的关系,以解决现有研究中的一个关键空白,该空白主要集中在事后检测和缓解策略上。我们使用Pythia套件中的模型(70M-12B参数)和几种幻觉检测指标,分析了训练过程中幻觉趋势,并探索了LLM内部动态。我们引入了一种名为敏感神经元随机失活(SeND)的新型训练协议,旨在通过在训练过程中减少方差来减轻幻觉。SeND通过在数据集上确定性地丢弃具有显著变异性的神经元,即敏感神经元,来实现这一目标。此外,我们开发了一种无监督的幻觉检测指标,称为高效特征值评分(EES),其速度是传统特征值评分的两倍。这种高效指标被整合到我们的协议中,使SeND在计算上既可扩展又能有效减少幻觉。我们的实证评估表明,与正常训练相比,我们的方法在测试时将LLM的可靠性提高了多达40%,同时提供了一种有效的方法,可以在将LLMs应用于维基百科和医学数据集等领域时提高事实准确性。
在自然语言处理中,评估机器生成的文本仍然是一个重要挑战,尤其是对于非英语语言。当前的方法包括自动化指标、人工评估和基于LLM的评估,主要集中在英语上,揭示了多语言评估框架中的重大差距。我们引入了跨语言自动评估(CIA)套件,这是一个可扩展的框架,包括评估LLMs(Hercule)和一个专为多语言评估设计的新型测试集(Recon)。我们的测试集包括500条人工注释的指令,涵盖各种任务能力,并跨六种语言提供人类判断分数。这将使通用多语言LLMs的基准测试成为可能,并促进评估LLMs的元评估。所提出的模型Hercule是一个跨语言评估模型,通过学习根据英语中易获得的参考答案为回复分配分数来解决目标语言中参考答案稀缺的问题。我们的实验表明,与专有模型相比,Hercule与人类判断更为接近,展示了这种跨语言评估在资源匮乏情况下的有效性。此外,它在未见过的语言上也具有零样本评估的有效性。这项研究是对使用LLMs进行跨语言评估的首次全面检查,提出了一种可扩展且有效的多语言评估方法。所有代码、数据集和模型都将公开提供,以促进这一重要领域的进一步研究。