每日精选AI研究论文及翻译
现有的视觉语言模型(VLMs)主要依赖视觉编码器来提取视觉特征,然后使用大型语言模型(LLMs)来进行视觉-语言任务。然而,视觉编码器在提取视觉表示方面设定了强烈的归纳偏差,例如分辨率、长宽比和语义先验,这可能会影响VLMs的灵活性和效率。训练纯VLMs,即接受无缝视觉和语言输入的模型,即没有视觉编码器,仍然具有挑战性且鲜为人知。经验观察表明,直接训练无编码器的模型会导致收敛速度缓慢且性能差距大。在这项工作中,我们弥合了基于编码器和无编码器模型之间的差距,并提出了一种简单而有效的训练方法,以实现纯VLMs。具体而言,我们通过深入实验揭示了有效训练无编码器VLMs的关键方面:(1)在一个统一的解码器内建立视觉-语言表示;(2)通过额外的监督增强视觉识别能力。通过这些策略,我们推出了EVE,一种无编码器的视觉语言模型,可以高效地进行训练和推断。值得注意的是,仅利用3500万个公开可访问的数据,EVE在多个视觉-语言基准测试中令人印象深刻地与类似容量的基于编码器的VLMs相媲美。它明显优于具有神秘训练程序和未公开训练数据的对应的Fuyu-8B。我们相信EVE为跨模态开发纯解码器架构提供了透明且高效的途径。我们的代码和模型可在以下网址公开获取:https://github.com/baaivision/EVE。
本报告介绍了FunAudioLLM,这是一个旨在增强人类与大型语言模型(LLMs)之间自然语音交互的模型系列。其核心包括两个创新模型:SenseVoice,负责多语音识别、情感识别和音频事件检测;以及CosyVoice,用于实现具有多语言、音色、说话风格和说话者身份控制的自然语音生成。SenseVoice-Small提供了5种语言的异常低延迟ASR,SenseVoice-Large支持50多种语言的高精度ASR,而CosyVoice在多语音生成、零样本上下文学习、跨语言语音克隆和遵循指令等方面表现出色。与SenseVoice和CosyVoice相关的模型已在Modelscope和Huggingface上开源,同时在GitHub上发布了相应的训练、推理和微调代码。通过将这些模型与LLMs集成,FunAudioLLM实现了诸如语音到语音翻译、情感语音聊天、互动播客和富有表现力的有声读物叙述等应用,从而推动了语音交互技术的边界。演示可在https://fun-audio-llm.github.io上找到,代码可在https://github.com/FunAudioLLM上访问。
自注意力在处理长上下文时表现良好,但具有二次复杂度。现有的循环神经网络层具有线性复杂度,但它们在长上下文中的性能受到隐藏状态表达能力的限制。我们提出了一种新的序列建模层类别,具有线性复杂度和富有表现力的隐藏状态。关键思想是将隐藏状态本身作为一个机器学习模型,并将更新规则设定为自监督学习的一步。由于隐藏状态通过对测试序列进行训练而更新,我们的层被称为测试时训练(TTT)层。我们考虑了两种实例化:TTT-线性和TTT-MLP,其隐藏状态分别为线性模型和两层MLP。我们在125M到1.3B参数规模上评估了我们的实例化,与强大的Transformer和现代循环神经网络Mamba进行了比较。TTT-线性和TTT-MLP均与基线相匹配或超越。类似于Transformer,它们可以通过对更多标记进行调节而不断降低困惑度,而Mamba在16k上下文后无法做到。通过初步系统优化,TTT-线性在8k上下文时已经比Transformer更快,并与Mamba在挂钟时间上相匹配。TTT-MLP仍然面临内存I/O方面的挑战,但在长上下文中显示出更大的潜力,为未来研究指明了一个有前途的方向。
生成式人工智能的进展拓宽了大型语言模型(LLMs)在自主代理开发中的潜在应用。实现真正的自主性需要积累和更新通过与环境互动获得的知识,并有效利用它。当前基于LLM的方法利用过去的经验,使用完整的观察历史、摘要或检索增强。然而,这些非结构化的记忆表示并不促进复杂决策所必需的推理和规划。在我们的研究中,我们引入了AriGraph,一种新颖的方法,其中代理构建一个记忆图,整合语义和情节记忆,同时探索环境。这种图结构促进了互相关联概念的高效联想检索,与代理当前状态和目标相关,从而作为一个有效的环境模型,增强了代理的探索和规划能力。我们证明,我们的Ariadne LLM代理,配备了这种提议的记忆架构,增强了规划和决策能力,在TextWorld环境中能够有效地处理零样本基础上的复杂任务。我们的方法在各种任务中明显优于已建立的方法,如完整历史、摘要和检索增强生成,包括第一届TextWorld Problems比赛中的烹饪挑战以及新颖任务,如清洁房屋和解谜寻宝。
最近出现的医学大规模视觉语言模型(Med-LVLMs)已经增强了医学诊断能力。然而,当前的Med-LVLMs经常遇到事实问题,经常生成与已建立的医学事实不符的响应。利用外部知识的检索增强生成(RAG)可以提高这些模型的事实准确性,但也引入了两个主要挑战。首先,有限的检索上下文可能无法涵盖所有必要信息,而过多的检索可能会引入无关和不准确的参考,干扰模型的生成。其次,在模型最初回答正确的情况下,应用RAG可能导致对检索上下文过度依赖,导致错误答案。为了解决这些问题,我们提出了RULE,包括两个组成部分。首先,我们引入了一个经过验证有效的策略,通过校准选择检索上下文数量来控制事实风险。其次,基于检索上下文过度依赖导致错误的样本,我们策划了一个偏好数据集,对模型进行微调,平衡其对内在知识和检索上下文的生成依赖。我们在三个医学VQA数据集上展示了RULE的有效性,事实准确性平均提高了20.8%。我们在https://github.com/richard-peng-xia/RULE 上公开发布了我们的基准和代码。
随着图表在各行业和科学领域作为数据分析、可视化和决策工具的普及,人们对开发预训练基础模型以及通用指导调整模型来理解和推理图表的兴趣日益增长。然而,现有方法存在两个关键方面的重要缺陷,影响了图表表示模型的性能:它们是在生成自图表的基础数据表的数据上进行训练的,忽略了图表图像中的视觉趋势和模式,并且使用了弱对齐的视觉-语言骨干模型进行领域特定训练,限制了其在遇到真实图表时的泛化能力。我们解决了这些重要缺陷,并介绍了ChartGemma,这是一种新颖的图表理解和推理模型,是在PaliGemma基础上开发的。ChartGemma不依赖于基础数据表,而是在直接从图表图像生成的指导调整数据上进行训练,从而捕捉来自各种图表的高级趋势和低级视觉信息。我们的简单方法在涵盖图表总结、问题回答和事实核查的5个基准测试中取得了最先进的结果,我们对真实世界图表进行了详尽的定性研究,结果显示ChartGemma相对于同行产品生成的摘要更加真实和准确。我们在https://github.com/vis-nlp/ChartGemma发布了代码、模型检查点、数据集和演示。
人类通过即时通讯工具在对话中分享与个人经历相关的各种图像。然而,现有研究侧重于(1)单个会话中的图像分享行为,导致长期社交互动受限,以及(2)缺乏个性化的图像分享行为。在本研究中,我们介绍了Stark,一个涵盖多种社交人设、多模态格式、时间间隔和图像的大规模长期多模态对话数据集。为了自动构建Stark,我们提出了一种新颖的多模态情境化框架Mcu,它从ChatGPT和我们提出的计划与执行图像对齐器中生成长期多模态对话。利用我们的Stark,我们训练了一个多模态对话模型Ultron 7B,展示了出色的视觉想象能力。此外,我们展示了我们数据集在人类评估中的有效性。我们已公开提供我们的源代码和数据集。
大型语言模型(LLMs)在处理简单数学问题方面取得了令人瞩目的进展,但仍然在更具挑战性和复杂的数学任务上遇到困难。在本文中,我们介绍了一系列采用“思维分解与代码辅助以及自我修正”进行数学推理的LLMs,被称为DotaMath。DotaMath模型通过将复杂数学任务分解为更简单的逻辑子任务,利用代码解决这些子任务,从代码解释器获取细粒度反馈,并进行自我反思和修正来解决这些任务。通过对GSM8K和MATH数据集上的多样互动工具使用轨迹进行注释,并采用查询演化,我们生成了一个包含574K个查询-响应对的指令微调数据集,称为DotaMathQA。我们在DotaMathQA上使用模仿学习训练了一系列基础LLMs,得到了与各种领域内外基准测试相比表现出色的DotaMath模型。值得注意的是,DotaMath-deepseek-7B在具有竞争性的MATH数据集上表现出色,达到64.8%,在GSM8K上达到86.7%。此外,DotaMath-deepseek-7B在一系列领域内外基准测试中保持了强大的竞争力(平均80.1%)。展望未来,我们期待DotaMath范式将为解决复杂的数学问题开辟新途径。我们的代码可在https://github.com/ChengpengLi1003/DotaMath 上公开获取。
本文介绍了LLM-jp,这是一个跨组织的项目,旨在研发日语大型语言模型(LLMs)。LLM-jp的目标是开发开源且强大的日语LLMs,截至撰写本文时,已有来自学术界和工业界的1,500多名参与者共同为此目标而努力。本文介绍了LLM-jp成立背景、活动总结以及LLM-jp开发的LLMs的技术报告。欲了解最新活动,请访问https://llm-jp.nii.ac.jp/en/。
受益于大型语言模型和跨模态对齐的进展,现有的多模态视频理解方法在离线场景中取得了显著的性能。然而,在现实世界中作为最常见的媒体形式之一的在线视频流却鲜少受到关注。与离线视频相比,在线视频流的“动态”特性给现有模型的直接应用带来了挑战,并引入了新问题,例如存储极长期信息、连续视觉内容与“异步”用户问题之间的交互。因此,在本文中,我们提出了Flash-VStream,这是一个模拟人类记忆机制的视频语言模型。我们的模型能够实时处理极长的视频流并同时回应用户查询。与现有模型相比,Flash-VStream 在推理延迟和VRAM消耗方面取得了显著的降低,这与在线流视频理解密切相关。此外,鉴于现有视频理解基准主要集中在离线场景,我们提出了VStream-QA,这是一个专门为在线视频流理解设计的新型问答基准。在提出的基准上与流行的现有方法进行比较,展示了我们的方法在这种具有挑战性的环境中的优越性。为验证我们方法的泛化能力,我们进一步在现有视频理解基准上进行评估,并在离线场景中取得了最先进的性能。所有代码、模型和数据集均可在 https://invinciblewyq.github.io/vstream-page/ 获取。
可扩展的监督协议旨在使人类能够准确监督超智能人工智能。在本文中,我们研究辩论,其中两个人工智能竞争说服一名裁判;咨询,其中一个人工智能试图说服一个提问问题的裁判;并与直接问答基线进行比较,裁判直接回答问题而没有人工智能参与。我们使用大型语言模型(LLMs)作为两个人工智能代理和人类裁判的替代,将裁判模型视为比代理模型更弱。我们在裁判和代理之间的各种不对称性上进行基准测试,扩展了先前关于具有信息不对称性的单一抽取问答任务的工作,还包括数学、编码、逻辑和多模态推理不对称性。我们发现,在咨询中,当顾问被随机分配为支持正确/错误答案时,辩论在所有任务中表现优于咨询。将辩论与直接问答进行比较,结果取决于任务类型:在具有信息不对称性的抽取问答任务中,辩论优于直接问答,但在其他没有信息不对称性的任务中,结果则不尽相同。先前的工作将辩手/顾问分配一个答案来辩论。当我们允许他们选择要辩论的答案时,我们发现裁判在辩论中更少被错误答案说服,而在咨询中更容易被说服。此外,我们发现更强的辩手模型提高了裁判的准确性,尽管比先前的研究效果略微减弱。
LLM被认为容易受到越狱攻击的影响,即使经过安全对齐。一个重要观察是,虽然不同类型的越狱攻击可能会产生明显不同的查询,但它们大多会导致根植于相同有害知识的类似响应(例如,制作炸弹的详细步骤)。因此,我们推测直接在LLM中消除有害知识可能是比基于主流监督微调(SFT)方法更有效地抵御越狱攻击的方式。我们的大量实验证实了我们的洞察,并表明我们基于消除有害知识的方法具有令人惊讶的泛化能力:仅使用20个原始有害问题,在训练过程中没有任何越狱提示,我们的解决方案将Vicuna-7B上分布外有害问题的攻击成功率(ASR)从82.6%降低到7.7%。这明显优于Llama2-7B-Chat,后者在约0.1M安全对齐样本上进行微调,即使在额外安全系统提示的帮助下,其ASR仍为21.9%。进一步分析揭示了我们解决方案的泛化能力源自有害问题之间有害响应的内在相关性(例如,响应模式、共享步骤和操作,以及它们在LLM中学习表示之间的相似性)。我们的代码可在https://github.com/thu-coai/SafeUnlearning找到。
能够在文本、图像、视频、音频和其他感官模态之间全面处理的多模态基础模型越来越多地应用于各种实际应用中。然而,由于可能的建模决策、任务和领域范围,表征和研究多模态基础模型的进展具有挑战性。在本文中,我们引入了全面评估多模态模型(HEMM)的方法,系统评估多模态基础模型在一组三个维度上的能力:基本技能、信息流和实际应用案例。基本多模态技能是解决问题所需的内部能力,例如学习跨模态交互、细粒度对齐、多步推理和处理外部知识的能力。信息流研究多模态内容在任务中如何通过查询、翻译、编辑和融合而变化。应用案例涵盖了在真实世界的多媒体、情感计算、自然科学、医疗保健和人机交互应用中引入的领域特定挑战。通过在HEMM的30个任务上进行全面实验,我们(1)确定了对当今模型构成挑战的关键数据集维度(例如基本技能、信息流和应用案例),以及(2)概括了不同建模维度(例如规模、预训练数据、多模态对齐、预训练和指导调整目标)如何影响性能的性能趋势。我们关于具有挑战性的多模态交互、需要推理和外部知识的任务、数据和模型规模的好处,以及指导调整的影响的结论为未来多模态基础模型的工作提供了可操作的见解。
由于其高质量的新视角渲染能力,神经辐射场(NeRFs)受到了广泛关注,促使研究人员探讨各种真实世界案例。一个关键挑战是由于曝光时间内相机移动引起的相机运动模糊,这会阻碍准确的三维场景重建。在本研究中,我们提出了连续刚性运动感知高斯飞溅(CRiM-GS)方法,以从模糊图像中实时重建准确的三维场景。考虑到实际相机运动模糊过程中包含复杂的运动模式,我们基于神经常微分方程(ODEs)预测相机的连续运动。具体来说,我们利用刚体变换来建模相机运动,并进行适当的正则化,以保留物体的形状和大小。此外,我们在SE(3)场中引入连续可变形的三维变换,通过确保更高的自由度,使刚体变换适应真实世界问题。通过重新审视基本相机理论并采用先进的神经网络训练技术,我们实现了对连续相机轨迹的准确建模。我们进行了大量实验,在基准数据集上在定量和定性上展示了最先进的性能。
视觉语言模型(VLMs)在回答寻求信息的问题方面能力迅速提升。由于这些模型广泛部署在消费者应用中,它们可能会因为新兴的识别照片中的人物、对图像进行地理定位等能力而导致新的隐私风险。正如我们所展示的那样,令人惊讶的是,当前的开源和专有VLMs在图像地理定位方面非常有能力,使得利用VLMs进行广泛地理定位成为一种即时的隐私风险,而不仅仅是一个理论上的未来担忧。作为应对这一挑战的第一步,我们开发了一个新的基准测试,GPTGeoChat,用于测试VLMs在与用户进行地理定位对话方面的调节能力。我们收集了一组1,000个图像地理定位对话,这些对话是由内部标注者和GPT-4v之间进行的,并且标有每个回合中透露的位置信息的细粒度。利用这个新数据集,我们评估了各种VLMs在调节GPT-4v地理定位对话方面的能力,通过确定何时透露了过多的位置信息。我们发现,当识别泄霏的位置信息达到国家或城市级别时,定制的精细调整模型与提示的基于API的模型表现相当;然而,在准确调节更细粒度的信息,比如餐厅或建筑物的名称时,似乎需要在监督数据上进行定制调整。