每日精选AI研究论文及翻译
当前的通用分割方法展现出在像素级图像和视频理解方面的强大能力。然而,它们缺乏推理能力,无法通过文本指令进行控制。相比之下,大型视觉-语言多模态模型展示出强大的基于视觉的对话和推理能力,但缺乏像素级理解,并且难以接受用于灵活用户交互的视觉提示。本文提出了OMG-LLaVA,一个新颖而优雅的框架,将强大的像素级视觉理解与推理能力相结合。它可以接受各种视觉和文本提示,实现灵活的用户交互。具体而言,我们使用通用分割方法作为视觉编码器,将图像信息、感知先验和视觉提示整合为提供给LLM的视觉记号。LLM负责理解用户的文本指令,并根据视觉信息提供文本响应和像素级分割结果。我们提出感知先验嵌入以更好地整合感知先验与图像特征。OMG-LLaVA在单一模型中实现了图像级、对象级和像素级的推理和理解,与多个基准测试上专门方法的性能相匹敌甚至超越。我们的工作不是使用LLM连接每个专家,而是旨在对一个编码器、一个解码器和一个LLM进行端到端训练。代码和模型已发布供进一步研究使用。
大型语言模型(LLMs)面临着数学推理方面的重大挑战,因为准确性需要广泛和精确的推理链。确保每个推理步骤的正确性至关重要。为了解决这一问题,我们旨在通过从人类反馈中学习来增强LLMs的鲁棒性和事实性。然而,直接偏好优化(DPO)对于长链数学推理的益处有限,因为采用DPO的模型很难识别错误答案中的详细错误。这种局限源于缺乏细粒度的过程监督。我们提出了一种简单、有效且数据高效的方法,称为Step-DPO,它将单个推理步骤视为偏好优化的单元,而不是对答案进行整体评估。此外,我们开发了一个用于Step-DPO的数据构建流水线,可以创建一个包含10K个逐步偏好对的高质量数据集。我们还观察到,在DPO中,自动生成的数据比人类或GPT-4生成的数据更有效,因为后者具有超出分布的特性。我们的研究结果表明,只需10K个偏好数据对和少于500个Step-DPO训练步骤,就可以使具有超过70B参数的模型在MATH上准确率提高近3%。值得注意的是,将Step-DPO应用于Qwen2-72B-Instruct时,在MATH和GSM8K的测试集上分别获得了70.8%和94.0%的分数,超过了一系列闭源模型,包括GPT-4-1106、Claude-3-Opus和Gemini-1.5-Pro。我们的代码、数据和模型可在https://github.com/dvlab-research/Step-DPO 上获得。
我们训练了一个模型,用于从交错的文本和图片的多模态提示中生成图片,例如“一个<图片中的男人>男人和他的<图片中的狗>狗以<图片中的卡通>卡通风格呈现”。我们通过提取与合成生成的和公开可用的文本-图像数据的图像标题中的单词相对应的语义上有意义的图像裁剪来引导一个多模态数据集的生成。我们的模型,MUMU,由一个视觉-语言模型编码器和一个扩散解码器组成,并在单个8xH100 GPU节点上进行训练。尽管仅在来自同一图像的裁剪上进行训练,MUMU 学会了将来自不同图像的输入组合成连贯的输出。例如,一个包含现实人物和卡通人物的输入将输出相同人物的卡通风格,一个包含站立主体和滑板车的输入将输出主体骑着滑板车的图像。因此,我们的模型推广到了风格转移和角色一致性等任务。我们的结果显示了使用多模态模型作为图像生成的通用控制器的潜力。
大型语言模型(LLMs)已被应用于各种智能教育任务以协助教学。虽然初步探索集中在针对特定教育任务的独立LLM增强代理,但LLMs在多代理协作框架中模拟具有真实用户参与的课堂的潜力尚未被探索。在这项工作中,我们提出SimClass,一个涉及用户参与的多代理课堂模拟框架。我们确定了代表性的班级角色,并引入了一种新颖的班级控制机制用于自动课堂教学,并在两门真实课程中进行用户实验。利用弗兰德斯互动分析系统和社区探究理论框架从教育分析中,我们展示了LLMs可以有效模拟传统课堂互动模式,同时提升用户体验。我们还观察到SimClass中代理之间出现的新兴群体行为,代理合作创造活跃的课堂互动,以改善用户学习过程。我们希望这项工作开创了LLM增强的多代理系统在虚拟课堂教学中的应用。
本文介绍了自我意识知识检索(SeaKR),这是一种新颖的自适应RAG模型,从LLM的内部状态中提取自我意识的不确定性。SeaKR在LLM呈现高自我意识不确定性以进行生成时激活检索。为了有效整合检索到的知识片段,SeaKR根据LLM的自我意识不确定性重新对它们进行排名,以保留能最大程度降低其不确定性的片段。为了便于解决需要多次检索的复杂任务,SeaKR利用它们的自我意识不确定性来选择不同的推理策略。我们在复杂和简单问答数据集上的实验表明,SeaKR优于现有的自适应RAG方法。我们在https://github.com/THU-KEG/SeaKR 上发布了我们的代码。
大型语言模型(LLMs)已显示出在各种任务中作为副驾驶员的显著潜力。在处理涉及隐私数据或延迟敏感任务时,LLMs在边缘设备上的本地部署是必要的。这类设备的计算约束使得直接部署强大的大规模LLMs变得不切实际,因此需要从大规模模型到轻量级模型的知识蒸馏。已经开展了许多工作以从LLMs中获取多样性和高质量的训练样本,但很少关注根据学生偏好调整教师指导内容,类似于教学法中的“响应式教学”。因此,我们提出了ARTE,即Aligning TeacheR with StudenT PreferencEs,这是一个框架,用于将教师模型与学生偏好对齐,以生成定制的知识蒸馏训练样本。具体来说,我们从教师模型中获取草案问题和原理,然后利用学生在上下文学习中的表现作为代理收集这些问题和原理的学生偏好,最后将教师模型与学生偏好对齐。最后,我们使用对齐的教师模型重复第一步,为目标任务上的学生模型获取定制的训练样本。在学术基准测试上进行的大量实验表明,ARTE相对于从强大的LLMs中提炼的现有指导调整数据集具有优越性。此外,我们深入研究了ARTE的泛化能力,包括在推理能力方面对经过微调的学生模型和对齐的教师模型在跨任务和学生间生成定制训练数据的泛化。总之,我们的贡献在于提出了一个新颖的定制训练样本生成框架,展示了其在实验中的有效性,并调查了ARTE中学生和对齐教师模型的泛化能力。
测试集污染是一个被广泛记录的问题,指的是基准测试中的测试数据最终出现在新模型的训练集中,这对公平的LLM评估构成障碍,也可能迅速使基准测试变得过时。为了减轻这一问题,许多最近的基准测试通过众包方式从人类或LLM评委那里获取新的提示和评估;然而,这可能引入显著偏见,并且在评分困难问题时会出现问题。在这项工作中,我们介绍了一个新的LLM基准测试,旨在兼顾测试集污染和LLM评分以及人类众包的缺陷。我们发布了LiveBench,这是第一个基准测试,具有以下特点:(1) 包含来自最新信息源的经常更新的问题,(2) 根据客观的真值自动评分,(3) 包含各种具有挑战性的任务,涵盖数学、编码、推理、语言、遵循指示和数据分析。为实现这一目标,LiveBench的问题基于最近发布的数学竞赛、arXiv论文、新闻文章和数据集,其中包含了来自之前基准测试(如Big-Bench Hard、AMPS和IFEval)的更困难、无污染版本的任务。我们评估了许多知名的闭源模型,以及从0.5B到110B不等的数十个开源模型。LiveBench非常困难,顶尖模型的准确率低于65%。我们发布所有问题、代码和模型答案。问题将每月添加和更新,我们将随时间发布新任务和更难的任务版本,以便LiveBench可以区分LLM在未来改进时的能力。我们欢迎社区参与和合作,以扩展基准测试任务和模型。
教学以改进学生模型(例如知识蒸馏)是LLM中广泛研究的方法论。然而,对于人类而言,教学不仅改善了学生,也提升了教师自身。我们提出一个问题:LLM是否也能通过教学来学习(LbT)?如果是,我们可能可以解锁在不仅仅依赖人类生成数据或更强模型的情况下,持续推进模型的可能性。在本文中,我们对这一宏伟议程进行初步探索。我们展示了LbT思想可以融入现有LLM训练/提示流程中,并带来显著改进。具体而言,我们设计了三种方法,分别模仿人类LbT的三个层次:观察学生的反馈、从反馈中学习以及迭代学习,旨在提高答案准确性而无需训练,并通过微调提高模型固有能力。研究结果令人鼓舞。例如,类似于人类的LbT,我们发现:(1)LbT可以引发弱到强的泛化:强模型可以通过教授其他弱模型来改进自身;(2)学生的多样性可能有助于:教授多个学生可能比教授一个学生或教师本身更好。我们希望这一早期的前景能激发对LbT的未来研究,并更广泛地采用教育中的先进技术来改进LLM。代码可在https://github.com/imagination-research/lbt找到。
模型反演和成员推断攻击的目标是重建和验证模型训练的数据。然而,它们不能保证找到所有训练样本,因为它们不知道训练集的大小。在本文中,我们引入了一个新任务:数据集大小恢复,旨在直接从模型的权重中确定用于训练模型的样本数量。然后,我们提出了DSiRe,一种用于恢复用于微调模型的图像数量的方法,在微调使用LoRA的常见情况下。我们发现LoRA矩阵的范数和频谱与微调数据集大小密切相关;我们利用这一发现提出了一个简单而有效的预测算法。为了评估LoRA权重的数据集大小恢复,我们开发并发布了一个新的基准测试,名为LoRA-WiSE,其中包含来自2000多个不同LoRA微调模型的25000多个权重快照。我们最佳的分类器可以预测微调图像的数量,平均绝对误差为0.36个图像,证实了这种攻击的可行性。
稀疏注意力可以有效地减轻大型语言模型(LLMs)在长文本中所需的显著内存和吞吐量需求。现有方法通常采用统一的稀疏注意力掩码,在不同的注意力头和输入长度之间应用相同的稀疏模式。然而,这种统一方法无法捕捉LLMs固有的多样化注意力模式,忽视了它们独特的准确性与延迟之间的权衡。为了解决这一挑战,我们提出了注意力混合(MoA),它可以自动为不同的头部和层级定制不同的稀疏注意力配置。MoA构建并导航各种注意力模式及其相对于输入序列长度的缩放规则的搜索空间。它对模型进行配置文件,评估潜在的配置,并确定最佳的稀疏注意力压缩方案。MoA能够适应不同的输入大小,揭示了一些注意力头部扩展其焦点以适应更长序列,而其他头部则始终集中在固定长度的局部上下文。实验表明,MoA可以将有效上下文长度提高3.9倍,同时保持相同的平均注意力跨度,相对于Vicuna-7B、Vicuna-13B和Llama3-8B模型,将检索准确性提高1.5-7.1倍,超过统一注意力基准线。此外,MoA缩小了稀疏模型和密集模型之间的能力差距,将长文本理解基准测试中的最大相对性能下降从9%-36%减少到5%以内。MoA在单个GPU上为7B和13B密集模型实现了1.2-1.4倍的GPU内存减少,并将解码吞吐量提高了5.5-6.7倍,对性能影响很小。
基于示例的编程(PBE)旨在从输入输出示例中生成算法。这种系统在实践和理论上都非常重要:从最终用户的角度来看,它们被部署到数百万人手中;从人工智能的角度来看,PBE对应于一种非常普遍的少样本归纳推理形式。鉴于大型语言模型(LLMs)在代码生成任务中取得的成功,我们在这里调查LLMs在多大程度上可以说已经“解决”了PBE。我们在经典领域(如列表和字符串)以及在典型预训练数据中未充分代表的不常见的图形编程领域进行实验。我们发现预训练模型在PBE方面并不有效,但可以对其进行微调以获得更高的性能,前提是测试问题属于分布内。我们通过实证分析了导致这些模型成功和失败的原因,并采取措施来了解如何实现更好的分布外泛化。总的来说,这些结果表明LLMs在解决典型的PBE任务方面取得了重大进展,潜在地增加了PBE系统的灵活性和适用性,同时也指出了LLMs仍然存在不足之处。
在大型语言模型中,分词器对于编码信息至关重要,但是它们的发展最近出现停滞,并且存在固有的弱点。主要的局限包括计算开销大、词汇使用效率低,以及嵌入层和头层过大。此外,它们的性能偏向于参考语料库,导致对少数语言的效果降低。 为了解决这些问题,我们提出了T-FREE,它通过字符三元组上的稀疏激活模式直接嵌入单词,并且不需要参考语料库。T-FREE固有地利用形态相似性,并允许对嵌入层进行强大的压缩。在我们详尽的实验评估中,我们在这些层面上实现了超过85%的参数减少,同时实现了具有竞争力的下游性能。此外,T-FREE在跨语言迁移学习中显示出显著的改进。
大型视觉语言模型(LVLMs)会出现幻觉:图像中的某些上下文线索可能会触发语言模块对异常或假设对象的过度自信和错误推理。尽管已经开发了一些基准来调查LVLM幻觉,但它们主要依赖于手工制作的极端案例,其失败模式可能难以泛化,对其进行微调可能会削弱其有效性。这促使我们开发了第一个自动基准生成方法AUTOHALLUSION,它利用几种主要策略来创建多样化的幻觉示例。它通过探测LVLMs中的语言模块的上下文线索,并利用这些线索合成图像:(1)添加与上下文线索不符的对象;(2)对于两个共同出现的对象,保留一个并排除另一个;或者(3)移除与上下文线索密切相关的对象。然后生成基于图像的问题,其真实答案与语言模块之前的答案相矛盾。模型必须克服上下文偏见和干扰,以达到正确答案,而错误或不一致的答案则表明出现了幻觉。AUTOHALLUSION使我们能够以最低成本创建新的基准,从而克服了手工制作基准的脆弱性。它还揭示了常见的失败模式和原因,提供了检测、避免或控制幻觉的关键见解。对顶尖的LVLMs进行了全面评估,例如GPT-4V(ision)、Gemini Pro Vision、Claude 3和LLaVA-1.5,在AUTOHALLUSION的合成和真实世界数据集上显示出97.7%和98.7%的幻觉诱发成功率,为长期与幻觉作斗争铺平了道路。
图形用户界面(GUI)是我们与数字设备互动的核心。最近,人们开始努力构建各种GUI理解任务的模型。然而,这些努力在很大程度上忽视了一个重要的GUI相关任务:根据用户指定点进行屏幕阅读,我们称之为屏幕点读(SPR)任务。这一任务主要由僵化的可访问屏幕阅读工具处理,急需由多模态大语言模型(MLLMs)推动的新模型。在本文中,我们提出了一种名为镜头树(ToL)代理的机制,利用了一种新颖的ToL接地机制来解决SPR任务。基于输入点坐标和相应的GUI截图,我们的ToL代理构建了一个分层布局树。基于这棵树,我们的ToL代理不仅理解了指定区域的内容,还表达了元素之间的布局和空间关系。这种布局信息对于准确解释屏幕上的信息至关重要,区别于其他屏幕阅读工具。我们还在新提出的SPR基准上对ToL代理进行了全面评估,该基准包括来自移动设备、Web和操作系统的GUI。最后,我们在移动GUI导航任务上测试了ToL代理,展示了其在识别代理执行轨迹路径上的错误操作中的实用性。代码和数据:screen-point-and-read.github.io
检索增强生成(RAG)已经证明在缓解大型语言模型(LLMs)的幻觉问题方面是有效的。然而,将检索器与多样的LLMs知识偏好对齐的困难不可避免地在开发可靠的RAG系统中提出了挑战。为了解决这个问题,我们提出了DPA-RAG,这是一个旨在对齐RAG系统内多样化知识偏好的通用框架。具体而言,我们首先引入了一个偏好知识构建流程,并结合五种新颖的查询增强策略来缓解偏好数据稀缺性。基于偏好数据,DPA-RAG实现了外部和内部偏好对齐:1)它将成对、点对和对比偏好对齐能力共同整合到重新排序器中,实现了RAG组件之间的外部偏好对齐。2)它进一步引入了一个预对齐阶段,位于普通监督微调(SFT)之前,使LLMs能够隐式捕捉与其推理偏好对齐的知识,实现了LLMs的内部对齐。在四个知识密集型QA数据集上的实验结果表明,DPA-RAG优于所有基线,并无缝集成了黑盒和开源LLM读者。进一步的定性分析和讨论还为实现可靠的RAG系统提供了经验指导。我们的代码公开可用于https://github.com/dongguanting/DPA-RAG。
受近年来埃及阿拉伯语和英语混合代码转换现象普遍增加的启发,本文探讨了机器翻译(MT)和自动语音识别(ASR)系统的复杂性,重点研究将混合代码转换的埃及阿拉伯语-英语翻译为英语或埃及阿拉伯语。我们的目标是介绍开发这些系统所采用的方法,利用大型语言模型如LLama和Gemma。在ASR领域,我们探讨了Whisper模型在混合代码转换的埃及阿拉伯语识别中的应用,详细说明了我们的实验过程,包括数据预处理和训练技术。通过实施结合ASR和MT的连续语音转文本翻译系统,我们旨在克服受限资源和埃及阿拉伯方言的独特特征所带来的挑战。根据已建立的度量标准进行评估显示出令人期待的结果,我们的方法在英语翻译方面取得了56%的显著改进,而在阿拉伯语翻译方面则有9.3%的提升。由于代码转换在口语中根深蒂固,ASR系统能够有效处理这一现象至关重要。这种能力对于在各个领域实现无缝互动至关重要,包括商务谈判、文化交流和学术论述。我们的模型和代码可作为开源资源使用。代码:http://github.com/ahmedheakl/arazn-llm,模型:http://huggingface.co/collections/ahmedheakl/arazn-llm-662ceaf12777656607b9524e。
随着对在线招聘平台的日益依赖以及人工智能技术的采用,突显了高效简历分类方法的关键需求。然而,诸如数据集规模小、缺乏标准化简历模板和隐私问题等挑战阻碍了现有分类模型的准确性和有效性。在这项工作中,我们通过提出一种全面的简历分类方法来解决这些挑战。我们从多个来源精心筛选了一个规模为13,389份简历的大型数据集,并采用了诸如BERT和Gemma1.1 2B之类的大型语言模型(LLMs)进行分类。我们的结果显示,相较于传统机器学习方法,我们的最佳模型在准确性方面取得了显著改进,最高准确率达到92\%,前五准确率达到97.5\%。这些发现强调了数据集质量和先进模型架构在提升简历分类系统准确性和鲁棒性方面的重要性,从而推动了在线招聘实践领域的发展。
尽管已有许多研究评估了语言模型(LMs)在需要心灵理论推理的任务上的生成性能,但对模型对心智状态的内部表示的研究仍然有限。最近的研究利用探测来证明LMs能够表示自身和他人的信念。然而,这些主张缺乏充分的评估,使得很难评估模型设计和训练选择对心智状态表示的影响。我们报告了一项广泛的基准测试,涉及不同模型大小、微调方法和提示设计的各种LM类型,以研究心智状态表示的稳健性和探针内的记忆问题。我们的结果显示,模型对他人信念的内部表示质量随着模型大小的增加而提高,更重要的是,随着微调的进行而提高。我们是第一个研究提示变化如何影响心灵理论任务中探测性能的研究者。我们证明,即使这些变化应该是有益的,模型的表示也对提示变化敏感。最后,我们补充了先前在心灵理论任务上的激活编辑实验,并展示了通过引导它们的激活而无需训练任何探针即可改善模型的推理性能的可能性。