每日精选AI研究论文及翻译
Transformer已经彻底改变了机器学习,然而对许多人来说,它的内部运作仍然是不透明的。我们推出了Transformer Explainer,这是一个交互式可视化工具,专为非专家设计,通过GPT-2模型来学习Transformer。我们的工具帮助用户理解复杂的Transformer概念,通过整合模型概述,并实现在数学操作和模型结构的抽象层级之间平滑过渡。它在用户的浏览器中本地运行一个实时的GPT-2实例,使用户能够尝试他们自己的输入,并实时观察Transformer的内部组件和参数如何共同预测下一个标记。我们的工具无需安装或特殊硬件,扩大了公众对现代生成式人工智能技术的教育获取。我们的开源工具可在https://poloclub.github.io/transformer-explainer/找到。视频演示请访问https://youtu.be/ECR4oAwocjs。
大型视觉-语言模型(LVLMs)能够处理多种数据类型,如图像、文本和生理信号,并可应用于各个领域。在医学领域,LVLMs具有为诊断和治疗提供实质性帮助的潜力。然而,在此之前,关键是开发基准来评估LVLMs在各种医学应用中的有效性。当前的基准往往建立在特定学术文献基础之上,主要关注单一领域,缺乏不同感知粒度。因此,它们面临特定挑战,包括临床相关性有限、评估不完整以及对交互式LVLMs的指导不足。为了解决这些限制,我们开发了迄今为止最全面的通用医学人工智能基准GMAI-MMBench,具有良好分类的数据结构和多感知粒度。该基准由285个数据集构成,涵盖39种医学图像模态、18个临床相关任务、18个部门和4种感知粒度,采用视觉问答(VQA)格式。此外,我们实现了一种词汇树结构,允许用户定制评估任务,以满足各种评估需求,大力支持医学人工智能研究和应用。我们评估了50个LVLMs,结果显示,即使是先进的GPT-4o也仅达到52%的准确率,表明有很大的改进空间。此外,我们确定了当前尖端LVLMs中存在的五个关键不足之处,需要解决以推动更好医学应用的发展。我们相信GMAI-MMBench将激励社区构建朝着GMAI的下一代LVLMs。 项目页面:https://uni-medical.github.io/GMAI-MMBench.github.io/
3D内容生成是许多计算机图形应用的核心,包括视频游戏、电影制作、虚拟和增强现实等。本文提出了一种基于深度学习的新方法,用于自动生成互动和可玩的3D游戏场景,全部源自用户的随意提示,比如手绘草图。基于草图的输入提供了一种自然、便捷的方式,在内容创建过程中传达用户的设计意图。为了克服学习中的数据不足挑战(即缺乏大规模的3D场景训练数据),我们的方法利用预训练的2D去噪扩散模型生成场景的2D图像作为概念指导。在这个过程中,我们采用等距投影模式来排除未知的摄像机姿势,同时获取场景布局。从生成的等距图像中,我们使用预训练的图像理解方法将图像分割为有意义的部分,比如离地物体、树木和建筑物,并提取2D场景布局。这些分段和布局随后被输入到程序内容生成(PCG)引擎中,比如Unity或Unreal这样的3D视频游戏引擎,以创建3D场景。生成的3D场景可以无缝集成到游戏开发环境中,并且可以立即进行游玩。广泛的测试表明,我们的方法能够高效生成质量高且互动性强的3D游戏场景,其布局紧密符合用户意图。
大型语言模型(LLMs)广泛可获得,显著增加了机器生成文本(MGTs)的传播。提示操纵的进展加剧了区分文本来源(人工撰写 vs 机器生成)的困难。这引发了对MGTs潜在误用的担忧,特别是在教育和学术领域。在本文中,我们提出了LLM-DetectAIve - 一个旨在进行细粒度MGT检测的系统。它能够将文本分类为四类:人工撰写、机器生成、机器撰写机器人化和人工撰写机器润色。与以往执行二元分类的MGT检测器不同,LLM-DetectAIve中引入两个额外类别可提供关于LLM在文本创建过程中干预程度的见解。这在教育等领域可能很有用,这些领域通常禁止任何LLM干预。实验表明,LLM-DetectAIve能够有效识别文本内容的作者,证明了其在增强教育、学术和其他领域诚信方面的用处。LLM-DetectAIve可在https://huggingface.co/spaces/raj-tomar001/MGT-New 公开访问。描述我们系统的视频可在https://youtu.be/E8eT_bE7k8c观看。
针对低资源和中资源语言,开发单语言模型仍然受制于获取高质量训练数据的困难。在本研究中,我们提出了一种新颖的跨语言词汇转移策略,即跨标记化,旨在解决这一挑战,实现更高效的语言适应。我们的方法侧重于通过使用源语言中语义相似的标记嵌入的加权平均值,初始化目标语言的标记嵌入,从而使高资源的单语言大语言模型适应未见过的目标语言。为此,我们利用涵盖源语言和目标语言的翻译资源。我们通过Tweeties验证了我们的方法,这是一系列跨标记化的单语言大语言模型,并展示了它们在一组小而多样化的语言上各种下游任务中的竞争性表现。此外,我们引入了Hydra单语言大语言模型,这些模型具有多个可互换的语言建模头部和嵌入表,进一步扩展了我们的跨标记化策略的能力。通过基于多语言模型TowerInstruct设计Hydra单语言大语言模型,我们以零-shot方式为鞑靼语开发了一种最先进的机器翻译模型,完全绕过了高质量平行数据的需求。这一突破对于鞑靼语等低资源语言尤为重要,因为高质量平行数据难以获取。通过降低训练高质量模型所需的数据和时间要求,我们的跨标记化策略允许为更多语言开发单语言大语言模型,特别是那些资源有限的语言。我们希望我们的工作能激发跨语言词汇转移领域的进一步研究和合作,并有助于全球范围内语言的赋权。
我们提出了一种新方法,即指令来回翻译,用于构建基于世界知识的高质量合成数据,以对齐大型语言模型(LLMs)。给定来自网络语料库的文档,我们利用Li等人(2023a)提出的反向翻译方法生成和策划合成指令,并根据初始文档进一步改写响应以提高其质量。利用生成的(反向翻译指令,改写响应)对进行微调,在AlpacaEval上获得比使用其他常见指令数据集(如Humpback、ShareGPT、Open Orca、Alpaca-GPT4和Self-instruct)更高的胜率。我们还证明,利用LLM改写响应优于直接蒸馏,而两个生成的文本分布在嵌入空间中表现出明显的差异。进一步分析表明,我们的反向翻译指令比其他来源的合成指令质量更高,而我们的响应比蒸馏获得的响应更加多样化和复杂。总体而言,我们发现指令来回翻译结合了网络上发现的信息多样性和数量,同时确保了对齐所必需的响应质量,融合了两全其美。
高性能多模态大型语言模型(MLLMs)在很大程度上依赖数据质量。本研究介绍了一个名为Img-Diff的新数据集,旨在通过利用对比学习和图像差异描述的见解,增强MLLMs中的细粒度图像识别能力。通过分析相似图像之间的物体差异,我们挑战模型识别匹配和不同组件。我们利用Stable-Diffusion-XL模型和先进的图像编辑技术创建了突出物体替换的相似图像对。我们的方法包括用于识别物体差异的差异区域生成器,随后是用于详细差异描述的差异标题生成器。结果是一个相对较小但高质量的“物体替换”样本数据集。我们使用提出的数据集对最先进的MLLMs(如MGM-7B)进行微调,使性能得分全面提升,超过了使用更大规模数据集训练的最先进模型,在许多图像差异和视觉问答任务中。例如,我们训练的模型显著超越了SOTA模型GPT-4V和Gemini在MMVP基准测试上。此外,我们研究了通过“物体移除”生成图像差异数据的替代方法,并进行了彻底评估以确认数据集的多样性、质量和稳健性,提出了有关这种对比数据合成的几点见解。为了鼓励进一步研究并推动多模态数据合成领域以及增强MLLMs对图像理解的基本能力,我们在https://github.com/modelscope/data-juicer/tree/ImgDiff发布了我们的代码和数据集。
我们提出了Puppet-Master,这是一种交互式视频生成模型,可作为部分层面动态的运动先验。在测试时,给定一张单独的图像和一组稀疏的运动轨迹(即拖动),Puppet-Master可以合成一段视频,展现出忠实于给定拖动交互的逼真部分层面运动。这是通过对一个大规模预训练的视频扩散模型进行微调实现的,我们提出了一种新的调节架构,以有效注入拖动控制。更重要的是,我们引入了全局到局部注意力机制,这是对广泛采用的空间注意力模块的一种即插即用替代方案,通过解决现有模型中的外观和背景问题,显著提高了生成质量。与其他在野外视频上训练并主要移动整个物体的运动条件视频生成器不同,Puppet-Master是从Objaverse-Animation-HQ学习的,这是一个经过筛选的部分层面运动剪辑新数据集。我们提出了一种策略,可以自动过滤出次优动画,并用有意义的运动轨迹增强合成渲染。Puppet-Master在各种类别的真实图像上具有良好的泛化性能,并在真实世界基准测试中以零样本方式胜过现有方法。请查看我们的项目页面获取更多结果:vgg-puppetmaster.github.io。
人头检测、关键点估计和3D头部模型拟合是许多应用中重要的任务。然而,传统的真实世界数据集通常存在偏见、隐私和伦理问题,并且是在实验室环境中记录的,这使得训练模型很难泛化。在这里,我们介绍VGGHeads -- 一个使用扩散模型生成的大规模合成数据集,用于人头检测和3D网格估计。我们的数据集包含超过100万张高分辨率图像,每张图像都标注有详细的3D头部网格、面部关键点和边界框。利用这个数据集,我们提出了一种新的模型架构,能够在单个步骤中从单个图像中同时检测头部并重建头部网格。通过广泛的实验评估,我们展示了在我们的合成数据上训练的模型在真实图像上取得了良好的性能。此外,我们的数据集的多功能性使其适用于广泛的任务,提供了对人头的一般和全面的表示。此外,我们提供了有关合成数据生成流程的详细信息,使其可以被重新用于其他任务和领域。
将自然语言与物理三维环境相结合对于推动具有体验的人工智能至关重要。当前用于三维视觉指代的数据集和模型主要集中在从静态、以物体为中心的描述中识别和定位对象。这些方法并未充分解决任务导向指代所需的动态和序列性质,这在实际应用中是必要的。在这项工作中,我们提出了一个新任务:三维场景中的任务导向序列指代,代理程序必须按照详细的逐步说明,在室内场景中定位一系列目标对象以完成日常活动。为了促进这一任务,我们引入了SG3D,一个包含22,346个任务、112,236个步骤的大规模数据集,涵盖4,895个真实世界的三维场景。该数据集是通过结合来自各种三维场景数据集的RGB-D扫描和自动化任务生成流程构建的,随后经过人工验证以确保质量。我们将三种最先进的三维视觉指代模型调整为序列指代任务,并在SG3D上评估它们的性能。我们的结果显示,尽管这些模型在传统基准上表现良好,但它们在任务导向的序列指代方面面临重大挑战,突显了在这一领域需要进一步研究的必要性。
分子表示是我们理解物质世界的基础要素。它的重要性涵盖了从化学反应基础到新疗法和材料设计的方方面面。先前的分子机器学习模型采用了字符串、指纹、全局特征和简单的分子图,这些都是固有的信息稀疏表示。然而,随着预测任务复杂性的增加,分子表示需要编码更高保真度的信息。本研究引入了一种新颖的方法,通过立体电子效应将量子化学丰富信息融入分子图中。我们展示了明确添加立体电子相互作用显著提高了分子机器学习模型的性能。此外,融入立体电子的表示可以通过定制的双图神经网络工作流程进行学习和部署,从而使其应用于任何下游分子机器学习任务。最后,我们展示了学习到的表示允许对先前难以处理的系统(如整个蛋白质)进行方便的立体电子评估,开辟了分子设计的新途径。
在软件工程中,预测程序行为而无需执行是一项重要且具有挑战性的任务。传统模型通常难以捕捉代码中的动态依赖关系和交互。本文介绍了一种名为CodeFlowrepresents的新型基于机器学习的框架,通过动态依赖关系学习来预测代码覆盖率并检测运行时错误。利用控制流图(CFGs),CodeFlowrepresents展现了所有可能的执行路径和不同语句之间的关系,提供了对程序行为的全面理解。它构建CFGs来描述执行路径,并为CFG节点学习向量表示,捕捉静态控制流依赖关系。此外,它通过执行跟踪学习动态依赖关系,反映了执行过程中语句之间的影响。这种方法能够准确预测代码覆盖率并识别运行时错误。实证评估显示,在代码覆盖率预测准确性和有效定位运行时错误方面取得了显著改进,超越了当前模型。
当使用语言模型(LMs)解决复杂问题时,人类可能难以理解LM生成的解决方案并修复有缺陷的解决方案。为了帮助人类修复这些解决方案,我们提出自动将复杂解决方案分解为多个对应于特定子任务的简单部分。我们引入了一种新的学习任务分解目标,称为辅助价值(AssistV),用于衡量人类修复分解解决方案的可行性和速度。我们收集了一组关于不同分解解决方案的人类修复经验数据集。利用收集的数据作为上下文示例,我们学习批判、改进和排名分解解决方案以改善AssistV。我们在竞技编程问题下验证了我们的方法:在177小时的人类研究中,我们的方法使非专家能够解决更多问题(增加了33.3%),加快了他们的速度(提高了3.3倍),并使他们能够与未经协助的专家匹敌。