每日精选AI研究论文及翻译
尽管大规模文本到图像生成模型近期取得了显著进展,利用这些模型对真实图像进行操控仍是一个难题。现有编辑方法的主要局限在于,它们要么无法在广泛的图像编辑任务中保持一致的品质,要么需要耗费大量时间进行超参数调优或扩散模型的微调,以保留输入图像特有的外观。我们提出了一种新颖的方法,该方法基于通过引导机制改进的扩散采样过程。在本研究中,我们探索了自引导技术,旨在保留输入图像的整体结构及其不应被编辑的局部区域外观。具体而言,我们明确引入了旨在保存源图像局部与全局结构的布局保持能量函数。此外,我们提出了一种噪声重缩放机制,通过在生成过程中平衡无分类器引导与我们提出的引导器的范数,来保持噪声分布。这种引导方法无需对扩散模型进行微调,也无需精确的反转过程。因此,所提出的方法提供了一种快速且高质量的编辑机制。在我们的实验中,通过人类评估与定量分析,我们展示了该方法能够生成更受人类青睐的期望编辑效果,并在编辑质量与原始图像保留之间实现了更好的平衡。我们的代码可在https://github.com/FusionBrainLab/Guide-and-Rescale获取。
自ChatGPT问世以来,大型语言模型(LLMs)在多项任务中表现卓越,但其内部机制仍如黑箱般难以窥探。因此,模型的发展主要依赖数据驱动的方法,这限制了通过调整内部架构和推理路径来提升性能的可能性。鉴于此,众多研究者开始深入探索LLMs的潜在内部机制,旨在揭示其推理瓶颈的本质,其中大部分研究聚焦于注意力头。本综述旨在通过关注注意力头的可解释性及其底层机制,阐明LLMs的内部推理过程。我们首先将人类思维过程提炼为一个四阶段框架:知识回忆、上下文识别、潜在推理和表达准备。基于此框架,我们系统回顾了现有研究,识别并分类了特定注意力头的功能。此外,我们总结了发现这些特殊头的实验方法,将其分为两类:无需建模的方法和需要建模的方法。同时,我们概述了相关的评估方法和基准。最后,我们讨论了当前研究的局限性,并提出了几个潜在的未来研究方向。我们的参考文献列表已开源,地址为https://github.com/IAAR-Shanghai/Awesome-Attention-Heads。
模糊测试(Fuzzing)是一种重要的动态程序分析技术,旨在发现复杂软件中的漏洞。该技术通过向目标程序提供精心构造的恶意输入,以引发崩溃、缓冲区溢出、内存错误及异常。高效地构造此类恶意输入是一个尚未解决的难题,目前最佳方法通常是对已有有效输入进行均匀随机变异。在本研究中,我们提出采用微调后的大型语言模型(FuzzCoder),通过学习成功攻击案例中输入文件的模式,来指导未来的模糊测试探索。具体而言,我们开发了一个框架,利用代码大语言模型来引导模糊测试中的输入变异过程。这一变异过程被建模为序列到序列的生成任务,其中大语言模型接收一个字节序列,并输出变异后的字节序列。FuzzCoder在创建的指令数据集(Fuzz-Instruct)上进行了微调,该数据集收集了启发式模糊测试工具的成功测试历史。FuzzCoder能够预测输入文件中的变异位置及策略,以触发程序的异常行为。实验结果表明,基于AFL(American Fuzzy Lop)的FuzzCoder在多种输入格式(包括ELF、JPG、MP3和XML)上,在有效变异比例(EPM)和崩溃次数(NC)方面均取得了显著提升。
自在线教育初现端倪,课程被上传至可访问的共享网络平台以来,这种扩展人类知识传播以触及更广泛受众的方式便引发了广泛讨论与普遍采用。认识到个性化学习仍具巨大提升空间,新的人工智能技术不断融入这一学习模式,催生了诸如教育推荐与智能辅导等多种教育AI应用。大型语言模型(LLM)智能的涌现,使得这些教育增强功能得以构建在统一的基础模型之上,实现更深层次的整合。在此背景下,我们提出MAIC(大规模AI赋能课程),一种利用LLM驱动的多智能体系统构建AI增强课堂的新型在线教育形式,在可扩展性与适应性之间寻求平衡。除了探讨概念框架与技术革新外,我们还在中国顶尖学府清华大学进行了初步实验。基于超过500名学生的10万余条学习记录,我们获得了一系列有价值的观察与初步分析。该项目将持续演进,最终目标是建立一个全面的开放平台,支持并统一研究、技术与应用,探索大模型AI时代在线教育的可能性。我们设想该平台作为一个协作中心,汇聚教育工作者、研究人员与创新者,共同探索AI驱动在线教育的未来。
从文本描述生成高质量的三维物体仍是一个具有挑战性的问题,原因在于计算成本高、三维数据稀缺以及复杂的三维表示方式。我们提出了一种新颖的文本到三维模型——几何图像扩散(GIMDiffusion),该模型利用几何图像通过二维图像高效地表示三维形状,从而避免了复杂的三维感知架构需求。通过集成协作控制机制,我们充分利用了现有文本到图像模型(如稳定扩散)的丰富二维先验知识。这使得即使在有限的三维训练数据下(允许我们仅使用高质量的训练数据),也能实现强大的泛化能力,并保持与IPAdapter等引导技术的兼容性。简而言之,GIMDiffusion能够以与当前文本到图像模型相当的速度生成三维资产。生成的对象由语义明确、独立的部分组成,并包含内部结构,从而提升了实用性和多功能性。
多模态大语言模型(MLLMs)通过提升文档图像的分辨率支持,在无需OCR的文档理解任务中取得了显著成效。然而,这一进步伴随着为单张文档图像生成数千个视觉标记的代价,导致GPU内存消耗剧增及推理速度减缓,尤其是在多页文档理解场景下。针对这些挑战,本研究提出了一种高分辨率文档压缩模块(High-resolution DocCompressor),该模块在低分辨率全局视觉特征的引导下,将每张高分辨率文档图像压缩至324个标记。借助这一压缩模块,为增强多页文档理解能力并兼顾标记效率与问答性能,我们开发了DocOwl2模型,采用三阶段训练框架:单图像预训练、多图像持续预训练及多任务微调。DocOwl2在多页文档理解基准测试中创下了新的最优记录,并将首标记延迟减少了超过50%,展现了在多页问答、证据页解释及跨页结构理解方面的先进能力。此外,与在相似数据上训练的单图像MLLMs相比,我们的DocOwl2在单页理解性能上表现相当,而视觉标记数量却不到其20%。我们的代码、模型及数据已公开于https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl2。
公式识别因数学表达式的复杂结构和多样符号而面临重大挑战。尽管公式识别模型持续进步,但这些模型采用的评估指标,如BLEU和编辑距离,仍存在显著局限。它们忽视了同一公式具有多种表示形式,且对训练数据分布高度敏感,从而导致公式识别评估的不公平性。为此,我们提出了一种字符检测匹配(CDM)指标,通过设计图像层面而非LaTeX层面的评分标准,确保评估的客观性。具体而言,CDM将模型预测的LaTeX公式与真实LaTeX公式均渲染为图像格式,随后运用视觉特征提取与定位技术进行精确的字符级匹配,并融入空间位置信息。这种空间感知与字符匹配的方法,相较于以往仅依赖文本字符匹配的BLEU和编辑距离指标,提供了更为准确和公正的评估。实验上,我们使用CDM、BLEU及ExpRate指标对多种公式识别模型进行了评估。结果表明,CDM更贴近人类评估标准,并通过消除因公式表示多样性引起的差异,为不同模型间提供了更为公平的比较。
现实世界对话数据的日益丰富为研究人员研究用户与聊天机器人的互动提供了令人兴奋的机遇。然而,海量的数据使得手动检查单个对话变得不切实际。为应对这一挑战,我们推出了WildVis,这是一款支持快速、灵活且大规模对话分析的交互式工具。WildVis基于一系列标准,在文本和嵌入空间中提供搜索与可视化功能。为处理百万级规模的数据集,我们实施了多项优化措施,包括搜索索引构建、嵌入预计算与压缩以及缓存机制,以确保用户在几秒内获得响应。我们通过三个案例研究展示了WildVis的实用性:助力聊天机器人滥用研究、可视化并比较不同数据集的主题分布,以及刻画用户特定的对话模式。WildVis为开源项目,设计上具有可扩展性,支持更多数据集及定制化的搜索与可视化功能。
近期研究表明,通过整合外部工具(如代码解释器)并采用多轮链式思维(CoT)推理,大型语言模型(LLMs)的数学问题解决能力可以得到显著提升。尽管现有方法侧重于合成数据生成和监督微调(SFT),本文则探讨了互补的直接偏好学习途径,以进一步提升模型性能。然而,现有的直接偏好学习算法最初是为单轮对话任务设计的,未能充分应对工具集成数学推理任务所需的多轮推理和外部工具整合的复杂性。为填补这一空白,我们引入了一种多轮直接偏好学习框架,专为此情境定制,该框架利用代码解释器的反馈并优化轨迹级别的偏好。此框架具体包括多轮DPO和多轮KTO两种实现方式。通过在GSM8K和MATH数据集上使用增强提示集训练多种语言模型,我们验证了该框架的有效性。结果显示,经过监督微调的Gemma-1.1-it-7B模型在GSM8K上的准确率从77.5%提升至83.9%,在MATH上从46.1%提升至51.2%。同样,Gemma-2-it-9B模型在GSM8K上的表现从84.1%提升至86.3%,在MATH上从51.0%提升至54.5%。
大型语言模型(LLMs)的快速发展和动态特性使得传统的量化基准难以准确评估其能力。我们提出了一种名为“报告卡”的方法,即以人类可理解的自然语言形式,针对特定技能或主题总结模型行为。我们构建了一个基于三个标准的框架来评估报告卡:特异性(区分不同模型的能力)、忠实性(准确反映模型能力)和可解释性(对人类而言的清晰度和相关性)。此外,我们提出了一种无需人工监督的迭代算法来生成报告卡,并通过消融实验探讨了不同设计方案的有效性。通过对流行LLMs的实验,我们证明报告卡能够提供超越传统基准的洞察,有助于满足对LLMs进行更可解释和全面评估的需求。
开放词汇分割面临重大挑战,因为它需要在不受限的环境中,对开放类别集合中的物体进行分割与识别。基于强大的视觉-语言(ViL)基础模型(如CLIP)的成功,近期研究致力于利用其零样本能力来识别未见类别。尽管性能显著提升,这些模型在生成未见类别和场景的精确掩码提议时仍遇到关键问题,最终导致分割性能不佳。为解决这一难题,我们提出了一种新颖方法——FrozenSeg,旨在协同整合来自定位基础模型(如SAM)的空间知识与从ViL模型(如CLIP)提取的语义知识。以ViL模型的视觉编码器作为特征骨干,我们将空间感知特征注入到可学习查询和Transformer解码器内的CLIP特征中。此外,我们设计了一种掩码提议集成策略,以进一步提高召回率和掩码质量。为了充分利用预训练知识同时最小化训练开销,我们冻结了两个基础模型,仅专注于优化轻量级Transformer解码器以生成掩码提议——这是性能瓶颈所在。大量实验表明,FrozenSeg在仅使用COCO全景数据训练并以零样本方式测试的情况下,在多种分割基准上推进了最先进的结果。代码可在https://github.com/chenxi52/FrozenSeg获取。
大型语言模型(LLMs)已重塑了程序合成的格局。然而,当前基于LLM的代码补全系统常因缺乏适当上下文而生成错误代码,尤其是在处理训练数据中未包含或光标附近未出现的定义时。本文证明,通过与语言服务器暴露的类型和绑定结构紧密集成,可以以高效利用令牌的方式解决这一上下文问题。简言之,我们认为AI同样需要集成开发环境(IDEs)!具体而言,我们将LLM代码生成整合到Hazel实时程序草图环境中。Hazel语言服务器能识别待填充“洞”的类型及类型上下文,即便存在错误,也能确保始终提供有意义的程序草图。这使得提示信息能够包含代码库范围内、非词法上邻近光标、甚至可能不在同一文件中的上下文信息,但这些信息很可能在语义上接近开发者的目标。随后,LLM合成的补全通过与语言服务器的进一步对话进行迭代优化。为评估这些技术,我们引入了MVUBench,一个模型-视图-更新(MVU)Web应用程序的数据集。这些应用程序因其对应用特定数据结构的依赖而成为挑战性问题。我们发现,利用类型定义进行上下文化尤为有效。在Hazel背景下介绍我们的想法后,我们复制了这些技术并将MVUBench移植到TypeScript,以验证这些方法对资源更丰富语言的适用性。最后,我们概述了ChatLSP,这是对语言服务器协议(LSP)的一个保守扩展,语言服务器可实施该协议,以暴露各种设计的AI代码补全系统在生成LLM提示时可用于整合静态上下文的能力。