每日精选AI研究论文及翻译
我们介绍了Transfusion,这是一种用于训练多模态模型的方法,可以处理离散和连续数据。Transfusion将语言建模损失函数(下一个标记预测)与扩散相结合,以训练一个单一的Transformer模型,可以处理混合模态序列。我们从头开始预训练了多个Transfusion模型,总共达到了7B个参数,使用文本和图像数据的混合,建立了关于各种单模态和跨模态基准的扩展规律。我们的实验表明,Transfusion的扩展性比对图像进行量化并训练语言模型以处理离散图像标记要好得多。通过引入模态特定的编码和解码层,我们可以进一步提高Transfusion模型的性能,甚至将每个图像压缩为仅16个补丁。我们进一步证明,将我们的Transfusion方法扩展到7B个参数和2T个多模态标记,可以生成图像和文本的模型,与类似规模的扩散模型和语言模型相媲美,充分利用了两者的优势。
最近大型语言模型(LLMs)的进展显著增强了对表格数据的解释和处理能力,引入了以前难以想象的能力。尽管取得了这些成就,LLMs在工业场景中的应用仍然面临重大挑战,特别是由于处理真实世界表格数据所需的推理复杂性增加,突显了学术基准和实际应用之间的显著差距。为了解决这一差距,我们对工业场景中表格数据的应用进行了详细调查,并提出了一个全面且复杂的基准TableBench,包括四个主要类别中的18个领域的表格问答(TableQA)能力。此外,我们引入了TableLLM,该模型在我们精心构建的训练集TableInstruct上训练,实现了与GPT-3.5可比的性能。在TableBench上进行的大量实验表明,无论是开源还是专有的LLMs,仍然有很大的改进空间以满足现实世界的需求,其中最先进的模型GPT-4与人类相比仅获得了适度的得分。
在预训练数据混合中包含代码,即使对于非专门设计用于代码的模型而言,已经成为LLM预训练中的常见做法。虽然从业者之间普遍认为代码数据在一般LLM性能中起着至关重要的作用,但对代码在非代码任务上的确切影响的分析工作却有限。在这项工作中,我们系统地研究了代码数据对一般性能的影响。我们提出了一个问题:“预训练中使用的代码数据对代码生成之外的大量下游任务有何影响”。我们进行了广泛的消融实验,并在广泛的自然语言推理任务、世界知识任务、代码基准测试以及LLM作为评判者的胜率上进行评估,模型参数范围从4.7亿到28亿不等。在各种设置中,我们发现一个一致的结果,即代码是远远超出编码任务的泛化的关键构建模块,提高代码质量对所有任务都有巨大影响。特别是,与仅文本预训练相比,添加代码可使自然语言推理的相对增长率高达8.2%,世界知识增加4.2%,生成胜率提高6.6%,代码性能提升12倍。我们的工作表明,对代码质量的投资以及在预训练期间保留代码都会产生积极影响。
我们提出了跨视图对补丁表示进行排序作为一种新颖的自监督学习信号,以改进预训练表示。为此,我们引入NeCo:Patch Neighbor Consistency,这是一种新颖的训练损失,它强制在学生模型和教师模型之间相对于参考批次实现补丁级最近邻一致性。我们的方法利用可微分排序方法应用于预训练表示之上,例如DINOv2-registers,以引导学习信号并进一步改进它们。这种密集的后预训练方法在各种模型和数据集上实现了卓越的性能,尽管仅需要在单个GPU上进行19小时。我们证明了这种方法生成了高质量的密集特征编码器,并建立了几个新的最先进结果:在ADE20k和Pascal VOC上进行非参数上下文语义分割,分别提高了+5.5%和+6%,在COCO-Things和-Stuff上进行线性分割评估,分别提高了+7.2%和+5.7%。
大型语言模型(LLMs)在长文本应用中变得更加普遍,如交互式聊天机器人、文档分析和代理工作流,但是要在低延迟和高吞吐量下处理长文本请求是具有挑战性的。猜测解码(SD)是一种广泛使用的技术,可以在不牺牲性能的情况下降低延迟,但传统观点认为其有效性仅限于小批量大小。在MagicDec中,我们展示了令人惊讶的是,即使对于中等到长序列的高吞吐推理模式,SD也能实现加速。更有趣的是,基于我们的严格分析,一种智能起草策略可以随着批量大小的增加实现更好的加速。MagicDec首先识别随着批量大小和序列长度增加而出现的瓶颈转移,并利用这些见解更有效地部署猜测解码以实现高吞吐推理。然后,它利用具有稀疏KV缓存的起草模型来解决随着序列长度和批量大小增加而扩展的KV瓶颈。
扩散模型因其出色的能力而成为文本到图像生成的领先者。然而,在训练过程中固定的图像分辨率通常会导致高分辨率图像生成方面的挑战,如语义不准确和对象复制等问题。本文介绍了MegaFusion,这是一种新颖方法,它将现有基于扩散的文本到图像生成模型扩展到高效的更高分辨率生成,无需额外的微调或适应。具体而言,我们采用一种创新的截断和中继策略来跨越不同分辨率之间的去噪过程,从而实现以粗到精的方式进行高分辨率图像生成。此外,通过整合扩张卷积和噪声重新调度,我们进一步调整模型的先验以适应更高的分辨率。MegaFusion的多功能性和有效性使其普遍适用于潜在空间和像素空间的扩散模型,以及其他衍生模型。大量实验证实,MegaFusion显著提升了现有模型生成百万像素和各种长宽比图像的能力,而仅需约原始计算成本的40%。
在当今时代,大型语言模型(LLMs)被整合到许多实际应用中,确保它们的安全性和稳健性对于负责任的AI使用至关重要。自动化红队方法在这一过程中发挥关键作用,通过生成对抗性攻击来识别和减轻这些模型中潜在的漏洞。然而,现有方法通常面临性能缓慢、分类多样性有限和资源需求高的困难。最近提出的Rainbow Teaming方法通过将对抗性提示生成构建为一个质量多样性搜索来解决多样性挑战,但仍然速度较慢,并且需要一个大型精细调整的变异器才能实现最佳性能。为了克服这些限制,我们提出了一种新方法Ferret,它在Rainbow Teaming的基础上生成每次迭代多个对抗性提示变异,并使用评分函数对最有效的对抗性提示进行排名和选择。我们探讨了各种评分函数,包括奖励模型、Llama Guard和LLM作为评判者,以根据潜在危害对对抗性变异进行排名,以提高搜索有害变异的效率。我们的结果表明,利用奖励模型作为评分函数的Ferret将整体攻击成功率(ASR)提高到95%,比Rainbow Teaming高出46%。此外,与基准相比,Ferret将实现90%ASR所需的时间减少了15.2%,并生成可转移的对抗性提示,即对更大型LLMs有效。我们的代码可在https://github.com/declare-lab/ferret 上找到。
"匹配剪辑"是一种常见的视频编辑技术,其中一对具有相似构图的镜头之间可以流畅地过渡。虽然匹配剪辑通常是视觉上的,但某些匹配剪辑涉及音频的流畅过渡,其中来自不同来源的声音融合为一个无法区分的过渡,连接两个镜头。在本文中,我们探讨了自动查找和创建视频和电影中的"音频匹配剪辑"的能力。我们为音频匹配剪辑创建了一种自监督音频表示,并开发了一个粗到精的音频匹配流程,推荐匹配镜头并创建混合音频。我们进一步为拟议的音频匹配剪辑任务注释了一个数据集,并比较了多种音频表示的能力,以找到音频匹配剪辑候选项。最后,我们评估了多种方法来混合两个匹配的音频候选项,以实现平滑过渡。项目页面和示例可在以下链接找到:https://denfed.github.io/audiomatchcut/
基于Transformer的大型语言模型(LLMs)存在诸如生成不安全响应、不可靠推理等限制。现有的推断干预方法试图通过微调额外的模型来产生校准信号(如奖励),以引导LLM的解码过程,从而缓解这些问题。然而,这种解决方案由于需要额外的独立模型而引入了大量的时间和空间开销。本文提出了一种非干扰参数插入(Otter)的方法,将额外的参数插入到Transformer架构中,以预测校准信号并与原始LLM输出一起。Otter在多项具有挑战性的任务上提供了最先进的性能,同时节省高达86.5\%的额外空间和98.5\%的额外时间。此外,Otter与现有的推断引擎无缝集成,仅需要一行代码更改,而且在参数插入后,原始模型响应仍然可访问。我们的代码可在以下网址公开获取:https://github.com/chenhan97/Otter
文本到图像生成系统的快速发展,例如稳定扩散、Midjourney、Imagen和DALL-E等模型,引发了人们对其潜在滥用的担忧。作为回应,Meta和Google等公司加大了在由AI生成的图像上实施水印技术的力度,以遏制潜在误导视觉内容的传播。然而,在本文中,我们认为当前的图像水印方法脆弱且容易被通过视觉释义攻击规避。所提出的视觉释义器分为两步。首先,利用KOSMOS-2这一最新的最先进图像字幕系统为给定图像生成标题。其次,将原始图像和生成的标题传递给图像到图像扩散系统。在扩散管道的去噪步骤中,系统生成一个在文本标题指导下的视觉相似图像。生成的图像是一种视觉释义,不含任何水印。我们的实证研究结果表明,视觉释义攻击可以有效地从图像中去除水印。本文提供了一项批判性评估,从经验上揭示了现有水印技术对视觉释义攻击的脆弱性。虽然我们并未提出解决此问题的方案,但本文呼吁科学界优先发展更加健壮的水印技术。我们首创的视觉释义数据集及相关代码已公开提供。
物理学中的专业术语和复杂概念对通过自然语言处理(NLP)进行信息提取构成重大挑战。对于有效的NLP应用来说,文本嵌入模型至关重要,它将文本转换为密集向量表示,以实现高效的信息检索和语义分析。在这项工作中,我们介绍了PhysBERT,这是第一个针对物理学的文本嵌入模型。PhysBERT在一个精心筛选的包含120万篇arXiv物理论文的语料库上进行了预训练,并通过监督数据进行了微调,其在物理学特定任务上表现优于领先的通用模型,包括在特定物理学子领域进行微调的效果。
基于事件相机的视觉跟踪近年来越来越受到关注,这是由于其独特的成像原理和低能耗、高动态范围以及密集时间分辨率的优势。当前基于事件的跟踪算法逐渐遇到性能瓶颈,这是由于利用视觉Transformer和静态模板进行目标对象定位。本文提出了一种新颖的基于Mamba的视觉跟踪框架,采用具有线性复杂度的状态空间模型作为骨干网络。搜索区域和目标模板被输入到视觉Mamba网络中进行同时特征提取和交互。搜索区域的输出标记将被输入到跟踪头中进行目标定位。更重要的是,我们考虑在跟踪框架中引入一种动态模板更新策略,使用Memory Mamba网络。通过考虑目标模板库中样本的多样性,并对模板存储模块进行适当调整,可以集成更有效的动态模板。动态和静态模板的有效组合使得我们基于Mamba的跟踪算法能够在多个大规模数据集(包括EventVOT、VisEvent和FE240hz)上在准确性和计算成本之间取得良好平衡。源代码将发布在https://github.com/Event-AHU/MambaEVT。
长期以来,赋予机器手人类水平的灵巧性一直是一个研究目标。双手机器人演奏钢琴构成了一个任务,结合了动态任务的挑战,如生成快速而精确的动作,以及较慢但接触丰富的操纵问题。虽然基于强化学习的方法在单一任务表现方面表现出有希望的结果,但这些方法在多首歌曲设置中面临困难。我们的工作旨在弥合这一差距,从而实现规模化的机器人钢琴演奏模仿学习方法。为此,我们引入了“机器人钢琴100万”(RP1M)数据集,其中包含超过一百万条双手机器人钢琴演奏运动数据轨迹。我们将手指放置形式化为最优输运问题,从而实现对大量未标记歌曲的自动注释。对现有的模仿学习方法进行基准测试表明,通过利用RP1M,这些方法达到了最先进的机器人钢琴演奏性能。
3D高斯点云投影(3DGS)已成为许多视觉任务中3D表示的事实标准方法。这要求直接在这种表示空间中进行3D理解。为了促进这个方向的研究,我们首先利用常用的ShapeNet和ModelNet数据集构建了一个大规模的3DGS数据集。我们的数据集ShapeSplat包含来自87个独特类别的65,000个对象,其标签与各自的数据集一致。创建这个数据集利用了相当于在TITAN XP GPU上进行2个GPU年的计算。 我们利用我们的数据集进行无监督预训练和监督微调,用于分类和分割任务。为此,我们引入了\textit{高斯-均方误差},突出了从高斯参数中学习表示的独特优势。通过详尽的实验,我们提供了一些有价值的见解。特别是,我们展示了:(1)优化的GS质心的分布与均匀采样的点云(用于初始化)对应物明显不同;(2)这种分布变化导致在仅使用质心时分类下降但在分割任务中改善;(3)为了利用额外的高斯参数,我们提出了在归一化特征空间中的高斯特征分组,以及splats池化层,提供了一个定制的解决方案,有效地对类似的高斯进行分组和嵌入,从而显著改善微调任务。
自动驾驶技术的进步深刻改变了城市交通和运输系统。百度Apollo Go是中国科技巨头百度推出的先驱机器人出租车服务,最近已在北京、武汉等主要城市广泛部署,引发了更多讨论,展示了城市交通未来的一瞥。 本研究利用混合BERT模型对2024年1月至7月的36096条微博帖子进行情感分析,调查了中国公众对Apollo Go的态度。分析显示,89.56\%与Apollo Go相关的帖子集中在7月。从1月到7月,公众情绪大多是积极的,但在7月21日成为热门话题后,负面评论开始增加。 空间分析表明,高讨论强度的省份与Apollo Go运营的省份之间存在强烈相关性。最初,湖北和广东主导了在线发布量,但到了7月,广东、北京和国际地区已超过了湖北。各省的态度存在显著差异,新疆和青海表现出乐观,而西藏和甘肃则对传统出租车服务的影响表示担忧。 情感分析显示,积极评论主要集中在技术应用和个人经验上,而负面评论则主要关注工作岗位流失和安全问题。总之,本研究突显了公众对自动乘车服务的看法分歧,为规划者、政策制定者和服务提供者提供了宝贵的见解。该模型已发布在Hugging Face上,链接为https://huggingface.co/wsqstar/bert-finetuned-weibo-luobokuaipao,并在GitHub上的存储库链接为https://github.com/GIStudio/trb2024。