每日精选AI研究论文及翻译
在大型语言模型(LLMs)中,基于上下文的学习(ICL)已经成为一种强大的新学习范式。然而,其基本机制仍未被充分理解。特别是,将其映射到“标准”机器学习框架是具有挑战性的,标准框架中使用训练集S来找到某个假设类中最适合的函数f(x)。在这里,我们通过展示ICL学习的函数通常具有非常简单的结构来解决这个问题:它们对应于transformer LLM,其唯一输入是查询x和从训练集计算得到的单个“任务向量”。因此,ICL可以被看作是将S压缩成单个任务向量theta(S),然后使用此任务向量调制transformer以产生输出。我们通过跨多种模型和任务的全面实验来支持上述观点。
公开可用的视觉基础模型(VFMs)的领域,例如CLIP和Segment Anything Model(SAM),正在迅速扩展。VFMs具有独特的能力,源自它们的预训练目标。例如,CLIP在语义理解方面表现出色,而SAM专注于分割的空间理解。在这项工作中,我们介绍了一种简单的方法,可以高效地将VFMs合并成一个统一模型,吸收它们的专业知识。我们提出的方法整合了多任务学习、持续学习技术和师生蒸馏。与从头开始的传统多任务训练相比,这种策略需要的计算成本显著较少。此外,它只需要最初用于训练单个模型的预训练数据集的一小部分。通过将我们的方法应用于SAM和CLIP,我们得到了SAM-CLIP:一个统一模型,将SAM和CLIP的优势融合为一个单一的骨干,使其适用于边缘设备应用。我们展示SAM-CLIP学习到了更丰富的视觉表示,具备定位和语义特征,适用于广泛的视觉任务。与SAM和CLIP相比,SAM-CLIP在几项头部探测任务上表现出更好的性能。我们进一步展示,SAM-CLIP不仅保留了其前身模型的基础优势,还引入了协同功能,尤其是在零样本语义分割方面,SAM-CLIP在5个基准测试上取得了新的最先进结果。与之前专门为此任务设计的模型相比,SAM-CLIP的表现大幅领先,分别在Pascal-VOC和COCO-Stuff数据集上提高了+6.8%和+5.9%的平均IoU。
幻觉是悬挂在快速发展的多模态大型语言模型(MLLMs)上的一大阴影,指生成的文本与图像内容不一致的现象。为了减轻幻觉,现有研究主要采用一种指导调整的方式,需要使用特定数据对模型进行重新训练。在本文中,我们开辟了一条不同的道路,引入了一种名为“啄木鸟(Woodpecker)”的无需训练的方法。就像啄木鸟治愈树木一样,它会从生成的文本中挑选出并纠正幻觉。具体而言,“啄木鸟”包括五个阶段:关键概念提取、问题制定、视觉知识验证、视觉主张生成和幻觉修正。以一种事后补救的方式实施,“啄木鸟”可以轻松适用于不同的MLLMs,并且通过访问五个阶段的中间输出具有可解释性。我们在定量和定性上评估了“啄木鸟”,展示了这一新范式的巨大潜力。在POPE基准测试中,我们的方法在准确性上比基线MiniGPT-4/mPLUG-Owl分别提高了30.66%/24.33%。源代码已发布在https://github.com/BradyFU/Woodpecker。
近期大部分关于利用大型语言模型(LLMs)如GPT-3进行机器翻译(MT)的研究集中在选择少样本用于提示。在这项工作中,我们尝试更好地理解演示属性在通过扰动高质量、领域内演示进行上下文学习翻译中的作用。我们发现对源-目标映射进行的非对称扰动会产生截然不同的结果。我们表明,源端的扰动影响很小,而目标端的扰动可以大幅降低翻译质量,这表明在上下文学习翻译过程中,输出文本分布提供了最重要的学习信号。我们提出了一种名为Zero-Shot-Context的方法,用于在零样本提示中自动添加这个信号。我们证明这一方法改善了GPT-3的零样本翻译性能,甚至使其与少样本提示的翻译性能相媲美。
本文介绍了Recognize Anything Plus Model(RAM++),这是一个具有强大开放集识别能力的基础图像识别模型,通过将语义概念注入图像标记训练框架中实现。先前的方法要么是受限于有限语义的图像标记模型,要么是在多标记识别中性能不佳的视觉-语言模型,交互较浅。相比之下,RAM++在基于图像-标记-文本三元组的统一细粒度交互框架内集成了图像-文本对齐和图像标记。这种设计使RAM++不仅在识别预定义类别方面表现出色,还显著增强了对开放集类别的识别能力。此外,RAM++采用大型语言模型(LLMs)生成多样的视觉标记描述,开创了将LLM知识整合到图像标记训练中的先河。这种方法赋予RAM++在推理过程中整合视觉描述概念以进行开放集识别的能力。对广泛的图像识别基准进行评估表明,RAM++在大多数方面均超越现有的基础图像识别模型的最新技术水平(SOTA)。具体而言,对于预定义的常用标记类别,RAM++在OpenImages和ImageNet上分别比CLIP提升了10.2 mAP和15.4 mAP。对于超出预定义范围的开放集类别,RAM++在OpenImages上分别比CLIP和RAM提升了5 mAP和6.4 mAP。对于多样的人-物体交互短语,RAM++在HICO基准上分别提升了7.8 mAP和4.7 mAP。代码、数据集和预训练模型可在https://github.com/xinyu1205/recognize-anything 获取。
我们研究了最先进模型在回答信息检索的约束满足查询(例如,“圣迭戈的冰淇淋店列表”)方面的能力。过去,这类查询被认为只能通过网络搜索或知识库来解决。最近,大型语言模型(LLMs)展示了在这一任务中的初步新兴能力。然而,许多当前的检索基准要么已经饱和,要么不测量约束满足。受到围绕LLMs事实错误和幻觉不断增加的担忧的启发,我们提出了KITAB,一个用于衡量语言模型约束满足能力的新数据集。KITAB包括来自600多位作者的与书籍相关的数据和超过13,000个查询,还提供了一个相关的动态数据收集和约束验证方法,用于获取其他作者的类似测试数据。我们对GPT4和GPT3.5的扩展实验对信息流行度、约束类型和上下文可用性等维度上的常见失败模式进行了表征和解耦。结果显示,在没有上下文的情况下,模型表现出严重的限制,表现为无关信息、事实错误和不完整性,其中许多问题会随着信息流行度的降低而加剧。虽然上下文的可用性可以减轻无关信息,但对于满足约束并不起作用,这识别了约束满足的基本障碍。我们开源我们的贡献,以促进未来模型约束满足能力的进一步研究。
Transformer架构对许多人工智能模型至关重要,但在长距离语言建模方面仍面临挑战。尽管已经设计了几种特定的Transformer架构来解决长距离依赖性问题,但现有方法如Transformer-XL存在大量无效记忆的问题。在本研究中,我们提出了一种即插即用的策略,称为无需训练的记忆选择(TRAMS),根据一个简单的度量选择参与注意力计算的标记。这种策略使我们能够保留那些可能与当前查询具有高注意力得分的标记,并忽略其他标记。我们在单词级基准(WikiText-103)和字符级基准(enwik8)上测试了我们的方法,结果表明在没有额外训练或添加额外参数的情况下取得了改进。
道德基础理论(MFT)是一种心理评估工具,将人类道德推理分解为包括关怀/伤害、自由/压迫和神圣/堕落在内的五个因素(Graham等,2009)。人们在做出道德决策时在这些维度上的权重会有所不同,部分原因是由于他们的文化背景和政治意识形态。由于大型语言模型(LLMs)是在从互联网收集的数据集上进行训练的,它们可能会反映出这些语料库中存在的偏见。本文以MFT作为分析视角,研究了流行的LLMs是否已经对特定一组道德价值观产生了偏见。我们分析了已知的LLMs,并发现它们表现出特定的道德基础,并展示了这些基础如何与人类的道德基础和政治立场相关。我们还衡量了这些偏见的一致性,或者它们是否会根据模型被提示的上下文而强烈变化。最后,我们展示了我们可以对抗性地选择提示,鼓励模型展示特定一组道德基础,并且这可能会影响模型在下游任务上的行为。这些发现有助于说明LLMs假定特定道德立场可能存在的潜在风险和意想不到的后果。