每日精选AI研究论文及翻译
本文介绍了OtterHD-8B,这是一种创新的多模态模型,是从Fuyu-8B演变而来,专门设计用于以精细粒度解释高分辨率视觉输入。与受固定大小视觉编码器限制的传统模型不同,OtterHD-8B具有处理灵活输入尺寸的能力,确保其在各种推理需求中的多功能性。除了这个模型,我们还介绍了MagnifierBench,这是一个评估框架,旨在审查模型识别小物体的微小细节和空间关系的能力。我们的比较分析显示,尽管当前领先的模型在这一基准上表现不佳,但OtterHD-8B在直接处理高分辨率输入时,表现出色,明显优于同类产品。研究结果揭示了不同模型在视觉信息处理中的结构差异,以及视觉编码器预训练分辨率差异对模型在这类基准中有效性的影响。我们的研究突出了灵活性和高分辨率输入能力在大型多模态模型中的关键作用,并展示了Fuyu架构处理复杂视觉数据的潜力。
多模态大型语言模型(MLLMs)已经展示了在各种开放式任务中令人印象深刻的指导能力。然而,先前的方法主要集中在增强多模态能力上。在这项工作中,我们引入了一种多功能多模态大型语言模型,mPLUG-Owl2,它有效地利用模态协作来提高文本和多模态任务的性能。mPLUG-Owl2采用模块化网络设计,语言解码器充当管理不同模态的通用接口。具体而言,mPLUG-Owl2整合了共享功能模块以促进模态协作,并引入了保留模态特定特征的模态自适应模块。大量实验证明,mPLUG-Owl2能够推广文本任务和多模态任务,并且通过单一通用模型实现最先进的性能。值得注意的是,mPLUG-Owl2是第一个在纯文本和多模态场景中展示模态协作现象的MLLM模型,为未来多模态基础模型的发展开辟了先驱之路。
最近大型语言模型(LLMs)的进展彻底改变了决策过程,通过将复杂问题分解为更易处理的语言序列,这些序列被称为“思维”。一个有效的思维设计应考虑三个关键视角:性能、效率和灵活性。然而,现有的思维最多只能展现这些属性中的两个。为了解决这些局限性,我们引入了一种名为“一切思维”(XoT)的新颖思维引导方法,以打破现有思维范式的“彭罗斯三角律”。XoT利用预训练的强化学习和蒙特卡洛树搜索(MCTS)将外部领域知识融入思维中,从而增强LLMs的能力,使其能够高效地推广到未知问题。通过利用MCTS-LLM协作思维修订框架,这种方法能够自主地生成高质量的全面认知映射,减少LLM的交互。此外,XoT赋予LLMs参与无限制思考的能力,为具有多种解决方案的问题提供灵活的认知映射。
一个房间的声学特性是房间的几何形状、房间内的物体以及它们的具体位置的产物。一个房间的声学特性可以通过源位置和听者位置之间的脉冲响应(RIR)来表征,或者可以从房间中存在的自然信号的录音中粗略推断。房间中物体的位置变化可以影响房间的声学特性,如RIR所描述的那样。现有的RIR数据集要么没有系统地改变环境中物体的位置,要么仅包含模拟的RIR。我们介绍了SoundCam,这是迄今为止公开发布的最大的野外房间独特RIR数据集。它包括5,000个10通道的真实世界房间脉冲响应测量和2,000个10通道的音乐录音,涵盖三个不同房间,包括一个受控的声学实验室、一个野外客厅和一个会议室,每个房间中有不同位置的人类。我们展示了这些测量可以用于一些有趣的任务,比如检测和识别人类,并跟踪他们的位置。
随着大型语言模型(LLMs)在现实世界中承担越来越多的责任,能够可靠地指定和约束这些系统的行为变得至关重要。模型开发人员可能希望为模型设定明确的规则,比如“不生成辱骂内容”,但这些规则可能会被越狱技术规避。评估LLMs在面对敌对输入时如何遵循开发人员提供的规则通常需要手动审查,这减慢了监控和方法开发的速度。为解决这一问题,我们提出了规则遵循语言评估场景(RuLES),这是一个用于衡量LLMs规则遵循能力的程序框架。RuLES包括15个简单的文本场景,在这些场景中,模型被要求用自然语言遵守一组规则与人类用户进行交互。每个场景都有一个简洁的评估程序,用于确定模型在对话中是否违反了任何规则。通过手动探索我们场景中的模型行为,我们确定了6种攻击策略类别,并收集了两套测试用例:一套包括来自手动测试的独特对话,另一套系统地实施了这6个类别的策略。在各种流行的专有和开放模型(如GPT-4和Llama 2)中,我们发现所有模型都容易受到各种敌对的手工制作用户输入的影响,尽管GPT-4是表现最佳的模型。此外,我们对开放模型进行了基于梯度的攻击评估,并发现了显著的漏洞。我们提出RuLES作为一个具有挑战性的新研究领域,用于探索和防御针对LLMs的手动和自动攻击。
神经MMO 2.0是一个用于强化学习研究的大规模多智能体环境。这个新版本的关键特性是一个灵活的任务系统,允许用户定义广泛的目标和奖励信号。我们挑战研究人员训练能够泛化到在训练过程中从未见过的任务、地图和对手的智能体。神经MMO具有128个智能体的程序生成地图,在标准设置下支持多达。2.0版本是其前身的完全重写,性能提高了三倍,并与CleanRL兼容。我们将该平台作为免费开源软件发布,提供详尽的文档,可在neuralmmo.github.io获取,并有一个活跃的社区Discord。为了激发对这一新平台的初步研究,我们同时在NeurIPS 2023举办一项竞赛。
传统视频抠图为视频帧中出现的所有实例输出一个 alpha 抠图,因此无法区分各个实例。虽然视频实例分割提供了时间一致的实例掩码,但由于应用了二值化,对抠图应用的结果仍然不尽人意。为了弥补这一不足,我们提出了视频实例抠图(VIM)的概念,即在视频序列的每一帧中估计每个实例的 alpha 抠图。为解决这一具有挑战性的问题,我们提出了 MSG-VIM,即 Mask Sequence Guided Video Instance Matting 神经网络,作为 VIM 的一种新型基准模型。MSG-VIM 利用一系列掩码增强技术,使预测对不准确和不一致的掩码指导具有鲁棒性。它结合了时间掩码和时间特征指导,以提高 alpha 抠图预测的时间一致性。此外,我们建立了一个名为 VIM50 的新的 VIM 基准,其中包含 50 个视频剪辑,具有多个人类实例作为前景对象。为评估在 VIM 任务上的性能,我们引入了一个称为视频实例感知抠图质量(VIMQ)的适当指标。我们提出的模型 MSG-VIM 在 VIM50 基准上树立了强大的基准,并且在很大程度上优于现有方法。该项目在 https://github.com/SHI-Labs/VIM 上开源。
随着大型语言模型的普及,其可能产生有害或不当回应的问题引起了关注。本文介绍了一个独特的数据集,包含以问题形式的对抗样本,我们称之为AttaQ,旨在引发这种有害或不当回应。我们通过分析各种模型在面对该数据集时的漏洞来评估我们数据集的有效性。此外,我们提出了一种新颖的自动方法,用于识别和命名易受攻击的语义区域 - 模型可能产生有害输出的输入语义区域。通过应用专门的聚类技术,考虑输入攻击的语义相似性和模型响应的有害性,实现了这一目标。自动识别易受攻击的语义区域增强了对模型弱点的评估,有助于针对性地改进其安全机制和整体可靠性。
自监督表示学习在很大程度上依赖数据增强来指定表示中编码的不变性。先前的研究表明,应用多样化的数据增强对下游性能至关重要,但增强技术仍未得到充分探讨。在这项工作中,我们提出了一种基于高斯随机场的局部变换新系列,用于生成自监督表示学习的图像增强。这些变换泛化了广泛应用的仿射和颜色变换(平移、旋转、颜色抖动等),通过允许转换参数值在像素级别变化,大大增加了增强空间。这些参数被视为空间坐标的连续函数,并被建模为独立的高斯随机场。实证结果显示了这些新变换对自监督表示学习的有效性。具体而言,在ImageNet下游分类任务中,我们实现了比基准模型高出1.7%的top-1准确率改进,在外部分布iNaturalist下游分类任务中提高了3.6%。然而,由于新变换的灵活性,学到的表示对超参数敏感。虽然轻微的变换可以改善表示,但我们观察到强烈的变换可能会破坏图像的结构,这表明在提高学到的表示的泛化能力时,平衡增强的多样性和强度是重要的。
形式验证可以明确保证关键系统软件的正确性,但高证明负担长期以来一直阻碍了其广泛采用。最近,大型语言模型(LLMs)在代码分析和合成方面取得了成功。本文介绍了LLMs和静态分析相结合,用于合成不变量、断言和其他证明结构,应用于一种基于Rust的形式验证框架Verus。在少样本设置中,LLMs展现了出色的逻辑能力,特别是在分析短代码片段时生成后置条件和循环不变量。然而,LLMs缺乏保留和传播上下文信息的能力,这是传统静态分析的优势。基于这些观察,我们开发了一个基于OpenAI的GPT-4模型的原型。我们的原型将验证任务分解为多个较小的任务,迭代地查询GPT-4,并将其输出与轻量级静态分析相结合。我们在一个开发者参与的自动化循环中对该原型进行了评估,涉及20个向量操作程序。结果表明,它显著减少了编写入门级证明代码的人力工作量。