每日精选AI研究论文及翻译
在使用计算机视觉模型处理图像之前将其调整为固定分辨率的普遍且明显不够优化的选择尚未成功受到挑战。然而,诸如视觉Transformer(ViT)之类的模型提供了灵活的基于序列的建模,因此支持不同长度的输入序列。我们利用这一特点开发了NaViT(原生分辨率ViT),它在训练过程中利用序列打包来处理任意分辨率和长宽比的输入。除了模型的灵活使用,我们展示了在大规模监督和对比图像-文本预训练中的训练效率的提升。NaViT可以高效地迁移到标准任务,如图像和视频分类、目标检测以及语义分割,并在鲁棒性和公平性基准测试中取得了改进的结果。在推断时,输入分辨率的灵活性可用于平滑地在测试时间的成本和性能之间进行权衡。我们相信NaViT标志着与大多数计算机视觉模型使用的标准CNN设计的输入和建模流程有所不同,并代表了ViT的一个有前途的方向。
我们提出了In-context Autoencoder (ICAE) 用于大型语言模型 (LLM) 中的上下文压缩。ICAE 包括两个模块:一个可学习的编码器,通过LoRA从LLM进行调整,用于将长上下文压缩为有限数量的记忆槽,以及一个固定的解码器,即目标LLM,可以根据记忆槽进行各种目的的条件设置。我们首先在大量文本数据上使用自编码和语言建模目标对ICAE进行预训练,使其能够生成准确全面地代表原始上下文的记忆槽。然后,我们在少量指导数据上对预训练的ICAE进行微调,以增强其与各种提示的交互,以生成理想的响应。我们的实验结果表明,通过我们提出的预训练和微调范式学习的ICAE能够有效地生成具有4倍上下文压缩的记忆槽,目标LLM可以很好地对其进行条件设置,以响应各种提示。这些有前途的结果显示了ICAE对长上下文问题的新方法以及在实践中减少LLM推理的计算和内存开销的潜力,建议进一步研究LLM的上下文管理。我们的代码和数据将很快发布。
大型语言模型(LLMs)展示了出色的理解、推理和生成自然语言指令的能力。然而,LLMs的发展主要集中在高资源语言,如英语,从而限制了它们在其他语言中的适用性和研究。因此,我们提出了PolyLM,一个在6400亿(B)标记上训练的多语言LLM,有两种模型大小:1.7B和13B。为了增强其多语言能力,我们1)将双语数据整合到训练数据中;2)采用课程学习策略,在预训练期间将非英语数据的比例从第一阶段的30%增加到最终阶段的60%。此外,我们提出了一种多语言自我指导方法,自动生成了132.7K多样化的多语言指令用于模型微调。为了评估模型的性能,我们收集了几个现有的多语言任务,包括多语言理解、问答、生成和翻译。广泛的实验表明,PolyLM在多语言任务上超越了其他开源模型,如LLaMA和BLOOM,同时在英语中保持了可比的性能。我们的模型,连同指令数据和多语言基准,可在以下网址获取:https://modelscope.cn/models/damo/nlp_polylm_13b_text_generation。
本文介绍了InternVid,这是一个大规模以视频为中心的多模态数据集,可用于学习强大且可转移的视频文本表示,以实现多模态理解和生成。InternVid数据集包含超过700万个视频,总时长近760,000小时,产生了2.34亿个视频剪辑,配有总计41亿字的详细描述。我们的核心贡献在于开发一种可扩展的方法,自主构建高质量的视频文本数据集,利用大型语言模型(LLM),从而展示其在大规模学习视频语言表示方面的有效性。具体来说,我们利用多尺度方法生成与视频相关的描述。此外,我们引入了基于ViT-L的ViCLIP,这是一种基于视频文本表示学习模型。通过对InternVid进行对比学习,该模型展示了领先的零样本动作识别和竞争性视频检索性能。除了识别和检索等基本视频理解任务之外,我们的数据集和模型具有广泛的应用。它们特别有利于生成交错的视频文本数据,用于学习以视频为中心的对话系统,推动视频到文本和文本到视频生成研究。这些提出的资源为对多模态视频理解和生成感兴趣的研究人员和从业者提供了工具。
尽管通过扩展规模来实现大型网络,参数数量达到数百亿并取得了有效性,但对于训练超参数化模型的必要性仍知之甚少,而替代方法并不一定能降低训练高性能模型的成本。在本文中,我们探讨了低秩训练技术作为训练大型神经网络的替代方法。我们引入了一种名为ReLoRA的新方法,利用低秩更新来训练高秩网络。我们将ReLoRA应用于具有高达3.5亿参数的预训练Transformer语言模型,并展示了与常规神经网络训练相当的性能。此外,我们观察到ReLoRA的效率随着模型规模的增加而提高,使其成为高效训练数十亿参数网络的一种有前景的方法。我们的研究结果揭示了低秩训练技术的潜力及其对规模定律的影响。
大型语言模型(LLMs)已经展示出在开发多样任务的通用规划代理方面取得了令人印象深刻的成果。然而,在广阔、多层和多房间环境中落地这些计划对机器人来说是一个重大挑战。我们引入了SayPlan,这是一种可扩展的基于LLM的大规模任务规划方法,使用3D场景图(3DSG)表示。为了确保我们方法的可扩展性,我们:(1)利用3DSG的分层性质,允许LLMs从完整图的较小、折叠表示中进行语义搜索,以寻找与任务相关的子图;(2)通过集成经典路径规划器来减少LLM的规划视野;(3)引入一个迭代重新规划流水线,利用场景图模拟器的反馈来优化初始计划,纠正不可行的动作并避免规划失败。我们在涵盖多达3层、36个房间和140个物体的两个大规模环境上评估了我们的方法,并展示了我们的方法能够从抽象和自然语言指令中落实大规模、长视野任务计划,以便移动操作机器人执行。
大型语言模型(LLMs),如GPT-4,已经展示出在包括健康应用在内的广泛任务中的显著能力。在本文中,我们研究了LLMs如何用于扩展生物医学知识整理。我们发现,虽然LLMs已经在构建生物医学文本方面具有相当的能力,但通过自监督学习将其精炼为一个特定任务的学生模型,可以获得比开箱即用的LLMs更大的收益,同时还具有成本、效率和白盒模型访问等额外优势。 我们对不良药物事件(ADE)提取进行了案例研究,这是一个改善护理的重要领域。在标准ADE提取评估中,一个经过GPT-3.5精炼的PubMedBERT模型在不使用任何标记数据的情况下达到了与监督式最先进模型相当的准确性。尽管体积小了1000多倍,但精炼模型在F1指标上比其教师GPT-3.5高出6个绝对点,比GPT-4高出5个绝对点。 对精炼模型选择(例如PubMedBERT vs BioGPT)和ADE提取架构的消融研究为生物医学知识提取的最佳实践提供了启示。通过精炼还获得了其他标准生物医学知识提取任务的类似收益,如基因-疾病关联和受保护健康信息,进一步展示了这种方法的潜力。
大型语言模型通常经历两个训练阶段,即预训练和微调。尽管大规模预训练赋予模型生成自然语言响应的强大能力,但这些预训练模型有时仍然可能无法理解人类指令。为增强语言模型解释和响应指令的能力,指令微调已成为该领域的关键方法。最近的研究发现,即使只有少量高质量的指令遵循数据,也可以对大型语言模型进行微调以取得良好表现。然而,用于微调语言模型的高质量数据集的选择仍缺乏明确的指导方针。在本文中,我们提出了InstructMining,这是一个评估指令遵循数据质量的线性规则。我们使用特定的自然语言指标来制定InstructMining。为了研究数据质量与这些指标之间的关系,我们进一步进行了大量微调实验。然后,将实验结果应用于估计InstructMining中的参数。为了进一步研究其性能,我们使用InstructMining从未见过的数据集中选择高质量数据。结果表明,InstructMining有助于从各种指令遵循数据集中选择相对高质量的样本。与在未经筛选的数据集上进行微调的模型相比,在InstructMining选择的数据集上进行微调的模型在42.5%的情况下表现更好。
GPT 系列的成功证明了 GPT 能够从序列中提取通用信息,从而使所有下游任务受益。这激励我们使用预训练模型来探索 DNA 序列中的隐藏信息。然而,在 DNA 序列分析中的数据和任务要求是复杂和多样的,因为 DNA 相关数据包括不同类型的信息,如序列、表达水平等,目前还没有专门针对这些特征设计的模型。因此,我们提出了 DNAGPT,这是一个通用的基础模型,预训练于来自 9 种物种的超过 100 亿个碱基对,可以针对任何 DNA 序列分析任务进行微调。我们的模型可以同时处理或输出 DNA 序列和数字。此外,我们独特的标记设计允许用户根据自己的任务要求设计提示,使其适用于任何类型的任务。我们已对我们的模型进行了分类、回归和生成任务的评估。我们展示了 DNAGPT 受益于预训练,因此可以为任何下游任务带来性能提升。我们的模型不仅是基因组分析领域的一次新尝试,还为基础模型在生物学中的应用提供了新方向。
在将语言模型(LM)部署到特定领域之前,重要的是要衡量其在该领域生成事实错误信息的倾向。现有的事实生成评估方法侧重于从LM本身采样的事实,因此无法控制评估事实集,并可能低估罕见和不太可能的事实。我们提出了FACTOR:通过语料库转换进行事实评估,这是一种可伸缩的方法,用于评估LM的事实性。FACTOR会自动将感兴趣的事实语料库转换为一个基准,评估LM生成来自语料库的真实事实与类似但不正确的陈述的倾向。我们使用我们的框架创建了两个基准:Wiki-FACTOR和News-FACTOR。我们表明:(i)我们的基准分数随着模型大小增加而提高,并且当LM与检索相结合时得到改善;(ii)基准分数与困惑度相关,但这两个指标在模型排名上并不总是一致;以及(iii)当困惑度和基准分数不一致时,后者更能反映开放式生成中的事实性,这是由人类注释者测量的。我们在https://github.com/AI21Labs/factor上公开提供我们的数据和代码。
尽管最近的文本到图像模型具有生成高质量图像的惊人能力,但目前的方法通常难以有效地将具有不同属性和关系的对象组合成复杂连贯的场景。我们提出了T2I-CompBench,这是一个全面的基准,用于开放世界的组合式文本到图像生成,包括来自3个类别(属性绑定、对象关系和复杂组合)和6个子类别(颜色绑定、形状绑定、纹理绑定、空间关系、非空间关系和复杂组合)的6,000个组合式文本提示。我们进一步提出了几种专门设计用于评估组合式文本到图像生成的评估指标。我们引入了一种新方法,即奖励驱动样本选择的生成模型微调(GORS),以增强预训练文本到图像模型的组合式文本到图像生成能力。我们进行了大量实验和评估,对T2I-CompBench上的先前方法进行了基准测试,并验证了我们提出的评估指标和GORS方法的有效性。项目页面可在https://karine-h.github.io/T2I-CompBench/上找到。
图像的文本和语义理解对于生成正确的标题至关重要。这种理解需要检测对象、建模它们之间的关系、评估场景的语义,并最终在语言空间中表示提取的知识。为了实现丰富的语言能力并确保良好的图像-语言映射,预训练语言模型(LMs)被调节为预训练的多模态(图像-文本)模型,允许图像输入。这需要将多模态模型的图像表示与生成式LM的语言表示进行对齐。然而,如何最好地将多模态模型的视觉编码器检测到的语义转移到LM尚不清楚。我们介绍了两种构建线性映射的新方法,成功地在两个预训练模型的嵌入空间之间转移语义。第一种方法通过令牌对应将多模态语言编码器的嵌入空间与预训练LM的嵌入空间对齐。后者利用包含图像-文本对的额外数据,直接从视觉空间构建映射到语言空间。利用我们的语义映射,我们为没有梯度信息的LM解锁了图像标题生成。通过使用不同来源的数据,我们在MS-COCO和Flickr30k数据集上实现了强大的标题性能。即使在数据有限的情况下,我们的方法在某种程度上超过了其他零样本甚至微调竞争对手的性能。我们的消融研究表明,即使是仅有2.5亿参数规模的LM也可以利用我们的语义映射生成体面的标题。我们的方法使受限制的计算资源的机构更容易进行图像标题生成。
随着语言模型的应用领域不断发展,一个自然的问题是我们如何能够快速地将模型适应新任务。我们从持续学习的角度来探讨这个经典问题,我们的目标是继续微调在过去任务上训练的模型,以便在新任务上进行微调,从而“转移”相关知识。然而,这种策略也存在着带来更多害处的风险,即负迁移。在本文中,我们构建了一个新的基准任务序列,针对可能面临的不同转移场景,比如一系列具有积极转移潜力、负迁移潜力、无预期效果或两者混合的任务。一个理想的学习者应该能够最大程度地利用所有具有积极转移潜力的任务的信息,同时避免任何可能混淆它的分散注意力的任务所带来的负面影响。然后,我们提出了一个简单而有效的学习者,通过利用从过去任务检查点初始化新模型的选择性策略,满足了我们许多期望。然而,仍然存在一些限制,我们希望这个基准可以帮助社区进一步构建和分析这样的学习者。
大型语言模型(LLMs)被证明拥有丰富的可操作知识,可以以推理和规划的形式提取出来,用于机器人操作。尽管取得了进展,但大多数仍然依赖预定义的运动基元来执行与环境的物理交互,这仍然是一个主要瓶颈。在这项工作中,我们的目标是合成机器人轨迹,即一系列密集的6自由度末端执行器路径点,用于各种操作任务,给定一组开放的指令和一组开放的物体。我们首先观察到,LLMs擅长根据自由形式的语言指令推断可供性和约束。更重要的是,通过利用它们的编码能力,它们可以与视觉语言模型(VLM)互动,以组合3D值图,将知识落实到代理的观察空间中。然后,将组合的值图用于基于模型的规划框架,以零样本合成对动态扰动具有鲁棒性的闭环机器人轨迹。我们进一步展示了所提出的框架如何从在线经验中受益,通过有效学习涉及接触丰富交互的场景的动力学模型。我们在模拟和真实机器人环境中进行了大规模研究,展示了能够执行各种自由形式自然语言规定的日常操作任务的能力。项目网站:https://voxposer.github.io
手眼相机在基于视觉的机器人操作中表现出更高的样本效率和泛化能力。然而,对于机器人模仿来说,让人类远程操作员收集大量专家演示仍然很昂贵。另一方面,人类执行任务的视频收集成本要低得多,因为它们消除了对机器人远程操作的专业知识需求,并且可以快速在各种场景中捕获。因此,人类视频演示是一个有前景的数据源,可用于大规模学习具有泛化能力的机器人操作策略。在这项工作中,我们将狭窄的机器人模仿数据集与广泛的未标记人类视频演示相结合,极大地增强了手眼视觉运动策略的泛化能力。尽管人类和机器人数据之间存在明显的视觉领域差距,但我们的框架无需采用任何显式的领域自适应方法,因为我们利用了手眼相机的部分可观测性以及简单的固定图像遮罩方案。在涉及3自由度和6自由度机器人臂控制的八项真实世界任务中,我们的方法平均将手眼操作策略的成功率提高了58%(绝对值),使机器人能够泛化到机器人演示数据中未见的新环境配置和新任务。请查看视频结果:https://giving-robots-a-hand.github.io/。