每日精选AI研究论文及翻译
最近的研究表明,在对高质量指令数据集进行微调后,生成的模型可以获得令人印象深刻的能力,用于解决各种任务。然而,现有的指令数据生成方法通常会产生重复数据,并且在数据质量上不够可控。本文通过将指令数据分类为4个与代码相关的任务,扩展了指令微调的泛化能力,并提出了基于LLM的生成器-判别器数据处理框架,从开源代码中生成多样化、高质量的指令数据。因此,我们介绍了CodeOcean,一个包含20,000个指令实例的数据集,涵盖4个通用的与代码相关的任务,旨在增强指令微调的效果并提高微调模型的泛化能力。随后,我们提出了WaveCoder,一个经过微调的Code LLM,具有广泛且多功能增强的指令微调。该模型专为增强代码语言模型(LLMs)的指令微调而设计。我们的实验证明,Wavecoder模型在相同微调规模下在不同与代码相关任务的泛化能力方面优于其他开源模型。此外,Wavecoder在以前的代码生成任务中表现出高效性。因此,本文对指令数据生成和微调模型领域做出了重要贡献,为增强代码相关任务的性能提供了新的见解和工具。
大型语言模型(LLMs)的指数增长为多模态AGI系统开辟了许多可能性。然而,视觉和视觉语言基础模型的进展,这也是多模态AGI的关键要素之一,并没有跟上LLMs的步伐。在这项工作中,我们设计了一个大规模视觉语言基础模型(InternVL),将视觉基础模型扩展到60亿参数,并逐步将其与大型语言模型进行对齐,利用来自各种来源的大规模图像文本数据。该模型可广泛应用于并在视觉感知任务(如图像级或像素级识别)以及视觉语言任务(如零样本图像/视频分类、零样本图像/视频-文本检索)上取得最先进的性能,并与LLMs建立联系,创建多模态对话系统。我们希望我们的研究能为多模态大型模型的发展做出贡献。代码和模型可在https://github.com/OpenGVLab/InternVL找到。
作为人类,我们不断与同行互动,并以自然语言形式接收反馈。这种语言反馈使我们能够反思自己的行为,保持适当的行为,并纠正错误。一个自然而然的问题是:我们能否利用语言反馈来使大型语言模型(LLMs)保持一致?与以往将LLMs与奖励或偏好数据对齐的研究相比,我们首次系统地探讨了通过语言反馈(即判断)来进行对齐的方法。我们首先深入研究了可以用于将LLMs与判断对齐的潜在方法,发现这些方法无法充分利用这些判断。为了更有效地利用这些判断,我们提出了一个新颖的框架,对比不可能性训练(CUT),它允许基于判断进行细粒度不当内容的检测和纠正。我们的离线对齐结果显示,仅使用1317个现成的判断数据,CUT(LLaMA2-13b)就能击败175B DaVinci003,并在AlpacaEval上超过最佳基线52.34分。在线对齐结果表明,CUT可以通过使用特定于模型的判断数据,以迭代方式对齐LLMs(LLaMA2-chat-13b),在AlpacaEval上的得分从81.09稳步提高到91.36。我们的分析进一步表明,与奖励相比,判断对LLM对齐具有更大的潜力,并值得未来的研究。
人类拥有视觉感知这一显著技能,即看到并理解所见之物,帮助他们理解视觉世界,进而推理。最近,多模态大型语言模型(MLLM)在视觉-语言任务上取得了令人瞩目的表现,涵盖了从视觉问答和图像描述到视觉推理和图像生成等任务。然而,当要求识别或计数(感知)给定图像中的实体时,现有的MLLM系统会失败。为了开发一个准确的MLLM系统,用于感知和推理,我们建议使用多功能视觉编码器(VCoder)作为多模态LLM的感知“眼睛”。我们通过将VCoder与分割或深度图等感知模态相结合,提高MLLM的感知能力。其次,我们利用来自COCO数据集的图像和现成的视觉感知模型的输出,创建了用于训练和评估MLLM在对象感知任务上的COCO分割文本(COST)数据集。第三,我们引入了评估MLLM在我们的COST数据集上对象感知能力的度量标准。最后,我们提供了大量实验证据,证明了VCoder相对于现有的多模态LLM(包括GPT-4V)在对象级别感知技能上的改进。我们开源了我们的数据集、代码和模型以促进研究。我们的代码开源于https://github.com/SHI-Labs/VCoder
创建人工智能(AI)代理的关键方法之一是强化学习(RL)。然而,构建一个独立的RL策略,直接将感知映射到行动中,会遇到严重问题,其中最主要的问题是其在多个任务上缺乏通用性,以及需要大量的训练数据。主要原因在于在制定策略时无法有效地将先前信息整合到感知-行动循环中。大型语言模型(LLMs)作为将跨领域知识整合到AI代理中的基本方法出现,但缺乏对特定决策问题的关键学习和适应能力。本文提出了一个通用框架模型,用于将结构化推理整合到AI代理的策略中。我们的方法受到人类大脑中的模块化发现的启发。该框架利用构建内在和外在函数来添加对推理结构的先前理解。它还提供了学习每个模块或函数内部模型的适应能力,与认知过程的模块化结构一致。我们深入描述了该框架,并将其与其他AI流程和现有框架进行了比较。本文探讨了实际应用,涵盖了展示我们方法有效性的实验。我们的结果表明,当组织推理和先前知识嵌入时,AI代理的表现和适应能力要好得多。这为更具弹性和通用性的AI代理系统打开了大门。
随着自然语言处理的最新进展,大型语言模型(LLMs)在许多现实任务中已经实现了人类水平的语言理解和生成能力,甚至被视为通往人工通用智能的潜在途径。为了更好地促进LLMs的研究,许多开源LLMs,如Llama 2和Falcon,最近被提出并获得了与专有模型相媲美的性能。然而,这些模型主要设计用于英语场景,在中文环境中表现不佳。在这份技术报告中,我们提出了YAYI 2,包括基础模型和聊天模型,共有30亿参数。YAYI 2是从头开始在一个包含了通过我们的预训练数据处理流程筛选出的2.65万亿标记的多语言语料库上进行预训练的。基础模型通过数百万条指令的监督微调和来自人类反馈的强化学习与人类价值观保持一致。在多个基准测试中进行的大量实验,如MMLU和CMMLU,一致表明所提出的YAYI 2在性能上优于其他类似规模的开源模型。
语言模型攻击通常假定两种极端的威胁模型之一:完全白盒访问模型权重,或者仅限于文本生成 API 的黑盒访问。然而,现实世界中的 API 往往比仅限于文本生成更加灵活:这些 API 提供“灰盒”访问,导致新的威胁向量。为了探索这一点,我们对 GPT-4 API 中暴露的三个新功能进行了红队测试:微调、函数调用和知识检索。我们发现,对模型进行微调,即使是在 15 个有害示例或 100 个良性示例的情况下,也可以从 GPT-4 中删除核心保障,从而实现一系列有害输出。此外,我们发现 GPT-4 助手很容易泄露函数调用模式,并且可以执行任意函数调用。最后,我们发现知识检索可以被劫持,通过向检索文档中注入指令。这些漏洞突显了 API 暴露的任何功能增加都可能带来新的漏洞。
由单视角进行的三维重建具有挑战性,因为存在单眼线索的模糊性以及关于遮挡区域缺乏信息。神经辐射场(NeRF)虽然在视图合成和三维重建中很受欢迎,但通常依赖于多视图图像。现有的利用NeRF进行单视角三维重建的方法要么依赖于数据先验来虚拟遮挡区域的视图,这可能不够物理准确,要么依赖于RGB相机观察到的阴影,但在环境光线和低反照率背景下很难检测到。我们提出使用由单光子雪崩二极管捕获的飞行时间数据来克服这些限制。我们的方法使用激光雷达瞬态数据监督,用NeRF模拟两次光学路径。通过利用NeRF和激光雷达测量的两次光路的优势,我们展示了可以重建可见和遮挡几何形状,而无需数据先验或依赖于受控环境照明或场景反照率。此外,我们展示了在传感器空间和时间分辨率受到实际约束时的改进泛化能力。我们相信随着单光子激光雷达在消费设备(如手机、平板电脑和头戴设备)上变得普遍,我们的方法是一个有前途的方向。
尽管CLIP是许多视觉-语言应用中的基础模型,但CLIP存在严重的文本定位偏差。这种偏差导致CLIP模型在嵌入图像中的视觉文本时“模仿”,而忽略了真实的视觉语义。我们发现,在最流行的图像-文本数据集LAION-2B中,标题也密集地“模仿”(拼写)图像中嵌入的文本。我们的分析显示,约50\%的图像嵌入了视觉文本内容,它们的约90\%标题或多或少地模仿了视觉文本。基于这样的观察,我们彻底检查了不同版本的CLIP模型,并验证了视觉文本是衡量这些模型的LAION风格图像-文本相似性的主要因素。为了检验这些“模仿”标题是否塑造了文本定位偏差,我们训练了一系列根据不同“模仿”标题导向标准筛选的LAION子集的CLIP模型。我们展示了通过“模仿”标题训练容易塑造这种偏差,但却损害了CLIP模型中预期的视觉-语言表示学习。这表明迫切需要重新审视CLIP样式模型的设计或基于CLIP分数过滤构建的现有图像-文本数据集筛选流程。
文本到图像(T2I)扩散模型的普及使得能够从文本描述中生成高质量图像成为可能。然而,生成具有参考视觉属性的多样化定制图像仍然具有挑战性。本研究侧重于在更抽象的概念或类别级别上个性化T2I扩散模型,从一组参考图像中调整共同点,同时创建具有足够变化的新实例。我们提出了一种解决方案,允许预训练的T2I扩散模型学习一组软提示,从而通过从学习的分布中采样提示来生成新颖图像。这些提示提供了文本引导的编辑功能,并在控制变化和混合多个分布之间方面提供了额外的灵活性。我们还展示了学习的提示分布对于其他任务(如文本到3D)的适应性。最后,我们通过包括自动评估和人类评估在内的定量分析展示了我们方法的有效性。项目网站:https://briannlongzhao.github.io/DreamDistribution
我们研究单图零样本3D形状重建问题。最近的研究通过生成建模学习零样本形状重建,但这些模型在训练和推断时计算成本高昂。相比之下,传统方法是基于回归的,即训练确定性模型直接回归物体形状。这种回归方法比生成方法具有更高的计算效率。这引发了一个自然问题:生成建模对于高性能是否必要,或者相反,基于回归的方法仍然具有竞争力?为了回答这个问题,我们设计了一个强大的基于回归的模型,称为ZeroShape,基于这一领域的收敛发现和新颖见解。我们还精心策划了一个大型真实世界评估基准,包括来自三个不同真实世界3D数据集的物体。这个评估基准比先前研究用于定量评估其模型的更加多样化,规模也大了一个数量级,旨在减少我们领域中的评估方差。我们展示了ZeroShape不仅实现了优越的性能,而且表现出显著更高的计算和数据效率。
缩写扩展是一种用于加快通信速度的策略,通过限制键入量并使用语言模型提供建议来扩展缩写。在这里,我们研究了基于先前对话个性化大型语言模型(LLM)建议的方法,以增强预测的相关性,特别是在用户数据较少的情况下(约1000个样本)。具体来说,我们比较了针对缩写输入的扩展文本建议的微调、提示微调和检索增强生成。我们在一个部署的具有8B参数的LLM上进行了案例研究,该模型应用于一位患有ALS的真实用户,并在电影角色个性化方面进行了实验,结果表明:(1)在某些情景下可能需要定制化,提示微调能很好地推广到这些情景;(2)在领域内数据上微调(即使只有600个样本)仍然显示出一定的增益,然而(3)检索增强的少样本选择也优于微调;(4)参数高效调整可实现高效且可扩展的个性化。对于提示微调,我们还发现,将学习的“软提示”初始化为与用户相关的概念标记,比随机初始化能获得更高的准确性。
随着大规模生成型人工智能模型的发展,已经超越了文本(1D)生成,开始涵盖图像(2D)和视频(3D)生成,处理空间和时间信息带来了对质量、性能和效率的独特挑战。我们首次提出了对多模态文本到图像(TTI)和文本到视频(TTV)生成模型的新系统设计空间的理解工作。目前的模型架构设计分为两类:扩散式和基于Transformer的模型。我们在八个代表性TTI/TTV模型套件上进行了系统性能表征,结果显示,在应用了Flash Attention等最新优化技术后,对于基于扩散的TTI模型,卷积层占执行时间的高达44%,而对于基于Transformer的模型,线性层占执行时间的高达49%。我们还观察到,基于扩散的TTI模型类似于LLM推理的Prefill阶段,并且从Flash Attention获得的加速比基于Transformer的TTI模型高出1.1-2.5倍,后者类似于解码阶段。由于为LLM设计的优化不能直接映射到TTI/TTV模型,我们必须对这些工作负载进行彻底的表征,以获取新的优化机会。在此过程中,我们定义了TTI/TTV模型的序列长度,并观察到在扩散模型推理中,序列长度可以高达4倍。我们还观察到TTV工作负载的时间方面构成了独特的系统瓶颈,其中时间注意力占总注意力时间的60%以上。总的来说,我们深入的系统性能表征是朝着为新兴的TTI/TTV工作负载设计高效且可部署系统迈出的关键第一步。
物体的物理特性,比如质量,显著影响我们用手操作物体的方式。令人惊讶的是,这一方面迄今在先前关于3D运动合成的研究中被忽视了。为了提高合成的3D手部物体运动的自然性,本研究提出了MACS,即第一个基于质量条件的3D手部和物体运动合成方法。我们的方法基于级联扩散模型,并生成根据物体质量和交互类型合理调整的交互。MACS还接受手动绘制的3D物体轨迹作为输入,并合成根据物体质量条件的自然3D手部运动。这种灵活性使得MACS可用于各种下游应用,比如为机器学习任务生成合成训练数据,用于图形工作流程中快速动画手部,以及为电脑游戏生成角色交互。我们实验证明,一个小规模数据集足以使MACS在训练期间未见过的插值和外推物体质量上合理泛化。此外,由我们的表面接触合成模型ConNet生成的质量条件接触标签使MACS对未见过的物体有适度的泛化能力。我们的全面用户研究证实,合成的3D手部物体交互非常合理和逼真。
本文介绍了“Shai”,这是一个专为资产管理行业设计的100亿级大型语言模型,构建在一个开源基础模型之上。通过持续的预训练和微调,利用定向语料库,Shai在与其领域相关的任务中展现出卓越的性能,超越了基准模型。我们的研究包括开发了一种创新的评估框架,该框架整合了专业资格考试、定制任务、开放式问题回答以及安全评估,全面评估了Shai的能力。此外,我们讨论了在资产管理中利用像GPT-4这样的大型语言模型进行性能评估所面临的挑战和影响,并建议结合自动化评估和人类判断。Shai的开发展示了100亿级大型语言模型在金融领域中的潜力和多样性,具有显著的性能和适度的计算需求,希望为行业同行提供实用的见解和方法,以协助他们进行类似的努力。
最近,研究人员尝试调查大型语言模型(LLMs)在处理视频方面的能力,并提出了几种视频LLM模型。然而,LLMs处理视频对位(VG)的能力,即一个重要的与时间相关的视频任务,要求模型精确定位视频中与给定文本查询相匹配的时间段的起始和结束时间戳,目前在文献中仍然不清楚且未被探索。为了填补这一空白,在本文中,我们提出了LLM4VG基准,系统评估不同LLMs在视频对位任务上的表现。基于我们提出的LLM4VG,我们设计了大量实验,以检验两组视频LLM模型在视频对位上的表现:(i)在文本-视频配对上训练的视频LLMs(简称为VidLLM),以及(ii)与预训练视觉描述模型(如视频/图像字幕模型)相结合的LLMs。我们提出了整合VG指导和来自不同类型生成器的描述的提示方法,包括用于直接视觉描述的基于字幕的生成器和用于信息增强的基于VQA的生成器。我们还对各种VidLLMs进行了全面比较,并探讨了不同视觉模型、LLMs、提示设计等选择的影响。我们的实验评估得出两个结论:(i)现有的VidLLMs仍远未达到令人满意的视频对位性能,应包括更多与时间相关的视频任务以进一步微调这些模型;(ii)LLMs与视觉模型的结合显示出对视频对位具有初步能力,并通过更可靠的模型和进一步指导的提示指令,有很大的改进潜力。