每日精选AI研究论文及翻译
检测现代大型语言模型生成的文本被认为是困难的,因为LLMs和人类都可能表现出各种复杂行为。然而,我们发现,基于对比两个密切相关的语言模型的得分,在区分人类生成和机器生成的文本方面非常准确。基于这种机制,我们提出了一种新颖的LLM检测器,只需要使用一对预训练的LLMs进行简单计算。这种名为“双筒望远镜”的方法在没有任何训练数据的情况下实现了最先进的准确性。它能够在不进行任何特定于模型的修改的情况下,从各种现代LLMs中发现机器文本。我们对“双筒望远镜”在多个文本来源和不同情况下进行了全面评估。在各种文档类型中,“双筒望远镜”能够在误报率为0.01%的情况下,检测出ChatGPT(以及其他LLMs)生成样本中超过90%的样本,尽管没有接受任何ChatGPT数据的训练。
为了增强开源大型语言模型(LLMs)在角色扮演方面的熟练度,人们已经付出了相当大的努力,试图模拟专有对应物。然而,我们认为LLMs天生具备角色扮演能力,这是因为它们在庞大的训练语料库中蕴含着对角色和潜在对话的广泛知识。因此,在这项研究中,我们介绍了Ditto,这是一种用于角色扮演的自我对齐方法。Ditto利用角色知识,鼓励一个遵循指令的LLM模拟角色扮演对话,作为阅读理解的一种变体。该方法创建了一个包含4,000个角色的角色扮演训练集,其规模超过了当前可用数据集的十倍。随后,我们使用这个自动生成的数据集对LLM进行微调,以增强其角色扮演能力。在评估我们精心构建且可重现的角色扮演基准测试和MT-Bench的角色扮演子集时,Ditto在各种参数规模下始终保持一致的角色身份,并在多轮角色扮演对话中提供准确的角色特定知识。值得注意的是,它胜过了所有开源角色扮演基准线,展现出与先进专有聊天机器人相媲美的性能水平。此外,我们展示了在角色扮演领域的首个全面交叉监督对齐实验,揭示了LLMs的内在能力将知识限制在角色扮演中。与此同时,角色扮演风格可以在较小模型的指导下轻松获得。我们在https://github.com/OFA-Sys/Ditto 开源了相关资源。
我们介绍了元提示(meta-prompting),这是一种旨在增强语言模型(LMs)功能的有效搭建技术。这种方法将单个LM转变为一个多面手指挥者,擅长管理和整合多个独立的LM查询。通过采用高级指令,元提示引导LM将复杂任务分解为更小、更易管理的子任务。然后,这些子任务由同一LM的不同“专家”实例处理,每个实例都根据特定的定制指令运行。这个过程的核心是LM本身,作为指挥者,它确保与这些专家模型的输出之间的无缝沟通和有效整合。此外,它还利用其固有的批判性思维和强大的验证过程来完善和验证最终结果。这种协作提示方法使单个LM能够同时充当全面的指挥者和一组不同专家,显著提升其在各种任务中的性能。元提示的零射击、任务不可知的特性极大地简化了用户交互,消除了对详细的任务特定指令的需求。此外,我们的研究展示了外部工具(如Python解释器)与元提示框架的无缝整合,从而扩大了其适用性和实用性。通过对GPT-4的严格实验,我们证明了元提示相对于传统的搭建方法的优越性:在包括24点游戏、一步将军和Python编程难题在内的所有任务中,元提示搭配Python解释器功能的表现超过标准提示17.1%,超过专家(动态)提示17.3%,超过多人格提示15.2%。
扩散模型在文本到图像生成和编辑方面表现出色。然而,现有方法在处理涉及多个对象、多个属性和关系的复杂文本提示时通常面临挑战。本文提出了一种全新的无需训练的文本到图像生成/编辑框架,即Recaption,Plan and Generate(RPG),利用多模态LLM的强大链式推理能力,以增强文本到图像扩散模型的组合性。我们的方法将MLLM作为全局规划器,将生成复杂图像的过程分解为在子区域内执行多个更简单生成任务。我们提出了互补的区域扩散,以实现区域化的组合生成。此外,我们以闭环方式在提出的RPG中集成了文本引导的图像生成和编辑,从而增强了泛化能力。大量实验证明,我们的RPG在多类别对象组合和文本-图像语义对齐等方面优于DALL-E 3和SDXL等最先进的文本到图像扩散模型。值得注意的是,我们的RPG框架与各种MLLM架构(例如MiniGPT-4)和扩散骨干(例如ControlNet)具有广泛的兼容性。我们的代码可在以下链接找到:https://github.com/YangLing0818/RPG-DiffusionMaster
文本到图像扩散模型是一类深度生成模型,展现出了出色的高质量图像生成能力。然而,这些模型容易受到来自网络规模文本-图像训练对的隐性偏见的影响,可能无法准确地对我们关心的图像方面进行建模。这可能导致次优样本、模型偏见以及与人类伦理和偏好不符的图像。本文提出了一种有效的可扩展算法,利用强化学习(RL)跨多种奖励函数(如人类偏好、组合性和公平性)改进扩散模型,涵盖了数百万张图像。我们阐述了我们的方法如何显著优于现有方法,使扩散模型与人类偏好保持一致。我们进一步阐明了如何显著改进预训练的稳定扩散(SD)模型,生成的样本被人类偏好的比例为80.3%,优于基础SD模型的样本,同时改善了生成样本的组成和多样性。
理解和推理空间关系是视觉问答(VQA)和机器人技术的基本能力。虽然视觉语言模型(VLM)在某些VQA基准测试中表现出色,但它们仍然缺乏3D空间推理能力,例如识别物体之间的数量关系,如距离或大小差异。我们假设VLM的有限空间推理能力是由于训练数据中缺乏3D空间知识,旨在通过使用互联网规模的空间推理数据来解决这一问题。为此,我们提出了一个系统来促进这种方法。我们首先开发了一个自动的3D空间VQA数据生成框架,可扩展到1亿个VQA示例,涵盖1000万张真实世界图像。然后,我们研究了训练配方中的各种因素,包括数据质量、训练流程和VLM架构。我们的工作展示了度量空间中首个互联网规模的3D空间推理数据集。通过在这些数据上训练VLM,我们显著增强了其在定性和定量空间VQA方面的能力。最后,我们证明了这种VLM由于其定量估计能力,解锁了链式空间推理和机器人技术中的新颖下游应用。项目网站:https://spatial-vlm.github.io/
随着大型多模态模型(LMMs)的能力不断提升,评估LMMs的性能成为一个日益迫切的需求。此外,在评估LMMs在中文等非英语环境中的先进知识和推理能力方面存在更大的差距。我们引入了CMMMU,一个新的中文大规模多学科多模态理解基准,旨在评估LMMs在要求大学水平学科知识和深思熟虑推理的任务中的表现,而且是在中文环境中。CMMMU受MMMUs的注释和分析模式启发并严格遵循。 CMMMU包括来自大学考试、测验和教科书的1.2万个手动收集的多模态问题,涵盖六个核心学科:艺术与设计、商业、科学、健康与医学、人文社会科学和技术与工程,就像其伴侣MMMUs一样。这些问题涵盖30个学科,包括39种高度异质的图像类型,如图表、图表、地图、表格、乐谱和化学结构。 CMMMU侧重于在中文环境中具有领域特定知识的复杂感知和推理。我们评估了11个开源LLMs和一个专有的GPT-4V(ision)。即使是GPT-4V也仅实现了42%的准确率,表明有很大的改进空间。CMMMU将推动社区构建面向专家人工智能的下一代LMMs,并通过提供多样化的语言背景促进LMMs的民主化。
胸部X光(CXR)是临床实践中最常见的成像检查。最近在视觉-语言基础模型(FMs)的发展方面取得的进展,使得自动化CXR解释成为可能,这可以帮助医生进行临床决策并改善患者预后。然而,开发能够准确解释CXR的FMs具有挑战性,原因在于:(1)医学图像领域中大规模视觉-语言数据集的有限可用性,(2)无法捕捉医学数据复杂性的视觉和语言编码器,以及(3)缺乏用于基准测试FMs在CXR解释方面能力的评估框架。在这项工作中,我们首先介绍了CheXinstruct - 一个从28个公开数据集中策划的大规模指令调整数据集。然后,我们提出了CheXagent - 一个能够分析和总结CXR的指令调整FM。为构建CheXagent,我们设计了一个用于解析放射学报告的临床大型语言模型(LLM),一个用于表示CXR图像的视觉编码器,以及一个用于桥接视觉和语言模态的网络。最后,我们介绍了CheXbench - 一个新颖的基准测试,旨在系统评估FMs在8个临床相关的CXR解释任务上的表现。通过与五名专家放射科医生进行广泛的定量评估和定性审查,我们证明CheXagent在CheXbench任务上优于先前开发的通用和医学领域FMs。此外,为了提高模型的透明度,我们进行了性别、种族和年龄等因素的公平性评估,以突出潜在的性能差异。我们的项目网址为https://stanford-aimi.github.io/chexagent.html。
我们提出了Hourglass Diffusion Transformer(HDiT),这是一种图像生成模型,具有与像素数量线性扩展的特性,支持在高分辨率(例如1024乘1024)直接在像素空间进行训练。基于已知可以扩展到数十亿参数的Transformer架构,它弥合了卷积U-Net的效率和Transformer的可扩展性之间的差距。HDiT成功地进行训练,无需典型的高分辨率训练技术,如多尺度架构、潜在自编码器或自条件技术。我们展示了HDiT在ImageNet 256^2上与现有模型具有竞争力,并在FFHQ-1024^2上为扩散模型树立了新的技术水平。
我们提出了扩散推理时间 T 优化(DITTO),这是一个用于控制预训练的文本到音乐扩散模型的通用框架,通过优化初始噪声潜变量来实现推理时间控制。我们的方法可用于通过任何可微特征匹配损失进行优化,以实现目标(风格化)输出,并利用梯度检查点实现内存效率。我们展示了音乐生成的广泛应用,包括修复、扩展和循环,以及强度、旋律和音乐结构控制,而无需对基础模型进行微调。当我们将我们的方法与相关的训练、引导和基于优化的方法进行比较时,我们发现 DITTO 在几乎所有任务上均实现了最先进的性能,包括在可控性、音频质量和计算效率方面优于可比较的方法,从而为扩散模型的高质量、灵活、无需训练的控制打开了大门。可以在 https://DITTO-Music.github.io/web/ 找到声音示例。
通过强化学习(RLHF)将大型语言模型(LLMs)与人类偏好进行对齐可能导致奖励破解,即LLMs利用奖励模型(RM)中的缺陷来实现看似高奖励而不符合基本目标。我们确定了设计RM以减少奖励破解时面临的两个主要挑战:RL过程中的分布转移和人类偏好的不一致性。作为解决方案,我们提出了加权平均奖励模型(WARM),首先对多个RM进行微调,然后在权重空间中对它们进行平均。这一策略遵循了这样一个观察结果,即在共享相同预训练时,微调后的权重保持线性模式连接。通过对权重进行平均,WARM相对于传统的预测集成方法提高了效率,同时在面对分布转移和偏好不一致性时提高了可靠性。我们在摘要任务上进行的实验,使用最佳N和RL方法,表明WARM提高了LLM预测的整体质量和对齐性;例如,使用WARM进行微调的策略RL在与使用单个RM进行微调的策略RL对比中获胜率为79.4%。
最近,扩散模型因其在语义分割任务中出色的迁移能力而受到越来越多的研究关注。然而,利用扩散模型生成细粒度分割掩模通常需要在带标注数据集上进行额外训练,这使得预训练的扩散模型单独是否理解其生成图像的语义关系尚不清楚。为了解决这个问题,我们利用从稳定扩散(SD)中提取的语义知识,旨在开发一种能够生成细粒度分割地图的图像分割器,而无需进行任何额外训练。主要困难在于语义上有意义的特征图通常仅存在于空间维度较低的层中,这在直接从这些特征图中提取像素级语义关系方面构成挑战。为了克服这一问题,我们的框架通过利用SD的生成过程确定图像像素与低维特征图的空间位置之间的语义对应关系,并利用这些关系构建图像分辨率的分割地图。在大量实验中,生成的分割地图被证明具有良好的描绘和捕捉图像细节部分的能力,表明扩散模型中存在高度准确的像素级语义知识。
在训练大型生成模型以生成自然语言和图像方面取得了显著进展。然而,3D生成模型的发展受到其在训练过程中对资源的巨大需求以及表示方式的低效、非紧凑和表达能力较弱的限制。本文介绍了Make-A-Shape,这是一种新的3D生成模型,旨在以高效的方式进行大规模训练,能够利用1000万个公开可用的形状。从技术角度来看,我们首先创新了一种小波树表示法,通过制定子带系数滤波方案来紧凑地编码形状,以有效利用系数之间的关系。然后,通过设计子带系数打包方案将表示布局在低分辨率网格中,使表示可由扩散模型生成。此外,我们提出了子带自适应训练策略,以有效学习生成粗糙和详细的小波系数。最后,我们将我们的框架扩展为可由额外输入条件控制,使其能够从各种模态生成形状,例如单/多视图图像、点云和低分辨率体素。在我们广泛的一系列实验中,我们展示了各种应用,例如无条件生成、形状完成以及在各种模态上的有条件生成。我们的方法不仅在提供高质量结果方面超越了现有技术水平,而且能够在几秒内高效生成形状,通常在大多数条件下仅需2秒即可实现。
在本研究中,我们介绍了Orion-14B,这是一个拥有140亿参数的多语言大型语言模型集合。我们采用数据调度方法,在包含2500万亿标记的多样化语料库上训练了一个基础模型,这些标记来自英语、中文、日语、韩语和其他语言的文本。此外,我们对一系列针对会话应用和其他特定用例的模型进行了微调。我们的评估结果表明,Orion-14B在广泛任务范围内实现了最先进的性能。我们将Orion-14B模型系列及其相关代码公开发布在https://github.com/OrionStarAI/Orion,旨在激发未来在该领域的研究和实际应用。
最近的语言模型(LM)进展展示了令人印象深刻的零样本语音转换(VC)性能。然而,现有基于LM的VC模型通常应用离线转换从源语义到声学特征,需要完整的源语音,并限制了它们在实时应用中的部署。在本文中,我们介绍了StreamVoice,一种新颖的基于流式LM的零样本VC模型,可实现给定任意说话者提示和源语音的实时转换。具体而言,为了实现流式处理能力,StreamVoice采用了一个完全因果关系的上下文感知LM,具有一个与时间无关的声学预测器,同时在自回归的每个时间步骤交替处理语义和声学特征,从而消除对完整源语音的依赖。为了解决流式处理中由于上下文不完整而可能导致的性能下降,我们通过两种策略增强了LM的上下文感知能力:1)教师引导的上下文预见,使用教师模型在训练期间总结当前和未来的语义上下文,引导模型对缺失上下文的预测;2)语义屏蔽策略,促进从先前损坏的语义和声学输入进行声学预测,增强上下文学习能力。值得注意的是,StreamVoice是第一个基于LM的流式零样本VC模型,无需任何未来的前瞻。实验结果表明,StreamVoice具有流式转换能力,同时保持与非流式VC系统可比的零样本性能。
近年来,在视觉、语言和机器人领域取得了显著进展。我们现在拥有能够根据语言查询识别物体的视觉模型,能够有效控制移动系统的导航系统,以及能够处理各种物体的抓取模型。尽管取得了这些进展,但机器人的通用应用仍然落后,即使它们依赖于识别、导航和抓取等基本能力。在本文中,我们采用系统优先的方法开发了一种名为OK-Robot的新型基于开放知识的机器人框架。通过结合用于物体检测的视觉语言模型(VLMs)、用于移动的导航基元和用于物体操作的抓取基元,OK-Robot提供了一种集成解决方案,可进行拾取和放置操作而无需任何训练。为了评估其性能,我们在10个真实家庭环境中运行了OK-Robot。结果表明,OK-Robot在开放式拾取和放置任务中实现了58.5%的成功率,代表了开放词汇移动操作(OVMM)领域的最新技术水平,比以往工作的性能提高了近1.8倍。在更清洁、无杂乱的环境中,OK-Robot的性能提高到了82%。然而,从OK-Robot中获得的最重要见解是,在将VLMs等开放知识系统与机器人模块结合时,微妙细节的关键作用。我们的实验视频可在我们的网站上找到:https://ok-robot.github.io。
最近在3D头像生成方面取得了重要进展,引起了广泛关注。这些突破旨在生成更逼真、可动画化的头像,缩小虚拟和现实世界体验之间的差距。大多数现有作品采用得分蒸馏采样(SDS)损失,结合可微分渲染器和文本条件,指导扩散模型生成3D头像。然而,SDS通常会生成过度平滑的结果,面部细节较少,因此与祖先采样相比缺乏多样性。另一方面,其他作品从单个图像生成3D头像,面临不必要的光照效果、透视视图和图像质量较低等挑战,这使得它们难以可靠地重建具有对齐完整纹理的3D面部网格。在本文中,我们提出了一种名为UltrAvatar的新型3D头像生成方法,具有增强的几何保真度和优质的基于物理的渲染(PBR)纹理质量,且不受不必要的光照影响。为此,所提出的方法提出了一个扩散颜色提取模型和一个真实性引导纹理扩散模型。前者消除了不必要的光照效果,揭示真实的扩散颜色,使生成的头像能够在各种光照条件下渲染。后者遵循两个基于梯度的指导,用于生成PBR纹理,以更好地呈现多样的面部特征和细节,更好地与3D网格几何对齐。我们展示了所提出方法的有效性和鲁棒性,在实验中大幅优于现有方法。
本文介绍了Human-LRM,这是一个单阶段前馈大型重建模型,旨在从单个图像中预测人类神经辐射场(NeRF)。我们的方法展示了在使用包含3D扫描和多视角捕获的大量数据集进行训练时的显着适应性。此外,为了增强模型在野外场景中的适用性,特别是在存在遮挡的情况下,我们提出了一种新颖的策略,通过条件三平面扩散模型将多视角重建转化为单视角。这种生成性扩展解决了从单个视角观察时人体形状固有的变化,并使得能够从被遮挡的图像中重建完整的人体。通过大量实验,我们展示了Human-LRM在几个基准测试中明显优于先前的方法。
准确模拟现实世界物体动态对于各种应用至关重要,如机器人技术、工程、图形学和设计。为了更好地捕捉诸如接触和摩擦等复杂真实动态,基于图网络的学习模拟器最近显示出巨大潜力。然而,将这些学习模拟器应用于真实场景面临两个主要挑战:首先,将学习模拟器扩展到处理真实世界场景的复杂性,这可能涉及数百个具有复杂3D形状的物体;其次,处理来自感知而非3D状态信息的输入。在这里,我们介绍了一种方法,大幅减少了运行基于图的学习模拟器所需的内存。基于这种内存高效的模拟模型,我们随后提出了一个感知界面,采用可编辑的 NeRFs 形式,可以将真实世界场景转换为结构化表示,以便图网络模拟器进行处理。我们展示了我们的方法使用的内存明显少于先前基于图的模拟器,同时保持其准确性,并且在合成环境中学习的模拟器可以应用于从多个摄像机角度捕获的真实世界场景。这为将学习模拟器的应用扩展到仅在推断时可用感知信息的设置铺平了道路。
虚拟现实(VR)展现了社交互动的潜力,可能比其他媒体更具沉浸感。其中关键是能够在佩戴VR头显时准确地为用户创建一个逼真的化身形象。虽然在离线环境中可以实现高质量的将特定于个人的化身形象与头显摄像头(HMC)图像进行注册,但通用实时模型的性能明显下降。在线注册也具有挑战性,因为存在摄像头视角的倾斜和模态差异。在这项工作中,我们首先展示了化身形象与头显摄像头图像之间的领域差距是困难的主要原因之一,基于变换器的架构在领域一致数据上实现了高准确性,但在重新引入领域差距时性能下降。基于这一发现,我们开发了一个系统设计,将问题分解为两部分:1)一个迭代细化模块,接受领域内输入,2)一个通用化身引导的图像风格转换模块,以当前表情和头部姿势估计为条件。这两个模块相互强化,当展示接近真实示例时,图像风格转换变得更容易,更好地消除领域差距有助于注册。我们的系统高效地产生高质量结果,无需昂贵的离线注册即可生成个性化标签。通过在一款普通头显上进行大量实验,我们验证了我们方法的准确性和效率,展示了与直接回归方法以及离线注册相比的显著改进。