每日精选AI研究论文及翻译
文本到图像生成是现代计算机视觉中一个重要领域,通过生成架构的演进取得了显著的改进。在这些模型中,有一类基于扩散的模型展示了重要的质量提升。这些模型通常分为两类:像素级和潜在级方法。我们提出了Kandinsky1,这是对潜在扩散架构的一次新颖探索,结合了图像先验模型的原则和潜在扩散技术。图像先验模型被单独训练,将文本嵌入映射到CLIP的图像嵌入。所提出模型的另一个独特特征是修改后的MoVQ实现,用作图像自动编码器组件。总体而言,设计的模型包含33亿参数。我们还部署了一个用户友好的演示系统,支持多种生成模式,如文本到图像生成、图像融合、文本和图像融合、图像变体生成,以及文本引导的修复/补全。此外,我们发布了Kandinsky模型的源代码和检查点。实验评估显示,在COCO-30K数据集上的FID分数为8.03,使我们的模型成为在可衡量的图像生成质量方面排名最高的开源表现者。
近期大型多模态模型(LMM)在视觉指导调整方面显示出令人鼓舞的进展。在这份说明中,我们展示了LLaVA中的全连接视觉-语言跨模态连接器出人意料地强大且高效。通过对LLaVA进行简单修改,即使用带有MLP投影的CLIP-ViT-L-336px,并添加学术任务导向的VQA数据以及简单的响应格式提示,我们建立了更强的基准线,实现了在11个基准测试中的最新技术水平。我们的最终13B检查点仅使用了120万条公开可用数据,并在单个8-A100节点上约1天内完成了完整训练。我们希望这可以使最新的LMM研究更易于获取。代码和模型将公开提供。
最近发布的GPT-4代码解释器展示了在解决具有挑战性的数学问题方面的显著熟练度,主要归功于其能够无缝地运用自然语言推理、生成代码、执行代码,并根据执行输出继续推理的能力。在本文中,我们提出了一种微调开源语言模型的方法,使它们能够使用代码来建模和推导数学方程,从而增强它们的数学推理能力。我们提出了一种生成包含数学问题及基于代码的解决方案的新颖高质量数据集的方法,称为MathCodeInstruct。每个解决方案交织着自然语言、代码和执行结果。我们还介绍了一种定制的监督微调和推理方法。这种方法产生了MathCoder模型系列,这些模型能够生成用于解决具有挑战性数学问题的基于代码的解决方案。令人印象深刻的是,MathCoder模型在MATH(45.2%)和GSM8K(83.9%)数据集上取得了开源LLM中的最新成绩,明显优于其他开源替代方案。值得注意的是,MathCoder模型不仅在GSM8K和MATH上超越了ChatGPT-3.5和PaLM-2,而且在竞赛级别的MATH数据集上也胜过了GPT-4。数据集和模型将在https://github.com/mathllm/MathCoder 上发布。
最近,基于非常大规模的无监督或弱监督文本到图像训练数据集的支持,文本到图像扩散模型已经成为图像生成的前沿,由于其无监督训练,控制其在下游任务中的行为,如最大化人类感知的图像质量、图像文本对齐或伦理图像生成,是困难的。最近的研究通过使用普通强化学习对扩散模型进行微调到下游奖励函数,这种方法以梯度估计器的高方差而臭名昭著。在本文中,我们提出了AlignProp,一种通过奖励梯度的端到端反向传播来将扩散模型与下游奖励函数对齐的方法。虽然这种反向传播的朴素实现需要存储现代文本到图像模型的偏导数而需要昂贵的内存资源,但AlignProp通过微调低秩适配器权重模块并使用梯度检查点,使其内存使用变得可行。我们在将扩散模型微调到各种目标上测试了AlignProp,如图像文本语义对齐、美学、可压缩性和对象数量的可控性,以及它们的组合。我们展示AlignProp在更少的训练步骤中实现了更高的奖励,同时在概念上更简单,使其成为优化扩散模型以获得感兴趣的可微分奖励函数的直接选择。代码和可视化结果可在https://align-prop.github.io/找到。
语言模型(LMs)已经展示了处理各种生成任务的能力。本文介绍了UniAudio系统,与先前的特定任务方法不同,该系统利用LMs技术生成多种类型的音频(包括语音、声音、音乐和歌唱),并给定输入条件。UniAudio 1)首先对所有类型的目标音频以及其他条件模态进行标记化,2)将源-目标对连接为单个序列,3)使用LMs执行下一个标记预测。此外,提出了一个多尺度Transformer模型,用于处理由基于残差矢量量化的神经编解码器在标记化中引起的过长序列。UniAudio的训练扩展到了165K小时的音频和10亿参数,基于所有生成任务,旨在获得足够的先验知识,不仅涉及音频的内在属性,还包括音频与其他模态之间的相互关系。因此,经过训练的UniAudio模型有潜力成为通用音频生成的基础模型:它在所有训练任务中表现出强大的能力,并且可以在简单微调后无缝支持新的音频生成任务。实验表明,UniAudio在11个任务中大多数任务上实现了最先进或至少具有竞争力的结果。演示和代码发布在https://github.com/yangdongchao/UniAudio
大多数大型语言模型(LLMs)只训练一次,之后不再更新;因此,它们缺乏动态适应我们不断变化的世界的能力。在这项工作中,我们对LLM生成的文本的事实性进行了详细研究,重点是回答检验当前世界知识的问题。具体而言,我们引入了FreshQA,这是一个全新的动态问答基准,涵盖了各种问题和答案类型,包括需要快速变化的世界知识以及需要揭穿错误前提的问题。我们在两种模式的评估过程中对各种闭源和开源LLMs进行基准测试,这使我们能够同时衡量正确性和幻觉。通过涉及5万多个判断的人类评估,我们揭示了这些模型的局限性,并展示了改进的重要空间:例如,所有模型(无论模型大小)在涉及快速变化知识和错误前提的问题上都面临困难。受这些结果的启发,我们提出了FreshPrompt,这是一种简单的少样本提示方法,通过将从搜索引擎检索到的相关和最新信息合并到提示中,显著提高了LLM在FreshQA上的性能。我们的实验表明,FreshPrompt在FreshQA上的表现优于竞争的搜索引擎增强提示方法,如Self-Ask(Press等,2022年),以及商业系统,如Perplexity.AI。对FreshPrompt的进一步分析显示,检索到的证据数量和它们的顺序对影响LLM生成的答案的正确性起着关键作用。此外,指导LLM生成简明直接的答案有助于减少幻觉,而不是鼓励更冗长的答案。为了促进未来的工作,我们在github.com/freshllms/freshqa上发布了FreshQA,并承诺定期更新。
当前的视觉-语言生成模型依赖于大规模配对的图像-文本数据来实现最佳性能和泛化能力。然而,自动收集这种数据(例如通过大规模网络抓取)会导致低质量和图像-文本相关性差,而人工标注更准确但需要大量手动工作和费用。我们引入了ITIT(InTegrating Image Text):一种创新的训练范式,基于循环一致性概念,允许在未配对的图像和文本数据上进行视觉-语言训练。ITIT由一个联合图像-文本编码器和不相交的图像和文本解码器组成,实现了单一框架内的双向图像到文本和文本到图像的生成。在训练过程中,ITIT利用一小部分配对的图像-文本数据,确保其输出在双向上与输入相匹配。同时,该模型还在仅包含图像或文本的更大数据集上进行训练。这是通过强制实现原始未配对样本与循环生成对应物之间的循环一致性来实现的。例如,它为给定的输入图像生成标题,然后使用标题创建输出图像,并确保输入和输出图像之间的相似性。我们的实验表明,ITIT在未配对数据集上表现出与使用高质量配对数据相似的扩展行为。我们展示了图像生成和字幕性能,与最先进的文本到图像和图像到文本模型相当,但只使用了数量级更少(仅300万)的配对图像-文本数据。
通过使用人类反馈的强化学习(RLHF)来对齐大型语言模型取得了巨大成功。开源偏好数据集和奖励模型使得在通用聊天设置之外进行更广泛的实验成为可能,特别是为了使系统在诸如网络问答、摘要和多轮对话等任务中更具“帮助性”。在优化帮助性时,已经一致观察到RLHF会驱使模型生成更长的输出。本文证明了优化回复长度是RLHF在这些设置中报告的改进背后的一个重要因素。首先,我们研究了在三个开源偏好数据集上训练的用于帮助性的奖励模型的奖励和长度之间的关系。在这里,长度与奖励强烈相关,奖励分数的提高很大程度上是通过改变输出长度的分布来实现的。然后,我们探讨了在RL和奖励模型学习过程中的干预措施,以查看是否可以在不增加长度的情况下实现与RLHF相同的下游改进。虽然我们的干预措施可以减少长度的增加,但在不同设置中的效果并不一致。此外,我们发现即使仅基于长度运行RLHF的奖励也能再现初始策略模型上的大部分下游改进,这表明在这些设置中的奖励模型还有很长的路要走。
在网络上执行任务对大型语言模型(LLMs)提出了基本挑战,包括组合成大的开放世界任务和网络界面之间的变化。简单地指定一个大型提示来处理所有可能的行为和状态是极其复杂的,会导致不相关行为之间的行为泄漏。将任务分解为不同策略可以解决这一挑战,但需要在策略之间仔细地交接控制。我们提出了用于网络操作的堆叠LLM策略(SteP),这是一种动态组合策略以解决各种网络任务。SteP定义了一个马尔可夫决策过程,其中状态是表示控制状态的策略堆栈,即策略调用链。与传统方法只能使用静态层次结构不同,SteP实现了能够根据任务复杂性进行动态控制的功能。我们对SteP进行了多个基线和网络环境的评估,包括WebArena、MiniWoB++和CRM。在WebArena上,SteP相对于使用GPT-4策略的SOTA有所改进(14.9\%至33.5%),而在MiniWoB++上,SteP与先前工作相媲美,同时使用的数据量明显较少。我们的代码和数据可在https://asappresearch.github.io/webagents-step获取。
我们介绍了DragView,这是一个用于生成未见场景新视图的新颖互动框架。DragView从单个源图像初始化新视图,并且渲染由一组稀疏的未姿态多视图图像支持,所有这些都在单个前馈传递中无缝执行。我们的方法始于用户通过本地相对坐标系统拖动源视图。通过沿着目标射线将采样的3D点投影到源视图,获得像素对齐特征。然后,我们引入视图相关调制层以有效处理投影过程中的遮挡。此外,我们将极线注意机制扩展到涵盖所有源像素,促进从其他未姿态视图中聚合初始化的坐标对齐点特征。最后,我们使用另一个变换器将射线特征解码为最终像素强度。至关重要的是,我们的框架既不依赖于2D先验模型,也不依赖于摄像机姿态的显式估计。在测试过程中,DragView展示了对训练期间未见过的新场景进行泛化的能力,同时仅利用未姿态支持图像,实现了具有灵活摄像机轨迹的逼真新视图的生成。在实验中,我们全面比较了DragView与最近在无姿态条件下运行的场景表示网络以及受嘈杂测试摄像机姿态影响的通用NeRFs的性能。DragView在视图合成质量方面始终展现出卓越性能,同时更加用户友好。项目页面:https://zhiwenfan.github.io/DragView/。