每日精选AI研究论文及翻译
语言模型在各种应用中表现出色,然而最复杂的模型通常是专有的。例如,OpenAI 的 GPT-4 和 Anthropic 的各种模型价格昂贵且消耗大量能源。相比之下,开源社区已经产生了竞争性模型,比如 Llama3。此外,针对特定领域的较小语言模型,比如针对法律、医疗或金融任务定制的模型,已经超越了它们的专有对手。本文介绍了一种新方法,利用功能标记来整合多个针对特定任务进行优化的开源模型。我们新开发的 Octopus v4 模型利用功能标记智能地引导用户查询到最合适的垂直模型,并重新格式化查询以获得最佳性能。Octopus v4 是 Octopus v1、v2 和 v3 模型的进化,在选择和参数理解以及重新格式化方面表现出色。此外,我们探讨了将图形作为一种多功能数据结构的使用,通过利用 Octopus 模型和功能标记的能力有效协调多个开源模型。使用我们的开源 GitHub(https://www.nexa4ai.com/)尝试 Octopus v4 模型(https://huggingface.co/NexaAIDev/Octopus-v4),并贡献到更大的语言模型图中。通过激活少于 10B 参数的模型,我们在相同级别模型中实现了 74.8 的 SOTA MMLU 分数。
受 Kolmogorov-Arnold 表示定理启发,我们提出 Kolmogorov-Arnold 网络(KANs)作为多层感知器(MLPs)的有希望的替代方案。虽然 MLPs 在节点(“神经元”)上具有固定的激活函数,但 KANs 在边缘(“权重”)上具有可学习的激活函数。KANs 根本没有线性权重 -- 每个权重参数都被参数化为样条函数的单变量函数所取代。我们展示了这一看似简单的改变使 KANs 在准确性和可解释性方面胜过 MLPs。在准确性方面,较小的 KANs 可以在数据拟合和偏微分方程求解中实现与较大的 MLPs 相当或更好的准确性。从理论和经验上看,KANs 具有比 MLPs 更快的神经缩放规律。在可解释性方面,KANs 可以直观可视化,并且可以轻松地与人类用户交互。通过数学和物理学中的两个示例,展示了 KANs 是有用的合作者,帮助科学家(重新)发现数学和物理定律。总之,KANs 是 MLPs 的有希望的替代方案,为进一步改进今天严重依赖于 MLPs 的深度学习模型打开了机会。
大型语言模型如GPT和Llama是通过下一个标记预测损失进行训练的。在这项工作中,我们建议训练语言模型同时预测多个未来标记,这样可以提高样本效率。更具体地,在训练语料库的每个位置,我们要求模型使用n个独立的输出头同时预测接下来的n个标记,这些输出头在共享的模型主干上运行。将多标记预测视为辅助训练任务,我们发现在代码和自然语言模型的训练时间中没有额外开销的情况下,可以衡量出下游能力的提高。这种方法在更大的模型规模上尤其有用,并且在训练多个时期时仍然具有吸引力。在生成基准测试中,收益尤为显著,我们的模型在编码等任务上始终比强基线表现出色几个百分点。我们的130亿参数模型在HumanEval上解决的问题比可比的下一个标记模型多12%,在MBPP上多17%。对小型算法任务的实验表明,多标记预测有利于归纳头部和算法推理能力的发展。作为额外好处,使用4个标记预测训练的模型在推理时速度最多快3倍,即使批处理大小很大。
在个性化图像生成领域,保留概念的图像创建能力显著提高。创作一个自然地融合多个概念、构图连贯且视觉吸引力强的图像确实具有挑战性。本文介绍了一种名为“InstantFamily”的方法,该方法采用了一种新颖的遮罩交叉注意力机制和多模态嵌入堆栈,实现了零样本多身份图像生成。我们的方法通过利用预训练人脸识别模型的全局和局部特征结合文本条件,有效地保留了身份信息。此外,我们的遮罩交叉注意力机制实现了对生成图像中多个身份和构图的精确控制。我们通过实验证明了InstantFamily的有效性,展示了它在生成具有多个身份的图像方面的优势,同时解决了众所周知的多身份生成问题。此外,我们的模型在单一身份和多身份保留方面实现了最先进的性能。此外,我们的模型表现出出色的可扩展性,可以保留比其原始训练时更多的身份信息。
最近,迭代偏好优化方法已被证明在通用指令调整任务中表现良好,但通常在推理任务上改进有限(Yuan等,2024年,Chen等,2024年)。在这项工作中,我们开发了一种迭代方法,通过优化导致正确答案的推理步骤的胜负来优化竞争生成的“思维链”(CoT)候选项之间的偏好。我们使用修改后的DPO损失(Rafailov等,2023年)进行训练,其中包括一个额外的负对数似然项,我们发现这一项至关重要。我们展示了通过该方案的重复迭代推理得到改进。尽管仅依赖于训练集中的示例,我们的方法导致Llama-2-70B-Chat在GSM8K上的准确率从55.6%提高到81.6%(在32个样本中通过多数投票达到88.7%),在MATH上从12.5%提高到20.8%,在ARC-Challenge上从77.8%提高到86.7%,这超过了其他不依赖于额外数据集的基于Llama-2的模型。
我们通过QLoRA微调,将Llama-3-8B-Instruct的上下文长度从8K扩展到80K。整个训练周期非常高效,仅需在一台8xA800(80G)GPU机器上花费8小时。结果模型在各种评估任务中表现出色,如NIHS、主题检索和长上下文语言理解;同时,它也很好地保留了对短上下文的原始能力。这种显著的上下文扩展主要归因于由GPT-4生成的仅3.5K合成训练样本,这表明LLMs具有扩展其原始上下文长度的潜力(尽管这一潜力在很大程度上被低估)。事实上,通过更多的计算资源,上下文长度可以进一步扩展到80K之外。因此,团队将公开发布所有资源(包括数据、模型、数据生成流水线、训练代码),以促进社区未来的研究:https://github.com/FlagOpen/FlagEmbedding。
本文介绍了MotionLCM,将可控动作生成扩展到实时水平。现有的基于文本条件的空间控制动作生成方法存在显著的运行时低效性。为了解决这个问题,我们首先提出了运动潜在一致性模型(MotionLCM)用于动作生成,建立在潜在扩散模型(MLD)的基础上。通过采用一步(或少步)推断,我们进一步提高了用于动作生成的运动潜在扩散模型的运行时效率。为了确保有效的可控性,我们在MotionLCM的潜在空间中加入了一个运动控制网络(ControlNet),并在香草动作空间中启用显式控制信号(例如骨盆轨迹)来直接控制生成过程,类似于控制其他无潜在扩散模型用于动作生成。通过采用这些技术,我们的方法可以实时生成带有文本和控制信号的人类动作。实验结果展示了MotionLCM的显著生成和控制能力,同时保持实时运行时效率。
针对视觉内容的现有自动字幕方法面临诸如缺乏细节、内容幻觉和指令跟随不佳等挑战。在这项工作中,我们提出了VisualFactChecker(VFC),这是一个灵活的无需训练的流程,可为2D图像和3D物体生成高保真和详细的字幕。VFC包括三个步骤:1)提议阶段,图像到文本字幕模型提出多个初始字幕;2)验证阶段,大型语言模型(LLM)利用对象检测和VQA模型等工具对提出的字幕进行事实核查;3)字幕生成阶段,LLM通过总结字幕提议和事实核查结果生成最终字幕。在这一步中,VFC能够灵活地按照复杂指令生成各种风格的字幕。我们使用四个指标进行全面的字幕评估:1)用于图像文本相似度的CLIP-Score;2)用于衡量原始图像与由文本到图像模型生成的重建图像之间的相似度的CLIP-Image-Score;3)在亚马逊机械土耳其进行的人类研究;4)用于细粒度评估的GPT-4V。评估结果显示,VFC在COCO数据集上的2D图像和Objaverse数据集上的3D资产方面胜过了最先进的开源字幕方法。我们的研究表明,通过将开源模型组合成一个流程,我们可以获得与专有模型(如GPT-4V)相媲美的字幕能力,尽管模型大小缩小了超过10倍。
我们提出了GS-LRM,这是一个可扩展的大型重建模型,可以在单个A100 GPU上从2-4个姿态稀疏图像中以0.23秒的速度预测高质量的3D高斯基元。我们的模型采用了一个非常简单的基于Transformer的架构;我们对输入的姿态图像进行分块处理,将串联的多视图图像标记通过一系列Transformer块,直接从这些标记解码最终的每像素高斯参数,以进行可微分渲染。与先前只能重建对象的LRM不同,通过预测每像素的高斯函数,GS-LRM自然地处理具有大尺度和复杂性变化的场景。我们展示了我们的模型可以通过分别在Objaverse和RealEstate10K上进行训练来处理对象和场景捕获。在这两种情况下,我们的模型都大幅超越了最先进的基准线。我们还展示了我们的模型在下游3D生成任务中的应用。我们的项目网页链接为:https://sai-bi.github.io/project/gs-lrm/。
随着NeRF的出现,3D高斯喷洒(3D-GS)为实时神经渲染铺平了道路,克服了体积方法的计算负担。在3D-GS的开创性工作之后,有几种方法尝试实现可压缩且高保真性能的替代方案。然而,通过采用几何无关的优化方案,这些方法忽视了场景固有的3D结构,从而限制了表达能力和表示的质量,导致各种浮点和伪影。在这项工作中,我们提出了一种结构感知的高斯喷洒方法(SAGS),它隐式地编码了场景的几何结构,反映了最先进的渲染性能,并在基准新视角合成数据集上降低了存储需求。SAGS基于本地-全局图表示,有助于学习复杂场景,并强制执行保留场景几何的有意义的点位移。此外,我们引入了SAGS的轻量级版本,使用简单而有效的中点插值方案,展示了一种紧凑的场景表示,可实现高达24倍的尺寸缩减,而无需依赖任何压缩策略。在多个基准数据集上进行的大量实验表明,与最先进的3D-GS方法相比,SAGS在渲染质量和模型大小方面具有优越性。此外,我们证明了我们的结构感知方法可以有效地减轻以往方法的浮点伪影和不规则失真,同时获得精确的深度图。项目页面https://eververas.github.io/SAGS/。
视觉-语言数据集对于文本到图像(T2I)和图像到文本(I2T)研究至关重要。然而,当前数据集缺乏细致详尽的描述,这些描述可以让模型学习到更丰富的关联。为了填补这一空白,我们引入了连接和对比图像描述(DOCCI)数据集,其中包含长篇、人工注释的英文描述,涵盖了由单个研究人员拍摄、策划和捐赠的1.5万张图像。这个研究人员的目标是捕捉空间关系、计数、文本呈现、世界知识等关键挑战。我们指导人类标注者为每张图像创建全面的描述;这些描述平均长度为136个词,并旨在清晰地区分每张图像与相关或相似的图像。每个描述都高度组合,并通常涵盖多个挑战。通过定量和定性分析,我们证明DOCCI可作为图像到文本生成的有效训练资源——在DOCCI上微调的PaLI 5B模型显示出与高性能更大模型(如LLaVA-1.5 7B和InstructBLIP 7B)相当或更好的结果。此外,我们展示DOCCI是文本到图像生成的有用测试平台,突显了当前文本到图像模型在捕捉长描述和细节方面的局限性。
3D场景生成迅速成为一个具有挑战性的新研究方向,得益于2D生成扩散模型的持续改进。在这一领域的大部分先前工作通过迭代地将新生成的帧与现有几何图形拼接来生成场景。这些工作通常依赖于预训练的单眼深度估计器将生成的图像提升到3D,并将其与现有场景表示融合。然后,这些方法通常通过文本度量来评估,衡量生成图像与给定文本提示之间的相似性。在这项工作中,我们对3D场景生成领域做出了两项基本贡献。首先,我们指出使用单眼深度估计模型将图像提升到3D是次优的,因为它忽略了现有场景的几何形状。因此,我们引入了一种新颖的深度完成模型,通过教师蒸馏和自我训练来训练学习3D融合过程,从而提高了场景的几何一致性。其次,我们引入了一种基于地面真实几何的场景生成方法的新基准方案,从而衡量场景结构的质量。
基于优化的方法,如分数蒸馏采样(SDS),在零样本3D生成中显示出潜力,但由于每个样本需要大量函数评估(NFEs),效率较低。在本文中,我们引入基于分数的迭代重建(SIR),这是一种高效且通用的用于3D生成的算法,采用多视角基于分数的扩散模型。给定扩散模型生成的图像,SIR通过反复优化3D参数来减少NFEs,与SDS中的单次优化不同,模拟3D重建过程。通过在像素空间中进行优化等其他改进,我们提出了一种称为MicroDreamer的高效方法,通常适用于各种3D表示和3D生成任务。特别是,在保持可比性能的同时,MicroDreamer在生成神经辐射场方面比SDS快5-20倍,并且在单个A100 GPU上从3D高斯分裂生成网格大约需要20秒,将最快的零样本基线DreamGaussian的时间减半。我们的代码可在https://github.com/ML-GSAI/MicroDreamer找到。
当代3D研究,尤其是在重建和生成方面,严重依赖于2D图像作为输入或监督。然而,目前针对这些2D-3D映射的设计具有内存密集型,给现有方法带来了重大瓶颈,并阻碍了新的应用。为此,我们提出了一对高度可扩展的组件用于3D神经场:Lightplane Render和Splatter,显著减少了2D-3D映射中的内存使用。这些创新使得能够以较小的内存和计算成本处理更多和更高分辨率的图像。我们展示了它们在各种应用中的实用性,从受益于具有图像级损失的单场景优化到实现用于大幅扩展3D重建和生成的多功能流水线。源代码: https://github.com/facebookresearch/lightplane.