每日精选AI研究论文及翻译
我们提出了StdGEN,这是一个创新的流水线,可以从单个图像生成语义分解的高质量3D角色,广泛应用于虚拟现实、游戏和电影制作等领域。与以往的方法不同,这些方法在分解能力、质量不佳和优化时间长方面存在困难,StdGEN具有分解性、有效性和效率;即它可以在三分钟内生成细节丰富的3D角色,包括身体、服装和头发等分离的语义组件。StdGEN的核心是我们提出的语义感知大型重建模型(S-LRM),这是一种基于Transformer的通用模型,可以联合从多视角图像中以前馈方式重建几何、颜色和语义。引入了可微分的多层语义表面提取方案,以从我们的S-LRM重建的混合隐式场中获取网格。此外,还将专门的高效多视角扩散模型和迭代多层表面细化模块集成到流水线中,以促进高质量、可分解的3D角色生成。大量实验证明了我们在3D动漫角色生成方面的最新性能,几何、纹理和分解能力方面均显著超过现有基线。StdGEN提供即用的语义分解3D角色,并支持灵活定制,适用于各种应用。项目页面:https://stdgen.github.io
CLIP是当今最重要的多模态基础模型之一。CLIP的能力源自何处?自然语言提供的丰富监督信号塑造了强大的跨模态表示空间,自然语言是人类知识的载体。然而,随着大型语言模型(LLMs)如GPT-4和LLaMA的快速发展,语言理解和生成的边界不断被拓展。这带来了一个有趣的问题:LLMs的能力能否被利用来进一步改进多模态表示学习?将LLMs纳入CLIP中的潜在好处是显而易见的。LLMs强大的文本理解能力可以从根本上改善CLIP处理图像标题的能力,极大地增强其处理长篇复杂文本的能力,这是普通CLIP已知的局限。此外,LLMs是在大量文本语料库上训练的,具有开放世界知识。这使它们能够在训练过程中扩展标题信息,提高学习过程的效率。在本文中,我们提出了LLM2CLIP,这是一种拥抱LLMs力量来释放CLIP潜力的新方法。通过在对比学习中在标题空间中微调LLM,我们将其文本能力提取到输出嵌入中,显著提高了输出层的文本可辨识性。然后,我们设计了一个高效的训练过程,其中经过微调的LLM充当CLIP视觉编码器的强大教师。由于LLM的存在,我们现在可以在不受普通CLIP文本编码器上下文窗口和能力限制的约束下,纳入更长、更复杂的标题。我们的实验表明,这种方法在跨模态任务中带来了实质性的改进。
大型语言模型(LLMs)展示了令人印象深刻的能力,但仍然在需要多步骤的复杂推理任务中遇到困难。虽然基于提示的方法如“Chain-of-Thought”(CoT)可以改善LLM在推理时的推理能力,但在训练期间优化推理能力仍然具有挑战性。我们引入了LaTent Reasoning Optimization(LaTRO),这是一个原则性框架,将推理表述为从潜在分布中采样,并通过变分方法进行优化。LaTRO使LLMs能够同时改善其推理过程和评估推理质量的能力,而无需外部反馈或奖励模型。我们通过在GSM8K和ARC-Challenge数据集上使用多种模型架构进行的实验证实了LaTRO。在GSM8K上,LaTRO将零样本准确率平均提高了12.5%,比基础模型提高了9.6%,分别是Phi-3.5-mini、Mistral-7B和Llama-3.1-8B。我们的发现表明,预训练的LLMs具有潜在的推理能力,可以通过我们提出的自我改进方法来释放和增强。LaTRO的代码可在https://github.com/SalesforceAIResearch/LaTRO 上找到。
管道并行性被广泛应用于扩展基于Transformer的大型语言模型的训练,已经进行了各种工作来提高其吞吐量和内存占用。本文解决了一个经常被忽视的问题:词汇层可能导致管道阶段之间的计算和内存使用不平衡,加剧了管道气泡和内存瓶颈。为了解决这个问题,我们将词汇层均匀地划分到管道设备上,并将计算分组为管道传递。为了减少激活内存开销,我们提出了几种算法来减少词汇层内的通信障碍。此外,我们利用一种通用方法将词汇并行性与现有的管道调度集成在一起。通过结合这些技术,我们的方法有效地平衡了计算和参数内存,仅有少量恒定的激活内存开销。值得注意的是,当与像V-Half这样的激活内存平衡调度结合时,我们的方法在内存和计算方面实现了完美的平衡。广泛的评估表明,我们的方法实现了计算和内存的平衡,无论词汇量大小如何,与朴素方法相比,吞吐量提高了5%至51%,同时显著减少了尤其是对于大词汇量场景的峰值内存使用。我们的实现已在https://github.com/sail-sg/VocabularyParallelism 开源。
对大型语言模型(LLMs)进行微调对于增强其在特定任务上的性能至关重要,但通常由于冗余或无信息价值的数据而需要耗费大量资源。为了解决这种低效问题,我们引入了DELIFT(Data Efficient Language model Instruction Fine-Tuning),这是一种新颖的算法,系统地优化了微调的三个关键阶段中的数据选择:(1)指导微调,(2)任务特定微调(例如,推理,问答),以及(3)持续微调(例如,整合新数据版本)。与现有方法不同,这些方法侧重于单阶段优化或依赖计算密集型的梯度计算,DELIFT在所有阶段都能高效运行。我们方法的核心是一种成对效用度量,量化了数据样本对于改善模型对其他样本的响应有多有益,有效地衡量了信息价值相对于模型当前能力的情况。通过利用应用于该度量的不同子模块函数,DELIFT选择多样化和最佳子集,这些子集在微调的所有阶段都是有用的。在各种任务和模型规模上的实验表明,DELIFT可以将微调数据规模减少高达70%,而不会影响性能,提供了显著的计算节省,并在效率和功效方面优于现有方法。
本文旨在设计一个统一的计算机辅助设计(CAD)生成系统,能够根据用户以文本描述、图像、点云甚至它们的组合形式输入,轻松生成CAD模型。为实现这一目标,我们介绍了CAD-MLLM,这是第一个能够生成基于多模态输入的参数化CAD模型的系统。具体而言,在CAD-MLLM框架内,我们利用CAD模型的命令序列,然后采用先进的大型语言模型(LLMs)来对齐这些多样的多模态数据和CAD模型的矢量化表示的特征空间。为了促进模型训练,我们设计了一个全面的数据构建和注释流水线,为每个CAD模型配备相应的多模态数据。我们得到的数据集名为Omni-CAD,是第一个包含文本描述、多视图图像、点和命令序列的多模态CAD数据集。它包含大约450K个实例及其CAD构建序列。为了全面评估我们生成的CAD模型的质量,我们超越了当前侧重于重建质量的评估指标,引入了评估拓扑质量和表面封闭程度的额外指标。大量实验结果表明,CAD-MLLM明显优于现有的条件生成方法,并且对噪声和缺失点具有很高的鲁棒性。项目页面和更多可视化内容可在以下网址找到:https://cad-mllm.github.io/
大型语言模型(LLMs)的出现,如GitHub Copilot,显著提高了程序员的生产力,特别是在代码生成方面。然而,这些模型在没有进行精细调整的情况下往往难以应对现实世界的任务。随着LLMs变得更大更高效,为专门任务进行精细调整变得越来越昂贵。参数高效微调(PEFT)方法只微调模型参数的子集,通过降低调整LLMs的计算成本来提供一种有前途的解决方案,同时保持其性能。现有研究已经探讨了在各种与代码相关的任务中使用PEFT和LLMs,并发现PEFT技术的有效性取决于任务。PEFT技术在单元测试生成中的应用尚未得到充分探讨。目前的最新技术仅限于使用完全微调的LLMs来生成单元测试。本文调查了完全微调和各种PEFT方法,包括LoRA、(IA)^3和提示微调,跨不同的模型架构和大小。我们使用成熟的基准数据集来评估它们在单元测试生成中的有效性。我们的研究结果表明,PEFT方法可以提供与完全微调相媲美的性能,使专门微调更具可行性和成本效益。值得注意的是,提示微调在成本和资源利用方面最为有效,而LoRA在多种情况下接近完全微调的有效性。
现代语言模型能够处理来自不同语言和形式的输入。我们假设模型通过学习跨异构数据类型(例如不同语言和形式)的共享表示空间来获得这种能力,该空间将语义相似的输入放置在彼此附近,即使它们来自不同的形式/语言。我们将其称为语义中枢假设,这源自神经科学中的中枢-辐模型(Patterson等,2007),该模型认为人脑中的语义知识是通过一个跨模态的语义“中枢”来组织的,该中枢整合了来自各种形式特定“辐”区域的信息。我们首先展示了模型对不同语言中语义等效输入的表示在中间层中是相似的,并且可以通过模型的主导预训练语言使用对数几率镜头来解释这个空间。这种倾向也延伸到其他数据类型,包括算术表达式、代码和视听输入。在一个数据类型中对共享表示空间的干预也可以可预测地影响模型在其他数据类型中的输出,这表明这种共享表示空间不仅仅是在广泛数据上进行大规模训练的副产品,而是模型在输入处理过程中积极利用的东西。
细调视觉-语言模型(VLMs)经常捕捉图像特征和文本属性之间的虚假相关性,导致测试时的零样本性能下降。现有方法解决虚假相关性的问题主要在全局图像级别操作,而不是直接干预细粒度图像特征,并且主要设计用于单模态设置。在这项工作中,我们提出了RaVL,通过发现和减轻使用局部图像特征而不是在全局图像级别操作来提高VLM鲁棒性的细粒度视角。给定一个经过微调的VLM,RaVL首先通过利用区域级聚类方法来识别导致零样本分类错误的精确图像特征,从而发现虚假相关性。然后,RaVL通过一种新颖的区域感知损失函数来减轻已识别的虚假相关性,使VLM在微调过程中专注于相关区域并忽略虚假关系。我们在654个具有不同模型架构、数据领域和学习虚假相关性的VLM上评估了RaVL。我们的结果表明,RaVL能够准确发现(比最接近的基线改进了191%)和减轻(最差组图像分类准确率改善了8.2%)虚假相关性。对一般领域和医学领域的VLM进行的定性评估证实了我们的发现。
技术债务(TD)是一个术语,用来描述当开发人员选择快速简便的解决方案而不是更有效、设计更完善但耗时的方法时,出现的额外工作和成本。自我承认的技术债务(SATDs)是一种特定类型的技术债务,开发人员有意记录和承认,通常通过文本注释。虽然这些自我承认的注释是识别技术债务的有用工具,但大多数现有方法侧重于捕获与各类TD相关的关键标记,忽视了源代码本身蕴含的丰富信息。最近的研究集中在通过分析源代码中嵌入的注释来检测SATDs,对于包含在源代码中的技术债务却鲜有研究。为填补这一空白,本研究通过分析来自Stack语料库中974个Java项目的注释及其相关源代码,策划了首个由代码注释识别的TD数据集,同时附带其相关源代码。通过实证评估,我们发现所得数据集的注释有助于提升最先进的SATD检测模型的预测性能。更重要的是,包括分类的源代码显著提高了预测各类技术债务的准确性。在这方面,我们的工作具有双重意义:(i)我们相信我们的数据集将推动该领域未来的研究,激发与技术债务识别相关的各种研究问题;(ii)所提出的分类器可以作为其他利用策划数据集进行TD检测研究的基准。