每日精选AI研究论文及翻译
最近,研究如何构建更好的代码指令调优数据引起了广泛关注。然而,我们观察到使用这些数据集训练的代码模型在HumanEval上表现出色,但在LiveCodeBench等其他基准测试中表现较差。经进一步调查,我们发现许多数据集存在严重的数据泄漏问题。清理掉大部分泄漏数据后,一些知名高质量数据集的表现却不佳。这一发现揭示了一个新挑战:识别哪些数据集真正符合高质量代码指令数据的标准。为了解决这个问题,我们提出了一种高效的代码数据修剪策略来选择优质样本。我们的方法基于三个维度:指令复杂性、响应质量和指令多样性。基于我们选择的数据,我们提出了XCoder,这是一系列从LLaMA3微调而来的模型。我们的实验表明,XCoder在使用更少的训练数据时实现了新的最先进性能,验证了我们数据策略的有效性。此外,我们对数据组成进行了全面分析,发现现有代码数据集根据构建方法具有不同特征,为未来代码LLM提供了新的见解。我们的模型和数据集已在https://github.com/banksy23/XCoder发布。
最近LLM的进展揭示了与计算效率和持续可扩展性相关的挑战,这是由于它们对大量参数的需求,使得在计算资源有限的设备上应用和演进这些模型以及在需要各种能力的场景中变得越来越繁琐。受人脑中的模块化启发,人们越来越倾向于将LLM分解为许多功能模块,允许对部分模块进行推理,并动态组装模块以解决复杂任务,例如专家组合。为了突出模块化方法的固有效率和可组合性,我们创造了术语"brick"来代表每个功能模块,将模块化结构称为可配置的基础模型。在本文中,我们全面概述和调查了可配置基础模型的构建、利用和局限性。我们首先将模块形式化为新兴的brick - 在预训练阶段出现的功能神经元分区,以及定制的brick - 通过额外的后续训练构建的brick,以提高LLM的能力和知识。基于各种功能brick,我们进一步提出了四种基于brick的操作:检索和路由、合并、更新和增长。这些操作允许根据指令动态配置LLM以处理复杂任务。为了验证我们的观点,我们对广泛使用的LLM进行了实证分析。我们发现FFN层遵循模块化模式,具有神经元的功能专业化和功能神经元分区。最后,我们强调了一些未解决的问题和未来研究的方向。总的来说,本文旨在为现有LLM研究提供一种新颖的模块化视角,并激发未来创造更高效和可扩展的基础模型。
我们介绍了Open-MAGVIT2,这是一个范围从3亿到15亿的自回归图像生成模型系列。Open-MAGVIT2项目提供了Google的MAGVIT-v2分词器的开源复制品,这是一个具有超大码书(即2^{18}个码字)的分词器,并在ImageNet 256乘256上实现了最先进的重建性能(1.17的rFID)。此外,我们探讨了其在普通自回归模型中的应用,并验证了可扩展性特性。为了帮助自回归模型预测具有超大词汇量,我们通过不对称的标记因式分解将其分解为两个不同大小的子词汇,并进一步引入“下一个子标记预测”来增强子标记交互以获得更好的生成质量。我们发布所有模型和代码,以促进自回归视觉生成领域的创新和创造力。
扩散Transformer中的全局自注意机制涉及冗余计算,这是由于视觉信息的稀疏和冗余性,以及空间窗口内令牌的注意图显示出显著的相似性。为了解决这种冗余性,我们提出了代理令牌扩散Transformer(PT-DiT),它采用稀疏的代表性令牌注意力(代表性令牌数量远小于总令牌数量)来高效建模全局视觉信息。具体而言,在每个Transformer块中,我们从每个时空窗口中随机抽样一个令牌,作为该区域的代理令牌。通过这些代理令牌的自注意力捕获全局语义,然后通过交叉注意力注入到所有潜在令牌中。同时,我们引入窗口和移动窗口注意力,以解决稀疏注意机制导致的详细建模限制。基于精心设计的PT-DiT,我们进一步开发了奇虎-T2X系列,包括各种用于T2I、T2V和T2MV任务的模型。实验结果显示,PT-DiT在减少图像和视频生成任务中的计算复杂性方面取得了竞争性表现(例如,与DiT相比减少了48%,与Pixart-alpha相比减少了35%)。我们的源代码可在https://github.com/360CVGroup/Qihoo-T2X获取。
从单眼图像重建逼真的3D人体模型在创意产业、人机界面和医疗保健领域具有重要应用。我们的工作基于3D高斯飘零(3DGS),这是一种由高斯混合组成的场景表示。从单个输入图像预测人体的这种混合物具有挑战性,因为它是非均匀密度(与输入像素存在多对一关系),并受到严格的物理约束。同时,它需要具有灵活性,以适应各种服装和姿势。我们的关键观察是,标准化人体网格(如SMPL)的顶点可以提供足够的密度和高斯的近似初始位置。然后,我们可以训练一个转换模型,共同预测相对较小的这些位置调整,以及其他高斯属性和SMPL参数。我们通过实验证明,这种组合(仅使用多视图监督)可以从单个图像快速推断出3D人体模型,而无需测试时优化、昂贵的扩散模型或3D点监督。我们还表明,它可以通过更好地适应考虑服装和其他变化的人体模型来改善3D姿势估计。该代码可在项目网站 https://abdullahamdi.com/gst/ 上找到。
长文本语言模型(LMs)的能力通常通过“草堆中的针”(NIAH)测试来评估,该测试包括旨在评估模型在大型文本序列(“草堆”)中识别特定信息(“针”)的能力的任务。虽然这些基准测试衡量了模型对长文本输入序列的理解能力,但它们并不能有效地衡量长篇文本生成的质量——这对于设计提案和创意写作等应用至关重要。为了弥补这一差距,我们引入了一个新的长篇文本评估基准,名为“纺金线”(SGT),该基准测试模型在生成的长文本序列中识别特定事件的能力。在这个基准测试中,我们要求长文本LMs创建必须包含特定事件或约束的长篇文本,并评估它们整合这些元素的能力。我们在四种不同场景、三种提示指令类型和两种不同生成长度设置(16K和32K)下评估了十个长文本LMs。尽管这些模型在NIAH基准测试上表现良好,但没有一个在“纺金线”测试中表现令人满意,这引发了对它们生成遵循指令的连贯长篇文本能力的担忧。此外,随着生成文本长度的增加,所有模型的性能都显著下降。