每日精选AI研究论文及翻译
去年,多模态架构在基于人工智能的方法和解决方案中掀起了一场革命,扩展了大型语言模型(LLM)的能力。我们提出了一种基于预训练LLM和用于视觉模态的适配器的OmniFusion模型。我们评估并比较了几种架构设计原则,以实现更好的文本和视觉数据耦合:MLP和Transformer适配器,各种基于CLIP ViT的编码器(如SigLIP、InternVIT等)及其融合方法,图像编码方法(整个图像或瓷砖编码)以及两个7B的LLM(专有和开源的Mistral)。在8个视觉-语言基准测试上进行的实验显示,与开源的LLaVA类似解决方案(VizWiz、Pope、MM-Vet、ScienceQA、MMBench、TextVQA、VQAv2、MMMU)相比,最佳OmniFusion设置在不同VQA任务方面获得了最高分。我们还提出了多种情境,OmniFusion在不同领域提供了高度详细的答案:家政、观光、文化、医学、手写和扫描方程式识别等。基于Mistral的OmniFusion模型是一个开源解决方案,其权重、训练和推断脚本可在https://github.com/AIRI-Institute/OmniFusion 上获取。
大型仅解码器语言模型(LLMs)是当今大多数自然语言处理任务和基准测试中的最先进模型。然而,社区对将这些模型用于需要丰富上下文表示的文本嵌入任务的接受速度较慢。在这项工作中,我们介绍了LLM2Vec,这是一种简单的无监督方法,可以将任何仅解码器LLM转换为强大的文本编码器。LLM2Vec包括三个简单步骤:1)启用双向注意力,2)掩码下一个标记预测,3)无监督对比学习。我们通过将LLM2Vec应用于从13亿到70亿参数的3个流行LLM,并在英语单词和序列级任务上评估转换后的模型,展示了LLM2Vec的有效性。我们在单词级任务上大幅领先于仅编码器模型,并在大规模文本嵌入基准测试(MTEB)上达到了新的无监督最先进性能。此外,当将LLM2Vec与监督对比学习相结合时,我们在MTEB上实现了在仅在公开可用数据上训练的模型中的最先进性能。我们强有力的实证结果和广泛的分析表明,LLMs可以在不需要昂贵的调整或合成GPT-4生成数据的情况下,以参数高效的方式有效地转换为通用文本编码器。
我们提出了Eagle(RWKV-5)和Finch(RWKV-6),这是在RWKV(RWKV-4)架构基础上改进的序列模型。我们的架构设计创新包括多头矩阵值状态和动态循环机制,提高了表达能力,同时保持了RNN的推理效率特性。我们引入了一个包含1.12万亿标记的新多语言语料库,并基于贪婪匹配的快速分词器,以增强多语言能力。我们训练了四个Eagle模型,参数范围从0.46到75亿,以及两个拥有16亿和31亿参数的Finch模型,并发现它们在各种基准测试中取得了竞争性能。我们在HuggingFace上以Apache 2.0许可证发布了所有模型。模型链接: https://huggingface.co/RWKV 训练代码链接:https://github.com/RWKV/RWKV-LM 推理代码链接:https://github.com/RWKV/ChatRWKV 时间并行训练代码链接:https://github.com/RWKV/RWKV-infctx-trainer
大型视觉-语言模型(LVLM)领域取得了显著进展,但由于分辨率有限而难以理解细粒度视觉内容,其发展受到了阻碍。最近的努力旨在增强LVLM的高分辨率理解能力,但它们仍然受限于大约1500 x 1500像素,并且受到相对较窄的分辨率范围的限制。本文介绍了InternLM-XComposer2-4KHD,这是一项突破性的探索,旨在将LVLM的分辨率能力提升至4K HD(3840 x 1600)及以上。同时,考虑到并非所有情况都需要超高分辨率,它支持从336像素到4K标准的广泛分辨率范围,显著扩大了适用范围。具体而言,本研究通过引入一种新颖的扩展——具有自动补丁配置的动态分辨率,推进了补丁划分范式。它保持训练图像的长宽比,同时根据预训练的视觉Transformer(ViT)(336 x 336)自动变化补丁数量并配置布局,从而实现了从336像素到4K标准的动态训练分辨率。我们的研究表明,将训练分辨率提升至4K HD可以持续提升性能,而不会达到潜在改进的上限。InternLM-XComposer2-4KHD在16项基准测试中的10项中展现出与GPT-4V和Gemini Pro相匹敌甚至超越的出色能力。InternLM-XComposer2-4KHD模型系列具有70亿参数,可在https://github.com/InternLM/InternLM-XComposer 上公开获取。
随着对拥有高达万亿参数的大型语言模型(LLMs)开发日益增长的兴趣,人们开始关注资源效率和实际成本,尤其是考虑到实验的巨大成本。这种情况凸显了探索小型语言模型(SLMs)作为资源高效替代方案的重要性。在这种背景下,我们介绍了MiniCPM,特别是1.2B和2.4B非嵌入参数变体,不仅在各自的类别中表现出色,而且展示了与7B-13B LLMs相媲美的能力。在专注于SLMs的同时,我们的方法在未来LLM研究中展现了模型和数据维度的可扩展性。在模型扩展方面,我们进行了大量的模型风洞实验,以实现稳定和最佳的扩展。在数据扩展方面,我们引入了一个适用于持续训练和领域适应的Warmup-Stable-Decay(WSD)学习率调度器(LRS)。我们对WSD LRS中发生的有趣训练动态进行了深入分析。借助WSD LRS,我们现在能够高效地研究数据-模型扩展规律,而无需在模型和数据的两个轴上进行大量的重新训练实验,从中我们得出了比Chinchilla Optimal更高的计算最优数据-模型比例。此外,我们还介绍了MiniCPM家族,包括MiniCPM-DPO、MiniCPM-MoE和MiniCPM-128K,它们的出色表现进一步巩固了MiniCPM在各种SLM应用中的基础。MiniCPM模型可在https://github.com/OpenBMB/MiniCPM 上公开获取。
指导调整已成为将大型语言模型(LLMs)与特定任务指令对齐的关键,从而减轻下一个标记预测目标与用户实际目标之间的差异。为了减少人类收集或注释数据的劳动力和时间成本,研究人员开始探索使用LLMs生成与指令对齐的合成数据。最近的研究侧重于生成多样化指令并应用LLM增加指令复杂性,通常忽略了下游用例。如何量身定制高质量数据以引发不同目标指令分布和LLMs中更好的指令遵循能力仍不清楚。为此,我们引入CodecLM,这是一个通用框架,用于自适应生成适用于不同下游指令分布和LLMs的高质量合成数据,以实现LLM对齐。借鉴编码-解码原则,我们使用LLMs作为编解码器来指导数据生成过程。我们首先将种子指令编码为元数据,这些元数据是即时生成的简洁关键词,用于捕捉目标指令分布,然后解码元数据以创建量身定制的指令。我们还在解码过程中引入了自我评分和对比过滤,以量身定制高效数据样本。在四个开放领域的指令遵循基准测试上进行的大量实验验证了CodecLM相对于当前最先进技术的有效性。
本文探讨了大型语言模型(LLMs)在音乐预训练中的应用。虽然音乐建模中广泛使用MIDI已被充分确立,但我们的研究结果表明LLMs与ABC记谱更加兼容,与其设计和优势更为契合,从而提升了音乐创作模型的性能。为解决在生成过程中来自不同轨道的不对齐节拍所带来的挑战,我们提出了开发一种同步多轨ABC记谱(SMT-ABC记谱)的方案,旨在保持跨多个音乐轨道的连贯性。我们的贡献包括一系列能够处理高达8192个标记的模型,覆盖了我们训练集中90%的符号音乐数据。此外,我们探讨了符号音乐缩放定律(SMS Law)对模型性能的影响。结果显示了音乐生成领域未来研究的一个有希望的方向,通过我们的开源贡献为社区主导的研究提供了丰富的资源。
3D生成建模的演进显著受益于2D扩散模型的采用。尽管取得了进展,但繁琐的优化过程本身对效率构成了关键障碍。在本文中,我们介绍了Hash3D,这是一种无需模型训练的3D生成通用加速技术。Hash3D的核心思想是,从相邻时间步长和摄像机角度渲染的图像中存在特征图冗余。通过有效地对这些特征图进行哈希处理并在相邻时间步长和摄像机角度之间重复使用,Hash3D极大地减少了冗余计算,从而加速了3D生成任务中扩散模型的推断过程。我们通过自适应基于网格的哈希实现了这一点。令人惊讶的是,这种特征共享机制不仅加快了生成速度,还增强了合成的3D物体的平滑度和视角一致性。我们的实验涵盖了5个文本到3D和3个图像到3D模型,展示了Hash3D在加速优化方面的多样性,将效率提高了1.3至4倍。此外,Hash3D与3D高斯喷洒的集成大大加快了3D模型的创建速度,将文本到3D处理时间缩短至约10分钟,图像到3D转换时间缩短至大约30秒。项目页面位于https://adamdad.github.io/hash3D/。
尽管大规模语言模型(LLMs)已经广泛可用,但它们在各种语言中的能力和可用性仍存在显著差距。解决这些问题的一种方法是采取现有的预训练LLM,并继续在新语言上进行训练。虽然先前的研究已经尝试过语言适应,但许多关于最佳实践和方法论的问题尚未涉及。在本文中,我们对LLMs适应新语言进行了全面调查。我们的研究涵盖了这一过程中的关键组成部分,包括词汇扩展、直接偏好优化以及在低资源语言中进行人类对齐时的数据稀缺问题。我们在9种语言和2种参数规模(7B和70B)上扩展了这些实验。我们将我们的模型与Llama 2、Aya-101、XGLM、BLOOM以及现有的语言专家进行了比较,优于所有先前发布的基线。此外,所有评估代码和检查点都已公开,以促进未来研究。
通过大规模文本到图像扩散模型,文本到3D生成取得了显著成功。然而,目前尚无适用于城市规模的方法论。城市场景以众多元素、错综复杂的排列关系和广阔尺度为特征,这给模糊文本描述的可解释性和有效模型优化带来了巨大障碍。本研究通过将一种构成性3D布局表示引入文本到3D范式,作为额外先验来克服这些限制。该表示包括一组具有简单几何结构和明确排列关系的语义基元,与文本描述相辅相成,实现可操控的生成。在此基础上,我们提出两项修改:(1)引入布局引导变分分数蒸馏以解决模型优化不足。它通过几何和语义约束的3D布局来调节分数蒸馏采样过程。(2) 为了处理城市场景的无限特性,我们使用可扩展哈希网格结构表示3D场景,逐渐适应城市场景不断增长的尺度。大量实验证实了我们的框架能够首次将文本到3D生成扩展到覆盖超过1000米行驶距离的大规模城市场景。我们还展示了各种场景编辑演示,展示了可操控城市场景生成的能力。网站:https://urbanarchitect.github.io。
本文讨论了自适应密度控制(ADC)在三维高斯飞溅(3DGS)中的局限性,这是一种实现高质量、逼真效果的新视角合成场景表示方法。ADC被引入用于自动三维点基元管理,控制稠密化和修剪,但在稠密化逻辑方面存在一定限制。我们的主要贡献是在3DGS中为密度控制提出了更加原则性的、以像素误差驱动的公式,利用辅助的、以每像素误差函数作为稠密化标准。我们进一步引入了一种机制来控制每场景生成的基元总数,并在克隆操作期间纠正了ADC当前不透明度处理策略中的偏差。我们的方法在各种基准场景中实现了一致的质量改进,而不牺牲方法的效率。
受益于2D扩散模型的快速发展,最近3D内容创建取得了显著进展。一种有前途的解决方案涉及微调预训练的2D扩散模型,以利用其生成多视角图像的能力,然后通过快速NeRFs或大型重建模型等方法将其提升为准确的3D模型。然而,由于仍然存在不一致性和生成分辨率有限,这些方法生成的结果仍然缺乏复杂纹理和复杂几何形状。为了解决这个问题,我们提出了Magic-Boost,这是一种多视角条件扩散模型,通过短暂的SDS优化(约15分钟)显著改进粗糙的生成结果。与先前基于文本或单个图像的扩散模型相比,Magic-Boost表现出强大的能力,能够从伪合成的多视角图像中生成具有高一致性的图像。它提供精确的SDS指导,与输入图像的特征相吻合,丰富了初始生成结果的几何和纹理的局部细节。大量实验证明Magic-Boost极大地增强了粗糙输入,并生成了具有丰富几何和纹理细节的高质量3D资产。(项目页面:https://magic-research.github.io/magic-boost/)
手动操作的物体(即 manipulanda)特别具有挑战性,难以从野外的 RGB 图像或视频中重建。手部不仅遮挡了物体的大部分部分,而且物体通常只在少数图像像素中可见。与此同时,在这种情境中出现了两个强大的锚点:(1)估计的 3D 手有助于消除物体的位置和尺度的歧义,(2)与所有可能的物体相比,可操作物体的集合较小。基于这些见解,我们提出了一种可扩展的手持物体重建范式,借鉴了最近在大型语言/视觉模型和 3D 物体数据集方面的突破。我们的模型,MCC-Hand-Object(MCC-HO),联合重建手部和物体几何,给定单个 RGB 图像和推断的 3D 手作为输入。随后,我们使用 GPT-4(V) 检索一个与图像中物体匹配的 3D 物体模型,并将模型刚性对齐到网络推断的几何;我们称这种对齐为检索增强重建(RAR)。实验表明,MCC-HO 在实验室和互联网数据集上实现了最先进的性能,并展示了如何使用 RAR 自动获取手-物体相互作用的野外图像的 3D 标签。
尽管许多人已经展示了大型语言模型(LLMs)如何应用于各种任务,但数据污染和记忆的关键问题经常被忽略。在这项工作中,我们针对表格数据解决了这一问题。具体而言,我们引入了各种不同的技术来评估语言模型在训练过程中是否看到过表格数据集。这项研究揭示了LLMs已经逐字记忆了许多流行的表格数据集。然后,我们比较了LLMs在训练过程中看到的数据集和训练后发布的数据集上的少样本学习性能。我们发现LLMs在训练过程中看到的数据集上表现更好,表明记忆导致了过拟合。与此同时,LLMs在新数据集上表现出非平凡的性能,并且对数据转换具有惊人的鲁棒性。接着,我们调查了LLMs的上下文统计学习能力。在没有微调的情况下,我们发现它们的能力有限。这表明在新数据集上的少样本性能很大程度上归因于LLMs的世界知识。总的来说,我们的结果突显了在预训练期间测试LLMs是否看到过评估数据集的重要性。我们将开发的曝光测试作为tabmemcheck Python包提供,网址为https://github.com/interpretml/LLM-Tabular-Memorization-Checker。