每日精选AI研究论文及翻译
代码的大型语言模型(LLMs)已经成为各个领域不可或缺的工具,包括代码生成、推理任务和代理系统。虽然开放获取的代码LLMs正逐渐接近专有模型的性能水平,但适用于严谨科学研究的高质量代码LLMs仍然有限,尤其是那些具有可重现数据处理流程和透明训练协议的模型。这种稀缺性是由于各种挑战,包括资源限制、伦理考虑以及保持模型领先地位的竞争优势。为了填补这一空白,我们介绍了OpenCoder,这是一个顶尖的代码LLM,不仅实现了与领先模型可比的性能,而且还作为研究社区的“开放菜谱”。与大多数先前的努力不同,我们不仅发布模型权重和推理代码,还发布可重现的训练数据、完整的数据处理流程、严格的实验消融结果以及详细的训练协议,以支持开放的科学研究。通过这一全面的发布,我们确定了构建顶尖代码LLM的关键要素:(1)针对数据清洗的代码优化启发式规则和数据去重方法,(2)与代码相关的文本语料库的回忆,以及(3)在退火和监督微调阶段都具有高质量的合成数据。通过提供这种程度的开放性,我们旨在扩大对顶尖代码LLM各个方面的访问,OpenCoder既是一个强大的模型,也是一个开放基础,以加速研究并促进代码人工智能领域的可重复进展。
最近关于1比特大型语言模型(LLMs)的研究,如BitNet b1.58,提出了一种有望降低LLMs推断成本同时保持性能的方向。在这项工作中,我们介绍了BitNet a4.8,为1比特LLMs实现了4比特激活。BitNet a4.8采用混合量化和稀疏化策略来减轻异常通道引入的量化误差。具体而言,我们利用4比特激活来处理注意力和前馈网络层的输入,同时稀疏化后续的中间状态,并进行8比特量化。大量实验证明,BitNet a4.8在等效训练成本下实现了与BitNet b1.58相媲美的性能,同时在启用4比特(INT4/FP4)内核的推断速度更快。此外,BitNet a4.8仅激活55%的参数,支持3比特KV缓存,进一步提高了大规模LLM部署和推断的效率。
本文介绍了DimensionX,这是一个旨在利用视频扩散从单个图像中生成逼真的3D和4D场景的框架。我们的方法始于这样一个洞察:3D场景的空间结构和4D场景的时间演变可以通过视频帧序列有效表示。尽管最近的视频扩散模型在生成生动视觉方面取得了显著成功,但由于在生成过程中空间和时间的可控性有限,它们在直接恢复3D/4D场景方面存在局限性。为了克服这一问题,我们提出了ST-Director,通过从维度变体数据中学习维度感知的LoRA,将视频扩散中的空间和时间因素解耦。这种可控的视频扩散方法使得对空间结构和时间动态进行精确操作成为可能,使我们能够通过空间和时间维度的组合从连续帧中重建3D和4D表示。此外,为了弥合生成视频和真实场景之间的差距,我们引入了一种面向轨迹的机制用于3D生成,以及一种保持身份的去噪策略用于4D生成。对各种真实和合成数据集的广泛实验表明,与先前方法相比,DimensionX在可控视频生成以及3D和4D场景生成方面取得了优越的结果。
大型语言模型(LLMs)的发展已经扩展到能够在统一框架内处理文本、图像和语音的多模态系统。与仅处理文本的LLMs相比,训练这些模型需要更大规模的数据集和计算资源。为了解决规模挑战,我们引入了一种称为变压器混合(MoT)的稀疏多模态变压器架构,可以显著降低预训练的计算成本。MoT通过模态分离模型的非嵌入参数,包括前馈网络、注意力矩阵和层归一化,实现了对完整输入序列的全局自注意力的模态特定处理。我们在多种设置和模型规模下评估了MoT。在Chameleon 7B设置(自回归文本和图像生成)中,MoT仅使用55.8\%的FLOPs即可达到与密集基线相当的性能。当扩展到包括语音时,MoT仅使用37.2\%的FLOPs即可达到与密集基线相当的语音性能。在Transfusion设置中,其中文本和图像以不同目标进行训练,7B MoT模型以三分之一的FLOPs即可达到与密集基线图像模态性能相当的水平,而760M MoT模型在关键图像生成指标上优于14亿密集基线。系统分析进一步凸显了MoT的实际优势,在AWS p4de.24xlarge实例上(搭载NVIDIA A100 GPU)的墙钟时间中,以47.2%的时间实现了密集基线图像质量,以75.6%的时间实现了文本质量。
文档视觉问答(DocVQA)管道用于回答文档中的问题,具有广泛的应用。现有方法侧重处理单页文档,采用多模态语言模型(MLMs),或依赖于基于文本检索增强生成(RAG)的方法,使用光学字符识别(OCR)等文本提取工具。然而,在实际场景中应用这些方法存在困难:(a)问题通常需要跨不同页面或文档的信息,MLMs 无法处理许多长文档;(b)文档中常常包含重要信息的视觉元素,如图表,但文本提取工具会忽略它们。我们引入了M3DocRAG,一种新颖的多模态 RAG 框架,灵活适应各种文档上下文(封闭域和开放域)、问题跳数(单跳和多跳)和证据模态(文本、图表、图像等)。M3DocRAG 通过多模态检索器和 MLM 找到相关文档并回答问题,从而能够高效处理单个或多个文档,同时保留视觉信息。由于以前的 DocVQA 数据集在特定文档的上下文中提出问题,我们还提出了 M3DocVQA,这是一个新的基准,用于评估超过 3,000 个 PDF 文档和 40,000 页的开放域 DocVQA。在三个基准(M3DocVQA/MMLongBench-Doc/MP-DocVQA)中,实证结果表明,M3DocRAG 与 ColPali 和 Qwen2-VL 7B 相比,取得了优越的性能,包括在 MP-DocVQA 中的最新性能。我们对不同的索引、MLMs 和检索模型进行了全面分析。最后,我们定性展示了 M3DocRAG 能够成功处理各种情景,例如当相关信息存在于多个页面时,以及当答案证据仅存在于图像中。
由于视频中复杂的空间和时间动态,视频和文本之间的细粒度对齐具有挑战性。现有基于视频的大型多模态模型(LMMs)可以处理基本对话,但在视频中精确的像素级对齐方面存在困难。为了解决这个问题,我们引入了VideoGLaMM,这是一个专为视频中基于用户提供的文本输入进行细粒度像素级对齐设计的LMM。我们的设计无缝连接了三个关键组件:一个大型语言模型,一个双视觉编码器,强调空间和时间细节,以及一个用于准确生成蒙版的时空解码器。这种连接是通过可调的V-L和L-V适配器实现的,这些适配器可以实现紧密的视觉-语言对齐。该架构经过训练,以使视频内容的空间和时间元素与文本指令同步。为了实现细粒度对齐,我们策划了一个多模态数据集,其中包含使用半自动注释流程详细可视化对齐的对话,结果是一组包括38k视频-QA三元组、83k对象和671k蒙版的多样化数据。我们在三个具有挑战性的任务上评估了VideoGLaMM:对话生成、视觉对齐和视频引用分割。实验结果表明,我们的模型在所有三个任务中始终优于现有方法。
随着基于Transformer的视觉和语言任务模型的引入,如LLaVA和Chameleon,对图像的离散标记表示再次引起了兴趣。这些模型通常将图像补丁视为离散标记,类似于自然语言中的单词,学习视觉和人类语言之间的联合对齐。然而,关于这些视觉语言的统计行为知之甚少 - 它们是否遵循类似的频率分布、语法结构或拓扑结构,如自然语言。在本文中,我们采用以自然语言为中心的方法来分析离散视觉语言,并揭示了显著的相似性和根本性差异。我们证明,尽管视觉语言遵循Zipf分布,但更高的标记创新会驱动更大的熵和更低的压缩,标记主要代表对象部分,表明中间粒度。我们还展示,视觉语言缺乏连贯的语法结构,导致更高的困惑度和比自然语言更弱的层次组织。最后,我们证明,虽然视觉模型与自然语言更为接近,但这种对齐仍然明显弱于自然语言内部的凝聚力。通过这些实验,我们展示了了解离散视觉语言的统计属性如何可以指导设计更有效的计算机视觉模型。
为了增进与交流对象的社会联系,人类自然地获得了在特定情境中恰当回应的能力,考虑到哪种会话技巧对回应最为适宜 - 这一过程我们称之为心智技能。对于基于大型语言模型(LLM)的会话代理来说,像人类一样规划适当的会话技巧在社交对话的复杂性方面具有挑战性,尤其是在互动场景中。为了解决这一问题,我们提出了一个名为多面心智(Multifaceted Skill-of-Mind)的心智技能注释会话数据集,其中包括各种互动情景(例如长期、咨询、任务导向)中的多轮和多方面会话技巧,基于不同的社会背景(例如人口统计学、人设、经验法则)。该数据集包含大约10万个对话。利用这一数据集,我们引入了一系列新的心智技能注入的LLM模型,命名为Thanos,模型参数规模分别为10亿、30亿和80亿。通过广泛实验,这些模型成功展示了心智技能的过程,并在推断各种领域中的多方面技能方面表现出强大的泛化能力。此外,我们展示了Thanos显著提升了基于LLM的会话代理生成的回应质量,并在人类评估中促进了亲社会行为。
扩散模型已被证明在生成高质量图像方面非常有效。然而,随着这些模型变得更大,它们需要更多的内存并且遭受更高的延迟,这给部署带来了重大挑战。在这项工作中,我们旨在通过将扩散模型的权重和激活量量化为4位来加速这些模型。在这种激进水平下,权重和激活量都非常敏感,传统的用于大型语言模型的后训练量化方法,如平滑,变得不够。为了克服这一限制,我们提出了SVDQuant,一种新的4位量化范式。与平滑不同,后者在权重和激活量之间重新分配异常值,我们的方法利用低秩分支吸收这些异常值。我们首先通过将异常值从激活量移至权重来整合这些异常值,然后利用高精度的低秩分支使用奇异值分解来处理权重异常值。这个过程简化了双方的量化。然而,简单地独立运行低秩分支会产生显着的开销,因为需要额外的激活数据移动,抵消了量化加速。为了解决这个问题,我们共同设计了一个名为Nunchaku的推理引擎,将低秩分支的内核融合到低位分支的内核中,以消除冗余的内存访问。它还可以无缝支持现成的低秩适配器(LoRAs),无需重新量化。在SDXL、PixArt-Sigma和FLUX.1上进行的大量实验证实了SVDQuant在保持图像质量方面的有效性。我们将12B FLUX.1模型的内存使用量减少了3.5倍,在16GB笔记本电脑4090 GPU上比基准的4位仅权重量化基线实现了3.0倍的加速,为PC上的更多互动应用铺平了道路。我们的量化库和推理引擎已开源。
随着大型语言模型(LLMs)的上下文限制增加,可能应用和下游功能的范围也扩大了。在许多实际任务中,决策取决于分散在通常包含大量无关信息的文档集合中的细节。长上下文LLMs似乎非常适合这种复杂信息检索和推理形式,这在传统上往往耗时且费力。然而,尽管近年来长上下文模型的发展取得了快速进展,我们对LLMs如何有效利用其上下文的理解并没有跟上。为了解决这个问题,我们进行了一系列检索实验,旨在评估17个主要LLMs的能力,比如它们通过上下文窗口跟踪信息线索的能力。引人注目的是,我们发现许多模型在跟踪信息线索时表现出色:能够同时跟踪多个线索而不会显著降低性能。然而,对于许多模型来说,我们发现有效的上下文限制明显短于支持的上下文长度,随着上下文窗口的增长,准确性会下降。我们的研究还强调了一个重要观点,即来自不同分词器的标记计数不应直接进行比较--它们通常对应着大不相同的书面字符数。我们发布了我们的代码和长上下文实验数据。
在开放词汇移动操作方面取得了重大进展,其目标是使机器人能够根据自然语言描述在任何环境中执行任务。然而,大多数当前系统假定环境是静态的,这限制了系统在现实世界场景中的适用性,因为环境经常因人类干预或机器人自身行为而发生变化。在这项工作中,我们提出了DynaMem,这是一种用于开放世界移动操作的新方法,它使用动态空间语义记忆来表示机器人的环境。DynaMem构建了一个3D数据结构,以维护点云的动态记忆,并使用多模态LLM或由最先进的视觉语言模型生成的开放词汇特征来回答开放词汇对象定位查询。借助DynaMem的支持,我们的机器人可以探索新环境,在记忆中搜索未找到的对象,并在场景中的物体移动、出现或消失时持续更新记忆。我们在三个真实场景和九个离线场景中对Stretch SE3机器人进行了大量实验,对非静止物体的平均抓取和放置成功率达到了70%,这比最先进的静态系统提高了2倍以上。我们的代码以及实验和部署视频均已开源,并可在我们的项目网站上找到:https://dynamem.github.io/
代码混合是指在单个句子中整合来自多种语言的词汇和语法元素,是一种广泛存在的语言现象,尤其在多语社会中尤为普遍。在印度,社交媒体用户经常使用罗马字母文字进行代码混合对话,特别是在形成在线群体以分享相关本地信息的移民社区中。本文关注从罗马字母转写的孟加拉语与英语混合对话中提取相关信息的挑战。该研究提出了一种新方法来解决这些挑战,即通过开发一种机制来自动识别代码混合对话中最相关的答案。我们在包含来自Facebook的查询和文档以及查询相关文件(QRels)的数据集上进行了实验以协助完成此任务。我们的结果表明,我们的方法在从复杂的代码混合数字对话中提取相关信息方面的有效性,有助于在多语言和非正式文本环境中的自然语言处理领域。我们使用GPT-3.5 Turbo通过提示以及利用相关文档的顺序性质构建数学模型,帮助检测与查询相关的文档。
现有用于评估基础模型的基准主要集中在单文档、仅文本任务上。然而,它们通常无法完全捕捉研究工作流程的复杂性,这些工作流程通常涉及解释非文本数据并收集跨多个文档的信息。为了填补这一空白,我们引入了M3SciQA,这是一个多模态、多文档科学问答基准,旨在更全面地评估基础模型。M3SciQA包括1,452个专家注释的问题,涵盖70个自然语言处理论文簇,其中每个簇代表一个主要论文及其所有引用文档,反映了通过需要多模态和多文档数据来理解单篇论文的工作流程。通过M3SciQA,我们对18个基础模型进行了全面评估。我们的结果表明,当前的基础模型在多模态信息检索和跨多个科学文档推理方面仍明显表现不及人类专家。此外,我们探讨了这些发现对将基础模型应用于多模态科学文献分析的未来发展的影响。
我们提出了GazeGen,这是一个用户交互系统,可以根据用户眼睛注视的位置生成视觉内容(图像和视频)。GazeGen允许通过注视感兴趣区域来直观地操作视觉内容。利用目标检测和生成式人工智能的先进技术,GazeGen执行受注视控制的图像添加/删除、重新定位以及图像对象的表面材料变化,并将静态图像转换为视频。GazeGen的核心是DFT Gaze(精炼和微调注视)代理,这是一个超轻量级模型,仅有281K个参数,可以进行针对个体用户眼睛的准确实时注视预测,适用于小型边缘设备。GazeGen是第一个将视觉内容生成与实时注视估计结合起来的系统,这仅有DFT Gaze才能实现。这种实时注视估计使得各种视觉内容生成任务成为可能,所有这些任务都由用户的注视来控制。DFT Gaze的输入是用户的眼睛图像,而视觉内容生成的输入是用户的视角和来自DFT Gaze的预测注视点。为了实现高效的注视预测,我们通过新颖的知识蒸馏和个性化适应技术,从一个大模型(大小是原模型的10倍)中衍生出这个小模型。我们将知识蒸馏与掩蔽自编码器相结合,开发出一个紧凑而强大的注视估计模型。这个模型进一步通过适配器进行微调,实现高度准确和个性化的注视预测,用户输入最小。DFT Gaze确保低延迟和精准的注视跟踪,支持广泛的注视驱动任务。我们在AEA和OpenEDS2020基准测试上验证了DFT Gaze的性能,展示了在边缘设备(树莓派4)上低角度注视误差和低延迟。此外,我们描述了GazeGen的应用,展示了它在各种使用场景中的多功能性和有效性。
图像到视频生成的方法已经取得了令人印象深刻的逼真质量。然而,调整生成视频中的特定元素,如物体运动或摄像机移动,通常是一个繁琐的试错过程,例如,涉及使用不同的随机种子重新生成视频。最近的技术解决了这个问题,通过微调预训练模型以遵循条件信号,如边界框或点轨迹。然而,这种微调过程可能计算成本高昂,并且需要带有注释的对象运动的数据集,这可能很难获取。在这项工作中,我们介绍了SG-I2V,这是一个用于可控图像到视频生成的框架,它是自我学习的,只依赖于预训练的图像到视频扩散模型中存在的知识,无需微调或外部知识。我们的零-shot方法在视觉质量和运动保真度方面优于无监督基线,同时在与监督模型的竞争中表现出色。
除了高保真图像合成之外,扩散模型最近在密集视觉感知任务中展现出有希望的结果。然而,大多数现有研究将扩散模型视为感知任务的独立组件,将其仅用于现成数据增强或仅作为特征提取器。与这些孤立且因此次优的努力相反,我们引入了一个统一、多功能的基于扩散的框架,Diff-2-in-1,可以通过对扩散去噪过程的独特利用,同时处理多模态数据生成和密集视觉感知。在这个框架内,我们通过利用去噪网络创建模拟原始训练集分布的多模态数据,进一步通过多模态生成增强辨别性视觉感知。重要的是,Diff-2-in-1通过利用一种新颖的自我改进学习机制来优化所创建的多样且忠实数据的利用。全面的实验评估验证了我们框架的有效性,展示了在各种辨别性骨干和高质量多模态数据生成方面的一致性性能改进,这些数据既具有逼真性又具有实用性。