每日精选AI研究论文及翻译
我们介绍了InternVL 2.5,这是一种先进的多模态大型语言模型(MLLM)系列,它在InternVL 2.0的基础模型架构上进行了改进,同时在训练和测试策略以及数据质量方面引入了显著的增强。在这项工作中,我们深入探讨了模型扩展和性能之间的关系,系统地探索了视觉编码器、语言模型、数据集大小和测试时间配置在性能趋势中的表现。通过在广泛的基准测试中进行全面评估,包括多学科推理、文档理解、多图像/视频理解、现实世界理解、多模态幻觉检测、视觉定位、多语言能力和纯语言处理等,InternVL 2.5展现出竞争力强劲的性能,与领先的商业模型如GPT-4o和Claude-3.5-Sonnet不相上下。值得注意的是,我们的模型是首个在MMMU基准测试中超过70%的开源MLLM,通过“思维链”(CoT)推理实现了3.7个百分点的改进,并展示了在测试时间扩展方面的强大潜力。我们希望这个模型通过为开源社区树立开发和应用多模态人工智能系统的新标准而做出贡献。HuggingFace演示请参见https://huggingface.co/spaces/OpenGVLab/InternVL
本技术报告介绍了LG AI Research开发并发布的EXAONE 3.5指令调整语言模型。EXAONE 3.5语言模型提供三种配置:32B、7.8B和2.4B。这些模型具有几个突出的能力:1)在真实场景中具有出色的指令跟随能力,在七个基准测试中取得最高分;2)出色的长文本理解能力,在四个基准测试中表现最佳;3)与同等规模的最新开放模型相比,在九个通用基准测试中取得了竞争性结果。EXAONE 3.5语言模型对于研究目的对任何人开放,并可从https://huggingface.co/LGAI-EXAONE下载。如需商业用途,请联系LG AI Research的官方联系点:[email protected]。
最近文本到视频(T2V)生成模型的进展展示出令人印象深刻的能力。然而,这些模型在将合成视频与人类偏好(例如准确反映文本描述)进行对齐方面仍然不足,这一点尤为难以解决,因为人类偏好本质上是主观的,难以形式化为客观函数。因此,本文提出了LiFT,一种利用人类反馈进行T2V模型对齐的新颖微调方法。具体而言,我们首先构建了一个人类评分注释数据集LiFT-HRA,其中包含约10k个人类注释,每个注释包括一个分数及其相应的理由。基于此,我们训练了一个奖励模型LiFT-Critic,有效地学习奖励函数,作为人类判断的代理,衡量给定视频与人类期望之间的对齐程度。最后,我们利用学习到的奖励函数通过最大化奖励加权似然来对齐T2V模型。作为案例研究,我们将我们的流程应用于CogVideoX-2B,结果显示微调后的模型在所有16个指标上均优于CogVideoX-5B,突显了人类反馈在提高合成视频对齐度和质量方面的潜力。
开源多模态大型语言模型(MLLMs)在各种多模态任务中展现出显著潜力。然而,它们的推理能力仍受现有指导微调数据集的限制,这些数据集主要是从学术数据集(如VQA、AI2D和ChartQA)中重新利用而来。这些数据集针对简单任务,仅提供短语级答案,没有任何中间推理过程。为了解决这些挑战,我们引入了一种可扩展且具有成本效益的方法,用于构建一个大规模多模态指导微调数据集,其中包含丰富的中间推理过程,旨在引发CoT推理。仅使用开放模型,我们创建了一个包含1200万指导-响应对的数据集,涵盖了多样化、推理密集型任务,并提供详细和忠实的推理过程。实验证明,在这一数据集上训练MLLMs显著提高了推理能力,在MathVerse(+8.1%)、MMMU-Pro(+7%)和MuirBench(+13.3%)等基准测试中取得了最先进的性能。此外,该模型在非推理型基准测试上的表现也有显著提升,最高可达4%。消融研究进一步凸显了数据集构建过程中重要组成部分(如重写和自过滤)的重要性。
最近在文本引导的图像编辑方面取得了新进展,使用户能够通过简单的文本输入进行图像编辑,利用基于多步扩散的文本到图像模型的广泛先验知识。然而,这些方法通常无法满足实际应用和设备端应用所需的速度要求,因为涉及昂贵的多步反演和采样过程。为了解决这个问题,我们引入了SwiftEdit,这是一个简单而高效的编辑工具,实现了即时的文本引导图像编辑(0.23秒内)。SwiftEdit的进步在于其两个创新贡献:一种一步反演框架,通过反演实现一步图像重建,以及一种基于蒙版引导的编辑技术,结合我们提出的注意力重缩放机制来执行局部图像编辑。我们提供了大量实验证明了SwiftEdit的有效性和效率。特别是,SwiftEdit实现了即时的文本引导图像编辑,比先前的多步方法快得多(至少快50倍),同时在编辑结果上保持了竞争力。我们的项目页面位于:https://swift-edit.github.io/
大型语言模型(LLMs)在训练过程中以AdamW优化器为代表极具内存密集性。这种内存负担要求使用更多或更高端的GPU,或者减小批量大小,从而限制了训练的可扩展性和吞吐量。为了解决这一问题,提出了各种内存高效优化器来减少优化器内存使用。然而,它们面临着关键挑战:(i)依赖昂贵的奇异值分解操作;(ii)与AdamW相比存在显著的性能折衷;(iii)仍然存在相当大的优化器内存开销以保持竞争性能。 在这项工作中,我们发现AdamW的学习率调整规则可以有效地粗化为结构化学习率更新。基于这一观点,我们提出了适用于内存高效LLM优化的近似梯度缩放(APOLLO),它使用基于纯随机投影的辅助低秩优化器状态来近似学习率缩放。这种结构化学习率更新规则使APOLLO在进一步减少内存的同时能够提供可比较的预训练性能。即使是其秩为1的变体APOLLO-Mini,也比具有SGD级内存成本的AdamW实现了更优越的预训练性能。 大量实验证明,APOLLO系列与AdamW持平甚至更优,同时通过几乎消除AdamW的优化状态实现了更大的内存节省。这些节省带来了重要的系统级好处:(1)增强吞吐量:在8个A100-80GB设置上,与AdamW相比支持4倍更大的批量大小,吞吐量提高了3倍。 (2)改善模型可扩展性:在A100-80GB GPU上使用朴素DDP进行LLaMA-13B的预训练,无需系统级优化。 (3)友好的低端GPU预训练:在单个GPU上使用不到12GB内存进行LLaMA-7B的预训练,采用了权重量化。
最近在广泛语料库上预训练的大型语言模型的发展在各种自然语言处理任务中取得了显著成功,而且只需进行最少的微调。这一成功为机器人技术带来了新的希望,长期以来,机器人技术一直受制于高成本的动作标记数据。我们提出一个问题:鉴于丰富的包含互动相关知识的视频数据作为一个丰富的“语料库”可用,类似的生成式预训练方法是否能够有效地应用于增强机器人学习?关键挑战在于确定一种有效的自回归预训练表示,以使机器人操纵任务受益。受人类通过观察动态环境学习新技能的方式启发,我们提出,有效的机器人学习应该强调与低级动作密切相关的运动相关知识,并且与硬件无关,便于将学到的运动转移到实际机器人动作中。为此,我们引入了Moto,通过潜在运动令牌分词器将视频内容转换为潜在的运动令牌序列,以无监督的方式从视频中学习运动的桥接“语言”。我们通过运动令牌自回归对Moto-GPT进行预训练,使其能够捕捉多样的视觉运动知识。在预训练之后,Moto-GPT展示了产生语义可解释的运动令牌、预测合理的运动轨迹以及通过输出可能性评估轨迹合理性的有希望能力。为了将学到的运动先验知识转移到实际机器人动作中,我们实施了一种协同微调策略,无缝地桥接了潜在运动令牌预测和真实机器人控制。大量实验表明,微调后的Moto-GPT在机器人操纵基准测试中表现出更高的稳健性和效率,突显了它在将知识从视频数据转移到下游视觉操纵任务中的有效性。
文本到视频生成模型在近年来取得了显著进展。然而,它们仍然在基于组合文本提示生成复杂动态场景方面存在困难,例如多个对象的属性绑定、不同对象的时间动态以及对象之间的交互。我们的主要动机是将复杂任务分解为更简单的任务,每个任务由一个专门角色的MLLM代理处理。多个代理可以共同合作,以实现复杂目标的集体智能。我们提出了GenMAC,这是一个迭代的多代理框架,可以实现组合文本到视频的生成。协作工作流程包括三个阶段:设计、生成和重设计,其中在生成和重设计阶段之间有一个迭代循环,逐步验证和完善生成的视频。重设计阶段是最具挑战性的阶段,旨在验证生成的视频,提出更正建议,并重新设计文本提示、逐帧布局和引导比例,以供下一轮生成使用。为了避免单个MLLM代理的幻觉,我们将这个阶段分解为四个顺序执行的基于MLLM的代理:验证代理、建议代理、更正代理和输出结构化代理。此外,为了解决组合文本到视频生成的多样情景,我们设计了一种自适应选择适当更正代理的自路由机制,该机制包含一组针对不同情景专门设计的更正代理。大量实验证明了GenMAC的有效性,在组合文本到视频生成方面取得了最先进的性能。
多模式大型语言模型(MLLMs)能有多好地理解复合图像?复合图像(CIs)是通过合并多个视觉元素(如图表、海报或屏幕截图)而创建的合成视觉,而非直接由摄像头拍摄而成。虽然CIs在现实应用中很常见,但最近MLLM的发展主要集中在解释自然图像(NIs)上。我们的研究发现,目前的MLLM在准确理解CIs方面面临着重大挑战,通常难以提取信息或基于这些图像进行复杂推理。我们发现,现有的CIs训练数据主要针对问答任务进行格式化(例如在ChartQA和ScienceQA等数据集中),而对于稳健的视觉-语言对齐至关重要的高质量图像描述数据集仅适用于NIs。为了弥合这一差距,我们引入了复合描述(CompCap),这是一个灵活的框架,利用大型语言模型(LLMs)和自动化工具来合成具有准确和详细描述的CIs。利用CompCap,我们策划了CompCap-118K,这是一个包含六种CI类型的118K图像描述对的数据集。我们通过对三种规模的MLLM进行监督微调(xGen-MM-inst.-4B和LLaVA-NeXT-Vicuna-7B/13B)来验证CompCap-118K的有效性。实证结果表明,CompCap-118K显著增强了MLLM对CIs的理解能力,在十一个基准测试中分别获得了1.7%、2.0%和2.9%的平均增益。
3D高斯点云投影在大规模场景重建中取得了显著成功,但由于高训练内存消耗和存储开销,仍存在挑战。融合隐式和显式特征的混合表示提供了缓解这些限制的途径。然而,在并行化分块训练中应用时,会出现两个关键问题,因为在独立训练每个块时,由于数据多样性降低,重建精度会下降,并且并行训练会限制分割块的数量与可用GPU数量相匹配。为了解决这些问题,我们提出了Momentum-GS,这是一种新颖方法,利用基于动量的自蒸馏来促进各块之间的一致性和准确性,同时将块的数量与物理GPU数量解耦。我们的方法维护一个使用动量更新的教师高斯解码器,确保在训练过程中有一个稳定的参考。这个教师以自蒸馏的方式为每个块提供全局指导,促进重建中的空间一致性。为了进一步确保各块之间的一致性,我们引入了块加权,根据其重建准确性动态调整每个块的权重。在大规模场景上进行的大量实验表明,我们的方法始终优于现有技术,相比CityGaussian,LPIPS提高了12.8%,且分割块数量更少,创立了一个新的技术水平。项目页面:https://jixuan-fan.github.io/Momentum-GS_Page/
多模态人工智能有潜力显著增强文档理解任务,如处理收据、理解工作流程、从文档中提取数据和总结报告。需要生成长结构化输出的代码生成任务也可以通过多模态方式得到增强。尽管如此,它们在商业应用中的使用通常受限于训练数据的有限获取和限制性许可,这限制了开放获取。为了解决这些限制,我们引入了BigDocs-7.5M,这是一个高质量的、开放获取的数据集,包括了涵盖30个任务的750万个多模态文档。我们使用高效的数据筛选过程来确保我们的数据是高质量的并且许可宽松的。我们的过程强调通过过滤规则、可追溯的元数据和仔细的内容分析来保证问责、责任和透明度。此外,我们引入了BigDocs-Bench,一个基准套件,其中包括了10个新颖任务,我们创建的数据集反映了涉及对图形用户界面(GUI)进行推理和从图像生成代码的实际用例。我们的实验表明,使用BigDocs-Bench进行训练可以将文档推理和结构化输出任务的平均性能提高高达25.8%,超过了封闭源GPT-4o。最后,人类评估显示,模型在BigDocs上训练的输出优于GPT-4o。这表明BigDocs可以帮助学术界和开源社区利用和改进人工智能工具,以增强多模态能力和文档推理。该项目托管在 https://bigdocs.github.io。
现实世界的视频由事件序列组成。使用现有依赖单个文本段落作为输入的视频生成器精确控制这些序列的时间是不可行的。当要求生成使用单个提示描述的多个事件时,这些方法通常会忽略一些事件或未能按正确顺序排列它们。为了解决这一限制,我们提出了MinT,一种具有时间控制的多事件视频生成器。我们的关键洞察是将每个事件绑定到生成视频中的特定时期,这使模型能够一次专注于一个事件。为了实现事件标题和视频标记之间的时间感知交互,我们设计了一种基于时间的位置编码方法,称为ReRoPE。这种编码有助于引导交叉注意力操作。通过在具有时间基础数据的预训练视频扩散变压器上进行微调,我们的方法生成具有平滑连接事件的连贯视频。在文献中首次,我们的模型提供了对生成视频中事件时间的控制。大量实验证明,MinT在性能上大幅优于现有的开源模型。
在本文中,我们提出了PanoDreamer,一种从单个输入图像生成连贯的360度三维场景的新方法。与现有的按顺序生成场景的方法不同,我们将问题构建为单图全景和深度估计。一旦获得了连贯的全景图像及其对应的深度,就可以通过修补小遮挡区域并将其投影到三维空间中来重建场景。我们的关键贡献在于将单图全景和深度估计形式化为两个优化任务,并引入交替最小化策略来有效解决它们的目标。我们证明了我们的方法在单图360度场景重建方面在一致性和整体质量方面优于现有技术。
由于空间结构的固有复杂性和无纹理区域的普遍存在,室内场景的重建仍然具有挑战性。最近在3D高斯飘零技术方面取得的进展改善了新视角合成的加速处理,但在表面重建方面尚未提供可比较的性能。本文介绍了一种名为2DGS-Room的新方法,利用2D高斯飘零技术实现高保真度的室内场景重建。具体而言,我们采用种子引导机制来控制2D高斯分布,通过自适应生长和修剪机制动态优化种子点的密度。为了进一步提高几何精度,我们结合单目深度和法线先验来分别为细节和无纹理区域提供约束。此外,采用多视角一致性约束来减轻伪影并进一步增强重建质量。在ScanNet和ScanNet++数据集上进行的大量实验证明,我们的方法在室内场景重建方面实现了最先进的性能。
大型语言模型(LLMs)已经使对话成为人机交互的核心模式之一,导致大量对话日志的积累,并增加了对对话生成的需求。对话生命周期从序幕经过交际到结语,涵盖了各种要素。尽管存在许多与对话相关的研究,但缺乏涵盖全面对话要素的基准,阻碍了精确建模和系统评估。为弥补这一差距,我们引入了一项创新的研究任务——对话要素建模,包括要素意识和对话代理交互,并提出了一个新颖的基准,DEMO,旨在进行全面的对话建模和评估。受模仿学习启发,我们进一步构建了代理,具有模拟对话要素的熟练能力,基于DEMO基准。大量实验表明,现有的LLMs仍然具有相当大的增强潜力,而我们的DEMO代理在领域内外任务中表现出优越性能。
奖励仍然是指定强化学习任务的一种难以解释的方式,因为人类通常无法预测任何给定奖励函数的最佳行为,导致奖励设计不佳和奖励欺骗。语言提供了一种吸引人的方式,可以向代理传达意图并绕过奖励设计,但先前的努力受到昂贵且不可扩展的标注工作的限制。在这项工作中,我们提出了一种完全无监督的方法,用于以零-shot方式将语言指令与策略进行基础。我们提出了一种解决方案,采用想象、投影和模仿的形式:代理程序想象与任务的语言描述相对应的观察序列,将想象的序列投影到我们的目标领域,并将其基础化为策略。视频语言模型使我们能够想象利用从互联网规模的视频文本映射中学到的任务知识的任务描述。挑战在于将这些生成基础化为策略。在这项工作中,我们展示了通过首先将想象的序列基础化到无监督RL代理的真实观察中,并使用一种闭式解来进行模仿学习,从而使RL代理能够模仿基础化的观察,我们可以实现零-shot语言到行为策略。我们的方法RLZero是我们所知道的第一个展示在模拟领域的各种任务上具有零-shot语言到行为生成能力的方法,而无需任何监督。我们进一步展示了RLZero还可以从跨体视频中进行零-shot生成策略,例如从YouTube上获取的视频。