每日精选AI研究论文及翻译
结构信息对于理解文本丰富的图像(如文档、表格和图表)的语义至关重要。现有的用于视觉文档理解的多模态大型语言模型(MLLMs)具备文本识别能力,但缺乏对文本丰富的文档图像进行结构理解的能力。在这项工作中,我们强调了结构信息在视觉文档理解中的重要性,并提出了统一结构学习以提升MLLMs的性能。我们的统一结构学习包括结构感知解析任务和跨5个领域(文档、网页、表格、图表和自然图像)的多粒度文本定位任务。为了更好地编码结构信息,我们设计了一个简单而有效的视觉到文本模块H-Reducer,它不仅可以保留布局信息,还可以通过卷积合并水平相邻的补丁来减少视觉特征的长度,使LLM能够更高效地理解高分辨率图像。此外,通过构建结构感知文本序列和多粒度文本与边界框对应的公开可用文本丰富图像,我们构建了一个全面的训练集DocStruct4M来支持结构学习。最后,我们构建了一个小型但高质量的推理调优数据集DocReason25K,以触发文档领域的详细解释能力。我们的模型DocOwl 1.5在10个视觉文档理解基准上取得了最先进的性能,在5/10个基准中将7B LLM的SOTA性能提高了超过10个百分点。我们的代码、模型和数据集可在以下网址公开获取:https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5。
本文侧重于面向任务不可知的提示压缩,以提高泛化能力和效率。考虑到自然语言中的冗余性,现有方法通过根据从因果语言模型(如LLaMa-7B)获得的信息熵来移除标记或词汇单元来压缩提示。挑战在于信息熵可能是次优的压缩度量:(i)它仅利用单向上下文,可能无法捕获提示压缩所需的所有关键信息;(ii)它与提示压缩目标不一致。 为解决这些问题,我们提出了一种数据提炼过程,从LLM中获取知识以压缩提示而不丢失关键信息,并同时引入一个抽取式文本压缩数据集。我们将提示压缩形式化为一个标记分类问题,以确保压缩后的提示与原始提示的忠实性,并使用Transformer编码器作为基础架构,从完全双向上下文中捕获提示压缩的所有关键信息。我们的方法通过明确学习与较小模型(如XLM-RoBERTa-large和mBERT)一起的压缩目标,实现了更低的延迟。 我们在领域内和领域外数据集上评估了我们的方法,包括MeetingBank、LongBench、ZeroScrolls、GSM8K和BBH。尽管规模较小,我们的模型表现出明显的性能提升,展示了对不同LLM的稳健泛化能力。此外,我们的模型比现有的提示压缩方法快3倍至6倍,同时通过2倍至5倍的压缩比加速端到端延迟1.6倍至2.9倍。
将非结构化文本转化为结构化且有意义的形式,通过有用的类别标签进行组织,是文本挖掘中用于下游分析和应用的基本步骤。然而,目前大多数现有方法用于生成标签分类法和构建基于文本的标签分类器仍然严重依赖领域专业知识和手动策划,使得这一过程昂贵且耗时。当标签空间未明确定义且大规模数据注释不可用时,这一挑战尤为严峻。在本文中,我们利用大型语言模型(LLMs)应对这些挑战,其基于提示的界面有助于诱导和利用大规模伪标签。我们提出了TnT-LLM,一个两阶段框架,利用LLMs自动化端到端标签生成和分配过程,对于任何给定用例减少人力投入。在第一阶段,我们引入了一种零样本、多阶段推理方法,使LLMs能够迭代地生成和完善标签分类法。在第二阶段,LLMs被用作数据标注器,产生训练样本,从而可以可靠地构建、部署和大规模提供轻量级监督分类器。我们将TnT-LLM应用于用户意图和Bing Copilot(前身为Bing Chat)的对话领域分析,这是一个开放域基于聊天的搜索引擎。通过使用人工和自动评估指标进行广泛实验,证明了TnT-LLM相对于最先进基线方法生成更准确和相关的标签分类法,并在大规模分类中实现了准确性和效率之间的有利平衡。我们还分享了在实际应用中使用LLMs进行大规模文本挖掘时的挑战和机遇的实践经验和见解。
开源的大型语言模型(LLMs)在各种自然语言处理任务中取得了巨大成功,然而,当充当代理时,它们仍远不及基于API的模型。如何将代理能力整合到通用LLMs中成为一个关键且紧迫的问题。本文首先提出了三个关键观察结果:(1)当前的代理训练语料库既包含遵循格式又包含代理推理,这与其预训练数据的分布显著不同;(2)LLMs在代理任务所需能力上表现出不同的学习速度;以及(3)目前的方法在通过引入幻觉来提高代理能力时存在副作用。基于上述发现,我们提出了Agent-FLAN,以有效地为代理Fine-tune语言模型。通过对训练语料库进行仔细的分解和重新设计,Agent-FLAN使得Llama2-7B在各种代理评估数据集上比之前的最佳成果提高了3.5\%。通过全面构建负样本,Agent-FLAN极大地减轻了基于我们建立的评估基准的幻觉问题。此外,它在扩展模型规模时始终提高了LLMs的代理能力,同时略微增强了LLMs的通用能力。代码将在https://github.com/InternLM/Agent-FLAN上提供。
我们提出了AnimateDiff-Lightning,用于快速生成视频。我们的模型使用渐进式对抗性扩散蒸馏,实现了在少步骤视频生成方面的最新技术水平。我们讨论了我们对其进行的修改,以适应视频模态。此外,我们提议同时蒸馏多个基础扩散模型的概率流,从而产生一个具有更广泛风格兼容性的单一蒸馏运动模块。我们很高兴地发布我们蒸馏的AnimateDiff-Lightning模型供社区使用。
尽管大规模机器人系统通常依赖文本指令执行任务,本研究探讨了一种不同的方法:机器人能否直接从观察人类中推断任务?这种转变要求机器人能够解码人类意图,并将其转化为可在其物理约束和环境内执行的动作。我们引入了Vid2Robot,一种新颖的面向机器人的基于视频的端到端学习框架。给定一个操作任务的视频演示和当前的视觉观察,Vid2Robot直接生成机器人动作。这是通过在大量人类视频和机器人轨迹数据集上训练的统一表示模型实现的。该模型利用交叉注意力机制将提示视频特征融合到机器人的当前状态,并生成模仿观察任务的适当动作。为了进一步提高策略性能,我们提出了辅助对比损失,增强人类和机器人视频表示之间的对齐。我们在真实世界的机器人上评估了Vid2Robot,展示了与其他视频条件策略相比,在使用人类演示视频时性能提高了20%。此外,我们的模型展示了新兴的能力,例如成功地将观察到的动作从一个物体转移到另一个物体,以及长时间跨度的组合,从而展示了其在实际应用中的潜力。项目网站:vid2robot.github.io
视觉语言模型(VLMs)在多模态任务上表现越来越强大。然而,尤其是对于较小的VLMs,推理能力仍然有限,而大型语言模型(LLMs)的推理能力已经得到了许多改进。我们提出了一种技术,可以将LLMs的能力转移到VLMs上。在最近推出的ChartQA上,我们的方法在应用于chen2023pali3的PaLI3-5B VLM时获得了最先进的性能,同时还在PlotQA和FigureQA上实现了更好的性能。 我们首先通过继续使用liu2023deplot改进的图表到表格翻译任务的预训练阶段来改进图表表示。然后,我们提出构建一个比原始训练集大20倍的数据集。为了提高一般推理能力和改善数值运算,我们使用图表表示合成推理追踪。最后,我们的模型使用hsieh2023distilling引入的多任务损失进行微调。 我们的变种ChartPaLI-5B甚至优于PaLIX-55B等大10倍的模型,而不使用上游OCR系统,并且与PaLI3-5B基线相比保持推理时间恒定。当使用chen2023program提出的简单思维程序进一步完善原因时,我们的模型优于最近推出的Gemini Ultra和GPT-4V。
从图像或视频创建高斯飞溅的4D场是一项具有挑战性的任务,因为它的约束不足。虽然优化可以从输入视频中提取光度参考或受到生成模型的调节,但直接监督高斯运动仍未得到充分探讨。在本文中,我们引入了一个新概念,高斯流,它连接了3D高斯和相邻帧之间的像素速度之间的动态。高斯流可以通过将高斯动态喷洒到图像空间中来高效获得。这种可微分的过程使得可以从光流中直接进行动态监督。我们的方法显著地有利于使用高斯飞溅进行4D动态内容生成和4D新视角合成,特别是对于那些难以通过现有方法处理的具有丰富运动的内容。在4D生成中常见的颜色漂移问题也通过改进的高斯动态得到解决。在广泛的实验中表现出卓越的视觉质量证明了我们方法的有效性。定量和定性评估表明我们的方法在4D生成和4D新视角合成两项任务上均取得了最先进的结果。项目页面:https://zerg-overmind.github.io/GaussianFlow.github.io/
从给定图像中生成高质量的3D资产在诸如AR/VR等各种应用中非常理想。最近在单图像3D生成方面取得的进展探索了学习推断对象的3D模型而无需优化的前馈模型。尽管在单个对象生成方面取得了令人鼓舞的成果,但这些方法通常难以对固有包含多个对象的复杂3D资产进行建模。在这项工作中,我们提出了ComboVerse,这是一个3D生成框架,通过学习组合多个模型来生成具有复杂构成的高质量3D资产。1) 我们首先从模型和数据两个角度对这种“多对象差距”进行了深入分析。2) 接下来,通过重建不同对象的3D模型,我们试图调整它们的大小、旋转角度和位置,以创建与给定图像匹配的3D资产。3) 为了自动化这个过程,我们应用了来自预训练扩散模型的空间感知得分蒸馏采样(SSDS)来指导对象的定位。与标准得分蒸馏采样相比,我们提出的框架强调对象的空间对齐,从而实现更准确的结果。大量实验证实,ComboVerse在生成构成性3D资产方面明显优于现有方法。
在本研究中,我们深入探讨了从预训练扩散模型生成高分辨率图像的问题,解决了模型应用超出其训练分辨率时出现的重复模式和结构失真等持久性挑战。为了解决这一问题,我们从频域分析的角度引入了一种创新的、无需训练的方法 FouriScale。我们通过在预训练扩散模型中替换原始卷积层,结合扩张技术和低通操作,旨在分别实现跨分辨率的结构一致性和尺度一致性。通过进一步采用填充-裁剪策略的增强,我们的方法可以灵活处理各种长宽比的文本到图像生成。通过利用 FouriScale 作为指导,我们的方法成功平衡了生成图像的结构完整性和保真度,实现了任意大小、高分辨率和高质量生成的惊人能力。凭借其简单性和兼容性,我们的方法可以为未来探索超高分辨率图像合成提供宝贵的见解。代码将在 https://github.com/LeonHLJ/FouriScale 上发布。
文本到图像扩散模型的显著有效性激发了人们对其在视频领域潜在应用的广泛探索。零样本方法旨在将图像扩散模型扩展到视频,而无需进行模型训练。最近的方法主要集中在将帧间对应性纳入注意力机制中。然而,对于确定在哪里关注有效特征的软约束有时可能不足,导致时间不一致性。在本文中,我们引入了FRESCO,即帧内对应性与帧间对应性,以建立更强大的时空约束。这种增强确保了跨帧间语义相似内容更一致的转换。除了简单的注意力指导之外,我们的方法涉及对特征的显式更新,以实现与输入视频高度一致的时空一致性,显著提高了生成的翻译视频的视觉连贯性。大量实验证明了我们提出的框架在生成高质量、连贯视频方面的有效性,明显优于现有的零样本方法。
近年来,3D 高斯光滑插值技术已成为一种强大的用于 3D 重建和生成的技术,以其快速和高质量的渲染能力而闻名。为解决这些缺点,本文介绍了一种新颖的基于扩散的框架,GVGEN,旨在从文本输入高效生成 3D 高斯表示。我们提出了两种创新技术:(1)结构化体积表示。我们首先将无序的 3D 高斯点排列为结构化形式的 GaussianVolume。这种转换允许在由固定数量的高斯组成的体积内捕获复杂的纹理细节。为了更好地优化这些细节的表示,我们提出了一种名为候选池策略的独特修剪和致密化方法,通过选择性优化增强细节的保真度。(2)粗到细的生成流水线。为了简化 GaussianVolume 的生成并使模型能够生成具有详细 3D 几何的实例,我们提出了一个粗到细的流水线。它首先构建基本的几何结构,然后预测完整的高斯属性。我们的框架 GVGEN 在定性和定量评估中表现出优越的性能,相较于现有的 3D 生成方法。同时,它保持了快速的生成速度(约 7 秒),有效地在质量和效率之间取得平衡。
利用语义UV映射为3D人体进行纹理处理仍然是一个挑战,这是因为获取合理展开的UV的困难。尽管最近在使用大型文本到图像(T2I)模型监督多视角渲染方面取得了进展,但在生成速度、文本一致性和纹理质量方面仍然存在问题,导致现有数据集中存在数据稀缺。我们提出了TexDreamer,这是第一个零样本多模态高保真度3D人体纹理生成模型。利用高效的纹理适应微调策略,我们将大型T2I模型调整到语义UV结构,同时保留其原始的泛化能力。通过利用一种新颖的特征转换器模块,训练好的模型能够在几秒内从文本或图像生成高保真度的3D人体纹理。此外,我们介绍了ArTicuLated humAn textureS(ATLAS),这是最大的高分辨率(1024 X 1024)3D人体纹理数据集,包含了50k个带有文本描述的高保真度纹理。