每日精选AI研究论文及翻译
许多人工智能公司正在未经版权所有者许可的情况下,对数据进行大规模语言模型(LLMs)的训练。这样做的可行性因司法管辖区而异:在欧盟和日本等国家,这在一定限制下是允许的,而在美国,法律环境更加模糊。无论法律地位如何,创意生产者的担忧导致了一些备受关注的版权诉讼,诉讼威胁通常被引用为最近趋势中减少企业和公益行为者分享有关训练数据集信息的原因。这种限制数据信息的趋势会通过拒绝研究人员、审计员和受影响个人获取理解人工智能模型所需信息,从而损害生态系统中的透明度、问责制和创新。 尽管通过在开放获取和公共领域数据上训练语言模型可以缓解这一问题,但在撰写本文时,由于在组装必要语料库方面存在重大技术和社会挑战,尚无此类模型(以有意义的规模进行训练)。这些挑战包括不完整和不可靠的元数据、数字化实体记录的成本和复杂性,以及确保在快速变化的环境中具有相关性和责任性所需的多样化的法律和技术技能。朝着未来的方向努力,即人工智能系统可以在负责任策划和管理的开放许可数据上进行训练,需要跨法律、技术和政策领域的合作,以及对元数据标准、数字化和培育开放文化的投资。
多模态文档检索旨在识别和检索各种形式的多模态内容,如图表、表格、图表以及来自大量文档的布局信息。尽管其重要性,但目前缺乏一个强大的基准来有效评估多模态文档检索系统的性能。为填补这一空白,本研究引入了一个新的基准,命名为MMDocIR,涵盖两个不同的任务:页面级和布局级检索。前者侧重于定位长文档中最相关的页面,而后者则针对特定布局的检测,提供比整页分析更精细的粒度。布局可以指各种元素,如文字段落、方程式、图表或表格。MMDocIR基准包含一个丰富的数据集,为1,685个问题提供了专家注释标签,并为173,843个问题提供了引导标签,使其成为推动多模态文档检索的重要资源,既用于训练又用于评估。通过严格的实验,我们发现(i)视觉检索器明显优于其文本对应物,(ii)MMDocIR训练集可以有效地促进多模态文档检索的训练过程,(iii)利用VLM-text的文本检索器比使用OCR-text的效果要好得多。这些发现强调了整合视觉元素进行多模态文档检索的潜在优势。
近年来,3D场景生成引起了越来越多的关注并取得了显著进展。生成4D城市比3D场景更具挑战性,因为存在结构复杂、视觉多样的对象,如建筑和车辆,并且人类对城市环境中的扭曲更加敏感。为了解决这些问题,我们提出了CityDreamer4D,这是一种专门为生成无边界4D城市而设计的组合生成模型。我们的主要见解是:1)4D城市生成应该将动态对象(例如车辆)与静态场景(例如建筑和道路)分开;2)4D场景中的所有对象应由不同类型的神经场组成,用于建筑物、车辆和背景物体。具体而言,我们提出了交通场景生成器和无边界布局生成器,使用高度紧凑的BEV表示来生成动态交通场景和静态城市布局。4D城市中的对象是通过将针对背景物体、建筑物和车辆的面向物体和面向实例的神经场相结合来生成的。为了适应背景物体和实例的不同特征,神经场采用定制的生成哈希网格和周期性位置嵌入作为场景参数化。此外,我们提供了一套全面的用于城市生成的数据集,包括OSM、GoogleEarth和CityTopia。OSM数据集提供了各种真实世界的城市布局,而Google Earth和CityTopia数据集提供了大规模、高质量的城市图像,包括3D实例注释。借助其组合设计,CityDreamer4D支持一系列下游应用,如实例编辑、城市风格化和城市模拟,同时在生成逼真的4D城市方面表现出色。
随着扩散模型的引入,视频生成取得了显著进展,大大提高了生成视频的质量。然而,最近的研究主要集中在扩大模型训练规模,却很少深入探讨表示对视频生成过程的直接影响。本文首先研究了中间层特征的特性,发现不同层之间的注意力图存在显著变化。这些变化导致了不稳定的语义表示,并导致特征之间的累积差异,最终降低了相邻帧之间的相似性,对时间连贯性产生负面影响。为了解决这一问题,我们提出了RepVideo,这是一个增强的文本到视频扩散模型表示框架。通过累积相邻层的特征来形成丰富的表示,这种方法捕捉了更稳定的语义信息。然后,这些增强的表示被用作注意力机制的输入,从而提高了语义表达能力,同时确保了相邻帧之间的特征一致性。大量实验证明,我们的RepVideo不仅显著增强了生成准确的空间外观能力,例如捕捉多个对象之间复杂的空间关系,还提高了视频生成中的时间一致性。
基于预训练的文本到视频模型构建的先进先出(FIFO)视频扩散,最近已成为一种用于无调参长视频生成的有效方法。该技术维护一个视频帧队列,随着噪声不断增加,持续在队列头部生成清晰帧,同时在队尾入队高斯噪声。然而,FIFO-Diffusion经常难以保持生成视频中的长距离时间一致性,这是由于缺乏跨帧之间的对应建模。在本文中,我们提出了Ouroboros-Diffusion,这是一种旨在增强结构和内容(主题)一致性的新型视频去噪框架,从而实现任意长度一致视频的生成。具体而言,我们引入了一种新的潜在采样技术,用于改善结构一致性,确保帧之间的感知平滑过渡。为了增强主题一致性,我们设计了一种主题感知跨帧注意力(SACFA)机制,该机制在短片段内对齐帧之间的主题,以实现更好的视觉连贯性。此外,我们引入了自回归引导。这种技术利用队列前端所有先前更清晰帧的信息来引导末端更嘈杂帧的去噪,促进丰富和上下文全局信息交互。在VBench基准测试上进行的大量长视频生成实验表明,我们的Ouroboros-Diffusion在主题一致性、动作平滑度和时间一致性方面表现优越。
我们提出了第一项关于如何引发多模态语言模型(MLLMs)推理能力以评估艺术作品美学的研究。为了促进这一调查,我们构建了MM-StyleBench,这是一个用于艺术风格化基准测试的新颖高质量数据集。然后,我们开发了一种基于原则的人类偏好建模方法,并对MLLMs的响应与人类偏好之间的系统相关性进行了分析。我们的实验揭示了MLLMs在艺术评估中存在的固有幻觉问题,与响应主观性有关。我们提出了ArtCoT,展示了艺术特定任务分解和使用具体语言如何提升MLLMs在美学方面的推理能力。我们的发现为MLLMs在艺术领域提供了宝贵的见解,并可以使一系列下游应用受益,例如风格转移和艺术图像生成。代码可在https://github.com/songrise/MLLM4Art 上找到。
近年来,在图像合成和文本生成领域取得了显著进展的人工智能生成内容(AIGC),生成的内容与人类产生的相媲美。然而,人工智能生成的音乐质量尚未达到这一水准,主要是由于有效控制音乐情感和确保高质量输出的挑战。本文提出了一个通用的符号音乐生成框架XMusic,支持灵活的提示(例如图像、视频、文本、标签和哼唱)以生成可控制情感和高质量的符号音乐。XMusic包括两个核心组件,XProjector和XComposer。XProjector将各种形式的提示解析为符号音乐元素(例如情感、流派、节奏和音符)在投影空间内生成匹配的音乐。XComposer包含一个生成器和一个选择器。生成器基于我们创新的符号音乐表示生成可控制情感且旋律优美的音乐,而选择器通过构建涉及质量评估、情感识别和流派识别任务的多任务学习方案来识别高质量的符号音乐。此外,我们构建了XMIDI,一个包含108,023个MIDI文件的大规模符号音乐数据集,标有精确的情感和流派标签。客观和主观评估表明,XMusic在音乐质量方面明显优于当前最先进的方法。我们的XMusic已被评为2023年WAIC的九个收藏品亮点之一。XMusic的项目主页是https://xmusic-project.github.io。
图像金字塔被广泛应用于性能优越的方法中,以获取多尺度特征,用于精确的视觉感知和理解。然而,当前的图像金字塔使用相同的大尺度模型来处理多个分辨率的图像,导致了显著的计算成本。为了解决这一挑战,我们提出了一种新颖的网络架构,称为参数反转图像金字塔网络(PIIP)。具体而言,PIIP使用预训练模型(如ViTs或CNNs)作为分支来处理多尺度图像,其中更高分辨率的图像由较小的网络分支处理,以平衡计算成本和性能。为了整合不同空间尺度的信息,我们进一步提出了一种新颖的跨分支特征交互机制。为了验证PIIP,我们将其应用于各种感知模型和一个名为LLaVA的代表性多模态大型语言模型,并在各种任务上进行了广泛实验,如目标检测、分割、图像分类和多模态理解。PIIP相对于单分支和现有的多分辨率方法,以更低的计算成本实现了卓越的性能。当应用于InternViT-6B,一个大规模视觉基础模型时,PIIP可以在检测和分割上将性能提高1%-2%,仅使用原始计算的40%-60%,最终在MS COCO上实现60.0的box AP和在ADE20K上实现59.7的mIoU。对于多模态理解,我们的PIIP-LLaVA在TextVQA上实现了73.0%的准确率,在MMBench上实现了74.5%,仅使用了2.8M的训练数据。我们的代码已发布在https://github.com/OpenGVLab/PIIP。
我们经常与不受信任的方进行互动。隐私优先级可能会限制这些互动的有效性,因为实现某些目标需要共享私人数据。传统上,解决这一挑战通常涉及寻求可信中介或构建密码协议来限制数据的泄露量,比如多方计算或零知识证明。尽管在扩展密码方法方面取得了重大进展,但它们在可用于的应用程序的规模和复杂性方面仍然存在限制。在本文中,我们认为,能力强大的机器学习模型可以充当可信第三方的角色,从而实现先前无法实现的应用程序的安全计算。具体来说,我们描述了可信能力模型环境(TCME)作为扩展安全计算的替代方法,其中能力强大的机器学习模型在输入/输出约束下进行交互,具有明确的信息流控制和明确的无状态性。这种方法旨在在隐私和计算效率之间取得平衡,实现私人推断,而传统的密码解决方案目前无法实现。我们描述了几个由TCME实现的用例,并展示了即使一些简单的经典密码问题也可以通过TCME解决。最后,我们概述了当前的限制,并讨论了实施它们的未来路径。
跨视图和跨模态的图像匹配在多模态感知中发挥着关键作用。在实践中,由不同成像系统/风格引起的模态差距给匹配任务带来了巨大挑战。现有研究试图提取特定模态的不变特征,并在有限数据集上进行训练,但表现出较差的泛化能力。本文提出了MINIMA,一个适用于多种跨模态情况的统一图像匹配框架。MINIMA旨在从数据扩展的角度提升通用性能,而非追求花哨的模块。为此,我们提出了一个简单而有效的数据引擎,可以自由生成包含多种模态、丰富场景和准确匹配标签的大型数据集。具体而言,我们通过生成模型将模态从仅包含丰富RGB匹配数据的便宜数据扩展。在这种设置下,匹配标签和RGB数据集的丰富多样性被生成的多模态数据很好地继承。借助于此,我们构建了MD-syn,一个填补了通用多模态图像匹配数据空白的新综合数据集。利用MD-syn,我们可以直接在随机选择的模态对上训练任何先进的匹配流水线,以获得跨模态能力。在域内和零样本匹配任务上进行了大量实验,包括19种跨模态情况,结果表明我们的MINIMA可以显著优于基线方法,甚至超越特定模态的方法。数据集和代码可在 https://github.com/LSXI7/MINIMA 获取。
与世界互动是一个多感官体验:实现有效的通用交互需要利用所有可用的模态,包括视觉、触觉和音频,以填补部分观察的空白。例如,当视觉被遮挡时伸手进袋子,机器人应依赖触觉和声音感知。然而,目前最先进的通用机器人策略通常是在大型数据集上训练,仅从视觉和本体感知观察中预测机器人动作。在这项工作中,我们提出了FuSe,一种新方法,通过利用自然语言作为通用跨模态基础,使视觉运动通用策略在大型数据集不易获得的异质传感器模态上进行微调。我们将多模态对比损失与感知基础语言生成损失相结合,以编码高级语义。在机器人操作的背景下,我们展示了FuSe能够执行需要联合推理视觉、触觉和声音等模态的具有挑战性任务,例如多模态提示、组合跨模态提示和与之交互的对象描述等。我们展示了相同的方法适用于广泛不同的通用策略,包括基于扩散的通用策略和大型视觉-语言-动作(VLA)模型。在现实世界中进行的大量实验表明,与所有考虑的基线相比,FuSe能够将成功率提高超过20%。