每日精选AI研究论文及翻译
随着大规模语言和计算机视觉模型中上下文学习范式的成功,最近兴起的上下文强化学习领域正在迅速发展。然而,由于缺乏具有挑战性的基准测试,其发展受到了阻碍,因为所有实验都是在简单环境和小规模数据集中进行的。我们提出了XLand-100B,这是一个基于XLand-MiniGrid环境的大规模数据集,用作缓解这一问题的第一步。它包含了近30,000个不同任务的完整学习历史,涵盖了100B个转换和25亿个情节。收集这一数据集耗费了50,000个GPU小时,这超出了大多数学术实验室的能力范围。除了数据集,我们还提供了工具,以便复制或进一步扩展数据集。通过这一重大努力,我们的目标是使上下文强化学习这一快速增长领域的研究民主化,并为进一步扩展奠定坚实基础。该代码是开源的,可在Apache 2.0许可下通过以下链接获得:https://github.com/dunno-lab/xland-minigrid-datasets。
尽管文本到图像扩散模型取得了前所未有的成功,但通过文本控制所描绘对象的数量却异常困难。这对于从技术文档到儿童书籍再到烹饪食谱的各种应用都至关重要。生成正确的对象计数在根本上是具有挑战性的,因为生成模型需要为每个对象实例保持独立身份感,即使有几个对象看起来相同或重叠,并在生成过程中隐式进行全局计算。目前尚不清楚是否存在这样的表示。为了解决正确计数生成的问题,我们首先确定扩散模型中可以携带对象身份信息的特征。然后在去噪过程中使用这些特征来分离和计数对象实例,并检测过度生成和不足生成。我们通过训练一个模型来修复后者,该模型基于现有对象的布局预测缺失对象的形状和位置,并展示了如何利用它来引导具有正确对象计数的去噪过程。我们的方法 CountGen 不依赖外部来源来确定对象布局,而是使用扩散模型本身的先验,创建了依赖于提示和种子的布局。在两个基准数据集上评估,我们发现 CountGen 明显优于现有基线的计数准确性。
我们引入了一个新的基准测试,名为ChartMimic,旨在评估大型多模态模型(LMMs)的视觉基础代码生成能力。ChartMimic利用信息密集型的视觉图表和文本指令作为输入,要求LMMs生成用于图表呈现的相应代码。ChartMimic包括1,000个人工策划的(图表,指令,代码)三元组,代表了科学论文中各个领域(例如物理学,计算机科学,经济学等)中发现的真实图表用例。这些图表涵盖了18种常规类型和4种高级类型,分为191个子类别。此外,我们提出了多级评估指标,以对输出代码和呈现的图表进行自动和全面的评估。与现有的代码生成基准测试不同,ChartMimic侧重于评估LMMs协调一系列认知能力的能力,包括视觉理解、代码生成和跨模态推理。对3个专有模型和11个开放权重模型的评估突显了ChartMimic带来的重大挑战。即使是先进的GPT-4V,Claude-3-opus仅分别达到73.2和53.7的平均分,表明有很大的改进空间。我们预计ChartMimic将激发LMMs的发展,推动人工通用智能的追求。
随着多模态大型语言模型(MLLMs)的快速发展,它们的评估变得日益全面。然而,作为现实世界应用的基础能力,理解长篇多模态内容仍未得到充分探讨。在这项工作中,我们提出了“多模态中的一根稻草”(MM-NIAH),这是第一个专门设计用于系统评估现有MLLMs理解长篇多模态文档能力的基准。我们的基准包括三种类型的评估任务:多模态检索、计数和推理。在每个任务中,模型需要根据给定多模态文档中分散的不同关键信息来回答问题。通过在MM-NIAH上评估领先的MLLMs,我们观察到现有模型在这些任务上仍有显著改进空间,特别是在以视觉为中心的评估上。我们希望这项工作能为长篇多模态文档理解的进一步研究提供平台,并促进MLLMs的发展。代码和基准可在https://github.com/OpenGVLab/MM-NIAH找到。
近年来,大型语言模型(LLMs)的输入上下文大小急剧增加。然而,现有的评估方法没有跟上步伐,未能全面评估模型处理长上下文的效率。为弥补这一差距,我们引入了BABILong基准,旨在测试语言模型在处理分布在极长文档中的事实时推理的能力。BABILong包括一系列多样的20个推理任务,包括事实链接、简单归纳、演绎、计数以及处理列表/集合。这些任务本身就具有挑战性,当所需事实分散在长篇自然文本中时,变得更加困难。我们的评估表明,流行的LLMs仅有效利用10-20\%的上下文,并且随着推理复杂性的增加,它们的性能急剧下降。在与上下文无关的推理替代方法中,检索增强生成方法在单事实问题回答方面达到了60\%的准确率,与上下文长度无关。在上下文扩展方法中,循环记忆变压器展现了最佳性能,能够处理长达1100万标记的长度。BABILong基准可扩展到任意长度,以支持评估具有增强功能的新模型,并提供长达100万标记长度的数据集。
东南亚(SEA)是一个语言多样性和文化多样性丰富的地区,拥有超过1,300种土著语言和6.71亿人口。然而,目前的人工智能模型在东南亚地区的文本、图像和音频数据集方面存在严重的代表性不足,影响了用于东南亚语言的人工智能模型的质量。由于高质量数据集的稀缺性,再加上英语训练数据的主导地位,评估东南亚语言的模型具有挑战性,引发了潜在的文化误代表的担忧。为了解决这些挑战,我们推出了SEACrowd,这是一个协作倡议,整合了一个全面的资源中心,通过提供近1,000种东南亚语言的标准语料库,填补了资源空缺。通过我们的SEACrowd基准测试,我们评估了36种土著语言在13项任务上的人工智能模型质量,为了解东南亚当前人工智能格局提供了宝贵的见解。此外,我们提出了促进更大人工智能进步的策略,最大限度地发挥东南亚地区人工智能未来的潜在效用和资源公平性。
图文交错数据由多个图像和文本组成,以自然文档格式排列,符合互联网数据的呈现范式,并与人类阅读习惯密切相关。最近的研究表明,这种数据有助于多模态上下文学习,并在多模态微调期间保持大型语言模型的能力。然而,当前图文交错数据的规模和多样性有限,限制了多模态大型语言模型的发展。在本文中,我们介绍了OmniCorpus,一个规模达100亿的图文交错数据集。利用高效的数据引擎,我们过滤和提取大规模高质量文档,其中包含了86亿张图像和1696亿个文本标记。与同行(例如MMC4、OBELICS)相比,我们的数据集1)规模大15倍,同时保持良好的数据质量;2)具有更多样化的来源,包括英语和非英语网站以及以视频为中心的网站;3)更加灵活,可以轻松地从图文交错格式降级为纯文本语料库和图文对。通过全面的分析和实验,我们验证了所提出数据集的质量、可用性和有效性。我们希望这能为未来多模态模型研究提供坚实的数据基础。代码和数据已发布在https://github.com/OpenGVLab/OmniCorpus。
智能手机用户经常在多个应用程序之间导航,以完成诸如在社交媒体平台之间共享内容之类的任务。自主图形用户界面(GUI)导航代理可以通过简化工作流程和减少手动干预来增强用户在通信、娱乐和生产力方面的体验。然而,先前的GUI代理通常是使用包含可在单个应用程序内完成的简单任务的数据集进行训练的,导致在跨应用程序导航方面表现不佳。为解决这一问题,我们引入了GUI Odyssey,这是一个用于训练和评估跨应用程序导航代理的全面数据集。GUI Odyssey包括来自6部移动设备的7,735个情节,涵盖6种跨应用程序任务、201个应用程序和1.4K个应用程序组合。利用GUI Odyssey,我们通过使用历史重采样模块对Qwen-VL模型进行微调,开发了OdysseyAgent,一个多模式跨应用程序导航代理。大量实验表明,与现有模型相比,OdysseyAgent具有更高的准确性。例如,OdysseyAgent在领域内准确性方面超过了微调的Qwen-VL和零样本GPT-4V分别为1.44\%和55.49\%,在领域外准确性方面分别为2.29\%和48.14%。数据集和代码将在https://github.com/OpenGVLab/GUI-Odyssey发布。
最近,Glyph-ByT5 在图形设计图像中实现了高度准确的视觉文本呈现性能。然而,它仍然仅专注于英语,在视觉吸引力方面表现相对较差。在这项工作中,我们通过提出 Glyph-ByT5-v2 和 Glyph-SDXL-v2 来解决这两个基本限制,这两者不仅支持 10 种不同语言的准确视觉文本呈现,还实现了更好的美学质量。为了实现这一目标,我们做出了以下贡献:(i) 创建了一个高质量的多语言字形文本和图形设计数据集,包括超过 100 万个字形文本对和 1000 万个图形设计图像文本对,涵盖了其他九种语言,(ii) 建立了一个多语言视觉段落基准,包括 1000 个提示,每种语言有 100 个,用于评估多语言视觉拼写准确性,以及 (iii) 利用最新的步骤感知偏好学习方法来增强视觉美学质量。通过结合这些技术,我们提供了一个强大的定制多语言文本编码器 Glyph-ByT5-v2,以及一个强大的美学图形生成模型 Glyph-SDXL-v2,可以支持 10 种不同语言的准确拼写。考虑到最新的 DALL-E3 和 Ideogram 1.0 仍然在多语言视觉文本呈现任务中遇到困难,我们认为我们的工作是一项重大进步。
最近开发的大型语言模型(LLMs)如ChatGPT、Claude和Llama展示了令人印象深刻的能力,甚至在几项任务中超越了人类水平的表现。尽管取得成功,但这些模型对资源的需求巨大,需要大量的计算资源用于训练和推断,限制了它们只能部署在高性能服务器上。此外,模型的广泛计算需求通常会导致响应时间延迟增加。随着对LLMs在CPU上高效运行的需求日益增加,出现了针对CPU推断进行优化的轻量级模型的研究。在这项工作中,我们介绍了GEB-1.3B,这是一个在中文和英文语言中训练的轻量级LLM,训练了5500亿个标记。我们采用了包括ROPE、Group-Query-Attention和FlashAttention-2在内的新颖训练技术,加速训练同时保持模型性能。此外,我们使用了1000万个指令数据样本对模型进行微调以增强对齐性。GEB-1.3B在MMLU、C-Eval和CMMLU等通用基准测试中表现出色,优于MindLLM-1.3B和TinyLLaMA-1.1B等比较模型。值得注意的是,GEB-1.3B的FP32版本在CPU上取得了可观的推断时间,正在通过先进的量化技术进一步提高速度。GEB-1.3B作为开源模型的发布对轻量级LLMs的发展做出了重要贡献,有望促进该领域的进一步研究和创新。
我们提出了一种无需训练且稳健的解决方案,为现成视频扩散模型提供摄像机运动控制。与先前的工作不同,我们的方法不需要在摄像机标注数据集上进行监督微调或通过数据增强进行自监督训练。相反,它可以与大多数预训练视频扩散模型连接并使用单个图像或文本提示生成可控摄像机的视频。我们工作的灵感来自中间潜变量对生成结果的布局先验,因此重新排列其中的噪声像素将使输出内容重新分配。由于摄像机移动也可以看作是由透视变化引起的一种像素重新排列,如果它们的噪声潜变量相应地改变,视频也可以根据特定的摄像机运动重新组织。基于此,我们提出了我们的方法CamTrol,实现了对视频扩散模型的稳健摄像机控制。这是通过两阶段过程实现的。首先,我们通过在3D点云空间中的显式摄像机移动来建模图像布局重新排列。其次,我们使用由一系列重新排列的图像形成的噪声潜变量的布局先验生成具有摄像机运动的视频。大量实验证明了我们的方法在控制生成视频的摄像机运动方面所具有的稳健性。此外,我们展示了我们的方法在生成具有动态内容的3D旋转视频方面能够产生令人印象深刻的结果。项目页面位于https://lifedecoder.github.io/CamTrol/。
对话式LLM作为黑盒系统运作,让用户猜测为什么会看到特定的输出。这种缺乏透明度可能会带来问题,尤其是考虑到对偏见和真实性的担忧。为了解决这个问题,我们提出了一个端到端的原型,将可解释性技术与用户体验设计相结合,旨在使聊天机器人更加透明。我们首先展示了一个知名开源LLM存在“用户模型”的证据:通过检查系统的内部状态,我们可以提取与用户年龄、性别、教育水平和社会经济地位相关的数据。接下来,我们描述了一个仪表板的设计,该仪表板与聊天机器人界面相配合,实时显示这个用户模型。该仪表板还可以用于控制用户模型和系统的行为。最后,我们讨论了一个用户与被仪器化系统对话的研究。我们的结果表明,用户喜欢看到内部状态,这有助于他们揭示偏见行为并增强他们的控制感。参与者还提出了宝贵的建议,指向设计和机器学习研究的未来方向。我们的TalkTuner系统的项目页面和视频演示可在https://bit.ly/talktuner-project-page找到。
图形用户界面(GUI)自动化在提高人类生产力方面具有重要潜力,通过协助完成计算机任务。现有任务制定主要集中在可以通过单个仅包含语言指令来指定的简单任务上,例如“插入新幻灯片”。在这项工作中,我们引入了VideoGUI,这是一个新颖的多模态基准,旨在评估视觉为中心的GUI任务上的GUI助手。我们的基准源自高质量的网络教学视频,重点关注涉及专业和新颖软件(例如Adobe Photoshop或Stable Diffusion WebUI)以及复杂活动(例如视频编辑)的任务。VideoGUI通过分层过程评估GUI助手,允许识别它们可能失败的具体级别:(i)高级规划:从视觉条件中重建程序性子任务,而无需语言描述;(ii)中级规划:根据视觉状态(即屏幕截图)和目标生成精确动作序列的动作叙述;(iii)原子动作执行:执行诸如准确点击指定元素之类的具体动作。对于每个级别,我们设计了跨个别维度的评估指标,以提供清晰的信号,例如在原子动作执行中点击、拖动、输入和滚动的个别性能。我们在VideoGUI上的评估显示,即使是SoTA大型多模态模型GPT4o在视觉为中心的GUI任务上表现不佳,特别是在高级规划方面。
最近的文本到视频(T2V)技术进展,如Gen2、Pika和Sora等模型所展示的,显著拓宽了其适用性和受欢迎程度。尽管取得了这些进展,评估这些模型仍然面临重大挑战。主要原因是由于自动度量的局限性,手动评估通常被认为是评估T2V生成的一种更优越方法。然而,现有的手动评估协议存在再现性、可靠性和实用性问题。为了解决这些挑战,本文介绍了文本到视频人工评估(T2VHE)协议,这是一种全面且标准化的T2V模型评估协议。T2VHE协议包括明确定义的度量标准、全面的标注者培训以及有效的动态评估模块。实验结果表明,该协议不仅确保了高质量的标注,还可以将评估成本降低近50%。我们将开源T2VHE协议的整个设置,包括完整的协议工作流程、动态评估组件细节以及标注界面代码。这将有助于社区建立更复杂的人工评估协议。
大型语言模型可能会记忆并重复其训练数据,从而带来隐私和版权风险。为了减轻记忆问题,我们引入了一种微妙的修改,称为金鱼损失,应用于下一个标记的训练目标。在训练过程中,从损失计算中排除了随机抽样的一部分标记。这些被丢弃的标记不会被模型记忆,从而防止完全重复训练集中一整个标记链。我们进行了大量实验,训练了十亿规模的 Llama-2 模型,包括预训练和从头开始训练的模型,并展示了可提取记忆的显著减少,对下游基准测试几乎没有影响。
虽然扩散模型在二维图像/视频生成方面表现出色,基于扩散的文本到多视角视频(T2MVid)生成仍未得到充分探索。T2MVid生成带来的新挑战在于缺乏大规模带字幕的多视角视频以及对这种多维分布进行建模的复杂性。为此,我们提出了一种新颖的基于扩散的流程,该流程生成以文本为中心的高质量多视角视频,围绕动态的三维对象。具体而言,我们将T2MVid问题分解为视角空间和时间组件。这种分解使我们能够结合和重复使用先进的预训练多视角图像和二维视频扩散模型的层,以确保生成的多视角视频具有多视角一致性和时间连贯性,大大降低了训练成本。我们进一步引入对齐模块,以对齐来自预训练多视角和二维视频扩散模型的层的潜在空间,解决了由于二维和多视角数据之间的领域差异而产生的重复使用层的不兼容性。为支持当前和未来研究,我们还贡献了一个带字幕的多视角视频数据集。实验结果表明,我们的方法生成了高质量的多视角视频,展现出生动的动作、时间连贯性和多视角一致性,对各种文本提示作出响应。
新颖视角声学合成(NVAS)旨在在给定三维场景中声源发出的单声道音频的情况下,在任何目标视点生成双耳音频。现有方法提出了基于NeRF的隐式模型,以利用视觉线索作为合成双耳音频的条件。然而,除了由于繁重的NeRF渲染而导致的低效率外,这些方法都具有对整个场景环境(如房间几何形状、材料属性以及听者和声源之间的空间关系)进行表征的能力有限。为了解决这些问题,我们提出了一种新颖的音频-视觉高斯飞溅(AV-GS)模型。为了获得用于音频合成的材料感知和几何感知条件,我们学习了一个显式基于点的场景表示,其中包括一个音频引导参数,该参数在局部初始化的高斯点上考虑了听者和声源之间的空间关系。为了使视觉场景模型具有音频自适应性,我们提出了一种点密集化和修剪策略,以最佳方式分布高斯点,每个点在声音传播中的贡献(例如,对于无纹理墙面,需要更多点,因为它们会影响声音路径的偏离)。大量实验证实了我们的AV-GS在真实世界的RWAS和基于模拟的SoundSpaces数据集上优于现有替代方案。
在这项工作中,我们研究如何构建一个机器人系统,可以根据语言指令解决多个3D操作任务。为了在工业和家庭领域有用,这样一个系统应该能够通过少量演示学习新任务并精确解决它们。之前的作品,如PerAct和RVT,已经研究了这个问题,然而,它们通常在需要高精度的任务上遇到困难。我们研究如何使它们更加有效、精确和快速。通过结构和系统级别的改进相结合,我们提出了RVT-2,一个多任务3D操作模型,训练速度比其前身RVT快6倍,推理速度快2倍。RVT-2在RLBench上取得了新的最先进水平,将成功率从65%提高到82%。RVT-2在现实世界中也很有效,它可以通过仅仅10次演示学习需要高精度的任务,比如拾取和插入插头。视觉结果、代码和训练模型可在以下网址找到:https://robotic-view-transformer-2.github.io/。
从低分辨率输入视图实现高分辨率新视角合成(HRNVS)是一项具有挑战性的任务,因为缺乏高分辨率数据。先前的方法优化了从低分辨率输入视图到高分辨率神经辐射场(NeRF),但渲染速度较慢。在这项工作中,我们基于3D高斯飞溅(3DGS)的方法,因为它能够以更快的渲染速度生成高质量图像。为了缓解用于更高分辨率合成的数据短缺问题,我们提出利用现成的2D扩散先验,通过得分蒸馏采样(SDS)将2D知识提炼到3D中。然而,将SDS直接应用于基于高斯的3D超分辨率会导致不受欢迎和冗余的3D高斯基元,这是由生成先验带来的随机性所致。为了减轻这个问题,我们引入了两种简单而有效的技术来减少SDS引入的随机干扰。具体来说,我们1)通过一个退火策略缩小SDS中扩散时间步的范围;2)在致密化过程中随机丢弃冗余的高斯基元。大量实验证明,我们提出的GaussainSR能够在合成和真实数据集上仅通过低分辨率输入实现HRNVS的高质量结果。项目页面:https://chchnii.github.io/GaussianSR/
这篇综述论文全面概述了印度语系语言中大型语言模型(LLM)的研究方向。印度语系语言指的是在印度次大陆地区使用的语言,包括印度、巴基斯坦、孟加拉国、斯里兰卡、尼泊尔和不丹等国。这些语言拥有丰富的文化和语言遗产,全球有超过15亿人口使用这些语言。随着自然语言处理(NLP)应用在多种语言中的巨大市场潜力和需求不断增长,印度语系语言的生成应用为研究提供了独特的挑战和机遇。我们的论文深入探讨了印度语系生成建模的最新进展,提供了一个研究方向分类法,并列出了84篇近期出版物。本文调查的研究方向包括LLM开发、微调现有LLM、语料库开发、基准测试和评估,以及围绕特定技术、工具和应用的出版物。我们发现,各个出版物中的研究人员都强调了有限数据可用性、缺乏标准化以及印度语系语言的独特语言复杂性所带来的挑战。这项工作旨在成为从事NLP领域研究和实践的研究人员的宝贵资源,尤其是那些专注于印度语系语言的人,并为开发更准确高效的LLM应用程序提供支持。
我们提出了MaskLID,这是一种简单而有效的代码切换(CS)语言识别(LID)方法。MaskLID无需任何训练,旨在补充当前高性能的句子级别LID。句子级别的LID是在单语文本上训练的分类器,提供单一标签,通常使用softmax层将分数转换为概率。然而,在句子同时包含L1和L2语言的情况下,LID分类器通常只返回主导标签L1。为解决这一局限性,MaskLID采用一种策略来掩盖与L1相关的文本特征,使LID能够在下一轮将文本分类为L2。该方法利用LID本身来识别需要掩盖的特征,不依赖于任何外部资源。在这项工作中,我们探讨了将MaskLID用于两个基于FastText架构的开源LID(GlotLID和OpenLID)。代码和演示可在https://github.com/cisnlp/MaskLID找到。