每日精选AI研究论文及翻译
我们提出了Sapiens,这是一组用于四项基本以人为中心的视觉任务的模型 - 2D姿势估计、身体部位分割、深度估计和表面法线预测。我们的模型原生支持1K高分辨率推断,并且通过简单地微调在超过3亿张野外人类图像上预训练的模型,非常容易适应个别任务。我们观察到,在相同的计算预算下,对经过筛选的人类图像数据集进行自监督预训练显著提升了多样的以人为中心的任务性能。由此产生的模型在野外数据上表现出显著的泛化能力,即使标记数据稀缺或完全是合成的情况下也是如此。我们简单的模型设计还带来了可扩展性 - 随着参数数量从0.3扩展到20亿,模型在各项任务上的性能都得到了提升。Sapiens在各种以人为中心的基准测试中始终优于现有基准。我们在Humans-5K(姿势)上相对于之前的最先进技术实现了7.6 mAP的显著改进,在Humans-2K(部分分割)上相对于之前的最先进技术实现了17.1 mIoU的显著改进,在Hi4D(深度)上相对根均方误差提高了22.4%,在THuman2(法线)上相对角度误差提高了53.5%。
在自然语言处理(NLP)中,大型语言模型(LLMs)展示了高质量的文本生成能力。然而,在现实应用中,LLMs必须满足日益复杂的要求。除了避免误导性或不当内容外,LLMs还被期望满足特定用户需求,比如模仿特定的写作风格或生成具有诗意丰富性的文本。这些多样化的需求推动了可控文本生成(CTG)技术的发展,确保输出符合预定义的控制条件,如安全性、情感、主题一致性和语言风格,同时保持高水准的帮助性、流畅性和多样性。 本文系统地审视了LLMs的CTG的最新进展,提供了其核心概念的全面定义,并澄清了控制条件和文本质量的要求。我们将CTG任务分为两种主要类型:内容控制和属性控制。讨论了关键方法,包括模型重新训练、微调、强化学习、提示工程、潜在空间操作和解码时干预。我们分析了每种方法的特点、优势和局限性,为实现生成控制提供了细致的见解。此外,我们审查了CTG评估方法,总结了其在各领域的应用,并解决了当前研究中的关键挑战,包括流畅性和实用性的降低。我们还提出了几点建议,如在未来研究中更加重视实际应用。本文旨在为该领域的研究人员和开发人员提供有价值的指导。我们的参考文献列表和中文版本均已在https://github.com/IAAR-Shanghai/CTGSurvey 开源。
大型语言模型(LLMs)已经在金融应用方面取得了进展,但它们通常缺乏足够的金融知识,并且在涉及表格和时间序列数据等多模态输入的任务中表现不佳。为了解决这些限制,我们引入了Open-FinLLMs,一系列金融LLMs。我们首先介绍了FinLLaMA,它在一个包含520亿个标记的金融语料库上进行了预训练,结合了文本、表格和时间序列数据,以嵌入全面的金融知识。然后,我们对FinLLaMA进行了573K个金融指令的指导微调,得到了FinLLaMA-instruct,从而提高了任务性能。最后,我们提出了FinLLaVA,这是一个多模态LLM,通过1.43M个图像文本指令进行训练,以处理复杂的金融数据类型。广泛的评估显示,FinLLaMA在19个数据集和4个数据集上的零样本和少样本设置中,表现优于LLaMA3-8B、LLaMA3.1-8B和BloombergGPT。FinLLaMA-instruct在15个数据集上的表现优于GPT-4和其他金融LLMs。FinLLaVA在4个多模态任务中在理解表格和图表方面表现出色。此外,FinLLaMA在交易模拟中实现了令人印象深刻的夏普比率,突显了其强大的金融应用能力。我们将不断维护和改进我们的模型和基准,以支持学术界和行业中持续创新。
指导(或“聊天”)微调模型已成为大多数人与大型语言模型互动的主要方式。与“基础”或“基础”模型相反,指导微调模型被优化以响应命令性语句。我们介绍Hermes 3,一个中立对齐的通用指导和工具使用模型,具有强大的推理和创造能力。其最大版本Hermes 3 405B 在几个公共基准测试中实现了开放权重模型的最新性能。
我们提出了一个统一的Transformer,即Show-o,它统一了多模态理解和生成。与完全自回归模型不同,Show-o将自回归和(离散)扩散建模统一起来,以自适应地处理各种和混合模态的输入和输出。这个统一模型灵活地支持广泛的视觉-语言任务,包括视觉问答、文本到图像生成、文本引导的修复/外推,以及混合模态生成。在各种基准测试中,它展现出与现有个别模型相当或更优越的性能,而这些个别模型具有相同或更多参数,专门用于理解或生成。这明显突显了它作为下一代基础模型的潜力。代码和模型已发布在https://github.com/showlab/Show-o。
我们提出了xGen-VideoSyn-1,这是一个文本到视频(T2V)生成模型,能够从文本描述中生成逼真的场景。借鉴了最近的进展,如OpenAI的Sora,我们探索了潜在扩散模型(LDM)架构,并引入了视频变分自动编码器(VidVAE)。VidVAE在空间和时间上压缩视频数据,显著减少了视觉标记的长度和生成长序列视频所需的计算需求。为了进一步解决计算成本,我们提出了一个分割和合并策略,以保持视频片段之间的时间一致性。我们的扩散Transformer(DiT)模型融合了空间和时间自注意力层,实现了在不同时间范围和宽高比之间的强大泛化能力。我们从一开始设计了数据处理流水线,并收集了超过1300万高质量的视频文本对。该流水线包括多个步骤,如剪辑、文本检测、运动估计、美学评分,以及基于我们内部视频-LLM模型的密集字幕生成。训练VidVAE和DiT模型分别需要约40和642个H100天。我们的模型支持端到端的超过14秒720p视频生成,并展示了与最先进的T2V模型相竞争的性能。
我们提出了Jamba-1.5,这是基于我们的Jamba架构的新型指令调优大型语言模型。Jamba是一种混合Transformer-Mamba专家混合体架构,能够在各种上下文长度下提供高吞吐量和低内存使用,同时保持与Transformer模型相同或更好的质量。我们发布了两种模型规格:Jamba-1.5-Large,具有94B活跃参数,以及Jamba-1.5-Mini,具有12B活跃参数。这两种模型都经过微调,用于各种对话和指令遵循能力,并且具有256K标记的有效上下文长度,是开放权重模型中最大的。为了支持具有成本效益的推理,我们引入了ExpertsInt8,这是一种新颖的量化技术,允许在处理256K标记上下文时将Jamba-1.5-Large适配到一台配备8个80GB GPU的机器上,而不会损失质量。在一系列学术和聊天机器人基准测试中进行评估时,Jamba-1.5模型取得了出色的结果,同时提供了高吞吐量,并在长上下文基准测试中胜过其他开放权重模型。这两种规格的模型权重均在Jamba开放模型许可下公开提供,我们也将ExpertsInt8作为开源发布。
我们正处于数字媒体蓬勃发展的时代,在这个时代,每个人都有可能成为个人电影制作人。关于电影风格转移的当前研究赋予电影制作人重新制作和操纵经典镜头中的视觉元素(如摄影和角色行为)的能力。然而,重新想象电影中的角色仍然依赖于手工制作,这涉及到重要的技术复杂性和高成本,使普通用户难以实现。此外,由于对帧间运动的捕捉不足和物理轨迹建模不足,他们估计的摄影术缺乏流畅性。幸运的是,2D和3D人工智能生成角色(AIGC)取得了显著成功,为高效生成符合用户需求的角色、丰富摄影术打开了可能性。在本文中,我们提出了DreamCinema,这是一个开创性地将生成式人工智能引入电影制作范式的新型电影风格转移框架,旨在促进用户友好的电影创作。具体而言,我们首先提取电影元素(即人类和摄像机姿势)并优化摄像机轨迹。然后,我们应用一个角色生成器高效地创建具有人类结构先验的3D高质量角色。最后,我们开发了一个结构引导的运动转移策略,将生成的角色整合到电影创作中,并通过3D图形引擎平稳地转移。大量实验证明了我们的方法在创建具有自由摄像机和3D角色的高质量电影方面的有效性。
嵌入模型在自然语言处理(NLP)中扮演着关键角色,通过创建文本嵌入来支持各种任务,如信息检索和评估语义文本相似性。本文专注于俄语领域的嵌入模型研究。介绍了一种新的俄语专用嵌入模型,名为ru-en-RoSBERTa,以及ruMTEB基准,是Massive Text Embedding Benchmark(MTEB)的俄语版本扩展。我们的基准包括七类任务,如语义文本相似性、文本分类、重新排序和检索等。研究还评估了一组代表性的俄语和多语言模型在提出的基准上的表现。研究结果表明,新模型在俄语领域的表现与最先进模型持平。我们发布了ru-en-RoSBERTa模型,ruMTEB框架附带开源代码、集成到原始框架以及公开排行榜。
我们介绍了AiM,这是一种基于Mamba架构的自回归(AR)图像生成模型。AiM采用了Mamba,这是一种新颖的状态空间模型,以其在具有线性时间复杂度的长序列建模中表现出色,取代了AR图像生成模型中常用的Transformer,旨在实现更优越的生成质量和增强的推理速度。与现有方法通过多方向扫描来调整Mamba以处理二维信号不同,AiM直接利用了下一个标记预测范式用于自回归图像生成。这种方法避免了需要进行大量修改以使Mamba学习2D空间表示的必要性。通过为视觉生成任务实施简单但具有战略目标的修改,我们保留了Mamba的核心结构,充分利用其高效的长序列建模能力和可扩展性。我们提供了各种规模的AiM模型,参数数量从148M到1.3B不等。在ImageNet1K 256*256基准测试中,我们最佳的AiM模型实现了2.21的FID,超越了所有具有相似参数数量的现有AR模型,并展示了与扩散模型的显著竞争力,推理速度快2到10倍。代码可在https://github.com/hp-l33/AiM获取。
在本报告中,我们介绍了Vintern-1B,这是一个可靠的10亿参数的多模态大型语言模型(MLLM),用于越南语任务。通过将Qwen2-0.5B-Instruct语言模型与InternViT-300M-448px视觉模型相结合,Vintern-1B针对一系列应用进行了优化,包括光学字符识别(OCR)、文档提取以及越南语境下的一般问答。该模型在超过300万个图像-问题-答案对的大型数据集上进行了微调,实现了强大的性能,并在多个越南语基准测试中取得可靠的结果,如OpenViVQA和ViTextVQA。Vintern-1B体积较小,易于适配各种设备应用。此外,我们还开源了几个越南语视觉问答(VQA)数据集,涵盖文本和图表,使用了Gemini 1.5 Flash创建。我们的模型可在以下链接获取:https://huggingface.co/5CD-AI/Vintern-1B-v2。
我们提出了金字塔注意力广播(PAB),这是一种基于DiT的视频生成的实时、高质量且无需训练的方法。我们的方法基于这样一个观察:扩散过程中的注意力差异呈现出U形模式,表明存在显著的冗余性。我们通过以金字塔样式将注意力输出广播到后续步骤来缓解这一问题。针对每种基于注意力的广播,我们应用不同的广播策略以获得最佳效率,根据它们的方差进行调整。我们进一步引入了广播序列并行以实现更高效的分布式推理。与基准模型相比,PAB在三个模型上展现出卓越的结果,实现了高达720p视频的实时生成。我们期待,我们这种简单而有效的方法将作为一个稳健的基准,并促进未来视频生成研究和应用。
本文提出了一种名为Strategist的新方法,利用LLM来通过自我改进过程获取在多智能体游戏中发挥新技能的能力。我们的方法通过自我对弈模拟和基于Monte Carlo树搜索和LLM反思来收集高质量反馈,然后利用这些反馈来学习高级战略技能,比如如何评估指导低级执行的状态。我们展示了我们的方法如何在游戏行动规划和对话生成中发挥作用,在这些任务中取得了良好的表现。具体来说,我们证明了我们的方法可以帮助训练出表现优于传统基于强化学习方法和其他基于LLM技能学习方法的代理的代理,在包括纯策略博弈(GOPS)和《抵抗组织:阿瓦隆》在内的游戏中。
大规模视觉-语言模型(LVLMs)在文本对齐的视觉输入方面取得了显著进展。通过将文本模态与视觉输入对齐,它们在计算机视觉任务中取得了显著进展。还有一些尝试将多种视觉传感器整合到RGB之外,包括热像、深度和医学X射线图像。然而,我们观察到当前的LVLMs将来自多视觉传感器的图像视为在相同的RGB域中,而没有考虑多视觉传感器的物理特性。它们未能充分传达数据集中来自基本多视觉传感器的信息以及相应的上下文知识。因此,实际物理环境中的信息与文本之间的对齐没有正确实现,导致难以回答考虑物理环境的复杂传感器相关问题。在本文中,我们旨在建立一个名为SPARK的多视觉传感器感知和推理基准,以减少图像与多视觉传感器之间的基本信息差距。我们自动生成了6,248个视觉-语言测试样本,以研究多视觉感知和多视觉推理对不同格式的物理传感器知识熟练度的影响,涵盖了不同类型的传感器相关问题。我们利用这些样本评估了十个领先的LVLMs。结果显示,大多数模型在多视觉推理方面存在不同程度的缺陷。代码和数据可在https://github.com/top-yun/SPARK获取。
大型语言模型(LLMs)在许多学科取得了令人瞩目的进展,然而知识冲突这一重要问题,作为幻觉的主要来源,却鲜有研究。只有少数研究探讨了LLMs固有知识与检索到的上下文知识之间的冲突。然而,对LLMs中知识冲突的彻底评估仍然缺失。受到这一研究空白的启发,我们提出ConflictBank,这是第一个全面的基准,旨在系统评估三个方面的知识冲突:(i)检索到的知识中遇到的冲突,(ii)模型编码知识内部的冲突,以及(iii)这些冲突形式之间的相互作用。我们的调查深入研究了四个模型系列和十二个LLM实例,精心分析了由错误信息、时间差异和语义分歧引起的冲突。基于我们提出的新颖构建框架,我们创建了7,453,853个主张-证据对和553,117个问答对。我们提出了关于模型规模、冲突原因和冲突类型的许多发现。我们希望我们的ConflictBank基准能够帮助社区更好地理解模型在冲突中的行为,并开发更可靠的LLMs。
最近,多模态大型语言模型(MLLMs)展示了出色的感知和推理能力,通常由视觉编码器、适配器和大型语言模型(LLM)组成。适配器作为视觉和语言组件之间的关键桥梁。然而,使用图像级监督训练适配器通常会导致显著的不对齐,削弱了LLMs的能力并限制了多模态LLMs的潜力。为了解决这个问题,我们引入了监督嵌入对齐(SEA),这是一种利用视觉-语言预训练模型(如CLIP)的标记级对齐方法,通过对比学习将视觉标记与LLM的嵌入空间对齐。这种方法确保了视觉和语言表示的更一致整合,增强了多模态LLMs的性能和可解释性,同时保留了它们固有的能力。大量实验证明,SEA有效地改善了MLLMs,特别是对于较小的模型,而无需增加额外的数据或推理计算。SEA还为开发更通用和适应性强的解决方案以增强多模态系统奠定了基础。
传统的动画生成方法依赖于使用人工标记数据训练生成模型,这需要一个复杂的多阶段流程,需要大量人力投入并产生高昂的训练成本。由于受限于提示计划,这些方法通常生成简短、信息贫乏和上下文不连贯的动画。为了克服这些限制并自动化动画制作过程,我们首次引入了大型多模态模型(LMMs)作为核心处理器,构建了一个名为Anim-Director的自主动画制作代理。该代理主要利用LMMs和生成式人工智能工具的先进理解和推理能力,从简明的叙述或简单的指令中创建动画视频。具体而言,它分为三个主要阶段:首先,Anim-Director从用户输入生成连贯的故事情节,然后是详细的导演剧本,包括角色概况和内外部描述,以及上场角色、内部或外部环境和情境连贯的场景描述。其次,我们利用LMMs和图像生成工具生成设置和场景的视觉图像。这些图像经过设计,使用视觉语言提示方法结合场景描述和出现的角色和环境的图像,以保持不同场景之间的视觉一致性。第三,场景图像作为生成动画视频的基础,LMMs生成提示来指导这一过程。整个过程明显是自主的,无需手动干预,因为LMMs与生成工具无缝交互,生成提示,评估视觉质量,并选择最佳提示以优化最终输出。
由散射材料制成的物体的3D重建和重照提出了重大挑战,因为表面下的光传输复杂。3D高斯飞溅技术以实时速度引入了高质量的新视角合成。尽管3D高斯方法有效地近似了物体表面,但未能捕捉到表面下散射的体积特性。我们提出了一个框架,通过多视角OLAT(一次一个光源)数据,优化物体的形状和辐射传输场。我们的方法将场景分解为显式表面(以3D高斯表示)和空间变化的BRDF,以及散射组件的隐式体积表示。一个学习到的入射光场考虑了阴影。我们通过射线追踪可微渲染联合优化所有参数。我们的方法实现了材料编辑、重照和新视角合成,并以交互速率展示。我们展示了在合成数据上的成功应用,并介绍了在灯光舞台设置中获取的新的多视角多光源数据集。与先前工作相比,我们在一小部分优化和渲染时间内实现了可比或更好的结果,同时实现了对材料属性的详细控制。项目页面:https://sss.jdihlmann.com/
混合音合成对多媒体制作至关重要,通过在时间和语义上同步音频和视频,增强用户体验。最近关于通过视频生成音频自动化这一劳动密集型过程的研究面临着重大挑战。缺乏明确时间特征的系统容易导致控制性和对齐性不佳,而基于时间戳的模型则需要昂贵且主观的人工标注。我们提出了Video-Foley,这是一个使用均方根(RMS)作为时间事件条件的视频到音频系统,配合语义音色提示(音频或文本)。RMS是一个与音频语义密切相关的帧级强度包络特征,确保了高度的可控性和同步性。这种无需注释的自监督学习框架包括两个阶段,Video2RMS 和 RMS2Sound,融合了包括RMS离散化和带有预训练文本到音频模型的RMS-ControlNet 在内的新颖思想。我们进行了广泛的评估,结果显示Video-Foley 在声音时间、强度、音色和细微差别的音频-视觉对齐和可控性方面取得了最先进的性能。代码、模型权重和演示可在附带网站上找到。(https://jnwnlee.github.io/video-foley-demo)
鉴于社交媒体上虚假信息的广泛传播,实施针对在线声明的事实核查机制至关重要。手动验证每一项声明具有极高的挑战性,突显了自动事实核查系统的必要性。本文介绍了我们设计的旨在解决这一问题的系统。我们利用Averitec数据集评估声明的真实性。除了真实性预测外,我们的系统还提供从数据集中提取的支持证据。我们开发了一个检索和生成(RAG)流程,从知识库中提取相关证据句子,然后将其与声明一起输入到大型语言模型(LLM)进行分类。我们还评估了多个LLM的少样本上下文学习(ICL)能力。我们的系统实现了0.33的“Averitec”得分,比基准线提高了22%。所有代码将在https://github.com/ronit-singhal/evidence-backed-fact-checking-using-rag-and-few-shot-in-context-learning-with-llms 上提供。