每日精选AI研究论文及翻译
我们介绍MiniMax-01系列,包括MiniMax-Text-01和MiniMax-VL-01,这些模型可与顶尖模型相媲美,同时在处理更长上下文方面具有卓越能力。其核心在于闪电注意力及其高效扩展。为了最大化计算能力,我们将其与专家混合(MoE)相结合,创建了一个拥有32位专家和4560亿总参数的模型,其中每个标记激活了459亿个参数。我们开发了一种优化的并行策略和高效的计算-通信重叠技术,用于MoE和闪电注意力。这种方法使我们能够在跨越数百万标记的上下文中进行拥有数千亿参数的模型的高效训练和推断。MiniMax-Text-01的上下文窗口在训练期间可达到100万个标记,并在推断期间以可负担的成本扩展到400万个标记。我们的视觉语言模型MiniMax-VL-01是通过持续训练获得的,包括5120亿视觉语言标记。对标准和内部基准的实验表明,我们的模型与GPT-4o和Claude-3.5-Sonnet等最先进模型的性能相匹配,同时提供20-32倍更长的上下文窗口。我们在https://github.com/MiniMax-AI 上公开发布了MiniMax-01。
MangaNinjia源自扩散模型,专注于参考引导的线条着色任务。我们融合了两种周到的设计,以确保精确的角色细节转录,包括一个补丁重排模块,以促进参考彩色图像与目标线条艺术之间的对应学习,以及一个基于点驱动的控制方案,以实现细粒度的颜色匹配。在自行收集的基准测试上进行的实验表明,我们的模型在精确着色方面优于当前解决方案。我们进一步展示了所提出的交互式点控制在处理具有挑战性的情况,跨角色着色,多参考协调等方面的潜力,超越了现有算法的能力范围。
在文本到图像生成中,对可控输出的需求不断增长,推动了多实例生成(MIG)领域的重大进展,使用户能够定义实例布局和属性。目前,MIG 领域的最先进方法主要基于适配器。然而,这些方法需要每次发布更先进模型时重新训练新的适配器,导致了大量资源消耗。一种名为深度驱动解耦实例合成(3DIS)的方法被提出,将 MIG 分解为两个独立阶段:1)基于深度的场景构建和 2)利用广泛预训练深度控制模型进行细节渲染。3DIS 方法仅在场景构建阶段需要适配器训练,同时使各种模型能够进行无需训练的细节渲染。最初,3DIS 专注于利用 U-Net 架构的渲染技术,如 SD1.5、SD2 和 SDXL,而未探索最近基于 DiT 模型如 FLUX 的潜力。本文介绍了 3DIS-FLUX,这是 3DIS 框架的扩展,集成了 FLUX 模型以增强渲染能力。具体来说,我们采用 FLUX.1-Depth-dev 模型进行深度图控制图像生成,并引入一个细节渲染器,根据布局信息调整 FLUX 联合注意机制中的 Attention Mask。这种方法允许精确渲染每个实例的细粒度属性。我们的实验结果表明,利用 FLUX 模型的 3DIS-FLUX 在性能和图像质量方面优于使用 SD2 和 SDXL 的原始 3DIS 方法,并超越当前最先进的基于适配器的方法。项目页面:https://limuloo.github.io/3DIS/.
我们提出了Omni-RGPT,这是一个多模态大型语言模型,旨在促进对图像和视频的区域级理解。为了实现跨时空维度的一致区域表示,我们引入了Token Mark,一组突出显示视觉特征空间中目标区域的标记。这些标记直接嵌入到空间区域中,使用区域提示(例如,框或蒙版),同时并入文本提示以指定目标,建立视觉和文本标记之间的直接连接。为了进一步支持视频理解而无需轨迹片段,我们引入了一个辅助任务,通过利用标记的一致性来指导Token Mark,实现视频中稳定的区域解释。此外,我们还引入了一个大规模的区域级视频指导数据集(RegVID-300k)。Omni-RGPT在基于图像和视频的常识推理基准上取得了最先进的结果,同时在字幕生成和指代表达理解任务中表现出色。
扩散模型被广泛应用于图像和视频生成,但它们的迭代生成过程缓慢且昂贵。尽管现有的蒸馏方法已经展示了在图像领域进行一步生成的潜力,但它们仍然存在显著的质量下降问题。在这项工作中,我们提出了针对真实数据的对抗后训练(APT),在扩散预训练后用于一步视频生成。为了提高训练稳定性和质量,我们对模型架构和训练程序进行了几项改进,并引入了一个近似的R1正则化目标。从经验上看,我们的实验表明,我们的对抗后训练模型Seaweed-APT能够使用单个前向评估步骤实时生成2秒、1280x720、24fps的视频。此外,我们的模型能够在单个步骤中生成1024像素的图像,实现了与最先进方法相媲美的质量。
文本到图像(T2I)扩散模型依赖编码提示来指导图像生成过程。通常,这些提示通过在文本编码之前添加填充标记来扩展到固定长度。尽管这是一种默认做法,但填充标记对图像生成过程的影响尚未得到研究。在这项工作中,我们进行了对填充标记在T2I模型中扮演角色的首次深入分析。我们开发了两种因果技术来分析信息是如何在T2I流程的不同组件中的标记表示中编码的。利用这些技术,我们调查了填充标记何时以及如何影响图像生成过程。我们的研究结果揭示了三种不同的情况:填充标记可能在文本编码期间影响模型的输出,在扩散过程中产生影响,或者被有效地忽略。此外,我们确定了这些情况与模型架构(跨注意力或自注意力)以及其训练过程(冻结或训练文本编码器)之间的关键关系。这些见解有助于更深入地理解填充标记的机制,可能为T2I系统中未来模型设计和训练实践提供信息。
大型语言模型擅长解释复杂的自然语言指令,使它们能够执行各种任务。在生命科学领域,单细胞RNA测序(scRNA-seq)数据被视为细胞生物学的“语言”,捕捉了单细胞水平上复杂的基因表达模式。然而,通过传统工具与这种“语言”进行交互通常效率低下且不直观,给研究人员带来挑战。为了解决这些限制,我们提出了InstructCell,这是一个多模态人工智能副驾驶,利用自然语言作为更直接和灵活的单细胞分析媒介。我们构建了一个全面的多模态指令数据集,将基于文本的指令与来自不同组织和物种的scRNA-seq文件配对。在此基础上,我们开发了一个多模态细胞语言架构,能够同时解释和处理两种模态。InstructCell使研究人员能够使用简单的自然语言命令完成关键任务,如细胞类型注释、条件伪细胞生成和药物敏感性预测。广泛的评估表明,InstructCell始终达到或超过现有单细胞基础模型的性能,同时适应各种实验条件。更重要的是,InstructCell为探索复杂的单细胞数据提供了一个易于访问和直观的工具,降低了技术门槛,促进了更深入的生物学洞察。
交互式图像编辑允许用户通过视觉交互操作(如绘制、点击和拖动)修改图像。现有方法从视频中构建这些监督信号,因为视频捕捉了物体如何随着各种物理交互而变化。然而,这些模型通常是基于文本到图像扩散模型构建的,因此需要(i)大量训练样本和(ii)额外的参考编码器来学习现实世界的动态和视觉一致性。在本文中,我们将这一任务重新定义为图像到视频生成问题,以继承强大的视频扩散先验,以降低训练成本并确保时间一致性。具体而言,我们介绍了FramePainter作为这一公式的高效实例化。通过稳定视频扩散的初始化,它仅使用轻量级稀疏控制编码器来注入编辑信号。考虑到处理两帧之间大运动的时间注意力的局限性,我们进一步提出匹配注意力以扩大感受野,同时鼓励编辑和源图像标记之间的密集对应。我们强调了FramePainter在各种编辑信号上的有效性和效率:它在远少于训练数据的情况下,显著优于先前的最先进方法,实现了图像的高度无缝和连贯编辑,例如,自动调整杯子的反射。此外,FramePainter在真实世界视频中不存在的场景中也表现出色,例如,将小丑鱼转变成鲨鱼形状。我们的代码将在https://github.com/YBYBZhang/FramePainter 上提供。
我们介绍了PokerBench - 一个用于评估大型语言模型(LLMs)扑克游戏能力的基准。由于LLMs在传统自然语言处理任务中表现出色,将它们应用于扑克等复杂的战略游戏提出了新的挑战。扑克是一个信息不完全的游戏,需要多种技能,如数学、推理、规划、策略,以及对博弈论和人类心理学的深刻理解。这使得扑克成为大型语言模型的理想下一个领域。PokerBench包括一个由经过训练的扑克玩家合作开发的包含11,000个最重要场景的全面编译,分为翻牌前和翻牌后的游戏。我们评估了包括GPT-4、ChatGPT 3.5以及各种Llama和Gemma系列模型在内的知名模型,发现所有最先进的LLMs在玩优化扑克游戏方面表现不佳。然而,在微调后,这些模型显示出明显的改善。我们通过让得分不同的模型相互竞争来验证PokerBench,结果显示在PokerBench上得分更高的模型在实际扑克游戏中获胜率更高。通过我们微调模型与GPT-4之间的游戏过程,我们还发现简单的监督微调存在学习最佳游戏策略的局限性,这表明需要更高级的方法来有效地训练语言模型在游戏中表现出色。因此,PokerBench提供了一个独特的基准,用于快速可靠地评估LLMs的扑克游戏能力,同时也是一个全面的基准,用于研究LLMs在复杂游戏场景中的进展。数据集和代码将在以下网址提供:https://github.com/pokerllm/pokerbench。
尽管生成式大型语言模型(LLMs)具有生成高质量和流畅文本的能力,但它们也会产生幻觉:即与已建立的世界知识或提供的输入上下文不符的陈述。然而,衡量幻觉可能具有挑战性,因为让人类实时验证模型生成的内容既昂贵又耗时。在这项工作中,我们发布了HALoGEN,一个全面的幻觉基准,包括:(1)10,923个用于生成模型的提示,涵盖编程、科学归因和摘要等九个领域,以及(2)针对每种用例的自动高精度验证器,将LLM生成的内容分解为原子单元,并针对高质量知识源验证每个单元。我们使用这一框架评估了来自14个语言模型的约150,000个生成内容,发现即使是表现最佳的模型也充斥着幻觉(有时在某些领域生成的原子事实高达86%)。我们进一步为LLM幻觉定义了一种新的错误分类,基于它们是否可能源自对训练数据的错误回忆(A型错误)、训练数据中的错误知识(B型错误)或虚构(C型错误)。我们希望我们的框架为实现对生成模型产生幻觉原因的原则性研究提供基础,并推动可信赖的大型语言模型的发展。
图像标记器构成了现代文本到图像生成模型的基础,但训练起来往往非常困难。此外,大多数现有的文本到图像模型依赖于大规模、高质量的私有数据集,这使得它们很难被复制。在这项工作中,我们介绍了一种名为文本感知基于Transformer的一维标记器(TA-TiTok)的高效且强大的图像标记器,可以利用离散或连续的一维标记。TA-TiTok在标记器解码阶段(即去标记化)独特地整合了文本信息,加速了收敛并增强了性能。TA-TiTok还受益于简化但有效的单阶段训练过程,消除了以前一维标记器中使用的复杂的两阶段蒸馏的需求。这种设计使其能够无缝扩展到大型数据集。基于此,我们引入了一系列文本到图像的遮蔽生成模型(MaskGen),仅在开放数据上训练,同时实现了与在私有数据上训练的模型相当的性能。我们旨在发布高效强大的TA-TiTok标记器和基于开放数据和开放权重的MaskGen模型,以促进更广泛的获取并使文本到图像遮蔽生成模型领域民主化。
我们介绍了Tarsier2,这是一种最先进的大规模视觉语言模型(LVLM),旨在生成详细准确的视频描述,同时展现出卓越的视频理解能力。Tarsier2通过三个关键升级实现了显著的进展:(1)将预训练数据从11M扩展到40M个视频文本对,丰富了数据量和多样性;(2)在监督微调过程中执行精细的时间对齐;(3)利用基于模型的采样自动构建偏好数据,并应用DPO训练进行优化。大量实验证明,Tarsier2-7B在详细视频描述任务中始终优于领先的专有模型,包括GPT-4o和Gemini 1.5 Pro。在DREAM-1K基准测试中,Tarsier2-7B在F1值上比GPT-4o提高了2.8\%,比Gemini-1.5-Pro提高了5.8\%。在人类的并排评估中,Tarsier2-7B相对于GPT-4o表现出+8.6\%的性能优势,相对于Gemini-1.5-Pro表现出+24.9\%的优势。Tarsier2-7B还在15个公共基准测试中取得了新的最先进结果,涵盖视频问答、视频定位、幻觉测试和具身问答等任务,展示了其作为强大通用视觉语言模型的多功能性。
自动可解释性流程生成自然语言描述,用于解释大型语言模型(LLMs)中表示的特征概念,例如植物或句子中的第一个词。这些描述是使用激活该特征的输入导出的,这些输入可能是模型表示空间中的维度或方向。然而,识别激活输入是昂贵的,特征在模型行为中的机械作用取决于输入如何导致特征激活以及特征激活如何影响输出。通过使用转向评估,我们揭示了当前流程提供的描述未能捕捉特征对输出的因果效应。为了解决这个问题,我们提出了一种高效的、以输出为中心的方法来自动生成特征描述。这些方法使用在特征刺激后加权更高的标记,或者在将词汇表“unembedding”头直接应用于特征后获得的最高权重标记。我们的以输出为中心的描述更好地捕捉了特征对模型输出的因果效应,而不是以输入为中心的描述,但将两者结合在一起在输入和输出评估上表现最佳。最后,我们展示了以输出为中心的描述可用于找到激活先前被认为是“死”的特征的输入。
大型语言模型(LLMs)展示了显著的能力,但它们的成功在很大程度上取决于预训练语料库的质量。对于中文LLMs,高质量中文数据集的稀缺性构成了一个重要挑战,经常限制了它们的性能。为了解决这个问题,我们提出了OpenCSG中文语料库,这是一系列专门为LLM预训练、后训练和微调而设计的高质量数据集。该语料库包括Fineweb-edu-chinese、Fineweb-edu-chinese-v2、Cosmopedia-chinese和Smoltalk-chinese,每个数据集都具有独特的特点:Fineweb-edu数据集侧重于来自不同中文网站的经过筛选的高质量内容;Cosmopedia-chinese提供了用于知识密集型训练的合成的、类似教科书风格的数据;而Smoltalk-chinese强调风格各异的聊天格式数据。OpenCSG中文语料库以其高质量文本、跨领域的多样覆盖和可扩展、可复现的数据整理过程为特点。此外,我们进行了广泛的实验分析,包括对较小参数模型的评估,结果显示在诸如C-Eval之类的任务中取得了显著的性能改进,展示了该语料库对于训练中文LLMs的有效性。
仇恨言论和辱骂性语言是全球性现象,需要社会文化背景知识才能理解、识别和管理。然而,在全球南方的许多地区,已经有多起记录的事件表明存在(1)缺乏管理和(2)由于依赖上下文之外的关键词识别而进行审查。此外,高知名度个人经常处于管理过程的中心,而针对少数群体的大规模和有针对性的仇恨言论活动却被忽视。这些限制主要是由于缺乏本地语言的高质量数据以及未能将本地社区纳入数据收集、标注和管理过程所致。为了解决这一问题,我们提出了AfriHate:一个包含15种非洲语言的仇恨言论和辱骂性语言数据集的多语言集合。AfriHate中的每个实例都由熟悉当地文化的母语人士进行标注。我们报告了与数据集构建相关的挑战,并展示了使用和不使用LLMs的各种分类基线结果。这些数据集、个别标注以及仇恨言论和冒犯性语言词汇表可在https://github.com/AfriHate/AfriHate 上获得。
大型语言模型的快速发展已经解锁了处理和总结非结构化文本数据方面的显著能力。这对于分析丰富的、开放式数据集(如调查回应)具有重要意义,其中语言模型具有高效提炼关键主题和情感的潜力。然而,随着组织越来越多地依赖这些强大的人工智能系统来理解文本反馈,一个关键问题出现了:我们能相信语言模型能准确地代表这些基于文本的数据集中包含的观点吗?虽然语言模型擅长生成类似人类的摘要,但存在这样一个风险,即它们的输出可能无意中偏离原始回应的真实内容。语言模型生成的输出与数据中实际主题之间的差异可能导致错误的决策,对组织产生深远影响。本研究调查了将语言模型作为评判模型来评估其他语言模型生成的摘要与主题的一致性的有效性。我们利用Anthropic Claude模型从开放式调查回应中生成主题摘要,亚马逊的Titan Express、Nova Pro和Meta的Llama作为语言模型评判者。将语言模型作为评判者的方法与使用Cohen's kappa、Spearman's rho和Krippendorff's alpha的人类评估进行了比较,验证了一种可扩展的替代传统以人为中心的评估方法。我们的研究结果显示,虽然语言模型作为评判者提供了一种可比拟人类评分者的可扩展解决方案,但人类仍然擅长发现微妙的、上下文特定的细微差别。这项研究有助于AI辅助文本分析领域的知识不断增长。我们讨论了局限性,并提出了未来研究的建议,强调在推广语言模型评判模型到各种情境和用例时需要谨慎考虑。
图像匹配旨在识别图像之间对应的像素位置,在广泛的科学领域中至关重要,有助于图像配准、融合和分析。近年来,基于深度学习的图像匹配算法在快速准确地找到大量对应方面明显优于人类。然而,当处理由不同成像模式捕获的图像,导致外观变化显著时,由于缺乏带标注的跨模态训练数据,这些算法的性能通常会下降。这一限制阻碍了依赖多种图像模态获取互补信息的各个领域的应用。为了解决这一挑战,我们提出了一个大规模预训练框架,利用合成的跨模态训练信号,整合来自不同来源的多样数据,训练模型识别和匹配图像之间的基本结构。这种能力可迁移到真实世界中未见的跨模态图像匹配任务。我们的关键发现是,使用我们框架训练的匹配模型在超过八个未见跨模态配准任务中具有显著的泛化能力,使用相同的网络权重,远远优于现有方法,无论是为泛化而设计还是为特定任务量身定制。这一进展显著增强了图像匹配技术在各种科学领域中的适用性,并为在多模态人类和人工智能分析等领域开展新应用铺平了道路。
自动化科学发现的追求推动了从符号逻辑到现代人工智能的进步,开拓了推理和模式识别的新领域。变压器作为潜在系统发挥作用,其中每种可能的关系都保持潜在性,直到任务施加约束,类似于测量。然而,改进它们的采样需要的不仅仅是概率选择:解决方案必须符合特定的结构或规则,确保一致性和普遍原则的调用。我们提出了Graph-PReFLexOR(基于图的基于偏好的递归语言建模用于探索性推理优化),这是一个将图推理与符号抽象相结合,动态扩展领域知识的框架。受强化学习启发,Graph-PReFLexOR将推理定义为结构化映射,其中任务产生知识图、抽象模式,最终得出答案。受范畴论启发,它将概念编码为节点,将它们之间的关系编码为边,支持层次推理和通过同构表示进行自适应学习。演示包括假设生成、材料设计和创造性推理,例如发现神话概念如“薄弱之地”与材料科学之间的关系。我们提出了一个“知识园增长”策略,整合跨领域的见解,促进跨学科连接。使用30亿参数的Graph-PReFLexOR模型的结果显示出卓越的推理深度和适应性,突显了透明、多学科的人工智能驱动发现的潜力。它为通用自主推理解决方案奠定了基础。