每日精选AI研究论文及翻译
尽管下一个标记预测被认为是通向人工通用智能的一条有前途的道路,但在多模态任务中表现卓越仍然是一个挑战,这些任务仍然由扩散模型(例如,稳定扩散)和组合方法(例如,CLIP与LLM结合)主导。在本文中,我们介绍了Emu3,这是一套全新的最先进多模态模型,仅通过下一个标记预测进行训练。通过将图像、文本和视频标记化为离散空间,我们从头开始训练一个单一的变压器模型,用于混合多模态序列。Emu3在生成和感知任务中优于几个知名的特定任务模型,超越了旗舰模型如SDXL和LLaVA-1.6,同时消除了扩散或组合架构的需求。Emu3还能够通过预测视频序列中的下一个标记来生成高保真度的视频。我们通过聚焦于一个单一的重点:标记,简化了复杂的多模态模型设计,释放了在训练和推断过程中扩展的巨大潜力。我们的结果表明,下一个标记预测是通向构建超越语言的通用多模态智能的有前途的道路。我们开源了关键技术和模型,以支持在这个方向上的进一步研究。
本文介绍了一种基于多模态标记的新型基础模型 MIO,能够以端到端、自回归的方式理解和生成语音、文本、图像和视频。尽管大型语言模型(LLMs)和多模态大型语言模型(MM-LLMs)的出现通过其多功能能力推动了人工通用智能的发展,但它们仍然缺乏真正的任意-任意理解和生成能力。最近发布的 GPT-4o 展示了任意-任意 LLMs 对于复杂现实任务的显著潜力,实现了跨图像、语音和文本的全向输入和输出。然而,它是闭源的,不支持生成多模态交错序列。为了填补这一空白,我们提出了 MIO,它通过因果多模态建模,训练了跨四种模态的离散标记混合。MIO 经历了四阶段的训练过程:(1)对齐预训练,(2)交错预训练,(3)增强语音预训练,以及(4)在多样的文本、视觉和语音任务上进行全面监督微调。我们的实验结果表明,MIO 在某些情况下展现出与之前的双模基线、任意-任意模型基线甚至模态特定基线相比具有竞争力,甚至更优越的性能。此外,MIO 展示了其任意-任意特性固有的先进能力,如交错视频-文本生成、视觉思维链推理、视觉指南生成、指导性图像编辑等。
诚实是与人类价值观相一致的大型语言模型(LLMs)的基本原则,要求这些模型能够识别自己所知道和不知道的内容,并能够忠实地表达其知识。尽管有所希望,但当前的LLMs仍然表现出明显的不诚实行为,例如自信地呈现错误答案或未能表达其所知道的内容。此外,关于LLMs诚实性的研究也面临挑战,包括对诚实的不同定义、区分已知和未知知识的困难,以及对相关研究缺乏全面的理解。为了解决这些问题,我们提供了关于LLMs诚实性的调查,涵盖了其澄清、评估方法和改进策略。此外,我们为未来研究提供了见解,旨在激发对这一重要领域的进一步探索。
随着模型规模的扩大,大型语言模型(LLMs)的部署和推断面临着重大挑战。由于LLM权重中存在冗余,最近的研究集中在将权重量化推向极低比特(甚至降至2比特)。这种方法减少了内存需求,优化了存储成本,并在推断过程中降低了内存带宽需求。然而,由于数值表示的限制,传统基于标量的权重量化难以实现如此极低比特。最近针对LLMs的矢量量化(VQ)研究展示了通过使用查找表将向量压缩为索引的潜力,实现了极低比特模型量化。 在本文中,我们介绍了用于LLMs极低比特量化的矢量后训练量化(VPTQ)。我们使用二阶优化来制定LLM VQ问题,并通过解决优化问题来指导我们的量化算法设计。我们进一步通过使用独立通道的二阶优化来细化权重,实现了细粒度的VQ。此外,通过分解优化问题,我们提出了一种简洁有效的码书初始化算法。我们还将VPTQ扩展到支持残差和异常值量化,从而提高模型准确性并进一步压缩模型。我们的实验结果显示,VPTQ在LLaMA-2上将模型量化困惑度降低了0.01-0.34,在Mistral-7B上降低了0.38-0.68,在LLaMA-3上降低了4.41-7.34,相较于2比特的SOTA,平均准确率提高了0.79-1.5%在LLaMA-2上,1%在Mistral-7B上,平均在LLaMA-3上提高了11-22%的QA任务。我们仅利用了10.4-18.6%的量化算法执行时间,推断吞吐量比SOTA提高了1.6-1.8倍。
文档内容分析一直是计算机视觉中一个关键的研究领域。尽管诸如OCR、布局检测和公式识别等方法取得了显著进展,但现有的开源解决方案在高质量内容提取方面仍存在困难,这是由于文档类型和内容的多样性所致。为了解决这些挑战,我们提出了MinerU,这是一个用于高精度文档内容提取的开源解决方案。MinerU利用先进的PDF-Extract-Kit模型有效地从不同类型的文档中提取内容,并采用精心调整的预处理和后处理规则来确保最终结果的准确性。实验结果表明,MinerU在各种文档类型上始终实现高性能,显著提升了内容提取的质量和一致性。MinerU开源项目可在https://github.com/opendatalab/MinerU 上获取。
我们提出了PhysGen,一种新颖的图像到视频生成方法,它将单个图像和输入条件(例如,施加在图像中物体上的力和扭矩)转换为产生逼真、物理合理且时间连贯的视频。我们的关键见解是将基于模型的物理仿真与数据驱动的视频生成过程相结合,实现了可信的图像空间动态。我们系统的核心包括三个主要组件:(i)一个图像理解模块,有效捕捉图像的几何形状、材料和物理参数;(ii)一个利用刚体物理和推断参数进行模拟真实行为的图像空间动态模拟模型;以及(iii)一个利用生成式视频扩散进行图像渲染和细化的模块,以生成展示模拟运动的逼真视频素材。生成的视频在物理和外观上都很逼真,甚至可以精确控制,通过定量比较和全面用户研究展示出优于现有数据驱动图像到视频生成作品的卓越结果。PhysGen生成的视频可用于各种下游应用,例如将图像转换为逼真动画或允许用户与图像进行交互并创建各种动态。项目页面:https://stevenlsw.github.io/physgen/
偏好优化方法通常从一个经过充分训练的SFT模型作为参考模型开始训练。在RLHF和DPO中,在偏好优化过程中使用正则化项,以防止策略模型偏离太远参考模型的分布,从而避免生成异常响应。当参考模型已经与给定数据很好地对齐或仅需要轻微调整时,这种方法可以产生一个良好对齐的模型。然而,如果参考模型与给定数据不对齐并且需要从当前状态显著偏离,正则化项实际上可能会阻碍模型对齐。在本研究中,我们提出了调制干预偏好优化(MIPO)来解决这个问题。MIPO根据给定数据与参考模型对齐程度调节干预程度。如果数据对齐良好,则增加干预以防止策略模型与参考模型显著偏离。相反,如果对齐性较差,则减少干预以促进更广泛的训练。我们使用Mistral-7B和Llama3-8B在Alpaca Eval 2.0和MT-Bench上比较MIPO和DPO的性能。实验结果表明,在各种评估场景中,MIPO始终优于DPO。
本文介绍了一种新的方法,使用大型语言模型(LLMs)进行分类任务,这些任务通常使用机器学习(ML)模型处理。与依赖数据清洗和特征工程的ML模型不同,这种方法利用LLMs简化了流程。本文提出了一个名为“语言模型学习(LML)”的新概念,由一种名为“数据增强预测(DAP)”的新方法提供支持。分类由LLMs执行,使用一种类似于人类手动探索和理解数据并根据数据作为参考进行分类决策的方法。训练数据被总结和评估,以确定导致每个标签分类的特征。在DAP过程中,系统使用数据摘要自动创建一个查询,用于从数据集中检索相关行。LLMs使用数据摘要和相关行生成分类,确保即使在复杂数据情况下也能获得令人满意的准确性。在DAP中使用数据摘要和类似数据确保了上下文感知的决策制定。所提出的方法在提示中使用“作为可解释的机器学习模型”一词,以增强预测的可解释性,使用户能够审查每个预测背后的逻辑。在某些测试案例中,系统的准确率超过90%,证明了系统的有效性及其在各种情况下超越传统ML模型的潜力。代码可在https://github.com/Pro-GenAI/LML-DAP找到。
长期记忆对于代理人非常重要,其中洞察力发挥着关键作用。然而,不相关洞察的出现和缺乏通用洞察可能会严重削弱洞察的有效性。为了解决这个问题,在本文中,我们介绍了多尺度洞察代理(MSI-Agent),这是一个具有实体的代理人,旨在通过有效地总结和利用不同尺度上的洞察,提高LLMs的规划和决策能力。MSI通过经验选择器、洞察生成器和洞察选择器实现这一目标。利用三部分流程,MSI可以生成特定任务的高层洞察,将其存储在数据库中,然后利用其中的相关洞察来辅助决策。我们的实验表明,与另一种洞察策略相比,MSI在通过GPT3.5进行规划时表现更好。此外,我们深入探讨了选择种子经验和洞察的策略,旨在为LLM提供更有用和相关的洞察,以实现更好的决策。我们的观察还表明,MSI在面对领域转移情景时表现出更好的鲁棒性。
尽管近年来大型语言模型(LLMs)取得了一些进展,但它们在需要多步推理和结合各种技能的复杂推理问题上的表现仍然有限。为了解决这一问题,我们提出了一个新颖的框架 HDFlow,用于利用LLMs进行复杂推理,该框架以自适应方式结合快速和慢速思维模式。我们的方法包括两个关键组成部分:1)一种用于缓慢、深思熟虑推理的新方法,称为动态工作流,它自动将复杂问题分解为更易处理的子任务,并动态设计工作流程来组装专门的LLM或符号推理工具来解决子任务;2)混合思维,这是一个通用框架,根据问题复杂性动态结合快速和慢速思维。最后,我们提出了一种易于扩展的方法,用于自动合成一个包含27K个具有挑战性的推理问题的大规模数据集,用于复杂推理,以及一种混合思维调优方法,该方法在此数据集上训练较小的LLMs,以内化快速/慢速混合推理策略。对四个推理基准数据集的实验表明,我们的慢速思维与动态工作流明显优于“思维链”,而混合思维在提供最高准确性的同时,在计算效率和性能之间提供了有效的平衡。使用我们的混合思维方法进行微调还显著提升了开源语言模型的复杂推理能力。结果展示了慢速思维、动态工作流和混合思维在扩展LLMs解决复杂问题的前沿中的潜力。代码和数据将在\url{https://github.com/wenlinyao/HDFlow.}发布。