每日精选AI研究论文及翻译
GPT-4o的显著多模态能力和互动体验突显了其在实际应用中的关键作用,然而它缺乏一个高性能的开源对应物。在本文中,我们介绍了Baichuan-Omni,这是第一个开源的7B多模态大型语言模型(MLLM),能够同时处理和分析图像、视频、音频和文本的模态,同时提供先进的多模态互动体验和强大的性能。我们提出了一种有效的多模态训练方案,从7B模型开始,经过两个阶段的多模态对齐和跨音频、图像、视频和文本模态的多任务微调。这种方法使语言模型能够有效处理视觉和音频数据。通过在各种全模态和多模态基准测试中展示出色的性能,我们希望这一贡献能成为开源社区在推进多模态理解和实时交互方面的竞争基准。
扩散模型,例如稳定扩散,在视觉生成方面取得了重大进展,然而其范式与自回归语言模型根本不同,使得统一语言-视觉模型的发展变得复杂。最近的工作,如LlamaGen,尝试使用离散VQVAE标记进行自回归图像生成,但涉及的大量标记使得这种方法效率低下且速度缓慢。在这项工作中,我们提出了Meissonic,将非自回归遮蔽图像建模(MIM)文本到图像提升到与诸如SDXL等最先进扩散模型相媲美的水平。通过整合全面的架构创新、先进的位置编码策略和优化的采样条件,Meissonic显著提高了MIM的性能和效率。此外,我们利用高质量的训练数据,整合由人类偏好分数提供的微条件,并采用特征压缩层进一步增强图像的保真度和分辨率。我们的模型不仅在生成高质量、高分辨率图像方面与现有模型如SDXL相匹敌,甚至常常超越。大量实验证实了Meissonic的能力,展示了其作为文本到图像合成新标准的潜力。我们发布了一个能够生成1024乘以1024分辨率图像的模型检查点。
检索增强生成(RAG)是在许多基于知识的任务中有效增强大型语言模型(LLMs)的关键手段。然而,现有的RAG方法在处理知识密集型推理任务时存在困难,因为这些任务所需的有用信息分散在各处。这一特点使得现有的RAG方法难以准确识别关键信息,并在这种嘈杂的增强中进行全局推理。在本文中,受认知理论的启发,即人类在处理知识密集型推理时将原始信息转化为各种结构化知识,我们提出了一个新框架,StructRAG,它可以识别适合当前任务的最佳结构类型,将原始文档重构为这种结构化格式,并根据生成的结构推断答案。在各种知识密集型任务上进行的大量实验表明,StructRAG实现了最先进的性能,特别擅长应对具有挑战性的场景,展示了其作为增强LLMs在复杂实际应用中的有效解决方案的潜力。
大型视觉语言模型(VLMs)将大型语言模型与视觉编码器结合,展示了在各种任务中的潜力。然而,由于预训练和微调之间的领域差距,它们在特定任务应用中经常表现不佳。我们引入了VITask,这是一个新颖的框架,通过集成任务特定模型(TSMs)来增强VLMs的任务特定适应性。VITask采用三种关键策略:范例提示(EP)、响应分布对齐(RDA)和对比响应调整(CRT),通过调整其响应分布来提高VLMs的任务特定性能。EP允许TSM特征引导VLMs,而RDA使VLMs能够在推断过程中无需TSMs进行适应,而是通过从示例提示模型中学习。CRT进一步优化了正确图像-响应对的排名,从而降低了生成不良响应的风险。在涵盖9种成像模式的12个医学诊断数据集上的实验证明,VITask优于传统的指令调整的VLMs和TSMs,展示了其有效整合两种模型的互补特性的能力。此外,VITask提供了实用优势,如灵活的TSM集成和对不完整指令的鲁棒性,使其成为任务特定VLM调整的多功能高效解决方案。我们的代码可在https://github.com/baiyang4/VITask找到。
高效的数据选择对于加速大型语言模型(LLMs)的预训练至关重要。虽然已经提出了各种方法来增强数据效率,但有限的研究涉及这些方法之间固有的冲突,以实现LLMs预训练的最佳数据选择。为了解决这个问题,我们提出了一种新颖的多智能体协作数据选择机制。在这个框架中,每种数据选择方法充当独立的智能体,并设计了一个智能体控制台,动态整合整个LLMs训练过程中所有智能体的信息。我们进行了大量的实证研究来评估我们的多智能体框架。实验结果表明,我们的方法显著提高了数据效率,在LLMs训练中加快了收敛速度,并在多个语言模型基准测试中,与最先进的方法相比,实现了平均性能提升10.5%。
在深度神经网络中理解特征在不同层之间如何演变是机械解释可解释性中的一个基本挑战,尤其是由于多义性和特征叠加。虽然稀疏自编码器(SAEs)已被用于从各个层中提取可解释特征,但跨层对齐这些特征仍然是一个未解决的问题。在本文中,我们介绍了SAE Match,这是一种新颖的、无需数据的方法,用于对齐神经网络不同层中的SAE特征。我们的方法涉及通过最小化SAE的折叠参数之间的均方误差来匹配特征,这一技术将激活阈值纳入编码器和解码器权重中,以考虑特征尺度的差异。通过对Gemma 2语言模型进行大量实验,我们展示了我们的方法有效地捕捉了跨层的特征演变,提高了特征匹配的质量。我们还表明特征在多个层中持续存在,并且我们的方法可以近似跨层的隐藏状态。我们的工作推动了对神经网络中特征动态的理解,并为机械解释可解释性研究提供了一种新工具。
最近生成模型的进展展示了在生成出色内容方面的显著能力。然而,大多数模型是在专有高质量数据上训练的,一些模型保留其参数,仅提供可访问的应用程序接口(API),限制了它们在下游任务中的效益。为了探索使用公开可用资源训练文本到图像生成模型的可行性,我们介绍了EvolveDirector。该框架通过与先进模型的公共API进行交互,以获取文本-图像数据对来训练基础模型。我们对大量数据进行的实验表明,基于先进模型生成数据训练的模型可以近似其生成能力。然而,这需要大规模样本,数量为1000万或更多。这将导致时间、计算资源以及特别是调用基于付费的API所涉及的成本显著增加。为解决这一问题,我们利用预训练的大型视觉语言模型(VLM)来引导基础模型的演进。VLM在训练过程中持续评估基础模型,并通过区分、扩展、删除和突变操作动态更新和完善训练数据集。实验结果表明,这种范式显著减少了所需的数据量。此外,当接近多个先进模型时,EvolveDirector可以选择由它们生成的最佳样本,以学习强大且平衡的能力。最终训练的模型Edgen被证明优于这些先进模型。代码和模型权重可在https://github.com/showlab/EvolveDirector找到。
像GPT-4、PaLM和LLaMA这样的大型语言模型已经在各种推理任务中展现出显著的改进。然而,像Llama-3-8B和DeepSeekMath-Base这样的较小模型仍然在复杂数学推理方面遇到困难,因为它们未能有效地识别和纠正推理错误。最近基于反思的方法旨在通过启用自我反思和自我纠正来解决这些问题,但它们仍然面临着在推理步骤中独立检测错误的挑战。为了克服这些限制,我们提出了SuperCorrect,这是一个新颖的两阶段框架,利用大型教师模型监督和纠正较小学生模型的推理和反思过程。在第一阶段,我们从教师模型中提取分层高级和详细的思维模板,以指导学生模型引出更精细的推理思路。在第二阶段,我们引入跨模型协作直接偏好优化(DPO),通过在训练过程中遵循教师的纠正痕迹,增强学生模型的自我纠正能力。这种跨模型DPO方法教导学生模型有效地定位和解决错误思维,通过教师模型的错误驱动见解打破其思维的瓶颈,获取解决具有挑战性问题的新技能和知识。大量实验证明了我们相对于先前方法的优越性。值得注意的是,我们的SuperCorrect-7B模型在MATH/GSM8K基准测试中显著超越了强大的DeepSeekMath-7B模型,分别提高了7.8%/5.3%和Qwen2.5-Math-7B模型15.1%/6.3%,在所有7B模型中实现了新的SOTA性能。源代码:https://github.com/YangLing0818/SuperCorrect-llm
Large Language Models (LLMs) demonstrate impressive capabilities across various domains, including role-playing, creative writing, mathematical reasoning, and coding. Despite these advancements, LLMs still encounter challenges with length control, frequently failing to adhere to specific length constraints due to their token-level operations and insufficient training on data with strict length limitations. We identify this issue as stemming from a lack of positional awareness and propose novel approaches--PositionID Prompting and PositionID Fine-Tuning--to address it. These methods enhance the model's ability to continuously monitor and manage text length during generation. Additionally, we introduce PositionID CP Prompting to enable LLMs to perform copy and paste operations accurately. Furthermore, we develop two benchmarks for evaluating length control and copy-paste abilities. Our experiments demonstrate that our methods significantly improve the model's adherence to length constraints and copy-paste accuracy without compromising response quality.
从文本描述中生成高质量的3D资产仍然是计算机图形学和视觉研究中的一个关键挑战。由于3D数据的稀缺性,最先进的方法利用经过预训练的2D扩散先验,通过得分蒸馏采样(SDS)进行优化。尽管取得了进展,但制作包含多个对象或复杂交互的复杂3D场景仍然很困难。为了解决这个问题,最近的方法已经纳入了盒状或布局指导。然而,这些布局引导的组合方法通常难以提供细粒度控制,因为它们通常是粗糙的且缺乏表现力。为了克服这些挑战,我们引入了一种新颖的SDS方法,称为语义得分蒸馏采样(SemanticSDS),旨在有效提高组合文本到3D生成的表现力和准确性。我们的方法集成了新的语义嵌入,能够在不同的渲染视图之间保持一致性,并清晰区分各种对象和部分。这些嵌入被转换为语义地图,指导区域特定的SDS过程,实现精确优化和组合生成。通过利用明确的语义指导,我们的方法释放了现有预训练扩散模型的组合能力,从而在3D内容生成中取得了卓越的质量,特别是对于复杂对象和场景。实验结果表明,我们的SemanticSDS框架非常有效地生成最先进的复杂3D内容。 代码: https://github.com/YangLing0818/SemanticSDS-3D
基于Transformer的语言模型推理始于一个提示处理步骤。在这一步骤中,模型生成第一个输出标记并存储未来生成步骤所需的KV缓存。当提示长度或批处理大小增加时,这个提示处理步骤可能会消耗大量计算资源,在边缘设备上,十亿参数模型可能需要花费10秒或更长时间。这会降低用户体验,引入显著的延迟到模型的输出中。为了减少产生第一个输出所需的时间(称为“首标记时间”,或TTFT)的预训练模型,我们引入了一种名为KV预测的新方法。在我们的方法中,一个小型辅助模型用于处理提示并产生基础模型使用的KV缓存的近似值。然后,这个近似的KV缓存与基础模型一起用于自回归生成,而无需再次查询辅助模型。我们证明,与基线相比,我们的方法在效率和准确性之间产生了帕累托最优的权衡。在TriviaQA上,我们展示了在一系列TTFT FLOPs预算中相对准确性提高了15%至50%。我们还展示了在固定的TTFT FLOPs预算下,对HumanEval Python代码完成的准确性提高了高达30%。此外,我们在Apple M2 Pro CPU上对模型进行基准测试,并展示了我们在FLOPs上的改进如何转化为硬件上的TTFT加速。我们在https://github.com/apple/corenet/tree/main/projects/kv-prediction 上发布了我们的代码。
离散扩散已经实现了最先进的性能,在标准基准测试中胜过或接近自回归模型。在这项工作中,我们介绍了计划去噪的离散扩散(DDPD),这是一个将生成过程分为两个模型的新框架:一个规划者和一个去噪器。在推断时,规划者通过识别最受损害的位置,包括最初受损害的位置和需要额外细化的位置,选择下一个需要去噪的位置。这种计划和去噪的方法通过迭代地按最佳顺序识别和去噪损坏,实现了更高效的重建生成。DDPD胜过传统的仅去噪器的蒙版扩散方法,在诸如text8、OpenWebText以及基于ImageNet 256×256的基于标记的生成等语言建模基准测试中取得了卓越的结果。值得注意的是,在语言建模中,DDPD显著缩小了扩散和自回归方法在生成困惑度方面的性能差距。代码可在https://github.com/liusulin/DDPD找到。
我们提出了ZeroComp,这是一种有效的零样本3D物体合成方法,在训练过程中不需要配对的合成场景图像。我们的方法利用ControlNet从内在图像进行条件化,并将其与稳定扩散模型相结合,利用其场景先验知识,共同作为一个有效的渲染引擎。在训练过程中,ZeroComp使用基于几何、反照率和遮罩阴影的内在图像,而无需具有和不具有复合物体的场景的配对图像。一旦训练完成,它可以无缝地将虚拟3D物体整合到场景中,调整阴影以创建逼真的合成效果。我们开发了一个高质量的评估数据集,并证明ZeroComp在定量和人类感知基准测试中优于使用显式光照估计和生成技术的方法。此外,ZeroComp可以扩展到真实和室外图像合成,即使仅在合成室内数据上进行训练,也展示了它在图像合成中的有效性。
修正流变压器(RFTs)提供了卓越的训练和推断效率,使它们很可能是扩展扩散模型的最可行方向。然而,由于数据质量和训练成本,生成分辨率的进展相对较慢。无调谐分辨率外推提供了一种替代方案,但当前方法往往会降低生成稳定性,限制了实际应用。本文回顾了现有的分辨率外推方法,并引入了I-Max框架,以最大化文本到图像RFTs的分辨率潜力。I-Max具有以下特点:(i)稳定外推的新型投影流策略和(ii)用于将模型知识泛化到更高分辨率的先进推断工具包。使用Lumina-Next-2K和Flux.1-dev进行的实验表明,I-Max能够增强分辨率外推的稳定性,并显示它可以带来图像细节的出现和伪影校正,从而确认了无调谐分辨率外推的实际价值。
我们介绍了DA-Code,这是一个专门设计用于评估基于代理的数据科学任务中LLMs的代码生成基准。该基准包括三个核心要素:首先,DA-Code中的任务本质上具有挑战性,使其与传统代码生成任务有所区别,并要求具备基础和规划方面的高级编码技能。其次,DA-Code中的示例都基于真实和多样化的数据,涵盖了广泛的复杂数据处理和分析任务。第三,为了解决这些任务,模型必须利用复杂的数据科学编程语言,执行复杂的数据处理并得出答案。我们在一个可控制和可执行的环境中建立了这个基准,与真实世界的数据分析场景相吻合,并且可扩展。标注者们精心设计了评估套件,以确保评估的准确性和稳健性。我们开发了DA-Agent基准。实验表明,尽管基准优于其他现有框架,但使用当前最佳的LLMs仅能达到30.5%的准确率,仍有很大的改进空间。我们在https://da-code-bench.github.io发布了我们的基准。
近年来,充斥着具有煽动性或误导性的“假”新闻内容变得越来越普遍。与此同时,利用人工智能工具生成栩栩如生的图像描绘任何想象得到的场景变得比以往任何时候都更容易。将这两者结合起来——即人工智能生成的假新闻内容——尤为强大且危险。为了打击人工智能生成的假新闻的传播,我们提出了MiRAGeNews数据集,这是一个包含来自最先进生成器的12,500对高质量真实和人工智能生成图像标题配对的数据集。我们发现,我们的数据集对人类(60% F-1)和最先进的多模态LLMs(< 24% F-1)构成了重大挑战。利用我们的数据集,我们训练了一个多模态检测器(MiRAGe),在来自域外图像生成器和新闻发布商的图像标题配对上,其F-1值比最先进基线提高了+5.1%。我们发布我们的代码和数据,以帮助未来检测人工智能生成内容的工作。
从大型语言模型(LLMs)生成多样化的响应对于规划/搜索和合成数据生成等应用至关重要,因为多样性可以在生成之间提供不同的答案。先前的方法依赖于增加温度以增加多样性。然而,与普遍观念相反,我们展示了这种方法不仅会在温度增加时产生质量较低的单个生成,而且它取决于模型的下一个标记概率是否类似于真实答案分布。我们提出了一种替代方法,该方法利用语言模型本身将空间分割成层。在推断时,会选择一个随机层,并从该层内抽取一个样本。为了衡量多样性,我们引入了CoverageQA,这是一个包含多个同等合理答案的不明确问题数据集,并通过测量输出分布与有效真实答案之间的均匀分布之间的KL散度来评估多样性。由于计算专有模型每个响应/解决方案的概率是不可行的,我们通过测量对真实解决方案的召回率来评估。我们的评估显示,使用SimpleStrat相比于GPT-4o可以实现0.05的更高召回率,并且相比于Llama 3,KL散度平均减少了0.36。
大型语言模型(LLMs)通过利用“思维链”(CoT)提示展现了在各种复杂任务上的显著表现。最近的研究提出了一种知识蒸馏(KD)方法,即推理蒸馏,通过微调由LLM教师生成的多步理由的语言模型,将LLMs的推理能力转移。然而,他们未充分考虑LLM教师模型中不足的蒸馏集的两个挑战,即1)数据质量和2)软标签提供。在本文中,我们提出了导师知识蒸馏(Mentor-KD),有效地将LLMs的多步推理能力蒸馏到较小的LMs,同时解决上述挑战。具体而言,我们利用导师,即中等规模的任务特定微调模型,来增加额外的CoT注释,并在推理蒸馏过程中为学生模型提供软标签。我们进行了大量实验,并确认了Mentor-KD在各种模型和复杂推理任务中的有效性。
大型语言模型(LLMs)展现出令人印象深刻的能力,但需要与人类偏好进行仔细对齐。传统的训练时方法利用人类偏好数据集对LLMs进行微调,但会产生显著的训练成本,并需要反复训练以处理不同用户偏好。测试时对齐方法通过使用奖励模型(RMs)指导冻结的LLMs而无需重新训练来解决这个问题。然而,现有的测试时方法依赖于轨迹级别的RMs,这些RMs旨在评估完整的响应,因此不适用于需要从部分响应计算下一个标记奖励的自回归文本生成。为了解决这个问题,我们引入了GenARM,一种测试时对齐方法,利用自回归奖励模型——一种设计用于预测下一个标记奖励以实现高效和有效的自回归生成的新颖奖励参数化。从理论上讲,我们证明了这种参数化可以明确地指导冻结的LLMs朝着在KL正则化强化学习框架内传统RMs可以实现的任何分布。实验结果表明,GenARM明显优于先前的测试时对齐基线,并与训练时方法的性能相匹配。此外,GenARM实现了高效的弱到强引导,将更大的LLMs与更小的RMs对齐,而无需训练更大的模型的高成本。此外,GenARM支持多目标对齐,允许在偏好维度之间进行实时权衡,并满足不同用户偏好而无需重新训练。
声纳图像合成对推动水下探测、海洋生物学和国防等领域的应用至关重要。传统方法通常依赖于使用声纳传感器进行大量昂贵的数据收集,危及数据质量和多样性。为了克服这些限制,本研究提出了一种新的声纳图像合成框架,名为Synth-SONAR,利用扩散模型和GPT提示。Synth-SONAR的三个关键创新点是:首先,通过将基于生成式人工智能的样式注入技术与公开可用的真实/模拟数据相结合,从而为声纳研究产生了最大的声纳数据语料库之一。其次,双文本调节声纳扩散模型层次结构合成粗粒度和细粒度声纳图像,提高了质量和多样性。第三,基于文本的声纳生成方法分为高级(粗略)和低级(详细)两种,利用视觉语言模型(VLMs)和GPT提示中可用的先进语义信息。在推断过程中,该方法从文本提示生成多样且逼真的声纳图像,弥合了文本描述与声纳图像生成之间的差距。据我们所知,这是首次在声纳图像领域应用GPT提示。Synth-SONAR在生成高质量合成声纳数据集方面取得了最新成果,显著增强了数据集的多样性和逼真性。