每日精选AI研究论文及翻译
近期,多模态生成模型的突破性进展实现了逼真且指令对齐的图像生成,然而诸如GPT-4o-Image等领先系统仍属专有,难以普及。为普及这些能力,我们推出了ShareGPT-4o-Image,这是首个包含45K文本到图像及46K文本加图像到图像数据的数据集,所有数据均利用GPT-4o的图像生成能力合成,旨在提炼其先进的图像生成技术。基于此数据集,我们开发了Janus-4o,一个多模态大语言模型,既能进行文本到图像生成,也能实现文本加图像到图像的生成。Janus-4o不仅显著提升了文本到图像生成的质量,超越了前代Janus-Pro,还新增了对文本加图像到图像生成的支持。尤为突出的是,它仅使用91K合成样本,在8台A800-GPU机器上经过6小时训练,便实现了从零开始的文本加图像到图像生成的卓越性能。我们期望ShareGPT-4o-Image与Janus-4o的发布,能推动逼真且指令对齐的图像生成领域的开放研究。
预训练最先进的大型语言模型(LLMs)需要大量干净且多样化的文本数据。尽管大规模高质量英语预训练数据集的开放开发近期取得了显著进展,但训练性能优异的多语言LLMs仍面临挑战,这在很大程度上归因于为众多语言定制过滤和去重管道的固有难度。在本研究中,我们引入了一种基于FineWeb的新型预训练数据集构建管道,该管道可自动适应支持任何语言。我们在一组九种多样化的语言上深入分析了管道设计选择,这些选择由一系列有意义且信息丰富的评估任务指导,这些任务通过基于可测量标准的新颖选择过程确定。最终,我们展示了该管道可用于创建非英语语料库,相比以往数据集,这些语料库能训练出性能更优的模型。此外,我们提出了一种简单且原则性的数据集再平衡方法,该方法同时考虑了重复次数和质量,从而进一步提升了模型性能。最后,我们利用近100个Common Crawl快照将管道扩展至1000多种语言,生成了FineWeb2,这是一个新的20TB(50亿文档)多语言数据集,我们随同管道、训练和评估代码库一并发布。
大型语言模型(LLMs)中的极端激活异常值严重降低了量化性能,阻碍了在设备上的高效部署。尽管通道级操作和自适应梯度缩放被认为是导致这一现象的原因,但实际缓解措施仍具挑战性。我们提出了异常值安全预训练(Outlier-Safe Pre-Training, OSP),这是一项主动预防异常值形成的实用指南,而非依赖事后缓解。OSP结合了三大创新点:(1) Muon优化器,在保持训练效率的同时消除特权基;(2) 单尺度RMSNorm,防止通道级放大;(3) 可学习的嵌入投影,重新分配源自嵌入矩阵的激活幅度。我们通过在1万亿token上训练一个1.4B参数的模型验证了OSP,这是首个在生产规模上训练且无此类异常值的LLM。在激进的4位量化下,我们的OSP模型在10个基准测试中平均得分35.7(相比之下,使用Adam训练的模型得分为26.5),且仅增加了2%的训练开销。值得注意的是,OSP模型的超峰度接近零(0.04),而标准模型中的极端值高达1818.56,从根本上改变了LLM的量化行为。我们的工作表明,异常值并非LLM固有,而是训练策略的结果,为更高效的LLM部署铺平了道路。源代码及预训练检查点可在https://github.com/dmis-lab/Outlier-Safe-Pre-Training获取。
近期,基于扩散模型的图像编辑技术取得了显著进展,提供了对生成过程的精细控制。然而,由于这些方法的迭代特性,其计算成本较高。尽管蒸馏扩散模型能够加速推理,但其编辑能力仍受限于较差的反演质量。高保真反演与重建对于精确图像编辑至关重要,因为它们保持了源图像的结构和语义完整性。在本研究中,我们提出了一种新颖的框架,通过一致性模型增强图像反演,仅需四步即可实现高质量编辑。我们的方法引入了循环一致性优化策略,显著提升了重建精度,并在可编辑性与内容保留之间实现了可控的权衡。我们在多种图像编辑任务和数据集上达到了最先进的性能,证明我们的方法在保持或超越全步扩散模型的同时,显著提高了效率。本方法的代码已发布于GitHub,地址为https://github.com/ControlGenAI/Inverse-and-Edit。
不同基础语言模型家族,如Llama和Qwen,在强化学习(RL)后训练阶段展现出不同的行为特性,尤其是在推理密集型任务上。什么样的基础语言模型更适合强化学习?深入理解这一问题对于开发下一代可扩展RL的基础模型至关重要。本研究中,我们探讨了中期训练策略如何塑造RL动态,聚焦于两个代表性模型家族:Qwen与Llama。研究发现:(1)高质量数学语料,如MegaMath-Web-Pro,显著提升了基础模型及RL性能,而现有替代品(如FineMath-4plus)则未能达到同等效果;(2)进一步加入问答风格数据,特别是长链式思维(CoT)推理示例,能增强RL效果,且指令数据进一步释放了这一潜力;(3)尽管长CoT提升了推理深度,但也可能导致模型回答冗长及RL训练不稳定,凸显了数据格式化的重要性;(4)中期训练的规模扩展持续带来更强的下游RL性能。基于这些洞见,我们提出了一种两阶段中期训练策略——“稳定后衰减”,即基础模型先以恒定学习率训练200B tokens,随后在三个CoT重点分支上以学习率衰减方式训练20B tokens。由此诞生了OctoThinker模型家族,展现了优异的RL兼容性,并缩小了与更RL友好模型家族(如Qwen)的性能差距。我们期望本工作能为RL时代的基础模型预训练策略提供指导。为支持进一步研究,我们开源了模型及一个精选的超过700亿tokens的数学推理密集型语料库(即MegaMath-Web-Pro-Max)。
开发能够在现实场景中执行复杂交互任务的具身智能体,仍然是具身人工智能领域的一项根本性挑战。尽管仿真平台的最新进展极大地提升了训练具身视觉语言模型(VLMs)的任务多样性,但大多数平台依赖于简化的机器人形态,并绕过了底层执行中的随机性,这限制了它们向现实世界机器人的可迁移性。为解决这些问题,我们提出了基于物理的仿真平台DualTHOR,专为复杂双臂人形机器人设计,该平台建立在AI2-THOR的扩展版本之上。我们的模拟器包含真实世界机器人资产、一套双臂协作任务集以及人形机器人的逆运动学求解器。此外,我们还引入了一种应急机制,通过基于物理的底层执行来模拟潜在故障,从而缩小与现实场景的差距。我们的模拟器使得在家庭环境中对VLMs的鲁棒性和泛化能力进行更全面的评估成为可能。大量评估表明,当前的VLMs在双臂协调方面存在困难,并且在包含应急情况的现实环境中表现出有限的鲁棒性,这凸显了使用我们的模拟器来开发更具能力的VLMs以执行具身任务的重要性。代码已发布于https://github.com/ds199895/DualTHOR.git。
基于仿真的数据合成已成为增强现实世界机器人操控能力的重要范式。然而,现有的合成数据集在应对复杂双手操作任务时仍显不足,主要面临两大挑战:(1) 缺乏针对新任务的高效、可扩展数据生成方法;(2) 仿真环境过于简化,难以捕捉现实世界的复杂性。我们推出RoboTwin 2.0,一个可扩展的仿真框架,支持自动化、大规模生成多样且真实的数据,并提供统一的双臂操作评估协议。首先,我们构建了RoboTwin-OD,一个包含147个类别、731个实例的大规模物体库,每个实例均标注了语义及与操作相关的标签。在此基础上,我们开发了一套专家数据合成流程,结合多模态大语言模型(MLLMs)与仿真循环优化,自动生成任务级执行代码。为提升仿真到现实的迁移能力,RoboTwin 2.0在五个维度上引入了结构化领域随机化:杂物、光照、背景、桌面高度及语言指令,从而增强数据多样性和策略鲁棒性。我们将该框架应用于涵盖五种机器人形态的50项双臂任务中,预先收集了超过100,000条领域随机化的专家轨迹。实验结果显示,代码生成成功率提升了10.9%,并在面对新现实场景时展现出更好的泛化能力。基于我们数据集微调的VLA模型在未见过的现实场景任务上实现了367%的相对提升(42.0% vs. 9.0%),而仅使用我们合成数据训练的零样本模型也获得了228%的相对增益,凸显了无需现实监督下的强大泛化能力。我们公开了数据生成器、基准测试、数据集及代码,以支持可扩展的鲁棒双手操作研究。
扩散模型已成为图像合成领域的领先方法,展现出卓越的逼真度和多样性。然而,在高分辨率下训练扩散模型仍然面临计算成本过高的问题,而现有的零样本生成技术在合成超出训练分辨率的图像时,常常会产生伪影,包括物体重复和空间不连贯。本文提出HiWave,一种无需训练、零样本的方法,利用预训练扩散模型显著提升了超高分辨率图像合成的视觉保真度和结构一致性。我们的方法采用两阶段流程:首先从预训练模型生成基础图像,随后进行分块DDIM反演步骤,并引入一种新颖的基于小波的细节增强模块。具体而言,我们首先利用反演方法从基础图像中提取保持全局一致性的初始噪声向量。接着,在采样过程中,我们的小波域细节增强器保留基础图像的低频成分以确保结构一致性,同时有选择性地引导高频成分以丰富细节和纹理。通过使用Stable Diffusion XL进行的广泛评估表明,HiWave有效缓解了先前方法中常见的视觉伪影,实现了卓越的感知质量。一项用户研究证实了HiWave的性能,在超过80%的比较中,用户更倾向于选择HiWave而非当前最先进的替代方案,凸显了其在无需重新训练或架构修改的情况下,实现高质量、超高分辨率图像合成的有效性。
大型语言模型(LLMs)在代码生成方面表现出色,但确保其输出功能正确,尤其是在复杂编程任务中,仍是一个持续存在的挑战。尽管传统的测试驱动开发(TDD)为代码优化提供了一条路径,但其在LLMs上的有效性常因高质量测试用例的稀缺或自动化测试生成的缺陷而大打折扣,这些缺陷包括有偏见的测试或错误的输出预测,可能误导修正过程。本文提出了属性生成求解器(Property-Generated Solver),这是一个创新框架,它利用基于属性的测试(PBT)来验证高层次程序属性或不变式,而非依赖具体的输入输出示例。这些属性通常比直接预测详尽的测试预言更易于定义和验证,从而打破了“自我欺骗循环”,即测试可能与被验证代码共享缺陷的困境。属性生成求解器采用了两大协作的LLM代理:一个专注于代码生成与迭代优化的生成器,以及一个管理PBT生命周期并从属性违规中提炼语义丰富反馈的测试器。由此产生的全面且可操作的反馈随后指导生成器进行优化。通过将PBT确立为这一迭代闭环范式中的核心验证引擎,属性生成求解器为引导LLMs生成更正确且可泛化的代码提供了强有力的机制。在多个代码生成基准上的广泛实验结果表明,属性生成求解器相较于成熟的TDD方法,在pass@1指标上实现了显著提升,相对增益范围从23.1%到37.3%。
近期,大型语言模型(LLMs)的进展已将焦点转向扩展推理时计算资源,以在不重新训练模型的情况下提升性能。一种常见的方法是并行采样多个输出,并从中选择一个作为最终结果。然而,迄今为止的研究主要集中在英语及少数领域如数学和代码上。相比之下,我们更关注那些能泛化至开放式任务、可形式化验证任务以及跨语言场景的技术。本研究中,我们探讨了在多语言、多任务环境下,如何稳健地扩展开放式生成任务的推理时计算。 我们的研究发现,基于温度变化的采样策略和选择策略均需调整,以适应不同领域和多样化的语言环境。我们评估了现有的选择方法,发现那些在英语中有效的策略往往难以跨语言泛化。为此,我们提出了专门针对多语言和多任务推理场景设计的新颖采样与选择策略,并展示了这些策略在多种语言和任务上带来的显著提升。特别是,我们结合采样与选择的方法,在m-ArenaHard-v2.0提示上,使8B模型相较于Gemini等专有模型,平均胜率提升了+6.8。在更大规模上,配备了我们方法的Command-A(111B模型),仅用五个样本相比单样本解码,在同一基准测试中胜率提高了+9.0,以最小成本实现了显著增长。这些结果强调了采用语言和任务感知的推理时计算方法的必要性,旨在促进在代表性不足语言中性能提升的普及。
推理型大语言模型近期在众多领域取得了顶尖性能。然而,其长链式思维推理过程带来了可解释性挑战,因为每个生成的标记都依赖于之前的所有标记,使得计算过程难以分解。我们认为,在句子层面分析推理轨迹是理解推理过程的一种有前景的方法。我们提出了三种互补的归因方法:(1) 一种黑箱方法,通过比较模型生成特定句子或不同含义句子时的100次运行结果,衡量每个句子的反事实重要性;(2) 一种白箱方法,通过聚合句子对之间的注意力模式,识别出“广播”句子,这些句子通过“接收”注意力头从所有后续句子中获得不成比例的注意力;(3) 一种因果归因方法,通过抑制对某一句子的注意力并测量其对每个后续句子标记的影响,衡量句子间的逻辑联系。每种方法都为“思维锚点”的存在提供了证据,这些推理步骤具有超常的重要性,并对后续推理过程产生不成比例的影响。这些思维锚点通常是规划或回溯句子。我们提供了一个开源工具(www.thought-anchors.com)用于可视化我们方法的输出,并通过案例研究展示了跨方法的一致模式,这些模式映射了模型如何执行多步推理。方法间的一致性证明了句子层面分析在深入理解推理模型方面的潜力。
大型语言模型(LLMs)在语言理解和生成方面展现了卓越的能力。然而,这种令人印象深刻的能力通常伴随着庞大的模型规模,这给部署和推理带来了重大挑战。虽然模型参数的结构化剪枝为降低部署时的计算成本提供了一种有前景的方法,但当前的方法主要集中在单一模型的剪枝上。在本研究中,我们开发了一种新颖的策略,通过战略性地组合或合并来自微调模型变体的层来压缩模型,从而通过聚合在不同微调中突出的能力来保留原始模型的能力。我们将这些LLMs的最优定制视为一个零阶优化问题,采用了一个支持三种不同操作的搜索空间:(1)层移除,(2)从不同候选模型中选择层,以及(3)层合并。我们的实验表明,这种方法在模型剪枝方面具有竞争力,例如,对于Llama2-13B模型家族,我们的压缩模型在移除约25%参数的同时,保持了大约97.3%的原始性能,显著优于之前的最先进方法。代码可在https://github.com/Guinan-Su/auto-merge-llm获取。
大型语言模型(LLMs)的计算与能源成本,随着模型规模的扩大及数亿用户的广泛采用,呈指数级增长。LLM的单位成本体现在对单个令牌的计算上。因此,分词器在模型效率中扮演着关键角色,它们经过精心优化,以最小化训练语料库中文本的令牌数量。LLMs最受欢迎的应用之一是与用户互动的聊天机器人。一个关键观察是,对于这些聊天机器人而言,分词器在用户输入文本及聊天机器人响应中的表现至关重要,而这些文本很可能与训练语料库中的文本存在差异。于是,一个直接浮现的问题是:针对聊天对话优化分词器是否具有潜在优势。本文通过利用公开可用的聊天对话语料库,重新设计不同分词器的词汇表,并评估它们在这一领域的性能,深入探讨了这一想法。结果表明,经过对话优化的分词器能持续减少聊天对话中的令牌数量,从而带来5%至10%的显著能源节约,同时对原始训练语料库的分词效率影响微乎其微,甚至略有提升。
大型语言模型(LLMs)展现出卓越的代码生成能力,但在适应外部库API频繁更新时却表现不佳。这一关键限制源于其训练数据中过时的API知识依赖,即便能够访问最新文档,仍阻碍了在动态环境中可靠生成代码的能力。为解决此问题,我们提出了ReCode(基于规则的代码更新强化学习),一个模拟人类程序员适应API变化的新颖框架。具体而言,我们构建了一个包含约2000条数据项的数据集,用于训练LLMs基于更新信息执行版本迁移。随后,我们引入了一种改进的字符串相似度度量作为代码评估的奖励,以驱动强化学习。实验表明,ReCode显著提升了LLMs在动态API场景下的代码生成性能,特别是在未见过的CodeUpdateArena任务上。重要的是,与监督微调相比,ReCode对LLMs的通用代码生成能力影响较小。我们将ReCode应用于多种LLMs及强化学习算法(GRPO与DAPO),均取得了一致的改进效果。尤为突出的是,训练后,Qwen2.5-Coder-7B超越了拥有32B参数的代码指令调优模型及同架构的推理模型。代码已发布于https://github.com/zjunlp/ReCode。
在当今社会,可访问性仍然是一个关键问题,因为许多技术并未开发以支持全面的用户需求。现有的多智能体系统(MAS)由于封闭源代码设计导致的定制化不足,往往无法为有需求的用户提供全面的帮助。因此,残障人士在尝试与数字环境互动时常常遇到重大障碍。我们引入了MATE,一种多模态可访问性多智能体系统,它根据用户需求执行模态转换。该系统通过确保数据被转换为可理解的格式,对辅助残障人士非常有用。例如,如果用户视力不佳并接收到一张图片,系统会将该图片转换为其音频描述。MATE可应用于广泛的领域、行业和区域,如医疗保健,并成为各类用户的有用助手。该系统支持多种类型的模型,从LLM API调用到使用自定义机器学习(ML)分类器。这种灵活性确保了系统能够适应各种需求,并与多种硬件兼容。由于系统预期在本地运行,它确保了敏感信息的隐私和安全。此外,该框架可以有效地与机构技术(如数字医疗服务)集成,以提供实时用户协助。我们还引入了ModCon-Task-Identifier模型,该模型能够从用户输入中提取精确的模态转换任务。大量实验表明,ModCon-Task-Identifier在我们的自定义数据上始终优于其他LLM和统计模型。我们的代码和数据可在https://github.com/AlgazinovAleksandr/Multi-Agent-MATE 公开获取。
AI驱动的内容创作在电影制作中展现出巨大潜力。然而,现有的电影生成系统在实现电影艺术原则方面存在困难,因而难以产出专业品质的影片,尤其在多样化的镜头语言和电影节奏方面表现不足,导致画面模板化、叙事缺乏吸引力。为此,我们推出了FilMaster,一个端到端的AI系统,它整合了现实世界的电影艺术原则,用于生成专业级别的电影作品,并输出可编辑的行业标准格式。FilMaster基于两大核心原则构建:(1) 从海量真实电影数据中学习摄影技巧;(2) 模拟以观众为中心的专业后期制作流程。受此启发,FilMaster包含两个阶段:参考引导生成阶段,将用户输入转化为视频片段;以及生成式后期制作阶段,通过协调视觉与听觉元素来赋予原始素材电影节奏,最终输出视听作品。我们的生成阶段特别强调了一个多镜头协同的RAG镜头语言设计模块,通过从44万部电影片段库中检索参考片段,指导AI生成专业的镜头语言。后期制作阶段则通过设计一个以观众为中心的电影节奏控制模块,包括基于模拟观众反馈的粗剪与精剪流程,有效整合视听元素,打造引人入胜的内容。该系统由生成式AI模型如(M)LLMs和视频生成模型驱动。此外,我们引入了FilmEval,一个用于评估AI生成电影的综合基准。大量实验表明,FilMaster在镜头语言设计与电影节奏控制方面表现卓越,推动了生成式AI在专业电影制作领域的进步。
我们推出了Biomed-Enriched,这是一个通过两阶段标注流程从PubMed构建的生物医学文本数据集。在第一阶段,一个大型语言模型对来自PubMed科学文章的40万段落进行标注,为其类型(综述、研究、临床案例、其他)、领域(临床、生物医学、其他)及教育质量评分。教育质量评分(1至5分)评估了段落对大学水平学习的实用程度。这些标注随后用于微调一个小型语言模型,该模型将标签传播至整个PMC-OA语料库。由此产生的元数据使我们能够提取精炼的子集,包括200万临床案例段落,其中超过45万高质量段落来自具有商业使用许可的文章,并通过质量过滤和领域上采样构建了多个变体。由于隐私限制,临床文本通常难以获取,医院记录无法公开分享。因此,我们的数据集提供了一个替代性的大规模、公开可用的PubMed临床案例集合,使其成为生物医学和临床自然语言处理(NLP)的宝贵资源。初步的OLMo2持续预训练实验表明,这些精选子集能够实现针对性改进,临床上采样使MMLU ProfMed上的性能提升约5%,教育质量过滤使MedQA和MedMCQA提高约1%。这些技术的组合加快了收敛速度,仅用三分之一的训练标记就达到了相同性能,显示出更高效、更有效的生物医学预训练策略的潜力。
人工智能调试效能呈现出可预测的指数衰减模式:尽管迭代调试是实用代码生成系统的关键能力,但大多数模型在仅2-3次尝试后便会丧失60-80%的调试能力。我们引入了调试衰减指数(DDI),这一数学框架能够量化调试何时失效并预测干预时机。我们的策略性重启方法在调试过程中的关键节点从利用转向探索,证明了适时干预能够挽救调试的有效性。DDI揭示了当前AI调试的一个根本性局限,并为优化迭代代码生成策略提供了首个量化框架。