每日精选AI研究论文及翻译
当前的大型语言模型(LLMs)可以处理长达100,000个标记的输入,但很难生成超过甚至是2000个字的输出。通过受控实验,我们发现模型的有效生成长度受其在监督微调(SFT)期间所见样本的固有限制。换句话说,它们的输出限制是由现有SFT数据集中长输出示例的稀缺性造成的。为了解决这个问题,我们引入了AgentWrite,这是一个基于代理的流水线,将超长生成任务分解为子任务,使现成的LLMs能够生成连贯的超过20,000个字的输出。利用AgentWrite,我们构建了LongWriter-6k数据集,其中包含6,000个SFT数据,输出长度从2k到32k字不等。通过将这个数据集纳入模型训练,我们成功地将现有模型的输出长度扩展到超过10,000个字,同时保持输出质量。我们还开发了LongBench-Write,这是一个用于评估超长生成能力的全面基准。我们的90亿参数模型,通过DPO进一步改进,在这一基准测试中取得了最先进的性能,甚至超过了更大的专有模型。总的来说,我们的工作表明,现有的长上下文LLM已经具备了更大输出窗口的潜力--您所需要的只是在模型对齐期间具有扩展输出的数据来释放这种能力。我们的代码和模型位于: https://github.com/THUDM/LongWriter。
我们介绍 Imagen 3,这是一个潜在扩散模型,可以根据文本提示生成高质量图像。我们描述了我们的质量和责任评估。在评估时,Imagen 3 被优先选择,而不是其他当时最先进的模型。此外,我们讨论了安全和表征方面的问题,以及我们用来最小化模型潜在危害的方法。
大型语言模型(LLM)代理在解决现实世界软件工程(SWE)问题方面展现出巨大潜力。最先进的开源SWE代理可以解决SWE-Bench Lite中超过27%的真实GitHub问题。然而,这些复杂的代理框架表现出不同的优势,在某些任务上表现出色,而在其他任务上表现不佳。为了充分利用这些代理的多样性,我们提出了DEI(多样性增强智能)框架,该框架利用它们独特的专业知识。DEI作为现有SWE代理框架之上的元模块,管理代理集合以增强问题解决能力。实验结果显示,由DEI指导的代理委员会能够大幅超越最佳个体代理的表现。例如,一组开源SWE代理,在SWE-Bench Lite上最大个体解决率为27.3%,使用DEI可以实现34.3%的解决率,提高25%,超过大多数闭源解决方案。我们表现最佳的组合在SWE-Bench Lite上以55%的解决率脱颖而出,获得最高排名。我们的研究结果有助于合作式人工智能系统研究领域的不断发展,以及它们解决复杂软件工程挑战的潜力。
科学文献的快速增长给研究人员带来了重大挑战,使他们难以跟上各领域最新进展并深入探索新领域。我们推出了OpenResearcher,这是一个创新平台,利用人工智能(AI)技术加速研究过程,回答研究人员提出的各种问题。OpenResearcher基于检索增强生成(RAG)构建,将大型语言模型(LLMs)与最新的领域特定知识整合在一起。此外,我们为OpenResearcher开发了各种工具,用于理解研究人员的查询,从科学文献中搜索,过滤检索到的信息,提供准确全面的答案,并自我完善这些答案。OpenResearcher可以灵活使用这些工具来平衡效率和有效性。因此,OpenResearcher使研究人员节省时间,增加发现新见解并推动科学突破的潜力。演示、视频和代码可在以下网址找到:https://github.com/GAIR-NLP/OpenResearcher。
大型语言模型(LLMs)的扩展已经在各种任务中彻底改变了它们的能力,然而这种增长必须与高效的计算策略相匹配。混合专家(MoE)架构以其能够在不显著增加训练成本的情况下扩展模型规模的能力脱颖而出。尽管具有诸多优势,但当前的MoE模型通常表现出参数效率低下的问题。例如,一个预训练的基于MoE的LLM,拥有520亿参数,可能与一个拥有67亿参数的标准模型表现相当。作为MoE的关键组成部分,当前各层中的路由器独立分配标记,而不利用历史路由信息,可能导致次优的标记-专家组合以及参数效率问题。为了缓解这一问题,我们引入了适用于混合专家的逐层循环路由器(RMoE)。RMoE利用门控循环单元(GRU)在连续层之间建立路由决策之间的依赖关系。这种逐层循环可以高效并行计算输入标记,并引入可协商的成本。我们广泛的实证评估表明,基于RMoE的语言模型始终优于一系列基准模型。此外,RMoE集成了一种与现有方法正交的新型计算阶段,使其能够与其他MoE架构无缝兼容。我们的分析将RMoE的收益归因于其有效的跨层信息共享,这也改善了专家选择和多样性。我们的代码位于https://github.com/qiuzh20/RMoE。
大型语言模型的发展导致了一种“先预训练,再微调”的范式的形成,其中模型通常在大型文本语料库上进行预训练,然后经历一个调整阶段,以使模型与人类偏好或下游任务对齐。在这项工作中,我们通过微调多个中间预训练模型检查点来研究预训练和微调之间的关系。我们在18个数据集上的结果表明:i)持续的预训练以一种潜在的方式改进了模型,在微调后显现出来;ii)通过额外的微调,模型在预训练阶段表现不佳的数据集获益要远远大于在该阶段表现良好的数据集;iii)尽管模型通过监督微调显著受益,但可能会忘记先前已知的领域知识和在微调期间未见过的任务;iv)在经过监督微调后,模型对评估提示具有高度敏感性,但这种敏感性可以通过更多的预训练来缓解。
从复杂的视觉场景中提炼出以物体为中心的抽象能力是实现人类级泛化的基础。尽管在以物体为中心的学习方法方面取得了显著进展,但在3D物理世界中学习以物体为中心的表示仍然是一个关键挑战。在这项工作中,我们提出了SlotLifter,一种新颖的以物体为中心的辐射模型,通过基于槽引导的特征提升来共同解决场景重建和分解问题。这种设计将以物体为中心的学习表示和基于图像的渲染方法结合起来,在四个具有挑战性的合成数据集和四个复杂的真实世界数据集上,提供了在场景分解和新视角合成方面的最先进性能,远远超过现有的3D以物体为中心的学习方法。通过大量的消融研究,我们展示了SlotLifter设计的有效性,揭示了潜在未来方向的关键见解。
受Geoffrey Hinton强调生成建模的启发,即要识别形状,首先要学会生成它们,我们探讨了使用3D扩散模型进行物体分类的方法。利用这些模型的密度估计,我们的方法,即用于3D物体的扩散分类器(DC3DO),实现了无需额外训练即可对3D形状进行零样本分类。平均而言,我们的方法相较于其多视图对应物取得了12.5%的改进,展示了优于判别方法的优越多模态推理能力。DC3DO采用在ShapeNet上训练的类条件扩散模型,并在椅子和汽车的点云上进行推断。这项工作突显了生成模型在3D物体分类中的潜力。
UniT是一种新颖的触觉表示学习方法,利用VQVAE学习紧凑的潜在空间,并用作触觉表示。它利用从单个简单对象获取的触觉图像来训练具有可转移性和泛化能力的表示。这种触觉表示可以零次迁移到各种下游任务,包括感知任务和操作策略学习。我们在手中的三维姿势估计任务上的基准测试显示,UniT优于现有的视觉和触觉表示学习方法。此外,UniT在涉及不同操作对象和复杂机器人-对象-环境交互的三个真实世界任务中的策略学习效果得到证明。通过大量实验,UniT被证明是一种简单易训练、即插即用、广泛有效的触觉表示学习方法。更多详细信息,请参阅我们的开源存储库https://github.com/ZhengtongXu/UniT和项目网站https://zhengtongxu.github.io/unifiedtactile.github.io/。
大型语言模型(LLMs)已经展示了在各种任务中的实力。然而,许多LLMs在高资源语言和低资源语言之间表现出显著的性能差异。为了缓解这一挑战,我们提出了FuxiTranyu,一个开源的多语言LLM,旨在满足研究社区对平衡和高性能多语言能力的需求。FuxiTranyu-8B,拥有80亿参数的基础模型,是从头开始训练的,使用了一个精心平衡的多语言数据库,其中包含了涵盖43种自然语言和16种编程语言的6000亿标记。除了基础模型外,我们还开发了两个指令调整模型:FuxiTranyu-8B-SFT,在多样化的多语言指令数据集上进行微调,以及FuxiTranyu-8B-DPO,通过在偏好数据集上进一步优化DPO,以增强对齐能力。对各种多语言基准的广泛实验表明,FuxiTranyu相对于现有的多语言LLMs(如BLOOM-7B,PolyLM-13B,Llama-2-Chat-7B和Mistral-7B-Instruct)具有竞争力的性能。在神经元和表示水平上进行的可解释性分析表明,FuxiTranyu能够学习一致的多语言表示,跨越不同语言。为了促进对多语言LLMs及其工作机制的进一步研究,我们在HuggingFace和Github上发布了基础模型和指令调整的FuxiTranyu模型,以及58个预训练检查点。
电影剧本摘要是具有挑战性的,因为它需要理解长输入上下文和电影独特的各种元素。大型语言模型在文档摘要方面取得了显著进展,但它们通常难以处理长输入上下文。此外,尽管电视剧本已经引起了近期研究的关注,但电影剧本摘要仍未得到充分探索。为了激励这一领域的研究,我们提出了一个新的数据集 MovieSum,用于电影剧本的抽象摘要。该数据集包括 2200 部电影剧本及其维基百科情节摘要。我们手动格式化了电影剧本以表示它们的结构元素。与现有数据集相比,MovieSum 具有几个独特特征:(1) 它包括电影剧本,比电视剧集的剧本更长。(2) 它是先前电影剧本数据集的两倍大小。(3) 它提供了带有 IMDb ID 的元数据,以便访问额外的外部知识。我们还展示了最近发布的大型语言模型在我们的数据集上应用于摘要的结果,以提供详细的基线。
预训练的大型语言模型在传统自然语言处理(NLP)任务中展现出了相当大的能力,如摘要和实体识别。本文探讨了在高质量蛋白质序列生成中应用大型语言模型的方法。具体来说,我们采用了一系列预训练的大型语言模型,包括Mistral-7B1、Llama-2-7B2、Llama-3-8B3和gemma-7B4,用于生成有效的蛋白质序列。所有这些模型都是公开可用的。与该领域先前的研究不同,我们的方法利用了一个相对较小的数据集,包括42,000个不同的人类蛋白质序列。我们重新训练这些模型以处理与蛋白质相关的数据,确保生成具有生物学可行性的蛋白质结构。我们的研究结果表明,即使数据有限,经过调整的模型展现出了与已建立的以蛋白质为重点的模型(如ProGen系列、ProtGPT2和ProLLaMA)相媲美的效率,这些模型是在数百万蛋白质序列上进行训练的。为了验证和量化我们模型的性能,我们进行了比较分析,采用了标准指标,如pLDDT、RMSD、TM-score和REU。此外,我们承诺公开提供所有四个模型的训练版本,促进计算生物学领域更大的透明度和合作。
对于人类和机器人来说,触觉感知,即触觉传感,在执行接触丰富的操作任务中至关重要。机器人触觉传感面临的三个关键挑战是:1)解释传感器信号,2)在新颖场景中生成传感器信号,3)学习基于传感器的策略。对于视触觉传感器,解释受益于其与视觉传感器(例如RGB摄像头)之间的密切关系。然而,生成仍然困难,因为视触觉传感器通常涉及接触、变形、照明和成像,这些都很昂贵来模拟;反过来,策略学习具有挑战性,因为模拟无法用于大规模数据收集。我们提出了TacSL(taxel),这是一个基于GPU的视触觉传感器模拟和学习库。TacSL可用于在广泛使用的Isaac Gym模拟器中比先前的最先进技术快200倍以上地模拟视触觉图像并提取接触力分布。此外,TacSL提供了一个学习工具包,其中包含多个传感器模型、接触密集型训练环境以及可以促进模拟到真实应用的在线/离线算法。在算法方面,我们引入了一种新颖的在线强化学习算法,称为不对称演员-评论家蒸馏(\sysName),旨在有效且高效地在模拟中学习基于触觉的策略,以便能够转移到真实世界。最后,我们通过评估蒸馏和多模态感知对接触丰富操作任务的益处以及最关键的进行模拟到真实的转移来展示我们的库和算法的效用。补充视频和结果请参见https://iakinola23.github.io/tacsl/。
基于扩散的文本到图像生成模型显著推进了艺术内容合成领域。然而,当前的肖像风格化方法通常要求基于示例进行模型微调,或者采用DDIM反演将图像恢复为噪声空间,这两者都会显著减缓图像生成过程。为了克服这些限制,本文提出了一种基于扩散模型的无反演肖像风格化框架,仅通过四个采样步骤实现内容和风格特征融合。我们发现,采用一致性蒸馏的潜在一致性模型可以有效从嘈杂图像中提取代表性的一致性特征。为了融合从内容和风格图像中提取的一致性特征,我们引入了一种风格增强注意力控制技术,精心在目标图像的注意力空间内合并内容和风格特征。此外,我们提出了一种特征融合策略,将一致性特征中的冗余特征合并,从而降低注意力控制的计算负载。大量实验证实了我们提出的框架在提高风格化效率和保真度方面的有效性。代码可在https://github.com/liujin112/ZePo找到。
一般基于解缠的说话者匿名化系统通常使用单独的编码器将语音分离为内容、说话者和韵律特征。本文探讨了如何在需要更大程度保留新的语音属性(例如情绪)时,调整这样一个系统。现有系统擅长匿名化说话者嵌入,但并非旨在保留情绪。本文考察了两种策略。首先,我们展示了整合来自预训练情绪编码器的情绪嵌入可以帮助保留情绪线索,尽管这种方法略微牺牲了隐私保护。另一种选择是作为后处理步骤应用于匿名化说话者嵌入的情绪补偿策略。这种策略隐藏了原始说话者的身份,并重新引入在说话者嵌入匿名化过程中丢失的情绪特征。具体而言,我们使用支持向量机模型情绪属性,以学习每种情绪的独立边界。在推断过程中,原始说话者嵌入通过情绪指示器进行处理,以预测情绪并准确选择匹配情绪的支持向量机;同时通过说话者匿名化器来隐藏说话者特征。然后,匿名化的说话者嵌入沿着相应的支持向量机边界朝着增强的情绪方向进行修改,以保存情绪线索。这些提出的策略也有望用于调整一般基于解缠的说话者匿名化系统,以保留其他目标语用属性,对一系列下游任务具有潜在的用途。