每日精选AI研究论文及翻译
人工通用智能的一个重大挑战是开发能够进行科学研究和发现新知识的代理程序。尽管前沿模型已被用作辅助人类科学家,例如用于头脑风暴创意、编写代码或预测任务,但它们仍然只完成科学过程的一小部分。本文提出了第一个全自动科学发现的综合框架,使前沿大型语言模型能够独立进行研究并传达其发现。我们介绍了AI科学家,它能够生成新颖的研究思路,编写代码,执行实验,可视化结果,通过撰写完整的科学论文描述其发现,然后运行模拟评审过程进行评估。原则上,这个过程可以重复进行,以开放式方式迭代地发展思路,就像人类科学界一样。我们展示了其多功能性,将其应用于机器学习的三个不同子领域:扩散建模、基于Transformer的语言建模和学习动态。每个思路的实现和发展成完整论文的成本不到每篇15美元。为了评估生成的论文,我们设计并验证了一个自动评审者,我们展示其在评估论文分数方面达到了接近人类的表现。AI科学家可以生成超过自动评审者认可阈值的论文,这一方法标志着机器学习科学发现的新时代的开始:将AI代理程序的变革性益处带入AI研究过程的整个过程,并让我们更接近一个世界,在这个世界中,无尽的创造力和创新可以释放到世界上最具挑战性的问题上。我们的代码在https://github.com/SakanaAI/AI-Scientist 上开源。
本文介绍了rStar,这是一种自我对弈的相互推理方法,显著提高了小语言模型(SLMs)的推理能力,而无需微调或优越模型。rStar将推理分解为自我对弈的生成-辨别过程。首先,目标SLM将蒙特卡洛树搜索(MCTS)与丰富的类人推理动作相结合,以构建更高质量的推理轨迹。接下来,另一个具有与目标SLM相似能力的SLM充当鉴别器,验证目标SLM生成的每个轨迹。双方一致的推理轨迹被认为是相互一致的,因此更有可能是正确的。对五个SLMs进行的大量实验表明,rStar能够有效解决各种推理问题,包括GSM8K、GSM-Hard、MATH、SVAMP和StrategyQA。值得注意的是,rStar将LLaMA2-7B的GSM8K准确率从12.51%提高到63.91%,将Mistral-7B的准确率从36.46%提高到81.88%,将LLaMA3-8B-Instruct的准确率从74.53%提高到91.13%。代码将在https://github.com/zhentingqi/rStar 上提供。
扩散模型在图像和视频生成方面展现出卓越且稳健的能力。为了实现对生成结果更大的控制,研究人员引入了额外的架构,如ControlNet、适配器和ReferenceNet,以整合条件控制。然而,目前的可控生成方法通常需要大量额外的计算资源,尤其是对于视频生成,面临着训练挑战或表现出弱控制的问题。在本文中,我们提出了ControlNeXt:一种强大且高效的可控图像和视频生成方法。我们首先设计了一种更简单高效的架构,用较小的额外成本替代了繁重的额外分支,与基础模型相比。这样简洁的结构还使我们的方法能够与其他LoRA权重无缝集成,实现风格修改而无需额外训练。在训练方面,我们相比其他方法减少了高达90%的可学习参数。此外,我们提出了另一种名为交叉归一化(CN)的方法,作为“零卷积”的替代方案,实现快速且稳定的训练收敛。我们在图像和视频的不同基础模型上进行了各种实验,展示了我们方法的稳健性。
Med42-v2推出了一系列临床大型语言模型(LLMs),旨在解决医疗环境中通用模型的局限性。这些模型基于Llama3架构构建,并使用专门的临床数据进行微调。它们经历了多阶段的偏好对齐,以有效地回应自然提示。尽管通用模型通常会进行偏好对齐,以避免回答临床查询作为一种预防措施,但Med42-v2经过特别训练以克服这一限制,使其能够在临床环境中使用。与原始Llama3模型以及各种医学基准相比,Med42-v2模型在8B和70B参数配置以及GPT-4上展现出卓越的性能。这些LLMs旨在理解临床查询,执行推理任务,并在临床环境中提供有价值的帮助。这些模型现在可以在以下网址公开获取:https://huggingface.co/m42-health。
我们介绍了CogVideoX,这是一个大规模扩散变压器模型,旨在根据文本提示生成视频。为了有效地对视频数据建模,我们建议利用3D变分自动编码器(VAE)来压缩视频的空间和时间维度。为了改善文本-视频对齐,我们提出了一种专家变压器,配备专家自适应层归一化,以促进两种模态之间的深度融合。通过采用渐进式训练技术,CogVideoX擅长生成具有显著运动特征的连贯、长时间视频。此外,我们开发了一种有效的文本-视频数据处理流水线,其中包括各种数据预处理策略和视频字幕方法。这显著有助于增强CogVideoX的性能,提高生成质量和语义对齐度。结果表明,CogVideoX在多个机器指标和人类评估中均表现出最先进的性能。3D因果VAE和CogVideoX的模型权重均可在https://github.com/THUDM/CogVideo 公开获取。
我们介绍了FruitNeRF,这是一个统一的新型水果计数框架,利用最先进的视图合成方法直接在3D中计数任何类型的水果。我们的框架接收由单目摄像头捕获的无序姿态图像集,并在每个图像中分割水果。为了使我们的系统独立于水果类型,我们采用一个基础模型,为任何水果生成二进制分割掩模。利用RGB和语义两种模态,我们训练了一个语义神经辐射场。通过对隐式水果场进行均匀体积采样,我们获得仅包含水果的点云。通过在提取的点云上应用级联聚类,我们的方法实现了精确的水果计数。使用神经辐射场相比传统方法(如目标跟踪或光流)提供了显著优势,因为计数本身被提升到了3D。我们的方法可以防止水果被重复计数,并避免计数无关的水果。我们使用真实世界和合成数据集评估了我们的方法论。真实世界数据集包括三棵苹果树,具有手动计数的地面真值,一个具有一行和地面真实水果位置的基准苹果数据集,而合成数据集包括各种水果类型,包括苹果、李子、柠檬、梨、桃子和芒果。此外,我们评估了使用基础模型与U-Net相比进行水果计数的性能。
大型多模态模型(LMMs)引领了人工智能的新时代,将语言和视觉能力融合在一起,形成了高度能干的视觉基础代理。据推测,这些代理在各种任务上表现出色,有望接近通用人工智能。然而,现有基准测试未能充分挑战或展示LMMs在复杂的现实环境中的全部潜力。为了弥补这一空白,我们引入了VisualAgentBench(VAB),这是一个全面而开创性的基准测试,专门设计用于训练和评估LMMs作为视觉基础代理在各种场景下的表现,包括具身化、图形用户界面和视觉设计,任务旨在探究LMMs的理解和交互能力的深度。通过对九个专有LMM APIs和八个开放模型进行严格测试,我们展示了这些模型具有相当大但仍在发展中的代理能力。此外,VAB构建了一个轨迹训练集,通过包括基于程序的求解器、LMM代理引导和人类示范在内的混合方法,促进了LMMs的显著性能提升,通过行为克隆。我们的工作不仅旨在对现有模型进行基准测试,还为未来发展成为视觉基础代理奠定了坚实基础。代码、训练和测试数据,以及部分经过精细调整的开放LMMs可在https://github.com/THUDM/VisualAgentBench获取。
本文提出了一种新颖的3D头像创建方法,能够从少量野外数据中实现高保真度和可动画鲁棒性的泛化。考虑到这一问题的不确定性,融入先验知识至关重要。因此,我们提出了一个包括先验学习和头像创建阶段的框架。先验学习阶段利用从大规模多视角动态数据集中得出的3D头部先验,头像创建阶段则应用这些先验进行少样本个性化。我们的方法通过利用基于高斯散射的自动解码器网络和基于部件的动态建模有效地捕捉这些先验。我们的方法采用共享身份编码和个性化潜在代码,用于学习高斯基元的属性。在头像创建阶段,我们通过倒置和微调策略实现了快速头像个性化。大量实验证明,我们的模型有效地利用头部先验,并成功将其泛化到少样本个性化,实现了照片级渲染质量、多视角一致性和稳定动画。
本文介绍了UniPortrait,一种创新的人像个性化框架,将单一和多重身份定制统一起来,具有高面部保真度、丰富的面部可编辑性、自由形式输入描述和多样的布局生成。UniPortrait仅由两个即插即用的模块组成:ID嵌入模块和ID路由模块。ID嵌入模块采用解耦策略提取多功能可编辑的面部特征,并将它们嵌入扩散模型的上下文空间。然后,ID路由模块将这些嵌入自适应地组合和分配到合成图像中的各自区域,实现单一和多重身份的定制。通过精心设计的两阶段训练方案,UniPortrait在单一和多重身份定制方面实现了卓越的性能。定量和定性实验展示了我们的方法相对于现有方法的优势,以及其良好的可扩展性,例如与现有生成控制工具的通用兼容性。项目页面位于https://aigcdesigngroup.github.io/UniPortrait-Page/。
近年来,Transformer架构已成为自然语言处理和计算机视觉中应用的机器学习算法的事实标准。尽管在机器人学习背景下成功部署了这种架构的显著证据,但我们认为普通Transformer并未充分利用机器人学习问题的结构。因此,我们提出了Body Transformer(BoT),这是一种利用机器人实体的架构,通过提供引导学习过程的归纳偏差。我们将机器人身体表示为传感器和执行器的图,并依赖于掩码注意力来在整个架构中汇总信息。由此产生的架构在任务完成、规模特性和计算效率方面优于普通Transformer,以及经典的多层感知器,无论是表示模仿还是强化学习策略。包括开源代码在内的其他材料可在https://sferrazza.cc/bot_site找到。
尽管基于Transformer的大型语言模型取得了最近的成功,但它们展现出了一些令人惊讶的失败模式。其中一个众所周知的例子是它们无法进行长度泛化:在推理时解决比训练时见过的更长的问题实例。在这项工作中,我们通过对简单的奇偶任务中模型行为进行详细分析,进一步探讨这种失败的根本原因。我们的分析表明,长度泛化失败与模型无法在其上下文窗口内执行随机内存访问密切相关。我们通过展示规避索引需求或通过基于内容的寻址间接启用随机标记访问的方法的有效性,为这一假设提供了支持证据。我们进一步展示了模型无法执行随机内存访问的失败是如何通过注意力图可视化呈现出来的。