每日精选AI研究论文及翻译
语言模型在多种软件应用中展现了其有效性,尤其是在与自动工作流相关的任务中。这些模型具备调用函数的关键能力,这对于创建AI代理至关重要。尽管大规模语言模型在云环境中表现出色,但它们往往伴随着隐私和成本方面的担忧。当前的设备端模型在函数调用方面存在延迟和准确性问题。我们的研究提出了一种新方法,使一个拥有20亿参数的设备端模型在准确性和延迟方面均超越了GPT-4,并将上下文长度减少了95%。与采用RAG机制的Llama-7B相比,我们的方法将延迟提升了35倍。这种方法将延迟降低到适合在生产环境中部署于各种边缘设备的水平,符合实际应用的性能要求。
我们推出了Eurus,这是一套针对推理优化的大型语言模型(LLMs)。Eurus模型从Mistral-7B和CodeLlama-70B微调而来,在涵盖数学、代码生成和逻辑推理问题的多样化基准测试中,其在开源模型中达到了最先进的成果。特别值得一提的是,Eurus-70B在涵盖五项任务的12项综合基准测试中,推理能力超越了GPT-3.5 Turbo,并在两个具有挑战性的基准测试——LeetCode和TheoremQA上,分别取得了33.3%和32.6%的pass@1准确率,显著超越现有开源模型的表现,优势超过13.3%。Eurus的强劲表现主要归功于UltraInteract,这是我们为复杂推理任务精心策划的大规模高质量对齐数据集。UltraInteract可用于监督微调及偏好学习。对于每项指令,它包含一个偏好树,其中包括(1)以统一格式呈现的多样化规划策略推理链,(2)与环境和批判的多轮交互轨迹,以及(3)促进偏好学习的成对数据。UltraInteract使我们能够深入探索推理任务的偏好学习。我们的研究揭示,一些在常规对话中表现良好的偏好学习算法,在推理任务中可能并不那么适用。受此启发,我们推导出一个新颖的奖励建模目标,结合UltraInteract,形成了一个强大的奖励模型。
大型语言模型(LLMs)在处理超过32K标记的长序列方面取得了显著进展。然而,其性能评估主要局限于困惑度等指标和合成任务,这些可能无法全面反映其在更为复杂、真实世界场景中的能力。本研究引入了一个专门基准(LIConBench),聚焦于极端标签分类领域内的长上下文学习。我们精心挑选了六个数据集,标签范围从28到174类不等,涵盖了从2K到50K的不同输入(少样本演示)长度。我们的基准要求LLMs理解整个输入,以识别庞大的标签空间并做出正确预测。我们在基准上评估了13个长上下文LLMs。研究发现,在20K标记长度下,长上下文LLMs表现相对良好,且利用长上下文窗口带来了性能提升。然而,当上下文窗口超过20K后,除GPT-4外的多数LLMs性能急剧下降。这表明当前LLM在处理和理解长而丰富的上下文序列方面存在显著差距。进一步分析显示,模型倾向于对序列末尾出现的标签进行预测,其在长序列中对多个片段进行推理的能力仍有待提升。我们的研究表明,长上下文的理解和推理对现有LLMs仍是一项艰巨任务。我们相信LIConBench能为未来长上下文LLMs提供更为现实的评估。
我们使用流行的LLaVA框架,结合最近发布的Gemma系列大型语言模型(LLMs),训练了一系列多模态基础模型(MMFM)。特别值得一提的是2B参数的Gemma模型,它为构建能力出众的小规模MMFM提供了契机。根据该领域其他论文的研究发现,我们测试了三种设计特征的消融效果:连接器的预训练、采用更强大的图像骨干网络以及增大语言骨干网络的规模。由此产生的模型,我们称之为LLaVA-Gemma,在多项评估中表现出中等水平的表现,但未能超越当前同等规模的SOTA模型。深入分析性能显示,效果参差不齐;跳过预训练往往会降低性能,较大的视觉模型有时能提升性能,而增大语言模型规模的影响则不一致。我们公开发布了LLaVA-Gemma模型的训练配方、代码及权重。
可控性在视频生成中起着至关重要的作用,因为它使用户能够创作出所需的内容。然而,现有模型在很大程度上忽视了作为电影语言的摄像机姿态的精确控制,这种控制能够表达更深层次的叙事细微差别。为解决这一问题,我们引入了CameraCtrl,它能够为文本到视频(T2V)模型提供精确的摄像机姿态控制。在精确参数化摄像机轨迹后,一个即插即用的摄像机模块随后在T2V模型上进行训练,而其他部分保持不变。此外,我们还进行了关于不同数据集影响的综合研究,结果表明,具有多样摄像机分布和相似外观的视频确实能增强可控性和泛化能力。实验结果显示,CameraCtrl在实现精确且适应领域的摄像机控制方面效果显著,标志着我们在从文本和摄像机姿态输入追求动态和定制化视频叙事方面迈出了重要一步。我们的项目网站位于:https://hehao13.github.io/projects-CameraCtrl/。
我们推出了HyperCLOVA X,这是一系列针对韩语及文化定制的大型语言模型(LLMs),同时具备在英语、数学和编程方面的竞争能力。HyperCLOVA X在训练过程中采用了韩语、英语和代码数据的均衡混合,随后通过遵循严格安全指南的高质量人工标注数据集进行指令微调,体现了我们对负责任AI的承诺。该模型在多种基准测试中进行了评估,包括综合推理、知识、常识、事实性、编码、数学、聊天、指令跟随及无害性,涵盖韩语和英语。HyperCLOVA X在韩语中展现出强大的推理能力,这得益于对语言及文化细微差别的深刻理解。进一步分析其固有的双语特性及其向多语言扩展的能力,突显了模型在跨语言熟练度和对非目标语言的强大泛化能力,包括多对语言间的机器翻译和跨语言推理任务。我们相信,HyperCLOVA X能为地区或国家在开发自主LLMs方面提供有益的指导。
我们研究了潜在扩散模型(LDMs)的缩放特性,特别关注其采样效率。尽管改进的网络架构和推理算法已显示出能有效提升扩散模型的采样效率,但模型规模——这一决定采样效率的关键因素——尚未得到充分探讨。通过对已建立的文本到图像扩散模型进行实证分析,我们深入探究了模型规模如何影响不同采样步数下的采样效率。我们的研究发现了一个令人惊讶的趋势:在给定的推理预算下,较小的模型往往在生成高质量结果方面优于其较大的对应模型。此外,我们通过应用各种扩散采样器、探索不同的下游任务、评估后蒸馏模型以及与训练计算性能进行比较,展示了这些发现的可推广性。这些发现为LDM缩放策略的开发开辟了新途径,这些策略可以在有限的推理预算内提升生成能力。
大型语言模型(LLMs)因其处理人类语言及执行未经明确训练任务的能力而备受关注。这对于化学科学尤为重要,因为该领域面临数据集小且多样化的挑战,这些数据往往以文本形式存在。LLMs在解决这些问题上展现出潜力,并越来越多地被用于预测化学性质、优化反应,甚至自主设计与执行实验。然而,我们对LLMs在化学推理能力方面的理解仍非常有限,这限制了模型的改进及潜在危害的缓解。在此,我们引入了“ChemBench”,这是一个自动化框架,旨在严格评估最先进LLMs的化学知识和推理能力,并与人类化学家的专业知识进行对比。我们精心挑选了超过7,000个问题-答案对,涵盖化学科学的多个子领域,评估了领先的开放和闭源LLMs,发现最佳模型在平均水平上优于我们研究中表现最佳的人类化学家。然而,这些模型在某些化学推理任务上表现不佳,这些任务对人类专家来说却相对简单,并且它们提供了过于自信、具有误导性的预测,例如关于化学品安全性的评估。这些发现凸显了一个双重现实:尽管LLMs在化学任务中展现出显著的熟练度,但进一步的研究对于提升其在化学科学中的安全性和实用性至关重要。我们的研究结果还表明,需要对化学课程进行调整,并强调继续开发评估框架以改进安全且有用的LLMs的重要性。
最先进的大型语言模型的预训练如今需要数万亿字的文本,这远远超出了绝大多数语言可获取的文本量级。尽管包含多种语言的文本是获取更多预训练数据的显而易见的方法,但多语言性常被视为一种诅咒,大多数模型训练工作仍几乎完全集中在个别大型语言上。我们相信,多语言性可以是一种福音,通过多语言训练,完全有可能显著提升对小语言的处理能力,超越单语模型的表现。在本研究中,我们推出了Poro 34B,这是一个拥有340亿参数的模型,针对芬兰语、英语及编程语言进行了1万亿个标记的训练,并证明多语言训练方法不仅能大幅提升现有芬兰语模型的能力,还在翻译方面表现出色,并在生成英语和编程语言方面与其类别中的模型竞争激烈。我们已在https://huggingface.co/LumiOpen/Poro-34B 下以开放许可发布模型参数、脚本和数据。
我们提出了3D Congealing,这是一个针对捕捉语义相似对象的2D图像进行3D感知对齐的新问题。给定一组未标记的互联网图像,我们的目标是关联输入图像中的共享语义部分,并将2D图像的知识聚合到一个共享的3D规范空间中。我们引入了一个通用框架,该框架在不假设形状模板、姿态或任何相机参数的情况下处理此任务。其核心是一个规范的3D表示,它封装了几何和语义信息。该框架优化了规范表示以及每个输入图像的姿态,以及一个逐图像的坐标映射,该映射将2D像素坐标扭曲到3D规范框架中,以考虑形状匹配。优化过程融合了来自预训练图像生成模型的先验知识和输入图像的语义信息。前者为此欠约束任务提供了强大的知识指导,而后者提供了必要的信息以缓解预训练模型中的训练数据偏差。我们的框架可用于各种任务,如对应匹配、姿态估计和图像编辑,在具有挑战性的光照条件下和在野外的在线图像集合上,在真实世界的图像数据集上取得了强大的结果。
我们提出了LLM-ABR,这是首个利用大型语言模型(LLMs)的生成能力,自主设计适应性比特率(ABR)算法的系统,该算法针对多样化的网络特性进行了定制。在强化学习框架内运行,LLM-ABR使LLMs能够设计关键组件,如状态和神经网络架构。我们在多种网络环境下评估了LLM-ABR,包括宽带、卫星、4G和5G。LLM-ABR始终优于默认的ABR算法。