每日精选AI研究论文及翻译
近年来,基于Transformer的大型语言模型(LLM)在各个领域的性能取得了显著进展。随着这些LLM被部署到越来越复杂的任务中,它们经常需要进行更长的推理过程或理解更大的上下文。在这些情况下,LLM在长序列上的长度泛化失败变得更加突出。大多数预训练方案会将训练序列截断为固定长度(例如LLaMa的2048)。即使使用了相对位置编码来应对这个问题,LLM在更长的上下文之后往往难以生成流畅的文本,更别提完成下游任务了。常见的解决方案,比如在更长的语料库上微调,往往涉及艰巨的硬件和时间成本,并需要谨慎设计训练过程。为了更有效地利用现有LLM的生成能力,我们在理论和实证上研究了导致这一问题的主要分布外因素。受到这一诊断的启发,我们提出了一个简单而有效的解决方案,即LM-Infinite,它仅涉及一个Lambda形状的注意力掩码和一个距离限制,无需参数更新或学习。我们发现它适用于使用相对位置编码方法的各种LLM。LM-Infinite在计算上高效,时间和空间复杂度为O(n),在ArXiv和OpenWebText2数据集上展现出一致的流畅性和生成质量,最长可达32k个标记,并且解码速度提升了2.72倍。在下游任务(如密码检索)中,它可以继续处理比训练长度长得多的输入,而传统模型会立即失败。
最近,多模态大型语言模型引起了广泛关注。然而,大多数研究侧重于视觉-语言多模态模型,在遵循视觉和语言指令方面具有强大的能力。然而,我们认为语音也是人类与世界互动的重要形式。因此,对于一般用途助手而言,能够遵循多模态语音和语言指令至关重要。在这项工作中,我们提出了大型语言和语音模型(LLaSM)。LLaSM是一个端到端训练的大型多模态语音-语言模型,具有跨模态对话能力,能够遵循语音和语言指令。我们早期的实验表明,LLaSM展示了人类与人工智能互动的更便捷和自然方式。具体来说,我们还发布了一个大型语音指令遵循数据集LLaSM-Audio-Instructions。代码和演示可在https://github.com/LinkSoul-AI/LLaSM 和https://huggingface.co/spaces/LinkSoul/LLaSM 找到。LLaSM-Audio-Instructions 数据集可在https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions 找到。
我们介绍了 Jais 和 Jais-chat,这是新一代的以阿拉伯语为中心的基础和指导调整的开放生成式大型语言模型(LLMs)。这些模型基于 GPT-3 的仅解码器架构,并在混合阿拉伯语和英语文本(包括各种编程语言的源代码)上进行了预训练。拥有 130亿参数,它们在阿拉伯语方面展示出比任何现有的开放阿拉伯语和多语言模型更好的知识和推理能力,根据广泛的评估结果,优势明显。此外,尽管在较少的英语数据上训练,但与类似规模的英语为中心的开放模型相比,这些模型在英语方面也具有竞争力。我们提供了关于模型训练、调整、安全对齐和评估的详细描述。我们发布了两个模型的开放版本 -- 基础的 Jais 模型和一个指导调整的 Jais-chat 变体 -- 旨在促进对阿拉伯语LLMs的研究。可在 https://huggingface.co/inception-mbzuai/jais-13b-chat 获取。
为了让机器人在实验室和专业工厂之外发挥作用,我们需要一种快速教导它们新的有用行为的方法。目前的方法要么缺乏足够的普适性来学习新任务而无需特定工程,要么缺乏数据效率,无法在合理时间内实现实际应用。在这项工作中,我们探讨了密集跟踪作为一种表征工具,以实现更快速、更普适的示范学习。我们的方法利用“跟踪任意点”(TAP)模型来分离示范中的相关运动,并对低层控制器进行参数化,以在场景配置变化时重现这种运动。我们展示了这将产生强大的机器人策略,可以解决复杂的物体排列任务,如形状匹配、堆叠,甚至全程跟随任务,如涂胶和粘合物体,所有这些都可以从几分钟内收集的示范中学习。
WeatherBench 2 是 Rasp等人(2020)提出的全球中程(1-14天)天气预报基准的更新版本,旨在加快数据驱动天气建模的进展。WeatherBench 2 包括一个开源评估框架,公开可用的训练、基准数据以及一个持续更新的网站,提供最新的指标和最先进的模型:https://sites.research.google/weatherbench。本文描述了评估框架的设计原则,并展示了当前最先进的物理和数据驱动天气模型的结果。这些指标基于评估领先操作性气象中心的天气预报的已建立实践。我们定义了一组主要得分,以提供模型性能的概览。此外,我们还讨论了当前评估设置中的警告和数据驱动天气预报未来面临的挑战。
学习战略机器人行为——例如在追逐-逃避交互中所需的行为——在现实世界的约束下是极具挑战性的。它需要利用交互的动态,并通过物理状态和潜在意图的不确定性进行规划。在本文中,我们将这个棘手的问题转化为一个监督学习问题,其中一个完全可观测的机器人策略为一个部分可观测的机器人策略生成监督。我们发现,对于部分可观测的追逐者策略来说,监督信号的质量取决于两个关键因素:逃避者行为的多样性和最优性的平衡,以及完全可观测策略中建模假设的强度。我们将我们的策略部署在一台具有RGB-D摄像头的四足机器人上,用于野外的追逐-逃避交互。尽管存在诸多挑战,感知约束也带来了创造力:当不确定时,机器人被推动收集信息,从嘈杂的测量中预测意图,并进行预测以拦截。项目网页:https://abajcsy.github.io/vision-based-pursuit/