每日精选AI研究论文及翻译
机器学习社区正在迅速探索提示语言模型(LMs)和将它们堆叠成解决复杂任务的管道的技术。不幸的是,现有的LM管道通常是使用硬编码的“提示模板”实现的,即通过试错发现的冗长字符串。为了更系统地开发和优化LM管道,我们引入了DSPy,这是一个将LM管道抽象为文本转换图的编程模型,即命令式计算图,其中LMs通过声明性模块调用。DSPy模块是参数化的,这意味着它们可以学习(通过创建和收集演示)如何应用提示、微调、增强和推理技术的组合。我们设计了一个编译器,将优化任何DSPy管道以最大化给定的度量。我们进行了两个案例研究,展示简洁的DSPy程序可以表达和优化复杂的LM管道,用于解决数学问题、处理多跳检索、回答复杂问题和控制代理循环。在几分钟的编译后,几行DSPy代码就可以让GPT-3.5和llama2-13b-chat自助引导管道,胜过标准的少样本提示(一般分别高出25%和65%),以及具有专家创建演示的管道(分别高出5-46%和16-40%)。此外,编译为开放和相对较小的LMs(如770M参数的T5和llama2-13b-chat)的DSPy程序与依赖专家编写的提示链的专有GPT-3.5方法相竞争。DSPy可在https://github.com/stanfordnlp/dspy获得。
“思考是为了行动。” 人类可以从观察中推断他人的心理状态,这种能力被称为心灵理论(ToM),随后可以实用地根据这些推断采取行动。现有的问答基准测试,如ToMi,要求模型根据故事中角色的信念进行推断,但并不测试模型是否能够利用这些推断来指导他们的行动。我们提出了一个新的大型语言模型(LLMs)评估范式:思考为了行动(T4D),这需要模型将关于他人心理状态的推断与社交场景中的行动联系起来。对T4D的实验表明,诸如GPT-4和PaLM 2等LLMs似乎擅长追踪故事中角色的信念,但他们难以将这种能力转化为战略行动。我们的分析揭示了LLMs的核心挑战在于识别关于心理状态的隐含推断,而不是像ToMi那样明确询问,这些推断导致在T4D中选择正确的行动。为了弥合这一差距,我们引入了一种零-shot提示框架,预见和反思(FaR),它提供了一种鼓励LLMs预测未来挑战并思考潜在行动的推理结构。FaR将GPT-4在T4D上的表现从50%提升至71%,优于Chain-of-Thought和Self-Ask等其他提示方法。此外,FaR可以推广到多样的超出分布的故事结构和场景,这些场景也需要ToM推断来选择行动,始终优于其他方法,包括少样本上下文学习。
大型语言模型(LLMs)如GPT-4在各种任务中展现出卓越的性能,但这种强大性能通常伴随着使用付费API服务的高昂成本。本文的动机在于研究构建LLM级联以节省使用LLMs的成本,特别是用于执行推理(例如数学、因果)任务。我们的级联流程遵循这样的直觉,即较简单的问题可以由一个更弱但更经济实惠的LLM解决,而只有具有挑战性的问题才需要更强大、更昂贵的LLM。为了实现这种决策过程,我们将较弱LLM的“答案一致性”视为问题难度的信号,并提出了几种答案抽样和一致性检查的方法,包括利用两种思维表示的混合(即思维链和思维程序)。通过在六个推理基准数据集上进行实验,其中GPT-3.5-turbo和GPT-4分别作为较弱和较强LLMs,我们证明了我们提出的LLM级联可以实现与仅使用更强LLM相当的性能,但仅需其成本的40%。
如今,用户将大型语言模型(LLMs)视为助手来回答需要外部知识的查询;他们询问特定城市的天气情况、股票价格,甚至询问自己社区内特定位置的所在地。这些查询要求LLM生成调用外部API以回答用户问题的代码,然而LLMs很少能在第一次尝试中生成正确的代码,需要在执行结果上进行迭代代码优化。此外,使用LLM助手支持大量查询可能成本高昂。在这项工作中,我们提出了一个名为EcoAssistant的框架,使LLMs能够更经济、更准确地回答基于代码的查询。EcoAssistant包含三个组件。首先,它允许LLM助手与自动代码执行器交流,以迭代地优化代码或根据执行结果生成答案。其次,我们使用LLM助手的层次结构,尝试使用较弱、更便宜的LLMs回答查询,然后再转向更强大、更昂贵的LLMs。第三,我们从过去成功查询中检索解决方案作为上下文演示,以帮助后续查询。从经验上看,我们展示了EcoAssistant在经济性和准确性方面具有明显优势,成功率比GPT-4高出10个百分点,成本不到GPT-4的50%。