每日精选AI研究论文及翻译
人类反馈强化学习(RLHF)已成为一种流行的范式,用于使模型与人类意图保持一致。通常,RLHF算法分为两个阶段:首先,利用人类偏好来学习奖励函数;其次,通过强化学习(RL)优化学习到的奖励以对齐模型。这种范式假设人类偏好是根据奖励分布的,但最近的研究表明,它们实际上是根据用户最优策略下的后悔而不是奖励。因此,从反馈中学习奖励函数不仅基于对人类偏好的错误假设,还会导致在RL阶段中由策略梯度或引导引起的棘手的优化挑战。由于这些优化挑战,当代RLHF方法将自己限制在上下文匹配设置(例如大型语言模型)或限制观测维度(例如基于状态的机器人技术)。我们通过引入一系列新算法来克服这些限制,用于使用基于后悔的人类偏好模型优化行为。利用最大熵原理,我们推导出对比偏好学习(CPL)算法,用于从偏好中学习最优策略,而无需学习奖励函数,从而避免了对RL的需求。CPL完全是离线策略,仅使用简单的对比目标,并可应用于任意MDP。这使CPL能够优雅地扩展到高维和序贯RLHF问题,同时比先前的方法更简单。
*数据合成* 是一种有前途的方法,可以用非常少的标记数据来训练小模型。一种数据合成的方法是利用大型语言模型的丰富知识,为小模型合成伪训练样本,从而同时实现数据和计算效率。然而,数据合成面临的一个关键挑战是,合成数据集往往与*真实任务*数据分布存在很大的差异。因此,在本文中,我们提出了*逐步合成*(**S3**),这是一个数据合成框架,通过迭代地利用大型语言模型在小型真实验证数据集上推断出小模型在合成数据集上的错误,从而缩小这种分布差距。在多个自然语言处理任务上进行的大量实验表明,我们的方法通过减少合成数据集与真实数据之间的差距,显著提高了小模型的性能,相较于几种基准方法取得了显著改进:与ZeroGen相比提高了9.48%,与GoldGen相比提高了2.73%,与基于人工标注数据训练的小模型相比最多提高了15.17%。
扩散概率模型(DPMs)在高保真图像生成方面表现出色,但存在采样效率低的问题。最近的研究通过提出利用DPMs特定ODE形式的快速ODE求解器来加速采样过程。然而,它们在推断过程中高度依赖特定参数化(如噪声/数据预测),这可能不是最佳选择。在这项工作中,我们提出了一种新的公式,朝向在采样过程中实现最佳参数化,以最小化ODE解的一阶离散化误差。基于这种公式,我们提出了DPM-Solver-v3,一种新的快速DPMs的ODE求解器,通过引入在预训练模型上高效计算的几个系数,我们称之为经验模型统计。我们进一步结合多步方法和预测校正框架,并提出一些技术,以改善在少量函数评估(NFE)或大指导尺度下的样本质量。实验证明,DPM-Solver-v3在无条件和有条件采样中,无论是像素空间还是潜在空间的DPMs中,特别是在5至10个NFE时,均实现了一贯更好或相当的性能。我们在无条件CIFAR10上实现了12.21(5 NFE)、2.51(10 NFE)的FID,以及在Stable Diffusion上实现了0.55(5 NFE,7.5指导尺度)的MSE,相较于先前的最先进无需训练的方法,加快了15%至30%的速度。代码可在https://github.com/thu-ml/DPM-Solver-v3找到。
听觉可以说是人工智能(AI)代理在现实世界中的一项关键能力,指的是对包括至少三种类型声音在内的一般听觉信息的感知和理解:语音、音频事件和音乐。在本文中,我们提出了SALMONN,即语音音频语言音乐开放神经网络,通过将预训练的基于文本的大型语言模型(LLM)与语音和音频编码器集成到单一的多模态模型中构建而成。SALMONN使LLM能够直接处理和理解一般音频输入,并在训练中使用的多项语音和音频任务上取得竞争性表现,例如自动语音识别和翻译、基于听觉信息的问答、情感识别、说话者验证以及音乐和音频字幕等。SALMONN还具有多样的新兴能力,这些能力在训练中未曾见过,包括但不限于对未训练语言的语音翻译、基于语音的槽填充、基于口头查询的问答、基于音频的叙事,以及语音音频共推理等。我们研究了跨模态新兴能力的存在,并提出了一种新颖的少样本激活调整方法来激活SALMONN的这些能力。据我们所知,SALMONN是其类型的第一个模型,可视为具有通用听觉能力的AI迈出的一步。SALMONN的交互式演示可在\url{https://github.com/bytedance/SALMONN}上找到,训练代码和模型检查点将在接受后发布。
大型语言模型(LLMs)在自然语言处理中展现出令人印象深刻的新颖能力,但由于巨大的计算需求和封闭源特性,它们的民主化受到阻碍。最近关于通过从黑盒LLMs中提炼知识来推进开源较小型LLMs的研究在指令遵循能力方面取得了令人期待的结果。然而,更具挑战性的推理能力相对较少被探索。本文提出了一种定制的学习方法,用于将这种推理能力提炼到较小型LLMs中,以促进独占性推理能力的民主化。与仅仅将LLM作为数据标注者不同,我们利用LLM作为推理教师的潜力,构建了一个交互式多轮学习范式。这一范式使学生能够向黑盒教师展示其不足之处,而后者可以提供定制的训练数据作为回报。此外,为了挖掘较小型LM的推理潜力,我们提出了自我反思学习,以激励学生从自身错误中学习。由于与多轮学习范式的无缝集成,来自自我反思和LLM的学习都针对学生的学习状态进行了定制。对数学和常识推理任务的全面实验和分析展示了我们方法的有效性。代码将在https://github.com/Raibows/Learn-to-Reason 上提供。
大型语言模型(LLMs)已经展示了在解决复杂的现实世界问题中具有强大的决策和规划能力。基于LLM的自主代理可以与各种工具(例如功能API)进行交互,并生成执行一系列API函数调用的解决方案计划。候选API函数调用的众多选择显著扩展了行动空间,增加了对高效行动空间导航的关键需求。然而,现有方法要么在庞大的行动空间中难以进行单向探索,陷入局部最优解,要么遭受穷举遍历所有潜在行动的困扰,导致导航低效。为了解决这些问题,我们提出了ToolChain*,这是一种基于高效树搜索的LLM代理规划算法。它将整个行动空间构建为一个决策树,其中每个节点代表解决方案计划中涉及的可能API函数调用。通过将A*搜索算法与特定任务成本函数设计相结合,它有效地修剪可能涉及错误操作的高成本分支,识别最低成本的有效路径作为解决方案。对多个工具使用和推理任务进行的广泛实验表明,ToolChain*在庞大行动空间中有效平衡了探索和利用。在规划和推理任务上,它的表现优于现有技术基线,平均提高了3.1%和3.5%,同时分别减少了7.35倍和2.31倍的时间。
基于扩散的方法在生成2D媒体方面取得了显著成功。然而,在3D空间应用中(如XR/VR)实现类似的场景级网格纹理技能仍受限,主要是由于3D几何的复杂性以及对沉浸式自由视点渲染的必要性。本文提出了一种新颖的室内场景纹理框架,通过文本驱动的纹理生成提供具有迷人细节和真实空间连贯性的纹理。关键见解是首先从场景的中心视点想象出一种风格化的360°全景纹理,然后通过修补和模仿技术将其传播到其余区域。为了确保纹理对场景有意义且对齐,我们开发了一种新颖的粗到细的全景纹理生成方法,具有双纹理对齐,既考虑了捕捉场景的几何形状和纹理线索。为了在纹理传播过程中避免杂乱的几何形状,我们设计了一种分离策略,该策略在机密区域进行纹理修补,然后学习隐式模仿网络,以合成遮挡和微小结构区域的纹理。对真实世界室内场景进行了大量实验和沉浸式VR应用,证明了生成纹理的高质量以及在VR头显上引人入胜的体验。项目网页:https://ybbbbt.com/publication/dreamspace
近期的研究表明,通过促使大型语言模型(LLMs)分析和修订自身输出,这些模型具有自我改进的能力,引起了广泛关注。然而,这种能力被证明在较小的模型中缺失且难以学习,从而扩大了最先进的LLMs与更具成本效益和更快速模型之间的性能差距。为了缩小这一差距,我们提出了TriPosT,一种训练算法,赋予较小模型这种自我改进的能力,并展示了我们的方法可以将LLaMA-7b模型在数学和推理任务上的性能提高高达7.13%。与先前的工作相比,我们通过使用较小模型与LLMs进行交互,收集反馈和改进自身生成的方式来实现这一目标。然后,我们重放这一经验来训练小模型。我们在四个数学和推理数据集上的实验表明,从中互动学习并纠正自身错误的经验对于小模型改善性能至关重要。
大型语言模型(LLMs)可以通过遵循自然语言指令执行各种任务,无需进行特定任务的微调。不幸的是,LLMs的性能在很大程度上受这些指令质量的影响,为每个任务手动编写有效指令是一个费时且主观的过程。在本文中,我们介绍了Auto-Instruct,一种新颖的方法,可自动提高提供给LLMs的指令质量。我们的方法利用LLMs固有的生成能力为给定任务生成多样的候选指令,然后利用在575个现有NLP任务上训练的评分模型对它们进行排名。在对118个领域外任务进行的实验中,Auto-Instruct超越了人工编写的指令和LLM生成指令的现有基线。此外,我们的方法表现出显著的泛化能力,即使对于未纳入其训练过程的其他LLMs也是如此。
利用来自更强大的LLMs(如Instruct-GPT和GPT-4)的直接输出对开源大型语言模型(LLMs)进行指导调整,已被证明是一种成本有效的方法,可以使模型行为与人类偏好保持一致。然而,经过指导调整的模型只看到每个指令的一个响应,缺乏潜在更好响应的知识。在本文中,我们提出了使用我们的新颖概率排名和上下文排名方法对经过指导调整的LLM进行微调,以增加生成更好响应的可能性。概率排名使经过指导调整的模型继承了来自教师LLM的高质量和低质量响应的相对排名。另一方面,学习上下文排名使模型利用更强大LLMs的上下文理解能力来优化自己的响应分布。此外,我们将概率排名和上下文排名依次应用于经过指导调整的LLM。得到的模型,我们称之为Tuna,在超自然指令(119个测试任务)、LMentry(25个测试任务)、Vicuna QA上始终改善性能,并且甚至可以获得比几个强强化学习基线更好的结果。我们的代码和数据可在https://github.com/microsoft/LMOps获取。
基于网络规模的图像字幕数据集的图像文本预训练已经成为开放词汇分类和检索模型的默认方法,这要归功于CLIP及其变体的成功。一些研究还使用了CLIP特征进行密集预测任务,并展示了开放集能力的出现。然而,对比目标仅关注图像文本对齐,并不鼓励图像特征学习用于密集预测任务。在这项工作中,我们提出通过自蒸馏学习实现局部到全局对应关系的简单添加作为对比预训练的额外目标,从而提出SILC。我们展示,从指数移动平均(EMA)教师模型中提炼局部图像特征显著提高了模型在包括分类、检索和尤其是分割在内的多个计算机视觉任务上的性能。我们进一步展示,与基线相比,SILC在相同的训练持续时间内具有更好的扩展性。我们的模型SILC在零样本分类、少样本分类、图像和文本检索、零样本分割以及开放词汇分割方面树立了新的技术水平。
工具使用是高级智能的标志,既体现在动物行为中,也体现在机器人的能力中。本文研究了赋予机器人创造性使用工具的能力的可行性,这涉及到涉及隐含物理约束和长期规划的任务。利用大型语言模型(LLMs),我们开发了RoboTool,这是一个系统,它接受自然语言指令,并输出控制机器人在模拟和真实环境中的可执行代码。RoboTool包括四个关键组件:(i)“分析器”,用于解释自然语言以识别关键任务相关概念,(ii)“规划器”,根据语言输入和关键概念生成全面的策略,(iii)“计算器”,计算每个技能的参数,以及(iv)“编码器”,将这些计划转换为可执行的Python代码。我们的结果表明,RoboTool不仅可以理解显式或隐式的物理约束和环境因素,还可以展示创造性的工具使用。与依赖显式优化的传统任务和运动规划(TAMP)方法不同,我们基于LLM的系统为复杂的机器人任务提供了更灵活、高效和用户友好的解决方案。通过大量实验,我们验证了RoboTool在处理否则无法实现的需要创造性工具使用的任务方面表现出色,从而拓展了机器人系统的能力。我们的项目页面上提供了演示:https://creative-robotool.github.io/。
大型语言模型(LLMs)代表了人工智能领域的一场革命。然而,它们也带来了许多重大风险,比如存在偏见、私密、受版权保护或有害文本。因此,我们需要开放、透明和安全的解决方案。我们推出了一个完整的开源生态系统,用于开发和测试LLMs。该项目的目标是推动开放替代方案取代闭源方法。我们发布了h2oGPT,这是一个包含70亿个参数的经过精细调整的LLMs系列。我们还推出了H2O LLM Studio,这是一个框架和无代码图形用户界面,旨在使用最新的尖端技术高效进行LLMs的精细调整、评估和部署。我们的代码和模型使用完全宽松的Apache 2.0许可证。我们相信开源语言模型有助于推动人工智能的发展,并使其更加易于获取和可信赖。演示可在以下网址查看:https://gpt.h2o.ai/
人类反馈强化学习(RLHF)是训练高质量人工智能助手的一种流行技术。然而,RLHF可能会鼓励模型生成符合用户信念而非真实回复的行为,这种行为被称为谄媚行为。我们调查了在RLHF训练的模型中谄媚行为的普遍性以及人类偏好判断是否负有责任。我们首先展示了五个最先进的人工智能助手在四个不同的自由文本生成任务中一贯表现出谄媚行为。为了了解人类偏好是否驱使RLHF模型这种广泛观察到的行为,我们分析了现有的人类偏好数据。我们发现,当一个回复与用户观点一致时,更有可能被偏好。此外,人类和偏好模型(PMs)在极少数情况下更偏好写得令人信服的谄媚回复而非正确回复。针对PMs优化模型输出有时会以谄媚为代价而牺牲真实性。总的来说,我们的结果表明谄媚是RLHF模型的一种普遍行为,很可能部分受到人类偏好判断青睐谄媚回复的影响。
在扩散模型中,UNet是最流行的网络骨干,因为其长跳连接(LSCs)能够连接远距离的网络块,从而聚合远距离信息并缓解梯度消失问题。不幸的是,UNet在扩散模型中经常遭受不稳定训练的困扰,可以通过缩小其LSC系数来缓解这一问题。然而,目前尚缺乏关于UNet在扩散模型中不稳定性以及LSC缩放对性能改善的理论理解。为了解决这个问题,我们从理论上证明了UNet中LSC的系数对前向和反向传播的稳定性以及UNet的鲁棒性有很大影响。具体来说,UNet在任何层的隐藏特征和梯度可以振荡,其振荡范围实际上很大,这解释了UNet训练的不稳定性。此外,UNet对扰动输入也敏感,并预测与期望输出相距甚远,导致振荡损失和振荡梯度。此外,我们还观察到UNet的LSC系数缩放在隐藏特征和梯度的稳定性以及鲁棒性方面的理论优势。最后,受到我们理论的启发,我们提出了一个有效的系数缩放框架ScaleLong,该框架调整UNet中LSC的系数,并更好地改善UNet的训练稳定性。在四个著名数据集上的实验结果表明,我们的方法优于稳定训练,并在具有UNet或UViT骨干的不同扩散模型上实现了约1.5倍的训练加速。源代码:https://github.com/sail-sg/ScaleLong