每日精选AI研究论文及翻译
为了追求高效的自动化内容创作,程序生成成为一种有前途的方法,利用可修改参数和基于规则的系统。然而,考虑到其复杂性,这可能是一项具有挑战性的工作,需要深刻理解规则、算法和参数。为了减轻工作量,我们引入了3D-GPT,这是一个利用大型语言模型(LLMs)进行指令驱动的3D建模的框架。3D-GPT将LLMs定位为熟练的问题解决者,将程序化3D建模任务分解为易访问的部分,并为每个任务指定适当的代理。3D-GPT集成了三个核心代理:任务分派代理、概念化代理和建模代理。它们共同实现了两个目标。首先,它增强了简洁的初始场景描述,将其演变为详细形式,同时根据后续指令动态调整文本。其次,它集成了程序生成,从丰富文本中提取参数值,以便轻松地与3D软件进行资产创建的接口。我们的实证调查证实,3D-GPT不仅解释和执行指令,提供可靠的结果,而且还与人类设计师有效合作。此外,它与Blender无缝集成,拓展了操控可能性。我们的工作突显了LLMs在3D建模中的潜力,为未来在场景生成和动画方面的进展提供了基本框架。
开放式大型语言模型(LLMs)在各种任务中表现出色,显著推动了LLMs的发展。然而,当作为处理现实世界复杂任务的代理时,它们远不及商业模型如ChatGPT和GPT-4。这些代理任务将LLMs作为中央控制器,负责规划、记忆和工具利用,需要精细提示方法和强大的LLMs以实现令人满意的性能。尽管已提出许多提示方法来完成特定代理任务,但缺乏专注于提升LLMs代理能力而不损害其通用能力的研究。在这项工作中,我们提出了AgentTuning,这是一种简单通用的方法,可增强LLMs的代理能力,同时保持其通用LLMs能力。我们构建了AgentInstruct,一个轻量级的指令调整数据集,包含高质量的交互轨迹。我们采用混合指令调整策略,将AgentInstruct与通用领域的开源指令相结合。AgentTuning用于指令调整Llama 2系列,生成AgentLM。我们的评估表明,AgentTuning使LLMs的代理能力得到增强,而不损害其通用能力。AgentLM-70B在未知代理任务上可与GPT-3.5-turbo相媲美,展示了广义代理能力。我们在https://github.com/THUDM/AgentTuning 开源了AgentInstruct和AgentLM-7B、13B和70B模型,为代理任务提供了开放且强大的替代方案。
随着大型语言模型(LLMs)的发展,平衡AI系统性能和安全性的重要性变得前所未有。然而,在LLM训练过程中,有关帮助性和无害性目标之间的固有紧张关系提出了重大挑战。为解决这一问题,我们提出了一种新颖的算法,即来自人类反馈的安全强化学习(Safe RLHF),用于人类价值观对齐。Safe RLHF明确地将有关帮助性和无害性的人类偏好解耦,有效地避免了众包工作者对紧张关系的困惑,并允许我们训练独立的奖励和成本模型。我们将LLMs的安全性问题形式化为最大化奖励函数同时满足指定成本约束的优化任务。利用Lagrange方法解决这一受限问题,Safe RLHF在微调过程中动态调整了两个目标之间的平衡。通过使用Safe RLHF进行三轮微调,我们展示了相对于现有价值对齐算法,更好地减轻有害响应并提升模型性能的能力。在实验中,我们使用Safe RLHF对Alpaca-7B进行微调,并将其与收集到的人类偏好进行对齐,根据人类评估显著提高了其帮助性和无害性。
大型语言模型(LLMs)在顺序决策任务中表现出色,作为高级语义规划器。然而,利用它们学习复杂的低级操作任务,如灵巧的转笔技巧,仍然是一个悬而未决的问题。我们弥合了这一基本差距,并提出了Eureka,一种由LLMs驱动的人类级奖励设计算法。Eureka利用了最先进的LLMs(如GPT-4)的显著零射生成、编写代码和上下文改进能力,通过对奖励代码进行进化优化。然后,可以利用生成的奖励来通过强化学习获取复杂技能。在29个开源RL环境中(包括10种不同的机器人形态),Eureka在83%的任务上优于人类专家,在平均标准化改进率达到52%。Eureka的通用性还实现了一种新的无梯度上下文学习方法,即通过人类反馈进行强化学习(RLHF),可以方便地整合人类输入,以改进生成的奖励的质量和安全性,而无需模型更新。最后,通过在课程学习环境中使用Eureka奖励,我们首次展示了一个模拟的Shadow Hand,能够进行转笔技巧,熟练地在高速下旋转笔。
强化学习(RL)要么需要手动指定奖励函数,这通常是不可行的,要么需要从大量人类反馈中学习奖励模型,这往往非常昂贵。我们研究了一种更加样本高效的替代方案:使用预训练的视觉语言模型(VLMs)作为零样本奖励模型(RMs),通过自然语言指定任务。我们提出了一种自然且通用的使用VLMs作为奖励模型的方法,我们称之为VLM-RMs。我们使用基于CLIP的VLM-RMs来训练MuJoCo仿真人学习复杂任务,而无需手动指定奖励函数,比如跪下、劈叉和盘腿坐等任务。对于这些任务中的每一个,我们仅提供一个描述所需任务的单个句子文本提示,而且最小限度地进行提示工程。我们在以下网址提供了训练代理的视频:https://sites.google.com/view/vlm-rm。通过提供第二个“基准”提示并投影出与区分目标和基准无关的CLIP嵌入空间的部分,我们可以提高性能。此外,我们发现VLM-RMs存在强烈的扩展效应:使用更多计算资源和数据训练的更大型VLMs是更好的奖励模型。我们遇到的VLM-RMs的失败模式都与当前VLMs已知的能力限制相关,比如有限的空间推理能力或视觉上不真实的远离VLM分布的环境。我们发现只要VLM足够大,VLM-RMs就非常稳健。这表明未来的VLMs将变得越来越有用,可以成为各种RL应用的奖励模型。
创作音乐是一个迭代的过程,每个阶段都需要不同的方法。然而,现有的人工智能音乐系统在为多样化需求编排多个子系统方面存在不足。为了填补这一空白,我们引入了Loop Copilot,这是一个新颖的系统,可以让用户通过交互式的多轮对话界面生成并迭代地完善音乐。该系统使用一个大型语言模型来解释用户意图,并选择适当的人工智能模型来执行任务。每个后端模型都专门针对特定任务,它们的输出被汇总以满足用户的需求。为了确保音乐的连贯性,关键属性被保存在一个集中的表中。我们通过半结构化的访谈和问卷调查评估了所提出系统的有效性,突出了它不仅在促进音乐创作方面的实用性,还在更广泛应用方面的潜力。
现在,大型语言模型(LLMs)以各种规模和配置从云API提供商处提供。虽然这种多样性提供了广泛的选择,但有效利用这些选项以优化计算成本和性能仍然具有挑战性。在这项工作中,我们提出了AutoMix,一种策略性地将查询路由到更大的LM的方法,这取决于从较小LM的输出的近似正确性。AutoMix的核心是一种少样本自我验证机制,它可以估计自身输出的可靠性,而无需进行训练。考虑到验证可能存在噪声,我们在AutoMix中使用一个元验证器来提高这些评估的准确性。我们在五个基于上下文推理数据集上使用LLAMA2-13/70B进行的实验表明,AutoMix超越了已建立的基准线,将每单位成本的增量收益提高了高达89%。我们的代码和数据可在https://github.com/automix-llm/automix 上获得。
广泛使用的语言模型(LMs)通常是通过扩大规模的两阶段训练流程构建的:一个是使用非常庞大、多样化的文本数据集进行预训练阶段,另一个是使用有针对性的示例或其他所需行为规范的微调(有时称为“对齐”)阶段。虽然有人假设知识和技能来自预训练阶段,而微调主要是过滤这些知识和技能集,但这种直觉尚未得到广泛测试。为了帮助进行测试,我们引入了一种新颖的技术,用于解耦这两个阶段获得的知识和技能,从而直接回答一个问题:“如果我们将大模型在预训练期间学到的知识与小模型在微调期间学到的知识(或反之亦然)结合,会发生什么?”利用最近在从人类偏好中学习方面的发展中提出的基于RL的框架,我们引入了模拟微调(EFT),这是一种原则性和实用的方法,用于从近似(或“模拟”)预训练和微调结果的分布中进行采样。我们使用EFT进行的实验表明,扩大微调往往会提高实用性,而扩大预训练往往会提高事实性。除了解耦规模外,我们展示了EFT可以在测试时调整有竞争关系的行为特征,如实用性和无害性,而无需额外训练。最后,一种特殊情况的模拟微调,我们称之为LM上缩放,通过将大型预训练模型与小型微调模型组合起来,避免了资源密集型的大型预训练模型微调,从本质上模拟了对大型预训练模型进行微调的结果。上缩放一致提高了Llama、Llama-2和Falcon系列指令遵循模型的实用性和事实性,而无需额外的超参数或训练。
文本反转是一种快速学习方法,学习一个独特的嵌入来代表图像风格和外观,使其能够被整合到自然语言句子中以生成新颖的合成图像。然而,即使可以获得各个概念的嵌入,识别和整合一个场景中的多个对象级概念仍然存在重大挑战。我们的实证测试进一步证实了这一点。为了解决这一挑战,我们引入了一个多概念提示学习(MCPL)框架,可以同时从单个句子-图像对中学习多个新的“词”。为了增强词-概念相关性的准确性,我们提出了三种正则化技术:注意力掩模(AttnMask)集中学习在相关区域;提示对比损失(PromptCL)分离不同概念的嵌入;绑定形容词(Bind adj.)将新的“词”与已知词关联。我们通过图像生成、编辑和注意力可视化与多样化图像进行评估。广泛的定量比较表明,我们的方法可以学习到更多语义上解耦的概念,并具有增强的词-概念相关性。此外,我们还为学习对象级概念的新任务量身定制了一种新的数据集和评估协议。
由于全面注释的训练数据有限,高分辨率3D物体生成仍然是一项具有挑战性的任务。最近的进展旨在通过利用图像生成模型,这些模型在广泛筛选的网络数据集上预训练,并使用诸如得分蒸馏采样(SDS)之类的知识转移技术,来克服这一限制。有效地满足高分辨率渲染的要求通常需要采用基于潜在表示的模型,例如潜在扩散模型(LDM)。在这个框架中,存在一个重要挑战:为了计算单个图像像素的梯度,需要从指定的潜在空间通过LDM内部使用的VAE编码器等图像模型的冻结组件反向传播梯度。然而,这种梯度传播路径从未被优化,训练过程中一直是不受控制的。我们发现,未受调节的梯度会对3D模型从图像生成模型中获取与纹理相关信息的能力产生不利影响,导致外观合成质量较差。为了解决这一全面性挑战,我们提出了一种名为像素梯度剪切(PGC)的创新操作,旨在无缝集成到现有的3D生成模型中,从而提高它们的合成质量。具体而言,我们通过高效地剪切像素梯度来控制随机梯度的幅度,同时保留关键的与纹理相关的梯度方向。尽管这种方法简单且额外成本很小,但广泛的实验证明了我们的PGC在提升现有3D生成模型的性能,用于高分辨率物体渲染方面的有效性。