每日精选AI研究论文及翻译
本文研究了利用来自强大预言者的偏好反馈来帮助模型迭代改进的后训练大型语言模型(LLMs)。后训练LLMs的典型方法涉及从人类反馈中进行强化学习(RLHF),传统上将奖励学习和随后的策略优化分开。然而,这种奖励最大化方法受到“点对点”奖励(如Bradley-Terry模型)的限制,无法表达复杂的不传递或循环偏好关系。虽然RLHF的进展表明奖励学习和策略优化可以合并为单一对比目标以实现稳定性,但它们仍然依赖奖励最大化框架。最近,一波新的研究避开了奖励最大化的假设,而是直接优化“成对”或一般偏好。在本文中,我们介绍了直接纳什优化(DNO),这是一种可证明且可扩展的算法,它将对比学习的简单性和稳定性与优化一般偏好的理论普适性相结合。由于DNO是一种基于回归目标的批处理在线算法,其实现简单高效。此外,DNO在迭代过程中呈现单调改进,有助于它甚至优于强大的教师(如GPT-4)。在我们的实验中,通过DNO对齐的7B参数Orca-2.5模型在AlpacaEval 2.0上实现了与GPT-4-Turbo的最新胜率,达到33%(即使在控制响应长度后),比初始化模型提高了26%(从7%到33%)。它胜过了具有更多参数的模型,包括Mistral Large、Self-Rewarding LM(70B参数)和较旧版本的GPT-4。
在训练过程中,很少展示语言模型成功的错误。它们难以超越下一个标记,因为错误会不断积累,难以预测其行动数步之后的后果。本文展示了如何教导语言模型通过在语言中表示搜索的过程,将搜索过程表现为一个扁平化的字符串——搜索流(SoS)。我们提出了一个统一的搜索语言,捕捉了各种不同的符号搜索策略。我们使用简单但困难的Countdown游戏来演示我们的方法,该游戏的目标是将输入数字与算术运算结合以达到目标数字。我们从头开始在一个由启发式求解器生成的搜索流数据集上对基于Transformer的语言模型进行预训练。我们发现,SoS预训练可以将搜索准确度提高25%,超过了仅训练以预测最佳搜索轨迹的模型。我们进一步使用两种策略改进方法对这个模型进行微调:优势诱导策略对齐(APA)和自学习推理者(STaR)。微调后的SoS模型解决了36%以前无法解决的问题,包括任何启发式求解器都无法解决的问题。我们的结果表明,语言模型可以通过搜索学习解决问题,自我改进以灵活使用不同的搜索策略,并可能发现新的策略。
网络爬虫的预训练数据集是支撑多模态模型(如用于分类/检索的CLIP和用于图像生成的Stable-Diffusion)令人印象深刻的“零-shot”评估性能的基础。然而,对于这些多模态模型来说,“零-shot”泛化的概念有多有意义尚不清楚,因为尚不清楚它们的预训练数据集在“零-shot”评估期间所针对的下游概念的程度。在这项研究中,我们探讨:多模态模型在下游概念上的表现如何受到其预训练数据集中这些概念频率的影响?我们全面调查了34个模型和五个标准预训练数据集(CC-3M、CC-12M、YFCC-15M、LAION-400M、LAION-Aesthetics),生成了超过300GB的数据产物。我们始终发现,与“零-shot”泛化相去甚远,多模态模型需要指数级增加的数据才能在下游“零-shot”性能上实现线性改进,遵循一种样本效率低下的对数线性缩放趋势。即使在控制预训练和下游数据集之间的样本级相似性,并在纯合成数据分布上进行测试时,这种趋势仍然存在。此外,通过在基于我们的分析进行的长尾数据采样的基准测试模型,我们证明了全面而言,多模态模型表现不佳。我们将这个长尾测试集作为“让它摇摆!”基准,以促进这个方向的进一步研究。总的来说,我们的研究揭示了对训练数据的指数级需求,这意味着在大规模训练范式下实现“零-shot”泛化能力的关键尚待发现。
大型语言模型(LLMs)推动了许多智能代理任务,例如网络导航,但由于三个因素,大多数现有代理在真实网页上的表现远未令人满意:(1)网页上行为的多样性,(2)HTML文本超出模型处理能力,以及(3)由于网络的开放域特性,决策复杂性。针对这一挑战,我们开发了AutoWebGLM,这是一个基于ChatGLM3-6B构建的GPT-4性能优越的自动化网络导航代理。受人类浏览模式启发,我们设计了一种HTML简化算法来简洁地表示网页,保留重要信息。我们采用混合人工智能方法构建网页浏览数据以进行课程训练。然后,我们通过强化学习和拒绝抽样来引导模型,进一步促进网页理解、浏览器操作以及有效的任务分解。为了测试,我们建立了一个双语基准——AutoWebBench,用于真实世界的网络浏览任务。我们评估了AutoWebGLM在各种网络导航基准上的表现,揭示了其改进之处,但也揭示了需要解决真实环境中的潜在挑战。相关代码、模型和数据将在https://github.com/THUDM/AutoWebGLM 上发布。
最近关于指导调整数据集的进展主要集中在特定任务,如数学或逻辑推理上。在为使语言模型保持话题相关性以便部署聊天机器人到生产环境方面,存在一个明显的数据空白。我们介绍了CantTalkAboutThis数据集,以帮助语言模型在任务导向的互动中保持专注于当前主题。该数据集包含了涵盖不同领域各种对话主题的合成对话。这些对话中穿插着有意诱使聊天机器人偏离预定义主题的干扰性对话轮。在这个数据集上微调语言模型有助于使它们能够抵御偏离所分配角色,并提高它们相对于通用指导调整的大型语言模型(LLMs)如GPT-4-turbo和Mixtral-Instruct来维持话题连贯性的能力。此外,初步观察表明,在这个数据集上训练模型还可以增强它们在细粒度指令遵循任务上的表现。
人们依赖诸如冲突解决之类的社交技能来有效沟通,并在工作和个人生活中蓬勃发展。然而,社交技能的实践环境通常对大多数人不可及。我们如何使社交技能培训更加普遍、可获得和吸引人呢?借鉴沟通和心理学的跨学科研究,这一观点性论文确定了进入专业领域的社交技能障碍。然后,我们提出了一种利用大型语言模型进行社交技能培训的通用框架的解决方案。我们的AI伙伴,AI导师框架将经验学习与现实实践和量身定制的反馈相结合。这项工作最终呼吁跨学科创新,以解决劳动力发展和社会平等的更广泛影响。
强化学习(RL)通过直接优化捕捉图像质量、美学和指令遵循能力的奖励,改进了扩散模型引导的图像生成。然而,由此产生的生成策略继承了引起生成速度缓慢的扩散模型的相同迭代抽样过程。为了克服这一限制,一致性模型提出了学习一类新的生成模型,直接将噪声映射到数据,从而生成模型可以在仅一个抽样迭代中生成图像。在这项工作中,为了针对任务特定奖励优化文本到图像生成模型并实现快速训练和推断,我们提出了一个通过RL对一致性模型进行微调的框架。我们的框架被称为一致性模型强化学习(RLCM),将一致性模型的迭代推断过程构建为一个RL过程。RLCM在文本到图像生成能力上优于RL微调的扩散模型,并在推断时交换计算以获得样本质量。实验证明,RLCM能够将文本到图像一致性模型调整到难以通过提示表达的目标,如图像可压缩性,以及从人类反馈中衍生的目标,如美学质量。与RL微调的扩散模型相比,RLCM训练速度显著更快,根据奖励目标衡量的生成质量得到改善,并通过在仅两个推断步骤中生成高质量图像加快了推断过程。我们的代码可在https://rlcm.owenoertell.com找到。
在本研究中,我们介绍了CT-LLM,一个2B大型语言模型(LLM),展示了在开发LLM时优先考虑中文的重要转变。CT-LLM独特地从零开始,与传统方法不同,主要整合了中文文本数据,利用了一个包括1,200亿标记的庞大语料库,其中包括800亿中文标记、300亿英文标记和100亿代码标记。这种战略组合促进了模型在理解和处理中文方面的出色能力,这种能力通过对齐技术进一步增强。在CHC-Bench上展现出卓越性能,CT-LLM在中文语言任务上表现出色,并通过SFT展示了其在英文方面的熟练程度。这项研究挑战了主要在英文语料库上训练LLM,然后将其调整到其他语言的现行范式,拓宽了LLM训练方法的视野。通过开源完整的中文LLM训练过程,包括详细的数据处理流程,获得的大规模适当预训练中文语料库(MAP-CC)、精心选择的跨学科中文难例基准(CHC-Bench)和2B规模的中文微型LLM(CT-LLM),我们旨在促进学术界和工业界进一步探索和创新,为更具包容性和多功能性的语言模型铺平道路。
本文讨论了3D高斯点云投影(3DGS)中的常见误差源,包括模糊、不完美的相机姿势和颜色不一致性,旨在提高其在实际应用中的鲁棒性,如从手持手机拍摄中进行的重建。我们的主要贡献在于将运动模糊建模为相机姿势上的高斯分布,使我们能够以统一的方式解决相机姿势的精化和运动模糊校正。此外,我们提出了用于处理焦外模糊补偿以及解决由环境光、阴影或由于相机相关因素(如不同的白平衡设置)引起的颜色不一致性的机制。我们提出的解决方案与3DGS公式无缝集成,同时保持其在训练效率和渲染速度方面的优势。我们在相关基准数据集(包括Scannet++和Deblur-NeRF)上对我们的贡献进行了实验证实,获得了最先进的结果,从而相对于相关基准线实现了一致的改进。
多模态语义分割显著增强了人工智能代理的感知和场景理解能力,尤其是在低光或过曝等恶劣环境下。利用额外的模态(X模态)如热像和深度,与传统的RGB一起提供互补信息,使分割更加健壮可靠。在这项工作中,我们引入了Sigma,一个用于多模态语义分割的Siamese Mamba网络,利用选择性结构状态空间模型Mamba。与依赖于具有有限局部感受野的CNN或以二次复杂度为代价提供全局感受野的视觉Transformer(ViTs)的传统方法不同,我们的模型以线性复杂度实现了全局感受野覆盖。通过采用Siamese编码器并创新Mamba融合机制,我们有效地从不同模态中选择关键信息。然后开发了一个解码器来增强模型的通道建模能力。我们的方法Sigma在RGB-热像和RGB-深度分割任务上经过严格评估,展示了其优越性,并标志着状态空间模型(SSMs)在多模态感知任务中的首次成功应用。代码可在https://github.com/zifuwan/Sigma找到。