每日精选AI研究论文及翻译
大型语言模型(LLMs)展现出非常强大的能力。实现成功的关键因素之一是将LLM的输出与人类偏好对齐。这种对齐过程通常只需要少量数据就能有效地提升LLM的性能。虽然有效,但这一领域的研究涉及多个领域,所涉及的方法相对复杂难以理解。不同方法之间的关系尚未得到充分探讨,限制了偏好对齐的发展。鉴此,我们将现有流行的对齐策略分解为不同组成部分,并提供一个统一框架来研究当前的对齐策略,从而建立它们之间的联系。在这项调查中,我们将所有偏好学习策略分解为四个组成部分:模型、数据、反馈和算法。这种统一视角提供了对现有对齐算法的深入理解,同时也为协同不同策略的优势打开了可能性。此外,我们提供了流行现有算法的详细工作示例,以便读者全面了解。最后,基于我们的统一视角,我们探讨了将大型语言模型与人类偏好对齐的挑战和未来研究方向。
多模大型语言模型(MLLMs)的发展取得了显著进展。然而,多模指导数据的数量和质量已成为其发展中的重要瓶颈。手动创建多模指导数据既耗时又低效,制约了生成高复杂度指导的挑战。此外,从黑盒商业模型(如GPT-4o、GPT-4V)中提炼指导数据往往会导致简化的指导数据,限制了性能达到这些模型水平的可能性。筛选多样化和复杂的指导数据仍然是一个重大挑战。我们提出了MMEvol,这是一个新颖的多模指导数据演进框架,结合了细粒度感知演进、认知推理演进和交互演进。这种迭代方法突破了数据质量瓶颈,生成了一个复杂多样的图像-文本指导数据集,从而赋予MLLMs增强的能力。从初始指令集SEED-163K开始,我们利用MMEvol系统地扩展了指令类型的多样性,整合推理步骤以增强认知能力,并从图像中提取详细信息以改善视觉理解和鲁棒性。为了全面评估我们数据的有效性,我们使用演进数据训练LLaVA-NeXT,并在13个视觉-语言任务中进行实验。与使用种子数据训练的基准相比,我们的方法在这些任务中平均准确率提高了3.1个百分点,并在其中9个任务上达到了最先进的性能水平。
尽管最近大型语言模型(LLMs)取得了显著进展,极大增强了各种自然语言处理任务的生成能力,但LLMs在直接处理检索任务方面仍存在局限。然而,许多实际应用需要无缝集成检索和生成两者。本文介绍了一种新颖高效的一次生成和检索框架(OneGen),旨在提高LLMs在需要生成和检索两者的任务中的性能。所提出的框架通过自回归生成检索标记,将传统上分开的生成和检索训练方法连接起来。这使得单个LLM能够在统一的前向传递中同时处理这两个任务。我们在两种不同类型的复合任务RAG和实体链接上进行实验,以验证OneGen在训练和推断中的可插拔性、有效性和效率。此外,我们的结果表明,在相同上下文中集成生成和检索可以保留LLMs的生成能力同时提高检索性能。据我们所知,OneGen是首个使LLMs能够在生成过程中进行向量检索的框架。
检索增强生成(RAG)利用检索工具访问外部数据库,从而通过优化上下文提高大型语言模型(LLMs)的生成质量。然而,现有的检索方法固有地受限,因为它们只能在明确陈述的查询和格式良好的知识之间执行相关性匹配,无法处理涉及模糊信息需求或非结构化知识的任务。因此,现有的RAG系统主要适用于直接的问答任务。在这项工作中,我们提出了MemoRAG,这是一种由长期记忆赋能的新型检索增强生成范式。MemoRAG采用双系统架构。一方面,它采用轻量但远程的LLM来形成数据库的全局记忆。一旦出现任务,它生成草稿答案,提示检索工具在数据库中定位有用信息。另一方面,它利用昂贵但表达能力强的LLM,基于检索到的信息生成最终答案。在这一通用框架基础上,我们通过增强其提示机制和记忆容量进一步优化了MemoRAG的性能。在我们的实验中,MemoRAG在各种评估任务中取得了优越的性能,包括传统RAG失败的复杂任务和常见应用RAG的直接任务。
随着科学研究的不断增多,研究人员面临着艰巨的任务,需要浏览和阅读大量文献。现有的解决方案,如文档问答,未能有效地提供个性化和实时更新的信息。我们提出了Paper Copilot,这是一个自我进化的高效LLM系统,旨在基于思维检索、用户资料和高性能优化来辅助研究人员。具体而言,Paper Copilot能够提供个性化的研究服务,并维护一个实时更新的数据库。定量评估表明,Paper Copilot在高效部署后节省了69.92\%的时间。本文详细介绍了Paper Copilot的设计和实施,突出了其对个性化学术支持的贡献以及简化研究过程的潜力。
近年来,视觉-语言模型取得了显著进展,在光学字符识别和几何问题求解等任务中表现出色。然而,仍存在几个关键问题:1)专有模型通常缺乏关于其架构的透明度,而开源模型需要更详细的训练策略消融。2)开源作品中的预训练数据尚未得到充分探索,数据集的添加是凭经验进行的,使得过程繁琐。3)微调通常侧重于添加数据集,导致收益递减。为了解决这些问题,我们提出以下贡献:1)我们使用最新的视觉-语言模型进展训练了一个稳健的基准模型,引入了有效的改进,并针对每种技术进行了全面的消融和验证。2)受到大型语言模型最新工作的启发,我们使用困惑度筛选预训练数据,选择困惑度最低的数据进行训练。这种方法使我们能够在经过筛选的100万数据集上进行训练,实现了竞争性能。3)在视觉指导调整过程中,当添加更多数据集仅带来边际改进时,我们在不同数据集上使用模型混合。这些创新使我们得到了一个具有90亿参数的模型,与最先进模型竞争激烈。我们的策略高效且轻量,易于社区采纳。
机器人模型,尤其是那些经过大量数据训练的模型,最近展示了丰富的现实世界操作和导航能力。几项独立的努力表明,在环境中提供足够的训练数据后,机器人策略可以推广到该环境中展示的变化。然而,需要对每个新环境进行微调的机器人模型与语言或视觉模型形成鲜明对比,后者可以零射击部署用于开放世界问题。在这项工作中,我们提出了机器人效用模型(RUMs),这是一个用于训练和部署零射击机器人策略的框架,可以直接推广到新环境而无需任何微调。为了高效创建RUMs,我们开发了新工具,快速收集移动操作任务数据,将这些数据与多模仿学习策略相结合,并在Hello Robot Stretch等廉价商品机器人上部署策略,配备外部mLLM验证器以进行重试。我们为打开橱柜门、打开抽屉、拾取餐巾、拾取纸袋和重新定位倒下的物体训练了五种这样的效用模型。我们的系统平均在与未见过的物体互动的未见过的新环境中实现了90%的成功率。此外,这些效用模型还可以在不需要进一步数据、训练或微调的情况下成功应对不同的机器人和摄像头设置。我们的主要经验教训包括训练数据的重要性高于训练算法和策略类别,有关数据缩放的指导,对多样化但高质量演示的必要性,以及改进个别环境性能的机器人内省和重试配方。我们的代码、数据、模型、硬件设计,以及我们的实验和部署视频均已开源,可在我们的项目网站上找到:https://robotutilitymodels.com
尽管大型语言模型(LLMs)展现出卓越的生成能力,但它们并非没有缺陷,特别是存在幻觉的形式。当LLMs应用于特定语言和领域时,这一问题变得更加突出。例如,当处理中国古诗、谚语或成语时,LLMs可能会生成无意义的信息,这是由于缺乏特定知识所致。因此,本文通过知识编辑引入了一个用于纠正LLMs中的中国知识的基准。具体而言,我们通过从各种来源收集七类知识,包括古典文本、成语以及百度贴吧若字吧的内容,引入了一个新的中文数据集CKnowEdit,从而考虑了中国语言中独特的多声、对立和逻辑结构。通过对该数据集的分析,我们揭示了当前LLMs在掌握中文方面面临的挑战。此外,我们对该数据集上最先进的知识编辑技术进行评估,揭示了在纠正中文知识方面存在的巨大进步空间。代码和数据集可在https://github.com/zjunlp/EasyEdit 上获得。
本研究针对卡拉卡尔帕克语提出了几项贡献:将FLORES+ devtest数据集翻译成卡拉卡尔帕克语,构建了乌兹别克语-卡拉卡尔帕克语、俄语-卡拉卡尔帕克语和英语-卡拉卡尔帕克语各10万对平行语料库,并开源了针对这些语言的微调神经模型用于翻译。我们的实验比较了不同模型变体和训练方法,展示了相对于现有基准的改进。这项工作是作为开放语言数据倡议(OLDI)共享任务的一部分进行的,旨在推进卡拉卡尔帕克语的机器翻译能力,并促进自然语言处理技术中的语言多样性扩展。
我们引入了一个基准来直接评估人类观察者和视觉模型在3D形状推断任务上的对齐情况。我们利用了认知科学中的实验设计,该设计要求关于物体形状的零照射视觉推断:在给定一组图像的情况下,参与者需要识别哪些图像包含相同/不同的物体,尽管视角有很大变化。我们利用了包括常见物体(例如椅子)和抽象形状(即,程序生成的“无意义”对象)在内的各种图像。在构建了2000多个独特图像集之后,我们向人类参与者提供这些任务,从500多名参与者那里收集了35K次行为数据。这包括明确的选择行为以及诸如反应时间和凝视数据之类的中间指标。然后,我们评估了常见视觉模型的性能(例如,DINOv2,MAE,CLIP)。我们发现人类在各个方面都远远优于所有模型。使用多尺度评估方法,我们确定了模型和人类之间的潜在相似性和差异:虽然人类-模型的表现是相关的,但人类在挑战性试验上分配了更多时间/处理。所有图像、数据和代码都可以通过我们的项目页面访问。
随着客户对机器人技术和增强现实智能解决方案的需求不断增长,对来自点云的三维物体检测引起了相当大的关注。然而,现有的室内数据集单独采集的数据量太小,样本多样性不足,无法训练出强大且通用的三维物体检测模型。与此同时,更通用的方法利用基础模型仍然质量不如基于特定任务的监督训练。在这项工作中,我们提出了一种简单而有效的三维物体检测模型,该模型在多个室内数据集的混合数据上进行训练,能够在各种室内环境中运行。通过统一不同的标签空间,使得模型能够通过监督联合训练方案在多个数据集上学习强大的表示。所提出的网络架构建立在一个基本的Transformer编码器之上,使得对于实际应用来说,运行、定制和扩展预测流程变得更加容易。大量实验证明,在6个室内基准测试中,相较于现有的三维物体检测方法,该模型取得了显著的进展:ScanNet(+1.1 mAP50)、ARKitScenes(+19.4 mAP25)、S3DIS(+9.1 mAP50)、MultiScan(+9.3 mAP50)、3RScan(+3.2 mAP50)和ScanNet++(+2.7 mAP50)。代码可在 https://github.com/filapro/unidet3d 获取。
本文介绍了对16个前沿大型语言模型(LLMs)在WebApp1K基准测试上的评估结果。这个测试套件旨在评估LLMs生成Web应用程序代码的能力。结果显示,虽然所有模型具有类似的基础知识,但它们的性能差异在于它们所犯错误的频率。通过分析代码行数(LOC)和错误分布,我们发现编写正确的代码比生成错误的代码更复杂。此外,提示工程在减少错误方面的效果有限,除了特定情况。这些发现表明,进一步发展编码LLM应强调模型的可靠性和错误最小化。