每日精选AI研究论文及翻译
调整大型语言模型(LLMs)的指导仍然是一项具有挑战性的任务,这是由于超参数选择的复杂性以及评估调整模型的困难所致。为了确定最佳超参数,自动、稳健和可靠的评估基准至关重要。然而,建立这样一个基准并非易事,因为评估准确性和隐私保护所带来的挑战。针对这些挑战,我们介绍了一种名为PandaLM的评判大型语言模型,该模型经过训练,能够区分出若干个LLMs中的优越模型。PandaLM的重点不仅仅局限于传统评估数据集主要关注的响应客观正确性,还涉及关键的主观因素,如相对简洁性、清晰度、遵循指导、全面性和正式性。为确保PandaLM的可靠性,我们收集了一个多样化的人工标注测试数据集,其中所有上下文均由人类生成,标签与人类偏好保持一致。我们的结果表明,PandaLM-7B在我们的测试数据集上以F1分数为93.75%达到了GPT-3.5的评估能力,以88.28%达到了GPT-4的水平。PandaLM使得LLM的评估更加公平,但成本更低,通过PandaLM调整的模型相比使用默认Alpaca超参数训练的对应模型实现了显著改进。此外,PandaLM不依赖基于API的评估,从而避免潜在的数据泄露。PandaLM的所有资源均在https://github.com/WeOpenML/PandaLM 上发布。
指令调整的大型语言模型已经彻底改变了自然语言处理,并在诸如对话代理等应用中展现出巨大潜力。这些模型,如GPT-4,不仅可以精通语言,还可以解决数学、编码、医学和法律等领域的复杂任务。尽管它们具有令人印象深刻的能力,但由于许多模型的黑盒特性以及缺乏整体评估研究,对它们的全部潜力仍然缺乏全面的理解。为了解决这些挑战,我们提出了INSTRUCTEVAL,这是一个专门为指令调整的大型语言模型设计的更全面的评估套件。与先前的工作不同,我们的评估涉及对模型在问题解决、写作能力和与人类价值观的一致性等方面进行严格评估。我们采用整体方法分析影响模型性能的各种因素,包括预训练基础、指令调整数据和训练方法。我们的研究结果表明,指令数据的质量是影响模型性能扩展的最关键因素。虽然开源模型展示出令人印象深刻的写作能力,但在问题解决和一致性方面仍有很大的改进空间。我们对开源社区快速发展模型的进展感到鼓舞,但我们也强调了需要进行严格评估以支持关于这些模型的声明。通过INSTRUCTEVAL,我们旨在促进对指令调整模型的更深入理解以及其能力的进步。INSTRUCTEVAL可在https://github.com/declare-lab/instruct-eval 上公开获取。
大型语言模型(LLMs)现在已经部署到日常使用中,并定位为在未来十年内产生大量文本的工具。机器生成的文本可能会取代互联网上人工撰写的文本,并有潜力被用于恶意目的,如钓鱼攻击和社交媒体机器人。水印技术是一种简单而有效的策略,可以减轻这些危害,通过使LLM生成的文本能够被检测和记录。然而,一个关键问题仍然存在:在野外的现实环境中,水印技术有多可靠?在那里,带有水印的文本可能会与其他文本来源混合,被人类作者或其他语言模型改写,并被用于广泛领域的各种应用,无论是社会还是技术领域。在本文中,我们探讨了不同的检测方案,量化它们在检测水印方面的能力,并确定在每种情景下需要观察多少机器生成的文本才能可靠地检测到水印。特别是我们强调了我们的人类研究,我们在面对人类改写时调查了水印技术的可靠性。我们将基于水印的检测与其他检测策略进行了比较,总体发现水印技术是一种可靠的解决方案,尤其是由于其样本复杂性 - 对于我们考虑的所有攻击,水印证据随着给出的示例越多而增加,并最终检测到水印。
在这项工作中,我们探讨了指令调整语言模型在一系列开放指令遵循数据集上的最新进展。尽管最近有声称开放模型可以与最先进的专有模型媲美,但这些声明通常伴随着有限的评估,这使得很难全面比较模型并确定各种资源的实用性。我们提供了一系列参数从6.7B到65B的大型指令调整模型,这些模型在12个指令数据集上进行训练,这些数据集从手动策划的(例如OpenAssistant)到合成和精炼的(例如Alpaca)不等,并通过一系列自动、基于模型和人类的度量标准对其在事实知识、推理、多语言能力、编码以及开放式指令遵循能力进行系统评估。我们进一步介绍了T\"ulu,我们表现最佳的指令调整模型套件,它是在一系列高质量开放资源的组合上进行了微调。 我们的实验表明,不同的指令调整数据集可以揭示或增强特定技能,而没有任何单一数据集(或组合)能够在所有评估中提供最佳性能。有趣的是,我们发现基于模型和人类偏好的评估未能反映基准评估所暴露的模型能力差异,这表明需要进行类似于本研究中所进行的系统评估。我们的评估显示,在任何给定评估中,最佳模型平均达到ChatGPT性能的83%,以及GPT-4性能的68%,这表明需要进一步投资于构建更好的基础模型和指令调整数据来弥合差距。我们发布了我们的指令调整模型,包括一个完全微调的65B T\"ulu,以及我们的代码、数据和评估框架,网址为https://github.com/allenai/open-instruct,以促进未来研究。
我们利用大型语言模型LLaMA-7B对过去标记窗口给出的下一个标记进行预测,提供了英语熵的渐近上界的新估计。这一估计明显小于目前可获得的估计(cover1978convergent,lutati2023focus)。一个自然的副产品是一种用大型语言模型的预测与无损压缩方案相结合的英语文本无损压缩算法。有限实验的初步结果表明,我们的方案优于BSC、ZPAQ和paq8h等最先进的文本压缩方案。
从单眼图像中估计动物身体等3D关节形状是一项困难的任务,因为存在摄像机视角、姿势、纹理、光照等的歧义。我们提出了ARTIC3D,这是一个自监督框架,可以从野外稀疏图像集合中重建每个实例的3D形状。具体而言,ARTIC3D基于基于骨架的表面表示,并进一步受到来自稳定扩散的2D扩散先验的指导。首先,我们通过2D扩散对输入图像进行遮挡/截断处理,以获得更清晰的蒙版估计和语义特征。其次,我们执行扩散引导的3D优化,以估计形状和纹理,这些形状和纹理具有高保真度,并且与输入图像保持一致。我们还提出了一种新颖的技术,通过扩散模型计算更稳定的图像级梯度,相较于现有的替代方案。最后,我们通过在刚性部件变换下微调渲染的形状和纹理来生成逼真的动画。对多个现有数据集以及新引入的带有遮挡和截断的嘈杂网络图像集合进行的广泛评估表明,与嘈杂图像相比,ARTIC3D的输出更具鲁棒性,在形状和纹理细节方面具有更高的质量,并且在动画化时更加逼真。项目页面:https://chhankyao.github.io/artic3d/
StableDiffusion是一种革命性的文本到图像生成器,在图像生成和编辑领域引起轰动。与传统方法在像素空间学习扩散模型不同,StableDiffusion通过VQGAN在潜在空间学习扩散模型,确保效率和质量。它不仅支持图像生成任务,还能实现对真实图像的编辑,如图像修复和局部编辑。然而,我们观察到StableDiffusion中使用的普通VQGAN会导致显著的信息丢失,甚至在未经编辑的图像区域也会出现失真伪影。为此,我们提出了一种新的不对称VQGAN,具有两个简单的设计。首先,除了来自编码器的输入外,解码器还包含一个条件分支,结合来自任务特定先验的信息,如修复中的未遮罩图像区域。其次,解码器比编码器更复杂,可以实现更详细的恢复,而仅略微增加总推理成本。我们的不对称VQGAN的训练成本较低,只需重新训练一个新的不对称解码器,同时保持普通VQGAN编码器和StableDiffusion不变。我们的不对称VQGAN可广泛应用于基于StableDiffusion的修复和局部编辑方法。大量实验证明,它可以显著改善修复和编辑性能,同时保持原始文本到图像的能力。代码可在https://github.com/buxiangzhiren/Asymmetric_VQGAN找到。
随着学术界和工业界对大型语言模型(LLMs)的日益依赖,迫使我们全面了解它们对提示的鲁棒性。为了满足这一重要需求,我们引入了PromptBench,一个旨在衡量LLMs对对抗性提示的抗性的鲁棒性基准。本研究使用了大量针对不同级别的提示的对抗性文本攻击:字符、单词、句子和语义。这些提示随后被应用于各种任务,如情感分析、自然语言推理、阅读理解、机器翻译和数学问题解决。我们的研究生成了4,032个对抗性提示,经过细致评估,涵盖了8个任务和13个数据集,总共有567,084个测试样本。我们的发现表明,当代LLMs对对抗性提示是脆弱的。此外,我们提供了全面的分析,以了解提示鲁棒性及其可转移性背后的奥秘。然后,我们提供了深入的鲁棒性分析和实用的提示构成建议,对研究人员和普通用户都有益。我们将我们的代码、提示和生成对抗性提示的方法公开,以便促进和鼓励在这一关键领域的协作探索:https://github.com/microsoft/promptbench。
在移动设备上部署神经机器翻译(NMT)模型对于隐私、低延迟和离线场景至关重要。由于NMT模型容量较大,将这些模型在设备上运行面临存储、内存、计算和功耗有限的挑战。现有工作要么只关注于单一指标如FLOPs,要么是通用引擎,不擅长自回归解码。本文提出了MobileNMT系统,能够在设备上以15MB和30ms进行翻译。我们提出了一系列模型压缩原则,结合量化。此外,我们实现了一种友好于INT8和解码的引擎。通过模型和引擎的协同设计,与现有系统相比,我们提高了47.0倍的速度,节省了99.5%的内存,仅损失了11.6%的BLEU。代码可在https://github.com/zjersey/Lightseq-ARM公开获取。
为促进视觉-语言预训练(VLP)和多模态大型语言模型(LLM)在中国社区的发展,我们首次发布了最大的公开中文高质量视频-语言数据集,名为优酷-mPLUG。该数据集从知名的中国视频分享网站优酷采集而来,严格遵循安全、多样性和质量标准。优酷-mPLUG 包含了从 45 个不同类别的 4 亿原始视频中筛选出的 1000 万个中文视频-文本对,用于大规模预训练。此外,为促进视频-语言模型的全面评估,我们精心构建了最大的人工标注中文基准数据集,涵盖跨模态检索、视频字幕生成和视频分类三种热门视频-语言任务。优酷-mPLUG 能够帮助研究人员开展更深入的多模态研究,并在未来开发更好的应用程序。此外,我们发布了流行的视频-语言预训练模型 ALPRO 和 mPLUG-2,以及我们提出的在优酷-mPLUG 上预训练的模块化解码器模型 mPLUG-video。实验表明,在优酷-mPLUG 上预训练的模型在视频分类任务上取得了高达 23.1% 的改进。此外,mPLUG-video 在这些基准数据集上实现了新的最先进结果,视频分类任务中的 top-1 准确率达到 80.5%,视频字幕生成任务中的 CIDEr 分数为 68.9。最后,我们基于冻结的 Bloomz 将 mPLUG-video 扩展为仅具有 1.7% 可训练参数的中文多模态LLM,并展示了令人印象深刻的指令和视频理解能力。零样本指令理解实验表明,使用优酷-mPLUG 进行预训练可以增强理解整体和详细视觉语义、识别场景文本以及利用开放领域知识的能力。