每日精选AI研究论文及翻译
大型语言模型(LLMs)在许多数学推理基准上取得了令人瞩目的成功。然而,人们越来越担心部分性能实际上反映了数据集污染,即类似于基准问题的数据泄漏到训练数据中,而非真正的推理能力。为了严谨地调查这一说法,我们委托开展了Grade School Math 1000(GSM1k)项目。GSM1k旨在模拟已建立的GSM8k基准的风格和复杂性,后者是衡量基础数学推理的黄金标准。我们确保这两个基准在人类解决率、解决步骤数量、答案大小等重要指标上是可比较的。在对GSM1k上的主要开源和闭源LLMs进行评估时,我们观察到高达13%的准确率下降,其中几个模型家族(例如Phi和Mistral)显示出几乎所有模型规模都存在系统性过拟合的证据。与此同时,许多模型,尤其是那些处于前沿的模型(例如Gemini/GPT/Claude),几乎没有过拟合的迹象。进一步的分析表明,模型生成GSM8k示例的概率与其在GSM8k和GSM1k之间的性能差距之间存在正相关关系(Spearman's r^2=0.32),这表明许多模型可能已经部分记忆了GSM8k。
随着文本条件扩散模型的引入,图像编辑取得了显著进展。尽管如此,根据文本指令无缝添加对象到图像而无需用户提供输入蒙版仍然是一个挑战。我们通过利用这样的洞察力来解决这个问题,即移除对象(修补)明显比添加对象(绘制)简单得多,这归因于在修补模型内部修补这些蒙版的分割蒙版数据集的利用。借助这一认识,通过实施自动化和广泛的流程,我们筛选了一个大规模图像数据集,其中包含图像及其相应的去除对象版本的配对。利用这些配对,我们训练了一个扩散模型来逆转修补过程,有效地将对象添加到图像中。与其他编辑数据集不同,我们的数据集以自然目标图像为特色,而不是合成图像;此外,它通过构建保持了源图像和目标图像之间的一致性。此外,我们利用一个大型视觉语言模型提供被移除对象的详细描述,并利用一个大型语言模型将这些描述转换为多样化的自然语言指令。我们展示了训练模型在质量和数量上均超越了现有模型,并为社区发布了这一大规模数据集以及训练好的模型。
传统的来自人类反馈的强化学习(RLHF)方法依赖于像Bradley-Terry模型这样的参数模型,无法捕捉人类偏好中的不传递性和非理性。最近的进展表明,直接处理偏好概率可以更准确地反映人类偏好,从而实现更灵活和准确的语言模型对齐。在本文中,我们提出了一种基于自我对弈的语言模型对齐方法,将问题视为一个旨在确定纳什均衡策略的常和二人博弈。我们的方法被称为自我对弈偏好优化(SPPO),通过迭代策略更新来近似纳什均衡,并享有理论上的收敛保证。我们的方法可以有效地增加所选响应的对数似然,减少被拒绝响应的对数似然,这是对称成对损失(如直接偏好优化(DPO)和身份偏好优化(IPO))无法轻松实现的。在我们的实验中,仅使用来自UltraFeedback数据集的60k个提示(不包括响应)且没有任何提示增强,通过利用仅具有0.4B参数的预训练偏好模型PairRM,SPPO可以从微调Mistral-7B-Instruct-v0.2中获得一个在AlpacaEval 2.0上对抗GPT-4-Turbo的最新长度受控胜率达到28.53%的模型。它还在MT-Bench和Open LLM排行榜上胜过(迭代的)DPO和IPO。值得注意的是,SPPO的强大性能是在没有来自GPT-4或其他更强大语言模型的额外外部监督(例如响应、偏好等)的情况下实现的。
本研究提出了一个针对最新的大型语言模型 Llama-3 的有针对性的模型编辑分析。我们探讨了针对精确层干预设计的流行模型编辑技术 - ROME、MEMIT 和 EMMET 的有效性。通过涵盖三种不同策略的评估,即顺序编辑、批量编辑和我们称之为顺序-批量编辑的混合方法,我们确定了最有效的层以进行有针对性的编辑,总共进行了高达 4096 次编辑。我们的研究结果表明,增加编辑批次大小可能会比依次使用较小的编辑批次对相同数量的编辑更显著地降低模型性能。基于这一点,我们认为顺序模型编辑是扩展模型编辑方法的重要组成部分,未来的研究应该专注于结合批量和顺序编辑的方法。这一观察结果表明了当前模型编辑方法存在的潜在局限性,即倾向于增加编辑批次大小,我们希望这为未来对批量大小和模型编辑性能进行优化的研究铺平道路。
大型语言模型(LLMs)通过将音频转换为离散标记的音频编解码器,显著推进了音频处理,从而使语言建模技术能够应用于音频数据。然而,传统编解码器通常以高比特率运行,或者仅限于狭窄领域,如语音,缺乏进行高效语言建模所需的语义线索。为了解决这些挑战,我们引入了SemantiCodec,这是一种新型编解码器,旨在将音频压缩为每秒不到一百个标记,涵盖语音、一般音频和音乐等多种音频类型,而不会降低质量。SemantiCodec采用双编码器架构:一个使用自监督的AudioMAE进行语义编码器,通过对大量音频数据进行k均值聚类进行离散化,以及一个声学编码器来捕获剩余细节。语义和声学编码器的输出用于通过基于扩散模型的解码器重建音频。SemantiCodec有三种变体,每秒的标记率分别为25、50和100,支持0.31 kbps至1.43 kbps之间的一系列超低比特率。实验结果表明,SemantiCodec在重建质量上明显优于最先进的Descript编解码器。我们的结果还表明,即使在明显更低的比特率下,SemantiCodec包含的语义信息显著丰富于所有评估过的音频编解码器。我们的代码和演示可在https://haoheliu.github.io/SemantiCodec/找到。
大型语言模型(LLMs)由于自回归解码需求与大多数当代GPU设计之间的不匹配而效率低下。具体而言,需要将数十亿至数万亿个参数通过有限的内存带宽加载到GPU缓存中进行计算,但实际上只计算了一小批标记。因此,GPU大部分时间都花在内存传输上,而不是计算上。最近,并行解码,一种投机解码算法,变得越来越受欢迎,并在生成中展示出令人印象深刻的效率改进。它向大型模型引入额外的解码头,使它们能够同时预测多个后续标记,并在单个解码步骤中验证这些候选延续。然而,这种方法偏离了预训练期间用于下一个标记预测的训练目标,导致候选标记的低命中率。在本文中,我们提出了一种新的投机解码算法Clover,它将顺序知识整合到并行解码过程中。这种增强改善了投机者的命中率,从而提高了整体效率。Clover通过回归连接从预先推测的标记传递顺序知识,然后利用注意力解码器整合这些推测的标记。此外,Clover还包括一个增强块,修改隐藏状态以更好地与投机生成的目的对齐,而不是下一个标记预测。实验结果表明,Clover在Baichuan-Small上的性能比基线高出高达91%,在Baichuan-Large上高出146%,分别超过了之前性能最佳的方法Medusa在Baichuan-Small上高出37%,在Baichuan-Large上高出57%。
最近,作为一种新颖的3D表示方法,3D高斯飞溅引起了人们的关注,因其快速渲染速度和高渲染质量。然而,这也带来了高内存消耗,例如,一个经过良好训练的高斯场可能利用三百万个高斯基元和超过700 MB的内存。我们将这种高内存占用归因于对基元之间关系缺乏考虑。在本文中,我们提出了一种名为SUNDAE的内存高效的高斯场,采用谱修剪和神经补偿。一方面,我们在高斯基元集上构建图来建模它们的关系,并设计了一个谱下采样模块,以剪除基元同时保留所需信号。另一方面,为了补偿修剪高斯带来的质量损失,我们利用一个轻量级神经网络头来混合飞溅特征,有效地补偿了质量损失,同时在其权重中捕捉基元之间的关系。我们通过广泛的结果展示了SUNDAE的性能。例如,在Mip-NeRF360数据集上,SUNDAE在145 FPS时可以实现26.80的PSNR,使用104 MB内存,而原始高斯飞溅算法在160 FPS时使用523 MB内存,实现25.60的PSNR。代码可在https://runyiyang.github.io/projects/SUNDAE/公开获取。
在自动驾驶中,跟踪三维空间中的物体至关重要。为了在驾驶过程中确保安全,跟踪器必须能够可靠地跨帧跟踪物体,并准确估计它们的状态,如速度和加速度。现有研究经常侧重于关联任务,而忽视模型在状态估计上的性能,或者采用复杂的启发式方法来预测状态。在本文中,我们提出了一种使用Transformer构建的具有状态跟踪功能的模型STT,它可以在场景中持续跟踪物体,并准确预测它们的状态。STT通过长期检测历史消耗丰富的外观、几何和运动信号,并同时针对数据关联和状态估计任务进行联合优化。由于标准跟踪指标如MOTA和MOTP无法捕捉两个任务在更广泛的物体状态范围内的综合性能,我们使用新的指标S-MOTA和MOTPS来扩展它们,以解决这一局限性。STT在Waymo开放数据集上实现了具有竞争力的实时性能。
应用开发人员通过创建产品页面并投标搜索词来宣传他们的应用程序。因此,对于应用程序图像与搜索词高度相关至关重要。解决这一问题的方案需要一个图像文本匹配模型,用于预测所选图像与搜索词之间匹配的质量。在这项工作中,我们提出了一种新颖的方法,基于微调预训练的LXMERT模型来匹配应用程序图像与搜索词。我们展示相较于CLIP模型以及使用Transformer模型用于搜索词和ResNet模型用于图像的基准,我们显著提高了匹配准确性。我们使用两组标签评估我们的方法:广告商关联的(图像,搜索词)对于特定应用程序,以及人类对(图像,搜索词)对之间相关性的评分。我们的方法在广告商关联的真实数据上实现了0.96的AUC分数,优于Transformer+ResNet基准和经微调的CLIP模型分别提高了8%和14%。对于人工标记的真实数据,我们的方法实现了0.95的AUC分数,优于Transformer+ResNet基准和经微调的CLIP模型分别提高了16%和17%。