每日精选AI研究论文及翻译
视觉偏好对齐涉及训练大型视觉-语言模型(LVLMs)以预测人类在视觉输入之间的偏好。通常通过使用标记的选择/拒绝对的数据集,并利用像直接偏好优化(DPO)这样的优化算法来实现。现有的视觉对齐方法主要设计用于单图像场景,由于多图像任务的复杂性,缺乏多样化的训练数据和标记选择/拒绝对的高成本,因此难以有效处理。我们提出了多图像增强直接偏好优化(MIA-DPO),这是一种有效处理多图像输入的视觉偏好对齐方法。MIA-DPO通过将单图像数据扩展为以网格拼贴或画中画格式排列的无关图像,显著降低了与多图像数据标注相关的成本,从而缓解了多样化多图像训练数据的稀缺性。我们的观察表明,LVLMs的注意力值在不同图像之间变化很大。我们利用注意力值来识别并过滤模型可能错误关注的拒绝响应。我们的注意力感知选择用于构建选择/拒绝对,而无需依赖于(i)人类注释,(ii)额外数据和(iii)外部模型或API。MIA-DPO与各种架构兼容,并在五个多图像基准测试中优于现有方法,在LLaVA-v1.5上平均性能提升3.0%,在最近的InternLM-XC2.5上提升4.3%。此外,MIA-DPO对模型理解单图像的能力影响很小。
多模态大型语言模型(MLLMs)在理解和分析视频内容方面取得了令人期待的进展。然而,处理长视频仍然是一个重要挑战,受到LLM上下文大小的限制。为了解决这一限制,我们提出了LongVU,这是一种时空自适应压缩机制,可以减少视频标记的数量,同时保留长视频的视觉细节。我们的想法是基于利用跨模态查询和帧间依赖性,自适应地减少视频中的时间和空间冗余。具体而言,我们利用DINOv2特征去除显示高相似性的冗余帧。然后,我们利用文本引导的跨模态查询进行选择性帧特征减少。此外,我们根据它们的时间依赖性跨帧执行空间标记减少。我们的自适应压缩策略能够在给定的上下文长度内有效处理大量帧,几乎没有视觉信息丢失。我们的LongVU在各种视频理解基准测试中始终优于现有方法,特别是在诸如VideoMME和MLVU之类的长达一小时的视频理解任务上。鉴于轻量级LLM,我们的LongVU在保持最先进的视频理解性能的同时,也能有效地缩小体积。
最近预测模型的进展展示了在预测物体和场景未来状态方面的卓越能力。然而,基于固有特征的分类不足仍然阻碍了预测模型发展的进展。此外,现有基准无法有效评估具有更高能力、高度具象化的预测模型的具象化视角。在这项工作中,我们将预测模型的功能性分类为层次结构,并通过提出一个名为WorldSimBench的双重评估框架,迈出了评估世界模拟器的第一步。WorldSimBench包括显式感知评估和隐式操纵评估,涵盖了从视觉角度的人类偏好评估和具象化任务中的动作级评估,涵盖了三个具象化场景:开放式具象化环境、自主驾驶和机器人操作。在显式感知评估中,我们引入了HF-具象化数据集,这是一个基于细粒度人类反馈的视频评估数据集,我们用它来训练一个与人类感知一致并明确评估世界模拟器视觉保真度的人类偏好评估器。在隐式操纵评估中,我们通过评估世界模拟器的视频-动作一致性来评估其在动态环境中生成的情境感知视频是否能够准确转化为正确的控制信号。我们全面的评估提供了关键见解,可以推动视频生成模型的进一步创新,将世界模拟器定位为具象化人工智能的重要进展。
扩散语言模型(DLMs)已经成为一种有前途的新范式,用于文本生成建模,可能解决自回归(AR)模型的局限性。然而,与其AR对应物相比,目前的DLMs在较小规模上进行了研究,并且在语言建模基准上缺乏公平比较。此外,从头开始规模化训练扩散模型仍然具有挑战性。鉴于开源AR语言模型的普及,我们建议调整这些模型以构建文本扩散模型。我们展示了自回归和扩散建模目标之间的联系,并引入了一种简单的持续预训练方法,用于训练扩散模型。通过对语言建模、推理和常识基准的系统评估,我们展示了我们可以将参数范围从127M扩展到7B的AR模型(GPT2和LLaMA)转换为扩散模型DiffuGPT和DiffuLLaMA,使用少于200B标记进行训练。我们的实验结果显示,这些模型优于早期的DLMs,并且与其AR对应物具有竞争力。我们发布了一套DLMs(具有127M、355M和7B参数),能够生成流畅的文本,执行上下文学习,在不重新排序提示的情况下填充中间部分,并遵循指示。https://github.com/HKUNLP/DiffuLLaMA。
直接偏好优化(DPO)已成为一种强大的方法,用于将文本到图像(T2I)模型与人类反馈对齐。不幸的是,成功将DPO应用于T2I模型需要大量资源来收集和标记大规模数据集,例如,数百万个生成的配对图像,带有人类偏好标注。此外,随着T2I模型的快速改进导致图像质量提高,这些人类偏好数据集可能会很快过时。在这项工作中,我们研究了一种可扩展的方法,用于收集用于DPO训练的大规模完全合成数据集。具体而言,配对图像的偏好是使用预训练奖励函数生成的,消除了需要让人类参与注释过程的必要性,极大提高了数据集收集效率。此外,我们展示了这种数据集允许跨多个模型对预测进行平均,并收集排名偏好,而不是成对偏好。此外,我们引入了RankDPO来利用排名反馈增强基于DPO的方法。将RankDPO应用于SDXL和SD3-Medium模型,并使用我们合成生成的偏好数据集“Syn-Pic”,提高了在基准测试中(如T2I-Compbench,GenEval和DPG-Bench)的提示遵循和视觉质量(通过用户研究)。这一流程提供了一个实用且可扩展的解决方案,用于开发更好的偏好数据集,以提升文本到图像模型的性能。
最近,LiDAR场景生成技术发展迅速。然而,现有方法主要集中在生成静态和单帧场景,忽视了现实世界驾驶环境固有的动态特性。在这项工作中,我们介绍了DynamicCity,这是一种新颖的4D LiDAR生成框架,能够生成大规模、高质量的LiDAR场景,捕捉动态环境的时间演变。DynamicCity主要由两个关键模型组成。1)VAE模型用于学习HexPlane作为紧凑的4D表示。DynamicCity采用一种新颖的Projection Module,而不是使用简单的平均操作,能够有效地将4D LiDAR特征压缩成六个2D特征图,用于HexPlane构建,从而显著提高HexPlane的拟合质量(最高可达12.56的mIoU增益)。此外,我们利用扩展与压缩策略并行重构3D特征体积,比起简单地查询每个3D点,这既提高了网络训练效率,也提高了重构精度(最高可达7.05的mIoU增益,2.06倍的训练加速度,以及70.84%的内存减少)。2)基于DiT的扩散模型用于HexPlane生成。为了使HexPlane适用于DiT生成,提出了一种填充滚动操作,以将HexPlane的所有六个特征平面重新组织为一个方形的2D特征图。特别是,在扩散或采样过程中可以引入各种条件,支持多样化的4D生成应用,如轨迹驱动和命令驱动生成,修复,以及布局条件生成。对CarlaSC和Waymo数据集进行的大量实验表明,DynamicCity在多个指标上显著优于现有的最先进的4D LiDAR生成方法。我们将发布代码以促进未来的研究。
奖励模型(RMs)通过将人类反馈融入到语言建模过程中,推动了当今LLMs的最先进性能。然而,RMs主要在英语环境中进行训练和评估,它们在多语言环境中的能力仍然鲜为人知。在这项研究中,我们对多语言环境中的几种奖励模型进行了系统评估。我们首先构建了首个多语言RM评估基准M-RewardBench,其中包含23种语言的2.87k个偏好实例,测试了RMs的聊天、安全、推理和翻译能力。然后,我们对M-RewardBench上的多种奖励模型进行了严格评估,为我们提供了对它们在不同语言中表现的新见解。我们发现RMs在英语和非英语语言之间的表现存在显著差距,并且RM的偏好在不同语言之间可能会发生显著变化。我们还提出了关于不同多语言方面如何影响RM性能的几点发现。具体而言,我们发现RM的性能会随着翻译质量的提高而改善。同样,我们证明模型在高资源语言中表现更好。我们在本研究中发布了M-RewardBench数据集和代码库,以促进对多语言环境中RM评估的更好理解。
本文介绍了一种新颖的移动电话控制架构,称为“应用程序代理”,用于在各种安卓应用程序之间实现高效的交互和控制。所提出的轻量级多模态应用程序控制(LiMAC)以文本目标和一系列过去的移动观察(如屏幕截图和相应的UI树)作为输入,以生成精确的动作。为了解决智能手机固有的计算约束,在LiMAC中,我们引入了一个小型动作转换器(AcT),与经过微调的视觉语言模型(VLM)集成,用于实时决策和任务执行。我们在两个开源移动控制数据集上评估了LiMAC,展示了我们的小型形态方法相对于经过微调的开源VLM版本(如Florence2和Qwen2-VL)的卓越性能。它还明显优于利用GPT-4o等闭源基础模型的提示工程基线。具体而言,LiMAC相对于经过微调的VLM,将整体动作准确性提高了高达19%,相对于提示工程基线提高了高达42%。
在医学分析领域中整合大型语言模型(LLM)技术已带来重大进展,然而大规模、多样化和有良好注释的数据集的稀缺仍然是一项重大挑战。医学数据和任务以各种格式、大小和其他参数存在,需要广泛的预处理和标准化,以便有效用于训练LLMs。为了解决这些挑战,我们介绍了MedINST,即生物医学指令元数据集,这是一个新颖的多领域、多任务指令元数据集。MedINST包括133个生物医学自然语言处理任务和超过700万个训练样本,使其成为迄今为止最全面的生物医学指令数据集。利用MedINST作为元数据集,我们策划了MedINST32,这是一个具有不同任务难度的挑战性基准,旨在评估LLMs的泛化能力。我们在MedINST上对几个LLMs进行微调,并在MedINST32上进行评估,展示了跨任务泛化能力的增强。
最近,多模态大型语言模型(MLLMs)因其令人印象深刻的能力而受到广泛关注。评估MLLMs对于分析MLLMs的属性并提供有价值的见解变得至关重要。然而,当前的基准测试忽视了提示敏感性这一问题 - 微小的提示变化可能导致性能波动显著。因此,不恰当的提示可能会掩盖模型的能力,低估模型的性能。此外,不同模型对不同提示有不同偏好,因此,对所有模型使用相同的提示将导致评估偏差。本文分析了现有基准测试中存在的这一缺陷,并进一步引入了一个名为TP-Eval的新评估框架,该框架引入了提示定制方法以减少评估偏差并挖掘模型的潜力。TP-Eval将为不同模型重写原始提示为不同的定制提示。特别地,我们提出了一些针对MLLM评估场景量身定制的提示定制模块。大量实验表明了我们的方法揭示模型能力的有效性,TP-Eval应有助于社区开发更全面和有说服力的MLLM评估基准。
神经网络的性能随着其规模和训练数据量的增加而提高。这一点在语言和图像生成中得到了证实。然而,这需要具有规模友好的网络架构以及大规模数据集。尽管像Transformer这样的规模友好的架构已经出现用于3D视觉任务,但由于缺乏训练数据,3D视觉的GPT时刻仍然遥不可及。在本文中,我们介绍了ARKit LabelMaker,这是第一个具有密集语义注释的大规模真实世界3D数据集。具体来说,我们通过在大规模自动生成的密集语义注释中补充ARKitScenes数据集。为此,我们扩展了LabelMaker,这是一个最近的自动注释流程,以满足大规模预训练的需求。这涉及使用尖端分割模型扩展流程,同时使其能够应对大规模处理的挑战。此外,我们通过使用流行的3D语义分割模型在ScanNet和ScanNet200数据集上推动了最新技术的性能,展示了我们生成的数据集的有效性。
我们提出了大视角综合模型(LVSM),这是一种基于Transformer的创新方法,用于从稀疏视角输入中实现可扩展和通用的新视角合成。我们引入了两种架构:(1)编码器-解码器LVSM,将输入图像标记编码为固定数量的1D潜在标记,作为完全学习的场景表示,并从中解码新视角图像;以及(2)仅解码器LVSM,直接将输入图像映射到新视角输出,完全消除中间场景表示。这两种模型都绕过了先前方法中使用的3D归纳偏差,从3D表示(例如NeRF,3DGS)到网络设计(例如极线投影,平面扫描),以完全数据驱动的方式解决新视角合成问题。虽然编码器-解码器模型由于其独立的潜在表示而提供更快的推理,但仅解码器LVSM实现了更优质、可扩展和零样本泛化,优于先前的最先进方法1.5到3.5 dB的PSNR。在多个数据集上进行的全面评估表明,这两种LVSM变体均实现了最先进的新视角合成质量。值得注意的是,即使使用较少的计算资源(1-2个GPU),我们的模型也超越了所有先前的方法。更多详细信息请参阅我们的网站:https://haian-jin.github.io/projects/LVSM/。
基于多样化示范数据集训练的大型通用机器人策略已被证明在控制各种机器人在不同场景中以及获取广泛的操作技能方面非常有效。然而,这类策略训练所使用的数据通常质量参差不齐 —— 人类收集的示范不太可能完美执行任务,而且数据集越大,筛选出最高质量示例就越困难。另外,目前仍不清楚一个实体的最佳数据对于在另一个实体上训练的效果如何。本文提出了一种通用且广泛适用的方法,在部署时通过根据离线强化学习学习的价值函数重新排列其动作,以提升这类通用机器人策略的性能。这种方法被称为价值引导策略引导(V-GPS),适用于各种不同的通用策略,无需微调甚至访问策略的权重。我们展示了相同的价值函数如何提高五种不同架构的最新策略的性能,即使它们是在不同数据集上训练的,也在12个任务的多个机器人平台上实现了一致的性能改进。代码和视频可在以下网址找到:https://nakamotoo.github.io/V-GPS