每日精选AI研究论文及翻译
我们推出了RWKV-7“Goose”,一种全新的序列建模架构,并伴随预训练语言模型,这些模型在多语言任务上以30亿参数规模确立了新的下游性能标杆,同时在英语语言性能上媲美当前的最先进水平,尽管其训练所用的token数量远少于其他顶尖的30亿参数模型。值得注意的是,RWKV-7模型仅需恒定的内存使用和每token恒定的推理时间。RWKV-7引入了向量化门控和上下文学习率的新泛化delta规则,以及一种宽松的值替换规则。我们展示出RWKV-7能够执行状态追踪并识别所有正则语言,同时保持训练的可并行性。这一能力超越了在标准复杂度猜想下仅限于TC^0的Transformer模型。为了展示RWKV-7的语言建模能力,我们还发布了一个扩展的开源多语言语料库,包含3.1万亿token,并在此数据集上训练了四个RWKV-7模型,参数规模从1.9亿到29亿不等。 为了促进开放性、可复现性和采用率,我们在https://huggingface.co/RWKV发布了模型及数据集组件清单,并在https://github.com/RWKV/RWKV-LM公开了训练与推理代码,所有内容均遵循Apache 2.0许可证。
推理扩展赋予了大语言模型前所未有的推理能力,其中强化学习作为核心技术,能够激发复杂的推理过程。然而,当前顶尖推理大语言模型的关键技术细节(如OpenAI o1博客和DeepSeek R1技术报告中所提及的)仍被保密,导致业界在复现其强化学习训练成果方面面临重重困难。我们提出了解耦裁剪与动态采样策略优化(DAPO)算法,并完全开源了一套基于Qwen2.5-32B基础模型、在AIME 2024上取得50分成绩的先进大规模强化学习系统。与以往隐藏训练细节的做法不同,我们详细介绍了算法成功的四大关键技术。此外,我们开源了基于verl框架构建的训练代码,以及经过精心筛选和处理的数据集。这些开源系统组件不仅提升了研究的可复现性,也为未来大规模大语言模型强化学习研究提供了有力支持。
如今,合成视频被广泛用于弥补现实世界视频数据稀缺性和多样性的不足。当前的合成数据集主要复制现实场景,而对不可能、反事实及反现实的视频概念探索不足。本研究旨在回答两个问题:1) 当今的视频生成模型能否有效遵循提示,创造出不可能的视频内容?2) 当今的视频理解模型是否足以理解不可能的视频?为此,我们引入了IPV-Bench,一个旨在评估并推动视频理解与生成进步的新颖基准。IPV-Bench以一套全面的分类体系为基础,涵盖4大领域、14个类别,展示了违背物理、生物、地理或社会法则的多样化场景。基于此分类体系,构建了一套提示集来评估视频生成模型,挑战其遵循提示与创造力的能力。此外,还精心策划了一个视频基准,用于评估视频大语言模型(Video-LLMs)在理解不可能视频方面的能力,这尤其需要模型具备对时间动态和世界知识的推理能力。全面的评估揭示了视频模型的局限性与未来发展方向,为下一代视频模型铺平了道路。
创造力是智能的核心要素,涉及在多样情境中生成新颖且适宜解决方案的能力。尽管大型语言模型(LLMs)的创造性能力已得到广泛评估,但多模态大型语言模型(MLLMs)在这一领域的评估仍鲜有探索。为填补这一空白,我们推出了Creation-MMBench,这是一个专门设计用于评估MLLMs在现实世界图像任务中创造能力的多模态基准。该基准包含765个测试案例,覆盖51项细粒度任务。为确保评估的严谨性,我们为每个测试案例定义了实例特定的评估标准,指导对响应整体质量及与视觉输入事实一致性的评估。实验结果显示,当前开源的MLLMs在创造性任务上显著落后于专有模型。此外,我们的分析表明,视觉微调可能会削弱基础LLM的创造能力。Creation-MMBench为推进MLLMs的创造力提供了宝贵洞见,并为未来多模态生成智能的改进奠定了基础。完整数据及评估代码已发布于https://github.com/open-compass/Creation-MMBench。
在涉及具身智能的多种任务中,高质量的大规模铰接物体需求迫切。现有创建铰接物体的方法大多基于数据驱动或模拟,这些方法受限于训练数据的规模与质量,或模拟的逼真度与繁重劳动。本文提出“无限机动性”这一创新方法,通过程序化生成合成高保真铰接物体。用户研究与定量评估表明,该方法生成的结果在物理属性与网格质量上均超越当前最先进技术,并与人工标注数据集相当。此外,我们证明合成数据可用作生成模型的训练数据,为下一步的规模扩展奠定基础。代码已发布于https://github.com/Intern-Nexus/Infinite-Mobility。
人类专家擅长通过运用领域知识来精炼感知特征,从而实现细粒度的视觉辨别,这一能力在当前的多模态大语言模型(MLLMs)中尚未得到充分发展。尽管MLLMs拥有海量的专家级知识,它们在将推理融入视觉感知方面仍面临挑战,往往直接生成回应而缺乏深入分析。为弥合这一差距,我们引入了知识密集型视觉定位(KVG),这是一项新颖的视觉定位任务,要求同时具备细粒度感知和领域特定知识的整合能力。针对KVG的挑战,我们提出了DeepPerception,一个增强了认知视觉感知能力的MLLM。我们的方法包括:(1)一个自动化数据合成管道,用于生成高质量、知识对齐的训练样本;(2)一个两阶段训练框架,结合了用于认知推理支架的监督微调和强化学习,以优化感知与认知的协同作用。为了评估性能,我们推出了KVG-Bench,这是一个涵盖10个领域、包含1.3K个手工精选测试案例的全面数据集。实验结果显示,DeepPerception显著优于直接微调,在KVG-Bench上实现了+8.08%的准确率提升,并在跨领域泛化能力上比基线方法高出+4.60%。我们的研究结果强调了将认知过程整合到MLLMs中以实现类人视觉感知的重要性,并为多模态推理研究开辟了新方向。数据、代码和模型已发布于https://github.com/thunlp/DeepPerception。
音频与音乐生成已成为众多应用中的关键任务,然而现有方法面临显著局限:它们各自独立运行,缺乏跨模态的统一能力,受限于高质量多模态训练数据的稀缺,且难以有效整合多样化的输入。在本研究中,我们提出了AudioX,一个面向“万物至音频与音乐生成”的统一扩散Transformer模型。与以往领域专用模型不同,AudioX能够高质量地生成通用音频及音乐,同时提供灵活的自然语言控制,并无缝处理包括文本、视频、图像、音乐和音频在内的多种模态。其核心创新在于一种多模态掩码训练策略,该策略跨模态掩码输入,迫使模型从掩码输入中学习,从而获得鲁棒且统一的跨模态表示。针对数据稀缺问题,我们精心构建了两个综合数据集:基于VGGSound数据集的vggsound-caps,包含19万条音频描述;以及源自V2M数据集的V2M-caps,拥有600万条音乐描述。大量实验证明,AudioX不仅匹配或超越了当前最先进的专用模型,还在统一架构内处理多样化输入模态及生成任务方面展现出卓越的通用性。代码与数据集将发布于https://zeyuet.github.io/AudioX/。
大型语言模型(LLMs)能够通过简单的提示处理多种通用任务,无需针对特定任务进行训练。基于LLMs构建的多模态大型语言模型(MLLMs)在应对涉及视觉、听觉和文本数据的复杂任务方面展现了显著潜力。然而,与真实性、安全性、类人推理及与人类偏好对齐相关的关键问题仍未得到充分解决。这一空白催生了多种对齐算法的出现,每种算法针对不同的应用场景和优化目标。近期研究表明,对齐算法是解决上述挑战的有效途径。本文旨在对MLLMs的对齐算法进行全面系统的综述。具体而言,我们探讨了四个关键方面:(1)对齐算法覆盖的应用场景,包括通用图像理解、多图像、视频和音频,以及扩展的多模态应用;(2)构建对齐数据集的核心要素,包括数据来源、模型响应和偏好标注;(3)用于评估对齐算法的基准测试;(4)对齐算法未来发展的潜在方向讨论。本工作旨在帮助研究者梳理该领域的当前进展,并启发更优的对齐方法。本文的项目页面可在https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Alignment访问。
图像描述一直是视觉语言研究领域的一项长期挑战。随着大型语言模型(LLMs)的兴起,现代视觉语言模型(VLMs)能够生成细致且全面的图像描述。然而,如何评估这些描述的质量仍是一个未解之题。本文聚焦于两个关键问题:(1)当前的VLMs在图像描述任务上实际表现如何,尤其是与人类相比?我们构建了CapArena平台,包含超过6000对描述对比及高质量的人类偏好投票。我们的竞技场式评估标志着一个里程碑,表明领先模型如GPT-4o已达到甚至超越人类水平,而大多数开源模型则表现欠佳。(2)自动化指标能否可靠评估详细描述的质量?利用CapArena中的人类标注,我们评估了传统及近期的描述指标,以及“VLM作为评判者”的方法。分析显示,尽管某些指标(如METEOR)在描述级别与人类判断有较好一致性,但其系统性偏差导致模型排名不一致。相比之下,“VLM作为评判者”在描述和模型两个层面均展现出强大的辨别力。基于这些洞见,我们发布了CapArena-Auto,一个准确高效的自动化详细描述基准,仅需每测试4美元,即可实现与人类排名94.3%的相关性。数据与资源将在https://caparena.github.io开源。
残差连接是现代深度学习架构的核心,通过缓解梯度消失问题,使得极深网络的训练成为可能。超连接技术近期对残差连接进行了泛化,通过在不同深度引入多种连接强度,有效解决了梯度消失与表征坍缩之间的跷跷板效应。然而,超连接通过扩展隐藏状态的宽度,增加了内存访问成本。本文提出了一种新颖的方法——分数连接,其核心思想是将隐藏状态分割为多个部分而非扩展其宽度。分数连接在保留超连接部分优势的同时,显著降低了内存消耗。为验证其有效性,我们在语言任务上进行了大规模实验,其中最大规模的实验是在高达3T词元上训练的7B混合专家模型,结果表明分数连接显著优于传统残差连接。
我们推出Cosmos-Transfer,这是一种条件式世界生成模型,能够基于多种模态的空间控制输入(如分割、深度和边缘)生成世界模拟。在设计上,该空间条件方案具有自适应性和可定制性,允许在不同空间位置对不同的条件输入赋予不同的权重。这使得世界生成具有高度可控性,并适用于多种世界间转换的应用场景,包括Sim2Real(仿真到现实)。我们进行了广泛的评估,以分析所提出的模型,并展示了其在物理AI领域的应用,包括机器人Sim2Real和自动驾驶数据增强。此外,我们还展示了一种推理扩展策略,利用NVIDIA GB200 NVL72机架实现实时世界生成。为了加速该领域的研究发展,我们在https://github.com/nvidia-cosmos/cosmos-transfer1开源了我们的模型和代码。
从单张图像生成包含360度旋转和缩放功能的灵活视角3D场景,由于缺乏3D数据而颇具挑战性。为此,我们提出了FlexWorld,一个创新框架,包含两大核心组件:(1) 一个强大的视频到视频(V2V)扩散模型,用于从粗略场景渲染的不完整输入中生成高质量的新视角图像;(2) 一个渐进式扩展过程,用于构建完整的3D场景。特别地,借助先进的预训练视频模型和精确的深度估计训练对,我们的V2V模型能够在相机姿态大幅变化的情况下生成新视角。在此基础上,FlexWorld通过几何感知的场景融合,逐步生成新的3D内容并将其整合到全局场景中。大量实验证明,FlexWorld在从单张图像生成高质量新视角视频和灵活视角3D场景方面效果显著,在多个流行指标和数据集上相比现有最先进方法实现了更优的视觉质量。定性分析中,我们强调FlexWorld能够生成具有高保真度的场景,支持如360度旋转和缩放等灵活视角。项目页面:https://ml-gsai.github.io/FlexWorld。
高效建模大规模图像一直是机器学习领域的一项长期挑战。为此,我们提出了多尺度注意力机制(MSA)。MSA基于两个核心理念:(i) 多尺度表示 (ii) 双向跨尺度通信。MSA通过创建O(log N)个尺度来逐步表示图像的粗糙特征,并利用交叉注意力机制在尺度间传播信息。随后,我们介绍了Atlas,一种基于MSA的新型神经网络架构。我们证明,Atlas在高分辨率版本的ImageNet 100上显著改善了长上下文图像建模的计算性能权衡。在1024像素分辨率下,Atlas-B实现了91.04%的准确率,与ConvNext-B(91.92%)相当,同时速度提升了4.3倍。与FasterViT相比,Atlas速度快2.95倍,准确率高出7.38%;与LongViT相比,速度快2.25倍,准确率高出4.96%。在与MambaVision-S的对比中,Atlas-S在1024px、2048px和4096px分辨率下分别实现了5%、16%和32%的更高准确率,同时保持了相近的运行时间。实验复现代码及预训练模型已发布于https://github.com/yalalab/atlas。
尽管人工智能在基准测试上取得了快速进展,但基准性能在现实世界中的意义仍不明确。为了量化人工智能系统相对于人类能力的能力,我们提出了一种新的度量标准:50%任务完成时间跨度。这是人类通常完成人工智能模型能以50%成功率完成的任务所需的时间。我们首先对具有相关领域专业知识的人类在RE-Bench、HCAST以及66个新颖的较短任务组合上进行了计时。在这些任务上,当前的前沿人工智能模型(如Claude 3.7 Sonnet)的50%时间跨度约为50分钟。此外,自2019年以来,前沿人工智能的时间跨度大约每七个月翻一番,尽管这一趋势在2024年可能有所加速。人工智能模型时间跨度的增加似乎主要由更高的可靠性和适应错误的能力驱动,同时结合了更好的逻辑推理和工具使用能力。我们讨论了研究结果的局限性——包括其外部效度——以及自主性增强对危险能力的影响。如果这些结果能够推广到现实世界的软件任务中,根据这一趋势的推断预测,在五年内,人工智能系统将能够自动化许多目前需要人类一个月时间完成的软件任务。
验证对于有效的数学推理至关重要。我们提出了一种新的时间一致性方法,其中验证者基于先前的评估迭代优化其判断。与单轮验证或多模型辩论方法不同,我们的方法利用一系列自我反思行为中的一致性来提高验证准确性。在多种数学过程错误识别基准(Mathcheck、ProcessBench和PRM800K)上的实证评估显示,相较于基线方法,我们的方法在性能上取得了持续提升。当应用于最新的DeepSeek R1蒸馏模型时,我们的方法展现了强劲的性能,使得7B/8B蒸馏模型在ProcessBench上超越了所有70B/72B模型及GPT-4o。值得注意的是,采用我们方法的14B蒸馏模型达到了与Deepseek-R1相当的性能。我们的代码已公开于https://github.com/jcguo123/Temporal-Consistency。
我们提出了Concat-ID,一个用于身份保持视频生成的统一框架。Concat-ID采用变分自编码器提取图像特征,这些特征沿序列维度与视频潜在表示进行拼接,仅利用3D自注意力机制而无需额外模块。我们引入了一种新颖的跨视频配对策略和多阶段训练方案,以在增强视频自然度的同时平衡身份一致性和面部可编辑性。大量实验表明,Concat-ID在单身份和多身份生成方面均优于现有方法,并且能够无缝扩展到多主体场景,包括虚拟试穿和背景可控生成。Concat-ID为身份保持视频合成设立了新基准,为广泛的应用提供了一个多功能且可扩展的解决方案。
推理能力是大型语言模型(LLMs)处理复杂任务的核心能力,其中过程错误的识别对于提升这一能力至关重要。近期,过程级奖励模型(PRMs)被提出,旨在提供逐步奖励,以促进训练期间的强化学习和数据生成,并在推理过程中引导LLMs走向正确步骤,从而提高推理准确性。然而,现有的PRMs基准测试主要基于文本,侧重于错误检测,忽视了诸如推理搜索等其他场景。为填补这一空白,我们引入了MPBench,一个全面、多任务、多模态的基准测试,旨在系统评估PRMs在多样化场景中的有效性。MPBench采用三种评估范式,每种范式针对PRMs在推理过程中的特定角色:(1) 步骤正确性,评估每个中间推理步骤的正确性;(2) 答案聚合,整合多个解决方案并选择最佳答案;(3) 推理过程搜索,指导推理过程中最优推理步骤的搜索。通过这些范式,MPBench进行了全面评估,并为多模态PRMs的发展提供了洞见。
推动文本到图像生成的主流方法一直是训练阶段的扩展,即利用更多数据和更大计算资源训练更庞大的模型。虽然有效,但这种方法计算成本高昂,因此人们越来越关注通过推理阶段的扩展来提升性能。目前,文本到图像扩散模型的推理扩展主要局限于N选一采样,即每个提示生成多幅图像,再由选择模型挑出最佳输出。受近期如DeepSeek-R1等推理模型在语言领域取得成功的启发,我们提出了一种替代简单N选一采样的方法,通过赋予文本到图像扩散变换器上下文反思能力。我们提出了Reflect-DiT,该方法使扩散变换器能够利用先前生成图像的上下文示例及描述必要改进的文本反馈来优化其生成结果。Reflect-DiT不再被动依赖随机采样并寄希望于未来生成更好的结果,而是明确针对需要改进的具体方面定制其生成内容。实验结果表明,以SANA-1.0-1.6B为基础模型,Reflect-DiT在GenEval基准测试上提升了0.19分。此外,它仅需每个提示生成20个样本,就在GenEval上取得了0.81的新纪录,超越了之前使用更大模型(SANA-1.5-4.8B)在N选一方法下生成2048个样本所获得的0.80分的最佳成绩。
多模态大语言模型(MLLMs)在二维视觉理解方面表现出色,但在三维空间推理能力上仍显不足。本研究利用大规模高质量的三维场景数据及开放集标注,引入了:1)一个新颖的监督微调数据集;2)一个专注于室内场景的新评估基准。我们的“万物立方化视觉问答”(CA-VQA)数据涵盖了多样化的空间任务,包括空间关系预测、度量尺寸与距离估计以及三维定位。我们展示了CA-VQA如何助力训练出MM-Spatial,这一强大的通用型MLLM,不仅在包括我们自建基准在内的三维空间理解测试中达到了顶尖水平,还证明了结合度量深度和多视角输入(CA-VQA中提供)能进一步提升三维理解能力。此外,仅凭数据,我们的模型便实现了与专用单目深度估计模型相媲美的深度感知能力。我们将公开我们的监督微调数据集及评估基准。
尽管多模态大语言模型(MLLMs)展现出卓越的能力,但在细粒度感知和复杂推理方面仍面临挑战。当前主流的预训练方法侧重于通过高质量图像描述来增强感知能力,这是因为收集用于提升推理能力的思维链(CoT)数据成本极高。虽然利用先进的MLLMs生成描述提高了可扩展性,但其输出往往缺乏全面性和准确性。本文提出自我提升认知框架(SIcog),旨在通过自生成数据的多模态预训练,增强MLLMs的系统认知能力,构建下一代基础MLLMs。具体而言,我们引入了描述链方法,通过逐步视觉理解提升MLLMs的系统感知能力,确保更高的全面性和准确性。此外,采用结构化CoT推理技术,使MLLMs能够进行深入的多模态推理。为构建具备自我提升认知能力的下一代基础MLLM,SIcog首先利用最少的外部标注赋予MLLM系统感知与推理能力。增强后的模型随后生成详细描述和CoT推理数据,并通过自一致性进一步筛选。最终,这些精选数据用于多模态预训练,开发下一代基础模型。在多种基准测试中,对低分辨率和高分辨率MLLMs的广泛实验表明,仅使用213K自生成的预训练样本,SIcog便能产出认知能力显著提升的下一代基础MLLMs,相较于主流预训练方法,实现了基准测试中的领先性能。
跨语言迁移使得视觉-语言模型(VLMs)能够仅用一种语言的训练数据,在多种语言中执行视觉任务。当前方法依赖于大规模预训练的多语言语言模型。然而,这些方法面临多语言诅咒,即为了多语言能力而牺牲下游任务性能,难以处理词汇歧义,且未能跟上最新进展。在本研究中,我们探讨了单语VLMs在系统化泛化方面的扩展规律,针对多语言任务,着重分析了模型规模与已见训练样本的影响。我们提出了Florenz,一个参数规模从0.4B到11.2B的单语编码器-解码器VLM,它结合了预训练的VLM Florence-2和大语言模型Gemma-2。Florenz在不同计算预算下,在一个特意设计为语言覆盖不全的合成数据集上进行训练,该数据集用于图像描述,从而测试从完全覆盖的翻译任务中的泛化能力。我们不仅证明了间接学习未见任务-语言对遵循扩展规律,还展示了通过我们的数据生成管道及提出的Florenz模型系列,即便仅提供翻译任务的数据,特定语言的图像描述能力也能涌现。在下游数据集混合微调后,Florenz在多模态机器翻译(Multi30K, CoMMuTE)、词汇消歧(CoMMuTE)及图像描述(Multi30K, XM3600, COCO Karpathy)任务中展现出竞争力,并显示出良好的扩展趋势。
大型语言模型(LLMs)在多种自然语言处理任务中展现了卓越的能力。然而,在数学推理和非英语语言等专业领域实现强劲表现,通常需要在大规模数据集上进行广泛训练。本文探讨了一种截然不同的方法:通过对一个高质量、双语(英法)的小型数据集进行策略性微调,以增强大型语言模型的推理能力和法语熟练度。我们并未依赖数据规模,而是探索了这样一个假设:针对性的数据筛选和优化训练能够实现竞争性乃至更优的性能。通过仅对2000个精心挑选的样本进行有监督微调(SFT),我们展示了在数学推理方面的显著提升。具体而言,Pensez 7B模型在AIME25上的准确率较基础模型提高了20%,在法语MATH五级基准测试中提升了12%。这些结果挑战了当前普遍认为大规模数据集是LLMs实现强大推理性能必要条件的假设,凸显了策略性数据筛选和优化微调在提升专业技能和多语言能力方面的潜力。我们的发现对于高效开发高性能、多语言LLMs,特别是在资源受限的情况下,具有重要意义。
近年来,多模态大语言模型(MLLMs)在视觉问答、视觉理解及推理等任务中展现出显著进步。然而,这一令人瞩目的进展依赖于从互联网收集的海量数据,引发了关于隐私与安全的重大关切。为解决这些问题,机器遗忘(MU)作为一种有前景的解决方案应运而生,它能够在无需从头训练的情况下,从已训练模型中移除特定知识。尽管MLLMs的MU已引起关注,但当前对其有效性的评估仍不全面,且基础问题常定义不清,这阻碍了开发更安全、可信赖系统的策略。为填补这一空白,我们引入了一个名为PEBench的基准,它包含个人实体及相应通用事件场景的数据集,旨在全面评估MLLMs的MU性能。通过PEBench,我们期望提供一个标准化且稳健的框架,以推动安全与隐私保护多模态模型的研究。我们对6种MU方法进行了基准测试,揭示了它们的优势与局限,并阐明了MLLMs中MU面临的关键挑战与机遇。
理想的模型评估应达成两大目标:识别模型失败之处并提供可操作的改进指导。针对语言模型(LM)评估的这两个目标,我们提出了生成弱点描述的问题,即在给定LM在基准测试中每个实例上的表现后,用自然语言表达出一组弱点。我们引入了一套定量评估方法,用于比较不同的弱点描述方法。同时,我们提出了一种名为EvalTree的弱点描述方法。该方法构建了一个能力树,其中每个节点代表一种以自然语言描述的能力,并与专门评估该能力的基准测试实例子集相关联;随后,它提取LM表现不佳的节点,生成弱点描述。在MATH和WildChat基准测试上,我们展示了EvalTree通过更精确和全面地识别弱点,优于基线弱点描述方法。弱点描述进一步支持了基于弱点的数据收集,而由EvalTree识别出的弱点指导的训练数据收集,相比其他数据收集策略,更能提升LM的性能。我们还展示了EvalTree如何揭示Chatbot Arena基于人类投票评估实践的缺陷。为了促进未来研究,我们发布了我们的代码及一个界面,使实践者能够交互式探索EvalTree构建的能力树。
多模态大语言模型(MLLMs)在推理方面展现了卓越的能力,但其高昂的计算成本限制了其在资源受限环境中的部署。尽管近期已有提升MLLMs效率的研究,现有方案仍难以应对运行时条件的变化,尤其是资源可用性的波动(例如,设备上其他程序执行导致的资源竞争)。为填补这一空白,我们提出了AdaLLaVA,一种自适应推理框架,该框架能够在推理过程中根据输入数据及延迟预算,动态调整MLLM的操作配置。我们在涉及问答、推理及幻觉检测的多个基准测试上进行了广泛实验。结果表明,AdaLLaVA能有效遵循输入延迟预算,在运行时实现不同精度与延迟的权衡。此外,我们证明AdaLLaVA不仅能适应输入延迟与内容,还可与令牌选择技术结合以进一步提升效率,并且能够泛化应用于多种MLLMs。项目网页及代码发布地址为https://zhuoyan-xu.github.io/ada-llava/。
图域适应作为一种促进跨领域知识迁移的有前景方法,近年来已崭露头角。近期,众多模型被提出以增强该领域的泛化能力。然而,目前尚缺乏一个统一库来整合现有技术并简化其实现。为填补这一空白,我们推出了PyGDA,一款专为图域适应设计的开源Python库。作为该领域的首个综合性库,PyGDA涵盖了超过20种广泛使用的图域适应方法及多种类型的图数据集。具体而言,PyGDA提供了模块化组件,使用户能够利用一系列常用实用功能无缝构建定制模型。为处理大规模图数据,PyGDA支持采样和小批量处理等特性,确保计算效率。此外,PyGDA还包含了全面的性能基准测试以及为研究人员和从业者精心编写的用户友好API文档。为便于广泛使用,PyGDA以MIT许可证发布于https://github.com/pygda-team/pygda,API文档则位于https://pygda.readthedocs.io/en/stable/。
生成模型在三维物体领域近期取得了显著进展。然而,由于无法满足特定领域任务所需的精确度、质量和可控性,这些模型在工程等领域的实际应用仍受到限制。对大型生成模型进行微调,是使其在这些领域得以应用的一个前景广阔的方向。创建高质量、领域特定的三维数据集对于微调大型生成模型至关重要,但数据筛选和标注过程仍是一个主要瓶颈。我们推出了MeshFleet,这是一个从Objaverse-XL(目前最广泛的公开三维物体集合)中提取并经过筛选和标注的三维车辆数据集。我们的方法提出了一种基于质量分类器的自动化数据筛选流程。该分类器在Objaverse的手动标注子集上训练,结合了DINOv2和SigLIP嵌入,并通过基于标题的分析和不确定性估计进行优化。我们通过与基于标题和图像美学评分的筛选技术进行对比分析,以及使用SV3D进行的微调实验,展示了我们筛选方法的有效性,强调了针对性数据选择对于领域特定三维生成建模的重要性。
解决从视觉语言模型(如CLIP)中检索不安全内容的问题,是实现其现实世界集成的重要一步。当前的努力主要依赖于遗忘技术,试图抹除模型对不安全概念的知识。尽管遗忘技术在减少不良输出方面有效,但它限制了模型区分安全与不安全内容的能力。在本研究中,我们提出了一种新颖的方法,通过利用双曲空间固有的层次特性,从遗忘转向意识范式。我们建议将安全与不安全内容编码为蕴含层次结构,使二者位于双曲空间的不同区域。我们的HySAC(双曲安全感知CLIP)采用蕴含损失函数来建模安全与不安全图像-文本对之间的层次性和非对称关系。这种建模在标准视觉语言模型中因依赖欧几里得嵌入而效果不佳,却赋予模型对不安全内容的意识,使其既能作为多模态不安全分类器,又能作为灵活的内容检索器,并具备动态将不安全查询重定向至更安全替代选项或保留原始输出的能力。大量实验表明,我们的方法不仅提升了安全识别能力,还为视觉语言模型中的内容审核建立了一个更适应性强且可解释的框架。我们的源代码已发布于https://github.com/aimagelab/HySAC。
随着大语言模型(LLMs)和视觉-语言模型(VLMs)的快速发展,开放词汇机器人操作系统领域取得了显著进展。然而,许多现有方法忽视了物体动力学的重要性,限制了其在更复杂、动态任务中的适用性。在本研究中,我们提出了KUDA,一个集成了动力学学习和通过关键点进行视觉提示的开放词汇操作系统,它同时利用了VLMs和学习型神经动力学模型。我们的核心洞见在于,基于关键点的目标规范不仅对VLMs具有可解释性,还能高效地转化为基于模型的规划成本函数。给定语言指令和视觉观察,KUDA首先为RGB图像分配关键点,并查询VLM以生成目标规范。随后,这些抽象的关键点表示被转换为成本函数,并通过学习到的动力学模型进行优化,从而生成机器人轨迹。我们在多种操作任务上评估了KUDA,包括跨不同物体类别的自由形式语言指令、多物体交互以及可变形或颗粒状物体的操作,验证了我们框架的有效性。项目页面可在http://kuda-dynamics.github.io访问。
路侧协同感知系统是指多个路侧单元协作共享其感知数据,以辅助车辆提升环境感知能力。现有路侧感知方法主要关注模型设计,却忽视了校准误差、信息稀疏和多视角一致性等数据问题,导致在最新发布的数据集上表现不佳。为显著提升路侧协同感知并解决关键数据问题,我们提出了首个路侧协同感知仿真框架RoCo-Sim。RoCo-Sim能够通过动态前景编辑和单图像全场景风格迁移,生成多样化且多视角一致的路侧仿真数据。RoCo-Sim包含四个核心组件:(1) 相机外参优化,确保路侧摄像头精确的3D到2D投影;(2) 创新的多视角遮挡感知采样器(MOAS),决定多样数字资产在3D空间中的布局;(3) DepthSAM,从单帧固定视角图像中创新建模前景与背景关系,保证前景的多视角一致性;(4) 可扩展的后处理工具包,通过风格迁移等增强手段生成更真实丰富的场景。RoCo-Sim显著提升了路侧3D物体检测性能,在Rcooper-Intersection和TUMTraf-V2X数据集上的AP70指标分别超越当前最优方法83.74和83.12。RoCo-Sim填补了路侧感知仿真领域的关键空白。代码与预训练模型即将发布:https://github.com/duyuwen-duen/RoCo-Sim。
车对车(V2V)协同自动驾驶在提升安全性方面展现出巨大潜力,它能够有效应对单智能体系统中固有的感知与预测不确定性。然而,传统协同方法受限于僵化的协作协议,在面对未见过的交互场景时泛化能力不足。尽管基于大语言模型(LLM)的方法提供了泛化的推理能力,但其在空间规划上的挑战及不稳定的推理延迟阻碍了其在协同驾驶中的直接应用。为克服这些局限,我们提出了CoLMDriver,首个基于LLM的全流程协同驾驶系统,实现了基于语言的有效协商与实时驾驶控制。CoLMDriver采用并行驾驶流程,包含两大核心组件:(i) 基于LLM的协商模块,采用演员-评论家范式,通过所有车辆先前决策的反馈持续优化协作策略;(ii) 意图引导的路径点生成器,将协商结果转化为可执行的路径点。此外,我们引入了InterDrive,一个基于CARLA的仿真基准,包含10个具有挑战性的交互驾驶场景,用于评估V2V协同性能。实验结果表明,CoLMDriver在多种高交互性的V2V驾驶场景中显著优于现有方法,成功率提升了11%。代码将在https://github.com/cxliu0314/CoLMDriver 上发布。