每日精选AI研究论文及翻译
高质量的纹理贴图对于逼真的3D资产渲染至关重要,然而鲜有研究直接探索在纹理空间中学习,尤其是在大规模数据集上。在这项工作中,我们摆脱了依赖预训练的2D扩散模型在测试时优化3D纹理的传统方法。相反,我们专注于在UV纹理空间本身学习的基本问题。我们首次训练了一个大型扩散模型,能够以前馈方式直接生成高分辨率的纹理贴图。为了促进在高分辨率UV空间中的高效学习,我们提出了一种可扩展的网络架构,交替在UV贴图上进行卷积,并在点云上使用注意力层。利用这种架构设计,我们训练了一个拥有7亿参数的扩散模型,可以生成由文本提示和单视图图像指导的UV纹理贴图。一经训练,我们的模型自然支持各种扩展应用,包括文本引导的纹理修复、稀疏视图纹理完成以及文本驱动的纹理合成。项目页面位于http://cvmi-lab.github.io/TEXGen/。
随着扩散模型的最新进展,基于主体驱动的图像修复已成为图像编辑中的热门任务。先前的方法主要侧重于保留身份,但在保持插入对象的可编辑性方面存在困难。为此,本文引入了DreamMix,一种基于扩散的生成模型,擅长将目标对象插入到给定场景中的用户指定位置,同时实现对其属性进行任意文本驱动修改。具体而言,我们利用先进的基础修复模型,并引入了一个解耦的局部-全局修复框架,以平衡精确的局部对象插入和有效的全局视觉连贯性。此外,我们提出了属性解耦机制(ADM)和文本属性替换(TAS)模块,分别改善了基于文本属性指导的多样性和区分能力。大量实验证明,DreamMix 在各种应用场景中(包括对象插入、属性编辑和小对象修复)有效平衡了身份保留和属性可编辑性。我们的代码可在 https://github.com/mycfhs/DreamMix 上公开获取。
基于Transformer的大型语言模型(LLMs)在处理长序列时,由于自注意力机制的二次复杂度,推理既昂贵又缓慢。我们引入Star Attention,这是一种两阶段的块稀疏逼近方法,通过将注意力分片到多个主机上并最小化通信开销,提高了计算效率。在第一阶段,通过跨主机的块状局部注意力并行处理上下文。在第二阶段,查询和响应标记通过序列全局注意力与所有先前缓存的标记进行关联。Star Attention与大多数使用全局注意力训练的基于Transformer的LLMs无缝集成,将内存需求和推理时间降低最多11倍,同时保持95-100%的准确性。
构建图形用户界面(GUI)助手在提高人类工作流生产力方面具有重要潜力。虽然大多数代理是基于语言的,依赖于具有文本丰富元信息的闭源API(例如HTML或可访问性树),但它们在感知UI视觉方面存在局限,突显了对GUI视觉代理的需求。在这项工作中,我们在数字世界中开发了一种名为ShowUI的视觉-语言-动作模型,具有以下创新:(i)UI引导的视觉标记选择,通过将屏幕截图构建为UI连接图,自适应地识别它们之间的冗余关系,并作为自注意力块期间标记选择的标准,以降低计算成本;(ii)交织的视觉-语言-动作流,灵活地统一GUI任务中的多样需求,实现对导航中的视觉-动作历史或配对多轮查询-动作序列进行有效管理,以增强训练效率;(iii)通过精心策划数据和采用重新采样策略,构建小规模高质量的GUI指令遵循数据集,以解决重要数据类型不平衡的问题。通过以上组件,ShowUI,一个使用256K数据的轻量级2B模型,在零-shot截图定位中实现了强大的75.1%准确率。其UI引导的标记选择在训练期间进一步减少了33%的冗余视觉标记,并将性能提升了1.4倍。在Web Mind2Web、移动AITW和在线MiniWob环境中的导航实验进一步突显了我们模型在推进GUI视觉代理方面的有效性和潜力。这些模型可在https://github.com/showlab/ShowUI 上获得。
最近,由图像扩散模型推动的图像编辑方面取得了显著进展。然而,仍然存在重大挑战,因为这些模型通常难以准确遵循复杂的编辑指令,并经常通过改变原始图像的关键元素来牺牲保真度。与此同时,视频生成取得了显著进展,具有有效运作的连续世界模拟器模型。在本文中,我们提出通过利用图像到视频模型进行图像编辑,将这两个领域合并。我们重新构想图像编辑为一个时间过程,利用预训练的视频模型从原始图像到所需编辑的平滑过渡。这种方法持续地遍历图像流形,确保一致的编辑同时保留原始图像的关键方面。我们的方法在基于文本的图像编辑方面取得了最先进的结果,显示出在编辑准确性和图像保留方面的显著改进。
作为人工通用智能(AGI)的一个重要方向,多模态大型语言模型(MLLMs)在工业界和学术界都受到了越来越多的关注。这一系列模型是在预训练的语言模型(LLMs)基础上构建的,进一步发展了令人印象深刻的多模态感知和推理能力,例如根据流程图编写代码或根据图像创作故事。在开发过程中,评估至关重要,因为它提供了直观的反馈和指导,帮助改进模型。与传统的训练-评估-测试范式不同,后者只偏重于像图像分类这样的单一任务,MLLMs的多功能性催生了各种新的基准和评估方法的兴起。本文旨在全面调查MLLM评估,讨论四个关键方面:1)根据评估能力划分的总结的基准类型,包括基础能力、模型自我分析和扩展应用;2)基准构建的典型过程,包括数据收集、注释和注意事项;3)由评委、度量和工具包组成的系统评估方式;4)下一个基准的展望。这项工作旨在为研究人员提供如何根据不同需求有效评估MLLMs的简便方法,并激发更好的评估方法,推动MLLM研究的进展。
为加速推理大型多模态语言模型(MLLMs),本研究重新思考了无需训练的标记减少研究的当前格局。我们遗憾地发现现有方法的关键组件紧密相连,它们的相互关系和影响对于比较、迁移和扩展仍然不清楚。因此,我们提出了一个统一的“过滤-相关-压缩”范式,将标记减少分解为管道内的三个明确定义的阶段,保持一致的设计目标和元素,同时允许独特的实现。我们还揭示了流行作品并将其纳入我们的范式,展示其普适性。最后,我们提供了一套基于该范式的方法,通过推理的不同阶段在速度和准确性之间取得平衡。在10个基准测试中的实验结果表明,我们的方法在最小影响性能的情况下,可以实现高达82.4%的FLOPs减少,同时超越了最先进的无需训练的方法。我们的项目页面位于https://ficoco-accelerate.github.io/。
素描作为一种多才多艺的工具,用于外化思想,实现快速探索和跨越各个学科领域的视觉交流。虽然人工系统在内容创作和人机交互方面取得了重大进展,但捕捉人类素描的动态和抽象特性仍然具有挑战性。在这项工作中,我们介绍了SketchAgent,这是一种基于语言驱动的、顺序素描生成方法,使用户能够通过动态的对话交互来创建、修改和完善素描。我们的方法不需要训练或微调。相反,我们利用现成的多模态大型语言模型(LLMs)的顺序特性和丰富的先验知识。我们提出了一种直观的素描语言,通过上下文示例引入模型,使其能够使用基于字符串的操作来“绘图”。这些操作被处理成矢量图形,然后呈现为在像素画布上创建的素描,可以再次访问以进行进一步的任务。通过逐笔绘制,我们的代理捕捉了素描固有的不断发展的动态特性。我们证明了SketchAgent能够从不同的提示中生成素描,进行基于对话的绘图,并与人类用户进行有意义的合作。
我们发现,低比特量化有利于未充分训练的大型语言模型(LLMs),观察到具有更大尺寸或较少训练标记的模型在应用低比特量化时遭受的量化诱导退化(QiD)较少,而具有大量训练标记的较小模型遭受显著的QiD。为了更深入地了解这一趋势,我们在受控环境中研究了1500多个不同尺寸和不同训练水平(未充分训练或完全训练)的量化LLM检查点,推导出用于理解QiD与训练标记数量、模型尺寸和比特宽度等因素之间关系的标度律。 通过推导出的标度律,我们提出了一个新颖的观点,即我们可以利用QiD来衡量LLM的训练水平,并确定各种尺寸的LLM完全训练所需的训练标记数量。此外,我们利用这些标度律来预测使用100万亿标记进行训练的不同尺寸LLM的量化性能。我们的预测显示,未来模型的低比特量化性能,预计将使用超过100万亿标记进行训练,可能并不理想。这给未来的低比特量化带来了潜在挑战,并强调了在评估低比特量化研究时需要意识到模型的训练水平。为了促进未来研究解决这一问题,我们在https://huggingface.co/Xu-Ouyang 上发布了本研究中使用的所有1500多个量化检查点。
自回归模型在各个领域取得了显著成功,从大型语言模型(LLMs)到大型多模态模型(LMMs)和2D内容生成,逐渐接近人工通用智能(AGI)。尽管取得了这些进展,但将自回归方法应用于3D对象的生成和理解仍然是一个相对未被探索的领域。本文介绍了Scale AutoRegressive 3D(SAR3D),这是一个新颖的框架,利用多尺度3D矢量量化变分自编码器(VQVAE)对3D对象进行标记化,以实现高效的自回归生成和详细理解。通过在多尺度潜在表示中预测下一个尺度,而不是下一个单个标记,SAR3D显著减少了生成时间,仅需0.82秒即可在A6000 GPU上实现快速3D对象生成。此外,鉴于标记富含分层3D感知信息,我们对预训练的LLM进行微调,实现对3D内容的多模态理解。我们的实验表明,SAR3D在速度和质量上超越了当前的3D生成方法,并使LLMs能够全面解释和描述3D模型。
视觉-语言生成奖励模型(VL-GenRMs)在对齐和评估多模态人工智能系统中发挥着关键作用,然而它们自身的评估仍未得到充分探讨。当前的评估方法主要依赖于传统视觉-语言任务中的人工智能注释偏好标签,这可能引入偏见并且通常无法有效挑战最先进的模型。为了解决这些局限,我们引入了VL-RewardBench,这是一个全面的基准测试,涵盖了一般多模态查询、视觉幻觉检测和复杂推理任务。通过我们的人工智能辅助注释流程,结合样本选择和人工验证,我们精心策划了1,250个高质量示例,专门设计用于探究模型的局限性。对16个领先的大规模视觉-语言模型进行全面评估,证明了VL-RewardBench作为一个具有挑战性的测试平台的有效性,即使是GPT-4o也仅实现了65.4%的准确率,而诸如Qwen2-VL-72B等最先进的开源模型,也难以超越随机猜测。重要的是,在VL-RewardBench上的表现与使用VL-GenRMs的Best-of-N采样的MMMU-Pro准确率强烈相关(皮尔逊相关系数r > 0.9)。分析实验揭示了改进VL-GenRMs的三个关键见解:(i)模型主要在基本视觉感知任务上失败,而不是推理任务;(ii)推理时间的扩展效益根据模型容量差异巨大;(iii)训练VL-GenRMs学会判断显著提升了判断能力(对于一个7B VL-GenRM,准确率提高了14.7%)。我们相信VL-RewardBench以及实验见解将成为推进VL-GenRMs的宝贵资源。
尽管大型多模态模型取得了进展,但将其应用于长时间未经修剪的视频内容仍然具有挑战性,这是由于上下文长度的限制和大量的内存开销。这些约束通常会导致信息严重丢失,并降低模型响应的相关性。随着网络平台上视频数据的指数增长,理解长视频对于推动普适智能至关重要。在本文中,我们介绍了SALOVA:Segment-Augmented LOng Video Assistant,这是一种新颖的视频-LLM框架,旨在通过有针对性的检索过程增强对长视频内容的理解。我们解决了实现这一目标的两个主要挑战:(i) 我们提出了SceneWalk数据集,这是一个高质量的长视频集合,每个视频都在片段级别进行了密集字幕处理,以便模型捕捉场景连续性并保持丰富的描述性上下文。(ii) 我们开发了强大的架构设计,集成了动态路由机制和时空投影仪,以便根据用户查询高效地检索和处理相关视频片段。我们的框架通过允许对查询做出精确识别和检索相关视频片段来减轻当前视频-LLM的限制,从而提高生成响应的上下文相关性。通过大量实验,SALOVA展示了在处理复杂长视频方面的增强能力,显示出在扩展序列中保持上下文完整性的显著能力。
自监督学习已成为从未标记的3D点云中获取可转移的3D表示的一种有前途的方法。与广泛可获得的2D图像不同,获取3D资产需要专业知识或专业的3D扫描设备,这使得难以扩展并引发版权担忧。为了解决这些挑战,我们提出了从程序化3D程序中学习3D表示的方法,这些程序可以自动生成使用简单基元和增强生成的3D形状。 值得注意的是,尽管缺乏语义内容,从这种合成数据集中学习到的3D表示在各种下游3D任务中表现出色,与从语义可识别的3D模型(例如飞机)中学到的最先进表示相当,包括形状分类、部分分割和遮罩点云完成。我们的分析进一步表明,当前的自监督学习方法主要捕捉几何结构而不是高级语义。
大规模视觉-语言模型(VLMs)的出现显著推动了多模态任务的发展,实现了更复杂和准确的推理,涵盖图像和视频字幕生成、视觉问答和跨模态检索等各种应用。尽管它们具有卓越的能力,但VLMs在细粒度图像区域构成信息感知方面存在困难。具体而言,它们难以准确地将分割掩模与相应的语义对齐,并精确描述所指区域的构成方面。 然而,组合性——即理解和生成已知视觉和文本组件的新组合的能力——对于促进VLMs在跨模态中进行连贯推理和理解至关重要。为了解决这一问题,我们提出了FINECAPTION,这是一种新型VLM,可以识别任意掩模作为指代输入,并处理高分辨率图像,以不同粒度水平进行构成图像字幕生成。为支持这一努力,我们引入了COMPOSITIONCAP,这是一个用于多粒度区域构成图像字幕生成的新数据集,引入了构成属性感知的区域图像字幕生成任务。 实证结果显示了我们提出的模型相对于其他最先进的VLMs的有效性。此外,我们分析了当前VLMs在识别各种视觉提示以进行构成区域图像字幕生成方面的能力,突出了VLM设计和训练中需要改进的方面。
在线商务、广告和消费者参与方面,锚式产品推广视频的自动生成提供了很多机会。然而,尽管在姿势引导的人类视频生成方面取得了重大进展,但这仍然是一个具有挑战性的任务。为了解决这一挑战,我们确定将人-物互动(HOI)集成到姿势引导的人类视频生成中是一个核心问题。为此,我们引入了AnchorCrafter,这是一个基于扩散的新型系统,旨在生成具有目标人类和定制对象的2D视频,实现高视觉保真度和可控互动。具体而言,我们提出了两个关键创新:HOI-外观感知,可以增强对任意多视角透视图中对象外观的识别,并将对象和人类外观分离;以及HOI-运动注入,通过克服对象轨迹调节和相互遮挡管理方面的挑战,实现复杂的人-物互动。此外,我们引入了HOI-区域重新加权损失,这是一个训练目标,可以增强对对象细节的学习。大量实验证明,我们提出的系统在保留对象外观和形状意识方面优于现有方法,同时在保持人类外观和运动一致性方面也表现出色。项目页面:https://cangcz.github.io/Anchor-Crafter/
为了在资源受限的环境中部署神经网络,先前的研究构建了轻量级架构,其中包括卷积和注意力机制,分别用于捕获局部和全局依赖关系。最近,状态空间模型作为一种有效的全局令牌交互方式出现,其在令牌数量方面具有线性计算成本优势。然而,利用SSM构建的高效视觉骨干网络研究较少。在本文中,我们介绍了一种新型架构Efficient Vision Mamba(EfficientViM),它基于基于隐藏状态混合器的状态空间对偶(HSM-SSD)构建,能够高效地捕获全局依赖关系,并进一步降低计算成本。在HSM-SSD层中,我们重新设计了先前的SSD层,以实现隐藏状态内的通道混合操作。此外,我们提出了多阶段隐藏状态融合,进一步增强隐藏状态的表示能力,并提供了减轻由内存绑定操作引起的瓶颈的设计。因此,EfficientViM系列在ImageNet-1k数据集上实现了新的速度-准确性权衡的最新水平,比第二好的模型SHViT提高了高达0.7%的性能,并具有更快的速度。此外,与先前的研究相比,在扩展图像大小或使用蒸馏训练时,我们观察到吞吐量和准确性方面的显著改进。代码可在https://github.com/mlvlab/EfficientViM找到。
分子发现是一个关键的研究领域,影响着我们所服用的药物以及我们所使用的材料。最近,大型语言模型(LLMs)在分子理解和生成方面被广泛采用,然而分子与其相应标题之间的对齐仍然是一个重要挑战。先前的努力通常将分子视为一般的SMILES字符串或分子图,忽略了分子亚结构与描述性文本短语之间的细粒度对齐,这对于准确和可解释的预测至关重要。在这种情况下,我们介绍了MolReFlect,这是一个新颖的师生框架,旨在以细粒度方式进行分子-标题对齐。我们的方法最初利用较大的师傅LLM来标记详细的对齐,通过直接从分子标题或SMILES字符串中提取关键短语,并将其暗示给相应的亚结构或特征来实现。为了改进这些对齐,我们提出了上下文选择性反思,它检索以前的提取结果作为师傅LLM的上下文示例进行反思,并让较小的学生LLM从上下文反思和以前的提取结果中进行选择。最后,我们通过思维链上下文分子调整来增强学生LLM的学习过程,将细粒度对齐和推理过程整合到思维链格式中。我们的实验结果表明,MolReFlect使得像Mistral-7B这样的LLMs能够显著优于以前的基线,在ChEBI-20数据集上实现了最先进的性能。这一进展不仅增强了LLMs在分子-标题翻译任务中的生成能力,还有助于构建更具解释性的框架。
我们提出了BootComp,这是一个基于文本到图像扩散模型的新颖框架,用于具有多个参考服装的可控人类图像生成。在这里,主要瓶颈是训练的数据获取:收集每个人穿着的高质量参考服装图像的大规模数据集非常具有挑战性,即理想情况下,需要手动收集每个人穿着的每件服装的照片。为了解决这个问题,我们提出了一个数据生成流水线,通过引入一个模型从每个人类图像中提取任何参考服装图像,构建一个由人类和多件服装配对组成的大型合成数据集。为了确保数据质量,我们还提出了一种过滤策略,根据衡量人类图像中呈现的服装与提取的服装之间的感知相似性来去除不良生成数据。最后,通过利用构建的合成数据集,我们训练了一个扩散模型,具有两个并行去噪路径,这些路径使用多个服装图像作为条件来生成人类图像,同时保留其细粒度细节。我们进一步展示了我们的框架的广泛适用性,通过将其调整为时尚领域中不同类型的基于参考的生成,包括虚拟试穿,以及具有其他条件(如姿势、面部等)的可控人类图像生成。
随着人工智能技术在图像生成领域的广泛应用,以及其日益普及,人们对这些图像可能被滥用以传播虚假信息的担忧日益加剧。最近的人工智能生成图像检测(AGID)方法包括CNNDetection、NPR、DM图像检测、伪造图像检测、DIRE、LASTED、GAN图像检测、AIDE、SSP、DRCT、RINE、OCC-CLIP、De-Fake以及Deep Fake检测。然而,我们认为当前最先进的AGID技术无法有效检测当代人工智能生成的图像,并主张全面重新评估这些方法。我们引入了视觉对抗图灵测试(VCT^2),这是一个基准测试,包括由当代文本到图像模型(Stable Diffusion 2.1、Stable Diffusion XL、Stable Diffusion 3、DALL-E 3和Midjourney 6)生成的约130K张图像。VCT^2包括两组提示,分别来自纽约时报Twitter账号的推文和MS COCO数据集的标题。我们还评估了上述AGID技术在VCT^2基准测试上的性能,突显它们在检测人工智能生成的图像方面的无效性。随着图像生成型人工智能模型的不断发展,评估这些模型的需求变得日益关键。为满足这一需求,我们提出了视觉人工智能指数(V_AI),该指数从各种视觉角度评估生成的图像,包括纹理复杂性和物体连贯性,为评估图像生成型人工智能模型设立了新的标准。为促进该领域的研究,我们将我们的https://huggingface.co/datasets/anonymous1233/COCO_AI和https://huggingface.co/datasets/anonymous1233/twitter_AI数据集公开提供。