AI研究论文每日精选

每日精选AI研究论文及翻译

ShowUI：一种面向GUI视觉代理的视觉-语言-动作模型
ShowUI: One Vision-Language-Action Model for GUI Visual Agent

Nov 26

ByKevin Qinghong Lin, Linjie Li, Difei Gao, Zhengyuan Yang, Shiwei Wu, Zechen Bai, Weixian Lei, Lijuan Wang, Mike Zheng Shou

构建图形用户界面（GUI）助手在提高人类工作流生产力方面具有重要潜力。虽然大多数代理是基于语言的，依赖于具有文本丰富元信息的闭源API（例如HTML或可访问性树），但它们在感知UI视觉方面存在局限，突显了对GUI视觉代理的需求。在这项工作中，我们在数字世界中开发了一种名为ShowUI的视觉-语言-动作模型，具有以下创新：（i）UI引导的视觉标记选择，通过将屏幕截图构建为UI连接图，自适应地识别它们之间的冗余关系，并作为自注意力块期间标记选择的标准，以降低计算成本；（ii）交织的视觉-语言-动作流，灵活地统一GUI任务中的多样需求，实现对导航中的视觉-动作历史或配对多轮查询-动作序列进行有效管理，以增强训练效率；（iii）通过精心策划数据和采用重新采样策略，构建小规模高质量的GUI指令遵循数据集，以解决重要数据类型不平衡的问题。通过以上组件，ShowUI，一个使用256K数据的轻量级2B模型，在零-shot截图定位中实现了强大的75.1%准确率。其UI引导的标记选择在训练期间进一步减少了33%的冗余视觉标记，并将性能提升了1.4倍。在Web Mind2Web、移动AITW和在线MiniWob环境中的导航实验进一步突显了我们模型在推进GUI视觉代理方面的有效性和潜力。这些模型可在https://github.com/showlab/ShowUI 上获得。

ROICtrl：增强视觉生成的实例控制
ROICtrl: Boosting Instance Control for Visual Generation

Nov 27

ByYuchao Gu, Yipin Zhou, Yunfan Ye, Yixin Nie, Licheng Yu, Pingchuan Ma, Kevin Qinghong Lin, Mike Zheng Shou

自然语言经常难以准确地将位置和属性信息与多个实例关联起来，这限制了当前基于文本的视觉生成模型仅能处理包含少数主要实例的简单构图。为了解决这一局限性，本研究通过引入区域实例控制来增强扩散模型，其中每个实例由一个边界框和一个自由形式的标题配对控制。该领域的先前方法通常依赖于隐式位置编码或显式注意力蒙版来分离感兴趣的区域（ROIs），从而导致要么注入不准确的坐标，要么计算开销巨大。受目标检测中的ROI-Align启发，我们引入了一个称为ROI-Unpool的互补操作。ROI-Align和ROI-Unpool共同实现了对高分辨率特征图上明确、高效和准确的ROI操作。基于ROI-Unpool，我们提出了ROICtrl，这是一个适配器，可用于预训练的扩散模型，实现精确的区域实例控制。ROICtrl与社区微调的扩散模型兼容，也与现有的基于空间的附加组件（如ControlNet、T2I-Adapter）和基于嵌入的附加组件（如IP-Adapter、ED-LoRA）兼容，将它们的应用扩展到多实例生成。实验证明，ROICtrl在区域实例控制方面表现出优越性能，同时显著降低了计算成本。

图像流形上的路径：通过视频生成进行图像编辑
Pathways on the Image Manifold: Image Editing via Video Generation

Nov 25

ByNoam Rotstein, Gal Yona, Daniel Silver, Roy Velich, David Bensaïd, Ron Kimmel

最近，由图像扩散模型推动的图像编辑方面取得了显著进展。然而，仍然存在重大挑战，因为这些模型通常难以准确遵循复杂的编辑指令，并经常通过改变原始图像的关键元素来牺牲保真度。与此同时，视频生成取得了显著进展，具有有效运作的连续世界模拟器模型。在本文中，我们提出通过利用图像到视频模型进行图像编辑，将这两个领域合并。我们重新构想图像编辑为一个时间过程，利用预训练的视频模型从原始图像到所需编辑的平滑过渡。这种方法持续地遍历图像流形，确保一致的编辑同时保留原始图像的关键方面。我们的方法在基于文本的图像编辑方面取得了最先进的结果，显示出在编辑准确性和图像保留方面的显著改进。

通过频率分解实现保持身份的文本到视频生成
Identity-Preserving Text-to-Video Generation by Frequency Decomposition

Nov 26

ByShenghai Yuan, Jinfa Huang, Xianyi He, Yunyuan Ge, Yujun Shi, Liuhan Chen, Jiebo Luo, Li Yuan

保持身份的文本到视频（IPT2V）生成旨在创建具有一致人类身份的高保真度视频。这是视频生成中的重要任务，但对生成模型仍然是一个未解决的问题。本文在两个文献中尚未解决的方向上推动了IPT2V的技术前沿：（1）一个无需繁琐逐案微调的无调谐流程，以及（2）一个频率感知启发式保持身份的DiT控制方案。我们提出了ConsisID，一个无调谐DiT控制的可控IPT2V模型，以保持生成视频中的人类身份一致。受扩散变压器频率分析的先前发现启发，它在频率域中使用身份控制信号，其中面部特征可以分解为低频全局特征和高频固有特征。首先，从低频角度出发，我们引入了一个全局面部提取器，将参考图像和面部关键点编码为潜在空间，生成富含低频信息的特征。然后，将这些特征集成到网络的浅层中，以缓解与DiT相关的训练挑战。其次，从高频角度出发，我们设计了一个局部面部提取器，捕获高频细节并将其注入变压器块，增强模型保持细粒度特征的能力。我们提出了一种分层训练策略，利用频率信息进行身份保持，将普通的预训练视频生成模型转化为IPT2V模型。大量实验证明，我们的频率感知启发式方案为基于DiT的模型提供了最佳控制解决方案。由于这一方案，我们的ConsisID生成了高质量、保持身份的视频，朝着更有效的IPT2V迈出了一大步。

MME调查：关于多模态LLM评估的综合调查
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs

Nov 22

ByChaoyou Fu, Yi-Fan Zhang, Shukang Yin, Bo Li, Xinyu Fang, Sirui Zhao, Haodong Duan, Xing Sun, Ziwei Liu, Liang Wang, Caifeng Shan, Ran He

作为人工通用智能（AGI）的一个重要方向，多模态大型语言模型（MLLMs）在工业界和学术界都受到了越来越多的关注。这一系列模型是在预训练的语言模型（LLMs）基础上构建的，进一步发展了令人印象深刻的多模态感知和推理能力，例如根据流程图编写代码或根据图像创作故事。在开发过程中，评估至关重要，因为它提供了直观的反馈和指导，帮助改进模型。与传统的训练-评估-测试范式不同，后者只偏重于像图像分类这样的单一任务，MLLMs的多功能性催生了各种新的基准和评估方法的兴起。本文旨在全面调查MLLM评估，讨论四个关键方面：1）根据评估能力划分的总结的基准类型，包括基础能力、模型自我分析和扩展应用；2）基准构建的典型过程，包括数据收集、注释和注意事项；3）由评委、度量和工具包组成的系统评估方式；4）下一个基准的展望。这项工作旨在为研究人员提供如何根据不同需求有效评估MLLMs的简便方法，并激发更好的评估方法，推动MLLM研究的进展。

交错场景图用于交错文本和图像生成的评估
Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment

Nov 26

ByDongping Chen, Ruoxi Chen, Shu Pu, Zhaoyi Liu, Yanru Wu, Caixi Chen, Benlin Liu, Yue Huang, Yao Wan, Pan Zhou, Ranjay Krishna

许多真实世界用户查询（例如“如何制作蛋炒饭？”）可以从能够生成带有文本步骤和相应图像的响应系统中受益，类似于烹饪书。设计用于生成交错文本和图像的模型在确保这些模态内部和之间的一致性方面面临挑战。为了解决这些挑战，我们提出了ISG，一个用于交错文本和图像生成的全面评估框架。ISG利用场景图结构来捕捉文本和图像块之间的关系，评估响应的四个粒度级别：整体、结构、块级和图像特定。这种多层次评估允许对一致性、连贯性和准确性进行微妙评估，并提供可解释的问答反馈。结合ISG，我们引入了一个基准，ISG-Bench，涵盖了8个类别和21个子类别的1,150个样本。这个基准数据集包括复杂的语言-视觉依赖关系和黄金答案，有效评估模型在视觉中心任务上的表现，如风格转移，这是当前模型面临挑战的领域。使用ISG-Bench，我们展示了最近的统一视觉-语言模型在生成交错内容方面表现不佳。尽管组合方法将独立的语言和图像模型结合在一起在整体水平上比统一模型提高了111%，但它们在块和图像级别的表现仍然不理想。为了促进未来的工作，我们开发了ISG-Agent，一个基线代理，采用“计划-执行-优化”流水线来调用工具，实现了122%的性能提升。

SketchAgent：基于语言驱动的序列草图生成
SketchAgent: Language-Driven Sequential Sketch Generation

Nov 26

ByYael Vinker, Tamar Rott Shaham, Kristine Zheng, Alex Zhao, Judith E Fan, Antonio Torralba

素描作为一种多才多艺的工具，用于外化思想，实现快速探索和跨越各个学科领域的视觉交流。虽然人工系统在内容创作和人机交互方面取得了重大进展，但捕捉人类素描的动态和抽象特性仍然具有挑战性。在这项工作中，我们介绍了SketchAgent，这是一种基于语言驱动的、顺序素描生成方法，使用户能够通过动态的对话交互来创建、修改和完善素描。我们的方法不需要训练或微调。相反，我们利用现成的多模态大型语言模型（LLMs）的顺序特性和丰富的先验知识。我们提出了一种直观的素描语言，通过上下文示例引入模型，使其能够使用基于字符串的操作来“绘图”。这些操作被处理成矢量图形，然后呈现为在像素画布上创建的素描，可以再次访问以进行进一步的任务。通过逐笔绘制，我们的代理捕捉了素描固有的不断发展的动态特性。我们证明了SketchAgent能够从不同的提示中生成素描，进行基于对话的绘图，并与人类用户进行有意义的合作。

在MLLMs中重新思考Token Reduction：走向统一的无训练加速范式
Rethinking Token Reduction in MLLMs: Towards a Unified Paradigm for Training-Free Acceleration

Nov 26

ByYuhang Han, Xuyang Liu, Pengxiang Ding, Donglin Wang, Honggang Chen, Qingsen Yan, Siteng Huang

为加速推理大型多模态语言模型（MLLMs），本研究重新思考了无需训练的标记减少研究的当前格局。我们遗憾地发现现有方法的关键组件紧密相连，它们的相互关系和影响对于比较、迁移和扩展仍然不清楚。因此，我们提出了一个统一的“过滤-相关-压缩”范式，将标记减少分解为管道内的三个明确定义的阶段，保持一致的设计目标和元素，同时允许独特的实现。我们还揭示了流行作品并将其纳入我们的范式，展示其普适性。最后，我们提供了一套基于该范式的方法，通过推理的不同阶段在速度和准确性之间取得平衡。在10个基准测试中的实验结果表明，我们的方法在最小影响性能的情况下，可以实现高达82.4%的FLOPs减少，同时超越了最先进的无需训练的方法。我们的项目页面位于https://ficoco-accelerate.github.io/。

低比特量化有利于未充分训练的LLM：具有100T训练标记的量化LLM的缩放定律
Low-Bit Quantization Favors Undertrained LLMs: Scaling Laws for Quantized LLMs with 100T Training Tokens

Nov 26

ByXu Ouyang, Tao Ge, Thomas Hartvigsen, Zhisong Zhang, Haitao Mi, Dong Yu

我们发现，低比特量化有利于未充分训练的大型语言模型（LLMs），观察到具有更大尺寸或较少训练标记的模型在应用低比特量化时遭受的量化诱导退化（QiD）较少，而具有大量训练标记的较小模型遭受显著的QiD。为了更深入地了解这一趋势，我们在受控环境中研究了1500多个不同尺寸和不同训练水平（未充分训练或完全训练）的量化LLM检查点，推导出用于理解QiD与训练标记数量、模型尺寸和比特宽度等因素之间关系的标度律。通过推导出的标度律，我们提出了一个新颖的观点，即我们可以利用QiD来衡量LLM的训练水平，并确定各种尺寸的LLM完全训练所需的训练标记数量。此外，我们利用这些标度律来预测使用100万亿标记进行训练的不同尺寸LLM的量化性能。我们的预测显示，未来模型的低比特量化性能，预计将使用超过100万亿标记进行训练，可能并不理想。这给未来的低比特量化带来了潜在挑战，并强调了在评估低比特量化研究时需要意识到模型的训练水平。为了促进未来研究解决这一问题，我们在https://huggingface.co/Xu-Ouyang 上发布了本研究中使用的所有1500多个量化检查点。

SAR3D：通过多尺度3D VQVAE进行自回归式三维物体生成与理解
SAR3D: Autoregressive 3D Object Generation and Understanding via Multi-scale 3D VQVAE

Nov 25

ByYongwei Chen, Yushi Lan, Shangchen Zhou, Tengfei Wang, XIngang Pan

自回归模型在各个领域取得了显著成功，从大型语言模型（LLMs）到大型多模态模型（LMMs）和2D内容生成，逐渐接近人工通用智能（AGI）。尽管取得了这些进展，但将自回归方法应用于3D对象的生成和理解仍然是一个相对未被探索的领域。本文介绍了Scale AutoRegressive 3D（SAR3D），这是一个新颖的框架，利用多尺度3D矢量量化变分自编码器（VQVAE）对3D对象进行标记化，以实现高效的自回归生成和详细理解。通过在多尺度潜在表示中预测下一个尺度，而不是下一个单个标记，SAR3D显著减少了生成时间，仅需0.82秒即可在A6000 GPU上实现快速3D对象生成。此外，鉴于标记富含分层3D感知信息，我们对预训练的LLM进行微调，实现对3D内容的多模态理解。我们的实验表明，SAR3D在速度和质量上超越了当前的3D生成方法，并使LLMs能够全面解释和描述3D模型。

VLRewardBench：一个为视觉-语言生成奖励模型设计的具有挑战性的基准测试
VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models

Nov 26

ByLei Li, Yuancheng Wei, Zhihui Xie, Xuqing Yang, Yifan Song, Peiyi Wang, Chenxin An, Tianyu Liu, Sujian Li, Bill Yuchen Lin, Lingpeng Kong, Qi Liu

视觉-语言生成奖励模型（VL-GenRMs）在对齐和评估多模态人工智能系统中发挥着关键作用，然而它们自身的评估仍未得到充分探讨。当前的评估方法主要依赖于传统视觉-语言任务中的人工智能注释偏好标签，这可能引入偏见并且通常无法有效挑战最先进的模型。为了解决这些局限，我们引入了VL-RewardBench，这是一个全面的基准测试，涵盖了一般多模态查询、视觉幻觉检测和复杂推理任务。通过我们的人工智能辅助注释流程，结合样本选择和人工验证，我们精心策划了1,250个高质量示例，专门设计用于探究模型的局限性。对16个领先的大规模视觉-语言模型进行全面评估，证明了VL-RewardBench作为一个具有挑战性的测试平台的有效性，即使是GPT-4o也仅实现了65.4%的准确率，而诸如Qwen2-VL-72B等最先进的开源模型，也难以超越随机猜测。重要的是，在VL-RewardBench上的表现与使用VL-GenRMs的Best-of-N采样的MMMU-Pro准确率强烈相关（皮尔逊相关系数r > 0.9）。分析实验揭示了改进VL-GenRMs的三个关键见解：（i）模型主要在基本视觉感知任务上失败，而不是推理任务；（ii）推理时间的扩展效益根据模型容量差异巨大；（iii）训练VL-GenRMs学会判断显著提升了判断能力（对于一个7B VL-GenRM，准确率提高了14.7%）。我们相信VL-RewardBench以及实验见解将成为推进VL-GenRMs的宝贵资源。

从程序化3D程序中学习3D表示形式
Learning 3D Representations from Procedural 3D Programs

Nov 25

ByXuweiyi Chen, Zezhou Cheng

自监督学习已成为从未标记的3D点云中获取可转移的3D表示的一种有前途的方法。与广泛可获得的2D图像不同，获取3D资产需要专业知识或专业的3D扫描设备，这使得难以扩展并引发版权担忧。为了解决这些挑战，我们提出了从程序化3D程序中学习3D表示的方法，这些程序可以自动生成使用简单基元和增强生成的3D形状。值得注意的是，尽管缺乏语义内容，从这种合成数据集中学习到的3D表示在各种下游3D任务中表现出色，与从语义可识别的3D模型（例如飞机）中学到的最先进表示相当，包括形状分类、部分分割和遮罩点云完成。我们的分析进一步表明，当前的自监督学习方法主要捕捉几何结构而不是高级语义。

SALOVA：用于长视频分析中的目标检索和路由的分段增强长视频助手
SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis

Nov 25

ByJunho Kim, Hyunjun Kim, Hosu Lee, Yong Man Ro

尽管大型多模态模型取得了进展，但将其应用于长时间未经修剪的视频内容仍然具有挑战性，这是由于上下文长度的限制和大量的内存开销。这些约束通常会导致信息严重丢失，并降低模型响应的相关性。随着网络平台上视频数据的指数增长，理解长视频对于推动普适智能至关重要。在本文中，我们介绍了SALOVA：Segment-Augmented LOng Video Assistant，这是一种新颖的视频-LLM框架，旨在通过有针对性的检索过程增强对长视频内容的理解。我们解决了实现这一目标的两个主要挑战：(i) 我们提出了SceneWalk数据集，这是一个高质量的长视频集合，每个视频都在片段级别进行了密集字幕处理，以便模型捕捉场景连续性并保持丰富的描述性上下文。(ii) 我们开发了强大的架构设计，集成了动态路由机制和时空投影仪，以便根据用户查询高效地检索和处理相关视频片段。我们的框架通过允许对查询做出精确识别和检索相关视频片段来减轻当前视频-LLM的限制，从而提高生成响应的上下文相关性。通过大量实验，SALOVA展示了在处理复杂长视频方面的增强能力，显示出在扩展序列中保持上下文完整性的显著能力。

细粒度图像标注：侧重于您想要的任何位置
FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity

Nov 23

ByHang Hua, Qing Liu, Lingzhi Zhang, Jing Shi, Zhifei Zhang, Yilin Wang, Jianming Zhang, Jiebo Luo

大规模视觉-语言模型（VLMs）的出现显著推动了多模态任务的发展，实现了更复杂和准确的推理，涵盖图像和视频字幕生成、视觉问答和跨模态检索等各种应用。尽管它们具有卓越的能力，但VLMs在细粒度图像区域构成信息感知方面存在困难。具体而言，它们难以准确地将分割掩模与相应的语义对齐，并精确描述所指区域的构成方面。然而，组合性——即理解和生成已知视觉和文本组件的新组合的能力——对于促进VLMs在跨模态中进行连贯推理和理解至关重要。为了解决这一问题，我们提出了FINECAPTION，这是一种新型VLM，可以识别任意掩模作为指代输入，并处理高分辨率图像，以不同粒度水平进行构成图像字幕生成。为支持这一努力，我们引入了COMPOSITIONCAP，这是一个用于多粒度区域构成图像字幕生成的新数据集，引入了构成属性感知的区域图像字幕生成任务。实证结果显示了我们提出的模型相对于其他最先进的VLMs的有效性。此外，我们分析了当前VLMs在识别各种视觉提示以进行构成区域图像字幕生成方面的能力，突出了VLM设计和训练中需要改进的方面。

AnchorCrafter：通过人-物交互视频生成动画的网络锚销售您的产品
AnchorCrafter: Animate CyberAnchors Saling Your Products via Human-Object Interacting Video Generation

Nov 26

ByZiyi Xu, Ziyao Huang, Juan Cao, Yong Zhang, Xiaodong Cun, Qing Shuai, Yuchen Wang, Linchao Bao, Jintao Li, Fan Tang

在线商务、广告和消费者参与方面，锚式产品推广视频的自动生成提供了很多机会。然而，尽管在姿势引导的人类视频生成方面取得了重大进展，但这仍然是一个具有挑战性的任务。为了解决这一挑战，我们确定将人-物互动（HOI）集成到姿势引导的人类视频生成中是一个核心问题。为此，我们引入了AnchorCrafter，这是一个基于扩散的新型系统，旨在生成具有目标人类和定制对象的2D视频，实现高视觉保真度和可控互动。具体而言，我们提出了两个关键创新：HOI-外观感知，可以增强对任意多视角透视图中对象外观的识别，并将对象和人类外观分离；以及HOI-运动注入，通过克服对象轨迹调节和相互遮挡管理方面的挑战，实现复杂的人-物互动。此外，我们引入了HOI-区域重新加权损失，这是一个训练目标，可以增强对对象细节的学习。大量实验证明，我们提出的系统在保留对象外观和形状意识方面优于现有方法，同时在保持人类外观和运动一致性方面也表现出色。项目页面：https://cangcz.github.io/Anchor-Crafter/

EfficientViM：基于隐藏状态混合器的高效视觉曼巴与状态空间二元性
EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality

Nov 22

BySanghyeok Lee, Joonmyung Choi, Hyunwoo J. Kim

为了在资源受限的环境中部署神经网络，先前的研究构建了轻量级架构，其中包括卷积和注意力机制，分别用于捕获局部和全局依赖关系。最近，状态空间模型作为一种有效的全局令牌交互方式出现，其在令牌数量方面具有线性计算成本优势。然而，利用SSM构建的高效视觉骨干网络研究较少。在本文中，我们介绍了一种新型架构Efficient Vision Mamba（EfficientViM），它基于基于隐藏状态混合器的状态空间对偶（HSM-SSD）构建，能够高效地捕获全局依赖关系，并进一步降低计算成本。在HSM-SSD层中，我们重新设计了先前的SSD层，以实现隐藏状态内的通道混合操作。此外，我们提出了多阶段隐藏状态融合，进一步增强隐藏状态的表示能力，并提供了减轻由内存绑定操作引起的瓶颈的设计。因此，EfficientViM系列在ImageNet-1k数据集上实现了新的速度-准确性权衡的最新水平，比第二好的模型SHViT提高了高达0.7%的性能，并具有更快的速度。此外，与先前的研究相比，在扩展图像大小或使用蒸馏训练时，我们观察到吞吐量和准确性方面的显著改进。代码可在https://github.com/mlvlab/EfficientViM找到。

MolReFlect：实现分子与文本之间上下文中的细粒度对齐
MolReFlect: Towards In-Context Fine-grained Alignments between Molecules and Texts

Nov 22

ByJiatong Li, Yunqing Liu, Wei Liu, Jingdi Le, Di Zhang, Wenqi Fan, Dongzhan Zhou, Yuqiang Li, Qing Li

分子发现是一个关键的研究领域，影响着我们所服用的药物以及我们所使用的材料。最近，大型语言模型（LLMs）在分子理解和生成方面被广泛采用，然而分子与其相应标题之间的对齐仍然是一个重要挑战。先前的努力通常将分子视为一般的SMILES字符串或分子图，忽略了分子亚结构与描述性文本短语之间的细粒度对齐，这对于准确和可解释的预测至关重要。在这种情况下，我们介绍了MolReFlect，这是一个新颖的师生框架，旨在以细粒度方式进行分子-标题对齐。我们的方法最初利用较大的师傅LLM来标记详细的对齐，通过直接从分子标题或SMILES字符串中提取关键短语，并将其暗示给相应的亚结构或特征来实现。为了改进这些对齐，我们提出了上下文选择性反思，它检索以前的提取结果作为师傅LLM的上下文示例进行反思，并让较小的学生LLM从上下文反思和以前的提取结果中进行选择。最后，我们通过思维链上下文分子调整来增强学生LLM的学习过程，将细粒度对齐和推理过程整合到思维链格式中。我们的实验结果表明，MolReFlect使得像Mistral-7B这样的LLMs能够显著优于以前的基线，在ChEBI-20数据集上实现了最先进的性能。这一进展不仅增强了LLMs在分子-标题翻译任务中的生成能力，还有助于构建更具解释性的框架。

视觉对抗图灵测试（VCT^2）：探索人工智能生成图像检测的挑战，并引入视觉人工智能指数（V_AI）。
Visual Counter Turing Test (VCT^2): Discovering the Challenges for AI-Generated Image Detection and Introducing Visual AI Index (V_AI)

Nov 24

ByNasrin Imanpour, Shashwat Bajpai, Subhankar Ghosh, Sainath Reddy Sankepally, Abhilekh Borah, Hasnat Md Abdullah, Nishoak Kosaraju, Shreyas Dixit, Ashhar Aziz, Shwetangshu Biswas, Vinija Jain, Aman Chadha, Amit Sheth, Amitava Das

随着人工智能技术在图像生成领域的广泛应用，以及其日益普及，人们对这些图像可能被滥用以传播虚假信息的担忧日益加剧。最近的人工智能生成图像检测（AGID）方法包括CNNDetection、NPR、DM图像检测、伪造图像检测、DIRE、LASTED、GAN图像检测、AIDE、SSP、DRCT、RINE、OCC-CLIP、De-Fake以及Deep Fake检测。然而，我们认为当前最先进的AGID技术无法有效检测当代人工智能生成的图像，并主张全面重新评估这些方法。我们引入了视觉对抗图灵测试（VCT^2），这是一个基准测试，包括由当代文本到图像模型（Stable Diffusion 2.1、Stable Diffusion XL、Stable Diffusion 3、DALL-E 3和Midjourney 6）生成的约130K张图像。VCT^2包括两组提示，分别来自纽约时报Twitter账号的推文和MS COCO数据集的标题。我们还评估了上述AGID技术在VCT^2基准测试上的性能，突显它们在检测人工智能生成的图像方面的无效性。随着图像生成型人工智能模型的不断发展，评估这些模型的需求变得日益关键。为满足这一需求，我们提出了视觉人工智能指数（V_AI），该指数从各种视觉角度评估生成的图像，包括纹理复杂性和物体连贯性，为评估图像生成型人工智能模型设立了新的标准。为促进该领域的研究，我们将我们的https://huggingface.co/datasets/anonymous1233/COCO_AI和https://huggingface.co/datasets/anonymous1233/twitter_AI数据集公开提供。

个性化多服装可控人类图像生成
Controllable Human Image Generation with Personalized Multi-Garments

Nov 25

ByYisol Choi, Sangkyung Kwak, Sihyun Yu, Hyungwon Choi, Jinwoo Shin

我们提出了BootComp，这是一个基于文本到图像扩散模型的新颖框架，用于具有多个参考服装的可控人类图像生成。在这里，主要瓶颈是训练的数据获取：收集每个人穿着的高质量参考服装图像的大规模数据集非常具有挑战性，即理想情况下，需要手动收集每个人穿着的每件服装的照片。为了解决这个问题，我们提出了一个数据生成流水线，通过引入一个模型从每个人类图像中提取任何参考服装图像，构建一个由人类和多件服装配对组成的大型合成数据集。为了确保数据质量，我们还提出了一种过滤策略，根据衡量人类图像中呈现的服装与提取的服装之间的感知相似性来去除不良生成数据。最后，通过利用构建的合成数据集，我们训练了一个扩散模型，具有两个并行去噪路径，这些路径使用多个服装图像作为条件来生成人类图像，同时保留其细粒度细节。我们进一步展示了我们的框架的广泛适用性，通过将其调整为时尚领域中不同类型的基于参考的生成，包括虚拟试穿，以及具有其他条件（如姿势、面部等）的可控人类图像生成。

AI研究论文每日精选

每日精选AI研究论文及翻译

ShowUI：一种面向GUI视觉代理的视觉-语言-动作模型
ShowUI: One Vision-Language-Action Model for GUI Visual Agent

Nov 26

ByKevin Qinghong Lin, Linjie Li, Difei Gao, Zhengyuan Yang, Shiwei Wu, Zechen Bai, Weixian Lei, Lijuan Wang, Mike Zheng Shou

ROICtrl：增强视觉生成的实例控制
ROICtrl: Boosting Instance Control for Visual Generation

Nov 27

ByYuchao Gu, Yipin Zhou, Yunfan Ye, Yixin Nie, Licheng Yu, Pingchuan Ma, Kevin Qinghong Lin, Mike Zheng Shou

图像流形上的路径：通过视频生成进行图像编辑
Pathways on the Image Manifold: Image Editing via Video Generation

Nov 25

ByNoam Rotstein, Gal Yona, Daniel Silver, Roy Velich, David Bensaïd, Ron Kimmel

通过频率分解实现保持身份的文本到视频生成
Identity-Preserving Text-to-Video Generation by Frequency Decomposition

Nov 26

ByShenghai Yuan, Jinfa Huang, Xianyi He, Yunyuan Ge, Yujun Shi, Liuhan Chen, Jiebo Luo, Li Yuan

MME调查：关于多模态LLM评估的综合调查
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs

Nov 22

ByChaoyou Fu, Yi-Fan Zhang, Shukang Yin, Bo Li, Xinyu Fang, Sirui Zhao, Haodong Duan, Xing Sun, Ziwei Liu, Liang Wang, Caifeng Shan, Ran He

交错场景图用于交错文本和图像生成的评估
Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment

Nov 26

ByDongping Chen, Ruoxi Chen, Shu Pu, Zhaoyi Liu, Yanru Wu, Caixi Chen, Benlin Liu, Yue Huang, Yao Wan, Pan Zhou, Ranjay Krishna

SketchAgent：基于语言驱动的序列草图生成
SketchAgent: Language-Driven Sequential Sketch Generation

Nov 26

ByYael Vinker, Tamar Rott Shaham, Kristine Zheng, Alex Zhao, Judith E Fan, Antonio Torralba

在MLLMs中重新思考Token Reduction：走向统一的无训练加速范式
Rethinking Token Reduction in MLLMs: Towards a Unified Paradigm for Training-Free Acceleration

Nov 26

ByYuhang Han, Xuyang Liu, Pengxiang Ding, Donglin Wang, Honggang Chen, Qingsen Yan, Siteng Huang

低比特量化有利于未充分训练的LLM：具有100T训练标记的量化LLM的缩放定律
Low-Bit Quantization Favors Undertrained LLMs: Scaling Laws for Quantized LLMs with 100T Training Tokens

Nov 26

ByXu Ouyang, Tao Ge, Thomas Hartvigsen, Zhisong Zhang, Haitao Mi, Dong Yu

SAR3D：通过多尺度3D VQVAE进行自回归式三维物体生成与理解
SAR3D: Autoregressive 3D Object Generation and Understanding via Multi-scale 3D VQVAE

Nov 25

ByYongwei Chen, Yushi Lan, Shangchen Zhou, Tengfei Wang, XIngang Pan

VLRewardBench：一个为视觉-语言生成奖励模型设计的具有挑战性的基准测试
VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models

Nov 26

ByLei Li, Yuancheng Wei, Zhihui Xie, Xuqing Yang, Yifan Song, Peiyi Wang, Chenxin An, Tianyu Liu, Sujian Li, Bill Yuchen Lin, Lingpeng Kong, Qi Liu

从程序化3D程序中学习3D表示形式
Learning 3D Representations from Procedural 3D Programs

Nov 25

ByXuweiyi Chen, Zezhou Cheng

SALOVA：用于长视频分析中的目标检索和路由的分段增强长视频助手
SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis

Nov 25

ByJunho Kim, Hyunjun Kim, Hosu Lee, Yong Man Ro

细粒度图像标注：侧重于您想要的任何位置
FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity

Nov 23

ByHang Hua, Qing Liu, Lingzhi Zhang, Jing Shi, Zhifei Zhang, Yilin Wang, Jianming Zhang, Jiebo Luo

AnchorCrafter：通过人-物交互视频生成动画的网络锚销售您的产品
AnchorCrafter: Animate CyberAnchors Saling Your Products via Human-Object Interacting Video Generation

Nov 26

ByZiyi Xu, Ziyao Huang, Juan Cao, Yong Zhang, Xiaodong Cun, Qing Shuai, Yuchen Wang, Linchao Bao, Jintao Li, Fan Tang

EfficientViM：基于隐藏状态混合器的高效视觉曼巴与状态空间二元性
EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality

Nov 22

BySanghyeok Lee, Joonmyung Choi, Hyunwoo J. Kim

MolReFlect：实现分子与文本之间上下文中的细粒度对齐
MolReFlect: Towards In-Context Fine-grained Alignments between Molecules and Texts

Nov 22

ByJiatong Li, Yunqing Liu, Wei Liu, Jingdi Le, Di Zhang, Wenqi Fan, Dongzhan Zhou, Yuqiang Li, Qing Li

视觉对抗图灵测试（VCT^2）：探索人工智能生成图像检测的挑战，并引入视觉人工智能指数（V_AI）。
Visual Counter Turing Test (VCT^2): Discovering the Challenges for AI-Generated Image Detection and Introducing Visual AI Index (V_AI)

Nov 24

个性化多服装可控人类图像生成
Controllable Human Image Generation with Personalized Multi-Garments

Nov 25

ByYisol Choi, Sangkyung Kwak, Sihyun Yu, Hyungwon Choi, Jinwoo Shin