ChatPaper.aiChatPaper

Os VLMs Podem Agregar Fragmentos de Treinamento Dispersos

VLMs Can Aggregate Scattered Training Patches

June 4, 2025
Autores: Zhanhui Zhou, Lingjie Chen, Chao Yang, Chaochao Lu
cs.AI

Resumo

Uma maneira de mitigar riscos em modelos de visão e linguagem (VLMs) é remover amostras perigosas em seus dados de treinamento. No entanto, essa moderação de dados pode ser facilmente contornada quando imagens prejudiciais são divididas em pequenos fragmentos de aparência benigna, espalhados por muitas amostras de treinamento. Os VLMs podem então aprender a juntar esses fragmentos durante o treinamento e gerar respostas prejudiciais na inferência, seja a partir de imagens completas ou referências textuais. Por exemplo, se treinados em fragmentos de imagens de uma cena sangrenta associados às descrições "segura", os VLMs podem posteriormente descrever a imagem completa ou uma referência textual à cena como "segura". Definimos a capacidade central dos VLMs que possibilita esse ataque como costura visual — a capacidade de integrar informações visuais distribuídas em várias amostras de treinamento que compartilham as mesmas descrições textuais. Em nosso trabalho, primeiro demonstramos habilidades de costura visual em VLMs de código aberto comuns em três conjuntos de dados onde cada imagem é rotulada com um ID sintético único: dividimos cada par (imagem, ID) em pares {(fragmento, ID)} em diferentes granularidades para ajuste fino, e descobrimos que os modelos ajustados conseguem verbalizar os IDs corretos a partir de imagens completas ou referências textuais. Com base nisso, simulamos o cenário de envenenamento de dados adversariais mencionado acima, utilizando fragmentos de imagens perigosas e substituindo os IDs por descrições textuais como "segura" ou "insegura", demonstrando como conteúdo prejudicial pode evadir a moderação em fragmentos e posteriormente ser reconstruído por meio da costura visual, representando sérios riscos à segurança dos VLMs. O código está disponível em https://github.com/ZHZisZZ/visual-stitching.
English
One way to mitigate risks in vision-language models (VLMs) is to remove dangerous samples in their training data. However, such data moderation can be easily bypassed when harmful images are split into small, benign-looking patches, scattered across many training samples. VLMs may then learn to piece these fragments together during training and generate harmful responses at inference, either from full images or text references. For instance, if trained on image patches from a bloody scene paired with the descriptions "safe," VLMs may later describe, the full image or a text reference to the scene, as "safe." We define the core ability of VLMs enabling this attack as visual stitching -- the ability to integrate visual information spread across multiple training samples that share the same textual descriptions. In our work, we first demonstrate visual stitching abilities in common open-source VLMs on three datasets where each image is labeled with a unique synthetic ID: we split each (image, ID) pair into {(patch, ID)} pairs at different granularity for finetuning, and we find that tuned models can verbalize the correct IDs from full images or text reference. Building on this, we simulate the adversarial data poisoning scenario mentioned above by using patches from dangerous images and replacing IDs with text descriptions like ``safe'' or ``unsafe'', demonstrating how harmful content can evade moderation in patches and later be reconstructed through visual stitching, posing serious VLM safety risks. Code is available at https://github.com/ZHZisZZ/visual-stitching.
PDF22June 5, 2025