Os VLMs Podem Agregar Fragmentos de Treinamento Dispersos
VLMs Can Aggregate Scattered Training Patches
June 4, 2025
Autores: Zhanhui Zhou, Lingjie Chen, Chao Yang, Chaochao Lu
cs.AI
Resumo
Uma maneira de mitigar riscos em modelos de visão e linguagem (VLMs) é remover amostras perigosas em seus dados de treinamento. No entanto, essa moderação de dados pode ser facilmente contornada quando imagens prejudiciais são divididas em pequenos fragmentos de aparência benigna, espalhados por muitas amostras de treinamento. Os VLMs podem então aprender a juntar esses fragmentos durante o treinamento e gerar respostas prejudiciais na inferência, seja a partir de imagens completas ou referências textuais. Por exemplo, se treinados em fragmentos de imagens de uma cena sangrenta associados às descrições "segura", os VLMs podem posteriormente descrever a imagem completa ou uma referência textual à cena como "segura". Definimos a capacidade central dos VLMs que possibilita esse ataque como costura visual — a capacidade de integrar informações visuais distribuídas em várias amostras de treinamento que compartilham as mesmas descrições textuais. Em nosso trabalho, primeiro demonstramos habilidades de costura visual em VLMs de código aberto comuns em três conjuntos de dados onde cada imagem é rotulada com um ID sintético único: dividimos cada par (imagem, ID) em pares {(fragmento, ID)} em diferentes granularidades para ajuste fino, e descobrimos que os modelos ajustados conseguem verbalizar os IDs corretos a partir de imagens completas ou referências textuais. Com base nisso, simulamos o cenário de envenenamento de dados adversariais mencionado acima, utilizando fragmentos de imagens perigosas e substituindo os IDs por descrições textuais como "segura" ou "insegura", demonstrando como conteúdo prejudicial pode evadir a moderação em fragmentos e posteriormente ser reconstruído por meio da costura visual, representando sérios riscos à segurança dos VLMs. O código está disponível em https://github.com/ZHZisZZ/visual-stitching.
English
One way to mitigate risks in vision-language models (VLMs) is to remove
dangerous samples in their training data. However, such data moderation can be
easily bypassed when harmful images are split into small, benign-looking
patches, scattered across many training samples. VLMs may then learn to piece
these fragments together during training and generate harmful responses at
inference, either from full images or text references. For instance, if trained
on image patches from a bloody scene paired with the descriptions "safe," VLMs
may later describe, the full image or a text reference to the scene, as "safe."
We define the core ability of VLMs enabling this attack as visual
stitching -- the ability to integrate visual information spread across
multiple training samples that share the same textual descriptions. In our
work, we first demonstrate visual stitching abilities in common open-source
VLMs on three datasets where each image is labeled with a unique synthetic ID:
we split each (image, ID) pair into {(patch,
ID)} pairs at different granularity for finetuning, and we find that
tuned models can verbalize the correct IDs from full images or text reference.
Building on this, we simulate the adversarial data poisoning scenario mentioned
above by using patches from dangerous images and replacing IDs with text
descriptions like ``safe'' or ``unsafe'', demonstrating how harmful content can
evade moderation in patches and later be reconstructed through visual
stitching, posing serious VLM safety risks. Code is available at
https://github.com/ZHZisZZ/visual-stitching.