Los modelos de lenguaje visual (VLMs) pueden agregar parches de entrenamiento dispersos.
VLMs Can Aggregate Scattered Training Patches
June 4, 2025
Autores: Zhanhui Zhou, Lingjie Chen, Chao Yang, Chaochao Lu
cs.AI
Resumen
Una forma de mitigar los riesgos en los modelos de visión y lenguaje (VLMs) es eliminar muestras peligrosas en sus datos de entrenamiento. Sin embargo, esta moderación de datos puede ser fácilmente eludida cuando las imágenes dañinas se dividen en pequeños parches de apariencia benigna, dispersos en muchas muestras de entrenamiento. Los VLMs pueden entonces aprender a unir estos fragmentos durante el entrenamiento y generar respuestas dañinas en la inferencia, ya sea a partir de imágenes completas o referencias textuales. Por ejemplo, si se entrenan con parches de imágenes de una escena sangrienta emparejados con las descripciones "seguro", los VLMs podrían luego describir la imagen completa o una referencia textual a la escena como "seguro". Definimos la capacidad central de los VLMs que permite este ataque como *visual stitching* (costura visual): la habilidad de integrar información visual dispersa en múltiples muestras de entrenamiento que comparten las mismas descripciones textuales. En nuestro trabajo, primero demostramos las capacidades de *visual stitching* en VLMs de código abierto comunes utilizando tres conjuntos de datos donde cada imagen está etiquetada con un ID sintético único: dividimos cada par (imagen, ID) en pares {(parche, ID)} con diferentes niveles de granularidad para el ajuste fino, y encontramos que los modelos ajustados pueden verbalizar los IDs correctos a partir de imágenes completas o referencias textuales. Basándonos en esto, simulamos el escenario de envenenamiento de datos adversarios mencionado anteriormente utilizando parches de imágenes peligrosas y reemplazando los IDs con descripciones textuales como "seguro" o "inseguro", demostrando cómo el contenido dañino puede evadir la moderación en parches y luego ser reconstruido a través del *visual stitching*, lo que plantea serios riesgos de seguridad en los VLMs. El código está disponible en https://github.com/ZHZisZZ/visual-stitching.
English
One way to mitigate risks in vision-language models (VLMs) is to remove
dangerous samples in their training data. However, such data moderation can be
easily bypassed when harmful images are split into small, benign-looking
patches, scattered across many training samples. VLMs may then learn to piece
these fragments together during training and generate harmful responses at
inference, either from full images or text references. For instance, if trained
on image patches from a bloody scene paired with the descriptions "safe," VLMs
may later describe, the full image or a text reference to the scene, as "safe."
We define the core ability of VLMs enabling this attack as visual
stitching -- the ability to integrate visual information spread across
multiple training samples that share the same textual descriptions. In our
work, we first demonstrate visual stitching abilities in common open-source
VLMs on three datasets where each image is labeled with a unique synthetic ID:
we split each (image, ID) pair into {(patch,
ID)} pairs at different granularity for finetuning, and we find that
tuned models can verbalize the correct IDs from full images or text reference.
Building on this, we simulate the adversarial data poisoning scenario mentioned
above by using patches from dangerous images and replacing IDs with text
descriptions like ``safe'' or ``unsafe'', demonstrating how harmful content can
evade moderation in patches and later be reconstructed through visual
stitching, posing serious VLM safety risks. Code is available at
https://github.com/ZHZisZZ/visual-stitching.