Verständnis von Halluzinationen in Diffusionsmodellen durch Modusinterpolation

papers.abstract

Im allgemeinen Sprachgebrauch wird häufig davon gesprochen, dass Bildgenerierungsmodelle, die auf Diffusionsprozessen basieren, "Halluzinationen" zeigen, also Proben, die nie in den Trainingsdaten auftreten könnten. Aber woher kommen solche Halluzinationen? In diesem Paper untersuchen wir einen bestimmten Fehlermodus in Diffusionsmodellen, den wir als Modusinterpolation bezeichnen. Konkret stellen wir fest, dass Diffusionsmodelle sanft zwischen benachbarten Datenmodi im Trainingsset "interpolieren", um Proben zu generieren, die vollständig außerhalb der Trägermenge der ursprünglichen Trainingsverteilung liegen. Dieses Phänomen führt dazu, dass Diffusionsmodelle Artefakte generieren, die in realen Daten nie existierten (d. h. Halluzinationen). Wir untersuchen systematisch die Gründe für dieses Phänomen und seine Manifestation. Durch Experimente mit 1D- und 2D-Gaußverteilungen zeigen wir, wie eine diskontinuierliche Verlustlandschaft im Decoder des Diffusionsmodells zu einer Region führt, in der jede glatte Approximation solche Halluzinationen verursachen wird. Durch Experimente mit künstlichen Datensätzen verschiedener Formen zeigen wir, wie Halluzinationen zur Generierung von Kombinationen von Formen führen, die nie existierten. Schließlich zeigen wir, dass Diffusionsmodelle tatsächlich erkennen, wenn sie die Trägermenge verlassen und halluzinieren. Dies wird durch die hohe Varianz in der Trajektorie der generierten Probe in den letzten wenigen rückwärtigen Abtastprozessen erfasst. Unter Verwendung eines einfachen Maßes zur Erfassung dieser Varianz können wir über 95% der Halluzinationen zur Generierungszeit entfernen, während wir 96% der in der Trägermenge liegenden Proben beibehalten. Wir schließen unsere Untersuchung ab, indem wir die Auswirkungen solcher Halluzinationen (und ihrer Entfernung) auf den Zusammenbruch (und die Stabilisierung) des rekursiven Trainings anhand synthetischer Daten mit Experimenten an MNIST und dem 2D-Gauß-Datensatz zeigen. Wir veröffentlichen unseren Code unter https://github.com/locuslab/diffusion-model-hallucination.

English

Colloquially speaking, image generation models based upon diffusion processes are frequently said to exhibit "hallucinations," samples that could never occur in the training data. But where do such hallucinations come from? In this paper, we study a particular failure mode in diffusion models, which we term mode interpolation. Specifically, we find that diffusion models smoothly "interpolate" between nearby data modes in the training set, to generate samples that are completely outside the support of the original training distribution; this phenomenon leads diffusion models to generate artifacts that never existed in real data (i.e., hallucinations). We systematically study the reasons for, and the manifestation of this phenomenon. Through experiments on 1D and 2D Gaussians, we show how a discontinuous loss landscape in the diffusion model's decoder leads to a region where any smooth approximation will cause such hallucinations. Through experiments on artificial datasets with various shapes, we show how hallucination leads to the generation of combinations of shapes that never existed. Finally, we show that diffusion models in fact know when they go out of support and hallucinate. This is captured by the high variance in the trajectory of the generated sample towards the final few backward sampling process. Using a simple metric to capture this variance, we can remove over 95% of hallucinations at generation time while retaining 96% of in-support samples. We conclude our exploration by showing the implications of such hallucination (and its removal) on the collapse (and stabilization) of recursive training on synthetic data with experiments on MNIST and 2D Gaussians dataset. We release our code at https://github.com/locuslab/diffusion-model-hallucination.

Verständnis von Halluzinationen in Diffusionsmodellen durch Modusinterpolation

Understanding Hallucinations in Diffusion Models through Mode Interpolation

papers.abstract

Support