GenCtrl – Ein formales Werkzeugkit zur Steuerbarkeit generativer Modelle
GenCtrl -- A Formal Controllability Toolkit for Generative Models
January 9, 2026
papers.authors: Emily Cheng, Carmen Amo Alonso, Federico Danieli, Arno Blaas, Luca Zappella, Pau Rodriguez, Xavier Suau
cs.AI
papers.abstract
Da generative Modelle allgegenwärtig werden, besteht ein dringender Bedarf an feinkörniger Steuerung des Generierungsprozesses. Doch während sich kontrollierte Generierungsverfahren von Prompting bis hin zum Fine-Tuning vervielfachen, bleibt eine grundlegende Frage unbeantwortet: Sind diese Modelle überhaupt wirklich kontrollierbar? In dieser Arbeit stellen wir einen theoretischen Rahmen bereit, um diese Frage formal zu beantworten. Indem wir die Mensch-Modell-Interaktion als Steuerungsprozess betrachten, schlagen wir einen neuartigen Algorithmus zur Schätzung der kontrollierbaren Bereiche von Modellen in einem Dialogkontext vor. Besonders bemerkenswert sind unsere formalen Garantien zum Schätzfehler als Funktion der Stichprobenkomplexität: Wir leiten probably-approximately-correct-Schranken für Schätzungen kontrollierbarer Mengen ab, die verteilungsfrei sind, keine Annahmen außer der Beschränktheit der Ausgaben verwenden und für jedes Black-Box-nichtlineare Steuerungssystem (d.h. jedes generative Modell) funktionieren. Wir demonstrieren den theoretischen Rahmen empirisch an verschiedenen Aufgaben zur Steuerung von Dialogprozessen, sowohl für Sprachmodelle als auch für Text-zu-Bild-Generierung. Unsere Ergebnisse zeigen, dass die Kontrollierbarkeit von Modellen überraschend fragil und stark abhängig vom experimentellen Setting ist. Dies unterstreicht die Notwendigkeit rigoroser Kontrollierbarkeitsanalysen, die den Fokus vom bloßen Versuch der Kontrolle hin zu einem grundlegenden Verständnis ihrer Grenzen verlagern.
English
As generative models become ubiquitous, there is a critical need for fine-grained control over the generation process. Yet, while controlled generation methods from prompting to fine-tuning proliferate, a fundamental question remains unanswered: are these models truly controllable in the first place? In this work, we provide a theoretical framework to formally answer this question. Framing human-model interaction as a control process, we propose a novel algorithm to estimate the controllable sets of models in a dialogue setting. Notably, we provide formal guarantees on the estimation error as a function of sample complexity: we derive probably-approximately correct bounds for controllable set estimates that are distribution-free, employ no assumptions except for output boundedness, and work for any black-box nonlinear control system (i.e., any generative model). We empirically demonstrate the theoretical framework on different tasks in controlling dialogue processes, for both language models and text-to-image generation. Our results show that model controllability is surprisingly fragile and highly dependent on the experimental setting. This highlights the need for rigorous controllability analysis, shifting the focus from simply attempting control to first understanding its fundamental limits.