GenCtrl -- Een Formele Beheersbaarheidstoolkit voor Generatieve Modellen
GenCtrl -- A Formal Controllability Toolkit for Generative Models
January 9, 2026
Auteurs: Emily Cheng, Carmen Amo Alonso, Federico Danieli, Arno Blaas, Luca Zappella, Pau Rodriguez, Xavier Suau
cs.AI
Samenvatting
Naarmate generatieve modellen alomtegenwoordig worden, is er een dringende behoefte aan gedetailleerde controle over het generatieproces. Toch, terwijl gecontroleerde generatiemethoden – van prompting tot fine-tuning – zich vermenigvuldigen, blijft een fundamentele vraag onbeantwoord: zijn deze modellen überhaupt wel echt controleerbaar? In dit werk bieden we een theoretisch kader om deze vraag formeel te beantwoorden. Door de mens-modelinteractie te formuleren als een controleproces, stellen we een nieuw algoritme voor om de controleerbare verzamelingen van modellen in een dialoogsetting te schatten. Opmerkelijk is dat we formele garanties bieden over de schattingsfout als functie van de sample complexiteit: we leiden probably-approximately correct grenzen af voor schattingen van controleerbare verzamelingen die distributievrij zijn, geen aannames gebruiken behalve begrensdheid van de output, en werken voor elk black-box niet-lineair controlesysteem (d.w.z. elk generatief model). We demonstreren het theoretische kader empirisch voor verschillende taken bij het controleren van dialoogprocessen, zowel voor taalmodel- als tekst-naar-beeldgeneratie. Onze resultaten tonen aan dat modelcontroleerbaarheid verrassend broos is en sterk afhankelijk van de experimentele setting. Dit benadrukt de noodzaak van een rigoureuze controleerbaarheidsanalyse, waarbij de focus verschuift van het simpelweg proberen te controleren naar het eerst begrijpen van de fundamentele grenzen ervan.
English
As generative models become ubiquitous, there is a critical need for fine-grained control over the generation process. Yet, while controlled generation methods from prompting to fine-tuning proliferate, a fundamental question remains unanswered: are these models truly controllable in the first place? In this work, we provide a theoretical framework to formally answer this question. Framing human-model interaction as a control process, we propose a novel algorithm to estimate the controllable sets of models in a dialogue setting. Notably, we provide formal guarantees on the estimation error as a function of sample complexity: we derive probably-approximately correct bounds for controllable set estimates that are distribution-free, employ no assumptions except for output boundedness, and work for any black-box nonlinear control system (i.e., any generative model). We empirically demonstrate the theoretical framework on different tasks in controlling dialogue processes, for both language models and text-to-image generation. Our results show that model controllability is surprisingly fragile and highly dependent on the experimental setting. This highlights the need for rigorous controllability analysis, shifting the focus from simply attempting control to first understanding its fundamental limits.