GenCtrl: Un Kit de Herramientas Formal para la Controlabilidad de Modelos Generativos
GenCtrl -- A Formal Controllability Toolkit for Generative Models
January 9, 2026
Autores: Emily Cheng, Carmen Amo Alonso, Federico Danieli, Arno Blaas, Luca Zappella, Pau Rodriguez, Xavier Suau
cs.AI
Resumen
A medida que los modelos generativos se vuelven omnipresentes, existe una necesidad crítica de control detallado sobre el proceso de generación. Sin embargo, mientras los métodos de generación controlada, desde el prompting hasta el fine-tuning, proliferan, una pregunta fundamental permanece sin respuesta: ¿son estos modelos verdaderamente controlables en primer lugar? En este trabajo, proporcionamos un marco teórico para responder formalmente a esta pregunta. Enmarcando la interacción humano-modelo como un proceso de control, proponemos un nuevo algoritmo para estimar los conjuntos controlables de los modelos en un entorno de diálogo. Notablemente, ofrecemos garantías formales sobre el error de estimación en función de la complejidad muestral: derivamos límites probablemente aproximadamente correctos para las estimaciones de conjuntos controlables que son libres de distribución, no emplean suposiciones excepto la acotación de la salida, y funcionan para cualquier sistema de control no lineal de caja negra (es decir, cualquier modelo generativo). Demostramos empíricamente el marco teórico en diferentes tareas de control de procesos de diálogo, tanto para modelos de lenguaje como para generación de texto a imagen. Nuestros resultados muestran que la controlabilidad del modelo es sorprendentemente frágil y altamente dependiente de la configuración experimental. Esto subraya la necesidad de un análisis riguroso de la controlabilidad, desplazando el enfoque de simplemente intentar controlar a comprender primero sus límites fundamentales.
English
As generative models become ubiquitous, there is a critical need for fine-grained control over the generation process. Yet, while controlled generation methods from prompting to fine-tuning proliferate, a fundamental question remains unanswered: are these models truly controllable in the first place? In this work, we provide a theoretical framework to formally answer this question. Framing human-model interaction as a control process, we propose a novel algorithm to estimate the controllable sets of models in a dialogue setting. Notably, we provide formal guarantees on the estimation error as a function of sample complexity: we derive probably-approximately correct bounds for controllable set estimates that are distribution-free, employ no assumptions except for output boundedness, and work for any black-box nonlinear control system (i.e., any generative model). We empirically demonstrate the theoretical framework on different tasks in controlling dialogue processes, for both language models and text-to-image generation. Our results show that model controllability is surprisingly fragile and highly dependent on the experimental setting. This highlights the need for rigorous controllability analysis, shifting the focus from simply attempting control to first understanding its fundamental limits.