GenCtrl -- Un Toolkit Formale per la Controllabilità dei Modelli Generativi

Abstract

Man mano che i modelli generativi diventano onnipresenti, si rende necessaria una gestione granulare del processo di generazione. Tuttavia, nonostante la proliferazione di metodi per la generazione controllata – dal prompting al fine-tuning – una domanda fondamentale rimane senza risposta: questi modelli sono effettivamente controllabili? In questo lavoro, forniamo un quadro teorico per rispondere formalmente a questa domanda. Inquadrando l'interazione uomo-modello come un processo di controllo, proponiamo un nuovo algoritmo per stimare gli insiemi controllabili dei modelli in un contesto dialogico. In modo significativo, forniamo garanzie formali sull'errore di stima in funzione della complessità campionaria: deriviamo limiti probably-approximately correct per le stime degli insiemi controllabili che sono indipendenti dalla distribuzione, non impiegano alcuna assunzione eccetto la limitatezza degli output e funzionano per qualsiasi sistema di controllo non lineare di tipo black-box (ovvero, per qualsiasi modello generativo). Dimostriamo empiricamente il quadro teorico su diversi compiti di controllo di processi dialogici, sia per modelli linguistici che per la generazione testo-immagine. I nostri risultati mostrano che la controllabilità del modello è sorprendentemente fragile e altamente dipendente dall'impostazione sperimentale. Ciò evidenzia la necessità di un'analisi rigorosa della controllabilità, spostando l'attenzione dal semplice tentativo di controllo alla comprensione preliminare dei suoi limiti fondamentali.

English

As generative models become ubiquitous, there is a critical need for fine-grained control over the generation process. Yet, while controlled generation methods from prompting to fine-tuning proliferate, a fundamental question remains unanswered: are these models truly controllable in the first place? In this work, we provide a theoretical framework to formally answer this question. Framing human-model interaction as a control process, we propose a novel algorithm to estimate the controllable sets of models in a dialogue setting. Notably, we provide formal guarantees on the estimation error as a function of sample complexity: we derive probably-approximately correct bounds for controllable set estimates that are distribution-free, employ no assumptions except for output boundedness, and work for any black-box nonlinear control system (i.e., any generative model). We empirically demonstrate the theoretical framework on different tasks in controlling dialogue processes, for both language models and text-to-image generation. Our results show that model controllability is surprisingly fragile and highly dependent on the experimental setting. This highlights the need for rigorous controllability analysis, shifting the focus from simply attempting control to first understanding its fundamental limits.

GenCtrl -- Un Toolkit Formale per la Controllabilità dei Modelli Generativi

GenCtrl -- A Formal Controllability Toolkit for Generative Models

Abstract

Support