GenCtrl -- Um Kit de Ferramentas Formal para Controlabilidade em Modelos Generativos

Resumo

À medida que os modelos generativos se tornam ubíquos, surge uma necessidade crítica de controlo granular sobre o processo de geração. No entanto, embora os métodos de geração controlada, desde o *prompting* até ao *fine-tuning*, proliferem, uma questão fundamental permanece sem resposta: serão estes modelos verdadeiramente controláveis? Neste trabalho, propomos um quadro teórico para responder formalmente a esta questão. Enquadrando a interação humano-modelo como um processo de controlo, propomos um novo algoritmo para estimar os conjuntos controláveis dos modelos num contexto de diálogo. De forma notável, fornecemos garantias formais sobre o erro de estimativa em função da complexidade da amostra: derivamos limites provavelmente aproximadamente corretos para as estimativas do conjunto controlável que são independentes da distribuição, não empregam quaisquer pressupostos exceto a limitação da saída e funcionam para qualquer sistema de controlo não linear de caixa negra (ou seja, qualquer modelo generativo). Demonstramos empiricamente o quadro teórico em diferentes tarefas de controlo de processos de diálogo, tanto para modelos de linguagem como para geração de texto para imagem. Os nossos resultados mostram que a controlabilidade do modelo é surpreendentemente frágil e altamente dependente do contexto experimental. Isto realça a necessidade de uma análise rigorosa da controlabilidade, deslocando o foco de simplesmente tentar controlar para primeiro compreender os seus limites fundamentais.

English

As generative models become ubiquitous, there is a critical need for fine-grained control over the generation process. Yet, while controlled generation methods from prompting to fine-tuning proliferate, a fundamental question remains unanswered: are these models truly controllable in the first place? In this work, we provide a theoretical framework to formally answer this question. Framing human-model interaction as a control process, we propose a novel algorithm to estimate the controllable sets of models in a dialogue setting. Notably, we provide formal guarantees on the estimation error as a function of sample complexity: we derive probably-approximately correct bounds for controllable set estimates that are distribution-free, employ no assumptions except for output boundedness, and work for any black-box nonlinear control system (i.e., any generative model). We empirically demonstrate the theoretical framework on different tasks in controlling dialogue processes, for both language models and text-to-image generation. Our results show that model controllability is surprisingly fragile and highly dependent on the experimental setting. This highlights the need for rigorous controllability analysis, shifting the focus from simply attempting control to first understanding its fundamental limits.

GenCtrl -- Um Kit de Ferramentas Formal para Controlabilidade em Modelos Generativos

GenCtrl -- A Formal Controllability Toolkit for Generative Models

Resumo

Support