Da Dati a Ricompense: una Prospettiva di Ottimizzazione Bilevel sulla Stima di Massima Verosimiglianza
From Data to Rewards: a Bilevel Optimization Perspective on Maximum Likelihood Estimation
October 8, 2025
Autori: Abdelhakim Benechehab, Gabriel Singer, Corentin Léger, Youssef Attia El Hili, Giuseppe Paolo, Albert Thomas, Maurizio Filippone, Balázs Kégl
cs.AI
Abstract
I modelli generativi costituiscono la spina dorsale del moderno machine learning, supportando sistemi all'avanguardia in applicazioni di testo, visione e multimodalità. Sebbene la Massima Verosimiglianza (Maximum Likelihood Estimation) sia tradizionalmente servita come paradigma di addestramento dominante, lavori recenti ne hanno evidenziato i limiti, in particolare nella generalizzazione e nella suscettibilità alla dimenticanza catastrofica rispetto a tecniche di Apprendimento per Rinforzo, come i metodi a Gradiente della Politica (Policy Gradient). Tuttavia, questi approcci dipendono da segnali di ricompensa espliciti, spesso non disponibili nella pratica, lasciando aperto il problema fondamentale di come allineare i modelli generativi quando sono accessibili solo dataset di alta qualità. In questo lavoro, affrontiamo questa sfida attraverso un framework di Ottimizzazione Bilevel, in cui la funzione di ricompensa viene trattata come variabile di ottimizzazione di un problema di livello esterno, mentre un obiettivo a Gradiente della Politica definisce il livello interno. Successivamente, conduciamo un'analisi teorica di questo problema di ottimizzazione in un contesto trattabile ed estraiamo intuizioni che, come dimostriamo, si generalizzano ad applicazioni come la classificazione tabellare e l'apprendimento per rinforzo basato su modelli. Rilasciamo il codice all'indirizzo https://github.com/abenechehab/nll_to_po.
English
Generative models form the backbone of modern machine learning, underpinning
state-of-the-art systems in text, vision, and multimodal applications. While
Maximum Likelihood Estimation has traditionally served as the dominant training
paradigm, recent work have highlighted its limitations, particularly in
generalization and susceptibility to catastrophic forgetting compared to
Reinforcement Learning techniques, such as Policy Gradient methods. However,
these approaches depend on explicit reward signals, which are often unavailable
in practice, leaving open the fundamental problem of how to align generative
models when only high-quality datasets are accessible. In this work, we address
this challenge via a Bilevel Optimization framework, where the reward function
is treated as the optimization variable of an outer-level problem, while a
policy gradient objective defines the inner-level. We then conduct a
theoretical analysis of this optimization problem in a tractable setting and
extract insights that, as we demonstrate, generalize to applications such as
tabular classification and model-based reinforcement learning. We release the
code at https://github.com/abenechehab/nll_to_po .