Des données aux récompenses : une perspective d'optimisation bilevel sur l'estimation du maximum de vraisemblance
From Data to Rewards: a Bilevel Optimization Perspective on Maximum Likelihood Estimation
October 8, 2025
papers.authors: Abdelhakim Benechehab, Gabriel Singer, Corentin Léger, Youssef Attia El Hili, Giuseppe Paolo, Albert Thomas, Maurizio Filippone, Balázs Kégl
cs.AI
papers.abstract
Les modèles génératifs constituent l'épine dorsale de l'apprentissage automatique moderne, soutenant les systèmes de pointe dans les domaines du texte, de la vision et des applications multimodales. Bien que l'estimation du maximum de vraisemblance ait traditionnellement servi de paradigme d'entraînement dominant, des travaux récents ont mis en lumière ses limites, notamment en matière de généralisation et de sensibilité à l'oubli catastrophique, par rapport aux techniques d'apprentissage par renforcement telles que les méthodes de gradient de politique. Cependant, ces approches dépendent de signaux de récompense explicites, souvent indisponibles en pratique, laissant ouverte la question fondamentale de l'alignement des modèles génératifs lorsque seuls des ensembles de données de haute qualité sont accessibles. Dans ce travail, nous abordons ce défi via un cadre d'optimisation bilevel, où la fonction de récompense est traitée comme la variable d'optimisation d'un problème de niveau externe, tandis qu'un objectif de gradient de politique définit le niveau interne. Nous menons ensuite une analyse théorique de ce problème d'optimisation dans un cadre traitable et en extrayons des insights qui, comme nous le démontrons, se généralisent à des applications telles que la classification tabulaire et l'apprentissage par renforcement basé sur des modèles. Nous publions le code à l'adresse https://github.com/abenechehab/nll_to_po.
English
Generative models form the backbone of modern machine learning, underpinning
state-of-the-art systems in text, vision, and multimodal applications. While
Maximum Likelihood Estimation has traditionally served as the dominant training
paradigm, recent work have highlighted its limitations, particularly in
generalization and susceptibility to catastrophic forgetting compared to
Reinforcement Learning techniques, such as Policy Gradient methods. However,
these approaches depend on explicit reward signals, which are often unavailable
in practice, leaving open the fundamental problem of how to align generative
models when only high-quality datasets are accessible. In this work, we address
this challenge via a Bilevel Optimization framework, where the reward function
is treated as the optimization variable of an outer-level problem, while a
policy gradient objective defines the inner-level. We then conduct a
theoretical analysis of this optimization problem in a tractable setting and
extract insights that, as we demonstrate, generalize to applications such as
tabular classification and model-based reinforcement learning. We release the
code at https://github.com/abenechehab/nll_to_po .