De los Datos a las Recompensas: una Perspectiva de Optimización Binivel sobre la Estimación de Máxima Verosimilitud
From Data to Rewards: a Bilevel Optimization Perspective on Maximum Likelihood Estimation
October 8, 2025
Autores: Abdelhakim Benechehab, Gabriel Singer, Corentin Léger, Youssef Attia El Hili, Giuseppe Paolo, Albert Thomas, Maurizio Filippone, Balázs Kégl
cs.AI
Resumen
Los modelos generativos constituyen la columna vertebral del aprendizaje automático moderno, sustentando sistemas de vanguardia en aplicaciones de texto, visión y multimodalidad. Si bien la Estimación de Máxima Verosimilitud ha sido tradicionalmente el paradigma de entrenamiento dominante, trabajos recientes han destacado sus limitaciones, particularmente en términos de generalización y susceptibilidad al olvido catastrófico en comparación con técnicas de Aprendizaje por Refuerzo, como los métodos de Gradiente de Política. Sin embargo, estos enfoques dependen de señales de recompensa explícitas, que a menudo no están disponibles en la práctica, dejando abierto el problema fundamental de cómo alinear modelos generativos cuando solo se dispone de conjuntos de datos de alta calidad. En este trabajo, abordamos este desafío mediante un marco de Optimización Bilevel, donde la función de recompensa se trata como la variable de optimización de un problema de nivel externo, mientras que un objetivo de gradiente de política define el nivel interno. Luego, realizamos un análisis teórico de este problema de optimización en un escenario manejable y extraemos ideas que, como demostramos, se generalizan a aplicaciones como la clasificación tabular y el aprendizaje por refuerzo basado en modelos. Publicamos el código en https://github.com/abenechehab/nll_to_po.
English
Generative models form the backbone of modern machine learning, underpinning
state-of-the-art systems in text, vision, and multimodal applications. While
Maximum Likelihood Estimation has traditionally served as the dominant training
paradigm, recent work have highlighted its limitations, particularly in
generalization and susceptibility to catastrophic forgetting compared to
Reinforcement Learning techniques, such as Policy Gradient methods. However,
these approaches depend on explicit reward signals, which are often unavailable
in practice, leaving open the fundamental problem of how to align generative
models when only high-quality datasets are accessible. In this work, we address
this challenge via a Bilevel Optimization framework, where the reward function
is treated as the optimization variable of an outer-level problem, while a
policy gradient objective defines the inner-level. We then conduct a
theoretical analysis of this optimization problem in a tractable setting and
extract insights that, as we demonstrate, generalize to applications such as
tabular classification and model-based reinforcement learning. We release the
code at https://github.com/abenechehab/nll_to_po .