De Dados a Recompensas: Uma Perspectiva de Otimização Binível na Estimação de Máxima Verossimilhança
From Data to Rewards: a Bilevel Optimization Perspective on Maximum Likelihood Estimation
October 8, 2025
Autores: Abdelhakim Benechehab, Gabriel Singer, Corentin Léger, Youssef Attia El Hili, Giuseppe Paolo, Albert Thomas, Maurizio Filippone, Balázs Kégl
cs.AI
Resumo
Os modelos generativos formam a espinha dorsal do aprendizado de máquina moderno, sustentando sistemas de ponta em aplicações de texto, visão e multimodais. Embora a Estimativa de Máxima Verossimilhança tenha tradicionalmente servido como o paradigma de treinamento dominante, trabalhos recentes destacaram suas limitações, particularmente em generalização e suscetibilidade ao esquecimento catastrófico em comparação com técnicas de Aprendizado por Reforço, como métodos de Gradiente de Política. No entanto, essas abordagens dependem de sinais de recompensa explícitos, que muitas vezes não estão disponíveis na prática, deixando em aberto o problema fundamental de como alinhar modelos generativos quando apenas conjuntos de dados de alta qualidade estão acessíveis. Neste trabalho, abordamos esse desafio por meio de uma estrutura de Otimização Bilevel, onde a função de recompensa é tratada como a variável de otimização de um problema de nível externo, enquanto um objetivo de gradiente de política define o nível interno. Em seguida, conduzimos uma análise teórica desse problema de otimização em um cenário tratável e extraímos insights que, como demonstramos, se generalizam para aplicações como classificação tabular e aprendizado por reforço baseado em modelo. Liberamos o código em https://github.com/abenechehab/nll_to_po.
English
Generative models form the backbone of modern machine learning, underpinning
state-of-the-art systems in text, vision, and multimodal applications. While
Maximum Likelihood Estimation has traditionally served as the dominant training
paradigm, recent work have highlighted its limitations, particularly in
generalization and susceptibility to catastrophic forgetting compared to
Reinforcement Learning techniques, such as Policy Gradient methods. However,
these approaches depend on explicit reward signals, which are often unavailable
in practice, leaving open the fundamental problem of how to align generative
models when only high-quality datasets are accessible. In this work, we address
this challenge via a Bilevel Optimization framework, where the reward function
is treated as the optimization variable of an outer-level problem, while a
policy gradient objective defines the inner-level. We then conduct a
theoretical analysis of this optimization problem in a tractable setting and
extract insights that, as we demonstrate, generalize to applications such as
tabular classification and model-based reinforcement learning. We release the
code at https://github.com/abenechehab/nll_to_po .