ChatPaper.aiChatPaper

Van Data naar Beloningen: een Bilevel Optimalisatie Perspectief op Maximum Likelihood Schatting

From Data to Rewards: a Bilevel Optimization Perspective on Maximum Likelihood Estimation

October 8, 2025
Auteurs: Abdelhakim Benechehab, Gabriel Singer, Corentin Léger, Youssef Attia El Hili, Giuseppe Paolo, Albert Thomas, Maurizio Filippone, Balázs Kégl
cs.AI

Samenvatting

Generatieve modellen vormen de ruggengraat van modern machinaal leren en ondersteunen state-of-the-art systemen in tekst-, beeld- en multimodale toepassingen. Hoewel Maximum Likelihood Estimation traditioneel het dominante trainingsparadigma is geweest, hebben recente studies de beperkingen ervan benadrukt, met name op het gebied van generalisatie en gevoeligheid voor catastrofaal vergeten in vergelijking met Reinforcement Learning-technieken, zoals Policy Gradient-methoden. Deze benaderingen zijn echter afhankelijk van expliciete beloningssignalen, die in de praktijk vaak niet beschikbaar zijn, waardoor het fundamentele probleem open blijft van hoe generatieve modellen af te stemmen wanneer alleen hoogwaardige datasets toegankelijk zijn. In dit werk pakken we deze uitdaging aan via een Bilevel Optimalisatie-raamwerk, waarbij de beloningsfunctie wordt behandeld als de optimalisatievariabele van een extern probleem, terwijl een Policy Gradient-doelstelling het interne niveau definieert. Vervolgens voeren we een theoretische analyse uit van dit optimalisatieprobleem in een behapbare setting en halen we inzichten die, zoals we aantonen, generaliseren naar toepassingen zoals tabulaire classificatie en modelgebaseerd reinforcement learning. We geven de code vrij op https://github.com/abenechehab/nll_to_po.
English
Generative models form the backbone of modern machine learning, underpinning state-of-the-art systems in text, vision, and multimodal applications. While Maximum Likelihood Estimation has traditionally served as the dominant training paradigm, recent work have highlighted its limitations, particularly in generalization and susceptibility to catastrophic forgetting compared to Reinforcement Learning techniques, such as Policy Gradient methods. However, these approaches depend on explicit reward signals, which are often unavailable in practice, leaving open the fundamental problem of how to align generative models when only high-quality datasets are accessible. In this work, we address this challenge via a Bilevel Optimization framework, where the reward function is treated as the optimization variable of an outer-level problem, while a policy gradient objective defines the inner-level. We then conduct a theoretical analysis of this optimization problem in a tractable setting and extract insights that, as we demonstrate, generalize to applications such as tabular classification and model-based reinforcement learning. We release the code at https://github.com/abenechehab/nll_to_po .
PDF52October 14, 2025