Von Daten zu Belohnungen: Eine bilevel-Optimierungsperspektive auf die Maximum-Likelihood-Schätzung
From Data to Rewards: a Bilevel Optimization Perspective on Maximum Likelihood Estimation
October 8, 2025
papers.authors: Abdelhakim Benechehab, Gabriel Singer, Corentin Léger, Youssef Attia El Hili, Giuseppe Paolo, Albert Thomas, Maurizio Filippone, Balázs Kégl
cs.AI
papers.abstract
Generative Modelle bilden das Rückgrat des modernen maschinellen Lernens und unterliegen den fortschrittlichsten Systemen in den Bereichen Text, Bild und multimodale Anwendungen. Während die Maximum-Likelihood-Schätzung traditionell als dominantes Trainingsparadigma diente, haben neuere Arbeiten ihre Grenzen aufgezeigt, insbesondere in Bezug auf Generalisierung und Anfälligkeit für katastrophales Vergessen im Vergleich zu Reinforcement-Learning-Techniken wie Policy-Gradient-Methoden. Diese Ansätze hängen jedoch von expliziten Belohnungssignalen ab, die in der Praxis oft nicht verfügbar sind, wodurch das grundlegende Problem offen bleibt, wie generative Modelle ausgerichtet werden können, wenn nur hochwertige Datensätze zugänglich sind. In dieser Arbeit gehen wir diese Herausforderung über ein Bilevel-Optimierungs-Framework an, bei dem die Belohnungsfunktion als Optimierungsvariable eines äußeren Problems behandelt wird, während ein Policy-Gradient-Ziel das innere Problem definiert. Anschließend führen wir eine theoretische Analyse dieses Optimierungsproblems in einem handhabbaren Rahmen durch und gewinnen Erkenntnisse, die, wie wir zeigen, auf Anwendungen wie tabellarische Klassifikation und modellbasiertes Reinforcement Learning übertragbar sind. Den Code stellen wir unter https://github.com/abenechehab/nll_to_po zur Verfügung.
English
Generative models form the backbone of modern machine learning, underpinning
state-of-the-art systems in text, vision, and multimodal applications. While
Maximum Likelihood Estimation has traditionally served as the dominant training
paradigm, recent work have highlighted its limitations, particularly in
generalization and susceptibility to catastrophic forgetting compared to
Reinforcement Learning techniques, such as Policy Gradient methods. However,
these approaches depend on explicit reward signals, which are often unavailable
in practice, leaving open the fundamental problem of how to align generative
models when only high-quality datasets are accessible. In this work, we address
this challenge via a Bilevel Optimization framework, where the reward function
is treated as the optimization variable of an outer-level problem, while a
policy gradient objective defines the inner-level. We then conduct a
theoretical analysis of this optimization problem in a tractable setting and
extract insights that, as we demonstrate, generalize to applications such as
tabular classification and model-based reinforcement learning. We release the
code at https://github.com/abenechehab/nll_to_po .