От данных к вознаграждениям: взгляд на метод максимального правдоподобия через призму двухуровневой оптимизации
From Data to Rewards: a Bilevel Optimization Perspective on Maximum Likelihood Estimation
October 8, 2025
Авторы: Abdelhakim Benechehab, Gabriel Singer, Corentin Léger, Youssef Attia El Hili, Giuseppe Paolo, Albert Thomas, Maurizio Filippone, Balázs Kégl
cs.AI
Аннотация
Генеративные модели составляют основу современного машинного обучения, лежа в основе передовых систем в области обработки текста, компьютерного зрения и мультимодальных приложений. Хотя метод максимального правдоподобия традиционно служил доминирующей парадигмой обучения, последние исследования выявили его ограничения, особенно в обобщении и уязвимости к катастрофическому забыванию по сравнению с методами обучения с подкреплением, такими как методы градиента политики. Однако эти подходы зависят от явных сигналов вознаграждения, которые часто недоступны на практике, оставляя открытой фундаментальную проблему согласования генеративных моделей, когда доступны только высококачественные наборы данных. В данной работе мы решаем эту задачу с помощью двухуровневой оптимизации, где функция вознаграждения рассматривается как переменная оптимизации внешнего уровня, а целевая функция градиента политики определяет внутренний уровень. Затем мы проводим теоретический анализ этой задачи оптимизации в доступной для анализа постановке и извлекаем идеи, которые, как мы показываем, обобщаются на такие приложения, как табличная классификация и обучение с подкреплением на основе моделей. Мы публикуем код по адресу https://github.com/abenechehab/nll_to_po.
English
Generative models form the backbone of modern machine learning, underpinning
state-of-the-art systems in text, vision, and multimodal applications. While
Maximum Likelihood Estimation has traditionally served as the dominant training
paradigm, recent work have highlighted its limitations, particularly in
generalization and susceptibility to catastrophic forgetting compared to
Reinforcement Learning techniques, such as Policy Gradient methods. However,
these approaches depend on explicit reward signals, which are often unavailable
in practice, leaving open the fundamental problem of how to align generative
models when only high-quality datasets are accessible. In this work, we address
this challenge via a Bilevel Optimization framework, where the reward function
is treated as the optimization variable of an outer-level problem, while a
policy gradient objective defines the inner-level. We then conduct a
theoretical analysis of this optimization problem in a tractable setting and
extract insights that, as we demonstrate, generalize to applications such as
tabular classification and model-based reinforcement learning. We release the
code at https://github.com/abenechehab/nll_to_po .