ChatPaper.aiChatPaper

データから報酬へ:最尤推定に対する二段階最適化の視点

From Data to Rewards: a Bilevel Optimization Perspective on Maximum Likelihood Estimation

October 8, 2025
著者: Abdelhakim Benechehab, Gabriel Singer, Corentin Léger, Youssef Attia El Hili, Giuseppe Paolo, Albert Thomas, Maurizio Filippone, Balázs Kégl
cs.AI

要旨

生成モデルは、現代の機械学習の中核を成し、テキスト、視覚、およびマルチモーダルアプリケーションにおける最先端のシステムを支えている。従来、最尤推定(Maximum Likelihood Estimation)が主要な訓練パラダイムとして用いられてきたが、最近の研究では、特に汎化性能やカタストロフィックフォゲッティングに対する脆弱性において、その限界が指摘されている。これに対して、ポリシー勾配法などの強化学習技術は、明示的な報酬信号に依存するが、実際にはそのような信号が利用できない場合が多く、高品質なデータセットのみが利用可能な状況で生成モデルをどのように整合させるかという根本的な問題が残されている。本研究では、この課題を二段階最適化(Bilevel Optimization)フレームワークを用いて取り組む。ここでは、報酬関数を外側の問題の最適化変数として扱い、内側の問題としてポリシー勾配目的関数を定義する。その後、この最適化問題を理論的に解析し、得られた知見が表形式分類やモデルベース強化学習などのアプリケーションに一般化可能であることを示す。コードはhttps://github.com/abenechehab/nll_to_poで公開している。
English
Generative models form the backbone of modern machine learning, underpinning state-of-the-art systems in text, vision, and multimodal applications. While Maximum Likelihood Estimation has traditionally served as the dominant training paradigm, recent work have highlighted its limitations, particularly in generalization and susceptibility to catastrophic forgetting compared to Reinforcement Learning techniques, such as Policy Gradient methods. However, these approaches depend on explicit reward signals, which are often unavailable in practice, leaving open the fundamental problem of how to align generative models when only high-quality datasets are accessible. In this work, we address this challenge via a Bilevel Optimization framework, where the reward function is treated as the optimization variable of an outer-level problem, while a policy gradient objective defines the inner-level. We then conduct a theoretical analysis of this optimization problem in a tractable setting and extract insights that, as we demonstrate, generalize to applications such as tabular classification and model-based reinforcement learning. We release the code at https://github.com/abenechehab/nll_to_po .
PDF52October 14, 2025