Apprentissage réalisable
Feasible Learning
January 24, 2025
Auteurs: Juan Ramirez, Ignacio Hounie, Juan Elenter, Jose Gallego-Posada, Meraj Hashemizadeh, Alejandro Ribeiro, Simon Lacoste-Julien
cs.AI
Résumé
Nous introduisons l'Apprentissage Réalisable (FL), un paradigme d'apprentissage centré sur l'échantillon où les modèles sont entraînés en résolvant un problème de faisabilité qui borne la perte pour chaque échantillon d'entraînement. Contrairement au cadre de Minimisation du Risque Empirique (ERM) omniprésent, qui optimise les performances moyennes, FL exige des performances satisfaisantes sur chaque point de données individuel. Étant donné que tout modèle qui atteint le seuil de performance prescrit est une solution FL valide, le choix de l'algorithme d'optimisation et sa dynamique jouent un rôle crucial dans la définition des propriétés des solutions résultantes. En particulier, nous étudions une approche primal-dual qui rééquilibre dynamiquement l'importance de chaque échantillon pendant l'entraînement. Pour relever le défi de définir un seuil significatif en pratique, nous introduisons une relaxation de FL qui intègre des variables d'écart de norme minimale. Notre analyse empirique, couvrant la classification d'images, la régression d'âge et l'optimisation des préférences dans de grands modèles de langage, démontre que les modèles entraînés via FL peuvent apprendre à partir des données tout en affichant un comportement de queue amélioré par rapport à l'ERM, avec seulement un impact marginal sur les performances moyennes.
English
We introduce Feasible Learning (FL), a sample-centric learning paradigm where
models are trained by solving a feasibility problem that bounds the loss for
each training sample. In contrast to the ubiquitous Empirical Risk Minimization
(ERM) framework, which optimizes for average performance, FL demands
satisfactory performance on every individual data point. Since any model that
meets the prescribed performance threshold is a valid FL solution, the choice
of optimization algorithm and its dynamics play a crucial role in shaping the
properties of the resulting solutions. In particular, we study a primal-dual
approach which dynamically re-weights the importance of each sample during
training. To address the challenge of setting a meaningful threshold in
practice, we introduce a relaxation of FL that incorporates slack variables of
minimal norm. Our empirical analysis, spanning image classification, age
regression, and preference optimization in large language models, demonstrates
that models trained via FL can learn from data while displaying improved tail
behavior compared to ERM, with only a marginal impact on average performance.