Apprendimento fattibile
Feasible Learning
January 24, 2025
Autori: Juan Ramirez, Ignacio Hounie, Juan Elenter, Jose Gallego-Posada, Meraj Hashemizadeh, Alejandro Ribeiro, Simon Lacoste-Julien
cs.AI
Abstract
Introduciamo l'Apprendimento Realizzabile (FL), un paradigma di apprendimento centrato sul campione in cui i modelli vengono addestrati risolvendo un problema di fattibilità che limita la perdita per ciascun campione di addestramento. In contrasto con il diffuso framework di Minimizzazione del Rischio Empirico (ERM), che ottimizza le prestazioni medie, FL richiede prestazioni soddisfacenti su ciascun singolo punto dati. Poiché qualsiasi modello che soddisfi la soglia di prestazioni prescritta è una soluzione FL valida, la scelta dell'algoritmo di ottimizzazione e le sue dinamiche giocano un ruolo cruciale nel plasmare le proprietà delle soluzioni risultanti. In particolare, studiamo un approccio primale-duale che riassegna dinamicamente l'importanza di ciascun campione durante l'addestramento. Per affrontare la sfida di impostare una soglia significativa nella pratica, introduciamo un rilassamento di FL che incorpora variabili di slack di norma minima. La nostra analisi empirica, che spazia dalla classificazione delle immagini, alla regressione dell'età e all'ottimizzazione delle preferenze nei grandi modelli linguistici, dimostra che i modelli addestrati tramite FL possono apprendere dai dati mostrando un comportamento della coda migliorato rispetto all'ERM, con solo un impatto marginale sulle prestazioni medie.
English
We introduce Feasible Learning (FL), a sample-centric learning paradigm where
models are trained by solving a feasibility problem that bounds the loss for
each training sample. In contrast to the ubiquitous Empirical Risk Minimization
(ERM) framework, which optimizes for average performance, FL demands
satisfactory performance on every individual data point. Since any model that
meets the prescribed performance threshold is a valid FL solution, the choice
of optimization algorithm and its dynamics play a crucial role in shaping the
properties of the resulting solutions. In particular, we study a primal-dual
approach which dynamically re-weights the importance of each sample during
training. To address the challenge of setting a meaningful threshold in
practice, we introduce a relaxation of FL that incorporates slack variables of
minimal norm. Our empirical analysis, spanning image classification, age
regression, and preference optimization in large language models, demonstrates
that models trained via FL can learn from data while displaying improved tail
behavior compared to ERM, with only a marginal impact on average performance.Summary
AI-Generated Summary