ChatPaper.aiChatPaper

Aprendizaje Factible

Feasible Learning

January 24, 2025
Autores: Juan Ramirez, Ignacio Hounie, Juan Elenter, Jose Gallego-Posada, Meraj Hashemizadeh, Alejandro Ribeiro, Simon Lacoste-Julien
cs.AI

Resumen

Presentamos el Aprendizaje Factible (FL), un paradigma de aprendizaje centrado en muestras donde los modelos se entrenan resolviendo un problema de viabilidad que limita la pérdida para cada muestra de entrenamiento. En contraste con el ubicuo marco de Minimización del Riesgo Empírico (ERM), que optimiza el rendimiento promedio, FL exige un rendimiento satisfactorio en cada punto de datos individual. Dado que cualquier modelo que cumpla con el umbral de rendimiento prescrito es una solución FL válida, la elección del algoritmo de optimización y su dinámica juegan un papel crucial en la configuración de las propiedades de las soluciones resultantes. En particular, estudiamos un enfoque primal-dual que reajusta dinámicamente la importancia de cada muestra durante el entrenamiento. Para abordar el desafío de establecer un umbral significativo en la práctica, introducimos una relajación de FL que incorpora variables de holgura de norma mínima. Nuestro análisis empírico, que abarca la clasificación de imágenes, la regresión de edad y la optimización de preferencias en modelos de lenguaje grandes, demuestra que los modelos entrenados a través de FL pueden aprender de los datos mientras muestran un comportamiento de cola mejorado en comparación con ERM, con solo un impacto marginal en el rendimiento promedio.
English
We introduce Feasible Learning (FL), a sample-centric learning paradigm where models are trained by solving a feasibility problem that bounds the loss for each training sample. In contrast to the ubiquitous Empirical Risk Minimization (ERM) framework, which optimizes for average performance, FL demands satisfactory performance on every individual data point. Since any model that meets the prescribed performance threshold is a valid FL solution, the choice of optimization algorithm and its dynamics play a crucial role in shaping the properties of the resulting solutions. In particular, we study a primal-dual approach which dynamically re-weights the importance of each sample during training. To address the challenge of setting a meaningful threshold in practice, we introduce a relaxation of FL that incorporates slack variables of minimal norm. Our empirical analysis, spanning image classification, age regression, and preference optimization in large language models, demonstrates that models trained via FL can learn from data while displaying improved tail behavior compared to ERM, with only a marginal impact on average performance.

Summary

AI-Generated Summary

PDF52January 28, 2025