ChatPaper.aiChatPaper

Aprendizagem Viável

Feasible Learning

January 24, 2025
Autores: Juan Ramirez, Ignacio Hounie, Juan Elenter, Jose Gallego-Posada, Meraj Hashemizadeh, Alejandro Ribeiro, Simon Lacoste-Julien
cs.AI

Resumo

Apresentamos o Aprendizado Viável (AV), um paradigma de aprendizado centrado na amostra em que os modelos são treinados resolvendo um problema de viabilidade que limita a perda para cada amostra de treinamento. Em contraste com o onipresente framework de Minimização do Risco Empírico (MRE), que otimiza o desempenho médio, o AV exige um desempenho satisfatório em cada ponto de dados individual. Uma vez que qualquer modelo que atenda ao limiar de desempenho prescrito é uma solução de AV válida, a escolha do algoritmo de otimização e sua dinâmica desempenham um papel crucial na formação das propriedades das soluções resultantes. Em particular, estudamos uma abordagem primal-dual que reajusta dinamicamente a importância de cada amostra durante o treinamento. Para lidar com o desafio de definir um limiar significativo na prática, introduzimos uma relaxação do AV que incorpora variáveis de folga de norma mínima. Nossa análise empírica, abrangendo classificação de imagens, regressão de idade e otimização de preferências em grandes modelos de linguagem, demonstra que os modelos treinados via AV podem aprender com os dados enquanto exibem um comportamento de cauda aprimorado em comparação com o MRE, com apenas um impacto marginal no desempenho médio.
English
We introduce Feasible Learning (FL), a sample-centric learning paradigm where models are trained by solving a feasibility problem that bounds the loss for each training sample. In contrast to the ubiquitous Empirical Risk Minimization (ERM) framework, which optimizes for average performance, FL demands satisfactory performance on every individual data point. Since any model that meets the prescribed performance threshold is a valid FL solution, the choice of optimization algorithm and its dynamics play a crucial role in shaping the properties of the resulting solutions. In particular, we study a primal-dual approach which dynamically re-weights the importance of each sample during training. To address the challenge of setting a meaningful threshold in practice, we introduce a relaxation of FL that incorporates slack variables of minimal norm. Our empirical analysis, spanning image classification, age regression, and preference optimization in large language models, demonstrates that models trained via FL can learn from data while displaying improved tail behavior compared to ERM, with only a marginal impact on average performance.

Summary

AI-Generated Summary

PDF52January 28, 2025