ChatPaper.aiChatPaper

Обучение с возможностью выполнения

Feasible Learning

January 24, 2025
Авторы: Juan Ramirez, Ignacio Hounie, Juan Elenter, Jose Gallego-Posada, Meraj Hashemizadeh, Alejandro Ribeiro, Simon Lacoste-Julien
cs.AI

Аннотация

Мы представляем концепцию Обучения с возможностью (Feasible Learning, FL), парадигму обучения, ориентированную на образцы, где модели обучаются путем решения задачи выполнимости, ограничивающей потери для каждого обучающего образца. В отличие от широко распространенной структуры Минимизации Эмпирического Риска (Empirical Risk Minimization, ERM), которая оптимизирует среднюю производительность, FL требует удовлетворительной производительности на каждой отдельной точке данных. Поскольку любая модель, удовлетворяющая установленному порогу производительности, является допустимым решением FL, выбор алгоритма оптимизации и его динамика играют решающую роль в формировании свойств полученных решений. В частности, мы изучаем применение примарно-дуального подхода, который динамически переопределяет веса важности каждого образца во время обучения. Для решения проблемы установления значимого порога на практике мы представляем релаксацию FL, которая включает слабые переменные минимальной нормы. Наше эмпирическое исследование, охватывающее классификацию изображений, регрессию возраста и оптимизацию предпочтений в больших языковых моделях, демонстрирует, что модели, обученные с использованием FL, могут учиться на данных, проявляя улучшенное поведение хвоста по сравнению с ERM, с едва заметным влиянием на среднюю производительность.
English
We introduce Feasible Learning (FL), a sample-centric learning paradigm where models are trained by solving a feasibility problem that bounds the loss for each training sample. In contrast to the ubiquitous Empirical Risk Minimization (ERM) framework, which optimizes for average performance, FL demands satisfactory performance on every individual data point. Since any model that meets the prescribed performance threshold is a valid FL solution, the choice of optimization algorithm and its dynamics play a crucial role in shaping the properties of the resulting solutions. In particular, we study a primal-dual approach which dynamically re-weights the importance of each sample during training. To address the challenge of setting a meaningful threshold in practice, we introduce a relaxation of FL that incorporates slack variables of minimal norm. Our empirical analysis, spanning image classification, age regression, and preference optimization in large language models, demonstrates that models trained via FL can learn from data while displaying improved tail behavior compared to ERM, with only a marginal impact on average performance.

Summary

AI-Generated Summary

PDF52January 28, 2025