Улучшение крупных моделей для обработки изображений и текста за счет обучения на основе коллективного опыта экспертов

Аннотация

Традиционные методы согласования для крупных моделей обработки зрения и языка (LVLMs) в основном опираются на данные о предпочтениях, курируемые человеком. Данные о предпочтениях, созданные человеком, являются дорогостоящими; данные о предпочтениях, сгенерированные машиной, ограничены по качеству; а самоконтролируемые данные о предпочтениях часто приводят к галлюцинациям. Чтобы преодолеть эти ограничения, мы предлагаем новую структуру обучения "Совет равных" (Panel-of-Peers), вдохновленную совместным обучением среди людей. Этот подход использует группу LVLMs, каждая из которых оценивает и учится на коллективных результатах через итеративный процесс самосовершенствования. Модели, симулируя систему рецензирования, генерируют, оценивают и уточняют результаты в ответ на тщательно подобранный набор запросов, имитируя учебную среду в классе. Мы демонстрируем, что эта методология улучшает производительность модели без необходимости в обширных наборах данных с человеческими метками. Наши эксперименты показывают значительное улучшение на множестве бенчмарков, демонстрируя потенциал оценки равных как масштабируемой альтернативы самоконтролируемому согласованию. В частности, мы показываем, что "Совет равных" увеличивает средний балл на пятнадцати бенчмарках с 48% до 57%.

English

Traditional alignment methods for Large Vision and Language Models (LVLMs) primarily rely on human-curated preference data. Human-generated preference data is costly; machine-generated preference data is limited in quality; and self-supervised preference data often introduces hallucinations. To overcome these limitations, we propose a novel Panel-of-Peers learning framework inspired by collaborative learning among humans. This approach leverages a panel of LVLMs, each evaluating and learning from their collective outputs through an iterative self-improvement process. By simulating a peer review system, our models generate, assess, and refine outputs in response to a curated set of prompts, mimicking a classroom learning environment. We demonstrate that this methodology enhances model performance without requiring extensive human-labeled datasets. Our experiments show significant improvement across multiple benchmarks, demonstrating the potential of peer evaluations as a scalable alternative to self-supervised alignment. Notably, we show that Panel-of-Peers increases the average score on fifteen benchmarks from 48% to 57%

Улучшение крупных моделей для обработки изображений и текста за счет обучения на основе коллективного опыта экспертов

Improving Large Vision and Language Models by Learning from a Panel of Peers

Аннотация

Support