Улучшение крупных моделей для обработки изображений и текста за счет обучения на основе коллективного опыта экспертов
Improving Large Vision and Language Models by Learning from a Panel of Peers
September 1, 2025
Авторы: Jefferson Hernandez, Jing Shi, Simon Jenni, Vicente Ordonez, Kushal Kafle
cs.AI
Аннотация
Традиционные методы согласования для крупных моделей обработки зрения и языка (LVLMs) в основном опираются на данные о предпочтениях, курируемые человеком. Данные о предпочтениях, созданные человеком, являются дорогостоящими; данные о предпочтениях, сгенерированные машиной, ограничены по качеству; а самоконтролируемые данные о предпочтениях часто приводят к галлюцинациям. Чтобы преодолеть эти ограничения, мы предлагаем новую структуру обучения "Совет равных" (Panel-of-Peers), вдохновленную совместным обучением среди людей. Этот подход использует группу LVLMs, каждая из которых оценивает и учится на коллективных результатах через итеративный процесс самосовершенствования. Модели, симулируя систему рецензирования, генерируют, оценивают и уточняют результаты в ответ на тщательно подобранный набор запросов, имитируя учебную среду в классе. Мы демонстрируем, что эта методология улучшает производительность модели без необходимости в обширных наборах данных с человеческими метками. Наши эксперименты показывают значительное улучшение на множестве бенчмарков, демонстрируя потенциал оценки равных как масштабируемой альтернативы самоконтролируемому согласованию. В частности, мы показываем, что "Совет равных" увеличивает средний балл на пятнадцати бенчмарках с 48% до 57%.
English
Traditional alignment methods for Large Vision and Language Models (LVLMs)
primarily rely on human-curated preference data. Human-generated preference
data is costly; machine-generated preference data is limited in quality; and
self-supervised preference data often introduces hallucinations. To overcome
these limitations, we propose a novel Panel-of-Peers learning framework
inspired by collaborative learning among humans. This approach leverages a
panel of LVLMs, each evaluating and learning from their collective outputs
through an iterative self-improvement process. By simulating a peer review
system, our models generate, assess, and refine outputs in response to a
curated set of prompts, mimicking a classroom learning environment. We
demonstrate that this methodology enhances model performance without requiring
extensive human-labeled datasets. Our experiments show significant improvement
across multiple benchmarks, demonstrating the potential of peer evaluations as
a scalable alternative to self-supervised alignment. Notably, we show that
Panel-of-Peers increases the average score on fifteen benchmarks from 48% to
57%