ChatPaper.aiChatPaper

Amélioration des grands modèles de vision et de langage par apprentissage auprès d'un panel de pairs

Improving Large Vision and Language Models by Learning from a Panel of Peers

September 1, 2025
papers.authors: Jefferson Hernandez, Jing Shi, Simon Jenni, Vicente Ordonez, Kushal Kafle
cs.AI

papers.abstract

Les méthodes traditionnelles d'alignement pour les modèles de vision et de langage de grande taille (LVLMs) reposent principalement sur des données de préférence curatées par des humains. Les données de préférence générées par l'homme sont coûteuses ; les données de préférence générées par machine sont limitées en qualité ; et les données de préférence auto-supervisées introduisent souvent des hallucinations. Pour surmonter ces limitations, nous proposons un nouveau cadre d'apprentissage inspiré de l'apprentissage collaboratif entre humains, appelé Panel-of-Peers. Cette approche exploite un panel de LVLMs, chacun évaluant et apprenant à partir de leurs sorties collectives à travers un processus itératif d'auto-amélioration. En simulant un système d'évaluation par les pairs, nos modèles génèrent, évaluent et affinent leurs sorties en réponse à un ensemble de prompts curatés, imitant ainsi un environnement d'apprentissage en classe. Nous démontrons que cette méthodologie améliore les performances des modèles sans nécessiter de vastes ensembles de données étiquetées par des humains. Nos expériences montrent une amélioration significative sur plusieurs benchmarks, démontrant le potentiel des évaluations par les pairs comme alternative scalable à l'alignement auto-supervisé. Notamment, nous montrons que Panel-of-Peers augmente le score moyen sur quinze benchmarks de 48 % à 57 %.
English
Traditional alignment methods for Large Vision and Language Models (LVLMs) primarily rely on human-curated preference data. Human-generated preference data is costly; machine-generated preference data is limited in quality; and self-supervised preference data often introduces hallucinations. To overcome these limitations, we propose a novel Panel-of-Peers learning framework inspired by collaborative learning among humans. This approach leverages a panel of LVLMs, each evaluating and learning from their collective outputs through an iterative self-improvement process. By simulating a peer review system, our models generate, assess, and refine outputs in response to a curated set of prompts, mimicking a classroom learning environment. We demonstrate that this methodology enhances model performance without requiring extensive human-labeled datasets. Our experiments show significant improvement across multiple benchmarks, demonstrating the potential of peer evaluations as a scalable alternative to self-supervised alignment. Notably, we show that Panel-of-Peers increases the average score on fifteen benchmarks from 48% to 57%
PDF21September 3, 2025