Het verbeteren van grote visuele en taalmodellen door te leren van een panel van peers
Improving Large Vision and Language Models by Learning from a Panel of Peers
September 1, 2025
Auteurs: Jefferson Hernandez, Jing Shi, Simon Jenni, Vicente Ordonez, Kushal Kafle
cs.AI
Samenvatting
Traditionele uitlijningsmethoden voor Grote Visuele en Taalmodellen (LVLMs)
berusten voornamelijk op door mensen samengestelde voorkeursdata. Door mensen gegenereerde voorkeursdata
is kostbaar; door machines gegenereerde voorkeursdata is beperkt in kwaliteit; en
zelfgesuperviseerde voorkeursdata introduceert vaak hallucinaties. Om deze beperkingen
te overwinnen, stellen we een nieuw Panel-of-Peers-leerkader voor,
geïnspireerd door collaboratief leren tussen mensen. Deze aanpak maakt gebruik van een
panel van LVLMs, waarbij elk model de collectieve uitvoer evalueert en ervan leert
via een iteratief zelfverbeteringsproces. Door een peer review-systeem na te bootsen,
genereren, beoordelen en verfijnen onze modellen uitvoer in reactie op een
samengestelde set prompts, wat een klaslokaalleeromgeving nabootst. We
demonstreren dat deze methodologie de modelprestaties verbetert zonder uitgebreide
door mensen gelabelde datasets te vereisen. Onze experimenten tonen significante verbetering
op meerdere benchmarks, wat het potentieel van peerevaluaties aantoont als
een schaalbare alternatief voor zelfgesuperviseerde uitlijning. Opmerkelijk is dat we
aantonen dat Panel-of-Peers de gemiddelde score op vijftien benchmarks verhoogt van 48% naar
57%.
English
Traditional alignment methods for Large Vision and Language Models (LVLMs)
primarily rely on human-curated preference data. Human-generated preference
data is costly; machine-generated preference data is limited in quality; and
self-supervised preference data often introduces hallucinations. To overcome
these limitations, we propose a novel Panel-of-Peers learning framework
inspired by collaborative learning among humans. This approach leverages a
panel of LVLMs, each evaluating and learning from their collective outputs
through an iterative self-improvement process. By simulating a peer review
system, our models generate, assess, and refine outputs in response to a
curated set of prompts, mimicking a classroom learning environment. We
demonstrate that this methodology enhances model performance without requiring
extensive human-labeled datasets. Our experiments show significant improvement
across multiple benchmarks, demonstrating the potential of peer evaluations as
a scalable alternative to self-supervised alignment. Notably, we show that
Panel-of-Peers increases the average score on fifteen benchmarks from 48% to
57%