Miglioramento dei grandi modelli di visione e linguaggio attraverso l'apprendimento da un panel di pari
Improving Large Vision and Language Models by Learning from a Panel of Peers
September 1, 2025
Autori: Jefferson Hernandez, Jing Shi, Simon Jenni, Vicente Ordonez, Kushal Kafle
cs.AI
Abstract
I metodi tradizionali di allineamento per i Modelli di Visione e Linguaggio di Grande Scala (LVLM) si basano principalmente su dati di preferenza curati da esseri umani. I dati di preferenza generati da esseri umani sono costosi; i dati di preferenza generati da macchine sono limitati in qualità; e i dati di preferenza auto-supervisionati spesso introducono allucinazioni. Per superare queste limitazioni, proponiamo un nuovo framework di apprendimento chiamato Panel-of-Peers, ispirato all'apprendimento collaborativo tra esseri umani. Questo approccio sfrutta un panel di LVLM, ciascuno dei quali valuta e apprende dai risultati collettivi attraverso un processo iterativo di auto-miglioramento. Simulando un sistema di revisione tra pari, i nostri modelli generano, valutano e affinano le risposte in reazione a un set curato di prompt, imitando un ambiente di apprendimento in classe. Dimostriamo che questa metodologia migliora le prestazioni del modello senza richiedere ampi dataset etichettati da esseri umani. I nostri esperimenti mostrano un miglioramento significativo su molteplici benchmark, dimostrando il potenziale delle valutazioni tra pari come alternativa scalabile all'allineamento auto-supervisionato. In particolare, mostriamo che Panel-of-Peers aumenta il punteggio medio su quindici benchmark dal 48% al 57%.
English
Traditional alignment methods for Large Vision and Language Models (LVLMs)
primarily rely on human-curated preference data. Human-generated preference
data is costly; machine-generated preference data is limited in quality; and
self-supervised preference data often introduces hallucinations. To overcome
these limitations, we propose a novel Panel-of-Peers learning framework
inspired by collaborative learning among humans. This approach leverages a
panel of LVLMs, each evaluating and learning from their collective outputs
through an iterative self-improvement process. By simulating a peer review
system, our models generate, assess, and refine outputs in response to a
curated set of prompts, mimicking a classroom learning environment. We
demonstrate that this methodology enhances model performance without requiring
extensive human-labeled datasets. Our experiments show significant improvement
across multiple benchmarks, demonstrating the potential of peer evaluations as
a scalable alternative to self-supervised alignment. Notably, we show that
Panel-of-Peers increases the average score on fifteen benchmarks from 48% to
57%