Verbesserung großer Vision- und Sprachmodelle durch Lernen von einer Gruppe von Peers
Improving Large Vision and Language Models by Learning from a Panel of Peers
September 1, 2025
papers.authors: Jefferson Hernandez, Jing Shi, Simon Jenni, Vicente Ordonez, Kushal Kafle
cs.AI
papers.abstract
Traditionelle Ausrichtungsmethoden für große visuelle und sprachliche Modelle (Large Vision and Language Models, LVLMs) stützen sich hauptsächlich auf von Menschen kuratierte Präferenzdaten. Von Menschen generierte Präferenzdaten sind kostspielig; maschinell erzeugte Präferenzdaten sind in ihrer Qualität begrenzt; und selbstüberwachte Präferenzdaten führen oft zu Halluzinationen. Um diese Einschränkungen zu überwinden, schlagen wir ein neuartiges Panel-of-Peers-Lernframework vor, das von der kollaborativen Lernweise unter Menschen inspiriert ist. Dieser Ansatz nutzt ein Panel von LVLMs, die jeweils ihre kollektiven Ausgaben bewerten und durch einen iterativen Selbstverbesserungsprozess voneinander lernen. Durch die Simulation eines Peer-Review-Systems generieren, bewerten und verfeinern unsere Modelle Ausgaben in Reaktion auf einen kuratierten Satz von Eingabeaufforderungen, wodurch eine lernfördernde Umgebung im Klassenzimmer nachgeahmt wird. Wir zeigen, dass diese Methodik die Modellleistung verbessert, ohne umfangreiche, von Menschen annotierte Datensätze zu benötigen. Unsere Experimente zeigen signifikante Verbesserungen über mehrere Benchmarks hinweg und demonstrieren das Potenzial von Peer-Evaluierungen als skalierbare Alternative zur selbstüberwachten Ausrichtung. Insbesondere zeigen wir, dass Panel-of-Peers die durchschnittliche Punktzahl auf fünfzehn Benchmarks von 48 % auf 57 % erhöht.
English
Traditional alignment methods for Large Vision and Language Models (LVLMs)
primarily rely on human-curated preference data. Human-generated preference
data is costly; machine-generated preference data is limited in quality; and
self-supervised preference data often introduces hallucinations. To overcome
these limitations, we propose a novel Panel-of-Peers learning framework
inspired by collaborative learning among humans. This approach leverages a
panel of LVLMs, each evaluating and learning from their collective outputs
through an iterative self-improvement process. By simulating a peer review
system, our models generate, assess, and refine outputs in response to a
curated set of prompts, mimicking a classroom learning environment. We
demonstrate that this methodology enhances model performance without requiring
extensive human-labeled datasets. Our experiments show significant improvement
across multiple benchmarks, demonstrating the potential of peer evaluations as
a scalable alternative to self-supervised alignment. Notably, we show that
Panel-of-Peers increases the average score on fifteen benchmarks from 48% to
57%