Verbesserung großer Vision- und Sprachmodelle durch Lernen von einer Gruppe von Peers

papers.abstract

Traditionelle Ausrichtungsmethoden für große visuelle und sprachliche Modelle (Large Vision and Language Models, LVLMs) stützen sich hauptsächlich auf von Menschen kuratierte Präferenzdaten. Von Menschen generierte Präferenzdaten sind kostspielig; maschinell erzeugte Präferenzdaten sind in ihrer Qualität begrenzt; und selbstüberwachte Präferenzdaten führen oft zu Halluzinationen. Um diese Einschränkungen zu überwinden, schlagen wir ein neuartiges Panel-of-Peers-Lernframework vor, das von der kollaborativen Lernweise unter Menschen inspiriert ist. Dieser Ansatz nutzt ein Panel von LVLMs, die jeweils ihre kollektiven Ausgaben bewerten und durch einen iterativen Selbstverbesserungsprozess voneinander lernen. Durch die Simulation eines Peer-Review-Systems generieren, bewerten und verfeinern unsere Modelle Ausgaben in Reaktion auf einen kuratierten Satz von Eingabeaufforderungen, wodurch eine lernfördernde Umgebung im Klassenzimmer nachgeahmt wird. Wir zeigen, dass diese Methodik die Modellleistung verbessert, ohne umfangreiche, von Menschen annotierte Datensätze zu benötigen. Unsere Experimente zeigen signifikante Verbesserungen über mehrere Benchmarks hinweg und demonstrieren das Potenzial von Peer-Evaluierungen als skalierbare Alternative zur selbstüberwachten Ausrichtung. Insbesondere zeigen wir, dass Panel-of-Peers die durchschnittliche Punktzahl auf fünfzehn Benchmarks von 48 % auf 57 % erhöht.

English

Traditional alignment methods for Large Vision and Language Models (LVLMs) primarily rely on human-curated preference data. Human-generated preference data is costly; machine-generated preference data is limited in quality; and self-supervised preference data often introduces hallucinations. To overcome these limitations, we propose a novel Panel-of-Peers learning framework inspired by collaborative learning among humans. This approach leverages a panel of LVLMs, each evaluating and learning from their collective outputs through an iterative self-improvement process. By simulating a peer review system, our models generate, assess, and refine outputs in response to a curated set of prompts, mimicking a classroom learning environment. We demonstrate that this methodology enhances model performance without requiring extensive human-labeled datasets. Our experiments show significant improvement across multiple benchmarks, demonstrating the potential of peer evaluations as a scalable alternative to self-supervised alignment. Notably, we show that Panel-of-Peers increases the average score on fifteen benchmarks from 48% to 57%

Verbesserung großer Vision- und Sprachmodelle durch Lernen von einer Gruppe von Peers

Improving Large Vision and Language Models by Learning from a Panel of Peers

papers.abstract

Support