ChatPaper.aiChatPaper

大規模視覚と言語モデルの改善:ピアパネルからの学習によるアプローチ

Improving Large Vision and Language Models by Learning from a Panel of Peers

September 1, 2025
著者: Jefferson Hernandez, Jing Shi, Simon Jenni, Vicente Ordonez, Kushal Kafle
cs.AI

要旨

大規模視覚言語モデル(LVLM)の従来のアライメント手法は、主に人間が選別した嗜好データに依存しています。人間が生成する嗜好データはコストがかかり、機械が生成する嗜好データは品質に限界があり、自己教師ありの嗜好データはしばしば幻覚を引き起こします。これらの制約を克服するため、我々は人間の協同学習に着想を得た新たな「パネル・オブ・ピアーズ」学習フレームワークを提案します。このアプローチでは、複数のLVLMからなるパネルを活用し、各モデルが集団的な出力を評価し、反復的な自己改善プロセスを通じて学習します。ピアレビューシステムを模倣することで、我々のモデルは選別されたプロンプトに対して出力を生成、評価、洗練し、教室での学習環境を再現します。この方法論が、大規模な人間によるラベル付けデータセットを必要とせずにモデルの性能を向上させることを実証します。実験結果は、複数のベンチマークで顕著な改善を示し、自己教師ありアライメントに対するスケーラブルな代替手段としてのピア評価の可能性を明らかにします。特に、パネル・オブ・ピアーズが15のベンチマークにおける平均スコアを48%から57%に向上させたことを示します。
English
Traditional alignment methods for Large Vision and Language Models (LVLMs) primarily rely on human-curated preference data. Human-generated preference data is costly; machine-generated preference data is limited in quality; and self-supervised preference data often introduces hallucinations. To overcome these limitations, we propose a novel Panel-of-Peers learning framework inspired by collaborative learning among humans. This approach leverages a panel of LVLMs, each evaluating and learning from their collective outputs through an iterative self-improvement process. By simulating a peer review system, our models generate, assess, and refine outputs in response to a curated set of prompts, mimicking a classroom learning environment. We demonstrate that this methodology enhances model performance without requiring extensive human-labeled datasets. Our experiments show significant improvement across multiple benchmarks, demonstrating the potential of peer evaluations as a scalable alternative to self-supervised alignment. Notably, we show that Panel-of-Peers increases the average score on fifteen benchmarks from 48% to 57%
PDF21September 3, 2025