ChatPaper.aiChatPaper

Mejorando los modelos grandes de visión y lenguaje mediante el aprendizaje de un panel de pares

Improving Large Vision and Language Models by Learning from a Panel of Peers

September 1, 2025
Autores: Jefferson Hernandez, Jing Shi, Simon Jenni, Vicente Ordonez, Kushal Kafle
cs.AI

Resumen

Los métodos tradicionales de alineación para Modelos Grandes de Visión y Lenguaje (LVLMs, por sus siglas en inglés) dependen principalmente de datos de preferencia curados por humanos. Los datos de preferencia generados por humanos son costosos; los datos de preferencia generados por máquinas tienen limitaciones en su calidad; y los datos de preferencia autosupervisados a menudo introducen alucinaciones. Para superar estas limitaciones, proponemos un novedoso marco de aprendizaje llamado Panel-of-Peers, inspirado en el aprendizaje colaborativo entre humanos. Este enfoque aprovecha un panel de LVLMs, donde cada uno evalúa y aprende de sus salidas colectivas a través de un proceso iterativo de automejora. Al simular un sistema de revisión por pares, nuestros modelos generan, evalúan y refinan salidas en respuesta a un conjunto de indicaciones curadas, imitando un entorno de aprendizaje en el aula. Demostramos que esta metodología mejora el rendimiento del modelo sin requerir conjuntos de datos extensamente etiquetados por humanos. Nuestros experimentos muestran mejoras significativas en múltiples benchmarks, evidenciando el potencial de las evaluaciones entre pares como una alternativa escalable a la alineación autosupervisada. En particular, mostramos que Panel-of-Peers aumenta la puntuación promedio en quince benchmarks del 48% al 57%.
English
Traditional alignment methods for Large Vision and Language Models (LVLMs) primarily rely on human-curated preference data. Human-generated preference data is costly; machine-generated preference data is limited in quality; and self-supervised preference data often introduces hallucinations. To overcome these limitations, we propose a novel Panel-of-Peers learning framework inspired by collaborative learning among humans. This approach leverages a panel of LVLMs, each evaluating and learning from their collective outputs through an iterative self-improvement process. By simulating a peer review system, our models generate, assess, and refine outputs in response to a curated set of prompts, mimicking a classroom learning environment. We demonstrate that this methodology enhances model performance without requiring extensive human-labeled datasets. Our experiments show significant improvement across multiple benchmarks, demonstrating the potential of peer evaluations as a scalable alternative to self-supervised alignment. Notably, we show that Panel-of-Peers increases the average score on fifteen benchmarks from 48% to 57%
PDF21September 3, 2025