ChatPaper.aiChatPaper

Melhorando Modelos de Visão e Linguagem de Grande Escala Aprendendo com um Painel de Pares

Improving Large Vision and Language Models by Learning from a Panel of Peers

September 1, 2025
Autores: Jefferson Hernandez, Jing Shi, Simon Jenni, Vicente Ordonez, Kushal Kafle
cs.AI

Resumo

Os métodos tradicionais de alinhamento para Grandes Modelos de Visão e Linguagem (LVLMs) dependem principalmente de dados de preferência curados por humanos. Dados de preferência gerados por humanos são custosos; dados de preferência gerados por máquinas são limitados em qualidade; e dados de preferência auto-supervisionados frequentemente introduzem alucinações. Para superar essas limitações, propomos uma nova estrutura de aprendizado chamada Panel-of-Peers, inspirada na aprendizagem colaborativa entre humanos. Essa abordagem aproveita um painel de LVLMs, onde cada modelo avalia e aprende com as saídas coletivas por meio de um processo iterativo de autoaperfeiçoamento. Ao simular um sistema de revisão por pares, nossos modelos geram, avaliam e refinam saídas em resposta a um conjunto curado de prompts, imitando um ambiente de aprendizado em sala de aula. Demonstramos que essa metodologia melhora o desempenho do modelo sem exigir conjuntos de dados extensivamente rotulados por humanos. Nossos experimentos mostram melhorias significativas em múltiplos benchmarks, evidenciando o potencial das avaliações por pares como uma alternativa escalável ao alinhamento auto-supervisionado. Notavelmente, mostramos que o Panel-of-Peers aumenta a pontuação média em quinze benchmarks de 48% para 57%.
English
Traditional alignment methods for Large Vision and Language Models (LVLMs) primarily rely on human-curated preference data. Human-generated preference data is costly; machine-generated preference data is limited in quality; and self-supervised preference data often introduces hallucinations. To overcome these limitations, we propose a novel Panel-of-Peers learning framework inspired by collaborative learning among humans. This approach leverages a panel of LVLMs, each evaluating and learning from their collective outputs through an iterative self-improvement process. By simulating a peer review system, our models generate, assess, and refine outputs in response to a curated set of prompts, mimicking a classroom learning environment. We demonstrate that this methodology enhances model performance without requiring extensive human-labeled datasets. Our experiments show significant improvement across multiple benchmarks, demonstrating the potential of peer evaluations as a scalable alternative to self-supervised alignment. Notably, we show that Panel-of-Peers increases the average score on fifteen benchmarks from 48% to 57%
PDF21September 3, 2025