LLaVA-o1: Permitir a los Modelos de Lenguaje Visual Razonar Paso a PasoLLaVA-o1: Let Vision Language Models Reason Step-by-Step
Los grandes modelos de lenguaje han demostrado avances sustanciales en capacidades de razonamiento, especialmente a través de la escalabilidad en tiempo de inferencia, como se ilustra en modelos como el o1 de OpenAI. Sin embargo, los Modelos Visión-Lenguaje (VLMs) actuales a menudo tienen dificultades para realizar razonamientos sistemáticos y estructurados, especialmente al enfrentarse a tareas complejas de pregunta-respuesta visual. En este trabajo, presentamos LLaVA-o1, un nuevo VLM diseñado para llevar a cabo razonamientos autónomos en múltiples etapas. A diferencia de la activación de cadenas de pensamiento, LLaVA-o1 se involucra de forma independiente en etapas secuenciales de resumen, interpretación visual, razonamiento lógico y generación de conclusiones. Este enfoque estructurado permite a LLaVA-o1 lograr mejoras significativas en precisión en tareas intensivas en razonamiento. Para lograr esto, compilamos el conjunto de datos LLaVA-o1-100k, integrando muestras de diversas fuentes de preguntas y respuestas visuales y proporcionando anotaciones de razonamiento estructurado. Además, proponemos un método de búsqueda de haz a nivel de etapa en tiempo de inferencia, que permite una escalabilidad efectiva en tiempo de inferencia. Notablemente, con solo 100k muestras de entrenamiento y un método de escalado en tiempo de inferencia simple pero efectivo, LLaVA-o1 no solo supera a su modelo base en un 8.9% en una amplia gama de pruebas de razonamiento multimodal, sino que también supera el rendimiento de modelos más grandes e incluso de código cerrado, como Gemini-1.5-pro, GPT-4o-mini y Llama-3.2-90B-Vision-Instruct.