Expandiendo los Límites de Rendimiento de Modelos Multimodales de Código Abierto con Escalado de Modelo, Datos y Tiempo de Prueba.Expanding Performance Boundaries of Open-Source Multimodal Models with
Model, Data, and Test-Time Scaling
Presentamos InternVL 2.5, una serie avanzada de modelos de lenguaje grande multimodales (MLLM) que se basa en InternVL 2.0, manteniendo su arquitectura de modelo central e introduciendo mejoras significativas en estrategias de entrenamiento y prueba, así como en la calidad de los datos. En este trabajo, exploramos la relación entre la escalabilidad del modelo y el rendimiento, investigando sistemáticamente las tendencias de rendimiento en codificadores de visión, modelos de lenguaje, tamaños de conjuntos de datos y configuraciones de tiempo de prueba. A través de evaluaciones exhaustivas en una amplia gama de pruebas, que incluyen razonamiento multidisciplinario, comprensión de documentos, comprensión de múltiples imágenes/videos, comprensión del mundo real, detección de alucinaciones multimodales, anclaje visual, capacidades multilingües y procesamiento de lenguaje puro, InternVL 2.5 muestra un rendimiento competitivo, rivalizando con modelos comerciales líderes como GPT-4o y Claude-3.5-Sonnet. Destacadamente, nuestro modelo es el primer MLLM de código abierto en superar el 70% en la prueba MMMU, logrando una mejora de 3.7 puntos a través del razonamiento Chain-of-Thought (CoT) y mostrando un fuerte potencial para la escalabilidad en tiempo de prueba. Esperamos que este modelo contribuya a la comunidad de código abierto estableciendo nuevos estándares para el desarrollo y la aplicación de sistemas de IA multimodales. Para ver una demostración de HuggingFace, visite https://huggingface.co/spaces/OpenGVLab/InternVL