Informe Técnico Baichuan-OmniBaichuan-Omni Technical Report
Las destacadas capacidades multimodales y la experiencia interactiva de GPT-4o resaltan su papel crítico en aplicaciones prácticas, sin embargo, carece de un equivalente de código abierto de alto rendimiento. En este documento, presentamos Baichuan-Omni, el primer Modelo de Lenguaje Multimodal Grande (MLLM) de 7B de código abierto capaz de procesar y analizar simultáneamente modalidades de imagen, video, audio y texto, brindando una experiencia interactiva multimodal avanzada y un rendimiento sólido. Proponemos un esquema efectivo de entrenamiento multimodal que comienza con un modelo de 7B y avanza a través de dos etapas de alineación multimodal y ajuste fino de tareas múltiples en audio, imagen, video y texto. Este enfoque dota al modelo de lenguaje con la capacidad de manejar datos visuales y de audio de manera efectiva. Demostrando un sólido rendimiento en varios benchmarks omni-modales y multimodales, aspiramos a que esta contribución sirva como un punto de referencia competitivo para la comunidad de código abierto en el avance de la comprensión multimodal y la interacción en tiempo real.