Expandindo os Limites de Desempenho de Modelos Multimodais de Código Aberto com Escalonamento de Modelo, Dados e Tempo de TesteExpanding Performance Boundaries of Open-Source Multimodal Models with
Model, Data, and Test-Time Scaling
Apresentamos o InternVL 2.5, uma série avançada de modelos de linguagem grande multimodal (MLLM) que se baseia no InternVL 2.0, mantendo sua arquitetura de modelo central e introduzindo melhorias significativas em estratégias de treinamento e teste, bem como qualidade de dados. Neste trabalho, exploramos a relação entre o dimensionamento do modelo e o desempenho, investigando sistematicamente as tendências de desempenho em codificadores de visão, modelos de linguagem, tamanhos de conjuntos de dados e configurações de tempo de teste. Através de extensas avaliações em uma ampla gama de benchmarks, incluindo raciocínio multidisciplinar, compreensão de documentos, compreensão de múltiplas imagens/vídeos, compreensão do mundo real, detecção de alucinação multimodal, fundamentação visual, capacidades multilíngues e processamento de linguagem pura, o InternVL 2.5 apresenta desempenho competitivo, rivalizando com modelos comerciais líderes como o GPT-4o e o Claude-3.5-Sonnet. Notavelmente, nosso modelo é o primeiro MLLM de código aberto a superar 70% no benchmark MMMU, alcançando uma melhoria de 3,7 pontos por meio do raciocínio Chain-of-Thought (CoT) e demonstrando um forte potencial para o dimensionamento no tempo de teste. Esperamos que este modelo contribua para a comunidade de código aberto estabelecendo novos padrões para o desenvolvimento e aplicação de sistemas de IA multimodais. Para uma demonstração do HuggingFace, consulte https://huggingface.co/spaces/OpenGVLab/InternVL