ChatPaper.aiChatPaper

Reka Core, Flash e Edge: Uma Série de Modelos de Linguagem Multimodais Poderosos

Reka Core, Flash, and Edge: A Series of Powerful Multimodal Language Models

April 18, 2024
Autores: Aitor Ormazabal, Che Zheng, Cyprien de Masson d'Autume, Dani Yogatama, Deyu Fu, Donovan Ong, Eric Chen, Eugenie Lamprecht, Hai Pham, Isaac Ong, Kaloyan Aleksiev, Lei Li, Matthew Henderson, Max Bain, Mikel Artetxe, Nishant Relan, Piotr Padlewski, Qi Liu, Ren Chen, Samuel Phua, Yazheng Yang, Yi Tay, Yuqi Wang, Zhongkai Zhu, Zhihui Xie
cs.AI

Resumo

Apresentamos o Reka Core, Flash e Edge, uma série de modelos de linguagem multimodal poderosos treinados do zero pela Reka. Os modelos Reka são capazes de processar e raciocinar com entradas de texto, imagens, vídeo e áudio. Este relatório técnico discute detalhes do treinamento de alguns desses modelos e fornece resultados de avaliação abrangentes. Mostramos que o Reka Edge e o Reka Flash não apenas estão no estado da arte, mas também superam muitos modelos muito maiores, oferecendo valores excepcionais para suas respectivas classes de computação. Enquanto isso, nosso modelo mais capaz e maior, o Reka Core, se aproxima dos melhores modelos de fronteira tanto em avaliações automáticas quanto em avaliações humanas cegas. Em benchmarks de resposta a perguntas sobre imagens (por exemplo, MMMU, VQAv2), o Core tem desempenho competitivo em relação ao GPT4-V. Enquanto isso, em chat multimodal, o Core é classificado como o segundo modelo mais preferido em uma configuração de avaliação humana cega por terceiros, superando outros modelos como o Claude 3 Opus. Em benchmarks de texto, o Core não apenas tem desempenho competitivo em relação a outros modelos de fronteira em um conjunto de benchmarks bem estabelecidos (por exemplo, MMLU, GSM8K), mas também supera o GPT4-0613 em avaliação humana. Em resposta a perguntas sobre vídeo (Perception-Test), o Core supera o Gemini Ultra. Os modelos estão disponíveis em produção em http://chat.reka.ai. Uma mostra de exemplos qualitativos não selecionados também pode ser encontrada em http://showcase.reka.ai.
English
We introduce Reka Core, Flash, and Edge, a series of powerful multimodal language models trained from scratch by Reka. Reka models are able to process and reason with text, images, video, and audio inputs. This technical report discusses details of training some of these models and provides comprehensive evaluation results. We show that Reka Edge and Reka Flash are not only state-of-the-art but also outperform many much larger models, delivering outsized values for their respective compute class. Meanwhile, our most capable and largest model, Reka Core, approaches the best frontier models on both automatic evaluations and blind human evaluations. On image question answering benchmarks (e.g. MMMU, VQAv2), Core performs competitively to GPT4-V. Meanwhile, on multimodal chat, Core ranks as the second most preferred model under a blind third-party human evaluation setup, outperforming other models such as Claude 3 Opus. On text benchmarks, Core not only performs competitively to other frontier models on a set of well-established benchmarks (e.g. MMLU, GSM8K) but also outperforms GPT4-0613 on human evaluation. On video question answering (Perception-Test), Core outperforms Gemini Ultra. Models are shipped in production at http://chat.reka.ai . A showcase of non cherry picked qualitative examples can also be found at http://showcase.reka.ai .
PDF391December 15, 2024