Reka Core, Flash e Edge: Una Serie di Modelli Linguistici Multimodali Potenti
Reka Core, Flash, and Edge: A Series of Powerful Multimodal Language Models
April 18, 2024
Autori: Aitor Ormazabal, Che Zheng, Cyprien de Masson d'Autume, Dani Yogatama, Deyu Fu, Donovan Ong, Eric Chen, Eugenie Lamprecht, Hai Pham, Isaac Ong, Kaloyan Aleksiev, Lei Li, Matthew Henderson, Max Bain, Mikel Artetxe, Nishant Relan, Piotr Padlewski, Qi Liu, Ren Chen, Samuel Phua, Yazheng Yang, Yi Tay, Yuqi Wang, Zhongkai Zhu, Zhihui Xie
cs.AI
Abstract
Presentiamo Reka Core, Flash e Edge, una serie di potenti modelli linguistici multimodali addestrati da zero da Reka. I modelli Reka sono in grado di elaborare e ragionare su input di testo, immagini, video e audio. Questo rapporto tecnico discute i dettagli dell'addestramento di alcuni di questi modelli e fornisce risultati di valutazione completi. Dimostriamo che Reka Edge e Reka Flash non solo sono all'avanguardia, ma superano anche molti modelli molto più grandi, offrendo un valore sproporzionato rispetto alla loro classe di calcolo. Nel frattempo, il nostro modello più capace e più grande, Reka Core, si avvicina ai migliori modelli di frontiera sia nelle valutazioni automatiche che nelle valutazioni umane in cieco. Sui benchmark di risposta alle domande basate su immagini (ad esempio MMMU, VQAv2), Core si comporta in modo competitivo rispetto a GPT4-V. Nel frattempo, nella chat multimodale, Core si classifica come il secondo modello più preferito in una configurazione di valutazione umana in cieco da parte di terzi, superando altri modelli come Claude 3 Opus. Sui benchmark di testo, Core non solo si comporta in modo competitivo rispetto ad altri modelli di frontiera su una serie di benchmark ben consolidati (ad esempio MMLU, GSM8K), ma supera anche GPT4-0613 nella valutazione umana. Nella risposta alle domande basate su video (Perception-Test), Core supera Gemini Ultra. I modelli sono disponibili in produzione su http://chat.reka.ai. Una vetrina di esempi qualitativi non selezionati in modo arbitrario è disponibile anche su http://showcase.reka.ai.
English
We introduce Reka Core, Flash, and Edge, a series of powerful multimodal
language models trained from scratch by Reka. Reka models are able to process
and reason with text, images, video, and audio inputs. This technical report
discusses details of training some of these models and provides comprehensive
evaluation results. We show that Reka Edge and Reka Flash are not only
state-of-the-art but also outperform many much larger models, delivering
outsized values for their respective compute class. Meanwhile, our most capable
and largest model, Reka Core, approaches the best frontier models on both
automatic evaluations and blind human evaluations. On image question answering
benchmarks (e.g. MMMU, VQAv2), Core performs competitively to GPT4-V.
Meanwhile, on multimodal chat, Core ranks as the second most preferred model
under a blind third-party human evaluation setup, outperforming other models
such as Claude 3 Opus. On text benchmarks, Core not only performs competitively
to other frontier models on a set of well-established benchmarks (e.g. MMLU,
GSM8K) but also outperforms GPT4-0613 on human evaluation. On video question
answering (Perception-Test), Core outperforms Gemini Ultra. Models are shipped
in production at http://chat.reka.ai . A showcase of non cherry picked
qualitative examples can also be found at http://showcase.reka.ai .