ChatPaper.aiChatPaper

Reka Core, Flash, Edge: 강력한 멀티모달 언어 모델 시리즈

Reka Core, Flash, and Edge: A Series of Powerful Multimodal Language Models

April 18, 2024
저자: Aitor Ormazabal, Che Zheng, Cyprien de Masson d'Autume, Dani Yogatama, Deyu Fu, Donovan Ong, Eric Chen, Eugenie Lamprecht, Hai Pham, Isaac Ong, Kaloyan Aleksiev, Lei Li, Matthew Henderson, Max Bain, Mikel Artetxe, Nishant Relan, Piotr Padlewski, Qi Liu, Ren Chen, Samuel Phua, Yazheng Yang, Yi Tay, Yuqi Wang, Zhongkai Zhu, Zhihui Xie
cs.AI

초록

Reka는 Reka Core, Flash, Edge라는 강력한 멀티모달 언어 모델 시리즈를 처음부터 학습시켜 소개합니다. Reka 모델은 텍스트, 이미지, 비디오, 오디오 입력을 처리하고 이를 기반으로 추론할 수 있습니다. 이 기술 보고서는 이러한 모델 중 일부를 학습한 세부 사항을 논의하고 포괄적인 평가 결과를 제공합니다. Reka Edge와 Reka Flash는 최첨단 기술을 구현할 뿐만 아니라 훨씬 더 큰 모델들보다도 우수한 성능을 보여주며, 각각의 컴퓨팅 클래스에서 비례 이상의 가치를 제공합니다. 한편, 우리의 가장 강력하고 규모가 큰 모델인 Reka Core는 자동 평가와 블라인드 인간 평가 모두에서 최고의 프론티어 모델에 근접한 성능을 보입니다. 이미지 질의응답 벤치마크(예: MMMU, VQAv2)에서 Core는 GPT4-V와 경쟁력 있는 성능을 보입니다. 또한 멀티모달 채팅에서는 블라인드 제3자 인간 평가 설정에서 두 번째로 선호되는 모델로 평가되며, Claude 3 Opus와 같은 다른 모델들을 능가합니다. 텍스트 벤치마크에서 Core는 잘 정립된 벤치마크(예: MMLU, GSM8K)에서 다른 프론티어 모델들과 경쟁력 있는 성능을 보일 뿐만 아니라, 인간 평가에서는 GPT4-0613을 능가합니다. 비디오 질의응답(Perception-Test)에서는 Gemini Ultra보다 우수한 성능을 보입니다. 이 모델들은 http://chat.reka.ai에서 프로덕션으로 제공됩니다. 또한, 선별되지 않은 질적 예시들은 http://showcase.reka.ai에서 확인할 수 있습니다.
English
We introduce Reka Core, Flash, and Edge, a series of powerful multimodal language models trained from scratch by Reka. Reka models are able to process and reason with text, images, video, and audio inputs. This technical report discusses details of training some of these models and provides comprehensive evaluation results. We show that Reka Edge and Reka Flash are not only state-of-the-art but also outperform many much larger models, delivering outsized values for their respective compute class. Meanwhile, our most capable and largest model, Reka Core, approaches the best frontier models on both automatic evaluations and blind human evaluations. On image question answering benchmarks (e.g. MMMU, VQAv2), Core performs competitively to GPT4-V. Meanwhile, on multimodal chat, Core ranks as the second most preferred model under a blind third-party human evaluation setup, outperforming other models such as Claude 3 Opus. On text benchmarks, Core not only performs competitively to other frontier models on a set of well-established benchmarks (e.g. MMLU, GSM8K) but also outperforms GPT4-0613 on human evaluation. On video question answering (Perception-Test), Core outperforms Gemini Ultra. Models are shipped in production at http://chat.reka.ai . A showcase of non cherry picked qualitative examples can also be found at http://showcase.reka.ai .

Summary

AI-Generated Summary

PDF401December 15, 2024