Reka Core, Flash, Edge: 강력한 멀티모달 언어 모델 시리즈Reka Core, Flash, and Edge: A Series of Powerful Multimodal Language
Models
Reka는 Reka Core, Flash, Edge라는 강력한 멀티모달 언어 모델 시리즈를 처음부터 학습시켜 소개합니다. Reka 모델은 텍스트, 이미지, 비디오, 오디오 입력을 처리하고 이를 기반으로 추론할 수 있습니다. 이 기술 보고서는 이러한 모델 중 일부를 학습한 세부 사항을 논의하고 포괄적인 평가 결과를 제공합니다. Reka Edge와 Reka Flash는 최첨단 기술을 구현할 뿐만 아니라 훨씬 더 큰 모델들보다도 우수한 성능을 보여주며, 각각의 컴퓨팅 클래스에서 비례 이상의 가치를 제공합니다. 한편, 우리의 가장 강력하고 규모가 큰 모델인 Reka Core는 자동 평가와 블라인드 인간 평가 모두에서 최고의 프론티어 모델에 근접한 성능을 보입니다. 이미지 질의응답 벤치마크(예: MMMU, VQAv2)에서 Core는 GPT4-V와 경쟁력 있는 성능을 보입니다. 또한 멀티모달 채팅에서는 블라인드 제3자 인간 평가 설정에서 두 번째로 선호되는 모델로 평가되며, Claude 3 Opus와 같은 다른 모델들을 능가합니다. 텍스트 벤치마크에서 Core는 잘 정립된 벤치마크(예: MMLU, GSM8K)에서 다른 프론티어 모델들과 경쟁력 있는 성능을 보일 뿐만 아니라, 인간 평가에서는 GPT4-0613을 능가합니다. 비디오 질의응답(Perception-Test)에서는 Gemini Ultra보다 우수한 성능을 보입니다. 이 모델들은 http://chat.reka.ai에서 프로덕션으로 제공됩니다. 또한, 선별되지 않은 질적 예시들은 http://showcase.reka.ai에서 확인할 수 있습니다.