번역이 포함된 일일 선별된 AI 연구 논문
Reka는 Reka Core, Flash, Edge라는 강력한 멀티모달 언어 모델 시리즈를 처음부터 학습시켜 소개합니다. Reka 모델은 텍스트, 이미지, 비디오, 오디오 입력을 처리하고 이를 기반으로 추론할 수 있습니다. 이 기술 보고서는 이러한 모델 중 일부를 학습한 세부 사항을 논의하고 포괄적인 평가 결과를 제공합니다. Reka Edge와 Reka Flash는 최첨단 기술을 구현할 뿐만 아니라 훨씬 더 큰 모델들보다도 우수한 성능을 보여주며, 각각의 컴퓨팅 클래스에서 비례 이상의 가치를 제공합니다. 한편, 우리의 가장 강력하고 규모가 큰 모델인 Reka Core는 자동 평가와 블라인드 인간 평가 모두에서 최고의 프론티어 모델에 근접한 성능을 보입니다. 이미지 질의응답 벤치마크(예: MMMU, VQAv2)에서 Core는 GPT4-V와 경쟁력 있는 성능을 보입니다. 또한 멀티모달 채팅에서는 블라인드 제3자 인간 평가 설정에서 두 번째로 선호되는 모델로 평가되며, Claude 3 Opus와 같은 다른 모델들을 능가합니다. 텍스트 벤치마크에서 Core는 잘 정립된 벤치마크(예: MMLU, GSM8K)에서 다른 프론티어 모델들과 경쟁력 있는 성능을 보일 뿐만 아니라, 인간 평가에서는 GPT4-0613을 능가합니다. 비디오 질의응답(Perception-Test)에서는 Gemini Ultra보다 우수한 성능을 보입니다. 이 모델들은 http://chat.reka.ai에서 프로덕션으로 제공됩니다. 또한, 선별되지 않은 질적 예시들은 http://showcase.reka.ai에서 확인할 수 있습니다.
우리는 기존 평가에서 다루지 않았던 핵심 시각 인식 능력에 초점을 맞춘 새로운 멀티모달 언어 모델(LLM) 벤치마크인 Blink을 소개한다. Blink의 대부분의 과제는 인간이 "눈 깜짝할 사이에" 해결할 수 있는 것들(예: 상대적 깊이 추정, 시각적 대응, 포렌식 탐지, 다중 시점 추론 등)이다. 그러나 이러한 인식이 요구되는 과제들은 자연어를 매개로 하기 어렵기 때문에 현재의 멀티모달 LLM들에게 상당한 도전 과제로 작용한다. Blink는 14개의 고전적인 컴퓨터 비전 과제를 3,807개의 객관식 문제로 재구성하고, 단일 또는 다중 이미지와 시각적 프롬프트를 함께 제공한다. 인간은 평균 95.70%의 정확도를 보이는 반면, Blink는 기존 멀티모달 LLM들에게 놀라울 정도로 어려운 과제로 나타났다: 가장 성능이 뛰어난 GPT-4V와 Gemini조차 각각 51.26%와 45.72%의 정확도를 기록하며, 이는 무작위 추측보다 단 13.17%와 7.63% 높은 수준에 불과하다. 이는 최근 멀티모달 LLM들이 아직 그러한 인식 능력을 "발현"하지 못했음을 시사한다. 우리의 분석은 또한 전문적인 컴퓨터 비전 모델이 이러한 문제를 훨씬 더 잘 해결할 수 있음을 강조하며, 이는 향후 개선을 위한 잠재적 경로를 제시한다. 우리는 Blink가 멀티모달 LLM이 인간 수준의 시각 인식에 도달할 수 있도록 커뮤니티를 자극할 것이라고 믿는다.
클립아트는 미리 제작된 그래픽 아트 형태로, 시각적 콘텐츠를 쉽고 효율적으로 표현할 수 있는 방법을 제공합니다. 정적인 클립아트 이미지를 동작 시퀀스로 변환하는 전통적인 워크플로우는 리깅, 키 애니메이션, 인비트윈과 같은 복잡한 단계를 포함하여 번거롭고 시간이 많이 소요됩니다. 최근 텍스트-투-비디오 생성 기술의 발전은 이러한 문제를 해결할 수 있는 큰 잠재력을 가지고 있습니다. 그러나 텍스트-투-비디오 생성 모델을 직접 적용할 경우, 클립아트 이미지의 시각적 정체성을 유지하거나 만화 스타일의 동작을 생성하는 데 어려움을 겪어 만족스러운 애니메이션 결과를 얻기 어렵습니다. 본 논문에서는 텍스트-투-비디오 사전 지식을 활용하여 정적인 클립아트 이미지를 고품질의 동작 시퀀스로 변환하는 AniClipart 시스템을 소개합니다. 만화 스타일의 부드러운 동작을 생성하기 위해, 먼저 클립아트 이미지의 키포인트 위에 베지어 곡선을 정의하여 동작 정규화를 수행합니다. 그런 다음, 사전 학습된 텍스트-투-비디오 확산 모델 내에 내재된 자연스러운 동작 지식을 인코딩한 Video Score Distillation Sampling (VSDS) 손실을 최적화하여 키포인트의 동작 궤적을 제공된 텍스트 프롬프트와 정렬합니다. 미분 가능한 As-Rigid-As-Possible 형태 변형 알고리즘을 통해, 변형 강성을 유지하면서도 우리의 방법은 종단 간 최적화가 가능합니다. 실험 결과는 제안된 AniClipart가 텍스트-비디오 정렬, 시각적 정체성 보존, 동작 일관성 측면에서 기존의 이미지-투-비디오 생성 모델을 지속적으로 능가함을 보여줍니다. 또한, AniClipart의 다양성을 입증하기 위해, 토폴로지 변화를 허용하는 레이어드 애니메이션과 같은 더 넓은 범위의 애니메이션 형식을 생성하도록 적용한 사례를 소개합니다.
다양한 다운스트림 작업을 위해 사전 학습된 대형 언어 모델(LLM)을 명령어 파인튜닝하는 것은 놀라운 성공을 거두며 학계와 실무자들의 관심을 끌고 있습니다. 이러한 파인튜닝된 LLM이 인간의 선호도와 일치하도록 보장하기 위해 RLHF(Reinforcement Learning from Human Feedback)와 DPO(Direct Preference Optimization)와 같은 기술이 등장했습니다. 동시에, 더 적은 매개변수를 가진 모델에 대한 관심도 증가하고 있습니다. 본 연구에서는 OpenLLaMA 3Bv2를 기본 모델로 사용하여 OpenBezoar 모델군을 파인튜닝하는 데 사용된 방법을 설명합니다. 이 방법에서는 먼저 Falcon-40B 모델의 오픈 소스이며 상업적 제약이 없는 명령어 파인튜닝 변종을 사용하여 세 가지 방식(LaMini-LM, WizardLM/Evol-Instruct(데이터셋으로 databricks-dolly-15k 사용), Orca(데이터셋으로 Flan Collection 사용))에 기반한 합성 명령어 파인튜닝 데이터를 생성한 후, GPT-4를 인간 대리자로 사용하여 이 생성물을 필터링합니다. 그런 다음 각 방식에 대해 비용 효율적인 QLoRA 기반의 지도 파인튜닝을 순차적으로 수행합니다. 결과로 얻은 체크포인트는 DPO 손실을 적용하여 최종 체크포인트를 얻기 전에 분포 이동을 최소화하기 위해 HH-RLHF 데이터셋의 일부로 추가 파인튜닝됩니다. 평가는 LM Eval Harness 작업/메트릭과 Claude 2.1을 사용한 "LLM-as-a-judge" 프레임워크를 통해 MT-Bench에서 수행되었으며, 최종 체크포인트인 "OpenBezoar-HH-RLHF-DPO"는 3B 매개변수 규모의 많은 모델을 능가하는 성능을 보여주었고, Huggingface Open LLM 리더보드의 한 카테고리에서 최고 모델을 능가하기도 했습니다. 우리는 "OpenBezoar-SFT", "OpenBezoar-HH-RLHF-SFT", "OpenBezoar-HH-RLHF-DPO" 체크포인트와 생성된 데이터셋을 HuggingFace(https://huggingface.co/collections/SurgeGlobal/open-bezoar-6620a24923e12127e9e2b9cc)에 공개하고, 코드베이스는 Bitbucket(https://bitbucket.org/paladinanalytics/workspace/projects/OP)에서 확인할 수 있습니다.