LLaVA-o1: 비전 언어 모델이 단계별로 추론하도록 함LLaVA-o1: Let Vision Language Models Reason Step-by-Step
대형 언어 모델은 추론 능력에서 상당한 발전을 보여주었으며, 특히 추론 시간 스케일링을 통해 이를 입증하였다. 이는 OpenAI의 o1과 같은 모델들로 설명되었다. 그러나 현재의 시각-언어 모델(VLMs)은 복잡한 시각 질문 응답 작업을 다룰 때 특히 체계적이고 구조화된 추론을 수행하는 데 어려움을 겪는다. 본 연구에서는 자율적인 다단계 추론을 수행하기 위해 설계된 혁신적인 VLM인 LLaVA-o1을 소개한다. 연상의 연쇄가 아닌 LLaVA-o1은 요약, 시각 해석, 논리적 추론 및 결론 생성의 순차적 단계에 독립적으로 참여한다. 이러한 구조화된 접근은 LLaVA-o1이 추론 집중적 작업에서 정밀도를 향상시키도록 한다. 이를 달성하기 위해 다양한 시각 질문 응답 소스에서 샘플을 통합하고 구조화된 추론 주석을 제공하는 LLaVA-o1-100k 데이터셋을 편성한다. 또한 추론 시간 단계별 빔 검색 방법을 제안하여 효과적인 추론 시간 스케일링을 가능하게 한다. 놀랍게도, 100k개의 훈련 샘플과 간단하면서 효과적인 추론 시간 스케일링 방법만으로 LLaVA-o1은 다양한 다중 모달 추론 벤치마크에서 기본 모델을 8.9% 능가할 뿐만 아니라 Gemini-1.5-pro, GPT-4o-mini, Llama-3.2-90B-Vision-Instruct와 같은 더 크고 심지어 폐쇄 소스 모델의 성능을 능가한다.