ChatPaper.aiChatPaper

차세대 기초 멀티모달 대형 언어 모델을 위한 자기 개선 체계적 인지 능력 향상 방향

Towards Self-Improving Systematic Cognition for Next-Generation Foundation MLLMs

March 16, 2025
저자: Xiaoying Zhang, Da Peng, Yipeng Zhang, Zonghao Guo, Chengyue Wu, Chi Chen, Wei Ke, Helen Meng, Maosong Sun
cs.AI

초록

인상적인 성능에도 불구하고, 멀티모달 대형 언어 모델(MLLMs)은 세밀한 인지와 복잡한 추론에서 어려움을 겪고 있습니다. 현재 널리 사용되는 멀티모달 사전 학습 접근법은 추론 능력을 향상시키기 위한 사고의 연쇄(CoT) 데이터 수집 비용이 매우 높기 때문에 고품질 이미지 캡션을 활용한 인지 능력 강화에 초점을 맞추고 있습니다. 고급 MLLMs를 활용한 캡션 생성은 확장성을 높이지만, 그 결과물은 종종 포괄성과 정확성이 부족합니다. 본 논문에서는 자기 생성 데이터를 통한 멀티모달 사전 학습을 통해 체계적인 인지 능력을 강화함으로써 차세대 기반 MLLMs를 구축하기 위한 자기 학습 프레임워크인 Self-Improving cognition (SIcog)을 소개합니다. 구체적으로, 우리는 단계별 시각적 이해를 가능하게 하여 MLLM의 체계적인 인지 능력을 향상시키고 더 큰 포괄성과 정확성을 보장하는 Chain-of-Description 접근법을 제안합니다. 또한, 구조화된 CoT 추론 기법을 도입하여 MLLMs가 심층적인 멀티모달 추론을 통합할 수 있도록 합니다. 자기 개선된 인지를 갖춘 차세대 기반 MLLM을 구축하기 위해, SIcog은 먼저 최소한의 외부 주석을 사용하여 MLLM에 체계적인 인지와 추론 능력을 부여합니다. 이후 강화된 모델은 상세한 캡션과 CoT 추론 데이터를 생성하며, 이 데이터는 자기 일관성을 통해 추가로 정제됩니다. 이렇게 정제된 데이터는 궁극적으로 차세대 기반 모델을 개발하기 위한 멀티모달 사전 학습에 사용됩니다. 다양한 벤치마크에서 저해상도 및 고해상도 MLLMs에 대한 광범위한 실험을 통해, 단 213K의 자기 생성 사전 학습 샘플만으로 SIcog이 현존하는 사전 학습 접근법에 비해 벤치마크 선두 성능을 달성하며 인지 능력이 크게 향상된 차세대 기반 MLLMs를 생성한다는 것을 입증합니다.
English
Despite their impressive capabilities, Multimodal Large Language Models (MLLMs) face challenges with fine-grained perception and complex reasoning. Prevalent multimodal pre-training approaches focus on enhancing perception by training on high-quality image captions due to the extremely high cost of collecting chain-of-thought (CoT) reasoning data for improving reasoning. While leveraging advanced MLLMs for caption generation enhances scalability, the outputs often lack comprehensiveness and accuracy. In this paper, we introduce Self-Improving cognition (SIcog), a self-learning framework designed to construct next-generation foundation MLLMs by enhancing their systematic cognitive capabilities through multimodal pre-training with self-generated data. Specifically, we propose Chain-of-Description, an approach that improves an MLLM's systematic perception by enabling step-by-step visual understanding, ensuring greater comprehensiveness and accuracy. Additionally, we adopt a structured CoT reasoning technique to enable MLLMs to integrate in-depth multimodal reasoning. To construct a next-generation foundation MLLM with self-improved cognition, SIcog first equips an MLLM with systematic perception and reasoning abilities using minimal external annotations. The enhanced models then generate detailed captions and CoT reasoning data, which are further curated through self-consistency. This curated data is ultimately used for multimodal pre-training to develop next-generation foundation models. Extensive experiments on both low- and high-resolution MLLMs across diverse benchmarks demonstrate that, with merely 213K self-generated pre-training samples, SIcog produces next-generation foundation MLLMs with significantly improved cognition, achieving benchmark-leading performance compared to prevalent pre-training approaches.

Summary

AI-Generated Summary

PDF73March 19, 2025