ChatPaper.aiChatPaper

다중모드 대형 언어 모델의 자기 개선: 연구 동향 분석

Self-Improvement in Multimodal Large Language Models: A Survey

October 3, 2025
저자: Shijian Deng, Kai Wang, Tianyu Yang, Harsh Singh, Yapeng Tian
cs.AI

초록

대규모 언어 모델(LLM)의 자기 개선 분야에서의 최근 발전은 특히 인간의 노력 측면에서 비용을 크게 증가시키지 않으면서 모델의 능력을 효율적으로 향상시켰다. 이 분야는 아직 비교적 초기 단계이지만, 다중 모달 영역으로의 확장은 다양한 데이터 소스를 활용하고 보다 일반적인 자기 개선 모델을 개발할 수 있는 엄청난 잠재력을 가지고 있다. 본 조사는 다중 모달 대규모 언어 모델(MLLM)에서의 자기 개선에 대한 포괄적인 개요를 제공하는 최초의 연구이다. 우리는 현재 문헌을 구조적으로 정리하고, MLLM의 자기 개선을 더욱 발전시키기 위해 1) 데이터 수집, 2) 데이터 조직화, 3) 모델 최적화라는 세 가지 관점에서 방법론을 논의한다. 또한 일반적으로 사용되는 평가 방법과 하위 응용 프로그램을 포함시켰다. 마지막으로, 해결되지 않은 과제와 향후 연구 방향을 제시하며 결론을 맺는다.
English
Recent advancements in self-improvement for Large Language Models (LLMs) have efficiently enhanced model capabilities without significantly increasing costs, particularly in terms of human effort. While this area is still relatively young, its extension to the multimodal domain holds immense potential for leveraging diverse data sources and developing more general self-improving models. This survey is the first to provide a comprehensive overview of self-improvement in Multimodal LLMs (MLLMs). We provide a structured overview of the current literature and discuss methods from three perspectives: 1) data collection, 2) data organization, and 3) model optimization, to facilitate the further development of self-improvement in MLLMs. We also include commonly used evaluations and downstream applications. Finally, we conclude by outlining open challenges and future research directions.
PDF176October 6, 2025