ChatPaper.aiChatPaper

모델이 스스로를 판단할 때: 다중 모달 추론을 위한 비지도 자기 진화

When Models Judge Themselves: Unsupervised Self-Evolution for Multimodal Reasoning

March 22, 2026
저자: Zhengxian Wu, Kai Shi, Chuanrui Zhang, Zirui Liao, Jun Yang, Ni Yang, Qiuying Peng, Luyuan Zhang, Hangrui Xu, Tianhuang Su, Zhenyu Yang, Haonan Lu, Haoqian Wang
cs.AI

초록

다중모달 대규모 언어 모델의 최근 발전으로 추론 과제에서 강력한 성능이 도출되었으나, 이러한 개선은 대부분 고품질 주석 데이터나 교사 모델 증류에 의존하며, 두 방법 모두 비용이 많이 들고 확장하기 어렵습니다. 이를 해결하기 위해 우리는 인간이 주석을 단 정답이나 외부 보상 모델을 사용하지 않고도 안정적인 성능 향상을 달성하는 무감독 자기 진화 훈련 프레임워크를 제안합니다. 각 입력에 대해 여러 추론 경로를 샘플링하고 그룹 내 구조를 공동으로 모델링합니다. 행위자의 자기 일관성 신호를 훈련 사전 정보로 활용하며, 서로 다른 품질의 경로를 지속적으로 재가중하기 위해 경계 지어진 판단 모듈 기반 조정을 도입합니다. 더 나아가 조정된 점수를 그룹 수준 분포로 모델링하고 절대적 점수를 각 그룹 내 상대적 이점으로 변환하여 보다 강력한 정책 업데이트를 가능하게 합니다. 레이블이 없는 데이터에 대한 그룹 상대 정책 최적화(GRPO)로 훈련된 우리의 방법은 5개의 수학적 추론 벤치마크에서 일관되게 추론 성능과 일반화 능력을 향상시켜, 자기 진화형 다중모달 모델로 가는 확장 가능한 경로를 제시합니다. 코드는 https://github.com/OPPO-Mente-Lab/LLM-Self-Judge에서 확인할 수 있습니다.
English
Recent progress in multimodal large language models has led to strong performance on reasoning tasks, but these improvements largely rely on high-quality annotated data or teacher-model distillation, both of which are costly and difficult to scale. To address this, we propose an unsupervised self-evolution training framework for multimodal reasoning that achieves stable performance improvements without using human-annotated answers or external reward models. For each input, we sample multiple reasoning trajectories and jointly model their within group structure. We use the Actor's self-consistency signal as a training prior, and introduce a bounded Judge based modulation to continuously reweight trajectories of different quality. We further model the modulated scores as a group level distribution and convert absolute scores into relative advantages within each group, enabling more robust policy updates. Trained with Group Relative Policy Optimization (GRPO) on unlabeled data, our method consistently improves reasoning performance and generalization on five mathematical reasoning benchmarks, offering a scalable path toward self-evolving multimodal models. The code are available at https://github.com/OPPO-Mente-Lab/LLM-Self-Judge.
PDF142March 27, 2026