자기회귀적 멀티모달 기초 모델에 메트릭 거리 학습 적용하기
Teaching Metric Distance to Autoregressive Multimodal Foundational Models
March 4, 2025
저자: Jiwan Chung, Saejin Kim, Yongrae Jo, Jaewoo Park, Dongjun Min, Youngjae Yu
cs.AI
초록
대규모 언어 모델이 자연어를 넘어 수학, 멀티모달 이해, 구현된 에이전트와 같은 영역으로 확장됨에 따라, 토큰은 순수한 언어적 의미보다는 점점 더 미터법적 관계를 반영하게 되었습니다. 우리는 사전 정의된 출력 토큰 간의 거리 관계를 활용하여 자기회귀적 이산 모델을 훈련하기 위해 설계된 거리 인식 프레임워크인 DIST2Loss를 소개합니다. DIST2Loss의 핵심은 고유한 거리 메트릭에서 도출된 연속 지수족 분포를 모델 아키텍처와 호환되는 이산적 범주형 최적화 대상으로 변환하는 것입니다. 이 접근법은 모델이 토큰 생성 과정에서 의미 있는 거리 관계를 학습하고 보존할 수 있게 하면서도 기존 아키텍처와의 호환성을 유지합니다. 실험적 평가는 시각적 접지, 로봇 조작, 생성적 보상 모델링, 벡터 양자화된 특징을 사용한 이미지 생성 등 다양한 멀티모달 응용 분야에서 일관된 성능 향상을 보여줍니다. 이러한 개선은 특히 훈련 데이터가 제한된 경우에 두드러지며, DIST2Loss가 자원이 제한된 환경에서도 효과적임을 강조합니다.
English
As large language models expand beyond natural language to domains such as
mathematics, multimodal understanding, and embodied agents, tokens increasingly
reflect metric relationships rather than purely linguistic meaning. We
introduce DIST2Loss, a distance-aware framework designed to train
autoregressive discrete models by leveraging predefined distance relationships
among output tokens. At its core, DIST2Loss transforms continuous exponential
family distributions derived from inherent distance metrics into discrete,
categorical optimization targets compatible with the models' architectures.
This approach enables the models to learn and preserve meaningful distance
relationships during token generation while maintaining compatibility with
existing architectures. Empirical evaluations show consistent performance gains
in diverse multimodal applications, including visual grounding, robotic
manipulation, generative reward modeling, and image generation using
vector-quantized features. These improvements are pronounced in cases of
limited training data, highlighting DIST2Loss's effectiveness in
resource-constrained settings.Summary
AI-Generated Summary