Insegnare la Distanza Metrica ai Modelli Fondazionali Multimodali Autoregressivi
Teaching Metric Distance to Autoregressive Multimodal Foundational Models
March 4, 2025
Autori: Jiwan Chung, Saejin Kim, Yongrae Jo, Jaewoo Park, Dongjun Min, Youngjae Yu
cs.AI
Abstract
Man mano che i grandi modelli linguistici si espandono oltre il linguaggio naturale verso domini come la matematica, la comprensione multimodale e gli agenti incarnati, i token riflettono sempre più relazioni metriche piuttosto che un significato puramente linguistico. Introduciamo DIST2Loss, un framework consapevole delle distanze progettato per addestrare modelli discreti autoregressivi sfruttando relazioni di distanza predefinite tra i token di output. Al suo nucleo, DIST2Loss trasforma distribuzioni continue della famiglia esponenziale derivate da metriche di distanza intrinseche in obiettivi di ottimizzazione discreti e categorici compatibili con le architetture dei modelli. Questo approccio consente ai modelli di apprendere e preservare relazioni di distanza significative durante la generazione dei token, mantenendo al contempo la compatibilità con le architetture esistenti. Le valutazioni empiriche mostrano miglioramenti consistenti delle prestazioni in diverse applicazioni multimodali, tra cui il grounding visivo, la manipolazione robotica, la modellazione generativa di ricompense e la generazione di immagini utilizzando caratteristiche quantizzate vettorialmente. Questi miglioramenti sono particolarmente evidenti nei casi di dati di addestramento limitati, evidenziando l'efficacia di DIST2Loss in contesti con risorse limitate.
English
As large language models expand beyond natural language to domains such as
mathematics, multimodal understanding, and embodied agents, tokens increasingly
reflect metric relationships rather than purely linguistic meaning. We
introduce DIST2Loss, a distance-aware framework designed to train
autoregressive discrete models by leveraging predefined distance relationships
among output tokens. At its core, DIST2Loss transforms continuous exponential
family distributions derived from inherent distance metrics into discrete,
categorical optimization targets compatible with the models' architectures.
This approach enables the models to learn and preserve meaningful distance
relationships during token generation while maintaining compatibility with
existing architectures. Empirical evaluations show consistent performance gains
in diverse multimodal applications, including visual grounding, robotic
manipulation, generative reward modeling, and image generation using
vector-quantized features. These improvements are pronounced in cases of
limited training data, highlighting DIST2Loss's effectiveness in
resource-constrained settings.Summary
AI-Generated Summary