ChatPaper.aiChatPaper

Insegnare la Distanza Metrica ai Modelli Fondazionali Multimodali Autoregressivi

Teaching Metric Distance to Autoregressive Multimodal Foundational Models

March 4, 2025
Autori: Jiwan Chung, Saejin Kim, Yongrae Jo, Jaewoo Park, Dongjun Min, Youngjae Yu
cs.AI

Abstract

Man mano che i grandi modelli linguistici si espandono oltre il linguaggio naturale verso domini come la matematica, la comprensione multimodale e gli agenti incarnati, i token riflettono sempre più relazioni metriche piuttosto che un significato puramente linguistico. Introduciamo DIST2Loss, un framework consapevole delle distanze progettato per addestrare modelli discreti autoregressivi sfruttando relazioni di distanza predefinite tra i token di output. Al suo nucleo, DIST2Loss trasforma distribuzioni continue della famiglia esponenziale derivate da metriche di distanza intrinseche in obiettivi di ottimizzazione discreti e categorici compatibili con le architetture dei modelli. Questo approccio consente ai modelli di apprendere e preservare relazioni di distanza significative durante la generazione dei token, mantenendo al contempo la compatibilità con le architetture esistenti. Le valutazioni empiriche mostrano miglioramenti consistenti delle prestazioni in diverse applicazioni multimodali, tra cui il grounding visivo, la manipolazione robotica, la modellazione generativa di ricompense e la generazione di immagini utilizzando caratteristiche quantizzate vettorialmente. Questi miglioramenti sono particolarmente evidenti nei casi di dati di addestramento limitati, evidenziando l'efficacia di DIST2Loss in contesti con risorse limitate.
English
As large language models expand beyond natural language to domains such as mathematics, multimodal understanding, and embodied agents, tokens increasingly reflect metric relationships rather than purely linguistic meaning. We introduce DIST2Loss, a distance-aware framework designed to train autoregressive discrete models by leveraging predefined distance relationships among output tokens. At its core, DIST2Loss transforms continuous exponential family distributions derived from inherent distance metrics into discrete, categorical optimization targets compatible with the models' architectures. This approach enables the models to learn and preserve meaningful distance relationships during token generation while maintaining compatibility with existing architectures. Empirical evaluations show consistent performance gains in diverse multimodal applications, including visual grounding, robotic manipulation, generative reward modeling, and image generation using vector-quantized features. These improvements are pronounced in cases of limited training data, highlighting DIST2Loss's effectiveness in resource-constrained settings.

Summary

AI-Generated Summary

PDF42March 5, 2025