Enseignement de la distance métrique aux modèles fondationnels multimodaux autorégressifs
Teaching Metric Distance to Autoregressive Multimodal Foundational Models
March 4, 2025
papers.authors: Jiwan Chung, Saejin Kim, Yongrae Jo, Jaewoo Park, Dongjun Min, Youngjae Yu
cs.AI
papers.abstract
Alors que les grands modèles de langage s'étendent au-delà du langage naturel à des domaines tels que les mathématiques, la compréhension multimodale et les agents incarnés, les tokens reflètent de plus en plus des relations métriques plutôt qu'un sens purement linguistique. Nous introduisons DIST2Loss, un cadre prenant en compte les distances, conçu pour entraîner des modèles discrets autorégressifs en exploitant les relations de distance prédéfinies entre les tokens de sortie. Au cœur de DIST2Loss se trouve la transformation des distributions continues de la famille exponentielle, dérivées des métriques de distance inhérentes, en cibles d'optimisation discrètes et catégorielles compatibles avec les architectures des modèles. Cette approche permet aux modèles d'apprendre et de préserver des relations de distance significatives lors de la génération de tokens tout en restant compatibles avec les architectures existantes. Les évaluations empiriques montrent des gains de performance constants dans diverses applications multimodales, notamment l'ancrage visuel, la manipulation robotique, la modélisation de récompenses génératives et la génération d'images à l'aide de caractéristiques quantifiées vectoriellement. Ces améliorations sont particulièrement marquées dans les cas de données d'entraînement limitées, soulignant l'efficacité de DIST2Loss dans des contextes à ressources contraintes.
English
As large language models expand beyond natural language to domains such as
mathematics, multimodal understanding, and embodied agents, tokens increasingly
reflect metric relationships rather than purely linguistic meaning. We
introduce DIST2Loss, a distance-aware framework designed to train
autoregressive discrete models by leveraging predefined distance relationships
among output tokens. At its core, DIST2Loss transforms continuous exponential
family distributions derived from inherent distance metrics into discrete,
categorical optimization targets compatible with the models' architectures.
This approach enables the models to learn and preserve meaningful distance
relationships during token generation while maintaining compatibility with
existing architectures. Empirical evaluations show consistent performance gains
in diverse multimodal applications, including visual grounding, robotic
manipulation, generative reward modeling, and image generation using
vector-quantized features. These improvements are pronounced in cases of
limited training data, highlighting DIST2Loss's effectiveness in
resource-constrained settings.