Das Lehren metrischer Distanzen für autoregressive multimodale Grundlagenmodelle
Teaching Metric Distance to Autoregressive Multimodal Foundational Models
March 4, 2025
Autoren: Jiwan Chung, Saejin Kim, Yongrae Jo, Jaewoo Park, Dongjun Min, Youngjae Yu
cs.AI
Zusammenfassung
Da große Sprachmodelle über natürliche Sprache hinaus in Bereiche wie Mathematik, multimodales Verständnis und verkörperte Agenten expandieren, spiegeln Tokens zunehmend metrische Beziehungen wider, anstatt rein linguistische Bedeutung. Wir stellen DIST2Loss vor, ein distanzbewusstes Framework, das darauf abzielt, autoregressive diskrete Modelle zu trainieren, indem es vordefinierte Distanzbeziehungen zwischen Ausgabe-Tokens nutzt. Kern von DIST2Loss ist die Transformation kontinuierlicher Exponentialfamilienverteilungen, die aus inhärenten Distanzmetriken abgeleitet werden, in diskrete, kategoriale Optimierungsziele, die mit den Architekturen der Modelle kompatibel sind. Dieser Ansatz ermöglicht es den Modellen, bedeutungsvolle Distanzbeziehungen während der Token-Generierung zu lernen und zu bewahren, während die Kompatibilität mit bestehenden Architekturen erhalten bleibt. Empirische Auswertungen zeigen konsistente Leistungssteigerungen in diversen multimodalen Anwendungen, einschließlich visueller Verankerung, robotischer Manipulation, generativer Belohnungsmodellierung und Bildgenerierung mit vektorquantisierten Merkmalen. Diese Verbesserungen sind besonders ausgeprägt bei begrenzten Trainingsdaten, was die Effektivität von DIST2Loss in ressourcenbeschränkten Umgebungen unterstreicht.
English
As large language models expand beyond natural language to domains such as
mathematics, multimodal understanding, and embodied agents, tokens increasingly
reflect metric relationships rather than purely linguistic meaning. We
introduce DIST2Loss, a distance-aware framework designed to train
autoregressive discrete models by leveraging predefined distance relationships
among output tokens. At its core, DIST2Loss transforms continuous exponential
family distributions derived from inherent distance metrics into discrete,
categorical optimization targets compatible with the models' architectures.
This approach enables the models to learn and preserve meaningful distance
relationships during token generation while maintaining compatibility with
existing architectures. Empirical evaluations show consistent performance gains
in diverse multimodal applications, including visual grounding, robotic
manipulation, generative reward modeling, and image generation using
vector-quantized features. These improvements are pronounced in cases of
limited training data, highlighting DIST2Loss's effectiveness in
resource-constrained settings.Summary
AI-Generated Summary