Het aanleren van metrische afstand aan autoregressieve multimodale fundamentele modellen
Teaching Metric Distance to Autoregressive Multimodal Foundational Models
March 4, 2025
Auteurs: Jiwan Chung, Saejin Kim, Yongrae Jo, Jaewoo Park, Dongjun Min, Youngjae Yu
cs.AI
Samenvatting
Naarmate grote taalmodellen zich uitbreiden voorbij natuurlijke taal naar domeinen zoals wiskunde, multimodale interpretatie en belichaamde agenten, weerspiegelen tokens steeds meer metrische relaties in plaats van puur linguïstische betekenis. Wij introduceren DIST2Loss, een afstandsbewust raamwerk ontworpen om autoregressieve discrete modellen te trainen door gebruik te maken van vooraf gedefinieerde afstandsrelaties tussen uitvoertokens. In de kern transformeert DIST2Loss continue exponentiële familieverdelingen, afgeleid van inherente afstandsmetrieken, naar discrete, categorische optimalisatiedoelen die compatibel zijn met de architectuur van de modellen. Deze aanpak stelt de modellen in staat om betekenisvolle afstandsrelaties te leren en te behouden tijdens het genereren van tokens, terwijl compatibiliteit met bestaande architecturen behouden blijft. Empirische evaluaties tonen consistente prestatieverbeteringen in diverse multimodale toepassingen, waaronder visuele verankering, robotmanipulatie, generatieve beloningsmodellering en beeldgeneratie met behulp van vector-gekwantiseerde kenmerken. Deze verbeteringen zijn vooral duidelijk in gevallen met beperkte trainingsdata, wat de effectiviteit van DIST2Loss benadrukt in situaties met beperkte middelen.
English
As large language models expand beyond natural language to domains such as
mathematics, multimodal understanding, and embodied agents, tokens increasingly
reflect metric relationships rather than purely linguistic meaning. We
introduce DIST2Loss, a distance-aware framework designed to train
autoregressive discrete models by leveraging predefined distance relationships
among output tokens. At its core, DIST2Loss transforms continuous exponential
family distributions derived from inherent distance metrics into discrete,
categorical optimization targets compatible with the models' architectures.
This approach enables the models to learn and preserve meaningful distance
relationships during token generation while maintaining compatibility with
existing architectures. Empirical evaluations show consistent performance gains
in diverse multimodal applications, including visual grounding, robotic
manipulation, generative reward modeling, and image generation using
vector-quantized features. These improvements are pronounced in cases of
limited training data, highlighting DIST2Loss's effectiveness in
resource-constrained settings.Summary
AI-Generated Summary