Ensinando Distância Métrica a Modelos Fundacionais Multimodais Autoregressivos
Teaching Metric Distance to Autoregressive Multimodal Foundational Models
March 4, 2025
Autores: Jiwan Chung, Saejin Kim, Yongrae Jo, Jaewoo Park, Dongjun Min, Youngjae Yu
cs.AI
Resumo
À medida que os grandes modelos de linguagem se expandem além da linguagem natural para domínios como matemática, compreensão multimodal e agentes corporificados, os tokens passam a refletir cada vez mais relações métricas em vez de significados puramente linguísticos. Apresentamos o DIST2Loss, uma estrutura consciente de distância projetada para treinar modelos discretos autorregressivos, aproveitando relações de distância predefinidas entre os tokens de saída. Em sua essência, o DIST2Loss transforma distribuições contínuas da família exponencial derivadas de métricas de distância intrínsecas em alvos de otimização discretos e categóricos, compatíveis com as arquiteturas dos modelos. Essa abordagem permite que os modelos aprendam e preservem relações de distância significativas durante a geração de tokens, mantendo a compatibilidade com arquiteturas existentes. Avaliações empíricas mostram ganhos consistentes de desempenho em diversas aplicações multimodais, incluindo ancoragem visual, manipulação robótica, modelagem de recompensa generativa e geração de imagens usando recursos quantizados vetorialmente. Essas melhorias são mais pronunciadas em casos de dados de treinamento limitados, destacando a eficácia do DIST2Loss em cenários com recursos restritos.
English
As large language models expand beyond natural language to domains such as
mathematics, multimodal understanding, and embodied agents, tokens increasingly
reflect metric relationships rather than purely linguistic meaning. We
introduce DIST2Loss, a distance-aware framework designed to train
autoregressive discrete models by leveraging predefined distance relationships
among output tokens. At its core, DIST2Loss transforms continuous exponential
family distributions derived from inherent distance metrics into discrete,
categorical optimization targets compatible with the models' architectures.
This approach enables the models to learn and preserve meaningful distance
relationships during token generation while maintaining compatibility with
existing architectures. Empirical evaluations show consistent performance gains
in diverse multimodal applications, including visual grounding, robotic
manipulation, generative reward modeling, and image generation using
vector-quantized features. These improvements are pronounced in cases of
limited training data, highlighting DIST2Loss's effectiveness in
resource-constrained settings.Summary
AI-Generated Summary