ChatPaper.aiChatPaper

Ensinando Distância Métrica a Modelos Fundacionais Multimodais Autoregressivos

Teaching Metric Distance to Autoregressive Multimodal Foundational Models

March 4, 2025
Autores: Jiwan Chung, Saejin Kim, Yongrae Jo, Jaewoo Park, Dongjun Min, Youngjae Yu
cs.AI

Resumo

À medida que os grandes modelos de linguagem se expandem além da linguagem natural para domínios como matemática, compreensão multimodal e agentes corporificados, os tokens passam a refletir cada vez mais relações métricas em vez de significados puramente linguísticos. Apresentamos o DIST2Loss, uma estrutura consciente de distância projetada para treinar modelos discretos autorregressivos, aproveitando relações de distância predefinidas entre os tokens de saída. Em sua essência, o DIST2Loss transforma distribuições contínuas da família exponencial derivadas de métricas de distância intrínsecas em alvos de otimização discretos e categóricos, compatíveis com as arquiteturas dos modelos. Essa abordagem permite que os modelos aprendam e preservem relações de distância significativas durante a geração de tokens, mantendo a compatibilidade com arquiteturas existentes. Avaliações empíricas mostram ganhos consistentes de desempenho em diversas aplicações multimodais, incluindo ancoragem visual, manipulação robótica, modelagem de recompensa generativa e geração de imagens usando recursos quantizados vetorialmente. Essas melhorias são mais pronunciadas em casos de dados de treinamento limitados, destacando a eficácia do DIST2Loss em cenários com recursos restritos.
English
As large language models expand beyond natural language to domains such as mathematics, multimodal understanding, and embodied agents, tokens increasingly reflect metric relationships rather than purely linguistic meaning. We introduce DIST2Loss, a distance-aware framework designed to train autoregressive discrete models by leveraging predefined distance relationships among output tokens. At its core, DIST2Loss transforms continuous exponential family distributions derived from inherent distance metrics into discrete, categorical optimization targets compatible with the models' architectures. This approach enables the models to learn and preserve meaningful distance relationships during token generation while maintaining compatibility with existing architectures. Empirical evaluations show consistent performance gains in diverse multimodal applications, including visual grounding, robotic manipulation, generative reward modeling, and image generation using vector-quantized features. These improvements are pronounced in cases of limited training data, highlighting DIST2Loss's effectiveness in resource-constrained settings.

Summary

AI-Generated Summary

PDF42March 5, 2025