ChatPaper.aiChatPaper

Enseñando la Distancia Métrica a Modelos Fundacionales Multimodales Autoregresivos

Teaching Metric Distance to Autoregressive Multimodal Foundational Models

March 4, 2025
Autores: Jiwan Chung, Saejin Kim, Yongrae Jo, Jaewoo Park, Dongjun Min, Youngjae Yu
cs.AI

Resumen

A medida que los modelos de lenguaje de gran escala se expanden más allá del lenguaje natural hacia dominios como las matemáticas, la comprensión multimodal y los agentes corporizados, los tokens reflejan cada vez más relaciones métricas en lugar de significados puramente lingüísticos. Presentamos DIST2Loss, un marco consciente de las distancias diseñado para entrenar modelos discretos autorregresivos aprovechando relaciones de distancia predefinidas entre los tokens de salida. En esencia, DIST2Loss transforma distribuciones continuas de la familia exponencial derivadas de métricas de distancia inherentes en objetivos de optimización discretos y categóricos compatibles con las arquitecturas de los modelos. Este enfoque permite que los modelos aprendan y preserven relaciones de distancia significativas durante la generación de tokens, manteniendo la compatibilidad con arquitecturas existentes. Las evaluaciones empíricas muestran mejoras consistentes en diversas aplicaciones multimodales, incluyendo la anclaje visual, la manipulación robótica, el modelado de recompensas generativas y la generación de imágenes utilizando características cuantizadas vectorialmente. Estas mejoras son particularmente notables en casos de datos de entrenamiento limitados, destacando la efectividad de DIST2Loss en entornos con recursos restringidos.
English
As large language models expand beyond natural language to domains such as mathematics, multimodal understanding, and embodied agents, tokens increasingly reflect metric relationships rather than purely linguistic meaning. We introduce DIST2Loss, a distance-aware framework designed to train autoregressive discrete models by leveraging predefined distance relationships among output tokens. At its core, DIST2Loss transforms continuous exponential family distributions derived from inherent distance metrics into discrete, categorical optimization targets compatible with the models' architectures. This approach enables the models to learn and preserve meaningful distance relationships during token generation while maintaining compatibility with existing architectures. Empirical evaluations show consistent performance gains in diverse multimodal applications, including visual grounding, robotic manipulation, generative reward modeling, and image generation using vector-quantized features. These improvements are pronounced in cases of limited training data, highlighting DIST2Loss's effectiveness in resource-constrained settings.

Summary

AI-Generated Summary

PDF42March 5, 2025