ChatPaper.aiChatPaper

自己回帰型マルチモーダル基盤モデルに対するメトリック距離の指導

Teaching Metric Distance to Autoregressive Multimodal Foundational Models

March 4, 2025
著者: Jiwan Chung, Saejin Kim, Yongrae Jo, Jaewoo Park, Dongjun Min, Youngjae Yu
cs.AI

要旨

大規模言語モデルが自然言語を超えて数学、マルチモーダル理解、エンボディエージェントなどの領域に拡大するにつれ、トークンは純粋に言語的な意味ではなく、計量的な関係を反映するようになっています。本論文では、出力トークン間の事前定義された距離関係を活用して、自己回帰型離散モデルを訓練するための距離認識フレームワークであるDIST2Lossを紹介します。DIST2Lossの核心は、内在的な距離指標から導出された連続的な指数型分布を、モデルのアーキテクチャと互換性のある離散的なカテゴリカル最適化ターゲットに変換することです。このアプローチにより、モデルはトークン生成中に意味のある距離関係を学習し維持できるようになり、既存のアーキテクチャとの互換性も保たれます。実証評価では、視覚的グラウンディング、ロボット操作、生成的報酬モデリング、ベクトル量子化特徴を用いた画像生成など、多様なマルチモーダルアプリケーションにおいて一貫した性能向上が確認されました。これらの改善は、特に訓練データが限られている場合に顕著であり、リソースが制約された環境におけるDIST2Lossの有効性が示されています。
English
As large language models expand beyond natural language to domains such as mathematics, multimodal understanding, and embodied agents, tokens increasingly reflect metric relationships rather than purely linguistic meaning. We introduce DIST2Loss, a distance-aware framework designed to train autoregressive discrete models by leveraging predefined distance relationships among output tokens. At its core, DIST2Loss transforms continuous exponential family distributions derived from inherent distance metrics into discrete, categorical optimization targets compatible with the models' architectures. This approach enables the models to learn and preserve meaningful distance relationships during token generation while maintaining compatibility with existing architectures. Empirical evaluations show consistent performance gains in diverse multimodal applications, including visual grounding, robotic manipulation, generative reward modeling, and image generation using vector-quantized features. These improvements are pronounced in cases of limited training data, highlighting DIST2Loss's effectiveness in resource-constrained settings.

Summary

AI-Generated Summary

PDF42March 5, 2025