ChatPaper.aiChatPaper

LLM-I : Les LLM sont naturellement des créateurs multimodaux entrelacés

LLM-I: LLMs are Naturally Interleaved Multimodal Creators

September 17, 2025
papers.authors: Zirun Guo, Feng Zhang, Kai Jia, Tao Jin
cs.AI

papers.abstract

Nous proposons LLM-Interleaved (LLM-I), un cadre flexible et dynamique qui reformule la génération intercalée d'images et de texte comme un problème d'utilisation d'outils. LLM-I est conçu pour surmonter le goulot d'étranglement du "un seul outil" des modèles unifiés actuels, qui sont limités à la production d'images synthétiques et peinent à accomplir des tâches nécessitant une base factuelle ou une précision programmatique. Notre cadre habilite un agent central LLM ou MLLM à orchestrer intelligemment une boîte à outils diversifiée d'outils visuels spécialisés, incluant la recherche d'images en ligne, la génération basée sur la diffusion, l'exécution de code et l'édition d'images. L'agent est entraîné à sélectionner et appliquer ces outils de manière compétente via un cadre d'apprentissage par renforcement (RL) qui intègre un système de récompense hybride combinant une logique basée sur des règles avec les jugements d'évaluateurs LLM et MLLM. Entraîné sur un nouveau jeu de données diversifié utilisant quatre architectures de modèles différentes, LLM-I démontre des performances de pointe, surpassant largement les méthodes existantes sur quatre benchmarks. Nous introduisons également une nouvelle stratégie de mise à l'échelle au moment du test qui offre des gains de performance supplémentaires. Page du projet : https://github.com/ByteDance-BandAI/LLM-I.
English
We propose LLM-Interleaved (LLM-I), a flexible and dynamic framework that reframes interleaved image-text generation as a tool-use problem. LLM-I is designed to overcome the "one-tool" bottleneck of current unified models, which are limited to synthetic imagery and struggle with tasks requiring factual grounding or programmatic precision. Our framework empowers a central LLM or MLLM agent to intelligently orchestrate a diverse toolkit of specialized visual tools, including online image search, diffusion-based generation, code execution, and image editing. The agent is trained to select and apply these tools proficiently via a Reinforcement Learning (RL) framework that features a hybrid reward system combining rule-based logic with judgments from LLM and MLLM evaluators. Trained on a diverse new dataset using four different model backbones, LLM-I demonstrates state-of-the-art performance, outperforming existing methods by a large margin across four benchmarks. We also introduce a novel test-time scaling strategy that provides further performance gains. Project Page: https://github.com/ByteDance-BandAI/LLM-I.
PDF72September 18, 2025