LLM-I: LLMs sind natürliche, verschränkte multimodale Schöpfer
LLM-I: LLMs are Naturally Interleaved Multimodal Creators
September 17, 2025
papers.authors: Zirun Guo, Feng Zhang, Kai Jia, Tao Jin
cs.AI
papers.abstract
Wir stellen LLM-Interleaved (LLM-I) vor, ein flexibles und dynamisches Framework, das die verschachtelte Bild-Text-Generierung als ein Werkzeugnutzungsproblem neu definiert. LLM-I wurde entwickelt, um den „Ein-Werkzeug“-Engpass aktueller einheitlicher Modelle zu überwinden, die auf synthetische Bildgebung beschränkt sind und bei Aufgaben, die faktische Fundierung oder programmatische Präzision erfordern, Schwierigkeiten haben. Unser Framework befähigt einen zentralen LLM- oder MLLM-Agenten, intelligent ein vielfältiges Toolkit spezialisierter visueller Werkzeuge zu orchestrieren, darunter Online-Bildersuche, diffusionsbasierte Generierung, Code-Ausführung und Bildbearbeitung. Der Agent wird trainiert, diese Werkzeuge über ein Reinforcement-Learning (RL)-Framework geschickt auszuwählen und anzuwenden, das ein hybrides Belohnungssystem kombiniert, das regelbasierte Logik mit Bewertungen von LLM- und MLLM-Evaluatoren verbindet. Auf einem vielfältigen neuen Datensatz mit vier verschiedenen Modell-Backbones trainiert, demonstriert LLM-I state-of-the-art Leistung und übertrifft bestehende Methoden mit großem Abstand in vier Benchmarks. Wir führen auch eine neuartige Testzeit-Skalierungsstrategie ein, die weitere Leistungssteigerungen bietet. Projektseite: https://github.com/ByteDance-BandAI/LLM-I.
English
We propose LLM-Interleaved (LLM-I), a flexible and dynamic framework that
reframes interleaved image-text generation as a tool-use problem. LLM-I is
designed to overcome the "one-tool" bottleneck of current unified models, which
are limited to synthetic imagery and struggle with tasks requiring factual
grounding or programmatic precision. Our framework empowers a central LLM or
MLLM agent to intelligently orchestrate a diverse toolkit of specialized visual
tools, including online image search, diffusion-based generation, code
execution, and image editing. The agent is trained to select and apply these
tools proficiently via a Reinforcement Learning (RL) framework that features a
hybrid reward system combining rule-based logic with judgments from LLM and
MLLM evaluators. Trained on a diverse new dataset using four different model
backbones, LLM-I demonstrates state-of-the-art performance, outperforming
existing methods by a large margin across four benchmarks. We also introduce a
novel test-time scaling strategy that provides further performance gains.
Project Page: https://github.com/ByteDance-BandAI/LLM-I.