LLM-I: Языковые модели (LLM) являются естественными создателями мультимодального контента с переплетением данных.
LLM-I: LLMs are Naturally Interleaved Multimodal Creators
September 17, 2025
Авторы: Zirun Guo, Feng Zhang, Kai Jia, Tao Jin
cs.AI
Аннотация
Мы представляем LLM-Interleaved (LLM-I), гибкую и динамичную структуру, которая переосмысливает чередующуюся генерацию изображений и текста как задачу использования инструментов. LLM-I разработан для преодоления ограничений современных унифицированных моделей, которые застряли в "одноинструментной" ловушке, ограничиваясь синтетическими изображениями и испытывая трудности с задачами, требующими фактической обоснованности или программной точности. Наша структура позволяет центральному агенту LLM или MLLM интеллектуально управлять разнообразным набором специализированных визуальных инструментов, включая онлайн-поиск изображений, генерацию на основе диффузии, выполнение кода и редактирование изображений. Агент обучается выбирать и применять эти инструменты с помощью фреймворка обучения с подкреплением (RL), который включает гибридную систему вознаграждений, сочетающую логику на основе правил с оценками от LLM и MLLM-оценщиков. Обучаясь на новом разнообразном наборе данных с использованием четырех различных моделей, LLM-I демонстрирует передовые результаты, значительно превосходя существующие методы на четырех бенчмарках. Мы также представляем новую стратегию масштабирования на этапе тестирования, которая обеспечивает дополнительные улучшения производительности. Страница проекта: https://github.com/ByteDance-BandAI/LLM-I.
English
We propose LLM-Interleaved (LLM-I), a flexible and dynamic framework that
reframes interleaved image-text generation as a tool-use problem. LLM-I is
designed to overcome the "one-tool" bottleneck of current unified models, which
are limited to synthetic imagery and struggle with tasks requiring factual
grounding or programmatic precision. Our framework empowers a central LLM or
MLLM agent to intelligently orchestrate a diverse toolkit of specialized visual
tools, including online image search, diffusion-based generation, code
execution, and image editing. The agent is trained to select and apply these
tools proficiently via a Reinforcement Learning (RL) framework that features a
hybrid reward system combining rule-based logic with judgments from LLM and
MLLM evaluators. Trained on a diverse new dataset using four different model
backbones, LLM-I demonstrates state-of-the-art performance, outperforming
existing methods by a large margin across four benchmarks. We also introduce a
novel test-time scaling strategy that provides further performance gains.
Project Page: https://github.com/ByteDance-BandAI/LLM-I.