LumosX: Связывание произвольных объектов с их атрибутами для персонализированной генерации видео

Аннотация

Последние достижения в области диффузионных моделей значительно улучшили генерацию видео из текста, обеспечивая создание персонализированного контента с детализированным контролем как переднего, так и фонового плана. Однако точное согласование лицевых атрибутов между объектами остаётся сложной задачей, поскольку существующие методы не имеют явных механизмов для обеспечения внутригрупповой согласованности. Для решения этой проблемы требуются как стратегии явного моделирования, так и ресурсы данных с учётом лицевых атрибутов. Мы предлагаем LumosX — фреймворк, развивающий как данные, так и архитектуру моделей. Со стороны данных специализированный пайплайн организует подписи и визуальные маркеры из независимых видео, в то время как мультимодальные большие языковые модели выводят и назначают зависимости, специфичные для объектов. Эти извлечённые реляционные априоры накладывают более детализированную структуру, усиливающую выразительный контроль персонализированной генерации видео и позволяющую построить комплексный бенчмарк. Со стороны моделирования Relational Self-Attention и Relational Cross-Attention переплетают позиционно-чувствительные эмбеддинги с усовершенствованной динамикой внимания для явного кодирования зависимостей «объект-атрибут», обеспечивая дисциплинированную сплочённость внутри групп и усиливая разделение между различными кластерами объектов. Комплексные оценки на нашем бенчмарке демонстрируют, что LumosX достигает передовых результатов в детализированной, идентично-согласованной и семантически выровненной персонализированной генерации видео с множеством объектов. Код и модели доступны по адресу https://jiazheng-xing.github.io/lumosx-home/.

English

Recent advances in diffusion models have significantly improved text-to-video generation, enabling personalized content creation with fine-grained control over both foreground and background elements. However, precise face-attribute alignment across subjects remains challenging, as existing methods lack explicit mechanisms to ensure intra-group consistency. Addressing this gap requires both explicit modeling strategies and face-attribute-aware data resources. We therefore propose LumosX, a framework that advances both data and model design. On the data side, a tailored collection pipeline orchestrates captions and visual cues from independent videos, while multimodal large language models (MLLMs) infer and assign subject-specific dependencies. These extracted relational priors impose a finer-grained structure that amplifies the expressive control of personalized video generation and enables the construction of a comprehensive benchmark. On the modeling side, Relational Self-Attention and Relational Cross-Attention intertwine position-aware embeddings with refined attention dynamics to inscribe explicit subject-attribute dependencies, enforcing disciplined intra-group cohesion and amplifying the separation between distinct subject clusters. Comprehensive evaluations on our benchmark demonstrate that LumosX achieves state-of-the-art performance in fine-grained, identity-consistent, and semantically aligned personalized multi-subject video generation. Code and models are available at https://jiazheng-xing.github.io/lumosx-home/.

LumosX: Связывание произвольных объектов с их атрибутами для персонализированной генерации видео

LumosX: Relate Any Identities with Their Attributes for Personalized Video Generation

Аннотация

Support