Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

К агентному RAG с глубоким рассуждением: обзор систем RAG-рассуждений в крупных языковых моделях
Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs

Jul 13, 2025

Yangning Li, Weizhi Zhang, Yuyao Yang, Wei-Chieh Huang, Yaozu Wu, Junyu Luo, Yuanchen Bei, Henry Peng Zou, Xiao Luo, Yusheng Zhao, Chunkit Chan, Yankai Chen, Zhongfen Deng, Yinghui Li, Hai-Tao Zheng, Dongyuan Li, Renhe Jiang, Ming Zhang, Yangqiu Song, Philip S. Yu

552

Генерация с усилением поиска (RAG) повышает фактическую точность больших языковых моделей (LLM) за счет внедрения внешних знаний, однако она оказывается недостаточно эффективной для задач, требующих многошагового вывода; с другой стороны, подходы, ориентированные исключительно на рассуждения, часто порождают галлюцинации или некорректно привязывают факты. Этот обзор объединяет оба направления в рамках единой перспективы рассуждений и поиска. Сначала мы описываем, как продвинутые методы рассуждений оптимизируют каждый этап RAG (RAG с усилением рассуждений). Затем мы показываем, как извлеченные знания различных типов восполняют недостающие предпосылки и расширяют контекст для сложного вывода (Рассуждения с усилением RAG). Наконец, мы выделяем новые синергетические фреймворки RAG-Рассуждения, в которых (агентные) LLM итеративно чередуют поиск и рассуждения для достижения передовых результатов на тестах, требующих интенсивного использования знаний. Мы классифицируем методы, наборы данных и открытые вызовы, а также намечаем направления исследований для создания более глубоких систем RAG-Рассуждений, которые будут более эффективными, адаптивными к мультимодальности, надежными и ориентированными на человека. Коллекция доступна по адресу https://github.com/DavidZWZ/Awesome-RAG-Reasoning.

SWE-Perf: Могут ли языковые модели оптимизировать производительность кода в реальных репозиториях?
SWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories?

Jul 16, 2025

Xinyi He, Qian Liu, Mingzhe Du, Lin Yan, Zhijie Fan, Yiming Huang, Zejian Yuan, Zejun Ma

241

Оптимизация производительности кода имеет первостепенное значение в реальной разработке программного обеспечения и критически важна для производственных систем. Хотя крупные языковые модели (LLM) продемонстрировали впечатляющие возможности в генерации кода и исправлении ошибок, их способность улучшать производительность кода на уровне репозитория остаётся в значительной степени неисследованной. Чтобы устранить этот пробел, мы представляем SWE-Perf — первый бенчмарк, специально разработанный для систематической оценки LLM в задачах оптимизации производительности кода в контексте реальных репозиториев. SWE-Perf включает 140 тщательно отобранных примеров, каждый из которых основан на пул-реквестах, направленных на улучшение производительности, из популярных репозиториев GitHub. Каждый пример бенчмарка содержит соответствующий код, целевые функции, тесты, связанные с производительностью, патчи, созданные экспертами, и исполняемые среды. В ходе всесторонней оценки репрезентативных методов, охватывающих подходы на уровне файлов и репозиториев (например, Agentless и OpenHands), мы выявили значительный разрыв между существующими LLM и экспертным уровнем оптимизации, подчеркивая важные исследовательские возможности в этой развивающейся области.

PhysX: Генерация 3D-ассетов на основе физических принципов
PhysX: Physical-Grounded 3D Asset Generation

Jul 16, 2025

Ziang Cao, Zhaoxi Chen, Linag Pan, Ziwei Liu

211

3D-моделирование переходит от виртуального к физическому. Существующие методы генерации 3D-моделей в основном сосредоточены на геометрии и текстурах, игнорируя физически обоснованное моделирование. В результате, несмотря на быстрое развитие генеративных моделей 3D, синтезированные 3D-активы часто упускают из виду богатые и важные физические свойства, что затрудняет их применение в реальных физических областях, таких как симуляции и воплощённый ИИ. В качестве первоначальной попытки решить эту проблему мы предлагаем PhysX — сквозной подход для генерации физически обоснованных 3D-активов. 1) Чтобы устранить критический пробел в наборах данных 3D с физической аннотацией, мы представляем PhysXNet — первый физически обоснованный набор данных 3D, систематически аннотированный по пяти основным измерениям: абсолютный масштаб, материал, аффордансы, кинематика и описание функций. В частности, мы разработали масштабируемый конвейер аннотирования с участием человека, основанный на моделях "визуальный язык", который позволяет эффективно создавать активы с приоритетом физики из исходных 3D-активов. 2) Кроме того, мы предлагаем PhysXGen — прямой фреймворк для генерации физически обоснованных 3D-активов из изображений, внедряющий физические знания в предварительно обученное пространство 3D-структур. В частности, PhysXGen использует двухветвевую архитектуру для явного моделирования скрытых корреляций между 3D-структурами и физическими свойствами, что позволяет создавать 3D-активы с правдоподобными физическими предсказаниями, сохраняя при этом исходное качество геометрии. Многочисленные эксперименты подтверждают превосходную производительность и перспективные возможности обобщения нашего фреймворка. Весь код, данные и модели будут опубликованы для содействия будущим исследованиям в области генеративного физического ИИ.

MMHU: Масштабный мультимодальный бенчмарк для анализа поведения человека
MMHU: A Massive-Scale Multimodal Benchmark for Human Behavior Understanding

Jul 16, 2025

Renjie Li, Ruijie Ye, Mingyang Wu, Hao Frank Yang, Zhiwen Fan, Hezhen Hu, Zhengzhong Tu

171

Люди являются неотъемлемыми компонентами транспортной экосистемы, и понимание их поведения крайне важно для разработки безопасных систем вождения. Хотя недавние исследования изучили различные аспекты человеческого поведения — такие как движение, траектории и намерения — всеобъемлющий эталон для оценки понимания человеческого поведения в автономном вождении до сих пор отсутствует. В данной работе мы представляем MMHU, крупномасштабный эталон для анализа человеческого поведения, включающий богатые аннотации, такие как движение и траектории человека, текстовые описания движений, намерения человека и метки критического поведения, связанного с безопасностью вождения. Наш набор данных охватывает 57 тысяч клипов с движением человека и 1,73 миллиона кадров, собранных из различных источников, включая известные наборы данных по вождению, такие как Waymo, видеоролики из реальной жизни с YouTube и самостоятельно собранные данные. Для создания подробных описаний поведения разработан процесс аннотирования с участием человека. Мы проводим тщательный анализ набора данных и тестируем множество задач — от прогнозирования движения до генерации движения и ответов на вопросы о поведении человека — предлагая широкий набор инструментов для оценки. Страница проекта: https://MMHU-Benchmark.github.io.

MOSPA: Генерация движений человека на основе пространственного звука
MOSPA: Human Motion Generation Driven by Spatial Audio

Jul 16, 2025

Shuyang Xu, Zhiyang Dou, Mingyi Shi, Liang Pan, Leo Ho, Jingbo Wang, Yuan Liu, Cheng Lin, Yuexin Ma, Wenping Wang, Taku Komura

141

Обеспечение динамичного и реалистичного реагирования виртуальных персонажей на разнообразные звуковые стимулы остается ключевой задачей в анимации персонажей, требующей интеграции моделей восприятия и синтеза движений. Несмотря на свою значимость, эта задача остается в значительной степени неисследованной. Большинство предыдущих работ в основном сосредоточились на сопоставлении модальностей, таких как речь, аудио и музыка, для генерации движений человека. Однако до сих пор эти модели обычно игнорируют влияние пространственных характеристик, закодированных в пространственных аудиосигналах, на движения человека. Чтобы устранить этот пробел и обеспечить высококачественное моделирование движений человека в ответ на пространственное аудио, мы представляем первый всеобъемлющий набор данных Spatial Audio-Driven Human Motion (SAM), содержащий разнообразные и высококачественные данные пространственного аудио и движений. Для бенчмаркинга мы разрабатываем простую, но эффективную диффузионную генеративную модель для создания движений человека, управляемых пространственным аудио, под названием MOSPA, которая точно отражает связь между движениями тела и пространственным аудио через эффективный механизм слияния. После обучения MOSPA способна генерировать разнообразные реалистичные движения человека в зависимости от различных входных данных пространственного аудио. Мы проводим тщательное исследование предложенного набора данных и выполняем обширные эксперименты для бенчмаркинга, где наш метод демонстрирует наилучшие результаты в этой задаче. Наша модель и набор данных будут опубликованы в открытом доступе после принятия. Для получения дополнительной информации, пожалуйста, обратитесь к нашему дополнительному видео.

DrafterBench: Тестирование больших языковых моделей для автоматизации задач в гражданском строительстве
DrafterBench: Benchmarking Large Language Models for Tasks Automation in Civil Engineering

Jul 15, 2025

Yinsheng Li, Zhen Dong, Yi Shao

141

Крупные языковые модели (LLM) агенты продемонстрировали значительный потенциал для решения реальных задач и обещают стать решением для автоматизации процессов в промышленности. Однако для систематической оценки агентов автоматизации с промышленной точки зрения, например, в гражданском строительстве, требуется больше тестовых наборов. Поэтому мы предлагаем DrafterBench для всесторонней оценки LLM агентов в контексте пересмотра технических чертежей, что является важной задачей в гражданском строительстве. DrafterBench включает двенадцать типов задач, обобщенных из реальных файлов чертежей, с 46 настраиваемыми функциями/инструментами и 1920 задачами в общей сложности. DrafterBench представляет собой открытый тестовый набор для строгой проверки способности AI агентов интерпретировать сложные и длинные инструкции, использовать предварительные знания и адаптироваться к динамическому качеству инструкций через неявное осознание политики. Набор инструментов всесторонне оценивает различные способности, такие как понимание структурированных данных, выполнение функций, следование инструкциям и критическое мышление. DrafterBench предлагает детальный анализ точности выполнения задач и статистики ошибок, стремясь предоставить более глубокое понимание возможностей агентов и выявить цели для улучшения интеграции LLM в инженерные приложения. Наш тестовый набор доступен по адресу https://github.com/Eason-Li-AIS/DrafterBench, а тестовый набор размещен на https://huggingface.co/datasets/Eason666/DrafterBench.

Seq vs Seq: Открытый набор парных кодировщиков и декодировщиков
Seq vs Seq: An Open Suite of Paired Encoders and Decoders

Jul 15, 2025

Orion Weller, Kathryn Ricci, Marc Marone, Antoine Chaffin, Dawn Lawrie, Benjamin Van Durme

127

Сообщество, работающее с большими языковыми моделями (LLM), почти исключительно сосредоточено на декодерных моделях, поскольку их проще использовать для генерации текста. Однако значительная часть сообщества по-прежнему применяет модели, основанные только на энкодерах, для таких задач, как классификация или поиск. Предыдущие исследования пытались сравнить эти архитектуры, но были вынуждены проводить сравнения между моделями с разным количеством параметров, методами обучения и наборами данных. Мы представляем набор моделей SOTA open-data Ettin: парные модели, основанные только на энкодерах и только на декодерах, с количеством параметров от 17 миллионов до 1 миллиарда, обученные на до 2 триллионов токенов. Использование одного и того же подхода для моделей, основанных только на энкодерах и только на декодерах, позволяет достичь SOTA результатов в обеих категориях для соответствующих размеров, превосходя ModernBERT в качестве энкодера и Llama 3.2 и SmolLM2 в качестве декодеров. Как и в предыдущих работах, мы обнаруживаем, что модели, основанные только на энкодерах, превосходно справляются с задачами классификации и поиска, в то время как декодеры лучше подходят для генеративных задач. Однако мы показываем, что адаптация декодерной модели к задачам энкодера (и наоборот) путем продолжения обучения уступает использованию только обратной цели (например, энкодер на 400 миллионов параметров превосходит декодер на 1 миллиард на MNLI, и наоборот для генеративных задач). Мы открываем исходные коды всех материалов этого исследования, включая данные для обучения, порядок обучения, разделенный по контрольным точкам, и более 200 контрольных точек, чтобы позволить будущим исследованиям анализировать или расширять все аспекты обучения.

Lizard: Эффективный фреймворк для линеаризации крупных языковых моделей
Lizard: An Efficient Linearization Framework for Large Language Models

Jul 11, 2025

Chien Van Nguyen, Ruiyi Zhang, Hanieh Deilamsalehy, Puneet Mathur, Viet Dac Lai, Haoliang Wang, Jayakumar Subramanian, Ryan A. Rossi, Trung Bui, Nikos Vlassis, Franck Dernoncourt, Thien Huu Nguyen

Мы представляем Lizard — фреймворк для линеаризации, который преобразует предобученные трансформерные модели больших языковых моделей (LLM) в гибкие субквадратичные архитектуры для генерации с бесконечным контекстом. Трансформерные LLM сталкиваются с существенными ограничениями памяти и вычислительной сложности при увеличении длины контекста из-за квадратичной сложности softmax-внимания и растущего кэша ключей-значений (KV). Lizard устраняет эти ограничения, вводя субквадратичный механизм внимания, который близко аппроксимирует softmax-внимание, сохраняя при этом качество выходных данных. В отличие от предыдущих методов линеаризации, которые часто ограничены фиксированными структурами моделей и исключают механизмы гейтинга, Lizard включает модуль гейтинга, вдохновленный современными линейными моделями. Это позволяет адаптивно управлять памятью, поддерживать вывод с постоянной памятью, обеспечивать сильное обобщение на длинных последовательностях и предоставляет более гибкий дизайн модели. Lizard сочетает гейтированное линейное внимание для глобального сжатия контекста с вниманием скользящего окна, усиленным мета-памятью, формируя гибридный механизм, который захватывает как долгосрочные зависимости, так и тонкие локальные взаимодействия. Кроме того, мы представляем аппаратно-ориентированный алгоритм, который ускоряет обучение наших моделей. Многочисленные эксперименты показывают, что Lizard достигает почти без потерь восстановления производительности учительской модели на стандартных задачах языкового моделирования, значительно превосходя предыдущие методы линеаризации. На бенчмарке MMLU с 5-shot Lizard улучшает результаты предыдущих моделей на 18 пунктов и демонстрирует значительные улучшения на задачах ассоциативного воспроизведения.

AnyI2V: Анимация любых условных изображений с управлением движением
AnyI2V: Animating Any Conditional Image with Motion Control

Jul 3, 2025

Ziye Li, Hao Luo, Xincheng Shuai, Henghui Ding

Последние достижения в области генерации видео, особенно в моделях диффузии, способствовали значительному прогрессу в синтезе видео из текста (T2V) и из изображений (I2V). Однако остаются проблемы в эффективной интеграции динамических сигналов движения и гибких пространственных ограничений. Существующие методы T2V обычно полагаются на текстовые подсказки, которые по своей природе не обеспечивают точного контроля над пространственной компоновкой генерируемого контента. В свою очередь, методы I2V ограничены зависимостью от реальных изображений, что снижает редактируемость синтезированного контента. Хотя некоторые методы используют ControlNet для введения условий на основе изображений, они часто не обеспечивают явного контроля над движением и требуют дорогостоящих вычислительных ресурсов для обучения. Чтобы устранить эти ограничения, мы предлагаем AnyI2V — бесплатную для обучения платформу, которая анимирует любые условные изображения с заданными пользователем траекториями движения. AnyI2V поддерживает более широкий спектр модальностей в качестве условного изображения, включая типы данных, такие как сетки и облака точек, которые не поддерживаются ControlNet, что обеспечивает более гибкую и универсальную генерацию видео. Кроме того, она поддерживает смешанные условные входы и позволяет выполнять перенос стиля и редактирование с помощью LoRA и текстовых подсказок. Многочисленные эксперименты демонстрируют, что предложенный AnyI2V достигает превосходной производительности и открывает новые перспективы в управляемой пространственно-двигательной генерации видео. Код доступен по адресу https://henghuiding.com/AnyI2V/.

SpatialTrackerV2: Простое отслеживание 3D-точек
SpatialTrackerV2: 3D Point Tracking Made Easy

Jul 16, 2025

Yuxi Xiao, Jianyuan Wang, Nan Xue, Nikita Karaev, Yuri Makarov, Bingyi Kang, Xing Zhu, Hujun Bao, Yujun Shen, Xiaowei Zhou

Мы представляем SpatialTrackerV2 — метод прямого 3D-отслеживания точек для монохромных видео. В отличие от модульных подходов, основанных на готовых компонентах для 3D-отслеживания, наш метод объединяет внутренние связи между отслеживанием точек, монохромной оценкой глубины и оценкой позы камеры в высокопроизводительный и прямой 3D-трекер точек. Он разлагает движение в мировом пространстве на геометрию сцены, эго-движение камеры и поточечное движение объектов, используя полностью дифференцируемую и сквозную архитектуру, что позволяет масштабируемое обучение на широком спектре данных, включая синтетические последовательности, RGB-D видео с известной позой и немаркированные записи из реального мира. Благодаря совместному обучению геометрии и движению на таких разнородных данных, SpatialTrackerV2 превосходит существующие методы 3D-отслеживания на 30% и достигает точности ведущих подходов к динамической 3D-реконструкции, работая при этом в 50 раз быстрее.

Замена мышления использованием инструментов позволяет реализовать рассуждение в небольших языковых моделях.
Replacing thinking with tool usage enables reasoning in small language models

Jul 7, 2025

Corrado Rainone, Tim Bakker, Roland Memisevic

Последние достижения установили новую парадигму машинного обучения, основанную на масштабировании вычислительных ресурсов как во время обучения, так и во время вывода. В рамках этого направления используется комбинация контролируемого тонкого настройки (Supervised Fine-Tuning, SFT) на синтетических демонстрациях и обучения с подкреплением с верифицируемыми наградами (Reinforcement Learning with Verifiable Rewards, RLVR) для обучения крупных языковых моделей расходовать дополнительные вычислительные ресурсы во время вывода в форме "мыслей", выраженных на естественном языке. В данной статье мы предлагаем вместо этого форматировать эти токены как многошаговое взаимодействие с инструментом, сохраняющим состояние. На каждом шаге новое состояние инструмента добавляется в контекст модели, задача которой — генерировать токены, необходимые для управления инструментом через пользовательский DSL. Мы тестируем этот подход на задаче исправления неисправного кода на Python и показываем, что такая ограниченная настройка позволяет ускорить выборку опыта и получить более плотный сигнал награды, что позволяет даже моделям размером до 3 миллиардов параметров научиться эффективно расходовать дополнительные вычислительные ресурсы на выполнение задачи.

Мастера ИИ на CheckThat! 2025: Улучшение трансформерных эмбеддингов с использованием сентимент-анализа для обнаружения субъективности в новостных статьях
AI Wizards at CheckThat! 2025: Enhancing Transformer-Based Embeddings with Sentiment for Subjectivity Detection in News Articles

Jul 15, 2025

Matteo Fasulo, Luca Babboni, Luca Tedeschini

В данной статье представлено участие команды AI Wizards в задаче 1 лаборатории CLEF 2025 CheckThat!: "Определение субъективности в новостных статьях", где предложения классифицируются как субъективные/объективные в моноязычных, многоязычных и условиях zero-shot. Обучающие и тестовые наборы данных были предоставлены для арабского, немецкого, английского, итальянского и болгарского языков; финальная оценка включала дополнительные непредставленные языки (например, греческий, румынский, польский, украинский) для оценки обобщающей способности моделей. Основная стратегия заключалась в улучшении классификаторов на основе трансформеров путем интеграции оценок тональности, полученных с помощью вспомогательной модели, с представлениями предложений, что направлено на повышение эффективности по сравнению со стандартной тонкой настройкой. Мы исследовали эту архитектуру, дополненную данными о тональности, с использованием моделей mDeBERTaV3-base, ModernBERT-base (для английского языка) и Llama3.2-1B. Для решения проблемы дисбаланса классов, характерной для всех языков, мы применили калибровку порогов принятия решений, оптимизированную на тестовом наборе данных. Наши эксперименты показали, что интеграция признаков тональности значительно повышает производительность, особенно показатель F1 для субъективных предложений. Этот подход позволил достичь высоких результатов, в частности, первого места для греческого языка (Macro F1 = 0,51).

RLEP: Обучение с подкреплением с воспроизведением опыта для рассуждений в больших языковых моделях
RLEP: Reinforcement Learning with Experience Replay for LLM Reasoning

Jul 10, 2025

Hongzhi Zhang, Jia Fu, Jingyuan Zhang, Kai Fu, Qi Wang, Fuzheng Zhang, Guorui Zhou

Обучение с подкреплением (RL) для крупных языковых моделей является энергозатратным процессом: обучение может быть нестабильным, а политика может постепенно отклоняться от своих предварительно обученных весов. Мы представляем RLEP — Reinforcement Learning with Experience rePlay — двухэтапную структуру, которая сначала собирает проверенные траектории, а затем воспроизводит их в ходе последующего обучения. На каждом шаге обновления политика оптимизируется на мини-батчах, которые сочетают вновь сгенерированные развертки с этими воспроизведенными успехами. Воспроизводя высококачественные примеры, RLEP направляет модель в сторону от бесполезного исследования, сосредотачивает обучение на перспективных путях рассуждений и обеспечивает как более быструю сходимость, так и более высокую итоговую производительность. На базовой модели Qwen2.5-Math-7B RLEP достигает пиковой точности базового уровня с существенно меньшим количеством обновлений и в конечном итоге превосходит его, улучшая точность на AIME-2024 с 38,2% до 39,9%, на AIME-2025 с 19,8% до 22,3% и на AMC-2023 с 77,0% до 82,2%. Наш код, наборы данных и контрольные точки доступны публично по адресу https://github.com/Kwai-Klear/RLEP для обеспечения воспроизводимости и дальнейших исследований.

GitChameleon: Оценка генерации кода ИИ с учетом несовместимости версий библиотек Python
GitChameleon: Evaluating AI Code Generation Against Python Library Version Incompatibilities

Jul 16, 2025

Diganta Misra, Nizar Islah, Victor May, Brice Rauby, Zihan Wang, Justine Gehring, Antonio Orvieto, Muawiz Chaudhary, Eilif B. Muller, Irina Rish, Samira Ebrahimi Kahou, Massimo Caccia

Быстрая эволюция программных библиотек представляет собой значительное препятствие для генерации кода, требуя постоянной адаптации к частым обновлениям версий при сохранении обратной совместимости. Хотя существующие бенчмарки эволюции кода предоставляют ценные данные, они обычно не включают оценку на основе выполнения для генерации кода, соответствующего конкретным версиям библиотек. Для решения этой проблемы мы представляем GitChameleon — новый тщательно отобранный набор данных, содержащий 328 задач на завершение кода на Python, каждая из которых привязана к конкретным версиям библиотек и сопровождается исполняемыми модульными тестами. GitChameleon строго оценивает способность современных больших языковых моделей (LLM), агентов на основе LLM, помощников по коду и систем RAG выполнять генерацию кода, зависящую от версии, с демонстрацией функциональной точности через выполнение. Наши обширные оценки показывают, что современные системы сталкиваются с серьезными трудностями при решении этой задачи; корпоративные модели достигают базовых показателей успешности в диапазоне 48–51\%, что подчеркивает сложность проблемы. Предлагая бенчмарк на основе выполнения, акцентирующий внимание на динамической природе библиотек кода, GitChameleon позволяет лучше понять эту задачу и способствует разработке более адаптируемых и надежных методов генерации кода с использованием ИИ. Мы делаем набор данных и код для оценки общедоступными по адресу https://github.com/mrcabbage972/GitChameleonBenchmark.

(Почти) Бесплатное Соединение Модальностей Базовых Моделей
(Almost) Free Modality Stitching of Foundation Models

Jul 14, 2025

Jaisidh Singh, Diganta Misra, Boris Knyazev, Antonio Orvieto

Мультимодальные модели базового уровня часто создаются путем объединения нескольких существующих предобученных унимодальных моделей: например, классификатора изображений с текстовой моделью. Этот процесс объединения осуществляется путем обучения соединительного модуля, который стремится согласовать пространства представлений этих унимодальных моделей для достижения мультимодальной цели. Однако, учитывая сложность обучения таких соединительных модулей на крупномасштабных веб-данных, а также постоянно растущее количество доступных предобученных унимодальных моделей, задача выбора унимодальных моделей и последующего обучения соединительного модуля становится вычислительно затратной. Для решения этой недостаточно изученной критической проблемы мы предлагаем **Hypernetwork Model Alignment (Hyma)** — новое универсальное решение для оптимального выбора унимодальных моделей и обучения соединительных модулей с использованием гиперсетей. В частности, наша структура использует способность гиперсети предсказывать параметры для получения совместно обученных соединительных модулей для N на M комбинаций унимодальных моделей. В наших экспериментах Hyma сокращает затраты на поиск наилучшей пары унимодальных моделей в 10 раз, при этом сохраняя ранжирование и производительность обученных соединительных модулей, полученных с помощью полного перебора на наборе разнообразных мультимодальных тестов.

MST-Distill: Смесь специализированных учителей для кросс-модального дистилляции знаний
MST-Distill: Mixture of Specialized Teachers for Cross-Modal Knowledge Distillation

Jul 9, 2025

Hui Li, Pengfei Yang, Juanyang Chen, Le Dong, Yanxin Chen, Quan Wang

Дистилляция знаний как эффективная техника передачи знаний достигла значительных успехов в унимодальных сценариях. Однако в кросс-модальных условиях традиционные методы дистилляции сталкиваются с серьезными трудностями из-за гетерогенности данных и статистических различий, не позволяя использовать комплементарные априорные знания, заложенные в кросс-модальных моделях-учителях. В данной работе эмпирически выявлены две ключевые проблемы существующих подходов: выбор пути дистилляции и дрейф знаний. Для устранения этих ограничений мы предлагаем MST-Distill — новый фреймворк кросс-модальной дистилляции знаний, основанный на смеси специализированных моделей-учителей. Наш подход использует разнообразный ансамбль моделей-учителей как в кросс-модальных, так и в мультимодальных конфигурациях, интегрированный с сетью маршрутизации на уровне экземпляров, что обеспечивает адаптивную и динамическую дистилляцию. Эта архитектура эффективно преодолевает ограничения традиционных методов, основанных на монотонных и статических моделях-учителях. Дополнительно мы вводим модуль маскирования, который обучается независимо для подавления модально-специфичных расхождений и реконструкции представлений моделей-учителей, тем самым смягчая дрейф знаний и повышая эффективность передачи. Эксперименты на пяти разнообразных мультимодальных наборах данных, охватывающих визуальные, аудио и текстовые модальности, демонстрируют, что наш метод значительно превосходит современные методы дистилляции знаний в задачах кросс-модальной дистилляции. Исходный код доступен по адресу https://github.com/Gray-OREO/MST-Distill.

Ежедневные статьи

К агентному RAG с глубоким рассуждением: обзор систем RAG-рассуждений в крупных языковых моделях
Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs

SWE-Perf: Могут ли языковые модели оптимизировать производительность кода в реальных репозиториях?
SWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories?

PhysX: Генерация 3D-ассетов на основе физических принципов
PhysX: Physical-Grounded 3D Asset Generation

MMHU: Масштабный мультимодальный бенчмарк для анализа поведения человека
MMHU: A Massive-Scale Multimodal Benchmark for Human Behavior Understanding

MOSPA: Генерация движений человека на основе пространственного звука
MOSPA: Human Motion Generation Driven by Spatial Audio

DrafterBench: Тестирование больших языковых моделей для автоматизации задач в гражданском строительстве
DrafterBench: Benchmarking Large Language Models for Tasks Automation in Civil Engineering

Seq vs Seq: Открытый набор парных кодировщиков и декодировщиков
Seq vs Seq: An Open Suite of Paired Encoders and Decoders

Lizard: Эффективный фреймворк для линеаризации крупных языковых моделей
Lizard: An Efficient Linearization Framework for Large Language Models

AnyI2V: Анимация любых условных изображений с управлением движением
AnyI2V: Animating Any Conditional Image with Motion Control

SpatialTrackerV2: Простое отслеживание 3D-точек
SpatialTrackerV2: 3D Point Tracking Made Easy

Замена мышления использованием инструментов позволяет реализовать рассуждение в небольших языковых моделях.
Replacing thinking with tool usage enables reasoning in small language models

RLEP: Обучение с подкреплением с воспроизведением опыта для рассуждений в больших языковых моделях
RLEP: Reinforcement Learning with Experience Replay for LLM Reasoning

GitChameleon: Оценка генерации кода ИИ с учетом несовместимости версий библиотек Python
GitChameleon: Evaluating AI Code Generation Against Python Library Version Incompatibilities

(Почти) Бесплатное Соединение Модальностей Базовых Моделей
(Almost) Free Modality Stitching of Foundation Models

MST-Distill: Смесь специализированных учителей для кросс-модального дистилляции знаний
MST-Distill: Mixture of Specialized Teachers for Cross-Modal Knowledge Distillation

Support

Support

Ежедневные статьи

К агентному RAG с глубоким рассуждением: обзор систем RAG-рассуждений в крупных языковых моделях
Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs

SWE-Perf: Могут ли языковые модели оптимизировать производительность кода в реальных репозиториях?
SWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories?

PhysX: Генерация 3D-ассетов на основе физических принципов
PhysX: Physical-Grounded 3D Asset Generation

MMHU: Масштабный мультимодальный бенчмарк для анализа поведения человека
MMHU: A Massive-Scale Multimodal Benchmark for Human Behavior Understanding

MOSPA: Генерация движений человека на основе пространственного звука
MOSPA: Human Motion Generation Driven by Spatial Audio

DrafterBench: Тестирование больших языковых моделей для автоматизации задач в гражданском строительстве
DrafterBench: Benchmarking Large Language Models for Tasks Automation in Civil Engineering

Seq vs Seq: Открытый набор парных кодировщиков и декодировщиков
Seq vs Seq: An Open Suite of Paired Encoders and Decoders

Lizard: Эффективный фреймворк для линеаризации крупных языковых моделей
Lizard: An Efficient Linearization Framework for Large Language Models

AnyI2V: Анимация любых условных изображений с управлением движением
AnyI2V: Animating Any Conditional Image with Motion Control

SpatialTrackerV2: Простое отслеживание 3D-точек
SpatialTrackerV2: 3D Point Tracking Made Easy

Замена мышления использованием инструментов позволяет реализовать рассуждение в небольших языковых моделях.
Replacing thinking with tool usage enables reasoning in small language models

RLEP: Обучение с подкреплением с воспроизведением опыта для рассуждений в больших языковых моделях
RLEP: Reinforcement Learning with Experience Replay for LLM Reasoning

GitChameleon: Оценка генерации кода ИИ с учетом несовместимости версий библиотек Python
GitChameleon: Evaluating AI Code Generation Against Python Library Version Incompatibilities

(Почти) Бесплатное Соединение Модальностей Базовых Моделей
(Almost) Free Modality Stitching of Foundation Models

MST-Distill: Смесь специализированных учителей для кросс-модального дистилляции знаний
MST-Distill: Mixture of Specialized Teachers for Cross-Modal Knowledge Distillation