Ежедневно отобранные исследовательские статьи по ИИ с переводами
Современные методы эффективной тонкой настройки параметров (Parameter-Efficient Fine-Tuning, PEFT), такие как адаптация с низким рангом (low-rank adaptation, LoRA), снижают затраты на адаптацию крупных языковых моделей (large language models, LLMs), однако по-прежнему требуют отдельного процесса оптимизации для каждого набора данных. Мы представляем Drag-and-Drop LLMs (\textit{DnD}) — генератор параметров, обусловленных промптами, который устраняет необходимость обучения для каждой задачи, преобразуя несколько немаркированных промптов задачи непосредственно в обновления весов LoRA. Легковесный текстовый кодировщик преобразует пакет промптов в условные эмбеддинги, которые затем трансформируются каскадным гипер-сверточным декодером в полный набор матриц LoRA. После обучения на разнообразной коллекции пар "промпт-чекпоинт" DnD генерирует специфичные для задачи параметры за секунды, обеспечивая: i) снижение накладных расходов до 12 000 раз по сравнению с полной тонкой настройкой, ii) средний прирост производительности до 30\% по сравнению с наиболее эффективными обученными LoRA на тестах по здравому смыслу, математике, программированию и мультимодальным задачам, а также iii) устойчивую кросс-доменную генерализацию, несмотря на отсутствие целевых данных или меток. Наши результаты демонстрируют, что генерация параметров, обусловленных промптами, является жизнеспособной альтернативой градиентной адаптации для быстрой специализации LLMs. Проект доступен по адресу https://jerryliang24.github.io/DnD{https://jerryliang24.github.io/DnD}.
Системы генерации с усилением поиска (Retrieval-Augmented Generation, RAG) произвели революцию в области поиска информации и ответов на вопросы, однако традиционные методы разбиения текста на фрагменты сталкиваются с трудностями при работе со сложной структурой документов, многостраничными таблицами, встроенными изображениями и контекстуальными зависимостями, выходящими за пределы одной страницы. Мы представляем новый мультимодальный подход к разбиению документов, который использует крупные мультимодальные модели (Large Multimodal Models, LMMs) для обработки PDF-документов пакетами с сохранением семантической связности и структурной целостности. Наш метод обрабатывает документы настраиваемыми пакетами страниц с сохранением контекста между пакетами, что позволяет точно работать с таблицами, охватывающими несколько страниц, встроенными визуальными элементами и процедурным содержимым. Мы оцениваем наш подход на тщательно отобранном наборе PDF-документов с ручной разработкой запросов, демонстрируя улучшения качества фрагментов и производительности RAG. Наш подход, основанный на визуальном анализе, достигает более высокой точности по сравнению с традиционными системами RAG, а качественный анализ показывает превосходное сохранение структуры документа и семантической связности.
В задачах визуальной генерации квадратичная сложность механизмов внимания приводит к высоким затратам памяти и вычислительных ресурсов, особенно для длинных последовательностей токенов, необходимых при генерации изображений высокого разрешения или многофреймовых видео. Для решения этой проблемы в предыдущих исследованиях изучались такие методы, как разрежение и квантование. Однако эти методы сталкиваются с существенными трудностями при низкой плотности и уменьшенной разрядности. В результате систематического анализа мы выявили, что основная сложность связана с рассеянным и нерегулярным характером паттернов визуального внимания. Поэтому вместо разработки специализированных методов разрежения и квантования для адаптации к таким паттернам мы предлагаем альтернативную стратегию: *реорганизацию* паттерна внимания для смягчения этих трудностей. Вдохновленные локальной агрегацией при извлечении визуальных признаков, мы разработали новую технику **Pattern-Aware token ReOrdering (PARO)**, которая объединяет разнообразные паттерны внимания в удобный для аппаратного обеспечения блочный паттерн. Такая унификация значительно упрощает и улучшает как разрежение, так и квантование. Мы оценили компромиссы между производительностью и эффективностью для различных вариантов проектирования и разработали методологию, адаптированную для унифицированного паттерна. Наш подход, **PAROAttention**, позволяет генерировать видео и изображения с сохранением метрик без потерь и практически идентичными результатами по сравнению с базовыми моделями с полной точностью (FP), при этом работая с заметно меньшей плотностью (~20%-30%) и разрядностью (**INT8/INT4**), достигая ускорения сквозной задержки в **1.9x** до **2.7x**.
Последние достижения в области генерации видео на основе диффузионных моделей и управляемого создания видео позволили добиться высококачественного и временно согласованного синтеза видео, заложив основу для создания иммерсивных интерактивных игровых впечатлений. Однако современные методы сталкиваются с ограничениями в динамике, универсальности, долгосрочной согласованности и эффективности, что затрудняет создание разнообразных игровых видеороликов. Для устранения этих пробелов мы представляем Hunyuan-GameCraft — новую платформу для генерации высокодинамичных интерактивных видео в игровых средах. Для достижения детального управления действиями мы объединяем стандартные вводы с клавиатуры и мыши в общее пространство представления камеры, обеспечивая плавную интерполяцию между различными операциями камеры и перемещения. Затем мы предлагаем гибридную стратегию обучения с учетом истории, которая авторегрессивно расширяет видеопоследовательности, сохраняя при этом информацию об игровой сцене. Кроме того, для повышения эффективности вывода и игрового опыта мы применяем дистилляцию модели, чтобы снизить вычислительные затраты, сохраняя согласованность на длительных временных последовательностях, что делает её пригодной для использования в реальном времени в сложных интерактивных средах. Модель обучается на масштабном наборе данных, включающем более миллиона записей игрового процесса из более чем 100 AAA-игр, что обеспечивает широкий охват и разнообразие, а затем дорабатывается на тщательно аннотированном синтетическом наборе данных для повышения точности и управляемости. Курируемые данные игровых сцен значительно улучшают визуальную достоверность, реалистичность и управляемость действиями. Многочисленные эксперименты демонстрируют, что Hunyuan-GameCraft значительно превосходит существующие модели, продвигая реализм и игровой опыт в генерации интерактивных игровых видео.
Координация множества воплощенных агентов в динамических средах остается ключевой задачей в области искусственного интеллекта, требующей как восприятия, так и масштабируемых стратегий сотрудничества. Хотя в последних работах использовались крупные языковые модели (LLM) для планирования в многоагентных системах, лишь немногие начали исследовать визуально-языковые модели (VLM) для визуального рассуждения. Однако эти подходы на основе VLM остаются ограниченными в поддержке различных типов воплощения. В данной работе мы представляем VIKI-Bench — первый иерархический бенчмарк, разработанный для воплощенного многоагентного сотрудничества, включающий три структурированных уровня: активация агентов, планирование задач и восприятие траекторий. VIKI-Bench включает разнообразные воплощения роботов, многопользовательские визуальные наблюдения и структурированные сигналы контроля для оценки рассуждений, основанных на визуальных данных. Чтобы продемонстрировать полезность VIKI-Bench, мы предлагаем VIKI-R — двухэтапную структуру, которая дообучает предварительно обученную визуально-языковую модель (VLM) с использованием аннотированных демонстраций Chain-of-Thought, а затем применяет обучение с подкреплением с использованием многоуровневых сигналов вознаграждения. Наши обширные эксперименты показывают, что VIKI-R значительно превосходит базовые методы на всех уровнях задач. Кроме того, мы демонстрируем, что обучение с подкреплением способствует появлению композиционных паттернов сотрудничества среди разнородных агентов. Вместе VIKI-Bench и VIKI-R предлагают унифицированную платформу и метод для продвижения многоагентного визуально-ориентированного сотрудничества в воплощенных системах искусственного интеллекта.
Современные системы синтеза речи (TTS) достигают высокой естественности в монолингвальных средах, однако синтез речи с правильными мультиязычными акцентами (особенно для индийских языков) и контекстно-уместными эмоциями по-прежнему представляет сложность из-за культурных нюансов, не учитываемых в текущих подходах. В данной статье представлена новая архитектура TTS, интегрирующая акцент, сохраняющая транслитерацию и моделирующая эмоции на нескольких уровнях, специально адаптированная для хинди и индийского английского акцента. Наш подход расширяет модель Parler-TTS за счет интеграции гибридной архитектуры кодировщика-декодера с выравниванием языковых фонем, слоев встраивания эмоций, чувствительных к культурным особенностям и обученных на корпусах носителей языка, а также динамического переключения акцентов с использованием остаточной векторной квантизации. Количественные тесты показали улучшение точности акцента на 23,7% (снижение частоты ошибок на словах с 15,4% до 11,8%) и точность распознавания эмоций носителями языка на уровне 85,3%, что превосходит базовые модели METTS и VECL-TTS. Новизна системы заключается в возможности смешивания кодов в реальном времени — генерации фраз, таких как "Namaste, let's talk about <фраза на хинди>", с плавным переключением акцентов при сохранении эмоциональной согласованности. Субъективная оценка 200 пользователей показала средний балл (MOS) 4,2/5 за культурную корректность, что значительно лучше, чем у существующих мультиязычных систем (p<0,01). Это исследование делает кросс-лингвальный синтез более реализуемым, демонстрируя масштабируемое разделение акцента и эмоций, с прямым применением в образовательных технологиях и программном обеспечении для доступности в Южной Азии.
Синтез 3D панорам является перспективной, но сложной задачей, которая требует высококачественного и разнообразного визуального представления и геометрии создаваемого сферического контента. Существующие методы используют богатые априорные данные изображений из предобученных 2D базовых моделей, чтобы компенсировать недостаток 3D панорамных данных, однако несовместимость между 3D панорамами и 2D одиночными видами ограничивает их эффективность. В данной работе мы показываем, что применение многоплоскостной синхронизации к операторам из 2D базовых моделей позволяет бесшовно расширить их возможности на сферическую область. На основе этого подхода мы представляем DreamCube — многоплоскостную RGB-D диффузионную модель для генерации 3D панорам, которая максимизирует повторное использование априорных данных 2D базовых моделей для достижения разнообразного внешнего вида и точной геометрии при сохранении согласованности между видами. Многочисленные эксперименты демонстрируют эффективность нашего подхода в генерации панорамных изображений, оценке глубины панорам и создании 3D сцен.
В данном отчете мы представляем Hunyuan3D 2.5 — мощный набор 3D диффузионных моделей, предназначенных для генерации высококачественных и детализированных текстурных 3D-ассетов. Hunyuan3D 2.5 сохраняет двухэтапный конвейер своей предыдущей версии Hunyuan3D 2.0, демонстрируя при этом значительные улучшения в генерации как формы, так и текстур. В части генерации формы мы представляем новую базовую модель формы — LATTICE, которая обучается на масштабированных высококачественных наборах данных, с увеличенным размером модели и вычислительными ресурсами. Наша крупнейшая модель достигает 10 миллиардов параметров и генерирует четкие и детализированные 3D-формы с точным соответствием изображению и 3D-модели, сохраняя при этом чистую и гладкую поверхность сетки, что значительно сокращает разрыв между сгенерированными и созданными вручную 3D-формами. В части генерации текстур модель улучшена за счет физически корректного рендеринга (PBR) с использованием новой многовидовой архитектуры, расширенной на основе модели Paint из Hunyuan3D 2.0. Наши обширные оценки показывают, что Hunyuan3D 2.5 значительно превосходит предыдущие методы как в генерации формы, так и в сквозной генерации текстур.
Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), демонстрируют высокие результаты в мультимодальном понимании, однако их декодирование, ограниченное текстом, вынуждает их вербализовать визуальное мышление, что снижает производительность на задачах, требующих визуального воображения. Недавние попытки обучить VLMs генерировать явные изображения часто приводят к ухудшению способности к рассуждению из-за ресурсоемкого предварительного обучения генерации изображений. Вдохновленные тем, как люди рассуждают с использованием ментальных образов — внутреннего построения и манипулирования визуальными подсказками, — мы исследуем, могут ли VLMs рассуждать через чередующиеся мультимодальные траектории без создания явных изображений. С этой целью мы представляем фреймворк Machine Mental Imagery, названный Mirage, который дополняет декодирование VLMs скрытыми визуальными токенами наряду с обычным текстом. Конкретно, когда модель решает «мыслить визуально», она преобразует свои скрытые состояния в следующие токены, тем самым продолжая мультимодальную траекторию без генерации изображений на уровне пикселей. На начальном этапе скрытые токены обучаются с использованием дистилляции из встраиваний эталонных изображений, после чего переходят к обучению только на тексте, чтобы скрытая траектория тесно соответствовала цели задачи. Последующий этап обучения с подкреплением дополнительно усиливает способность к мультимодальному рассуждению. Эксперименты на различных бенчмарках показывают, что Mirage раскрывает более сильное мультимодальное рассуждение без явной генерации изображений.
Унифицированное понимание и генерация изображений стали перспективной парадигмой в мультимодальном искусственном интеллекте. Несмотря на недавние успехи, оптимальная архитектурная конструкция для таких унифицированных моделей остается открытой проблемой. В данной работе мы начинаем с анализа поведения согласования модальностей в специализированных моделях для задач понимания и генерации, а также в современных унифицированных моделях. Наш анализ выявил ключевое наблюдение: задачи понимания выигрывают от постепенно увеличивающегося согласования модальностей по глубине сети, что помогает накапливать семантическую информацию для лучшего понимания; напротив, задачи генерации следуют иной тенденции: согласование модальностей увеличивается в начальных слоях, но уменьшается в глубоких слоях для восстановления пространственных деталей. Эти расходящиеся паттерны согласования создают фундаментальный конфликт в полностью общих трансформерных архитектурах, где единый поток представлений часто приводит к компромиссам в производительности для обеих задач. Вдохновленные этим открытием, мы представляем UniFork, новую Y-образную архитектуру, которая разделяет начальные слои для кросс-задачного обучения представлений, используя при этом специализированные ветви в глубоких слоях для предотвращения взаимного влияния задач. Этот дизайн эффективно балансирует общее обучение и специализацию задач. В ходе обширных экспериментов мы демонстрируем, что UniFork стабильно превосходит традиционные полностью общие трансформерные архитектуры и достигает производительности на уровне или выше, чем специализированные модели.
3D-контент, созданный с использованием искусственного интеллекта (AIGC), представляет собой динамично развивающуюся область, которая значительно ускорила процесс создания 3D-моделей в играх, кино и дизайне. Несмотря на разработку нескольких революционных моделей, которые изменили подход к генерации 3D-объектов, эта область остается в основном доступной только для исследователей, разработчиков и дизайнеров из-за сложностей, связанных с сбором, обработкой и обучением 3D-моделей. Для решения этих задач в данном руководстве мы представляем Hunyuan3D 2.1 в качестве примера. Это руководство предлагает подробное пошаговое руководство по обработке 3D-данных, обучению генеративной 3D-модели и оценке её производительности с использованием Hunyuan3D 2.1 — передовой системы для создания высококачественных текстурных 3D-ассетов. Система состоит из двух основных компонентов: Hunyuan3D-DiT для генерации формы и Hunyuan3D-Paint для синтеза текстур. Мы рассмотрим весь рабочий процесс, включая подготовку данных, архитектуру модели, стратегии обучения, метрики оценки и развертывание. К завершению этого руководства вы получите знания, необходимые для тонкой настройки или разработки надежной генеративной 3D-модели, подходящей для применения в играх, виртуальной реальности и промышленном дизайне.
Современные мультимодальные большие языковые модели (MLLM) способны анализировать видео продолжительностью в час, однако их кэш ключей и значений (KV) растет линейно со временем, быстро превышая фиксированную память телефонов, AR-очков и роботов на периферии. Предыдущие схемы сжатия либо предполагают, что все видео и запрос пользователя доступны оффлайн, либо сначала требуют построения полного кэша, поэтому память все равно масштабируется с длиной потока. InfiniPot-V — это первый не требующий обучения, независимый от запросов фреймворк, который обеспечивает жесткое ограничение памяти, не зависящее от длины потока, для понимания потокового видео. Во время кодирования видео он отслеживает кэш и, как только достигается заданный пользователем порог, запускает легковесное сжатие, которое (i) удаляет временно избыточные токены с помощью метрики Temporal-axis Redundancy (TaR) и (ii) сохраняет семантически значимые токены с помощью ранжирования Value-Norm (VaN). На четырех открытых MLLM и четырех бенчмарках для длинных видео и двух для потокового видео InfiniPot-V сокращает пиковую память GPU до 94%, поддерживает генерацию в реальном времени и соответствует или превосходит точность полного кэша — даже в многоходовых диалогах. Устраняя узкое место KV-кэша без переобучения или знания запросов, InfiniPot-V закрывает пробел для потоковых видеоассистентов на устройствах.
Одним из преимуществ моделей Vision-Language-Action (VLA) перед традиционным обучением с подражанием в робототехнике является возможность использовать широкие обобщающие способности крупных Vision-Language Models (VLM) для создания универсальных, "универсальных" политик для роботов. Однако текущие оценки VLA остаются недостаточными. Традиционные бенчмарки для обучения с подражанием непригодны из-за отсутствия языковых инструкций. Новые бенчмарки для VLA, включающие язык, часто ограничены в задачах для оценки и не предназначены для изучения того, насколько предварительное обучение VLM действительно способствует обобщающим способностям конечной политики робота. В то же время многие исследования опираются на реальные роботизированные установки, разработанные изолированно разными учреждениями, что создает барьеры для воспроизводимости и доступности. Чтобы устранить этот пробел, мы представляем унифицированный набор из 50 задач на основе симуляции, охватывающих 10 подкатегорий, включая языковые инструкции, зрение и объекты. Мы систематически оцениваем несколько современных архитектур VLA на этом наборе, чтобы понять их способность к обобщению. Наши результаты показывают, что хотя базовые VLM наделяют VLA устойчивым восприятием и высокоуровневым планированием, что мы называем "хорошими намерениями", это не всегда надежно переводится в точное моторное исполнение: при столкновении с наблюдениями, выходящими за пределы распределения, политики часто демонстрируют согласованные намерения, но терпят неудачу в исполнении действий. Более того, дообучение на данных о действиях может ухудшить изначальные универсальные способности VLM к рассуждению. Мы публикуем наш набор задач и код для оценки в качестве стандартного бенчмарка для будущих VLA и для стимулирования исследований, направленных на устранение разрыва между восприятием и действием. Дополнительная информация, включая исходный код, доступна по адресу https://ai4ce.github.io/INT-ACT/.
Идеальный симулятор дорожного движения воспроизводит реалистичные долгосрочные поездки от точки до точки, с которыми сталкивается автономная система в процессе эксплуатации. Предыдущие модели и тестовые наборы данных сосредоточены на замкнутом моделировании движения для начальных агентов в сцене. Это создает проблемы для долгосрочного моделирования, так как агенты появляются и исчезают из сцены, когда эго-транспортное средство перемещается в новые области. Мы предлагаем InfGen — унифицированную модель предсказания следующего токена, которая выполняет чередующееся замкнутое моделирование движения и генерацию сцены. InfGen автоматически переключается между режимами замкнутого моделирования движения и генерации сцены, что обеспечивает стабильное долгосрочное моделирование. InfGen демонстрирует наилучшие результаты в краткосрочном (9 секунд) моделировании дорожного движения и значительно превосходит все другие методы в долгосрочном (30 секунд) моделировании. Код и модель InfGen будут опубликованы на сайте https://orangesodahub.github.io/InfGen.
Объединение предварительно обученных экспертных моделей открывает значительные возможности для масштабируемого мультимодального рассуждения, однако создание унифицированной структуры остается сложной задачей из-за растущего разнообразия входных модальностей и сложности задач. Например, медицинская диагностика требует точного рассуждения на основе структурированных клинических таблиц, тогда как финансовое прогнозирование зависит от интерпретации данных, представленных в виде графиков, для принятия обоснованных решений. Для решения этой проблемы мы представляем MEXA — структуру, не требующую дополнительного обучения, которая выполняет модальностно- и задачно-ориентированную агрегацию нескольких экспертных моделей для эффективного мультимодального рассуждения в различных и разнородных областях. MEXA динамически выбирает экспертные модели на основе входной модальности и требований к рассуждению, специфичным для задачи (т.е. навыков). Каждая экспертная модель, специализирующаяся на паре модальность-задача, генерирует интерпретируемые текстовые выводы рассуждений. MEXA затем агрегирует и анализирует эти выводы с использованием Модели Крупного Рассуждения (LRM) для получения окончательного ответа. Такой модульный дизайн обеспечивает гибкое и прозрачное мультимодальное рассуждение в различных областях без дополнительных затрат на обучение. Мы тщательно оцениваем наш подход на разнообразных мультимодальных тестах, включая Видео Рассуждение, Аудио Рассуждение, 3D Понимание и Медицинские Вопросы и Ответы. MEXA демонстрирует стабильное улучшение производительности по сравнению с сильными мультимодальными базовыми моделями, подчеркивая эффективность и широкую применимость нашего экспертно-ориентированного выбора и агрегации в разнообразных задачах мультимодального рассуждения.
Генерация беспристрастных сводок в реальных условиях, таких как суммирование с учетом политической перспективы, остается важным применением крупных языковых моделей (LLM). Однако существующие системы оценки полагаются на традиционные метрики для измерения ключевых атрибутов, таких как охват и достоверность, без проверки их применимости, а усилия по разработке улучшенных методов суммирования все еще находятся на начальной стадии. Мы устраняем эти пробелы, (1) определяя надежные метрики для оценки качества сводок с учетом перспективы и (2) исследуя эффективность методов на основе LLM, выходящих за рамки нулевого вывода (zero-shot inference). В частности, мы создаем тестовый набор для проверки надежности метрик с использованием аннотаций, сделанных людьми, и показываем, что традиционные метрики уступают метрикам на основе языковых моделей, которые оказываются сильными инструментами оценки. Используя эти метрики, мы демонстрируем, что методы, основанные на переранжировании, дают впечатляющие результаты, а настройка предпочтений с использованием синтетически сгенерированных и помеченных данных переранжирования дополнительно повышает производительность. Наши результаты направлены на вклад в надежную оценку и разработку методов суммирования с учетом перспективы.
Водяные знаки на выходных данных генеративных моделей стали перспективным подходом для отслеживания их происхождения. Несмотря на значительный интерес к авторегрессионным моделям генерации изображений и их потенциальному злоупотреблению, до настоящего времени не было предпринято попыток внедрить водяные знаки на уровне токенов. В данной работе мы представляем первый подобный подход, адаптируя методы внедрения водяных знаков для языковых моделей к этой задаче. Мы выявляем ключевую проблему: отсутствие обратной цикловой согласованности (RCC), при которой повторная токенизация сгенерированных изображений значительно изменяет последовательность токенов, фактически стирая водяной знак. Для решения этой проблемы и обеспечения устойчивости нашего метода к типичным преобразованиям изображений, нейронному сжатию и атакам на удаление, мы предлагаем (i) процедуру тонкой настройки токенизатора и детокенизатора, улучшающую RCC, и (ii) дополнительный слой синхронизации водяных знаков. Как показывают наши эксперименты, наш подход позволяет надежно и устойчиво обнаруживать водяные знаки с теоретически обоснованными p-значениями.
Инверсия языковых моделей направлена на восстановление скрытых промптов, используя только выходные данные языковой модели. Эта возможность имеет значение для безопасности и подотчетности при развертывании языковых моделей, например, для утечки конфиденциальной информации из системного сообщения языковой модели, защищенной API. Мы предлагаем новый метод — инверсию промптов на основе последовательностей логарифмических вероятностей (PILS), который восстанавливает скрытые промпты, извлекая подсказки из вероятностей следующего токена модели в ходе нескольких шагов генерации. Наш метод основан на ключевом наблюдении: векторные выходные данные языковой модели занимают низкоразмерное подпространство. Это позволяет нам без потерь сжимать полное распределение вероятностей следующего токена на нескольких шагах генерации с использованием линейного отображения, что дает возможность использовать больше выходной информации для инверсии. Наш подход обеспечивает значительное улучшение по сравнению с предыдущими передовыми методами восстановления скрытых промптов, достигая в 2–3,5 раза более высоких показателей точного восстановления на тестовых наборах, в одном случае увеличивая показатель восстановления с 17% до 60%. Наш метод также демонстрирует удивительно хорошее поведение в плане обобщения; например, инвертор, обученный на 16 шагах генерации, показывает на 5–27 пунктов более высокое восстановление промптов при увеличении числа шагов до 32 во время тестирования. Кроме того, мы демонстрируем высокую производительность нашего метода в более сложной задаче восстановления скрытых системных сообщений. Мы также анализируем роль дословного повторения в восстановлении промптов и предлагаем новый метод для кросс-семейного переноса моделей для инверторов, основанных на логарифмических вероятностях. Наши результаты показывают, что вероятности следующего токена представляют собой значительно более уязвимую поверхность для атак инверсии, чем считалось ранее.