Ежедневно отобранные исследовательские статьи по ИИ с переводами
Последние достижения в области генерации изображений по текстовым описаниям (Text-to-Image, T2I) демонстрируют впечатляющие результаты, однако существующие модели по-прежнему испытывают трудности с запросами, требующими глубоких знаний о мире и неявного логического вывода. Оба этих аспекта критически важны для создания семантически точных, связных и контекстуально уместных изображений в реальных сценариях. Для устранения этого пробела мы представляем WorldGenBench — эталонный набор данных, предназначенный для систематической оценки способности моделей T2I к заземлению знаний о мире и неявному логическому выводу, охватывающий как гуманитарные, так и естественнонаучные области. Мы предлагаем метрику Knowledge Checklist Score, структурированный показатель, который измеряет, насколько хорошо сгенерированные изображения соответствуют ключевым семантическим ожиданиям. Эксперименты с 21 современной моделью показывают, что, хотя диффузионные модели лидируют среди открытых методов, проприетарные авторегрессивные модели, такие как GPT-4o, демонстрируют значительно более сильные способности к логическому выводу и интеграции знаний. Наши результаты подчеркивают необходимость более глубокого понимания и логического вывода в системах T2I следующего поколения. Страница проекта: https://dwanzhang-ai.github.io/WorldGenBench/{https://dwanzhang-ai.github.io/WorldGenBench/}
Трансформеры достигли значительных успехов в многочисленных задачах обработки естественного языка (NLP), но продолжают демонстрировать заметные пробелы в многошаговом фактологическом рассуждении, особенно в условиях недостатка реальных знаний. Недавние достижения в области "grokking" (интуитивного понимания) показали, что нейронные сети могут переходить от запоминания к идеальному обобщению, как только обнаруживают лежащие в основе логические закономерности, — однако эти исследования в основном использовали небольшие синтетические задачи. В данной работе мы впервые расширяем grokking на реальные фактологические данные и решаем проблему разреженности наборов данных, дополняя существующие графы знаний тщательно разработанными синтетическими данными, чтобы повысить отношение phi_r выводимых фактов к атомарным фактам выше порога, необходимого для grokking. Удивительно, но мы обнаруживаем, что даже фактологически некорректные синтетические данные могут укреплять возникающие схемы рассуждений, а не снижать точность, поскольку они заставляют модель полагаться на реляционную структуру, а не на запоминание. При оценке на бенчмарках многошагового рассуждения наш подход достигает точности до 95-100% на 2WikiMultiHopQA, значительно превосходя сильные базовые модели и соответствуя или превышая текущие результаты state-of-the-art. Мы также проводим детальный анализ того, как увеличение phi_r способствует формированию обобщающих схем внутри трансформеров. Наши результаты показывают, что дополнение данных на основе grokking может раскрыть скрытые возможности многошагового рассуждения, открывая путь к более надежному и интерпретируемому фактологическому рассуждению в крупномасштабных языковых моделях.
Голосовой ИИ-агент, который органично вписывается в повседневную жизнь, взаимодействовал бы с людьми автономно, в режиме реального времени и с эмоциональной выразительностью. Вместо того чтобы просто реагировать на команды, он бы непрерывно слушал, анализировал и отвечал проактивно, способствуя плавным, динамичным и эмоционально насыщенным взаимодействиям. Мы представляем Voila — семейство крупных голосово-языковых базовых моделей, которые делают шаг к реализации этого видения. Voila выходит за рамки традиционных систем с последовательной обработкой, предлагая новую сквозную архитектуру, которая обеспечивает полнодуплексные, низколатентные диалоги с сохранением богатых вокальных нюансов, таких как тон, ритм и эмоции. Она достигает задержки ответа всего в 195 миллисекунд, превосходя среднее время реакции человека. Её иерархический многоуровневый Transformer объединяет аналитические способности крупных языковых моделей (LLM) с мощным акустическим моделированием, позволяя создавать естественный, персонализированный голос — пользователи могут просто писать текстовые инструкции для определения идентичности, тона и других характеристик говорящего. Более того, Voila поддерживает более миллиона предварительно созданных голосов и эффективную настройку новых на основе коротких аудиозаписей длиной всего 10 секунд. Помимо устного диалога, Voila разработана как универсальная модель для широкого спектра голосовых приложений, включая автоматическое распознавание речи (ASR), преобразование текста в речь (TTS) и, с минимальной адаптацией, многоязыковой перевод речи. Voila полностью открыта для исследований, чтобы поддержать открытую науку и ускорить прогресс в области взаимодействия человека и машины следующего поколения.
Моделирование вознаграждений играет ключевую роль в согласовании больших языковых моделей (LLM) с человеческими предпочтениями, особенно в рамках обучения с подкреплением на основе обратной связи от человека (RLHF). Для обеспечения точных сигналов вознаграждения модель вознаграждения (RM) должна стимулировать глубокое мышление и проводить интерпретируемые рассуждения перед присвоением оценки или суждения. Однако существующие модели RM либо выдают непрозрачные скалярные оценки, либо напрямую генерируют предсказание предпочтительного ответа, что затрудняет интеграцию критики на естественном языке и снижает интерпретируемость. Вдохновленные недавними достижениями в области длинных цепочек рассуждений (CoT) для задач, требующих интенсивного анализа, мы выдвигаем и подтверждаем гипотезу о том, что интеграция возможностей рассуждения в моделирование вознаграждения значительно повышает интерпретируемость и производительность RM. В данной работе мы представляем новый класс генеративных моделей вознаграждения — Reasoning Reward Models (ReasRMs), которые формулируют моделирование вознаграждения как задачу рассуждения. Мы предлагаем ориентированный на рассуждения процесс обучения и обучаем семейство моделей ReasRMs, RM-R1. Обучение состоит из двух ключевых этапов: (1) дистилляции высококачественных цепочек рассуждений и (2) обучения с подкреплением с верифицируемыми вознаграждениями. RM-R1 улучшает результаты LLM, самостоятельно генерируя трассы рассуждений или специфические для чата критерии и оценивая кандидатные ответы на их основе. Эмпирически наши модели демонстрируют результаты, близкие к современным или превосходящие их, среди генеративных моделей вознаграждения на множестве комплексных бенчмарков, превосходя значительно более крупные модели с открытыми весами (например, Llama3.1-405B) и проприетарные модели (например, GPT-4o) на величину до 13,8%. Помимо итоговой производительности, мы проводим тщательный эмпирический анализ, чтобы понять ключевые компоненты успешного обучения ReasRM. Для содействия будущим исследованиям мы публикуем шесть моделей ReasRM вместе с кодом и данными на https://github.com/RM-R1-UIUC/RM-R1.
Мы демонстрируем, что Muon, простейшая реализация оптимизатора второго порядка, явно расширяет границу Парето по сравнению с AdamW в компромиссе между вычислительными затратами и временем. Мы обнаруживаем, что Muon более эффективен, чем AdamW, в сохранении эффективности данных при больших размерах пакетов, значительно превышающих так называемый критический размер пакета, оставаясь при этом вычислительно эффективным, что позволяет проводить более экономичное обучение. Мы исследуем комбинацию Muon с параметризацией максимального обновления (muP) для эффективного переноса гиперпараметров и представляем простой телескопический алгоритм, который учитывает все источники ошибок в muP, вводя лишь умеренные дополнительные затраты ресурсов. Мы подтверждаем наши выводы с помощью обширных экспериментов с моделями размером до четырех миллиардов параметров и анализами распределения данных и архитектуры.
Крупные языковые модели (LLM) широко применяются в чат-ботах, генераторах кода и поисковых системах. Задачи, такие как цепочка рассуждений (chain-of-thought), сложные логические рассуждения и сервисы агентов, значительно увеличивают стоимость вывода (inference) за счет многократного вызова модели. Для снижения затрат используются методы оптимизации, такие как параллелизм, сжатие и кэширование, однако разнообразие требований сервисов затрудняет выбор подходящего метода. В последнее время специализированные движки вывода LLM стали ключевым компонентом для интеграции методов оптимизации в инфраструктуры, ориентированные на сервисы. Тем не менее, систематическое исследование движков вывода все еще отсутствует. В данной статье представлено всестороннее оценивание 25 открытых и коммерческих движков вывода. Мы анализируем каждый движок с точки зрения удобства использования, простоты развертывания, поддержки универсальных задач, масштабируемости и пригодности для вычислений, ориентированных на пропускную способность и задержку. Кроме того, мы исследуем цели проектирования каждого движка, изучая поддерживаемые им методы оптимизации. Также мы оцениваем зрелость экосистемы открытых движков вывода и рассматриваем политики производительности и стоимости коммерческих решений. Мы намечаем будущие направления исследований, включая поддержку сложных сервисов на основе LLM, совместимость с различным оборудованием и усиление безопасности, предлагая практические рекомендации исследователям и разработчикам по выбору и проектированию оптимизированных движков вывода LLM. Мы также предоставляем публичный репозиторий для постоянного отслеживания разработок в этой быстро развивающейся области: https://github.com/sihyeong/Awesome-LLM-Inference-Engine.
Крупные языковые модели (LLM) достигли значительных успехов в выполнении сложных задач на рассуждение, однако их возможности остаются принципиально ограниченными из-за зависимости от статического внутреннего знания и текстового рассуждения. Решение реальных задач часто требует динамического, многошагового рассуждения, адаптивного принятия решений и способности взаимодействовать с внешними инструментами и окружением. В данной работе мы представляем ARTIST (Agentic Reasoning and Tool Integration in Self-improving Transformers) — унифицированную структуру, которая тесно связывает агентное рассуждение, обучение с подкреплением и интеграцию инструментов для LLM. ARTIST позволяет моделям автономно решать, когда, как и какие инструменты использовать в рамках многошаговых цепочек рассуждений, применяя обучение с подкреплением на основе результатов для изучения устойчивых стратегий использования инструментов и взаимодействия с окружением без необходимости пошагового контроля. Масштабные эксперименты на задачах математического рассуждения и многошагового вызова функций демонстрируют, что ARTIST стабильно превосходит современные базовые модели, достигая абсолютного улучшения до 22% по сравнению с базовыми моделями и значительного прогресса на наиболее сложных задачах. Детальные исследования и анализ метрик показывают, что обучение с агентным обучением с подкреплением приводит к более глубокому рассуждению, эффективному использованию инструментов и созданию решений более высокого качества. Наши результаты подтверждают, что агентное обучение с подкреплением в сочетании с интеграцией инструментов открывает новое мощное направление для создания устойчивых, интерпретируемых и обобщаемых решений в LLM.
Формальное математическое рассуждение остается важной задачей для искусственного интеллекта, ограниченной недостатками существующих тестовых наборов в плане охвата и масштаба. Чтобы решить эту проблему, мы представляем FormalMATH — крупномасштабный тестовый набор на основе Lean4, включающий 5 560 формально верифицированных задач, охватывающих от олимпиадных задач уровня старшей школы до теорем уровня бакалавриата в различных областях (например, алгебра, прикладная математика, математический анализ, теория чисел и дискретная математика). Для снижения неэффективности ручной формализации мы предлагаем новый подход с участием человека в цикле автоматической формализации, который включает: (1) специализированные большие языковые модели (LLM) для автоматической формализации утверждений, (2) семантическую проверку с использованием нескольких LLM и (3) стратегии фильтрации опровержений на основе отрицания с использованием готовых LLM-доказывателей. Этот подход снижает затраты на экспертные аннотации, сохраняя 72,09% утверждений до ручной проверки, при этом обеспечивая точность по отношению к исходным задачам на естественном языке. Наша оценка современных LLM-доказывателей выявила значительные ограничения: даже самые мощные модели достигают успеха только в 16,46% случаев при практических бюджетах выборки, демонстрируя выраженную предвзятость в зависимости от области (например, успехи в алгебре, но провалы в анализе) и чрезмерную зависимость от упрощенных тактик автоматизации. Примечательно, что мы обнаружили неожиданную обратную зависимость между руководством по решению на естественном языке и успехом доказательства в сценариях рассуждения с цепочкой мыслей, что указывает на то, что неформальные рассуждения, написанные человеком, вносят шум, а не ясность в формальные рассуждения. Мы считаем, что FormalMATH предоставляет надежный тестовый набор для оценки формального математического рассуждения.
Мультимодальные модели вознаграждения (MRMs) играют ключевую роль в повышении производительности мультимодальных больших языковых моделей (MLLMs). Хотя последние достижения в основном сосредоточены на улучшении структуры модели и данных обучения для MRMs, исследования эффективности долгосрочных способностей к рассуждению для моделирования вознаграждения и способов их активации в MRMs остаются ограниченными. В данной работе мы исследуем, как обучение с подкреплением (Reinforcement Learning, RL) может быть использовано для улучшения моделирования вознаграждения. В частности, мы переформулируем задачу моделирования вознаграждения как задачу RL на основе правил. Однако мы наблюдаем, что прямое применение существующих алгоритмов RL, таких как Reinforce++, к моделированию вознаграждения часто приводит к нестабильности обучения или даже к коллапсу из-за присущих этим алгоритмам ограничений. Для решения этой проблемы мы предлагаем алгоритм StableReinforce, который улучшает функцию потерь, стратегию оценки преимуществ и дизайн вознаграждения существующих методов RL. Эти улучшения приводят к более стабильной динамике обучения и превосходной производительности. Для облегчения обучения MRMs мы собираем 200 тыс. данных о предпочтениях из различных наборов данных. Наша модель вознаграждения R1-Reward, обученная с использованием алгоритма StableReinforce на этом наборе данных, значительно улучшает производительность на бенчмарках мультимодального моделирования вознаграждения. По сравнению с предыдущими моделями SOTA, R1-Reward достигает улучшения на 8,4% на VL Reward-Bench и на 14,3% на Multimodal Reward Bench. Более того, с увеличением вычислительных ресурсов для вывода производительность R1-Reward дополнительно улучшается, что подчеркивает потенциал алгоритмов RL в оптимизации MRMs.
Мы представляем ReplaceMe, обобщённый метод обрезки глубины, не требующий обучения, который эффективно заменяет блоки трансформера линейной операцией, сохраняя при этом высокую производительность при низких коэффициентах сжатия. В отличие от традиционных подходов к обрезке, которые требуют дополнительного обучения или тонкой настройки, наш метод использует лишь небольшой калибровочный набор данных для оценки линейного преобразования, аппроксимирующего удалённые блоки. Это линейное отображение может быть легко интегрировано с оставшимися блоками трансформера, устраняя необходимость в дополнительных параметрах сети. Наши эксперименты показывают, что ReplaceMe стабильно превосходит другие подходы, не требующие обучения, и остаётся высококонкурентоспособным по сравнению с передовыми методами обрезки, которые предполагают масштабное переобучение/тонкую настройку и модификации архитектуры. Применённый к нескольким крупным языковым моделям (LLM), ReplaceMe достигает обрезки до 25%, сохраняя при этом около 90% производительности исходной модели на открытых бенчмарках — без какого-либо обучения или этапов восстановления, что приводит к минимальным вычислительным затратам (см. рис. 1). Мы предоставляем открытую библиотеку, реализующую ReplaceMe вместе с несколькими передовыми методами обрезки глубины, доступную в этом репозитории.
Цепочка рассуждений (Chain-of-Thought, CoT) в больших языковых моделях (LLMs) может быть формализована как задача с латентными переменными, где модель должна генерировать промежуточные шаги рассуждений. Хотя предыдущие подходы, такие как итеративная тонкая настройка с ранжированием по вознаграждению (RAFT), опирались на такие формулировки, они обычно применяли равномерные вычислительные бюджеты для всех запросов, что не учитывало изменчивость сложности и поведения сходимости. В данной работе основным узким местом в обучении CoT идентифицируется неэффективная оценка стохастического градиента из-за статических стратегий выборки. Мы предлагаем GVM-RAFT — стратегию динамического распределения выборок, специфичную для каждого запроса, которая минимизирует дисперсию стохастического градиента при ограничении на вычислительный бюджет. Метод динамически распределяет вычислительные ресурсы, отслеживая показатели принятия запросов и нормы стохастических градиентов, что обеспечивает минимизацию дисперсии градиента. Наш теоретический анализ показывает, что предложенная стратегия динамической выборки приводит к ускоренным гарантиям сходимости при подходящих условиях. Эксперименты на задачах математического рассуждения демонстрируют, что GVM-RAFT достигает ускорения в 2-4 раза и значительного улучшения точности по сравнению с базовым RAFT. Предложенная стратегия динамической выборки является универсальной и может быть интегрирована в другие алгоритмы обучения с подкреплением, такие как GRPO, приводя к аналогичным улучшениям в сходимости и точности на тестах. Наш код доступен по адресу https://github.com/RLHFlow/GVM.
Реальное время, интеллектуальное и естественное речевое взаимодействие является важной частью следующего поколения взаимодействия человека с компьютером. Последние достижения продемонстрировали потенциал создания интеллектуальных речевых чат-ботов на основе крупных языковых моделей (LLM). В данной статье мы представляем LLaMA-Omni 2 — серию речевых языковых моделей (SpeechLM) с параметрами от 0,5 млрд до 14 млрд, способных обеспечивать высококачественное взаимодействие в реальном времени. LLaMA-Omni 2 построена на основе моделей серии Qwen2.5, интегрируя речевой кодировщик и авторегрессивный потоковый речевой декодер. Несмотря на обучение всего на 200 тыс. многоходовых речевых диалоговых образцов, LLaMA-Omni 2 демонстрирует высокую производительность на нескольких тестах по речевому ответу на вопросы и выполнению речевых инструкций, превосходя предыдущие передовые SpeechLM, такие как GLM-4-Voice, которые обучались на миллионах часов речевых данных.
Эффективное моделирование социального интеллекта требует от языковых агентов способности динамически адаптировать глубину рассуждений, что заметно отсутствует в современных подходах. Существующие методы либо не обладают такой способностью к рассуждениям, либо применяют единообразные длинные цепочки рассуждений для всех сценариев, что приводит к избыточному использованию токенов и некорректному моделированию социального поведения. В данной статье мы предлагаем Adaptive Mode Learning (AML), который стратегически выбирает один из четырех режимов мышления (от интуитивной реакции до глубокого анализа) на основе контекста в реальном времени. Ключевым нововведением нашей структуры является алгоритм Adaptive Mode Policy Optimization (AMPO), который вносит три важных улучшения по сравнению с существующими методами: (1) Многоуровневое проектирование режимов мышления, (2) Контекстно-зависимое переключение режимов в ходе социального взаимодействия и (3) Эффективное использование токенов за счет адаптивной обработки глубины. Многочисленные эксперименты на задачах социального интеллекта подтверждают, что AML достигает на 15,6% более высокой производительности, чем современные методы. В частности, наш метод превосходит GRPO на 7,0% при сокращении цепочек рассуждений на 32,8%. Эти результаты демонстрируют, что контекстно-зависимый выбор режимов мышления, реализованный в AMPO, обеспечивает более человекообразное адаптивное рассуждение по сравнению с подходом GRPO с фиксированной глубиной.
Мы рассматриваем фундаментальную проблему в обучении с подкреплением на основе демонстраций взаимодействия (RLID): шум в демонстрациях и ограничения их охвата. Хотя существующие подходы к сбору данных предоставляют ценные демонстрации взаимодействия, они часто приводят к разреженным, разрозненным и зашумленным траекториям, которые не охватывают весь спектр возможных вариаций навыков и переходов. Наше ключевое наблюдение заключается в том, что, несмотря на зашумленные и разреженные демонстрации, существует бесконечное множество физически реализуемых траекторий, которые естественным образом связывают продемонстрированные навыки или возникают из их соседних состояний, формируя непрерывное пространство возможных вариаций навыков и переходов. Основываясь на этом наблюдении, мы предлагаем два метода увеличения данных: Граф Сшитых Траекторий (STG), который обнаруживает потенциальные переходы между продемонстрированными навыками, и Поле Переходов Состояний (STF), которое устанавливает уникальные связи для произвольных состояний в окрестности демонстраций. Для эффективного RLID с увеличенными данными мы разрабатываем стратегию Адаптивной Выборки Траекторий (ATS) для динамического формирования учебного плана и механизм исторического кодирования для обучения навыкам, зависящим от памяти. Наш подход обеспечивает устойчивое освоение навыков, которое значительно обобщается за пределы эталонных демонстраций. Многочисленные эксперименты в различных задачах взаимодействия демонстрируют существенное улучшение по сравнению с современными методами в плане устойчивости сходимости, способности к обобщению и устойчивости к восстановлению.
Из-за сложностей ручного сбора точных данных о редактировании существующие наборы данных обычно создаются с использованием различных автоматизированных методов, что приводит к зашумленным сигналам обучения, вызванным несоответствием между инструкциями по редактированию и парами исходных и отредактированных изображений. Недавние попытки улучшить модели редактирования за счет генерации изображений более высокого качества, предварительного обучения на задачах распознавания или внедрения моделей, объединяющих зрение и язык (VLMs), не смогли решить эту фундаментальную проблему. В данной статье мы предлагаем новое решение, заключающееся в создании более эффективных инструкций по редактированию для заданных пар изображений. Это включает исправление инструкций по редактированию для лучшего соответствия парам исходных и отредактированных изображений, а также использование контрастных инструкций для дальнейшего повышения их эффективности. В частности, мы обнаружили, что модели редактирования демонстрируют определенные атрибуты генерации на разных этапах вывода, независимо от текста. На основе этих априорных атрибутов мы определяем унифицированное руководство для VLMs, чтобы исправлять инструкции по редактированию. Однако существуют сложные сценарии редактирования, которые невозможно разрешить только с помощью исправленных инструкций. Для этого мы дополнительно создаем контрастные сигналы обучения с использованием положительных и отрицательных инструкций и внедряем их в обучение модели с использованием тройной функции потерь, тем самым дополнительно повышая эффективность обучения. Наш метод не требует модулей VLMs или задач предварительного обучения, использовавшихся в предыдущих работах, предлагая более прямой и эффективный способ предоставления лучших сигналов обучения, а также предоставляя новое, простое и эффективное решение для редактирования изображений на основе инструкций. Результаты на нескольких тестовых наборах данных демонстрируют, что наш метод значительно превосходит существующие подходы. По сравнению с предыдущим SOTA SmartEdit, мы достигаем улучшения на 9,19% на тестовом наборе Real-Edit, используя в 30 раз меньше данных для обучения и модель в 13 раз меньшего размера.
Мы представляем Ming-Lite-Uni — открытый мультимодальный фреймворк, включающий вновь разработанный унифицированный визуальный генератор и нативную мультимодальную авторегрессионную модель, предназначенную для объединения зрения и языка. В частности, этот проект предоставляет открытую реализацию интегрированных MetaQueries и фреймворка M2-omni, а также вводит новые многоуровневые обучаемые токены и стратегию выравнивания многоуровневых представлений. Используя фиксированную MLLM и обучаемую диффузионную модель, Ming-Lite-Uni позволяет нативным мультимодальным AR-моделям выполнять как генерацию изображений из текста, так и задачи редактирования изображений на основе инструкций, расширяя их возможности за пределы чисто визуального понимания. Наши экспериментальные результаты демонстрируют высокую производительность Ming-Lite-Uni и иллюстрируют впечатляющую плавность его интерактивного процесса. Весь код и веса моделей открыты для дальнейшего изучения сообществом. Примечательно, что эта работа соответствует современным достижениям в области мультимодального ИИ, таким как ChatGPT-4o с нативной генерацией изображений, обновлённым 25 марта 2025 года, подчеркивая более широкую значимость унифицированных моделей, подобных Ming-Lite-Uni, на пути к ИИ общего назначения (AGI). Ming-Lite-Uni находится на альфа-стадии и вскоре будет доработан.
Крупные языковые модели (LLMs) демонстрируют впечатляющие результаты в различных областях. Однако значительные аппаратные ресурсы, необходимые для их обучения, представляют собой серьезное препятствие для повышения эффективности и масштабируемости. Для решения этой проблемы широко применяются методы обучения с низкой точностью, что привело к заметным улучшениям в эффективности обучения. Несмотря на эти достижения, обучение с низкой точностью включает несколько компонентов — такие как веса, активации и градиенты, — каждый из которых может быть представлен в различных числовых форматах. Это разнообразие создало фрагментированную картину в исследованиях обучения с низкой точностью, затрудняя для исследователей получение единого обзора области. Данный обзор представляет собой всесторонний анализ существующих методов обучения с низкой точностью. Для систематизации этих подходов мы классифицируем их на три основные группы в зависимости от используемых числовых форматов, что является ключевым фактором, влияющим на совместимость с аппаратным обеспечением, вычислительную эффективность и удобство для читателей. Категории включают: (1) методы, основанные на фиксированной точке и целых числах, (2) методы, основанные на числах с плавающей точкой, и (3) методы, использующие специализированные форматы. Кроме того, мы обсуждаем подходы к обучению с учетом квантования, которые имеют ключевые сходства с обучением с низкой точностью в процессе прямого распространения. Наконец, мы выделяем несколько перспективных направлений исследований для дальнейшего развития этой области. Сборник статей, рассмотренных в данном обзоре, доступен по ссылке: https://github.com/Hao840/Awesome-Low-Precision-Training.
Понимание причинно-следственных связей между событиями и достижение точного временного закрепления в видео остаются сложными задачами для моделей, работающих с визуальными и языковыми данными. Существующие методы либо сжимают видео-токены для снижения временного разрешения, либо рассматривают видео как непрерывные потоки, что скрывает границы событий и ограничивает моделирование причинно-следственных зависимостей. Мы предлагаем TEMPURA (Temporal Event Masked Prediction and Understanding for Reasoning in Action) — двухэтапную обучающую структуру, которая улучшает понимание временной структуры видео. TEMPURA сначала применяет рассуждения с предсказанием маскированных событий для восстановления пропущенных событий и генерации пошаговых причинно-следственных объяснений на основе плотных аннотаций событий, вдохновляясь эффективными методами заполнения пропусков. Затем TEMPURA обучается выполнять сегментацию видео и плотное описание, разбивая видео на неперекрывающиеся события с детальными описаниями, привязанными к временным меткам. Мы обучаем TEMPURA на VER, крупномасштабном наборе данных, созданном нами, который включает 1 млн обучающих примеров и 500 тыс. видео с временно выровненными описаниями событий и структурированными шагами рассуждений. Эксперименты на задачах временного закрепления и обнаружения ключевых моментов показывают, что TEMPURA превосходит сильные базовые модели, подтверждая, что интеграция причинно-следственного анализа с точной временной сегментацией приводит к улучшенному пониманию видео.
Современные подходы к настройке для нескольких объектов сталкиваются с двумя ключевыми проблемами: сложностью получения разнообразных обучающих данных для нескольких объектов и переплетением атрибутов между различными объектами. Для преодоления этих ограничений мы предлагаем MUSAR — простую, но эффективную структуру, которая позволяет достичь надежной настройки для нескольких объектов, используя только данные для одного объекта. Во-первых, чтобы устранить ограничения данных, мы вводим обучение с устранением смещения через диптихи. Оно создает диптихи обучающих пар из изображений одного объекта, что способствует обучению для нескольких объектов, одновременно активно корректируя смещение распределения, вызванное построением диптихов, с помощью статической маршрутизации внимания и двухветвевой LoRA. Во-вторых, для устранения переплетения между объектами мы вводим механизм динамической маршрутизации внимания, который адаптивно устанавливает биективные соответствия между генерируемыми изображениями и условными объектами. Этот подход не только обеспечивает разделение представлений для нескольких объектов, но и поддерживает масштабируемую обобщающую способность с увеличением числа эталонных объектов. Комплексные эксперименты показывают, что наш MUSAR превосходит существующие методы — даже те, которые обучены на наборах данных для нескольких объектов — по качеству изображений, согласованности объектов и естественности взаимодействий, несмотря на использование только данных для одного объекта.
Механизмы внимания играют ключевую роль в успехе крупных языковых моделей (LLM), способствуя значительным достижениям в различных областях. Однако для графоструктурированных данных, где требуется акцент на топологических связях, они уступают механизмам передачи сообщений по фиксированным связям, таким как те, что используются в графовых нейронных сетях (GNN). Это поднимает вопрос: «Неужели механизмы внимания неэффективны для графов в контексте обработки естественного языка?» Вдохновленные этими наблюдениями, мы провели эмпирическое исследование с точки зрения механизмов внимания, чтобы изучить, как LLM обрабатывают графоструктурированные данные. Целью было получить более глубокое понимание поведения внимания LLM на графовых структурах. Мы обнаружили уникальные явления, связанные с тем, как LLM применяют внимание к графоструктурированным данным, и проанализировали эти результаты для улучшения моделирования таких данных с помощью LLM. Основные выводы нашего исследования следующие: 1) Хотя LLM способны распознавать графовые данные и улавливать взаимодействия между текстом и узлами, они испытывают трудности с моделированием отношений между узлами в графовых структурах из-за присущих им архитектурных ограничений. 2) Распределение внимания LLM по узлам графа не соответствует идеальным структурным паттернам, что указывает на неспособность адаптироваться к нюансам топологии графа. 3) Ни полностью связанное внимание, ни фиксированная связность не являются оптимальными; каждый из подходов имеет свои ограничения в конкретных сценариях применения. Вместо этого промежуточные окна внимания улучшают производительность обучения LLM и плавно переходят к полностью связанным окнам во время вывода. Исходный код: https://github.com/millioniron/LLM_exploration{LLM4Exploration}
Недавние методы NeRF для крупномасштабных сцен подчеркнули важность декомпозиции сцены для масштабируемых NeRF. Хотя они достигают разумной масштабируемости, остаются несколько критических проблем, которые пока не исследованы, такие как обучаемая декомпозиция, моделирование неоднородности сцены и эффективность моделирования. В данной статье мы представляем Switch-NeRF++, сеть Heterogeneous Mixture of Hash Experts (HMoHE), которая решает эти задачи в рамках единой структуры. Это высокомасштабируемый NeRF, который эффективно обучает неоднородную декомпозицию и неоднородные NeRF для крупномасштабных сцен в сквозном режиме. В нашей структуре сеть управления обучается декомпозиции сцен и распределяет 3D-точки между специализированными экспертами NeRF. Эта сеть управления совместно оптимизируется с экспертами с помощью предложенной нами структуры Sparsely Gated Mixture of Experts (MoE) NeRF. Мы включаем сеть управления на основе хэширования и различные неоднородные хэш-эксперты. Сеть управления на основе хэширования эффективно обучает декомпозицию крупномасштабной сцены. Различные неоднородные хэш-эксперты состоят из хэш-сеток с различными диапазонами разрешений, что позволяет эффективно обучать неоднородное представление различных частей сцены. Эти проектные решения делают нашу структуру сквозным и высокомасштабируемым решением NeRF для моделирования реальных крупномасштабных сцен, обеспечивая как качество, так и эффективность. Мы оцениваем точность и масштабируемость на существующих наборах данных крупномасштабных NeRF и новом наборе данных с очень крупномасштабными сценами (>6.5 км²) из UrbanBIS. Многочисленные эксперименты демонстрируют, что наш подход легко масштабируется для различных крупномасштабных сцен и достигает передовой точности рендеринга сцен. Кроме того, наш метод демонстрирует значительную эффективность, с ускорением обучения в 8 раз и ускорением рендеринга в 16 раз по сравнению с Switch-NeRF. Код будет доступен по адресу https://github.com/MiZhenxing/Switch-NeRF.
LLM, обученные на огромных наборах данных, могут непреднамеренно усваивать конфиденциальную информацию, такую как личные данные и потенциально вредоносный контент. Этот риск еще больше возрастает в мультимодальных LLM, поскольку они интегрируют информацию из нескольких модальностей (изображение и текст). Злоумышленники могут использовать эти знания с помощью мультимодальных запросов для извлечения конфиденциальных сведений. Оценка того, насколько эффективно MLLM могут забывать такую информацию (целевое удаление знаний), требует создания высококачественных, хорошо аннотированных пар изображение-текст. Хотя предыдущие работы по удалению знаний были сосредоточены на тексте, мультимодальное удаление остается малоизученным. Чтобы восполнить этот пробел, мы сначала представляем мультимодальный бенчмарк для удаления знаний, UnLOK-VQA (Unlearning Outside Knowledge VQA), а также фреймворк "атака-защита" для оценки методов удаления конкретных мультимодальных знаний из MLLM. Мы расширяем набор данных для визуального ответа на вопросы с помощью автоматизированного конвейера, который генерирует образцы с различной степенью близости для тестирования обобщения и специфичности, за которым следует ручная фильтрация для поддержания высокого качества. Затем мы оцениваем шесть целей защиты против семи атак (четыре белых ящика, три черных ящика), включая новый метод белого ящика, использующий интерпретируемость скрытых состояний. Наши результаты показывают, что мультимодальные атаки превосходят атаки только на текст или изображение, и что наиболее эффективная защита удаляет информацию о ответах из внутренних состояний модели. Кроме того, более крупные модели демонстрируют большую устойчивость после редактирования, что позволяет предположить, что масштаб повышает безопасность. UnLOK-VQA предоставляет строгий бенчмарк для продвижения исследований в области удаления знаний в MLLM.
Камеры событий фиксируют динамику движения, предоставляя уникальную модальность с большим потенциалом для различных задач компьютерного зрения. Однако слияние RGB и событий сталкивается с тремя внутренними несоответствиями: (i) временным, (ii) пространственным и (iii) модальным. Существующие представления в виде воксельных сеток игнорируют временные корреляции между последовательными окнами событий, а их формулировка с простым накоплением асинхронных и разреженных событий несовместима с синхронной и плотной природой RGB-модальности. Для решения этих проблем мы предлагаем новое представление событий — Motion-enhanced Event Tensor (MET), которое преобразует разреженные воксели событий в плотную и временно согласованную форму, используя плотные оптические потоки и временные характеристики событий. Кроме того, мы вводим Frequency-aware Bidirectional Flow Aggregation Module (BFAM) и Temporal Fusion Module (TFM). BFAM использует частотную область и MET для смягчения модального несоответствия, в то время как двунаправленная агрегация потоков и механизмы временного слияния устраняют пространственно-временное несоответствие. Экспериментальные результаты на двух крупномасштабных наборах данных показывают, что наш подход значительно превосходит современные методы семантической сегментации RGB-событий. Наш код доступен по адресу: https://github.com/zyaocoder/BRENet.