Ежедневно отобранные исследовательские статьи по ИИ с переводами
С выходом модели o1 от OpenAI постепенно начали появляться модели рассуждений, использующие стратегии медленного мышления. Поскольку ответы, генерируемые такими моделями, часто включают сложные рассуждения, промежуточные шаги и саморефлексию, существующие методы оценки оказываются недостаточными. Они с трудом определяют, действительно ли вывод языковой модели эквивалентен эталонному ответу, а также испытывают сложности с идентификацией и извлечением итогового ответа из длинных и сложных ответов. Для решения этой проблемы мы предлагаем xVerify — эффективный верификатор ответов для оценки моделей рассуждений. xVerify демонстрирует высокую способность к суждению об эквивалентности, что позволяет ему эффективно определять, эквивалентны ли ответы, сгенерированные моделями рассуждений, эталонным ответам для различных типов объективных вопросов. Для обучения и оценки xVerify мы создаем набор данных VAR, собирая пары вопрос-ответ, сгенерированные несколькими языковыми моделями на различных наборах данных, используя несколько моделей рассуждений и сложные наборы для оценки, специально разработанные для тестирования моделей рассуждений. Многоэтапный процесс аннотирования применяется для обеспечения точности меток. На основе набора данных VAR мы обучаем несколько моделей xVerify разного масштаба. В экспериментах по оценке, проведенных на тестовом и обобщающем наборах, все модели xVerify достигают общего показателя F1 и точности выше 95%. Примечательно, что самая маленькая версия, xVerify-0.5B-I, превосходит все методы оценки, кроме GPT-4o, в то время как xVerify-3B-Ib превосходит GPT-4o по общим показателям. Эти результаты подтверждают эффективность и универсальность xVerify.
Мы представляем Seedream 3.0 — высокопроизводительную двуязычную (китайско-английскую) модель генерации изображений, основанную на фундаментальных принципах. Мы разработали ряд технических улучшений для решения существующих проблем Seedream 2.0, включая согласование со сложными запросами, генерацию детализированной типографики, улучшение визуальной эстетики и точности, а также повышение разрешения изображений. В частности, прогресс Seedream 3.0 обусловлен улучшениями на всех этапах, от построения данных до развертывания модели. На уровне данных мы удвоили набор данных, используя подход к обучению с учетом дефектов и двухосевую совместную структуру выборки данных. Кроме того, в фазе предварительного обучения мы применяем несколько эффективных методов, таких как обучение с использованием смешанного разрешения, кросс-модальный RoPE, функция потерь для согласования представлений и выборка временных шагов с учетом разрешения. На этапе пост-обучения мы используем разнообразные эстетические описания в SFT (Supervised Fine-Tuning) и масштабируемую модель вознаграждения на основе VLM (Vision-Language Model), что позволяет достичь результатов, хорошо согласованных с предпочтениями человека. Кроме того, Seedream 3.0 представляет собой новую парадигму ускорения. Благодаря использованию согласованного ожидания шума и выборки временных шагов с учетом важности, мы достигаем ускорения в 4–8 раз при сохранении качества изображений. Seedream 3.0 демонстрирует значительные улучшения по сравнению с Seedream 2.0: она повышает общие возможности, особенно в области рендеринга сложных китайских символов, что важно для профессиональной генерации типографики. Кроме того, она обеспечивает нативное высокое разрешение (до 2K), позволяя создавать изображения с высокой визуальной качеством.
Развитие навыков рассуждения у крупных языковых моделей (LLM) вызывает широкий интерес. Однако современные методы пост-обучения в значительной степени зависят от контролирующих сигналов, таких как контроль результатов или вспомогательные модели вознаграждения, что сталкивается с проблемами масштабируемости и высоких затрат на аннотацию. Это мотивирует нас улучшать рассуждения LLM без необходимости внешнего контроля. Мы представляем обобщаемую и полностью неконтролируемую структуру самообучения под названием Genius. Без внешних вспомогательных средств Genius требует поиска оптимальной последовательности ответов пошагово и оптимизации LLM. Для исследования потенциальных шагов и использования оптимальных Genius вводит стратегию пошагового предвидения с повторной выборкой, чтобы моделировать будущие результаты и оценивать ценность шагов. Кроме того, мы признаем, что неконтролируемая настройка неизбежно вызывает внутренний шум и неопределенность. Для обеспечения устойчивой оптимизации мы предлагаем функцию потерь с калибровкой преимуществ (ACO), чтобы смягчить несоответствия в оценках. Объединяя эти методы, Genius представляет собой продвинутый начальный шаг к самоулучшению рассуждений LLM на основе общих запросов без контроля, революционизируя законы масштабирования рассуждений с учетом широкой доступности общих запросов. Код будет доступен по адресу https://github.com/xufangzhi/Genius.
По мере того как посттренировка больших языковых моделей (LLM) переходит от выполнения инструкций к сложным задачам логического рассуждения, понимание того, как различные данные влияют на динамику тонкой настройки, остается в значительной степени неисследованным. В данной статье мы представляем спектральный анализ послойных градиентов, вызванных данными низкого/высокого качества для инструкций и логических рассуждений при посттренировке LLM. Наш анализ показывает, что широко изучаемые метрики для оценки данных, такие как IFD, InsTag, Difficulty и Reward, могут быть объяснены и объединены с помощью спектральных свойств, вычисленных из сингулярного разложения (SVD) градиентов. В частности, данные более высокого качества обычно связаны с меньшими ядерными нормами и более высокими эффективными рангами. Примечательно, что эффективный ранг демонстрирует лучшую устойчивость и разрешающую способность, чем ядерная норма, при улавливании тонких различий в качестве. Например, данные для логических рассуждений достигают значительно более высоких эффективных рангов, чем данные для инструкций, что подразумевает более богатые структуры градиентов для более сложных задач. Наши эксперименты также подчеркивают, что модели из одного семейства демонстрируют схожие паттерны градиентов независимо от их размеров, тогда как модели из разных семейств значительно расходятся. Предоставляя унифицированный взгляд на влияние качества данных для инструкций и логических рассуждений, эта работа освещает взаимодействие между качеством данных и стабильностью обучения, предлагая новые идеи для разработки более эффективных стратегий исследования данных при посттренировке.
Искусственная интеллектуальная система может создавать и поддерживать знания только в той мере, в которой она способна самостоятельно их проверять. Недавние исследования в области длинных цепочек рассуждений (Chain-of-Thought) продемонстрировали значительный потенциал крупных языковых моделей (LLM) в решении сложных задач, однако их способность к проверке остается слабой и недостаточно изученной. В данной статье мы представляем Heimdall — LLM для проверки длинных цепочек рассуждений, которая может точно оценивать корректность решений. С использованием чистого обучения с подкреплением мы повысили точность проверки с 62,5% до 94,5% на конкурсных математических задачах. При масштабировании с повторной выборкой точность дополнительно увеличилась до 97,5%. В ходе человеческой оценки Heimdall продемонстрировала впечатляющие способности к обобщению, успешно выявляя большинство ошибок в сложных математических доказательствах, тип которых не был включен в обучающие данные. Кроме того, мы предлагаем Пессимистическую Проверку (Pessimistic Verification) для расширения функциональности Heimdall в масштабировании решения задач. Этот метод использует Heimdall для оценки решений, предоставленных моделью-решателем, и на основе пессимистического принципа выбирает наиболее вероятно правильное решение с наименьшей неопределенностью. При использовании модели DeepSeek-R1-Distill-Qwen-32B в качестве решателя Пессимистическая Проверка повысила точность решений на задачах AIME2025 с 54,2% до 70,0% при 16-кратном вычислительном бюджете и до 83,3% при увеличении бюджета. С более мощной моделью Gemini 2.5 Pro результат достиг 93,0%. Наконец, мы разработали прототип системы автоматического открытия знаний — троичной системы, где один компонент задает вопросы, другой предоставляет решения, а третий проверяет их. Используя работу по синтезу данных NuminaMath для первых двух компонентов, Heimdall эффективно выявила проблемные записи в наборе данных и показала, что почти половина данных содержит ошибки, что интересным образом согласуется с недавними исследованиями исключений из NuminaMath.
TextArena представляет собой открытую коллекцию соревновательных текстовых игр, предназначенных для обучения и оценки агентного поведения в больших языковых моделях (LLM). Она охватывает более 57 уникальных сред (включая одиночные, двух- и многопользовательские режимы) и позволяет легко оценивать возможности моделей с помощью системы онлайн-игры (против людей и других представленных моделей) с использованием рейтингов TrueSkill в реальном времени. Традиционные тесты редко оценивают динамические социальные навыки, такие как переговоры, теория сознания и обман, что создает пробел, который устраняет TextArena. Разработанная с учетом исследований, сообщества и расширяемости, TextArena делает акцент на простоте добавления новых игр, адаптации фреймворка, тестирования моделей, игры против моделей и их обучения. Подробная документация по средам, играм, таблице лидеров и примерам доступна на https://github.com/LeonGuertler/TextArena и https://www.textarena.ai/.
Мультимодальные большие языковые модели (MLLM) демонстрируют выдающиеся результаты в задачах детального понимания на уровне пикселей. Однако все существующие работы сильно зависят от дополнительных компонентов, таких как визуальный кодировщик (CLIP) или эксперты по сегментации, что приводит к высокой сложности системы и ограничивает масштабируемость моделей. В данной работе наша цель — исследовать максимально упрощённую MLLM без введения дополнительных компонентов. Наше исследование вдохновлено недавними работами по проектированию единой модели на основе одного трансформера для задач визуального и языкового моделирования (SAIL), где визуальные и текстовые токены обучаются совместно в рамках трансформера. Мы представляем Pixel-SAIL — единый трансформер для задач пиксельного MLLM. В частности, мы предлагаем три технических улучшения по сравнению с базовой моделью. Во-первых, мы разработали обучаемый модуль апсемплинга для уточнения признаков визуальных токенов. Во-вторых, мы предлагаем новую стратегию инъекции визуальных подсказок, которая позволяет единому трансформеру понимать входные визуальные подсказки и извлекать пользу из раннего слияния эмбеддингов визуальных подсказок и визуальных токенов. В-третьих, мы вводим стратегию дистилляции знаний от визуальных экспертов для эффективного улучшения способности единого трансформера извлекать детализированные признаки. Кроме того, мы собрали комплексный бенчмарк для задач пиксельного понимания (PerBench), используя ручную проверку. Он включает три задачи: детальное описание объектов, ответы на вопросы на основе визуальных подсказок и визуально-текстовую референсную сегментацию. Эксперименты на четырёх бенчмарках для референсной сегментации, одном бенчмарке для визуальных подсказок и нашем PerBench показывают, что Pixel-SAIL достигает сопоставимых или даже лучших результатов при значительно более простом пайплайне. Код и модель будут доступны по адресу https://github.com/magic-research/Sa2VA.
Оценка нормалей поверхности является краеугольным камнем для широкого спектра задач компьютерного зрения. Хотя значительные усилия были направлены на обработку статических изображений, обеспечение временной согласованности в оценке нормалей на основе видео остается серьезной проблемой. Вместо простого дополнения существующих методов временными компонентами мы представляем NormalCrafter, который использует внутренние временные априорные знания моделей диффузии видео. Для обеспечения высокоточной оценки нормалей в последовательностях мы предлагаем семантическую регуляризацию признаков (Semantic Feature Regularization, SFR), которая согласует признаки диффузии с семантическими подсказками, побуждая модель сосредоточиться на внутренней семантике сцены. Кроме того, мы вводим двухэтапный протокол обучения, который использует как латентное, так и пиксельное пространство для сохранения пространственной точности при поддержании длительного временного контекста. Многочисленные эксперименты демонстрируют эффективность нашего метода, показывая превосходные результаты в генерации временно согласованных последовательностей нормалей с детализированными данными из разнообразных видео.
Обучение с подкреплением (RL) стало преобладающим подходом для тонкой настройки больших языковых моделей (LLM) на задачах сложного рассуждения. Среди последних методов выделяется GRPO, который демонстрирует эмпирический успех в обучении моделей, таких как DeepSeek-R1, однако источники его эффективности остаются мало изученными. В данной работе мы рассматриваем GRPO с точки зрения алгоритмов, подобных reinforce, и анализируем его ключевые компоненты. Удивительно, но мы обнаруживаем, что простой базовый метод с использованием выборки с отклонением, RAFT, который обучается только на положительно вознаграждаемых примерах, демонстрирует конкурентоспособную производительность по сравнению с GRPO и PPO. Наши исследования показывают, что основное преимущество GRPO заключается в отбрасывании запросов с полностью неверными ответами, а не в нормализации вознаграждений. Вдохновленные этим наблюдением, мы предлагаем Reinforce-Rej — минимальное расширение градиента политики, которое фильтрует как полностью неверные, так и полностью правильные примеры. Reinforce-Rej улучшает эффективность KL и стабильность, выступая в качестве легковесной, но эффективной альтернативы более сложным алгоритмам RL. Мы рекомендуем RAFT как надежный и интерпретируемый базовый метод и предлагаем, чтобы будущие разработки сосредоточились на более принципиальных подходах к включению негативных примеров, а не на их безразборном использовании. Наши результаты предоставляют рекомендации для будущих работ в области пост-обучения LLM на основе вознаграждений.
Модели рассуждений продемонстрировали значительный прогресс в решении сложных и логически насыщенных задач, генерируя расширенные цепочки рассуждений (Chain-of-Thoughts, CoTs) перед получением окончательного ответа. Однако появление этой парадигмы "медленного мышления", при которой последовательно генерируется множество токенов, неизбежно приводит к существенным вычислительным затратам. Это подчеркивает острую необходимость в эффективном ускорении. Данный обзор ставит целью предоставить всесторонний обзор последних достижений в области эффективного рассуждения. Он классифицирует существующие работы по трем ключевым направлениям: (1) сокращение — сжатие длинных CoTs в краткие, но эффективные цепочки рассуждений; (2) уменьшение — разработка компактных языковых моделей с сильными способностями к рассуждению с использованием таких методов, как дистилляция знаний, другие методы сжатия моделей и обучение с подкреплением; и (3) ускорение — проектирование эффективных стратегий декодирования для ускорения вывода. Подборка статей, обсуждаемых в этом обзоре, доступна в нашем репозитории на GitHub.
Поскольку предварительное обучение больших языковых моделей на различных наборах данных является дорогостоящим, использование экспериментов меньшего масштаба для выбора данных имеет решающее значение для снижения затрат. Какие бенчмарки и методы принятия решений на основе наблюдаемой производительности в малом масштабе наиболее точно предсказывают наборы данных, которые дают наилучшие результаты для крупных моделей? Чтобы способствовать открытому исследованию этого вопроса, мы выпускаем модели, данные и оценки в рамках DataDecide — наиболее обширного открытого набора моделей, учитывающего различия в данных и масштабе. Мы проводим контролируемые эксперименты по предварительному обучению на 25 корпусах с различными источниками, дедупликацией и фильтрацией до 100 миллиардов токенов, размерами моделей до 1 миллиарда параметров и 3 случайными начальными значениями. Мы обнаруживаем, что ранжирование моделей на одном малом размере (например, 150 миллионов параметров) является сильным базовым подходом для предсказания лучших моделей на нашем целевом крупном масштабе (1 миллиард) (около 80% сравнений верны). Ни один из 8 базовых методов, основанных на законах масштабирования, не превосходит границу принятия решений на основе вычислений, установленную предсказаниями на одном масштабе, но DataDecide позволяет измерять улучшения в будущих законах масштабирования. Мы также выяснили, что использование непрерывных метрик правдоподобия в качестве прокси в малых экспериментах делает бенчмарки, включая MMLU, ARC, HellaSwag, MBPP и HumanEval, предсказуемыми более чем на 80% на целевом масштабе 1 миллиарда параметров при использовании всего 0,01% вычислительных ресурсов.
Генерация с использованием поиска (Retrieval-Augmented Generation, RAG) повышает производительность крупных языковых моделей (LLM) в задачах, требующих глубоких знаний, но сильно зависит от качества начального поискового запроса. Современные методы, часто использующие обучение с подкреплением (Reinforcement Learning, RL), обычно сосредоточены на формулировке запросов или анализе результатов, не поощряя явно повторные попытки после неудачного поиска. Мы представляем ReZero (Retry-Zero), новую RL-структуру, которая напрямую вознаграждает повторную попытку поискового запроса после первоначальной неудачи. Это стимулирует LLM исследовать альтернативные запросы вместо преждевременного прекращения поиска. ReZero демонстрирует значительное улучшение, достигая точности 46,88% по сравнению с базовым уровнем в 25%. Поощряя настойчивость, ReZero повышает устойчивость LLM в сложных сценариях поиска информации, где начальные запросы могут оказаться недостаточными.
В данной статье представлена модель SAIL — единая мультимодальная языковая модель (MLLM) на основе одного трансформера, которая интегрирует кодирование сырых пикселей и декодирование языка в рамках единой архитектуры. В отличие от существующих модульных MLLM, которые полагаются на предобученный визуальный трансформер (ViT), SAIL устраняет необходимость в отдельном визуальном энкодере, предлагая более минималистичный дизайн архитектуры. Вместо введения новых архитектурных компонентов SAIL адаптирует механизмы смешанного внимания и мультимодальные позиционные кодировки для лучшего согласования с особенностями визуальных и текстовых модальностей. Мы систематически сравниваем свойства SAIL, включая масштабируемость, паттерны кросс-модального потока информации и способности к визуальному представлению, с характеристиками модульных MLLM. Масштабируя как объем обучающих данных, так и размер модели, SAIL достигает производительности, сопоставимой с модульными MLLM. Примечательно, что удаление предобученных компонентов ViT повышает масштабируемость SAIL и приводит к существенно иным паттернам кросс-модального потока информации. Более того, SAIL демонстрирует мощные способности к визуальному представлению, достигая результатов, сравнимых с ViT-22B, в задачах компьютерного зрения, таких как семантическая сегментация. Код и модели доступны по адресу https://github.com/bytedance/SAIL.
В данной работе представлен SimpleAR — базовый фреймворк для авторегрессивной генерации изображений, не требующий сложных модификаций архитектуры. Благодаря тщательному исследованию оптимизации обучения и вывода, мы демонстрируем, что: 1) с использованием всего 0,5 миллиардов параметров наша модель способна генерировать изображения с разрешением 1024x1024 с высокой детализацией и достигает конкурентоспособных результатов на сложных бенчмарках для генерации изображений по тексту, например, 0,59 на GenEval и 79,66 на DPG; 2) как контролируемая тонкая настройка (SFT), так и обучение с использованием Group Relative Policy Optimization (GRPO) приводят к значительному улучшению эстетики генерации и соответствия запросам; и 3) при оптимизации с использованием техник ускорения вывода, таких как vLLM, время генерации изображения 1024x1024 с помощью SimpleAR может быть сокращено до примерно 14 секунд. Публикуя эти результаты и открывая исходный код, мы надеемся раскрыть потенциал авторегрессивной генерации изображений и стимулировать дальнейшее участие в этой области исследований. Код доступен по адресу https://github.com/wdrink/SimpleAR.
Способность к сложным математическим рассуждениям является ключевым критерием для оценки искусственного интеллекта. Хотя применение обучения с подкреплением (RL) к большим языковым моделям (LLM) демонстрирует перспективы, прогресс существенно ограничивается отсутствием крупномасштабных обучающих данных, которые были бы достаточно сложными, имели проверяемые форматы ответов, подходящие для RL, и не содержали бы загрязнений, связанных с оценочными тестами. Для устранения этих ограничений мы представляем DeepMath-103K — новый крупномасштабный набор данных, содержащий примерно 103 тысячи математических задач, специально разработанных для обучения продвинутых моделей рассуждений с помощью RL. DeepMath-103K создан с использованием строгого процесса, включающего анализ источников, тщательную очистку от множества тестовых данных и фильтрацию по высокой сложности (в основном уровни 5–9), что значительно превосходит существующие открытые ресурсы по уровню сложности. Каждая задача включает проверяемый итоговый ответ, что позволяет использовать RL на основе правил, а также три различных решения, сгенерированных с помощью R1, подходящих для различных обучающих подходов, таких как контролируемая тонкая настройка или дистилляция. Охватывая широкий спектр математических тем, DeepMath-103K способствует развитию обобщаемых навыков рассуждений. Мы показываем, что модели, обученные на DeepMath-103K, достигают значительных улучшений на сложных математических тестах, подтверждая их эффективность. Мы публикуем DeepMath-103K в открытом доступе, чтобы способствовать прогрессу сообщества в создании более мощных систем ИИ для рассуждений: https://github.com/zwhe99/DeepMath.
Модели поощрения процессов (PRM) обеспечивают пошаговый контроль для больших языковых моделей (LLM), однако масштабирование аннотирования обучающих данных остается сложной задачей как для людей, так и для LLM. Чтобы устранить это ограничение, мы предлагаем подход активного обучения ActPRM, который активно выбирает наиболее неопределенные образцы для обучения, существенно снижая затраты на разметку. В процессе обучения мы используем PRM для оценки неопределенности после прямого прохода, сохраняя только данные с высокой неопределенностью. Затем мощная, но дорогостоящая модель рассуждений размечает эти данные. После этого мы вычисляем потери относительно меток и обновляем веса PRM. Мы сравниваем ActPRM с базовой тонкой настройкой в условиях активного обучения на основе пула данных, демонстрируя, что ActPRM сокращает объем аннотирования на 50%, при этом достигая сопоставимой или даже лучшей производительности. Помимо эффективности аннотирования, мы дополнительно улучшаем активно обученную PRM, фильтруя более 1 миллиона траекторий математических рассуждений с помощью ActPRM, сохраняя 60% данных. Последующее обучение на этом отобранном наборе данных приводит к созданию новой PRM, устанавливающей новый рекорд (SOTA) на ProcessBench (75.0%) и PRMBench (65.5%) по сравнению с моделями аналогичного размера.
Диффузионные модели демонстрируют превосходство в генерации высокоразмерных данных, однако уступают в эффективности обучения и качестве представлений по сравнению с методами самообучения. Мы выявили ключевое узкое место: недостаточное использование высококачественных, семантически насыщенных представлений в процессе обучения значительно замедляет сходимость. Наш систематический анализ обнаруживает критическую область обработки представлений — преимущественно в начальных слоях — где происходит обучение семантическим и структурным паттернам перед началом генерации. Для решения этой проблемы мы предлагаем Embedded Representation Warmup (ERW), модульную структуру, в которой на первом этапе модуль ERW выполняет роль разогрева, инициализируя начальные слои диффузионной модели высококачественными предобученными представлениями. Этот разогрев минимизирует необходимость обучения представлений с нуля, тем самым ускоряя сходимость и повышая производительность. Наш теоретический анализ показывает, что эффективность ERW зависит от точной интеграции в определённые слои нейронной сети — называемые областью обработки представлений — где модель в основном обрабатывает и преобразует признаки для последующей генерации. Мы также устанавливаем, что ERW не только ускоряет сходимость обучения, но и улучшает качество представлений: эмпирически наш метод достигает 40-кратного ускорения скорости обучения по сравнению с REPA, современными методами. Код доступен по адресу https://github.com/LINs-lab/ERW.
Диффузионные модели широко известны своей способностью генерировать изображения с высокой точностью. Несмотря на превосходную производительность и масштабируемость архитектуры Diffusion Transformer (DiT), она применяет фиксированное сжатие к различным областям изображения в процессе диффузии, игнорируя естественно изменяющуюся плотность информации в этих областях. Однако сильное сжатие приводит к ограниченной локальной реалистичности, а слабое сжатие увеличивает вычислительную сложность и нарушает глобальную согласованность, что в конечном итоге влияет на качество генерируемых изображений. Для устранения этих ограничений мы предлагаем динамически сжимать различные области изображения, учитывая их важность, и представляем новую двухэтапную структуру, предназначенную для повышения эффективности и качества генерации изображений: (1) Dynamic VAE (DVAE) на первом этапе использует иерархический кодировщик для кодирования различных областей изображения с разными уровнями уменьшения разрешения, адаптированными к их специфической плотности информации, что обеспечивает более точные и естественные латентные коды для процесса диффузии. (2) Dynamic Diffusion Transformer (D^2iT) на втором этапе генерирует изображения, предсказывая многоуровневый шум, состоящий из крупнозернистого (меньше латентных кодов в гладких областях) и мелкозернистого (больше латентных кодов в детализированных областях), с помощью новой комбинации Dynamic Grain Transformer и Dynamic Content Transformer. Стратегия сочетания грубого предсказания шума с коррекцией детализированных областей достигает объединения глобальной согласованности и локальной реалистичности. Комплексные эксперименты на различных задачах генерации подтверждают эффективность нашего подхода. Код будет доступен по адресу https://github.com/jiawn-creator/Dynamic-DiT.
Современные мультимодальные бенчмарки часто смешивают рассуждения с предметно-ориентированными знаниями, что затрудняет изолированную оценку общих способностей к рассуждению в неспециализированных условиях. Чтобы решить эту проблему, мы представляем VisualPuzzles — бенчмарк, ориентированный на визуальное рассуждение и сознательно минимизирующий зависимость от специализированных знаний. VisualPuzzles включает разнообразные вопросы, охватывающие пять категорий: алгоритмическое, аналогическое, дедуктивное, индуктивное и пространственное рассуждение. Одним из основных источников наших вопросов являются вручную переведенные задачи на логическое рассуждение из экзамена для государственной службы Китая. Эксперименты показывают, что VisualPuzzles требует значительно меньше предметно-ориентированных знаний и более сложного рассуждения по сравнению с бенчмарками, такими как MMMU, что позволяет лучше оценить подлинное мультимодальное рассуждение. Оценки демонстрируют, что современные мультимодальные большие языковые модели стабильно отстают от человеческой производительности на VisualPuzzles, а высокая производительность на бенчмарках, ориентированных на знания, не обязательно приводит к успеху на задачах, сфокусированных на рассуждении и требующих минимума знаний. Кроме того, улучшения в рассуждениях, такие как увеличение вычислительных ресурсов для вывода (с использованием "режимов мышления"), дают неоднозначные результаты для разных моделей и типов задач, и мы не наблюдаем четкой корреляции между размером модели и производительностью. Мы также обнаружили, что модели демонстрируют различные паттерны рассуждения и ответов на VisualPuzzles по сравнению с бенчмарками, где акцент больше сделан на знания. VisualPuzzles предлагает более четкую перспективу для оценки способностей к рассуждению, выходящих за рамки запоминания фактов и предметных знаний.
Развертывание языковых моделей в приложениях, ориентированных на потребителей, сопряжено с многочисленными рисками. Хотя существующие исследования о вреде и опасностях таких приложений основываются на подходах "сверху вниз", заимствованных из регуляторных рамок и теоретических анализов, эмпирические данные о реальных сбоях остаются недостаточно изученными. В данной работе мы представляем RealHarm — набор данных с аннотированными проблемными взаимодействиями с ИИ-агентами, созданный на основе систематического анализа публично сообщенных инцидентов. Анализируя вред, причины и опасности с точки зрения разработчиков, мы обнаруживаем, что ущерб репутации является преобладающим организационным вредом, а дезинформация выделяется как наиболее распространенная категория опасностей. Мы эмпирически оцениваем современные системы защиты и модерации контента, чтобы проверить, могли ли такие системы предотвратить инциденты, и выявляем значительный пробел в защите ИИ-приложений.
Гибридные архитектуры больших языковых моделей (LLM), сочетающие механизмы внимания (Attention) и модели пространства состояний (State Space Models, SSMs), достигают наивысшей точности и производительности. Недавние исследования показали, что применение сжатия и дистилляции к моделям, основанным исключительно на механизме внимания, позволяет создавать более компактные и точные модели при значительно меньших затратах на обучение. В данной работе мы исследуем эффективность сжатия гибридных архитектур. Мы представляем новую стратегию группового прореживания, которая сохраняет структурную целостность блоков SSM и их способность к моделированию последовательностей. Кроме того, мы демонстрируем необходимость такого прореживания SSM для достижения улучшенной точности и скорости вывода по сравнению с традиционными подходами. Наш метод сжатия объединяет прореживание SSM, FFN, размерности эмбеддингов и слоев, за которым следует повторное обучение на основе дистилляции знаний, аналогично технике MINITRON. Используя этот подход, мы сжимаем гибридную модель Nemotron-H 8B до 4 миллиардов параметров, используя до 40 раз меньше токенов для обучения. Полученная модель превосходит по точности модели аналогичного размера, обеспечивая при этом двукратное ускорение вывода, что значительно продвигает границу Парето.
Мы представляем AI University (AI-U) — гибкую платформу для доставки учебного контента с использованием искусственного интеллекта, которая адаптируется к стилям преподавания инструкторов. В основе AI-U лежит тонкая настройка крупной языковой модели (LLM) с использованием генерации, усиленной поиском (RAG), для создания ответов, согласованных с материалами преподавателя, такими как видеолекции, заметки и учебники. На примере курса по методу конечных элементов (МКЭ) для аспирантов мы демонстрируем масштабируемый процесс систематического построения обучающих данных, тонкой настройки открытой LLM с использованием Low-Rank Adaptation (LoRA) и оптимизации её ответов через синтез на основе RAG. Наша оценка, сочетающая косинусное сходство, оценку на основе LLM и экспертный анализ, показывает высокую степень согласованности с учебными материалами. Мы также разработали прототип веб-приложения, доступного по адресу https://my-ai-university.com, которое повышает отслеживаемость, связывая ответы, сгенерированные ИИ, с конкретными разделами учебных материалов и временными метками видеолекций с открытым доступом. Наша экспертная модель демонстрирует большее косинусное сходство с эталоном в 86% тестовых случаев. Оценка LLM также показала, что наша экспертная модель превосходит базовую модель Llama 3.2 примерно в четырех случаях из пяти. AI-U предлагает масштабируемый подход к образованию с использованием ИИ, прокладывая путь для более широкого внедрения в высшем образовании. Здесь наша платформа представлена в контексте курса по МКЭ — предмета, который является ключевым в подготовке аспирантов и магистров в области инженерных наук. Однако этот контекст является частным случаем более широкой задачи: тонкой настройки LLM для работы с научным контентом.
В данном отчете представлен всесторонний обзор 4-го соревнования Pixel-level Video Understanding in the Wild (PVUW), проведенного в рамках конференции CVPR 2025. В нем подводятся итоги соревнования, описываются использованные методологии участников и намечаются перспективные направления для будущих исследований. Соревнование включает два трека: MOSE, посвященный сегментации объектов в видео со сложными сценами, и MeViS, ориентированный на сегментацию видео с учетом движения и языковых описаний. Оба трека представляют новые, более сложные наборы данных, разработанные для более точного отражения реальных сценариев. Благодаря детальной оценке и анализу, соревнование предоставляет ценные сведения о текущем состоянии и новых тенденциях в области сложной сегментации видео. Дополнительную информацию можно найти на сайте мастерской: https://pvuw.github.io/.
Применение диффузионных моделей для завершения 3D-сцен на основе данных LiDAR ограничено из-за низкой скорости выборки, характерной для диффузионных процессов. Дистилляция оценок ускоряет выборку, но приводит к снижению производительности, в то время как посттренинг с использованием прямой оптимизации политики (DPO) повышает производительность за счет данных о предпочтениях. В данной статье предлагается Distillation-DPO — новый фреймворк для дистилляции диффузионных моделей в задаче завершения LiDAR-сцен с учетом выравнивания предпочтений. Во-первых, студенческая модель генерирует парные завершенные сцены с разными начальными шумами. Во-вторых, используя метрики оценки LiDAR-сцен как предпочтения, мы формируем пары выигрышных и проигрышных образцов. Такое построение обосновано, поскольку большинство метрик LiDAR-сцен являются информативными, но недифференцируемыми для прямой оптимизации. В-третьих, Distillation-DPO оптимизирует студенческую модель, используя разницу в функциях оценки между учительской и студенческой моделями на парных завершенных сценах. Этот процесс повторяется до сходимости. Эксперименты показывают, что по сравнению с современными диффузионными моделями для завершения LiDAR-сцен, Distillation-DPO достигает более высокого качества завершения сцен, ускоряя процесс более чем в 5 раз. Наш метод является первым, кто исследует применение обучения на основе предпочтений в дистилляции, насколько нам известно, и предоставляет новые идеи для дистилляции с учетом предпочтений. Наш код доступен по адресу: https://github.com/happyw1nd/DistillationDPO.
Рецензирование является краеугольным камнем контроля качества в научных публикациях. С увеличением рабочей нагрузки непреднамеренное использование "быстрых" эвристик, называемое ленивым мышлением, стало повторяющейся проблемой, снижающей качество рецензий. Автоматизированные методы для выявления таких эвристик могут помочь улучшить процесс рецензирования. Однако исследований в области обработки естественного языка (NLP) по этой теме недостаточно, и отсутствуют реальные наборы данных для разработки инструментов обнаружения. В данной работе представлен LazyReview — набор данных, содержащий предложения из рецензий, аннотированные с учетом детализированных категорий ленивого мышления. Наш анализ показывает, что крупные языковые модели (LLMs) испытывают трудности с обнаружением таких случаев в условиях zero-shot обучения. Однако тонкая настройка на основе инструкций с использованием нашего набора данных значительно повышает производительность на 10–20 процентных пунктов, подчеркивая важность высококачественных обучающих данных. Кроме того, контролируемый эксперимент демонстрирует, что рецензии, переработанные с учетом обратной связи по ленивому мышлению, являются более полными и полезными, чем те, которые написаны без такой обратной связи. Мы опубликуем наш набор данных и улучшенные руководства, которые могут быть использованы для обучения начинающих рецензентов в сообществе. (Код доступен здесь: https://github.com/UKPLab/arxiv2025-lazy-review)
Недавние достижения в области больших языковых моделей (LLM) привели к значительным прорывам в понимании видео. Однако существующие модели по-прежнему сталкиваются с трудностями при обработке длинных видео из-за ограничения на длину контекста LLM и огромного объема информации в видео. Хотя некоторые современные методы разработаны для понимания длинных видео, они часто теряют важную информацию в процессе сжатия токенов и испытывают трудности с дополнительными модальностями, такими как аудио. В данной работе мы предлагаем метод динамического кодирования длинных видео, использующий временные отношения между кадрами, под названием Temporal Dynamic Context (TDC). Во-первых, мы сегментируем видео на семантически согласованные сцены на основе сходства между кадрами, затем кодируем каждый кадр в токены с использованием визуально-аудио кодировщиков. Во-вторых, мы предлагаем новый компрессор временного контекста для сокращения количества токенов в каждом сегменте. В частности, мы используем Transformer на основе запросов для агрегирования видео, аудио и текстовых токенов инструкций в ограниченный набор токенов временного контекста. Наконец, мы передаем статические токены кадров и токены временного контекста в LLM для понимания видео. Кроме того, для обработки чрезвычайно длинных видео мы предлагаем стратегию цепочки рассуждений, не требующую обучения, которая постепенно извлекает ответы из нескольких сегментов видео. Эти промежуточные ответы служат частью процесса рассуждения и способствуют формированию окончательного ответа. Мы проводим обширные эксперименты на эталонных тестах для общего понимания видео и понимания аудио-видео, где наш метод демонстрирует высокую производительность. Код и модели доступны по адресу https://github.com/Hoar012/TDC-Video.
Модели, работающие с визуальной и текстовой информацией (Vision-Language Models, VLMs), способны обрабатывать данные в различных форматах: тексты, изображения, чередующиеся тексты и изображения, а также длительные видеозаписи. В данной работе мы проводим детальный количественный и качественный анализ автоматического суммирования мультимодальных презентаций с использованием VLMs, принимающих на вход различные представления данных. На основе этих экспериментов мы предлагаем экономически эффективные стратегии для генерации кратких содержаний из текстоемких мультимодальных документов при различных ограничениях на длину входных данных с использованием VLMs. Мы демонстрируем, что слайды, извлеченные из видеопотока, могут быть полезно использованы в качестве входных данных вместо исходного видео, а структурированное представление, основанное на чередующихся слайдах и транскрипте, обеспечивает наилучшую производительность. В заключение мы размышляем о природе кросс-модальных взаимодействий в мультимодальных презентациях и предлагаем рекомендации по улучшению способностей VLMs к пониманию документов такого типа.
Недавно предложенный Forgetting Transformer (FoX) включает в себя механизм забывания (forget gate) в softmax-внимание и демонстрирует стабильно лучшие или сопоставимые результаты по сравнению со стандартным Transformer на основе RoPE. Примечательно, что многие головы внимания в FoX склонны быстро забывать, что приводит к тому, что их выход на каждом временном шаге в основном зависит от локального контекста. На основе этого наблюдения мы предлагаем Adaptive Computation Pruning (ACP) для FoX — метод, который динамически обрезает вычисления, связанные с зависимостями вход-выход, которые сильно ослабляются механизмом забывания. Это достигается с помощью динамически устанавливаемого порога обрезки, который гарантирует, что обрезанные веса внимания остаются незначительными. Мы применяем ACP к предварительному обучению языковых моделей с использованием FoX и показываем, что он стабильно сокращает количество FLOP в softmax-внимании примерно на 70% для различных размеров моделей и длин контекста, что приводит к увеличению пропускной способности обучения на 10% до 35%. Более того, более длинные контексты обеспечивают большую экономию вычислений. Все эти улучшения скорости достигаются без какого-либо снижения производительности. Мы также проводим несколько анализов, чтобы глубже понять наш метод, например, исследуем паттерны обрезки и анализируем распределение экономии FLOP между различными головами внимания. Наш код доступен по адресу https://github.com/zhixuan-lin/arctic-fox.
С успехом в генерации изображений, генеративные диффузионные модели всё чаще применяются для дискриминативных задач, поскольку генерация пикселей предоставляет унифицированный интерфейс восприятия. Однако прямое использование генеративного процесса удаления шума для дискриминативных целей выявляет критические пробелы, которые ранее редко учитывались. Генеративные модели допускают промежуточные ошибки выборки, если итоговое распределение остаётся правдоподобным, но дискриминативные задачи требуют строгой точности на всех этапах, что особенно заметно в сложных многомодальных задачах, таких как сегментация изображений по ссылкам. Вдохновлённые этим пробелом, мы анализируем и улучшаем согласованность между генеративными диффузионными процессами и задачами восприятия, уделяя особое внимание тому, как качество восприятия изменяется в процессе удаления шума. Мы обнаруживаем: (1) ранние этапы удаления шума вносят непропорционально большой вклад в качество восприятия, что побуждает нас предложить специализированные целевые функции обучения, отражающие различный вклад временных шагов; (2) поздние этапы удаления шума демонстрируют неожиданное ухудшение восприятия, подчёркивая чувствительность к сдвигам распределения между обучением и удалением шума, что решается нашей адаптированной для диффузии аугментацией данных; и (3) генеративные процессы уникальным образом обеспечивают интерактивность, выступая в качестве управляемых пользовательских интерфейсов, адаптируемых к корректирующим запросам в многораундовых взаимодействиях. Наши идеи значительно улучшают модели восприятия на основе диффузии без изменений архитектуры, достигая передовых результатов в задачах оценки глубины, сегментации изображений по ссылкам и общих задачах восприятия. Код доступен по адресу https://github.com/ziqipang/ADDP.
Несмотря на их частое использование для обнаружения изменений, как сверточные сети (ConvNets), так и трансформеры для компьютерного зрения (ViT) имеют известные ограничения: первые испытывают трудности с моделированием долгосрочных зависимостей, а вторые отличаются вычислительной неэффективностью, что делает их сложными для обучения на крупномасштабных наборах данных. Vision Mamba, архитектура, основанная на моделях пространства состояний, появилась как альтернатива, устраняющая указанные недостатки, и уже применялась для обнаружения изменений в дистанционном зондировании, хотя в основном в качестве основы для извлечения признаков. В данной статье представлена Change State Space Model (CSSM), специально разработанная для обнаружения изменений путем фокусировки на значимых различиях между битемпоральными изображениями, эффективно отфильтровывая нерелевантную информацию. Концентрируясь исключительно на измененных признаках, количество параметров сети сокращается, что значительно повышает вычислительную эффективность при сохранении высокой производительности обнаружения и устойчивости к деградации входных данных. Предложенная модель была протестирована на трех эталонных наборах данных, где она превзошла ConvNets, ViT и аналоги на основе Mamba при значительно меньшей вычислительной сложности. Реализация будет доступна по адресу https://github.com/Elman295/CSSM после принятия статьи.