Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем Qwen3-VL — самую совершенную на сегодняшний день мультимодальную модель серии Qwen, демонстрирующую превосходную производительность в широком спектре бенчмарков. Модель изначально поддерживает смешанные контексты объемом до 256 тыс. токенов, бесшовно интегрируя текст, изображения и видео. Семейство моделей включает как плотные архитектуры (2B/4B/8B/32B), так и варианты со смесью экспертов (30B-A3B/235B-A22B) для различных компромиссов между задержкой и качеством. Qwen3-VL основывается на трех ключевых столпах: (i) значительно усиленное понимание чистого текста, превосходящее сравнимые текстовые базовые модели в ряде случаев; (ii) надежное понимание длинных контекстов с нативным окном в 256 тыс. токенов для текстовых и смешанных мультимодальных входных данных, обеспечивающее точное сохранение, извлечение и перекрестные ссылки в длинных документах и видео; (iii) продвинутое мультимодальное мышление в задачах с одним изображением, несколькими изображениями и видео, демонстрирующее лидирующие результаты в комплексных оценках, таких как MMMU и визуально-математические бенчмарки (например, MathVista и MathVision). В архитектурном плане мы внедрили три ключевых улучшения: (i) усовершенствованный переплетенный MRoPE для усиленного пространственно-временного моделирования в изображениях и видео; (ii) интеграцию DeepStack, которая эффективно использует многоуровневые признаки ViT для укрепления согласованности между зрением и языком; (iii) текстовое временное выравнивание для видео, эволюционировавшее от T-RoPE к явному текстовому выравниванию временных меток для более точной временной привязки. При сопоставимых бюджетах токенов и ограничениях задержки Qwen3-VL демонстрирует превосходную производительность как в плотных архитектурах, так и в архитектурах со смесью экспертов. Мы предполагаем, что Qwen3-VL послужит фундаментальным движком для ситуационного мышления на основе изображений, агентского принятия решений и мультимодального кодового интеллекта в реальных рабочих процессах.
Модели «Vision-Language-Action» (VLA), обученные с помощью методов согласования потоков или диффузионных целей, превосходно справляются с изучением сложных поведений из крупномасштабных многомодальных наборов данных (например, данных телеоперации человеком, сценарных политик). Однако, поскольку VLA включают в себя разнородные режимы данных на этапе предварительного обучения, а набор данных для дообучения часто содержит демонстрационные данные, собранные кинематически неоптимальным или нежелательным образом, в них присутствуют избыточные режимы действий, не связанные с успешными режимами целевой задачи. В частности, мы наблюдаем критическую хрупкость на этапе вывода при различных сэмплированных шумах после контролируемого дообучения предварительно обученных VLA. В данной статье мы объясняем эту нестабильность сдвигом распределения между политикой VLA и политикой, индуцированной стабильными успешными режимами набора данных целевой задачи. Таким образом, мы предлагаем TACO — фреймворк масштабирования на этапе тестирования (TTS), который применяет легковесный псевдо-счетчик в качестве высокоточной системы верификации фрагментов действий. Модели VLA, интегрированные с TACO, могут выполнять действия с максимальным псевдо-счетчиком из всех сэмплированных фрагментов действий, тем самым предотвращая сдвиги распределения, сохраняя при этом способность VLA к обобщению, поскольку ограничение применяется только на этапе вывода. Наш метод напоминает классический принцип анти-исследования в обучении с подкреплением (RL) оффлайн и, будучи бесградиентным, обеспечивает значительные вычислительные преимущества по сравнению с RL-обновлением, особенно для VLA на основе потоков или диффузии, для которых сложно выполнять RL-обновление из-за процесса удаления шума. Многочисленные эксперименты на четырех симуляционных стендах (RoboTwin2.0, Robotwin, LIBERO, SimplerEnv) и платформе с двумя манипуляторами демонстрируют, что наш метод существенно повышает стабильность вывода и процент успешных выполнений при адаптации к целевым задачам.
Имитация человеческого поведения для активного обучения на основе общего опыта и достижения искусственного общего интеллекта всегда была мечтой человечества. Современные большие модели мышления на основе обучения с подкреплением демонстрируют впечатляющие способности на уровне экспертов, например, в области программного обеспечения и математики, но все еще сильно зависят от верифицируемых вознаграждений в конкретных областях, что создает значительное узкое место для расширения границ производительности общих рассуждающих способностей. В данной работе мы предлагаем PretrainZero — фреймворк активного обучения с подкреплением, построенный на корпусе предварительного обучения, чтобы распространить ОП с доменно-специфичного пост-обучения на общее предварительное обучение. PretrainZero обладает следующими характеристиками: 1) Активное предварительное обучение: вдохновленные способностью человека к активному обучению, мы обучаем единую политику рассуждений для активного выявления разумного и информативного контента из корпуса предварительного обучения и прогнозирования этого контента с помощью ОП. 2) Самообучение без учителя: без каких-либо верифицируемых меток, предобученных моделей вознаграждения или контролируемой тонкой настройки мы напрямую предварительно обучаем модели рассуждений от базовых моделей размером от 3 до 30B на общем корпусе Wikipedia с использованием ОП, существенно преодолевая стену верификационных данных для общего рассуждения. 3) Масштабирование верификации: решая все более сложные маскированные участки, PretrainZero значительно усиливает общие рассуждающие способности предварительно обученных базовых моделей. При обучении с подкреплением PretrainZero улучшает показатели Qwen3-4B-Base на 8.43, 5.96 и 10.60 по бенчмаркам MMLU-Pro, SuperGPQA и усредненному математическому соответственно. При пост-обучении предобученные модели также могут служить фундаментальными моделями рассуждений для последующих задач RLVR.
Понимание визуальных различий между динамическими сценами требует сравнительного восприятия композиционных, пространственных и временных изменений — способности, которая остаётся недостаточно изученной в существующих системах компьютерного зрения и языка. Хотя предыдущие работы по описанию различий между изображениями (Image Difference Captioning, IDC) позволили моделям описывать семантические изменения между статичными изображениями, эти подходы не способны уловить непрерывность движения, эволюцию событий или согласованность редактирования во времени. Мы представляем задачу ViDiC (Video Difference Captioning) и соответствующий ей набор данных ViDiC-1K, предназначенные для оценки способности мультимодальных больших языковых моделей (MLLM) давать детализированные описания сходств и различий между парами видео. ViDiC-1K включает 1000 отобранных пар видео с аннотациями, содержащими более 4000 пунктов сравнительного чек-листа, охватывающих семь категорий: объект, стиль, фон, кинематография, движение, местоположение и техника воспроизведения. Для обеспечения достоверной оценки мы предлагаем двойную чек-лист систему, которая измеряет точность определения сходств и различий раздельно на основе протокола LLM-as-a-Judge. Эксперименты с девятнадцатью репрезентативными мультимодальными моделями выявили значительный разрыв в их способностях к сравнительному описанию и восприятию различий. Мы надеемся, что ViDiC-1K станет сложным эталонным тестом, который заложит прочную основу для прогресса в понимании видео, осознании редактирования и сравнительном анализе в мультимодальном искусственном интеллекте.
Обучение с подкреплением (RL) недавно продемонстрировало впечатляющие успехи в стимулировании зрительного рассуждения в мультимодальных больших языковых моделях (MLLM). Однако существующие подходы обычно обучают отдельные модели для разных задач и рассматривают рассуждения на основе изображений и видео как независимые области. Это ограничивает масштабируемость в сторону универсального мультимодального решателя, что сужает практическую универсальность и препятствует потенциальному обмену знаниями между задачами и модальностями. Для решения этой проблемы мы предлагаем OneThinker — универсальную модель рассуждений, которая объединяет понимание изображений и видео для разнообразных фундаментальных визуальных задач, включая ответы на вопросы, генерацию описаний, пространственную и временную локализацию, отслеживание и сегментацию. Для этого мы создали обучающий корпус OneThinker-600k, охватывающий все эти задачи, и использовали коммерческие модели для аннотирования цепочек рассуждений (CoT), получив OneThinker-SFT-340k для "холодного старта" методами supervised fine-tuning (SFT). Кроме того, мы предлагаем метод EMA-GRPO для обработки гетерогенности вознаграждений в многозадачном RL, который отслеживает скользящие средние стандартных отклонений вознаграждений по задачам для сбалансированной оптимизации. Многочисленные эксперименты на различных визуальных бенчмарках показывают, что OneThinker демонстрирует высокую производительность на 31 тестовом наборе, охватывающих 10 фундаментальных задач визуального понимания. Более того, модель демонстрирует эффективный перенос знаний между определенными задачами и предварительную способность к обобщению в условиях zero-shot, что знаменует шаг к созданию унифицированного мультимодального решателя. Весь код, модель и данные опубликованы.
Модели «язык-зрение» (VLMs) демонстрируют качественное визуальное понимание, но испытывают трудности с метрически точным пространственным мышлением, необходимым для воплощенных приложений. Агентская парадигма предполагает, что VLMs могут использовать широкий спектр инструментов, способных усилить эти возможности, таких как оценщики глубины, модели сегментации и оценщики поз. Однако остается открытой проблемой, как реализовать эту идею, не полагаясь исключительно на ручные стратегии промптинга или жесткие, предопределенные конвейеры инструментов, которые ограничивают способность VLMs находить оптимальные паттерны их использования. Обучение с подкреплением могло бы преодолеть этот разрыв, но до сих пор было ограничено работой с одним визуальным инструментом из-за большого пространства поиска при рассуждениях с несколькими инструментами. Мы представляем Двойное интерактивное обучение с подкреплением (DIRL) — двухфазную框架 обучения, в которой VLMs учатся координировать несколько инструментов через интерактивное исследование и обратную связь. На фазе обучения мы комбинируем демонстрации от специалиста по одному инструменту, обученного с помощью интерактивного RL, с трассировками от фронтирной модели, использующей все инструменты. На фазе исследования модель дополнительно совершенствует координацию нескольких инструментов с помощью продолженного RL. Наша модель SpaceTools, обладающая расширенной инструментами способностью к пространственному reasoning, достигает наилучших результатов на бенчмарках пространственного понимания (RoboSpatial-Home, BLINK, BOP-ASK) и демонстрирует надежное манипулирование в реальном мире с использованием 7-степенного робота в качестве инструмента. DIRL обеспечивает существенное улучшение по сравнению с базовыми методами SFT (+12% на RoboSpatial) и RL (+16% на RoboSpatial). Страница проекта: https://spacetools.github.io/.
Достижение точного соответствия между намерением пользователя и генерируемыми визуальными данными остается ключевой проблемой в генерации изображений и видео по текстовому описанию, поскольку единичная попытка часто не позволяет получить желаемый результат. Для решения этой проблемы предыдущие подходы в основном масштабировали процесс визуальной генерации (например, увеличивая количество шагов семплинга или сиды), но это быстро приводит к выходу на плато качества. Это ограничение возникает из-за того, что промпт, критически важный для управления генерацией, остается неизменным. Чтобы устранить это, мы предлагаем метод Prompt Redesign for Inference-time Scaling (PRIS) — фреймворк, который адаптивно пересматривает промпт во время инференса в ответ на масштабированные визуальные поколения. Основная идея PRIS заключается в анализе сгенерированных визуальных данных, выявлении повторяющихся паттернов ошибок и соответствующем изменении промпта перед повторной генерацией с пересмотренным промптом. Для обеспечения точной обратной связи по соответствию при пересмотре промпта мы вводим новый верификатор — фактологическую коррекцию на уровне элементов, который оценивает соответствие между атрибутами промпта и сгенерированными визуальными данными на детальном уровне, обеспечивая более точные и интерпретируемые оценки по сравнению с холистическими метриками. Многочисленные эксперименты на бенчмарках для генерации изображений и видео по тексту демонстрируют эффективность нашего подхода, включая улучшение на 15% на VBench 2.0. Эти результаты подчеркивают, что совместное масштабирование промптов и визуальных данных является ключом к полному использованию законов масштабирования во время инференса. Визуализации доступны на сайте: https://subin-kim-cv.github.io/PRIS.
Для создания по-настоящему интерактивной модели мира необходимы три ключевых компонента: потоковое генерирование в реальном времени на длительных горизонтах, консистентная пространственная память и точный пользовательский контроль. Однако большинство существующих подходов решают лишь одну из этих задач изолированно, поскольку одновременное достижение всех трёх является крайне сложной задачей — например, механизмы долговременной памяти часто ухудшают производительность в реальном времени. В данной работе мы представляем RELIC — унифицированную архитектуру, которая решает все три проблемы совместно. Исходя из одного изображения и текстового описания, RELIC позволяет в реальном времени осуществлять осознанное памятью исследование произвольных сцен на протяжении длительного времени. Построенная на основе современных методов дистилляции авторегрессионных видео-диффузионных моделей, наша модель представляет долгосрочную память с помощью высоко сжатых латентных токенов истории, закодированных как относительными действиями, так и абсолютными позами камеры в рамках KV-кэша. Эта компактная, учитывающая камеру структура памяти поддерживает неявный поиск контента с 3D-консистентностью и обеспечивает долгосрочную согласованность с минимальными вычислительными затратами. Параллельно мы дообучаем двунаправленную учительскую видео-модель для генерации последовательностей, выходящих за пределы её исходного 5-секундного горизонта обучения, и преобразуем её в каузальную ученическую модель-генератор, используя новую парадигму эффективного по памяти самопринуждения, которая позволяет проводить дистилляцию с полным контекстом как на длительных сгенерированных учителем данных, так и на длительных самостоятельных прогонах ученика. Реализованная в виде модели с 14 миллиардами параметров и обученная на курированном наборе данных, отрендеренном в Unreal Engine, RELIC достигает генерации в реальном времени со скоростью 16 кадров в секунду, демонстрируя при этом более точное следование действиям, более стабильное потоковое генерирование на длинных горизонтах и более устойчивое извлечение пространственной памяти по сравнению с предыдущими работами. Эти возможности делают RELIC прочным фундаментом для следующего поколения интерактивного моделирования мира.
Мультимодальные большие языковые модели (MLLM), способные «мыслить» изображениями, могут интерактивно использовать инструменты для анализа визуальных данных. Однако современные подходы часто ограничиваются узким набором инструментов, обладающих недостаточной практической значимостью и масштабируемостью. В данной работе мы впервые выявляем ключевой и ранее игнорировавшийся недостаток: даже передовые MLLM демонстрируют удивительную хрупкость, показывая значительное снижение производительности на изображениях с простыми изменениями ориентации или естественными искажениями, что подчеркивает необходимость более надежного рассуждения на основе инструментов. Для решения этой проблемы мы предлагаем **CodeVision** — гибкую и масштабируемую структуру, где код используется как универсальный интерфейс для вызова любых операций с изображениями, выходя за рамки фиксированных реестров инструментов. Мы обучаем нашу модель с помощью двухэтапной методологии: начинаем с контролируемого тонкого настроения (SFT) на высококачественном наборе данных, созданном для сложной многошаговой композиции инструментов и восстановления после ошибок, а затем применяем обучение с подкреплением (RL) с новой плотной процессуальной функцией вознаграждения для поощрения стратегического и эффективного использования инструментов. Для содействия этим исследованиям мы создаем новые наборы данных для SFT и RL, а также представляем новый комплекс тестов, предназначенный для строгой оценки устойчивости к изменениям ориентации и рассуждений с использованием нескольких инструментов. Эксперименты на моделях серий Qwen2.5-VL и Qwen3-VL показывают, что наш подход значительно улучшает производительность модели и способствует появлению новых возможностей, таких как гибкая композиция инструментов, эффективное цепочечное выполнение и устойчивое восстановление после ошибок на основе обратной связи во время выполнения. Код доступен по адресу: https://github.com/ByteDance-BandAI/CodeVision.
Нормализующие потоки (NF) — это класс генеративных моделей, отличающихся математически инвертируемой архитектурой, при которой прямой проход преобразует данные в латентное пространство для оценки плотности, а обратный проход генерирует новые выборки из этого пространства. Эта особенность создает внутреннюю синергию между обучением представлений и генерацией данных. Однако качество генерации стандартных NF ограничено слабыми семантическими представлениями, обусловленными оптимизацией логарифмического правдоподобия. Для решения этой проблемы мы предлагаем новую стратегию выравнивания, которая творчески использует инвертируемость NF: вместо регуляризации прямого прохода мы выравниваем промежуточные признаки генеративного (обратного) прохода с представлениями мощной базовой модели компьютерного зрения, демонстрируя превосходную эффективность по сравнению с наивным выравниванием. Мы также представляем новую бестренировочную алгоритмическую оптимизацию на этапе тестирования для классификации, которая обеспечивает более внутреннюю оценку семантических знаний, встроенных в NF. Комплексные эксперименты показывают, что наш подход ускоряет обучение NF более чем в 3,3 раза, одновременно обеспечивая значительное улучшение как качества генерации, так и точности классификации. Установлены новые рекордные результаты для NF на ImageNet 64×64 и 256×256. Наш код доступен по адресу https://github.com/MCG-NJU/FlowBack.
Выравнивание больших языковых моделей (LLM) с человеческими предпочтениями обычно опирается на внешний контроль, что сопряжено с серьезными ограничениями: человеческие аннотации稀缺ны и субъективны, модели вознаграждения уязвимы к взлому, а методы самооценки страдают от чувствительности к промптам и смещений. В данной работе мы предлагаем стабильный ранг — внутренний, не требующий аннотаций сигнал качества, извлекаемый из репрезентаций модели. Стабильный ранг измеряет эффективную размерность скрытых состояний, вычисляя отношение общей дисперсии к дисперсии в доминирующем направлении, фиксируя качество через то, как информация распределяется по размерностям представления. Эмпирически стабильный ранг достигает точности 84.04% на RewardBench и улучшает точность выполнения задач в среднем на 11.3 процентных пункта по сравнению с жадным декодированием через Best-of-N семплирование. Используя это наблюдение, мы представляем Stable Rank Group Relative Policy Optimization (SR-GRPO), который использует стабильный ранг в качестве сигнала вознаграждения для обучения с подкреплением. Без внешнего контроля SR-GRPO улучшает показатели модели Qwen2.5-1.5B-Instruct на 10% в STEM-задачах и на 19% в математических рассуждениях, превосходя как обученные модели вознаграждения, так и базовые методы самооценки. Наши результаты демонстрируют, что сигналы качества можно извлекать из внутренней геометрии модели, открывая путь к масштабируемому выравниванию без внешнего контроля.
Хотя нейронные процессоры (NPU) обладают высокой теоретической эффективностью для edge-искусственного интеллекта, современные Vision-Language Models (VLM), оптимизированные для GPU, часто демонстрируют низкую производительность на этих аппаратных платформах. Мы объясняем это несоответствие между аппаратным обеспечением и моделью двумя основными факторами: хрупкостью Vision Transformers (ViT) к квантованию и вводно-выводной природой авторегрессионных механизмов внимания, которые не используют высокую пропускную способность NPU по арифметическим операциям. Для преодоления этого разрыва мы предлагаем AutoNeural — NPU-нативную архитектуру VLM, совместно спроектированную для целочисленного вывода. Мы заменяем стандартный ViT-энкодер на базе MobileNetV5, использующий depthwise separable свертки, что обеспечивает ограниченное распределение активаций для стабильного INT4/8/16 квантования. Дополняя это, наш языковой блок интегрирует принципы State-Space Model (SSM) со слоями Transformer, применяя эффективные gated свертки для достижения линейной сложности по времени. Этот гибридный дизайн устраняет высокие затраты на память при кэшировании Key-Value во время генерации. Наш подход обеспечивает значительное повышение эффективности, снижая ошибку квантования визуального энкодера до 7 раз и сквозную задержку до 14 раз по сравнению с традиционными базовыми методами. AutoNeural также обеспечивает 3-кратную скорость декодирования и 4-кратное увеличение длины контекстного окна. Мы проверяем эти улучшения на реальном автомобильном кейсе для SoC Qualcomm SA8295P, демонстрируя производительность в реальном времени для применений в салоне автомобиля. Наши результаты подчеркивают, что переосмысление топологии модели с учетом ограничений NPU является обязательным условием для создания надежного многомодального интеллекта на периферии.
Приготовление пищи представляет собой последовательный и визуально обоснованный процесс, где каждый этап (нарезка, смешивание, жарка и т.д.) обладает как процедурной логикой, так и визуальной семантикой. Хотя современные диффузионные модели демонстрируют высокую эффективность в генерации изображений по тексту, они испытывают трудности со структурированными многоэтапными сценариями, такими как иллюстрирование рецептов. Кроме того, существующие методы иллюстрации рецептов не способны адаптироваться к естественной вариативности их длины, генерируя фиксированное количество изображений независимо от фактической структуры инструкций. Для преодоления этих ограничений мы представляем CookAnything — гибкую и согласованную диффузионную систему, генерирующую последовательности связных и семантически различимых изображений на основе текстовых кулинарных инструкций произвольной длины. Фреймворк включает три ключевых компонента: (1) пошаговый региональный контроль (Step-wise Regional Control, SRC), обеспечивающий соответствие текстовых шагов соответствующим областям изображения в рамках единого процесса денойзинга; (2) гибкий механизм позиционного кодирования RoPE (Flexible RoPE), учитывающий этапы выполнения и улучшающий как временную согласованность, так и пространственное разнообразие; (3) межшаговый контроль согласованности (Cross-Step Consistency Control, CSCC), сохраняющий детальную консистентность ингредиентов между этапами. Эксперименты на бенчмарках иллюстрирования рецептов показали, что CookAnything превосходит существующие методы как в обучении, так и в условиях без обучения. Предложенный фреймворк поддерживает масштабируемый и качественный визуальный синтез сложных многоэтапных инструкций и обладает значительным потенциалом для широкого применения в обучающих медиа и создании процедурного контента.
С 2019 года Hugging Face Model Hub является основной глобальной платформой для обмена моделями ИИ с открытыми весами. Предоставляя набор данных, содержащий полную историю еженедельных загрузок моделей (июнь 2020 г. – август 2025 г.) вместе с их метаданными, мы проводим наиболее строгое на сегодняшний день исследование динамики концентрации и эволюции характеристик в экономике открытых моделей. Наш анализ охватывает 851 000 моделей, более 200 агрегированных атрибутов для каждой модели и 2,2 млрд загрузок. Мы фиксируем фундаментальное перераспределение экономического влияния: доминирование американской индустрии открытых весов в лице Google, Meta и OpenAI резко сократилось в пользу независимых разработчиков, сообществ и, начиная с 2025 года, китайской индустрии, где модели DeepSeek и Qwen, возможно, предвещают новую консолидацию рыночной власти. Мы выявляем статистически значимые изменения свойств моделей: 17-кратный рост среднего размера модели, быстрое распространение многомодальной генерации (в 3,4 раза), квантования (в 5 раз) и архитектур смеси экспертов (в 7 раз), наряду с тревожным снижением прозрачности данных — в 2025 году модели с открытыми весами впервые превзошли по числу truly open source модели. Мы обнаруживаем новый слой посредников-разработчиков, который сосредоточен на квантовании и адаптации базовых моделей как для повышения эффективности, так и для художественной выразительности. Для обеспечения непрерывных исследований и мониторинга мы публикуем полный набор данных с интерактивной панелью управления для наблюдения в реальном времени за динамикой концентрации и эволюцией свойств в экономике открытых моделей.
Мы представляем Jina-VLM — мультимодальную модель с 2,4 млрд параметров, которая демонстрирует наилучшие результаты в задачах мультиязычного визуального ответа на вопросы среди открытых VLM-моделей масштаба 2 млрд. Модель объединяет визуальный кодировщик SigLIP2 с языковой основой Qwen3 через коннектор с attention-пулингом, что обеспечивает эффективную по токенам обработку изображений произвольного разрешения. На стандартных бенчмарках VQA и в мультиязычных оценках Jina-VLM превосходит сопоставимые модели, сохраняя при этом конкурентоспособную производительность в текстовых задачах.
Оценка моделей согласования изображений и текста, таких как CLIP, крайне важна для сближения визуальных и лингвистических представлений. Однако существующие бенчмарки опираются на основанные на правилах пертурбации или короткие описания, что ограничивает их способность измерять тонкое согласование. Мы представляем AlignBench — бенчмарк, который предоставляет новый индикатор согласования изображения и текста за счёт оценки детализированных пар «изображение-описание», сгенерированных разнообразными моделями «изображение-текст» и «текст-изображение». Каждое предложение аннотируется на предмет корректности, что позволяет напрямую оценивать VLM-модели в качестве оценщиков согласования. Тестирование широкого спектра VLM-моделей на основе декодеров выявило три ключевых результата: (i) модели на основе CLIP, даже адаптированные для композиционных рассуждений, остаются практически «слепыми»; (ii) детекторы систематически завышают оценку ранним предложениям; и (iii) они демонстрируют сильное самопредпочтение, благоприятствуя собственным выходным данным и ухудшая качество детекции. Страница проекта будет доступна по адресу https://dahlian00.github.io/AlignBench/.
Мы представляем Doublespeak — простую атаку перехвата репрезентаций в контексте против больших языковых моделей (LLM). Атака работает за счёт систематической замены вредоносного ключевого слова (например, «бомба») на безобидный токен (например, «морковь») в нескольких контекстных примерах, предваряющих вредоносный запрос. Мы демонстрируем, что такая подстановка приводит к сближению внутренней репрезентации безобидного токена с репрезентацией вредоносного, эффективно внедряя вредоносную семантику под видом эвфемизма. В результате поверхностно безобидные промты (например, «Как построить морковь?») внутренне интерпретируются как запрещённые инструкции (например, «Как построить бомбу?»), тем самым обходя защитную адаптацию модели. С помощью инструментов интерпретируемости мы показываем, что это семантическое перезаписывание возникает слой за слоем: безобидные значения на ранних слоях преобразуются во вредоносную семантику на более поздних. Doublespeak не требует оптимизации, обладает широкой переносимостью между семействами моделей и демонстрирует высокие показатели успеха на закрытых и открытых системах, достигая 74% ASR на Llama-3.3-70B-Instruct при переопределении контекста одним предложением. Наши результаты выявляют новую поверхность атаки в латентном пространстве LLM, показывая, что текущие стратегии адаптации недостаточны и должны работать на уровне репрезентаций.
Развертывание больших языковых моделей (LLM) на мобильных платформах сопряжено со значительными трудностями из-за ограниченного объема памяти и разделяемых вычислительных ресурсов устройства. Доступность ресурсов может быть проблемой, поскольку она напрямую зависит от текущей нагрузки на устройство, что увеличивает неопределенность развертывания модели. Мы представляем UniQL — унифицированную структуру послемодельного квантования и низкорангового сжатия с настраиваемой на устройстве степенью прунинга для пограничных LLM. UniQL — это общая структура, которая объединяет квантование и низкоранговое сжатие для трансформеров, моделей пространства состояний (SSM) и гибридных моделей для поддержки разнообразных пограничных приложений. В нашей совместной структуре мы представляем эффективный структурированный метод сортировки весов, который ускоряет вычисления в 20 раз, квантование-осознанное сингулярное разложение (SVD) для минимизации ошибок квантования, состояние-осознанную сортировку весов для SSM и объединенное ядро ротационного позиционного кодирования (RoPE) для моделей с прунингом. Наша структура выполняет сортировку весов, дообучение и квантование в облаке в рамках однопроходного рабочего процесса, обеспечивая при этом настраиваемую на устройстве степень прунинга до 35%. Наши эксперименты показывают, что квантованные и прореженные модели достигают сокращения памяти в 4–5,7 раза и улучшения пропускной способности по токенам в 2,7–3,4 раза, сохраняя точность в пределах 5% от исходных моделей при 15% прунинга для трансформеров (Llama3 и Qwen2.5), SSM (Mamba2) и гибридных моделей (Nemotron-H и Bamba-v2). Код и квантованные модели доступны по адресу: https://github.com/enyac-group/UniQL.
Модели рассуждений, использующие длинные цепочки мысли, задействуют различные когнитивные навыки, такие как проверка ответов, возврат к предыдущим шагам, повторное решение альтернативным методом и другие. Предыдущие исследования показали, что когда базовая языковая модель демонстрирует эти навыки, дальнейшее обучение такой модели с подкреплением (RL) позволяет научить ее эффективно их использовать. Но как научить модели применять навыки, отсутствующие у базовых моделей? Наш метод SkillFactory заключается в тонкой настройке моделей для приблизительного освоения этих навыков на этапе контролируемой тонкой настройки (SFT), предшествующем RL. Наш подход не relies на дистилляцию знаний от более сильной модели, а использует сэмплы самой модели, перегруппированные для создания обучающих данных в формате этих навыков. Эти "серебряные" SFT-траектории могут быть неидеальными, но тем не менее эффективны для подготовки модели к приобретению навыков в ходе RL. Наша оценка показывает, что (1) начальная инициализация через SkillFactory SFT помогает модели обобщать знания на более сложные варианты задачи после RL, несмотря на более низкую производительность до RL; (2) модель действительно использует когнитивные навыки; (3) модели SkillFactory после RL демонстрируют большую устойчивость к регрессии на внедоменных задачах по сравнению с базовыми моделями после RL. Наша работа свидетельствует, что индуктивные смещения, усвоенные до RL, помогают моделям обучаться устойчивому использованию когнитивных навыков.
Применение больших мультимодальных моделей (LMM) для анализа длинных видео ограничивается малой длиной контекста и непомерно высокими вычислительными затратами на обработку плотных видеотокенов. В результате современные исследования сосредоточены на методах запросо-ориентированного выбора кадров, которые часто сопряжены со значительными вычислительными издержками. В данной статье оспаривается предположение о повсеместной необходимости таких сложных поисковых механизмов. Сначала мы определяем и валидируем типологию запросов, различая глобальные и локализованные запросы. Мы показываем, что в то время как равномерная выборка эффективна и экономична для глобальных запросов, локализованные запросы действительно требуют запросо-ориентированного отбора для достижения оптимальной производительности. Основываясь на этом наблюдении, мы предлагаем DIG — бесплатную (не требующую дообучения) систему выбора кадров, которая адаптирует свою стратегию в зависимости от типа запроса. В частности, DIG использует эффективную равномерную выборку для глобальных запросов, активируя специализированный конвейер для извлечения релевантных запросу кадров при обработке локализованных запросов. Эксперименты на трех бенчмарках для анализа длинных видео демонстрируют, что DIG стабильно превосходит существующие базовые методы и надежно улучшает производительность LMM, даже при масштабировании количества входных кадров до 256.
Модели «визуальный язык» (VLM) достигли значительных успехов в задачах визуального ответа на вопросы, однако их зависимость от большого количества визуальных токенов приводит к существенным вычислительным затратам. Хотя существующие эффективные подходы к VLM сокращают количество визуальных токенов за счёт фиксированного сжатия, они действуют пассивно и не способны адаптироваться к изменяемым требованиям задач. Это поднимает фундаментальный вопрос: могут ли VLM автономно определять минимальное необходимое количество визуальных токенов для каждого образца? Вдохновившись механизмами активного зрения человека, мы представляем AdaptVision — эффективную парадигму VLM, которая обеспечивает адаптивное получение визуальных токенов через подход «от грубого к точному». Наша модель изначально обрабатывает сжатые визуальные токены из изображений низкого разрешения и выборочно получает дополнительную визуальную информацию, вызывая инструмент ограничивающих рамок для обрезки ключевых областей при необходимости. Мы обучаем AdaptVision с использованием framework обучения с подкреплением, который тщательно балансирует точность и эффективность. Ключевым элементом нашего подхода является Decoupled Turn Policy Optimization (DTPO), который разделяет цель обучения на две компоненты: (1) обучение работе с инструментами, которое оптимизирует корректное использование инструментов, и (2) повышение точности, которое улучшает генерируемые ответы для повышения правильности результатов. На основе этой формулировки мы дополнительно разделяем оценку преимущества, вычисляя отдельные преимущества для токенов, связанных с каждой целью. Такая формулировка позволяет проводить более эффективную оптимизацию для AdaptVision по сравнению с базовым GRPO. Комплексные эксперименты на множественных бенчмарках VQA демонстрируют, что AdaptVision достигает превосходной производительности, потребляя значительно меньше визуальных токенов по сравнению с передовыми эффективными методами VLM.
Диффузионные модели демонстрируют перспективность для устранения размытия в динамических сценах; однако существующие исследования часто не используют внутреннюю природу процесса размытия в рамках диффузионных моделей, что ограничивает их полный потенциал. Чтобы решить эту проблему, мы представляем Модель Диффузии Размытия (BlurDM), которая бесшовно интегрирует процесс формирования размытия в диффузию для устранения размытия изображений. Наблюдая, что движение размытия возникает из-за непрерывной экспозиции, BlurDM неявно моделирует процесс формирования размытия через схему прямой двойной диффузии, диффундируя как шум, так и размытие на четкое изображение. В процессе обратного генерации мы выводим формулу двойного шумоподавления и устранения размытия, позволяя BlurDM восстанавливать четкое изображение путем одновременного подавления шума и устранения размытия, при условии, что на вход подается чистый гауссов шум, обусловленный размытым изображением. Кроме того, для эффективной интеграции BlurDM в сети устранения размытия мы выполняем BlurDM в латентном пространстве, формируя гибкую сеть генерации априорного распределения для устранения размытия. Многочисленные эксперименты демонстрируют, что BlurDM значительно и последовательно улучшает существующие методы устранения размытия на четырех эталонных наборах данных. Исходный код доступен по адресу https://github.com/Jin-Ting-He/BlurDM.
Механизмы внимания являются ядром базовых моделей, но их квадратичная сложность остается критическим ограничением для масштабирования. Эта проблема стимулировала разработку эффективных механизмов внимания, среди которых доминирующей парадигмой стала разреженность. Современные методы обычно сохраняют или отбрасывают целые блоки ключей-значений с помощью бинарных масок, что приводит к значительной потере информации при высокой степени разреженности. Чтобы сократить этот разрыв, мы представляем Pyramid Sparse Attention (PSA) — универсальный модуль, применимый как для задач понимания, так и для генерации видео. Вместо бинарного маскирования PSA вводит многоуровневые агрегированные (пуллинговые) представления ключей-значений, обеспечивая более тонкую гранулярность масок. В частности, каждый блок запросов динамически назначает более низкие уровни пуллинга критически важным блокам ключей-значений и более высокие уровни — менее важным, создавая информативную интерполяцию между полным сохранением и полным удалением. Эта конструкция, аналогичная квантованию с фиксированной точкой и классическим пирамидальным сетям признаков в компьютерном зрении, эффективно снижает потерю информации, сохраняя вычислительную эффективность при ограниченных ресурсах. Модуль реализован с помощью нативного, аппаратно-ориентированного ядра, которое использует разделенную блочно-плиточную архитектуру для обеспечения эффективного выполнения. В тестах по пониманию и генерации видео PSA сохраняет контекстную информацию и визуальное качество, стабильно превосходя или достигая сопоставимой производительности с существующими разреженными методами внимания при лучшем балансе эффективности и качества. Наш код и веса моделей общедоступны по адресу: http://ziplab.co/PSA.
Графический дизайн является краеугольным камнем современной визуальной коммуникации, выступая важным средством продвижения культурных и коммерческих мероприятий. Последние достижения исследуют автоматизацию этого процесса с использованием больших мультимодальных моделей (LMM), однако существующие методы часто создают геометрически неточные макеты и не обеспечивают итеративного поэлементного редактирования, необходимого в профессиональных рабочих процессах. Для преодоления этих ограничений мы представляем PosterCopilot — фреймворк, развивающий логику компоновки и контролируемое редактирование для профессионального графического дизайна. В частности, мы предлагаем прогрессивную трехэтапную стратегию обучения, которая оснащает LMM геометрическим пониманием и эстетическим мышлением для проектирования макетов, включающую контролируемую тонкую настройку с возмущениями, обучение с подкреплением для согласования с визуальной реальностью и обучение с подкреплением на основе эстетической обратной связи. Кроме того, мы разрабатываем полный рабочий процесс, объединяющий обученную дизайн-модель на основе LMM с генеративными моделями, что позволяет осуществлять контролируемое по слоям итеративное редактирование для точной доработки элементов при сохранении глобальной визуальной согласованности. Многочисленные эксперименты демонстрируют, что PosterCopilot достигает геометрически точных и эстетически превосходных макетов, обеспечивая беспрецедентную управляемость для профессионального итеративного дизайна.
Мы представляем атаку "Adversarial Confusion Attack" — новый класс угроз для мультимодальных больших языковых моделей (MLLM). В отличие от взлома (jailbreak) или целевой ошибки классификации, её цель — вызвать системный сбой, заставляющий модель генерировать бессвязные или уверенно неверные выводы. Практические применения включают внедрение таких состязательных изображений на веб-сайты для нарушения надежной работы ИИ-агентов, работающих на основе MLLM. Предлагаемая атака максимизирует энтропию следующего токена с использованием небольшого ансамбля открытых MLLM. В условиях белого ящика мы показываем, что одного состязательного изображения достаточно для нарушения работы всех моделей в ансамбле, как в сценарии с полным изображением, так и в настройках Adversarial CAPTCHA. Несмотря на использование базовой состязательной техники (PGD), атака генерирует возмущения, которые переносятся как на непредвиденные открытые (например, Qwen3-VL), так и на проприетарные (например, GPT-5.1) модели.