Ежедневно отобранные исследовательские статьи по ИИ с переводами
Слои нормализации повсеместно используются в современных нейронных сетях и долгое время считались незаменимыми. В данной работе демонстрируется, что трансформеры без нормализации могут достичь такой же или даже лучшей производительности с помощью удивительно простого метода. Мы представляем Dynamic Tanh (DyT) — поэлементную операцию DyT(x) = tanh(alpha x), которая может заменить слои нормализации в трансформерах. DyT вдохновлен наблюдением, что нормализация слоев в трансформерах часто создает S-образные зависимости между входом и выходом, напоминающие функцию tanh. Благодаря использованию DyT, трансформеры без нормализации могут соответствовать или превосходить производительность своих нормализованных аналогов, в большинстве случаев без необходимости настройки гиперпараметров. Мы подтверждаем эффективность трансформеров с DyT в различных задачах, начиная от распознавания и генерации, до обучения с учителем и самообучения, а также в моделях компьютерного зрения и обработки естественного языка. Эти результаты ставят под сомнение традиционное представление о том, что слои нормализации являются обязательными в современных нейронных сетях, и предлагают новые взгляды на их роль в глубоких сетях.
Поскольку сейчас доступны миллионы публичных нейронных сетей, поиск и анализ больших репозиториев моделей становится все более важным. Навигация по такому количеству моделей требует атласа, но поскольку большинство моделей плохо документированы, создание такого атласа является сложной задачей. Чтобы исследовать скрытый потенциал репозиториев моделей, мы создаем предварительный атлас, представляющий документированную часть Hugging Face. Он предоставляет впечатляющие визуализации ландшафта и эволюции моделей. Мы демонстрируем несколько применений этого атласа, включая прогнозирование атрибутов моделей (например, точности) и анализ тенденций в моделях компьютерного зрения. Однако, поскольку текущий атлас остается неполным, мы предлагаем метод для картирования недокументированных областей. В частности, мы определяем структурные априори с высокой степенью уверенности, основанные на доминирующих практиках обучения моделей в реальном мире. Используя эти априори, наш подход позволяет точно картировать ранее недокументированные области атласа. Мы публично выпускаем наши наборы данных, код и интерактивный атлас.
Модели генерации изображений по тексту, такие как Stable Diffusion и DALLE-3, всё ещё испытывают трудности с многошаговым редактированием изображений. Мы декомпозируем такую задачу как агентный рабочий процесс (путь) использования инструментов, который решает последовательность подзадач с помощью инструментов ИИ различной стоимости. Традиционные алгоритмы поиска требуют дорогостоящего исследования для нахождения путей использования инструментов. Хотя крупные языковые модели (LLM) обладают априорными знаниями для планирования подзадач, они могут не иметь точных оценок возможностей и стоимости инструментов, чтобы определить, какие из них применять в каждой подзадаче. Можем ли мы объединить сильные стороны LLM и графового поиска для нахождения экономически эффективных путей использования инструментов? Мы предлагаем трёхэтапный подход "CoSTA*", который использует LLM для создания дерева подзадач, что помогает сократить граф инструментов ИИ для данной задачи, а затем проводит поиск A* на небольшом подграфе для нахождения пути использования инструментов. Для лучшего баланса общей стоимости и качества CoSTA* объединяет обе метрики каждого инструмента на каждой подзадаче, чтобы направлять поиск A*. Результат каждой подзадачи затем оценивается моделью "визуальный язык" (VLM), где неудача запускает обновление стоимости и качества инструмента на подзадаче. Таким образом, поиск A* может быстро восстанавливаться после неудач и исследовать другие пути. Более того, CoSTA* может автоматически переключаться между модальностями в разных подзадачах для лучшего компромисса между стоимостью и качеством. Мы создали новый эталонный набор сложных задач многошагового редактирования изображений, на котором CoSTA* превосходит современные модели или агенты редактирования изображений как по стоимости, так и по качеству, и обеспечивает гибкие компромиссы в зависимости от предпочтений пользователя.
Последние достижения в области крупных визуально-языковых моделей (LVLMs) демонстрируют потенциал для планирования задач в физическом мире, однако они сталкиваются с фундаментальными проблемами, такими как ограничения зависимостей и эффективность. Существующие подходы либо оптимизируют только выбор действий, либо используют мировые модели на этапе вывода, упуская преимущества обучения моделированию мира как способа улучшения планирования. Мы предлагаем Dual Preference Optimization (D^2PO) — новую обучающую структуру, которая совместно оптимизирует предсказание состояний и выбор действий через обучение на основе предпочтений, позволяя LVLMs понимать динамику окружения для более эффективного планирования. Для автоматического сбора траекторий и пошаговых данных о предпочтениях без участия человека мы вводим механизм поиска по дереву для масштабного исследования методом проб и ошибок. Эксперименты на VoTa-Bench показывают, что наш метод на основе D^2PO значительно превосходит существующие подходы и GPT-4o при применении к моделям Qwen2-VL (7B), LLaVA-1.6 (7B) и LLaMA-3.2 (11B), достигая более высоких показателей успешности выполнения задач с более эффективными путями исполнения.
Современные методы генерации и редактирования изображений в основном обрабатывают текстовые запросы как прямые входные данные, не анализируя визуальную композицию и явные операции. Мы представляем новый подход под названием Generation Chain-of-Thought (GoT), который позволяет выполнять генерацию и редактирование через явный процесс языкового рассуждения перед выводом изображений. Этот метод преобразует традиционную генерацию и редактирование изображений на основе текста в структуру, управляемую рассуждениями, которая анализирует семантические отношения и пространственные композиции. Мы определяем формулировку GoT и создаем крупномасштабные наборы данных GoT, содержащие более 9 миллионов образцов с детализированными цепочками рассуждений, фиксирующими семантико-пространственные связи. Чтобы использовать преимущества GoT, мы реализуем унифицированную структуру, которая интегрирует Qwen2.5-VL для генерации цепочек рассуждений с диффузионной моделью end-to-end, усиленной нашим новым модулем Semantic-Spatial Guidance. Эксперименты показывают, что наша структура GoT демонстрирует превосходные результаты как в задачах генерации, так и редактирования, значительно превосходя базовые методы. Кроме того, наш подход позволяет интерактивно управлять визуальной генерацией, предоставляя пользователям возможность явно изменять шаги рассуждений для точной настройки изображений. GoT открывает новое направление для визуальной генерации и редактирования, управляемых рассуждениями, создавая изображения, которые лучше соответствуют человеческим намерениям. Для содействия будущим исследованиям мы делаем наши наборы данных, код и предобученные модели общедоступными по адресу https://github.com/rongyaofang/GoT.
В данной статье представлена модель SANA-Sprint, эффективная диффузионная модель для сверхбыстрого преобразования текста в изображение (T2I). SANA-Sprint построена на предварительно обученной базовой модели и дополнена гибридной дистилляцией, что значительно сокращает количество шагов вывода с 20 до 1-4. Мы предлагаем три ключевых инновации: (1) Мы предлагаем подход, не требующий обучения, который преобразует предварительно обученную модель flow-matching для дистилляции непрерывной временной согласованности (sCM), устраняя необходимость дорогостоящего обучения с нуля и обеспечивая высокую эффективность обучения. Наша гибридная стратегия дистилляции сочетает sCM с латентной адверсарной дистилляцией (LADD): sCM обеспечивает согласованность с учительской моделью, а LADD повышает точность генерации в один шаг. (2) SANA-Sprint представляет собой унифицированную модель с адаптивным шагом, которая обеспечивает высококачественную генерацию за 1-4 шага, устраняя необходимость обучения для конкретных шагов и повышая эффективность. (3) Мы интегрируем ControlNet с SANA-Sprint для генерации изображений в реальном времени с интерактивным взаимодействием, что позволяет мгновенно получать визуальную обратную связь для взаимодействия с пользователем. SANA-Sprint устанавливает новый парето-фронт в компромиссе между скоростью и качеством, достигая передовых показателей с 7.59 FID и 0.74 GenEval всего за 1 шаг — превосходя FLUX-schnell (7.94 FID / 0.71 GenEval) при 10-кратном увеличении скорости (0.1с против 1.1с на H100). Модель также демонстрирует задержку 0.1с (T2I) и 0.25с (ControlNet) для изображений 1024 x 1024 на H100 и 0.31с (T2I) на RTX 4090, что подчеркивает её исключительную эффективность и потенциал для потребительских приложений с искусственным интеллектом (AIPC). Код и предварительно обученные модели будут опубликованы в открытом доступе.
Мы представляем VisualPRM — продвинутую мультимодальную модель Process Reward Model (PRM) с 8 миллиардами параметров, которая улучшает способности к рассуждению существующих мультимодальных больших языковых моделей (MLLMs) различных масштабов и семейств с использованием стратегий оценки Best-of-N (BoN). В частности, наша модель повышает производительность рассуждений для трех типов MLLMs и четырех различных масштабов моделей. Даже при применении к высокопроизводительной модели InternVL2.5-78B она достигает улучшения на 5,9 балла по семи мультимодальным бенчмаркам на рассуждение. Экспериментальные результаты показывают, что наша модель демонстрирует превосходную производительность по сравнению с Outcome Reward Models и Self-Consistency в ходе оценки BoN. Для облегчения обучения мультимодальных PRMs мы создали мультимодальный набор данных с процессным контролем VisualPRM400K с использованием автоматизированного конвейера данных. Для оценки мультимодальных PRMs мы предлагаем VisualProcessBench — бенчмарк с аннотированными человеком метками пошаговой корректности, чтобы измерять способности PRMs обнаруживать ошибочные шаги в мультимодальных задачах на рассуждение. Мы надеемся, что наша работа вдохновит на дальнейшие исследования и внесет вклад в развитие MLLMs. Наша модель, данные и бенчмарк доступны по адресу https://internvl.github.io/blog/2025-03-13-VisualPRM/.
Модели диффузии для генерации изображений из текста достигли значительных успехов в создании высококачественного контента на основе текстовых запросов. Однако их зависимость от общедоступных данных и растущая тенденция к обмену данными для тонкой настройки делают эти модели особенно уязвимыми для атак с использованием отравления данных. В данной работе мы представляем Silent Branding Attack — новый метод отравления данных, который манипулирует моделями генерации изображений из текста, заставляя их создавать изображения с определенными логотипами или символами без каких-либо текстовых триггеров. Мы обнаружили, что если определенные визуальные паттерны часто встречаются в обучающих данных, модель учится воспроизводить их естественным образом в своих выходах, даже без упоминания в запросе. Используя это, мы разработали автоматизированный алгоритм отравления данных, который незаметно внедряет логотипы в исходные изображения, обеспечивая их естественное встраивание и незаметность. Модели, обученные на таких отравленных данных, генерируют изображения с логотипами без ухудшения качества изображения или соответствия тексту. Мы экспериментально подтвердили эффективность нашей атаки Silent Branding в двух реалистичных сценариях на крупных наборах данных высококачественных изображений и наборах данных для персонализации стилей, достигнув высоких показателей успеха даже без конкретного текстового триггера. Человеческая оценка и количественные метрики, включая обнаружение логотипов, показывают, что наш метод может незаметно внедрять логотипы.
Создание текстово-изобразительных (T2I) генеративных моделей, которые бы одновременно быстро и качественно генерировали изображения, представляет собой перспективное направление исследований. Предыдущие работы обычно фокусировались либо на улучшении визуального качества синтезированных изображений за счет снижения эффективности выборки, либо на значительном ускорении выборки без улучшения генеративной способности базовой модели. Кроме того, почти все методы вывода не смогли обеспечить стабильную производительность одновременно на диффузионных моделях (DMs) и визуальных авторегрессионных моделях (ARMs). В данной статье мы представляем новую парадигму вывода "подключи и работай" — CoRe^2, которая включает три подпроцесса: Collect (Сбор), Reflect (Отражение) и Refine (Уточнение). CoRe^2 сначала собирает траектории классификаторно-свободного управления (CFG), а затем использует собранные данные для обучения слабой модели, которая отражает легко усваиваемые элементы, сокращая количество вычислений функции во время вывода вдвое. Впоследствии CoRe^2 применяет слабое-к-сильному управление для уточнения условного вывода, тем самым улучшая способность модели генерировать высокочастотный и реалистичный контент, который сложно уловить базовой модели. Насколько нам известно, CoRe^2 впервые демонстрирует как эффективность, так и производительность на широком спектре DMs, включая SDXL, SD3.5 и FLUX, а также ARMs, таких как LlamaGen. Она показала значительное улучшение производительности на HPD v2, Pick-of-Pic, Drawbench, GenEval и T2I-Compbench. Более того, CoRe^2 может быть легко интегрирована с передовым методом Z-Sampling, превосходя его на 0.3 и 0.16 по PickScore и AES, при этом экономя 5.64 секунд при использовании SD3.5. Код доступен по адресу: https://github.com/xie-lab-ml/CoRe/tree/main.
Изучение 4D языковых полей для обеспечения временно-чувствительных, открытых языковых запросов в динамических сценах является важным для многих реальных приложений. Хотя LangSplat успешно закрепляет признаки CLIP в 3D гауссовских представлениях, достигая точности и эффективности в статических 3D сценах, он не способен обрабатывать динамические 4D поля, так как CLIP, разработанный для статических задач "изображение-текст", не может улавливать временную динамику в видео. Реальные среды по своей природе динамичны, и семантика объектов изменяется со временем. Построение точного 4D языкового поля требует получения пиксельно-выровненных, объектно-ориентированных видеопризнаков, что является сложной задачей для современных моделей компьютерного зрения. Для решения этих проблем мы предлагаем 4D LangSplat, который изучает 4D языковые поля для эффективной обработки временно-независимых или временно-чувствительных открытых запросов в динамических сценах. 4D LangSplat обходит необходимость изучения языкового поля из визуальных признаков и вместо этого обучается непосредственно на тексте, сгенерированном из объектно-ориентированных видеозаписей с помощью мультимодальных больших языковых моделей (MLLMs). В частности, мы предлагаем мультимодальный метод объектно-ориентированного видеоподсказывания, состоящий из визуальных и текстовых подсказок, которые направляют MLLMs на генерацию детальных, временно-согласованных, высококачественных описаний для объектов на протяжении видео. Эти описания кодируются с помощью большой языковой модели в высококачественные векторные представления предложений, которые затем служат пиксельно-выровненным, объектно-специфическим признаковым надзором, облегчая открытые текстовые запросы через общие пространства встраивания. Учитывая, что объекты в 4D сценах демонстрируют плавные переходы между состояниями, мы дополнительно предлагаем сеть с деформируемым состоянием для эффективного моделирования этих непрерывных изменений во времени. Наши результаты на нескольких тестовых наборах данных показывают, что 4D LangSplat достигает точных и эффективных результатов как для временно-чувствительных, так и для временно-независимых открытых запросов.
В данной статье представлены результаты нашей работы над серией Light-R1, включая модели, данные и код, которые были опубликованы. В первую очередь мы сосредоточились на обучении моделей с длинными цепочками рассуждений (COT) с нуля, начиная с моделей, изначально не обладающих такими возможностями. Используя учебный план, состоящий из двухэтапного обучения с учителем (SFT) и полуонлайнового обучения с предпочтениями (DPO), мы обучили нашу модель Light-R1-32B на основе Qwen2.5-32B-Instruct, достигнув превосходных результатов в математических задачах по сравнению с DeepSeek-R1-Distill-Qwen-32B. Несмотря на обучение исключительно на математических данных, Light-R1-32B демонстрирует сильную обобщающую способность в других областях. В следующем этапе работы мы подчеркиваем значительную пользу набора данных из 3 тысяч примеров, созданного для второго этапа SFT, в улучшении других моделей. Настроив модели DeepSeek-R1-Distilled с использованием этого набора данных, мы получили новые модели, устанавливающие рекорды (SOTA) для 7B и 14B, в то время как модель 32B, Light-R1-32B-DS, показала результаты, сопоставимые с QwQ-32B и DeepSeek-R1. Кроме того, мы расширили нашу работу, применив обучение с подкреплением, в частности метод GRPO, к моделям с длинными COT для дальнейшего улучшения способностей к рассуждению. Мы успешно обучили нашу финальную модель Light-R1-14B-DS с использованием RL, достигнув рекордных результатов среди моделей с 14 миллиардами параметров в математических задачах. С показателями AIME24 и AIME25, равными 74.0 и 60.2 соответственно, Light-R1-14B-DS превосходит даже многие модели с 32 миллиардами параметров и DeepSeek-R1-Distill-Llama-70B. Обучение с подкреплением также демонстрирует ожидаемое поведение, показывая одновременное увеличение длины ответа и оценки вознаграждения. Серия работ Light-R1 подтверждает возможность обучения моделей с длинными COT с нуля, демонстрирует искусство в создании данных для SFT и представляет модели, устанавливающие рекорды, благодаря обучению с подкреплением.
Диффузионные генеративные модели произвели революцию в объектно-ориентированном редактировании изображений, однако их применение для реалистичного удаления и вставки объектов по-прежнему ограничено такими проблемами, как сложное взаимодействие физических эффектов и недостаток парных обучающих данных. В данной работе мы представляем OmniPaint — унифицированную структуру, которая переосмысливает удаление и вставку объектов как взаимосвязанные процессы, а не изолированные задачи. Используя предобученный диффузионный приор и прогрессивный обучающий конвейер, включающий оптимизацию на начальных парных образцах и последующую масштабную доработку на непарных данных с помощью CycleFlow, OmniPaint достигает точного удаления переднего плана и бесшовной вставки объектов, при этом сохраняя геометрию сцены и её внутренние свойства. Кроме того, наш новый метрический показатель CFD предлагает надежную, не требующую эталонов оценку согласованности контекста и генерации объектов, устанавливая новый стандарт для высококачественного редактирования изображений. Страница проекта: https://yeates.github.io/OmniPaint-Page/
Модели, объединяющие зрение и язык, достигли значительного прогресса в решении многих задач, ориентированных на восприятие, однако их успехи в задачах, требующих рассуждений, остаются ограниченными из-за недостатка качественных и разнообразных обучающих данных. В данной работе мы стремимся решить проблему дефицита мультимодальных наборов данных, ориентированных на рассуждения. Мы предлагаем VisualWebInstruct — новый подход, который использует поисковую систему для создания разнообразного и качественного набора данных, охватывающего такие дисциплины, как математика, физика, финансы, химия и другие. Начиная с тщательно отобранных 30 000 исходных изображений, мы применяем поиск Google Images для идентификации веб-сайтов, содержащих похожие изображения. Мы собираем и обрабатываем HTML-коды с более чем 700 тысяч уникальных URL-источников. С помощью конвейера извлечения, фильтрации и синтеза контента мы создаем набор данных, состоящий из примерно 900 тысяч пар вопрос-ответ, где 40% составляют визуальные пары вопрос-ответ, а остальные — текстовые. Модели, дообученные на VisualWebInstruct, демонстрируют значительное улучшение производительности: (1) обучение на основе Llava-OV-mid показывает рост на 10–20 процентных пунктов на различных бенчмарках, (2) обучение на основе MAmmoTH-VL показывает рост на 5 процентных пунктов. Наша лучшая модель MAmmoTH-VL2 демонстрирует наивысшую производительность в классе моделей с 10 миллиардами параметров на тестах MMMU-Pro-std (40,7%), MathVerse (42,6%) и DynaMath (55,7%). Эти впечатляющие результаты подчеркивают эффективность нашего набора данных в улучшении способностей моделей, объединяющих зрение и язык, к рассуждениям при решении сложных мультимодальных задач.
Последние достижения в области больших моделей рассуждений (Large Reasoning Models, LRMs), особенно тех, которые используют цепочку рассуждений (Chain-of-Thought, CoT), открыли совершенно новые возможности для машинного перевода (Machine Translation, MT). В данной позиционной статье утверждается, что LRMs существенно трансформировали как традиционные нейронные подходы к MT, так и парадигмы MT на основе больших языковых моделей (LLMs), переосмысливая перевод как динамическую задачу рассуждения, требующую контекстуального, культурного и лингвистического понимания и анализа. Мы выделяем три фундаментальных сдвига: 1) контекстуальная согласованность, где LRMs разрешают неоднозначности и сохраняют структуру дискурса за счет явного анализа межфразового и сложного контекста или даже его отсутствия; 2) культурная интенциональность, позволяющая моделям адаптировать выводы, учитывая намерения говорящего, ожидания аудитории и социолингвистические нормы; 3) саморефлексия, где LRMs способны выполнять самоанализ во время вывода, чтобы исправлять потенциальные ошибки перевода, особенно в крайне зашумленных случаях, демонстрируя лучшую устойчивость по сравнению с простым отображением X->Y. Мы исследуем различные сценарии перевода, включая стилизованный перевод, перевод на уровне документов и мультимодальный перевод, приводя эмпирические примеры, демонстрирующие превосходство LRMs в этой области. Также мы выделяем несколько интересных феноменов, связанных с использованием LRMs для MT, таких как авто-пивотный перевод, а также ключевые вызовы, включая чрезмерную локализацию в переводе и эффективность вывода. В заключение мы считаем, что LRMs переопределяют системы перевода, превращая их не просто в преобразователи текста, а в многоязычные когнитивные агенты, способные рассуждать о значении за пределами текста. Этот сдвиг парадигмы напоминает нам о необходимости рассматривать проблемы перевода в более широком контексте с использованием LRMs — о том, чего мы можем достичь на их основе.
Последние достижения в области языковых моделей с длинным контекстом (LLM) в основном сосредоточены на обработке расширенных входных контекстов, что привело к значительным успехам в понимании длинных текстов. Однако столь же важный аспект генерации длинных выходных данных получил сравнительно меньше внимания. В данной статье предлагается смена парадигмы в исследованиях NLP, направленная на решение задач генерации длинных выходных данных. Такие задачи, как написание романов, долгосрочное планирование и сложные рассуждения, требуют от моделей понимания обширных контекстов и создания связных, насыщенных контекстом и логически последовательных длинных текстов. Эти требования подчеркивают критический пробел в текущих возможностях LLM. Мы акцентируем важность этой малоизученной области и призываем к сосредоточенным усилиям по разработке базовых LLM, адаптированных для генерации высококачественных длинных текстов, которые обладают огромным потенциалом для реальных приложений.
Пиксельная привязка, включающая такие задачи, как сегментация по референсным выражениям (Referring Expression Segmentation, RES), привлекает значительное внимание благодаря своему огромному потенциалу для сближения визуальной и языковой модальностей. Однако прогресс в этой области в настоящее время ограничен недостатками существующих наборов данных, включая ограниченное количество категорий объектов, недостаточное текстовое разнообразие и дефицит высококачественных аннотаций. Чтобы устранить эти ограничения, мы представляем GroundingSuite, который включает: (1) автоматизированную систему аннотирования данных, использующую несколько агентов Vision-Language Model (VLM); (2) крупномасштабный обучающий набор данных, содержащий 9,56 миллионов разнообразных референсных выражений и соответствующих им сегментаций; и (3) тщательно отобранный эталонный набор для оценки, состоящий из 3 800 изображений. Обучающий набор данных GroundingSuite способствует значительному улучшению производительности, позволяя моделям, обученным на нем, достигать современных результатов. В частности, достигается cIoU 68,9 на gRefCOCO и gIoU 55,3 на RefCOCOm. Более того, система аннотирования GroundingSuite демонстрирует превосходную эффективность по сравнению с текущим ведущим методом аннотирования данных, а именно, она работает в 4,5 раза быстрее, чем GLaMM.
Модели генерации видео достигли значительного прогресса за последний год. Качество видео, создаваемого искусственным интеллектом, продолжает улучшаться, однако это происходит за счет увеличения размера моделей, объема данных и требований к вычислительным ресурсам для обучения. В данном отчете мы представляем Open-Sora 2.0 — коммерчески значимую модель генерации видео, обученную всего за $200 тыс. С помощью этой модели мы демонстрируем, что стоимость обучения высокопроизводительной модели генерации видео может быть существенно контролируемой. Мы подробно описываем все методы, которые способствовали этому прорыву в эффективности, включая подготовку данных, архитектуру модели, стратегию обучения и оптимизацию системы. Согласно результатам оценки людьми и показателям VBench, Open-Sora 2.0 сопоставима с ведущими мировыми моделями генерации видео, включая открытую HunyuanVideo и закрытую Runway Gen-3 Alpha. Сделав Open-Sora 2.0 полностью открытой, мы стремимся демократизировать доступ к передовым технологиям генерации видео, способствуя более широким инновациям и творчеству в создании контента. Все ресурсы доступны публично по адресу: https://github.com/hpcaitech/Open-Sora.
В данной работе мы эмпирически исследуем Трансформеры с Диффузией (DiTs) для генерации изображений по тексту, уделяя особое внимание архитектурным решениям, стратегиям текстового кондиционирования и протоколам обучения. Мы оцениваем ряд архитектур на основе DiT, включая варианты в стиле PixArt и MMDiT, и сравниваем их с базовой версией DiT, которая напрямую обрабатывает объединенные текстовые и шумовые входные данные. Удивительно, но наши результаты показывают, что производительность стандартной DiT сопоставима с этими специализированными моделями, при этом демонстрируя превосходную эффективность по параметрам, особенно при масштабировании. Используя стратегию разделения параметров между слоями, мы добиваемся дополнительного сокращения размера модели на 66% по сравнению с архитектурой MMDiT с минимальным влиянием на производительность. На основе глубокого анализа ключевых компонентов, таких как текстовые кодировщики и Вариационные Автокодировщики (VAEs), мы представляем DiT-Air и DiT-Air-Lite. С использованием контролируемой и ревардной тонкой настройки, DiT-Air достигает наилучших результатов на тестах GenEval и T2I CompBench, в то время как DiT-Air-Lite остается высококонкурентоспособной, превосходя большинство существующих моделей, несмотря на компактный размер.
Крупные языковые модели продемонстрировали впечатляющие способности к рассуждению в сложных текстовых задачах. Однако мультимодальное рассуждение, требующее интеграции визуальной и текстовой информации, остается значительной проблемой. Существующие визуально-языковые модели часто испытывают трудности с эффективным анализом и рассуждением на основе визуального контента, что приводит к неоптимальной производительности в сложных задачах рассуждения. Более того, отсутствие всеобъемлющих бенчмарков затрудняет точную оценку мультимодальных способностей к рассуждению. В данной статье мы представляем R1-Onevision, мультимодальную модель рассуждения, разработанную для устранения разрыва между визуальным восприятием и глубоким рассуждением. Для достижения этой цели мы предлагаем кросс-модальный конвейер рассуждения, который преобразует изображения в формальные текстовые представления, обеспечивая точное рассуждение на основе языка. Используя этот конвейер, мы создаем набор данных R1-Onevision, который предоставляет детальные, пошаговые аннотации мультимодального рассуждения в различных областях. Мы также развиваем модель R1-Onevision с помощью контролируемой тонкой настройки и обучения с подкреплением, чтобы развить продвинутые способности к рассуждению и устойчивую генерализацию. Для всесторонней оценки мультимодальной производительности рассуждения на разных уровнях мы представляем R1-Onevision-Bench, бенчмарк, соответствующий этапам человеческого образования, охватывающий экзамены от средней школы до университета и далее. Экспериментальные результаты показывают, что R1-Onevision достигает наилучших результатов, превосходя модели, такие как GPT-4o и Qwen2.5-VL, на нескольких сложных мультимодальных бенчмарках рассуждения.
Дистиллированные диффузионные модели страдают от критического ограничения: сниженное разнообразие выборок по сравнению с их базовыми аналогами. В данной работе мы обнаруживаем, что, несмотря на эту потерю разнообразия, дистиллированные модели сохраняют фундаментальные концептуальные представления базовых моделей. Мы демонстрируем дистилляцию управления — когда механизмы управления, такие как Concept Sliders и LoRAs, обученные на базовых моделях, могут быть бесшовно перенесены на дистиллированные модели и наоборот, эффективно дистиллируя управление без необходимости повторного обучения. Это сохранение структуры представлений побудило нас исследовать механизмы коллапса разнообразия в процессе дистилляции. Чтобы понять, как дистилляция влияет на разнообразие, мы представляем визуализацию целевых диффузий (Diffusion Target Visualization, DT-Visualization) — инструмент анализа и отладки, который показывает, как модели предсказывают конечные результаты на промежуточных шагах. С помощью DT-Visualization мы выявляем артефакты генерации, несоответствия и демонстрируем, что начальные шаги диффузии непропорционально определяют разнообразие выходных данных, в то время как последующие шаги в основном уточняют детали. На основе этих инсайтов мы вводим дистилляцию разнообразия — гибридный подход к выводу, который стратегически использует базовую модель только для первого критического шага, прежде чем перейти к эффективной дистиллированной модели. Наши эксперименты показывают, что это простое изменение не только восстанавливает возможности разнообразия от базовых к дистиллированным моделям, но и, что удивительно, превосходит их, сохраняя при этом почти ту же вычислительную эффективность дистиллированного вывода, и все это без необходимости дополнительного обучения или модификации моделей. Наш код и данные доступны по адресу https://distillation.baulab.info.
Последние достижения в области генерации видео позволяют создавать реалистичные односценовые ролики продолжительностью до минуты с использованием масштабируемых диффузионных трансформеров. Однако реальные повествовательные видео требуют многосценовых композиций с визуальной и динамической согласованностью между сценами. В данной работе мы представляем Long Context Tuning (LCT) — метод обучения, который расширяет контекстное окно предварительно обученных моделей односценовой видео-диффузии для изучения согласованности на уровне сцены непосредственно из данных. Наш метод расширяет механизмы полного внимания с отдельных сцен на все сцены в рамках одной композиции, включая чередующиеся 3D-позиционные эмбеддинги и асинхронную стратегию шума, что позволяет осуществлять как совместную, так и авторегрессионную генерацию сцен без дополнительных параметров. Модели с двунаправленным вниманием после LCT могут быть дополнительно дообучены с использованием контекстно-каузального внимания, что способствует авторегрессионной генерации с эффективным KV-кэшированием. Эксперименты показывают, что односценовые модели после LCT способны создавать согласованные многосценовые композиции и демонстрируют новые возможности, включая композиционную генерацию и интерактивное расширение сцен, открывая путь к более практичному созданию визуального контента. Подробности доступны по ссылке: https://guoyww.github.io/projects/long-context-video/.
По мере масштабирования к более крупным моделям машинного обучения частые требования к синхронизации, присущие подходам с параллельной обработкой данных, создают значительные замедления, что представляет собой серьезное препятствие для дальнейшего масштабирования. В последних работах разработан подход (DiLoCo), который снижает требования к синхронизации без ущерба для качества модели. Однако в этих работах не проводится тщательный анализ того, как поведение DiLoCo изменяется с увеличением размера модели. В данной работе мы исследуем закономерности масштабирования DiLoCo при обучении крупных языковых моделей (LLM) с фиксированным бюджетом вычислений. Мы сосредоточимся на том, как алгоритмические факторы, включая количество реплик модели, гиперпараметры и бюджет токенов, влияют на обучение, что может быть точно предсказано с помощью законов масштабирования. Мы обнаруживаем, что DiLoCo масштабируется как предсказуемо, так и устойчиво с увеличением размера модели. При правильной настройке DiLoCo масштабируется лучше, чем обучение с параллельной обработкой данных, и может превосходить его даже для небольших моделей. Наши результаты демонстрируют более широкий набор преимуществ DiLoCo, чем было ранее задокументировано, включая увеличение оптимальных размеров батчей, улучшение обобщения на последующих этапах с увеличением масштаба и снижение потерь при оценке для фиксированного бюджета токенов.
Генерация видео достигла значительного прогресса с появлением глубоких генеративных моделей, в частности, диффузионных моделей. Хотя существующие методы преуспевают в создании высококачественных видео на основе текстовых запросов или отдельных изображений, персонализированная генерация видео с участием нескольких объектов остается в значительной степени неисследованной задачей. Эта задача включает синтез видео, которые включают несколько различных объектов, каждый из которых определяется отдельными эталонными изображениями, при обеспечении временной и пространственной согласованности. Современные подходы в основном полагаются на сопоставление изображений объектов с ключевыми словами в текстовых запросах, что вносит неоднозначность и ограничивает их способность эффективно моделировать отношения между объектами. В данной статье мы предлагаем CINEMA, новый фреймворк для согласованной генерации видео с участием нескольких объектов, использующий Мультимодальную Большую Языковую Модель (MLLM). Наш подход устраняет необходимость явного соответствия между изображениями объектов и текстовыми сущностями, снижая неоднозначность и уменьшая объем аннотаций. Используя MLLM для интерпретации отношений между объектами, наш метод способствует масштабируемости, позволяя использовать большие и разнообразные наборы данных для обучения. Кроме того, наш фреймворк может быть адаптирован к различному количеству объектов, предлагая большую гибкость в создании персонализированного контента. В ходе обширных оценок мы демонстрируем, что наш подход значительно улучшает согласованность объектов и общую согласованность видео, прокладывая путь для передовых приложений в области сторителлинга, интерактивных медиа и персонализированной генерации видео.
В данной работе исследуется возможность использования моделей генерации изображений из текста в условиях zero-shot для создания изображений, соответствующих концептам таксономии. Хотя текстовые методы обогащения таксономии хорошо изучены, потенциал визуального измерения остается неисследованным. Для решения этой проблемы мы предлагаем комплексный бенчмарк для генерации изображений таксономии, который оценивает способности моделей понимать концепты таксономии и создавать релевантные, качественные изображения. Бенчмарк включает как общеизвестные, так и случайно выбранные концепты из WordNet, а также предсказания, сгенерированные языковыми моделями. 12 моделей оцениваются с использованием 9 новых метрик, связанных с таксономией, и обратной связи от людей. Кроме того, мы впервые применяем попарную оценку с использованием обратной связи GPT-4 для генерации изображений. Экспериментальные результаты показывают, что рейтинг моделей значительно отличается от стандартных задач генерации изображений из текста. Playground-v2 и FLUX стабильно демонстрируют лучшие результаты по всем метрикам и подмножествам, тогда как подход, основанный на извлечении, показывает низкую эффективность. Эти результаты подчеркивают потенциал автоматизации курирования структурированных ресурсов данных.
Модели обработки визуальной информации и языка (Vision Language Models, VLMs) продемонстрировали значительный потенциал в различных прикладных задачах, включая генерацию изображений/видео, визуальное ответы на вопросы, мультимодальные чат-боты и понимание видео. Однако эти модели часто испытывают трудности с базовыми преобразованиями изображений. В данной статье исследуется понимание изображений на уровне моделей VLMs, в частности CLIP от OpenAI и SigLIP от Google. Наши результаты показывают, что эти модели не способны осмысливать множественные преобразования изображений. Для проведения этого исследования мы создали расширенную версию набора данных Flickr8k, сопоставив каждое изображение с подробным описанием применённого преобразования. Мы также исследуем, как этот недостаток влияет на прикладные задачи, особенно на редактирование изображений, и оцениваем производительность современных моделей Image2Image на простых преобразованиях.
Перенос стиля предполагает перенос стиля из эталонного изображения на содержание целевого изображения. Последние достижения в методах на основе LoRA (Low-Rank Adaptation, адаптация низкого ранга) показали перспективность в эффективном захвате стиля одного изображения. Однако эти подходы по-прежнему сталкиваются с серьезными проблемами, такими как несогласованность содержания, несоответствие стиля и утечка содержания. В данной работе мы всесторонне анализируем ограничения стандартной параметризации диффузии, которая обучается предсказывать шум, в контексте переноса стиля. Для решения этих проблем мы представляем ConsisLoRA — метод на основе LoRA, который улучшает согласованность как содержания, так и стиля за счет оптимизации весов LoRA для предсказания исходного изображения вместо шума. Мы также предлагаем двухэтапную стратегию обучения, которая разделяет изучение содержания и стиля из эталонного изображения. Для эффективного захвата как глобальной структуры, так и локальных деталей изображения содержания мы вводим стратегию поэтапного перехода потерь. Кроме того, мы представляем метод управления выводом, который позволяет непрерывно контролировать силу содержания и стиля во время вывода. Как качественные, так и количественные оценки демонстрируют значительные улучшения в согласованности содержания и стиля при эффективном снижении утечки содержания.
Мы представляем ARPG — новую визуальную авторегрессионную модель, которая обеспечивает рандомизированное параллельное генерирование, устраняя присущие ограничения традиционных подходов, основанных на растровом порядке. Эти подходы снижают эффективность вывода и способность к обобщению в условиях zero-shot из-за их последовательного, заранее заданного порядка генерации токенов. Наше ключевое наблюдение заключается в том, что эффективное моделирование с произвольным порядком требует явного руководства для определения позиции следующего предсказываемого токена. Для этого мы предлагаем новый фреймворк управляемого декодирования, который разделяет позиционное руководство и представление контента, кодируя их отдельно как запросы и пары ключ-значение. Путем непосредственного включения этого руководства в механизм каузального внимания наш подход позволяет полностью случайный порядок обучения и генерации, устраняя необходимость в двунаправленном внимании. В результате ARPG легко обобщается на задачи zero-shot, такие как восстановление изображений, расширение изображений и увеличение разрешения. Кроме того, модель поддерживает параллельный вывод, одновременно обрабатывая несколько запросов с использованием общего кэша ключ-значение. На тестовом наборе данных ImageNet-1K 256 наш подход достигает показателя FID 1.94 всего за 64 шага выборки, обеспечивая более чем 20-кратное увеличение пропускной способности при сокращении потребления памяти более чем на 75% по сравнению с недавними репрезентативными авторегрессионными моделями аналогичного масштаба.
Продвинутые генеративные модели преуспевают в синтезе изображений, но часто полагаются на текстовые условия. Однако визуальные дизайнеры часто работают за пределами языка, черпая вдохновение непосредственно из существующих визуальных элементов. Во многих случаях эти элементы представляют собой лишь фрагменты потенциальной концепции — например, уникально структурированное крыло или определённая причёска, — которые служат источником вдохновения для художника, чтобы исследовать, как они могут творчески объединиться в целостное произведение. Осознавая эту потребность, мы представляем генеративную структуру, которая бесшовно интегрирует частичный набор визуальных компонентов, предоставленных пользователем, в целостную композицию, одновременно синтезируя недостающие части, необходимые для создания правдоподобного и завершённого концепта. Наш подход основывается на мощном и малоизученном пространстве представлений, извлечённом из IP-Adapter+, на котором мы обучаем IP-Prior — лёгкую модель согласования потоков, которая синтезирует целостные композиции на основе доменно-специфических априорных данных, обеспечивая разнообразные и контекстно-осознанные генерации. Кроме того, мы представляем стратегию тонкой настройки на основе LoRA, которая значительно улучшает соответствие запросам в IP-Adapter+ для конкретной задачи, устраняя типичный компромисс между качеством реконструкции и соответствием запросам.
В данной статье мы предлагаем общий фреймворк для универсальной навигации с нулевым обучением, ориентированной на цели. Существующие методы с нулевым обучением строят инфраструктуру вывода на основе больших языковых моделей (LLM) для конкретных задач, что значительно различается в общем конвейере и не позволяет обобщать для разных типов целей. Для достижения универсальной навигации с нулевым обучением мы предлагаем единое графовое представление для унификации различных целей, включая категории объектов, изображения экземпляров и текстовые описания. Мы также преобразуем наблюдения агента в онлайн поддерживаемый граф сцены. С таким согласованным представлением сцены и цели мы сохраняем большую часть структурной информации по сравнению с чистым текстом и можем использовать LLM для явного графового рассуждения. В частности, мы выполняем сопоставление графов между графом сцены и графом цели на каждом временном шаге и предлагаем различные стратегии для генерации долгосрочной цели исследования в зависимости от различных состояний сопоставления. Агент сначала итеративно ищет подграф цели при нулевом сопоставлении. При частичном сопоставлении агент затем использует проекцию координат и выравнивание пар якорей для вывода местоположения цели. Наконец, применяются коррекция графа сцены и проверка цели для идеального сопоставления. Мы также представляем механизм черного списка для обеспечения надежного переключения между этапами. Многочисленные эксперименты на нескольких бенчмарках показывают, что наш UniGoal достигает наилучших результатов с нулевым обучением на трех изученных задачах навигации с использованием одной модели, превосходя даже специализированные методы с нулевым обучением и универсальные методы с обучением.
Модели автоматического распознавания речи (ASR) приобрели значительную популярность для таких задач, как создание субтитров, перевод речи и транскрибирование в реальном времени. В данной статье исследуются модель Whisper и два её варианта: один оптимизирован для потоковой обработки живой речи, а другой — для оффлайн-транскрибирования. Примечательно, что было обнаружено, что эти модели могут генерировать ложный контент, что снижает надёжность транскрипции. Кроме того, более крупные варианты моделей демонстрируют увеличенную задержку и создают сложности для развёртывания на устройствах с ограниченными ресурсами. В данном исследовании анализируются сходства и различия между тремя моделями Whisper, качественно оцениваются их уникальные возможности. Далее в работе количественно оценивается влияние квантования модели на задержку и исследуется его пригодность для развёртывания на периферийных устройствах. Используя открытый набор данных LibriSpeech, в статье оценивается частота ошибок по словам (WER) и проводится анализ задержки для whispercpp с использованием трёх методов квантования (INT4, INT5, INT8). Результаты показывают, что квантование снижает задержку на 19\% и размер модели на 45\%, сохраняя при этом точность транскрипции. Эти результаты дают представление об оптимальных сценариях использования различных моделей Whisper и возможностях их развёртывания на периферийных устройствах. Весь код, наборы данных и детали реализации доступны в публичном репозитории GitHub: https://github.com/allisonandreyev/WhisperQuantization.git.
Модели Vision Transformer демонстрируют огромную мощь, но остаются непрозрачными для человеческого понимания, что создает сложности и риски для их практического применения. Хотя предыдущие исследования пытались раскрыть суть этих моделей с помощью анализа вклада входных данных и ролей нейронов, в них не уделялось достаточного внимания информации на уровне слоев и целостному пути потока информации между слоями. В данной работе мы исследуем значимость влиятельных путей нейронов в Vision Transformer, представляющих собой последовательность нейронов от входа модели до выхода, которая оказывает наибольшее влияние на вывод модели. Сначала мы предлагаем совместную меру влияния для оценки вклада группы нейронов в результат модели. Далее мы представляем послойный подход к локализации нейронов, который эффективно выбирает наиболее влиятельный нейрон на каждом слое, стремясь обнаружить ключевой путь нейронов от входа до выхода внутри целевой модели. Наши эксперименты демонстрируют превосходство нашего метода в поиске наиболее влиятельного пути нейронов, по которому проходит информация, по сравнению с существующими базовыми решениями. Кроме того, пути нейронов показывают, что Vision Transformer обладают определенным внутренним механизмом обработки визуальной информации в рамках одной категории изображений. Мы также анализируем ключевое влияние этих нейронов на задачу классификации изображений, демонстрируя, что найденные пути нейронов уже сохраняют способность модели к решению последующих задач, что может также пролить свет на практические приложения, такие как обрезка моделей. Проектный веб-сайт, включая код реализации, доступен по адресу https://foundation-model-research.github.io/NeuronPath/.
Крупные языковые модели (LLM) стремительно проникают в жизнь детей — через их внедрение родителями, в школах и в кругах сверстников, — однако текущие исследования в области этики и безопасности ИИ недостаточно учитывают контентные риски, специфичные для несовершеннолетних. В данной статье мы выделяем эти пробелы на примере реального кейса использования LLM-чата в средней школе, демонстрируя, как ученики использовали, а иногда и злоупотребляли системой. На основе этих наблюдений мы предлагаем новую таксономию контентных рисков для несовершеннолетних и представляем MinorBench — открытый бенчмарк, разработанный для оценки способности LLM отклонять небезопасные или неподходящие запросы от детей. Мы тестируем шесть известных LLM с различными системными подсказками, выявляя значительные различия в их соответствии требованиям безопасности для детей. Наши результаты предлагают практические шаги для создания более надежных механизмов безопасности, ориентированных на детей, и подчеркивают необходимость адаптации ИИ-систем для защиты молодых пользователей.
Галлюцинации объектов (Object Hallucination, OH) признаны одной из основных проблем, связанных с доверием к крупным визуально-языковым моделям (Large Vision-Language Models, LVLMs). Последние достижения в области крупных языковых моделей (Large Language Models, LLMs) показывают, что внутренние состояния, такие как скрытые состояния, кодируют "общую правдивость" генерируемых ответов. Однако остается недостаточно изученным, как функционируют внутренние состояния в LVLMs и могут ли они служить "поточковыми" индикаторами галлюцинаций, что крайне важно для смягчения OH. В данной работе мы сначала проводим глубокое исследование внутренних состояний LVLMs в контексте проблем OH и обнаруживаем, что (1) внутренние состояния LVLMs являются высокоспецифичными поточковыми индикаторами поведения, связанного с галлюцинациями. Более того, (2) различные LVLMs кодируют универсальные паттерны галлюцинаций в общих латентных подпространствах, что указывает на существование "общих направлений правдивости", разделяемых различными LVLMs. На основе этих открытий мы предлагаем метод Truthful-Guided Pre-Intervention (TruthPrInt), который сначала изучает направление правдивости декодирования LVLM, а затем применяет управляемое правдивостью вмешательство на этапе вывода во время декодирования LVLM. Мы также предлагаем метод ComnHallu для улучшения переносимости обнаружения галлюцинаций как между различными LVLMs, так и между различными наборами данных, путем построения и выравнивания латентных подпространств галлюцинаций. Мы оцениваем TruthPrInt в различных экспериментальных условиях, включая внутридоменные и внедоменные сценарии, на популярных LVLMs и бенчмарках OH. Результаты экспериментов показывают, что TruthPrInt значительно превосходит современные методы. Код будет доступен по адресу https://github.com/jinhaoduan/TruthPrInt.
Токсичность в обсуждениях отчетов об ошибках создает серьезные проблемы для совместной динамики разработки открытого программного обеспечения. Отчеты об ошибках играют ключевую роль в выявлении и устранении дефектов, однако их изначально проблемно-ориентированный характер и эмоционально насыщенный контекст делают их уязвимыми для токсичных взаимодействий. В данном исследовании изучается токсичность в отчетах об ошибках на GitHub с помощью качественного анализа 203 обсуждений, включая 81 токсичное. Наши результаты показывают, что токсичность часто возникает из-за несовпадения восприятия серьезности и приоритета ошибок, нерешенных разочарований в инструментах и нарушений профессионального общения. Такие токсичные взаимодействия не только срывают продуктивные обсуждения, но и снижают вероятность достижения полезных результатов, таких как связывание проблем с запросами на внесение изменений. Наши предварительные выводы предлагают практические рекомендации для улучшения устранения ошибок путем снижения токсичности.
Оптимальное транспортное сопряжение с использованием мини-батчей выпрямляет пути в безусловном согласовании потоков. Это приводит к менее требовательным вычислительным затратам при выводе, так как можно использовать меньше шагов интегрирования и менее сложные численные решатели при численном решении обыкновенного дифференциального уравнения на этапе тестирования. Однако в условной постановке оптимальное транспортное сопряжение с мини-батчами оказывается недостаточным. Это связано с тем, что стандартное оптимальное транспортное отображение игнорирует условия, что приводит к условно смещенному априорному распределению во время обучения. Напротив, на этапе тестирования у нас нет доступа к смещенному априорному распределению, и вместо этого мы берем выборки из полного, несмещенного априорного распределения. Этот разрыв между обучением и тестированием приводит к неудовлетворительной производительности. Чтобы устранить этот разрыв, мы предлагаем условное оптимальное транспортное сопряжение C^2OT, которое добавляет условный весовой член в матрицу затрат при вычислении оптимального транспортного назначения. Эксперименты показывают, что это простое исправление работает как с дискретными, так и с непрерывными условиями в задачах 8gaussians-to-moons, CIFAR-10, ImageNet-32x32 и ImageNet-256x256. Наш метод демонстрирует лучшую общую производительность по сравнению с существующими базовыми подходами при различных бюджетах на вычисление функций. Код доступен по адресу https://hkchengrex.github.io/C2OT.
Несмотря на впечатляющие результаты открытых крупных моделей обработки визуальной и языковой информации (LVLM), атаки с использованием переноса часто оказываются неудачными против коммерческих LVLM с закрытой архитектурой. Анализ неудачных адверсарных возмущений показывает, что изученные возмущения обычно происходят из равномерного распределения и лишены четких семантических деталей, что приводит к нежелательным ответам. Это критическое отсутствие семантической информации заставляет коммерческие LVLM либо полностью игнорировать возмущение, либо неправильно интерпретировать его встроенную семантику, что приводит к провалу атаки. Чтобы преодолеть эти проблемы, мы замечаем, что идентификация ключевых семантических объектов является основной задачей для моделей, обученных на различных наборах данных и с использованием различных методик. Это наблюдение мотивирует наш подход, который улучшает семантическую ясность путем кодирования явных семантических деталей в локальных областях, обеспечивая совместимость и захват более тонких признаков, а также сосредотачивая изменения на семантически насыщенных областях, а не применяя их равномерно. Для достижения этого мы предлагаем простое, но высокоэффективное решение: на каждом шаге оптимизации адверсарное изображение случайным образом обрезается с контролируемым соотношением сторон и масштабом, изменяется в размере, а затем выравнивается с целевым изображением в пространстве встраивания. Экспериментальные результаты подтверждают нашу гипотезу. Наши адверсарные примеры, созданные с использованием локально-агрегированных возмущений, сфокусированных на ключевых областях, демонстрируют удивительно хорошую переносимость на коммерческие LVLM, включая GPT-4.5, GPT-4o, Gemini-2.0-flash, Claude-3.5-sonnet, Claude-3.7-sonnet и даже модели рассуждений, такие как o1, Claude-3.7-thinking и Gemini-2.0-flash-thinking. Наш подход достигает успешности более 90% на GPT-4.5, 4o и o1, значительно превосходя все предыдущие передовые методы атак. Наши оптимизированные адверсарные примеры при различных конфигурациях и код обучения доступны по адресу https://github.com/VILA-Lab/M-Attack.
Мы представляем PerCoV2, новую и открытую систему ультранизкобитового перцептуального сжатия изображений, разработанную для приложений с ограниченной пропускной способностью и объемом памяти. Основываясь на предыдущей работе Careil и др., PerCoV2 расширяет исходную формулировку для экосистемы Stable Diffusion 3 и повышает эффективность энтропийного кодирования за счет явного моделирования дискретного распределения гипер-латентных изображений. С этой целью мы проводим всестороннее сравнение современных авторегрессивных методов (VAR и MaskGIT) для моделирования энтропии и оцениваем наш подход на крупномасштабном бенчмарке MSCOCO-30k. По сравнению с предыдущими работами, PerCoV2 (i) достигает более высокой точности изображений при еще более низких битовых скоростях, сохраняя при этом конкурентоспособное перцептуальное качество, (ii) включает гибридный режим генерации для дополнительного снижения битовой скорости и (iii) построен исключительно на общедоступных компонентах. Код и обученные модели будут опубликованы на https://github.com/Nikolai10/PerCoV2.
В данной статье представлен PoseLess — новый фреймворк для управления роботизированной рукой, который устраняет необходимость явного оценивания позы, напрямую отображая 2D-изображения в углы сочленений с использованием проекционных представлений. Наш подход использует синтетические обучающие данные, сгенерированные через случайные конфигурации сочленений, что позволяет достичь обобщения в условиях нулевого сценария (zero-shot) для реальных ситуаций и переноса между морфологиями — от роботизированных к человеческим рукам. Проецируя визуальные входные данные и применяя декодер на основе трансформеров, PoseLess обеспечивает устойчивое управление с низкой задержкой, одновременно решая такие проблемы, как неоднозначность глубины и недостаток данных. Экспериментальные результаты демонстрируют конкурентоспособную точность предсказания углов сочленений без использования каких-либо размеченных человеком наборов данных.
Бесклассовое управление (classifier-free guidance) стало стандартным инструментом для условной генерации с использованием моделей диффузии с удалением шума. Однако полное понимание бесклассового управления до сих пор отсутствует. В данной работе мы проводим эмпирическое исследование, чтобы предложить новый взгляд на бесклассовое управление. Конкретно, вместо того чтобы сосредотачиваться исключительно на бесклассовом управлении, мы возвращаемся к истокам, а именно к управлению с использованием классификатора (classifier guidance), выявляем ключевое предположение для его вывода и проводим систематическое исследование, чтобы понять роль классификатора. Мы обнаруживаем, что как управление с использованием классификатора, так и бесклассовое управление достигают условной генерации, отодвигая траектории диффузии с удалением шума от границ принятия решений, то есть областей, где условная информация обычно переплетена и трудна для изучения. Основываясь на этом понимании, ориентированном на классификатор, мы предлагаем универсальный шаг постобработки, построенный на основе согласования потоков (flow-matching), чтобы сократить разрыв между изученным распределением для предварительно обученной модели диффузии с удалением шума и реальным распределением данных, преимущественно вблизи границ принятия решений. Эксперименты на различных наборах данных подтверждают эффективность предложенного подхода.