Ежедневно отобранные исследовательские статьи по ИИ с переводами
Масштабируемая векторная графика (SVG) является важным форматом изображений, широко используемым в графическом дизайне благодаря своей независимости от разрешения и возможности редактирования. Исследования в области генерации высококачественных SVG постоянно привлекают внимание как дизайнеров, так и исследователей в сообществе AIGC. Однако существующие методы либо создают неструктурированные результаты с огромными вычислительными затратами, либо ограничиваются генерацией монохромных иконок с чрезмерно упрощенной структурой. Для создания высококачественных и сложных SVG мы предлагаем OmniSVG — унифицированную платформу, которая использует предварительно обученные модели Vision-Language (VLM) для сквозной мультимодальной генерации SVG. Параметризуя команды и координаты SVG в дискретные токены, OmniSVG разделяет структурную логику и низкоуровневую геометрию для эффективного обучения, сохраняя при этом выразительность сложной структуры SVG. Для дальнейшего развития синтеза SVG мы представляем MMSVG-2M — мультимодальный набор данных, содержащий два миллиона богато аннотированных SVG-ресурсов, а также стандартизированный протокол оценки для задач условной генерации SVG. Многочисленные эксперименты показывают, что OmniSVG превосходит существующие методы и демонстрирует потенциал для интеграции в профессиональные рабочие процессы проектирования SVG.
Крупные языковые модели (LLM) продемонстрировали способность решать всё более сложные задачи благодаря продвинутому рассуждению, генерации длинных текстов и использованию инструментов. Решение таких задач часто требует длительных вычислений во время вывода. В человеческом решении проблем распространённой стратегией для ускорения работы является сотрудничество: разделение задачи на подзадачи, одновременное исследование различных стратегий и т.д. Недавние исследования показали, что LLM также могут работать параллельно, реализуя явные механизмы сотрудничества, такие как системы голосования или создание независимых подзадач, которые могут выполняться параллельно. Однако каждый из этих подходов может быть неприменим для всех типов задач, что ограничивает их универсальность. В данной работе мы предлагаем иной подход: мы запускаем LLM-"работников" параллельно, позволяя им синхронизироваться через одновременно обновляемый кэш внимания и предлагая этим работникам самостоятельно решать, как лучше сотрудничать. Наш подход позволяет экземплярам модели разрабатывать собственную стратегию сотрудничества для конкретной задачи, при этом "видя" частичные результаты друг друга в параллельном кэше. Мы реализуем этот подход через Hogwild! Inference: параллельный механизм вывода LLM, в котором несколько экземпляров одной и той же модели работают параллельно с общим кэшем внимания, имея "мгновенный" доступ к сгенерированным токенам друг друга. Hogwild! Inference использует Rotary Position Embeddings (RoPE), чтобы избежать повторных вычислений и улучшить использование параллельных аппаратных ресурсов. Мы обнаружили, что современные LLM, способные к рассуждениям, могут выполнять вывод с общим кэшем ключей и значений без дополнительной дообучения.
Мы представляем Skywork R1V — мультимодальную модель рассуждений, расширяющую возможности крупных языковых моделей (LLM) серии R1 на визуальные модальности с помощью эффективного метода мультимодального переноса. Используя легковесный визуальный проектор, Skywork R1V обеспечивает плавную мультимодальную адаптацию без необходимости повторного обучения как базовой языковой модели, так и визуального энкодера. Для усиления согласованности визуальных и текстовых данных мы предлагаем гибридную стратегию оптимизации, сочетающую итеративное обучение с учителем (SFT) и оптимизацию групповой относительной политики (GRPO), что значительно повышает эффективность кросс-модальной интеграции. Кроме того, мы вводим адаптивный метод дистилляции цепочки рассуждений (Chain-of-Thought) для генерации данных рассуждений. Этот подход динамически оптимизирует длину цепочек рассуждений, повышая эффективность вывода и предотвращая избыточное "переосмысление". Эмпирические оценки показывают, что Skywork R1V, имея всего 38 миллиардов параметров, демонстрирует конкурентоспособные результаты, достигая 69.0 баллов на бенчмарке MMMU и 67.5 на MathVista. При этом модель сохраняет высокую производительность в текстовых рассуждениях, что подтверждается впечатляющими результатами: 72.0 на AIME и 94.0 на MATH500. Веса модели Skywork R1V были опубликованы в открытом доступе для содействия открытости и воспроизводимости.
Ландшафт генерации изображений стремительно развивался: от ранних подходов на основе GAN к диффузионным моделям и, совсем недавно, к унифицированным генеративным архитектурам, которые стремятся объединить задачи понимания и генерации. Последние достижения, особенно GPT-4o, продемонстрировали возможность высококачественной мультимодальной генерации, однако их архитектурный дизайн остается загадочным и неопубликованным. Это поднимает вопрос о том, удалось ли уже успешно интегрировать генерацию изображений и текста в единую структуру для таких методов. В данной работе мы проводим эмпирическое исследование возможностей GPT-4o в генерации изображений, сравнивая его с ведущими открытыми и коммерческими моделями. Наша оценка охватывает четыре основные категории, включая генерацию "текст-в-изображение", "изображение-в-изображение", "изображение-в-3D" и "изображение-в-X", с более чем 20 задачами. Наш анализ подчеркивает сильные и слабые стороны GPT-4o в различных условиях и помещает его в контекст более широкой эволюции генеративного моделирования. В ходе этого исследования мы определяем перспективные направления для будущих унифицированных генеративных моделей, акцентируя внимание на роли архитектурного дизайна и масштабирования данных.
Согласование крупных языковых моделей (LLM) с человеческими предпочтениями достигло значительных успехов. Однако существующие наборы данных по китайским предпочтениям ограничены небольшим масштабом, узким охватом доменов и отсутствием строгой проверки данных. Кроме того, зависимость от аннотаторов-людей для маркировки инструкций и ответов существенно ограничивает масштабируемость наборов данных по человеческим предпочтениям. Для решения этих проблем мы разработали автоматизированный конвейер аннотации набора данных по китайским предпочтениям на основе LLM без участия человека. В частности, мы собрали и тщательно отфильтровали 92 тыс. высококачественных китайских запросов и использовали 15 популярных LLM для генерации и оценки пар ответов "выбранный-отклонённый". На основе этого мы представляем COIG-P (Chinese Open Instruction Generalist - Preference) — высококачественный, масштабный набор данных по китайским предпочтениям, включающий 1 009 тыс. пар предпочтений, охватывающих 6 разнообразных доменов: Чат, Код, Математика, Логика, Роман и Роль. На основе COIG-P, чтобы снизить затраты на использование LLM для оценки, мы обучили китайскую модель вознаграждения (CRM) размером 8 млрд параметров и тщательно создали китайский бенчмарк вознаграждения (CRBench). Результаты оценки на основе AlignBench liu2024alignbenchbenchmarkingchinesealignment показывают, что COIG-P значительно превосходит другие наборы данных по китайским предпочтениям и обеспечивает существенное улучшение производительности в диапазоне от 2% до 12% для серий моделей Qwen2/2.5 и Infinity-Instruct-3M-0625 соответственно. Результаты на CRBench демонстрируют, что наша CRM обладает мощной и устойчивой способностью к оценке. Мы применили её для фильтрации пар "выбранный-отклонённый" в тестовой выборке COIG-P, и наши эксперименты показывают, что она сопоставима с GPT-4o в выявлении низкокачественных образцов, сохраняя при этом эффективность и экономичность. Наши коды и данные доступны по адресу https://github.com/multimodal-art-projection/COIG-P.
Хотя генерация на основе объектов широко исследуется в области создания изображений благодаря её многочисленным применениям, она всё ещё сталкивается с проблемами масштабируемости данных и расширяемости объектов. Первая проблема заключается в сложности перехода от создания наборов данных с одним объектом к многопредметным и их масштабированию. Вторая проблема связана с тем, что большинство современных методов сосредоточено на генерации с одним объектом, что затрудняет их применение в сценариях с несколькими объектами. В данном исследовании мы предлагаем высокосогласованный конвейер синтеза данных для решения этой задачи. Этот конвейер использует внутренние возможности генерации в контексте диффузионных трансформеров и создаёт высокосогласованные парные данные для нескольких объектов. Кроме того, мы представляем UNO, который включает прогрессивное кросс-модальное выравнивание и универсальное вращающее позиционное кодирование. Это модель генерации изображений на основе нескольких изображений, итеративно обучаемая из модели текста в изображение. Многочисленные эксперименты показывают, что наш метод обеспечивает высокую согласованность при сохранении управляемости как в генерации с одним объектом, так и с несколькими объектами.
Архитектура Mixture of Experts (MoE) продемонстрировала значительные преимущества, так как позволяет увеличить ёмкость модели без пропорционального роста вычислительных затрат. Однако большой размер моделей MoE по-прежнему создаёт существенные требования к памяти, что обычно требует выгрузки экспертов на платформах с ограниченными ресурсами и приводит к значительным накладным расходам. Гибридный CPU-GPU подход к выводу был предложен для использования вычислений на CPU с целью снижения накладных расходов на загрузку экспертов, но сталкивается с серьёзными проблемами: с одной стороны, паттерны активации экспертов в моделях MoE крайне нестабильны, что делает фиксированные стратегии распределения в существующих работах неэффективными; с другой стороны, гибридное расписание CPU-GPU для MoE изначально сложно из-за разнообразия размеров экспертов, их структур, неравномерного распределения нагрузки и т.д. Для решения этих проблем в данной статье мы предлагаем HybriMoE — гибридный CPU-GPU фреймворк для вывода, который повышает эффективность использования ресурсов за счёт новой системы планирования и управления кэшем. HybriMoE включает (i) динамическую стратегию внутрислойного планирования для балансировки нагрузки между CPU и GPU, (ii) алгоритм межслойного предварительного извлечения, основанный на влиянии, и (iii) алгоритм кэширования на основе оценок для смягчения нестабильности активации экспертов. Мы реализовали HybriMoE на основе фреймворка kTransformers и оценили его на трёх широко используемых LLM, основанных на MoE. Экспериментальные результаты показывают, что HybriMoE обеспечивает среднее ускорение в 1.33 раза на этапе предварительного заполнения и 1.70 раза на этапе декодирования по сравнению с современным гибридным фреймворком для вывода MoE. Наш код доступен по адресу: https://github.com/PKU-SEC-Lab/HybriMoE.
Модели диффузии/потока для преобразования текста в изображение (T2I) привлекли значительное внимание в последнее время благодаря своей впечатляющей способности создавать гибкие визуальные композиции. Однако синтез изображений высокого разрешения остается сложной задачей из-за ограниченности и сложности контента высокого разрешения. В связи с этим мы представляем HiFlow — универсальную и не требующую обучения платформу, которая раскрывает потенциал предварительно обученных моделей потока для работы с высоким разрешением. В частности, HiFlow создает виртуальный эталонный поток в пространстве высокого разрешения, который эффективно захватывает характеристики информации потока низкого разрешения, предоставляя руководство для генерации высокого разрешения через три ключевых аспекта: выравнивание инициализации для согласованности низкочастотных компонентов, выравнивание направления для сохранения структуры и выравнивание ускорения для точности деталей. Используя это руководство, основанное на выравнивании потока, HiFlow значительно повышает качество синтеза изображений высокого разрешения в моделях T2I и демонстрирует универсальность в их персонализированных вариантах. Многочисленные эксперименты подтверждают превосходство HiFlow в достижении высококачественных изображений по сравнению с современными методами.
С появлением мощных больших языковых моделей (LLM), демонстрирующих сверхчеловеческие способности к рассуждению, возникает важный вопрос: действительно ли LLM рассуждают или просто воспроизводят ответы из своих обширных, собранных из интернета обучающих наборов данных? Публично выпущенные бенчмарки неизбежно становятся "загрязненными" после включения в последующие обучающие наборы LLM, что подрывает их надежность как объективных инструментов оценки. Для решения этой проблемы мы представляем KUMO — генеративную оценочную платформу, специально разработанную для оценки способности LLM к рассуждению. KUMO синергетически сочетает LLM с символическими движками для динамического создания разнообразных многошаговых задач на рассуждение, которые частично наблюдаемы и регулируемы по сложности. С помощью автоматизированного конвейера KUMO непрерывно генерирует новые задачи в открытых областях, вынуждая модели демонстрировать подлинное обобщение, а не запоминание. Мы оценили 23 передовые LLM на 5 000 задач в 100 областях, созданных KUMO, сравнив их способности к рассуждению с результатами студентов университетов. Наши результаты показывают, что многие LLM превзошли уровень университетских студентов в простых задачах на рассуждение, а масштабированные для рассуждения LLM достигают университетского уровня в сложных задачах. Более того, производительность LLM на задачах KUMO сильно коррелирует с результатами на недавно выпущенных реальных бенчмарках на рассуждение, что подчеркивает ценность KUMO как надежного и долговечного инструмента оценки подлинных способностей LLM к рассуждению.
Последние достижения в области мультимодальных больших языковых моделей (MLLMs) привели к значительным улучшениям в различных мультимодальных тестах. Однако, по мере того как оценка смещается от статических наборов данных к открытым, динамическим средам, текущие игровые тесты остаются недостаточными, поскольку они не включают визуально-ориентированные задачи и не оценивают разнообразные навыки рассуждения, необходимые для принятия решений в реальном мире. Для решения этой проблемы мы представляем Visual-centric Multiple Abilities Game Evaluation (V-MAGE) — игровую оценочную платформу, разработанную для проверки визуальных способностей рассуждения MLLMs. V-MAGE включает пять разнообразных игр с более чем 30 тщательно разработанными уровнями, тестирующими модели на ключевых визуальных навыках, таких как позиционирование, отслеживание траекторий, тайминг и визуальная память, а также на более сложных навыках рассуждения, таких как долгосрочное планирование и обдумывание. Мы используем V-MAGE для оценки ведущих MLLMs, выявляя значительные трудности в их визуальном восприятии и рассуждении. Во всех игровых средах лучшие MLLMs, определенные по рейтингу Elo, демонстрируют существенный разрыв в производительности по сравнению с людьми. Наши результаты подчеркивают критические ограничения, включая различные типы ошибок восприятия, допущенные моделями, и предлагают потенциальные пути улучшения с точки зрения агент-центрированного подхода, такие как уточнение стратегий агентов и устранение неточностей восприятия. Код доступен по адресу https://github.com/CSU-JPG/V-MAGE.
Сбалансированность точности и редактируемости является ключевым аспектом в текстовом редактировании изображений (TIE), где ошибки часто приводят к чрезмерному или недостаточному редактированию. Существующие методы обычно полагаются на инъекции внимания для сохранения структуры и используют встроенные возможности выравнивания текста в предобученных моделях текст-изображение (T2I) для редактируемости, однако им не хватает явных и унифицированных механизмов для правильного баланса этих двух целей. В данной работе мы представляем UnifyEdit, метод, не требующий тонкой настройки, который выполняет оптимизацию латентного пространства диффузии для сбалансированного интегрирования точности и редактируемости в рамках единой структуры. В отличие от прямых инъекций внимания, мы разработали два ограничения на основе внимания: ограничение сохранения самовнимания (SA) для структурной точности и ограничение выравнивания кросс-внимания (CA) для улучшения выравнивания текста и повышения редактируемости. Однако одновременное применение обоих ограничений может привести к конфликтам градиентов, где доминирование одного из них вызывает чрезмерное или недостаточное редактирование. Для решения этой проблемы мы вводим адаптивный планировщик временных шагов, который динамически регулирует влияние этих ограничений, направляя латентное пространство диффузии к оптимальному балансу. Многочисленные количественные и качественные эксперименты подтверждают эффективность нашего подхода, демонстрируя его превосходство в достижении устойчивого баланса между сохранением структуры и выравниванием текста в различных задачах редактирования, превосходя другие современные методы. Исходный код будет доступен по адресу https://github.com/CUC-MIPG/UnifyEdit.
Последние достижения в моделях рассуждений продемонстрировали значительное улучшение точности, особенно для сложных задач, таких как математические рассуждения, благодаря использованию детализированных и всесторонних процессов рассуждения. Однако генерация этих длинных последовательностей рассуждений требует значительных вычислительных ресурсов и времени. Для устранения этой неэффективности мы используем присущую некоторым задачам параллелизуемость для ускорения процесса рассуждения. В частности, когда существует несколько параллельных ветвей рассуждений, мы декодируем несколько токенов за шаг с использованием специализированной маски внимания, обрабатывая их в рамках одной последовательности, что позволяет избежать дополнительного использования памяти. Экспериментальные результаты показывают, что наш метод обеспечивает ускорение времени декодирования более чем на 100% при сохранении качества ответов.
Тонкая настройка с подкреплением (Reinforcement Finetuning, RFT) продемонстрировала значительный потенциал для улучшения математических способностей крупных языковых моделей (LLM), однако она часто требует больших вычислительных ресурсов и объемов данных, что делает процесс обучения длительным. В данной работе мы представляем AdaRFT (Adaptive Curriculum Reinforcement Finetuning) — метод, который значительно повышает как эффективность, так и итоговую точность RFT за счет адаптивного обучения по учебному плану. AdaRFT динамически регулирует сложность тренировочных задач на основе недавних сигналов вознаграждения модели, обеспечивая, что модель постоянно обучается на задачах, которые являются сложными, но решаемыми. Эта адаптивная стратегия выборки ускоряет обучение, поддерживая оптимальный диапазон сложности, избегая бесполезных вычислений на слишком простых или слишком сложных задачах. AdaRFT требует лишь легкого расширения стандартных алгоритмов RFT, таких как Proximal Policy Optimization (PPO), без изменения функции вознаграждения или архитектуры модели. Эксперименты на наборах данных математических задач уровня соревнований, включая AMC, AIME и задачи в стиле IMO, показывают, что AdaRFT значительно улучшает как эффективность обучения, так и качество рассуждений. Мы оцениваем AdaRFT на различных распределениях данных и размерах моделей, демонстрируя, что он сокращает количество шагов обучения до 2 раз и существенно повышает точность, предлагая более масштабируемую и эффективную структуру RFT.
Существующие системы оценки способностей к рассуждению для крупных языковых моделей (LLM) и крупных визуально-языковых моделей (LVLM) в основном сосредоточены либо на оценке текстового рассуждения, либо на понимании визуально-языковых данных, с ограниченным динамическим взаимодействием между текстовыми и визуальными ограничениями. Чтобы устранить этот недостаток, мы представляем CrossWordBench — эталонный тест, предназначенный для оценки способностей к рассуждению как LLM, так и LVLM через решение кроссвордов — задачи, требующей многомодального соблюдения семантических ограничений, основанных на текстовых подсказках, и пересекающихся ограничений, связанных с визуальной структурой сетки. CrossWordBench использует управляемую систему генерации головоломок, которая создает задачи в различных форматах (текст и изображение) и предлагает различные стратегии оценки, от прямого решения головоломок до интерактивных режимов. Наши обширные тесты более чем 20 моделей показывают, что модели, специализирующиеся на рассуждениях, значительно превосходят модели без таких способностей, эффективно используя ограничения, связанные с пересекающимися буквами. Мы также демонстрируем, что LVLM испытывают трудности с этой задачей, показывая сильную корреляцию между их производительностью в решении головоломок и точностью анализа сетки. Наши результаты проливают свет на ограничения способностей к рассуждению современных LLM и LVLM и предлагают эффективный подход для создания многомодальных задач с ограничениями для будущих оценок.
Недавние достижения в области автоматизированного доказательства теорем (ATP) с использованием языковых моделей (LLMs) подчеркнули потенциал формальных рассуждений с использованием кода Lean 4. Однако ATP еще не претерпела революционных изменений благодаря последним достижениям в масштабировании после обучения, как это продемонстрировали модели Open AI O1/O3 и Deepseek R1. В данной работе мы исследуем весь процесс постобучения ATP, стремясь согласовать его с прорывами в моделях рассуждений для естественных языков. Для начала мы продолжаем обучение текущих моделей ATP на гибридном наборе данных, который включает множество пар "утверждение-доказательство", а также дополнительные данные, направленные на включение когнитивных поведений, имитирующих человеческое рассуждение и уточнение гипотез. Далее мы исследуем обучение с подкреплением, используя награды, возвращаемые компилятором Lean 4. Благодаря разработанным нами процессам непрерывного обучения и обучения с подкреплением, мы успешно улучшили существующие формальные проверы, включая DeepSeek-Prover-v1.5 и Goedel-Prover, достигнув передовых результатов в области генерации полных доказательств. Например, мы достигли показателя успешности 59,8% (pass@32) на тестовом наборе MiniF2F. Это продолжающийся проект, и мы будем постепенно обновлять наши результаты, публиковать данные и детали обучения.
Обучение с подражанием стало перспективным подходом для создания универсальных роботов. Однако масштабирование этого метода для крупных базовых моделей роботов остается сложной задачей из-за его зависимости от высококачественных демонстраций экспертов. В то же время доступны большие объемы видеоданных, охватывающих широкий спектр сред и разнообразных поведений. Эти данные представляют собой богатый источник информации о динамике реального мира и взаимодействиях агента со средой. Однако их прямое использование для обучения с подражанием оказалось затруднительным из-за отсутствия аннотаций действий, необходимых для большинства современных методов. В данной работе мы представляем Unified World Models (UWM) — фреймворк, который позволяет использовать как видеоданные, так и данные о действиях для обучения политик. В частности, UWM интегрирует процесс диффузии действий и процесс диффузии видео в единую трансформерную архитектуру, где независимые временные шаги диффузии управляют каждой модальностью. Мы показываем, что, просто контролируя каждый временной шаг диффузии, UWM может гибко представлять политику, прямую динамику, обратную динамику и генератор видео. В экспериментах как в симуляциях, так и в реальном мире мы демонстрируем, что: (1) UWM позволяет эффективно проводить предварительное обучение на крупных многозадачных наборах данных роботов с предсказаниями динамики и действий, что приводит к более обобщаемым и устойчивым политикам по сравнению с обучением с подражанием; (2) UWM естественным образом облегчает обучение на видеоданных без аннотаций действий благодаря независимому контролю временных шагов диффузии для каждой модальности, что дополнительно улучшает производительность доработанных политик. Наши результаты свидетельствуют о том, что UWM предлагает многообещающий шаг к использованию больших, гетерогенных наборов данных для масштабируемого обучения роботов и обеспечивает простое объединение зачастую разрозненных парадигм обучения с подражанием и моделирования мира. Видео и код доступны по адресу https://weirdlabuw.github.io/uwm/.
Обобщённое обнаружение категорий (Generalized Category Discovery, GCD) — это прагматичная, но недостаточно изученная задача, которая требует от моделей автоматической кластеризации и обнаружения новых категорий с использованием размеченных данных из старых классов. Основная сложность заключается в том, что неразмеченные данные содержат как старые, так и новые классы. Ранние подходы, основанные на псевдоразметке с использованием параметрических классификаторов, обрабатывали старые и новые классы раздельно, что приводило к дисбалансу в точности между ними. Современные методы, использующие контрастивное обучение, игнорируют потенциальные положительные примеры и не связаны с целью кластеризации, что приводит к смещённым представлениям и неоптимальным результатам. Для решения этих проблем мы предлагаем унифицированный и несмещённый фреймворк обучения на прототипах, названный ProtoGCD, в котором старые и новые классы моделируются с использованием совместных прототипов и единых целей обучения, что позволяет осуществлять унифицированное моделирование для старых и новых классов. В частности, мы предлагаем двухуровневый адаптивный механизм псевдоразметки для снижения эффекта подтверждающего смещения, а также два регуляризационных члена, которые совместно помогают обучать более подходящие представления для GCD. Кроме того, для практических целей мы разрабатываем критерий для оценки количества новых классов. Дополнительно мы расширяем ProtoGCD для обнаружения неизвестных выбросов, достигая унификации на уровне задачи. Комплексные эксперименты показывают, что ProtoGCD достигает наилучших результатов как на общих, так и на специализированных наборах данных. Код доступен по адресу https://github.com/mashijie1028/ProtoGCD.