Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

OS-Genesis: Автоматизация построения траектории агента GUI через обратный синтез задач.
OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis

Dec 27

ByQiushi Sun, Kanzhi Cheng, Zichen Ding, Chuanyang Jin, Yian Wang, Fangzhi Xu, Zhenyu Wu, Chengyou Jia, Liheng Chen, Zhoumianze Liu, Ben Kao, Guohao Li, Junxian He, Yu Qiao, Zhiyong Wu

Агенты с графическим пользовательским интерфейсом (GUI), оснащенные моделями видео-языка (VLM), продемонстрировали возможность управления компьютером, сходную с человеческой. Несмотря на их полезность в продвижении цифровой автоматизации, существует критическое узкое место: сбор высококачественных траекторных данных для обучения. Обычные практики сбора таких данных опираются на человеческий контроль или генерацию синтетических данных путем выполнения заранее определенных задач, что либо требует больших ресурсов, либо не гарантирует качество данных. Более того, эти методы страдают от ограниченной разнообразности данных и значительных разрывов между синтетическими данными и реальными средами. Для решения этих проблем мы предлагаем OS-Genesis, новую конвейерную систему синтеза данных GUI, которая изменяет обычный процесс сбора траекторий. Вместо полагания на заранее определенные задачи, OS-Genesis позволяет агентам сначала воспринимать среды и выполнять пошаговые взаимодействия, а затем ретроспективно выявлять высококачественные задачи для обеспечения исследования на уровне траекторий. Затем используется модель вознаграждения за траекторию, чтобы гарантировать качество сгенерированных траекторий. Мы демонстрируем, что обучение агентов GUI с помощью OS-Genesis значительно улучшает их производительность на высоко сложных онлайн-бенчмарках. Глубокий анализ дополнительно подтверждает эффективность OS-Genesis и его превосходство по качеству и разнообразию данных по сравнению с существующими методами синтеза. Наш код, данные и контрольные точки доступны на https://qiushisun.github.io/OS-Genesis-Home/{Домашняя страница OS-Genesis}.

Технический отчет по модели X-2
Xmodel-2 Technical Report

Dec 27

ByWang Qun, Liu Yang, Lin Qingquan, Qu Zhijiu, Jiang Ling

Модель Xmodel-2 - это языковая модель большого размера с 1,2 миллиарда параметров, специально разработанная для задач рассуждений. Ее архитектура позволяет различным масштабам моделей использовать единый набор гиперпараметров, что позволяет проводить обширные эксперименты на более маленьких моделях и легко передавать оптимальные конфигурации на более крупные модели. Для максимизации эффективности обучения и стабильности Xmodel-2 использует планировщик скорости обучения WSD из MiniCPM. Обученная на 1,5 триллионах токенов из различных источников, Xmodel-2 достигает передовой производительности в сложных задачах рассуждений и задачах на основе агентов, сохраняя при этом низкие затраты на обучение. Эти результаты подчеркивают потенциал эффективного проектирования модели и стратегий обучения в развитии возможностей рассуждений. Чекпоинты модели и код доступны публично на GitHub по адресу https://github.com/XiaoduoAILab/Xmodel-2

Действительно ли модели видео-языкового восприятия понимают мульти-видео сенсор?
Are Vision-Language Models Truly Understanding Multi-vision Sensor?

Dec 30

BySangyun Chung, Youngjoon Yu, Youngchae Chee, Se Yeon Kim, Byung-Kwan Lee, Yong Man Ro

Модели видео-языкового восприятия крупного масштаба (VLM) продвигаются за счет согласования входных данных видения с текстом, что значительно улучшает производительность в задачах компьютерного зрения. Более того, для эффективного применения VLM в реальных приложениях необходимо понимание разнообразных данных от мультивизионных сенсоров, таких как тепловые, глубинные и рентгеновские данные. Однако мы обнаруживаем, что текущие VLM обрабатывают изображения от мультивизионных сенсоров без глубокого понимания информации сенсоров, игнорируя уникальные физические свойства каждого сенсора. Это ограничение снижает их способность интерпретировать и реагировать на сложные вопросы, требующие мультивизионного сенсорного рассуждения. Для решения этой проблемы мы предлагаем новый бенчмарк Мультивизионного Сенсорного Восприятия и Рассуждения (MS-PR), оценивающий VLM по их способности к сенсорному рассуждению. Более того, мы представляем оптимизацию Разнообразных Негативных Атрибутов (DNA), чтобы позволить VLM выполнять глубокое рассуждение в задачах мультивизионных сенсоров, помогая сократить основной информационный разрыв между изображениями и данными сенсоров. Обширные экспериментальные результаты подтверждают, что предложенный метод DNA может значительно улучшить сенсорное рассуждение для VLM.

HUNYUANPROVER: Масштабируемая структура синтеза данных и направленный деревянный поиск для автоматизированного доказательства теорем.
HUNYUANPROVER: A Scalable Data Synthesis Framework and Guided Tree Search for Automated Theorem Proving

Dec 30

ByYang Li, Dong Du, Linfeng Song, Chen Li, Weikang Wang, Tao Yang, Haitao Mi

Мы представляем HunyuanProver, языковую модель, донастроенную на основе Hunyuan 7B для интерактивного автоматического доказательства теорем с использованием LEAN4. Для уменьшения проблемы разреженности данных мы разработали масштабируемую структуру для итеративного синтеза данных с низкой стоимостью. Кроме того, разработаны направляемые алгоритмы поиска в дереве для обеспечения эффективного "мышления системы 2" доказывателя. HunyuanProver достигает передовых показателей (SOTA) на основных бенчмарках. В частности, он достигает процента успешных доказательств в размере 68.4% на тесте miniF2F по сравнению с 65.9%, текущими SOTA результатами. Он доказывает 4 утверждения IMO (imo_1960_p2, imo_1962_p2, imo_1964_p2 и imo_1983_p6) в тесте miniF2F. Для пользы сообщества мы предоставим в открытый доступ набор данных из 30 тыс. синтезированных примеров, где каждый пример содержит исходный вопрос на естественном языке, преобразованное утверждение с помощью автоформализации и доказательство с помощью HunyuanProver.

VMix: Улучшение модели диффузии текста в изображение с помощью кросс-внимания Управление смешиванием
VMix: Improving Text-to-Image Diffusion Model with Cross-Attention Mixing Control

Dec 30

ByShaojin Wu, Fei Ding, Mengqi Huang, Wei Liu, Qian He

Хотя модели диффузии проявляют выдающиеся способности в генерации текста к изображению, они все еще могут не справиться с созданием высоко-эстетичных изображений. Более конкретно, существует разрыв между созданными изображениями и реальными эстетичными изображениями в более детализированных измерениях, включая цвет, освещение, композицию и т. д. В данной статье мы предлагаем адаптер Cross-Attention Value Mixing Control (VMix), который является устройством для улучшения качества созданных изображений, сохраняя при этом общность по визуальным концепциям, путем (1) разделения входного текстового подсказывания на описание контента и эстетическое описание путем инициализации эстетического вложения и (2) интеграции эстетических условий в процесс денойзинга через значение-смешанное кросс-внимание, сеть соединена с помощью линейных слоев с нулевой инициализацией. Наш ключевой инсайт заключается в улучшении эстетического представления существующих моделей диффузии путем разработки более высококачественного метода управления условиями, сохраняя при этом соответствие изображения и текста. Благодаря нашему тщательному дизайну, VMix достаточно гибок для применения к моделям сообщества для лучшей визуальной производительности без повторного обучения. Для проверки эффективности нашего метода мы провели обширные эксперименты, показывающие, что VMix превосходит другие передовые методы и совместим с другими модулями сообщества (например, LoRA, ControlNet и IPAdapter) для генерации изображений. Страница проекта находится по адресу https://vmix-diffusion.github.io/VMix/.

OS-Genesis: Автоматизация построения траектории агента GUI через обратный синтез задач.

OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis

Dec 27

ByQiushi Sun, Kanzhi Cheng, Zichen Ding, Chuanyang Jin, Yian Wang, Fangzhi Xu, Zhenyu Wu, Chengyou Jia, Liheng Chen, Zhoumianze Liu, Ben Kao, Guohao Li, Junxian He, Yu Qiao, Zhiyong Wu

Технический отчет по модели X-2

Xmodel-2 Technical Report

Dec 27

ByWang Qun, Liu Yang, Lin Qingquan, Qu Zhijiu, Jiang Ling

Действительно ли модели видео-языкового восприятия понимают мульти-видео сенсор?

Are Vision-Language Models Truly Understanding Multi-vision Sensor?

Dec 30

BySangyun Chung, Youngjoon Yu, Youngchae Chee, Se Yeon Kim, Byung-Kwan Lee, Yong Man Ro

HUNYUANPROVER: Масштабируемая структура синтеза данных и направленный деревянный поиск для автоматизированного доказательства теорем.

HUNYUANPROVER: A Scalable Data Synthesis Framework and Guided Tree Search for Automated Theorem Proving

Dec 30

ByYang Li, Dong Du, Linfeng Song, Chen Li, Weikang Wang, Tao Yang, Haitao Mi

VMix: Улучшение модели диффузии текста в изображение с помощью кросс-внимания Управление смешиванием

VMix: Improving Text-to-Image Diffusion Model with Cross-Attention Mixing Control

Dec 30

ByShaojin Wu, Fei Ding, Mengqi Huang, Wei Liu, Qian He