Ежедневно отобранные исследовательские статьи по ИИ с переводами
Агенты с графическим пользовательским интерфейсом (GUI), оснащенные моделями видео-языка (VLM), продемонстрировали возможность управления компьютером, сходную с человеческой. Несмотря на их полезность в продвижении цифровой автоматизации, существует критическое узкое место: сбор высококачественных траекторных данных для обучения. Обычные практики сбора таких данных опираются на человеческий контроль или генерацию синтетических данных путем выполнения заранее определенных задач, что либо требует больших ресурсов, либо не гарантирует качество данных. Более того, эти методы страдают от ограниченной разнообразности данных и значительных разрывов между синтетическими данными и реальными средами. Для решения этих проблем мы предлагаем OS-Genesis, новую конвейерную систему синтеза данных GUI, которая изменяет обычный процесс сбора траекторий. Вместо полагания на заранее определенные задачи, OS-Genesis позволяет агентам сначала воспринимать среды и выполнять пошаговые взаимодействия, а затем ретроспективно выявлять высококачественные задачи для обеспечения исследования на уровне траекторий. Затем используется модель вознаграждения за траекторию, чтобы гарантировать качество сгенерированных траекторий. Мы демонстрируем, что обучение агентов GUI с помощью OS-Genesis значительно улучшает их производительность на высоко сложных онлайн-бенчмарках. Глубокий анализ дополнительно подтверждает эффективность OS-Genesis и его превосходство по качеству и разнообразию данных по сравнению с существующими методами синтеза. Наш код, данные и контрольные точки доступны на https://qiushisun.github.io/OS-Genesis-Home/{Домашняя страница OS-Genesis}.
Модель Xmodel-2 - это языковая модель большого размера с 1,2 миллиарда параметров, специально разработанная для задач рассуждений. Ее архитектура позволяет различным масштабам моделей использовать единый набор гиперпараметров, что позволяет проводить обширные эксперименты на более маленьких моделях и легко передавать оптимальные конфигурации на более крупные модели. Для максимизации эффективности обучения и стабильности Xmodel-2 использует планировщик скорости обучения WSD из MiniCPM. Обученная на 1,5 триллионах токенов из различных источников, Xmodel-2 достигает передовой производительности в сложных задачах рассуждений и задачах на основе агентов, сохраняя при этом низкие затраты на обучение. Эти результаты подчеркивают потенциал эффективного проектирования модели и стратегий обучения в развитии возможностей рассуждений. Чекпоинты модели и код доступны публично на GitHub по адресу https://github.com/XiaoduoAILab/Xmodel-2
Модели видео-языкового восприятия крупного масштаба (VLM) продвигаются за счет согласования входных данных видения с текстом, что значительно улучшает производительность в задачах компьютерного зрения. Более того, для эффективного применения VLM в реальных приложениях необходимо понимание разнообразных данных от мультивизионных сенсоров, таких как тепловые, глубинные и рентгеновские данные. Однако мы обнаруживаем, что текущие VLM обрабатывают изображения от мультивизионных сенсоров без глубокого понимания информации сенсоров, игнорируя уникальные физические свойства каждого сенсора. Это ограничение снижает их способность интерпретировать и реагировать на сложные вопросы, требующие мультивизионного сенсорного рассуждения. Для решения этой проблемы мы предлагаем новый бенчмарк Мультивизионного Сенсорного Восприятия и Рассуждения (MS-PR), оценивающий VLM по их способности к сенсорному рассуждению. Более того, мы представляем оптимизацию Разнообразных Негативных Атрибутов (DNA), чтобы позволить VLM выполнять глубокое рассуждение в задачах мультивизионных сенсоров, помогая сократить основной информационный разрыв между изображениями и данными сенсоров. Обширные экспериментальные результаты подтверждают, что предложенный метод DNA может значительно улучшить сенсорное рассуждение для VLM.
Мы представляем HunyuanProver, языковую модель, донастроенную на основе Hunyuan 7B для интерактивного автоматического доказательства теорем с использованием LEAN4. Для уменьшения проблемы разреженности данных мы разработали масштабируемую структуру для итеративного синтеза данных с низкой стоимостью. Кроме того, разработаны направляемые алгоритмы поиска в дереве для обеспечения эффективного "мышления системы 2" доказывателя. HunyuanProver достигает передовых показателей (SOTA) на основных бенчмарках. В частности, он достигает процента успешных доказательств в размере 68.4% на тесте miniF2F по сравнению с 65.9%, текущими SOTA результатами. Он доказывает 4 утверждения IMO (imo_1960_p2, imo_1962_p2, imo_1964_p2 и imo_1983_p6) в тесте miniF2F. Для пользы сообщества мы предоставим в открытый доступ набор данных из 30 тыс. синтезированных примеров, где каждый пример содержит исходный вопрос на естественном языке, преобразованное утверждение с помощью автоформализации и доказательство с помощью HunyuanProver.
Хотя модели диффузии проявляют выдающиеся способности в генерации текста к изображению, они все еще могут не справиться с созданием высоко-эстетичных изображений. Более конкретно, существует разрыв между созданными изображениями и реальными эстетичными изображениями в более детализированных измерениях, включая цвет, освещение, композицию и т. д. В данной статье мы предлагаем адаптер Cross-Attention Value Mixing Control (VMix), который является устройством для улучшения качества созданных изображений, сохраняя при этом общность по визуальным концепциям, путем (1) разделения входного текстового подсказывания на описание контента и эстетическое описание путем инициализации эстетического вложения и (2) интеграции эстетических условий в процесс денойзинга через значение-смешанное кросс-внимание, сеть соединена с помощью линейных слоев с нулевой инициализацией. Наш ключевой инсайт заключается в улучшении эстетического представления существующих моделей диффузии путем разработки более высококачественного метода управления условиями, сохраняя при этом соответствие изображения и текста. Благодаря нашему тщательному дизайну, VMix достаточно гибок для применения к моделям сообщества для лучшей визуальной производительности без повторного обучения. Для проверки эффективности нашего метода мы провели обширные эксперименты, показывающие, что VMix превосходит другие передовые методы и совместим с другими модулями сообщества (например, LoRA, ControlNet и IPAdapter) для генерации изображений. Страница проекта находится по адресу https://vmix-diffusion.github.io/VMix/.