Ежедневно отобранные исследовательские статьи по ИИ с переводами
Создание иммерсивных и интерактивных 3D-миров на основе текстов или изображений остается фундаментальной задачей в области компьютерного зрения и графики. Существующие подходы к генерации миров обычно делятся на две категории: методы, основанные на видео, которые предлагают богатое разнообразие, но страдают от отсутствия 3D-консистентности и эффективности рендеринга, и 3D-методы, которые обеспечивают геометрическую консистентность, но сталкиваются с ограниченными объемами обучающих данных и неэффективными с точки зрения памяти представлениями. Для преодоления этих ограничений мы представляем HunyuanWorld 1.0 — новый фреймворк, который объединяет лучшие черты обоих подходов для генерации иммерсивных, исследовательских и интерактивных 3D-сцен на основе текстовых и графических условий. Наш подход обладает тремя ключевыми преимуществами: 1) 360{\deg} иммерсивный опыт благодаря панорамным прокси-мирам; 2) возможность экспорта мешей для бесшовной совместимости с существующими графическими конвейерами; 3) разделенные представления объектов для повышения интерактивности. Основой нашего фреймворка является семантически слоистое 3D-меш-представление, которое использует панорамные изображения в качестве 360{\deg} прокси-миров для семантически осознанной декомпозиции и реконструкции миров, что позволяет генерировать разнообразные 3D-миры. Многочисленные эксперименты демонстрируют, что наш метод достигает передовых результатов в генерации согласованных, исследовательских и интерактивных 3D-миров, обеспечивая широкий спектр применений в виртуальной реальности, физическом моделировании, разработке игр и создании интерактивного контента.
Многочисленные усилия были направлены на расширение парадигмы «предсказания следующего токена» на визуальные данные с целью создания унифицированного подхода как для генерации изображений, так и для их понимания. Тем не менее, попытки генерации изображений с помощью авторегрессионного моделирования с использованием дискретных токенов сталкивались с такими проблемами, как низкая визуальная точность, искаженные результаты и неспособность следовать сложным инструкциям при отображении деталей. Эти недостатки, вероятно, связаны с накоплением ошибок в процессе авторегрессионного вывода или потерей информации при дискретизации. Вероятно, из-за этой сложности последние исследования все чаще смещаются в сторону совместного обучения генерации изображений с использованием диффузионных целей и генерации текста с авторегрессионными целями, отходя от унифицированных подходов. В данной работе мы демонстрируем, что обучение с подкреплением может эффективно устранять артефакты и значительно повышать качество генерации при использовании дискретного авторегрессионного моделирования, что позволяет достичь бесшовной интеграции генерации изображений и текста. Наша структура включает семантический токенизатор изображений, унифицированную авторегрессионную модель для текста и изображений, а также автономный диффузионный декодер для генерации изображений, названный X-Omni. X-Omni достигает наилучших результатов в задачах генерации изображений с использованием языковой модели на 7 миллиардов параметров, создавая изображения с высокой эстетической качеством и демонстрируя сильные способности в следовании инструкциям и отображении длинных текстов.
Хотя крупные языковые модели (LLM) достигли значительных успехов, их применение в научных областях, таких как химия, по-прежнему ограничено поверхностным пониманием предметной области и ограниченными способностями к рассуждению. В данной работе мы сосредоточиваемся на конкретной области химии и разрабатываем специализированную языковую модель для химического рассуждения, ChemDFM-R. Сначала мы создаем всеобъемлющий набор данных, состоящий из атомизированных элементов знаний, чтобы улучшить понимание моделью фундаментальных принципов и логической структуры химии. Затем мы предлагаем стратегию смешанного дистилляции, которая объединяет экспертно отобранные знания с навыками рассуждения из общей области, после чего применяем специализированное обучение с подкреплением для улучшения химического рассуждения. Эксперименты на различных химических тестах демонстрируют, что ChemDFM-R достигает наилучших результатов, предоставляя интерпретируемые выводы, основанные на логических обоснованиях. Дополнительные кейс-стадии показывают, как явные цепочки рассуждений значительно повышают надежность, прозрачность и практическую полезность модели в реальных сценариях взаимодействия человека и ИИ.
Экспоненциальный рост спроса на вычислительные ресурсы GPU, обусловленный стремительным развитием крупных языковых моделей (LLM), создал острую необходимость в автоматизированных стратегиях оптимизации CUDA. Хотя последние достижения в области LLM демонстрируют потенциал для генерации кода, современные модели (например, R1, o1) показывают низкую успешность в улучшении скорости CUDA. В данной статье мы представляем CUDA-L1 — автоматизированную систему оптимизации CUDA на основе обучения с подкреплением. CUDA-L1 демонстрирует значительное улучшение производительности в задачах оптимизации CUDA: обученная на NVIDIA A100, она обеспечивает среднее ускорение в 17,7 раз для всех 250 ядер CUDA из KernelBench, с пиковыми значениями до 449 раз. Кроме того, модель также показывает отличную переносимость между архитектурами GPU, достигая среднего ускорения в 17,8 раз на H100, 19,0 раз на RTX 3090, 16,5 раз на L40, 14,7 раз на H800 и 13,9 раз на H20, несмотря на оптимизацию, специфичную для A100. Помимо этих результатов, CUDA-L1 демонстрирует несколько примечательных свойств: 1) Открывает разнообразные техники оптимизации CUDA и учится стратегически комбинировать их для достижения оптимальной производительности; 2) Выявляет фундаментальные принципы оптимизации CUDA; 3) Обнаруживает неочевидные узкие места производительности и отвергает кажущиеся полезными оптимизации, которые ухудшают производительность. Возможности CUDA-L1 показывают, что обучение с подкреплением может превратить изначально слабую LLM в эффективный оптимизатор CUDA исключительно за счет сигналов вознаграждения, основанных на ускорении, без участия экспертов или знаний предметной области. Более того, обученная модель RL распространяет приобретенные способности рассуждения на новые ядра. Этот подход открывает возможности для автоматизированной оптимизации операций CUDA и обещает существенно повысить эффективность GPU, снизив растущую нагрузку на вычислительные ресурсы.
Интерфейсы "мозг-компьютер" (ИМК) обеспечивают прямое взаимодействие между мозгом и внешними устройствами. Современные базовые модели для электроэнцефалографии (ЭЭГ) стремятся к обучению обобщенных представлений для различных парадигм ИМК. Однако эти подходы игнорируют фундаментальные нейрофизиологические различия, специфичные для каждой парадигмы, что ограничивает их способность к обобщению. Важно отметить, что в практических применениях ИМК, таких как моторное воображение (МИ) для реабилитации после инсульта или вспомогательной робототехники, конкретная парадигма обычно определяется до сбора данных. В данной статье представлена MIRepNet — первая базовая модель ЭЭГ, разработанная специально для парадигмы МИ. MIRepNet включает в себя высококачественный конвейер предобработки ЭЭГ, который использует нейрофизиологически обоснованный шаблон каналов, адаптируемый к гарнитурам ЭЭГ с произвольной конфигурацией электродов. Кроме того, мы предлагаем гибридную стратегию предварительного обучения, сочетающую самоконтролируемое восстановление замаскированных токенов и контролируемую классификацию МИ, что способствует быстрой адаптации и точному декодированию на новых задачах МИ с использованием менее 30 проб на класс. Обширные оценки на пяти публичных наборах данных МИ показали, что MIRepNet стабильно достигает наилучших результатов, значительно превосходя как специализированные, так и обобщенные модели ЭЭГ. Наш код будет доступен на GitHub: https://github.com/staraink/MIRepNet.
С наступлением эры крупных языковых моделей (LLM), работающих от имени пользователей, методы оптимизации предпочтений (Preference Optimization, PO) стали ключевым подходом для согласования LLM с человеческими предпочтениями и повышения их производительности. Мы предлагаем метод Maximum a Posteriori Preference Optimization (MaPPO) — фреймворк для обучения на основе предпочтений, который явно включает априорные знания о наградах в целевую функцию оптимизации. В то время как существующие методы, такие как Direct Preference Optimization (DPO) и его варианты, рассматривают обучение предпочтениям как задачу максимального правдоподобия (Maximum Likelihood Estimation, MLE), MaPPO расширяет эту парадигму, интегрируя априорные оценки наград в обоснованную целевую функцию Maximum a Posteriori (MaP). Это не только обобщает DPO и его варианты, но и улучшает согласование, смягчая упрощённую бинарную классификацию ответов. Более того, MaPPO не вводит дополнительных гиперпараметров и поддерживает оптимизацию предпочтений как в оффлайн-, так и в онлайн-режимах. Кроме того, MaPPO может использоваться как плагин, обеспечивая стабильное улучшение для вариантов DPO, включая широко используемые SimPO, IPO и CPO. Обширные эмпирические оценки для моделей различных размеров и серий на трёх стандартных бенчмарках — MT-Bench, AlpacaEval 2.0 и Arena-Hard — демонстрируют устойчивое улучшение качества согласования без ущерба для вычислительной эффективности.
Наблюдение за дикой природой играет важную роль в сохранении биоразнообразия, что требует разработки надежных методик для мониторинга популяций диких животных и межвидовых взаимодействий. Последние достижения в области компьютерного зрения значительно способствовали автоматизации базовых задач наблюдения за дикой природой, таких как обнаружение животных и идентификация видов. Однако точное определение видов по косвенным признакам, таким как следы и экскременты, остается недостаточно изученным, несмотря на его важность для мониторинга дикой природы. Чтобы заполнить этот пробел, мы представляем AnimalClue — первый крупномасштабный набор данных для идентификации видов по изображениям косвенных признаков. Наш набор данных включает 159 605 ограничивающих рамок, охватывающих пять категорий косвенных признаков: следы, экскременты, яйца, кости и перья. Он охватывает 968 видов, 200 семейств и 65 отрядов. Каждое изображение аннотировано метками на уровне видов, ограничивающими рамками или масками сегментации, а также детализированной информацией о признаках, включая модели активности и предпочтения в среде обитания. В отличие от существующих наборов данных, которые в основном сосредоточены на прямых визуальных признаках (например, внешний вид животных), AnimalClue представляет уникальные задачи для классификации, обнаружения и сегментации объектов из-за необходимости распознавания более детальных и тонких визуальных признаков. В наших экспериментах мы тщательно оцениваем репрезентативные модели компьютерного зрения и выявляем ключевые проблемы в идентификации животных по их следам. Наш набор данных и код доступны по адресу https://dahlian00.github.io/AnimalCluePage/.
Данная работа посвящена задаче сегментации динамических объектов в видео на основе нескольких аннотированных примеров с одинаковыми паттернами движения, известной как motion-guided few-shot video object segmentation (FSVOS). Существующие наборы данных и методы FSVOS обычно сосредоточены на категориях объектов, которые являются статическими атрибутами, игнорируя богатые временные динамики в видео, что ограничивает их применение в сценариях, требующих понимания движения. Чтобы заполнить этот пробел, мы представляем MOVE — крупномасштабный набор данных, специально разработанный для motion-guided FSVOS. На основе MOVE мы всесторонне оцениваем 6 современных методов из 3 различных связанных задач в двух экспериментальных настройках. Наши результаты показывают, что текущие методы испытывают трудности с решением задачи motion-guided FSVOS, что побуждает нас проанализировать связанные с этим вызовы и предложить базовый метод — Decoupled Motion Appearance Network (DMA). Эксперименты демонстрируют, что наш подход достигает превосходной производительности в понимании движения на основе нескольких примеров, закладывая прочную основу для будущих исследований в этом направлении.
Популяции дикой природы в Африке сталкиваются с серьезными угрозами, при этом численность позвоночных сократилась более чем на 65% за последние пять десятилетий. В ответ на это классификация изображений с использованием глубокого обучения стала перспективным инструментом для мониторинга биоразнообразия и охраны природы. В данной статье представлено сравнительное исследование моделей глубокого обучения для автоматической классификации изображений африканской дикой природы, с акцентом на трансферное обучение с замороженными экстракторами признаков. Используя публичный набор данных, включающий четыре вида: буйвола, слона, носорога и зебру, мы оцениваем производительность моделей DenseNet-201, ResNet-152, EfficientNet-B4 и Vision Transformer ViT-H/14. DenseNet-201 показал наилучшую производительность среди сверточных сетей (точность 67%), в то время как ViT-H/14 достиг наивысшей общей точности (99%), но с существенно более высокими вычислительными затратами, что вызывает опасения относительно их внедрения. Наши эксперименты подчеркивают компромиссы между точностью, требованиями к ресурсам и возможностью развертывания. Лучшая сверточная нейронная сеть (DenseNet-201) была интегрирована в Hugging Face Gradio Space для использования в реальном времени в полевых условиях, демонстрируя возможность внедрения легковесных моделей в условиях охраны природы. Данная работа вносит вклад в исследования ИИ, ориентированные на Африку, предлагая практические рекомендации по выбору моделей, подготовке наборов данных и ответственному внедрению инструментов глубокого обучения для охраны дикой природы.
В последнее время мультимодальные большие языковые модели (MLLMs) достигли значительных успехов в задачах, связанных с обработкой визуальной и текстовой информации, однако они могут генерировать потенциально вредный или ненадежный контент. Несмотря на существенные исследования, посвященные изучению надежности языковых моделей, способность MLLMs действовать честно, особенно в ситуациях, когда визуальные вопросы не имеют ответа, остается недостаточно изученной. В данной работе представлена первая систематическая оценка честного поведения различных MLLMs. Мы определяем честность через поведение моделей при ответах на неразрешимые визуальные вопросы, выделяем четыре репрезентативных типа таких вопросов и создаем MoHoBench — крупномасштабный бенчмарк для оценки честности MLLMs, состоящий из более чем 12 тысяч образцов визуальных вопросов, качество которых обеспечивается многоэтапной фильтрацией и проверкой людьми. Используя MoHoBench, мы провели оценку честности 28 популярных MLLMs и выполнили всесторонний анализ. Наши результаты показывают, что: (1) большинство моделей не способны корректно отказаться от ответа, когда это необходимо, и (2) честность MLLMs не является исключительно проблемой языкового моделирования, а глубоко зависит от визуальной информации, что требует разработки специализированных методов для мультимодального согласования честности. В связи с этим мы реализовали начальные методы согласования с использованием обучения с учителем и обучения на основе предпочтений для улучшения честного поведения, что закладывает основу для будущих исследований в области надежных MLLMs. Наши данные и код доступны по адресу https://github.com/DSTTSD/MoHoBench.