Ежедневно отобранные исследовательские статьи по ИИ с переводами
В данной статье мы исследуем основные факторы, которые потенциально улучшают математические рассуждения крупных языковых моделей (LLM). Мы утверждаем, что закон масштабирования данных для математических рассуждений в современных LLM далек от насыщения, подчеркивая, как качество модели улучшается с увеличением объема данных. Для подтверждения этого утверждения мы представляем серию моделей Skywork-Math, обученных с учителем (SFT) на общих 7B LLM с использованием нашего предложенного набора данных Skywork-MathQA с 2.5 млн экземпляров. Skywork-Math 7B достиг впечатляющей точности 51.2% на соревновательном бенчмарке MATH и 83.9% на бенчмарке GSM8K, используя только данные SFT, превзойдя раннюю версию GPT-4 по MATH. Превосходная производительность моделей Skywork-Math обусловлена нашими новыми двухэтапными процессами синтеза данных и обучения моделей SFT, которые включают три различных метода аугментации и разнообразный набор исходных задач, обеспечивая как количество, так и качество набора данных Skywork-MathQA на различных уровнях сложности. Наиболее важно, мы предоставляем несколько практических выводов для улучшения математических рассуждений в LLM как для исследовательских, так и для промышленных приложений.
Мы сделали значительные успехи в создании основных моделей распространения видео. Поскольку эти модели обучаются с использованием масштабных неконтролируемых данных, стало критически важным адаптировать их к конкретным задачам. Адаптация этих моделей с помощью контролируемой донастройки требует сбора целевых наборов данных видео, что является сложным и утомительным процессом. В данной работе мы используем предварительно обученные модели вознаграждения, которые обучаются на основе предпочтений поверх мощных видов дискриминационных моделей для адаптации моделей распространения видео. Эти модели содержат плотную информацию о градиентах относительно созданных RGB пикселей, что критически важно для эффективного обучения в сложных пространствах поиска, таких как видео. Мы показываем, что обратное распространение градиентов от этих моделей вознаграждения к модели распространения видео может обеспечить вычислительно и временно эффективное выравнивание модели распространения видео. Мы демонстрируем результаты на различных моделях вознаграждения и моделях распространения видео, показывая, что наш подход может учиться намного эффективнее в терминах запросов вознаграждения и вычислений, чем предыдущие подходы без градиентов. Наш код, веса моделей и дополнительные визуализации доступны по ссылке https://vader-vid.github.io.
Хотя большинство современных крупных мультимодальных моделей (LMMs) уже могут понимать фотографии природных сцен и портретов, их понимание абстрактных изображений, например, диаграмм, карт или макетов, а также возможности визуального рассуждения остаются довольно примитивными. Они часто испытывают трудности с простыми повседневными задачами, такими как определение времени по часам, понимание блок-схемы или планирование маршрута с использованием дорожной карты. В свете этого мы разрабатываем мультимодальное самоинструктирование, используя крупные языковые модели и их возможности кодирования для синтеза массовых абстрактных изображений и визуальных инструкций по повседневным сценариям. Наш подход легко создает мультимодальный бенчмарк с 11 193 инструкциями для восьми визуальных сценариев: диаграммы, таблицы, симулированные карты, панели управления, блок-схемы, графики отношений, планы этажей и визуальные головоломки. Этот бенчмарк, созданный с помощью простых линий и геометрических элементов, выявляет недостатки большинства передовых LMMs, таких как Claude-3.5-Sonnet и GPT-4o, в понимании абстрактных изображений, рассуждениях о пространственных отношениях и выводе визуальных элементов. Кроме того, для проверки качества наших синтетических данных мы донастраиваем LMM, используя 62 476 синтетических инструкций для диаграмм, таблиц и дорожных карт. Результаты показывают улучшение понимания диаграмм и производительности навигации по карте, а также демонстрируют потенциальные преимущества для других задач визуального рассуждения. Наш код доступен по ссылке: https://github.com/zwq2018/Multi-modal-Self-instruct.
Многомодальные крупные языковые модели (MLLM) недавно стали значительным объектом внимания в академической и промышленной сферах. Несмотря на их профессионализм в общих многомодальных сценариях, математические способности в визуальных контекстах остаются недостаточно исследованными. Мы выделяем три ключевые области в MLLM, которые требуют улучшения: визуальное кодирование математических диаграмм, согласование диаграмм и языка, а также математические навыки рассуждения. Это подчеркивает наличие настоятельной потребности в масштабных, высококачественных данных и процессах обучения в области визуальной математики. В данной статье мы предлагаем MAVIS, первую парадигму настройки математического визуального обучения для MLLM, включающую серию математических визуальных наборов данных и специализированные MLLM. Направленная на решение трех проблем, MAVIS включает три последовательных этапа обучения с нуля. Вначале мы составляем MAVIS-Caption, включающий 558 тыс. пар диаграмм-подписей, для тонкой настройки математического видео-кодера (CLIP-Math) с помощью контрастного обучения, специально разработанного для улучшения визуального кодирования диаграмм. Затем мы используем MAVIS-Caption для согласования CLIP-Math с крупной языковой моделью (LLM) с помощью слоя проекции, улучшая согласование визуального и языкового контента в математических областях. Наконец, мы вводим MAVIS-Instruct, включающий 900 тыс. тщательно собранных и аннотированных визуальных математических задач, которые используются для окончательной настройки MLLM на навыки устойчивого математического рассуждения. В MAVIS-Instruct мы включаем полные цепочки рассуждений (CoT) для каждой задачи и минимизируем текстовую избыточность, тем самым сосредотачивая модель на визуальных элементах. Данные и модели доступны по ссылке https://github.com/ZrrSkywalker/MAVIS
Обучение больших языковых моделей (LLM) требует больших объемов памяти из-за большого количества параметров и связанных состояний оптимизации. GaLore, недавний метод, снижает использование памяти путем проецирования градиентов весов в подпространство низкого ранга без ущерба производительности. Однако GaLore зависит от затратных операций сингулярного разложения (SVD) для определения подпространства, и частые обновления подпространства приводят к значительным накладным расходам на время обучения. Более того, по сравнению с LoRA в более доступных сценариях настройки, GaLore предлагает минимальные улучшения в точности и эффективности. Для преодоления этих ограничений мы представляем Q-Galore, новый подход, который существенно снижает использование памяти путем комбинирования квантования и проекции низкого ранга, превосходя преимущества GaLore. Наш метод основан на двух ключевых наблюдениях: (i) градиентное подпространство обладает разнообразными свойствами, где некоторые слои сходятся рано в процессе обучения, в то время как другие подвержены частым изменениям; (ii) матрицы проекции чрезвычайно устойчивы к квантованию низкого разряда. Используя эти идеи, Q-GaLore адаптивно обновляет градиентное подпространство на основе его статистики сходимости, достигая сравнимой производительности при значительном снижении количества операций SVD. Мы храним матрицы проекции в формате INT4 и веса в формате INT8, включая стохастическое округление для учета накопленной информации о градиенте. Этот подход обеспечивает траекторию обучения высокой точности, используя только веса низкой точности. Мы демонстрируем, что Q-GaLore достигает высокой конкурентоспособной производительности с исключительной эффективностью памяти. На этапе предварительного обучения Q-GaLore облегчает обучение модели LLaMA-7B с нуля на одном графическом процессоре NVIDIA RTX 4060 Ti с всего 16 ГБ памяти. При настройке Q-GaLore снижает потребление памяти до 50% по сравнению с LoRA и GaLore, превосходя QLoRA при том же объеме памяти.
Мы предлагаем новую гибридную основу Mamba-Transformer, обозначенную как MambaVision, специально разработанную для приложений в области зрения. Наш основной вклад включает переработку формулировки Mamba для улучшения ее способности к эффективному моделированию визуальных особенностей. Кроме того, мы проводим всестороннее исследование по возможности интеграции Vision Transformers (ViT) с Mamba. Наши результаты показывают, что добавление нескольких блоков самовнимания в архитектуру Mamba в конечных слоях значительно улучшает способность моделирования для улавливания пространственных зависимостей на длинные дистанции. Основываясь на наших выводах, мы представляем семейство моделей MambaVision с иерархической архитектурой, соответствующей различным критериям проектирования. Для классификации изображений на наборе данных ImageNet-1K, варианты модели MambaVision достигают нового рекорда в точности Top-1 и пропускной способности изображения. В задачах наследования, таких как обнаружение объектов, сегментация экземпляров и семантическая сегментация на наборах данных MS COCO и ADE20K, MambaVision превосходит аналогичные основы сопоставимого размера и демонстрирует более благоприятные результаты. Код: https://github.com/NVlabs/MambaVision.
Быстро растущее количество приложений зависит от небольшого набора закрытых языковых моделей (LM). Эта зависимость может привести к появлению новых угроз безопасности, если LM приобретут способность к самоидентификации. Вдохновленные методами верификации личности человека, мы предлагаем новый подход для оценки самоидентификации в LM с использованием созданных моделью "контрольных вопросов по безопасности". Наш тест может быть внешне проведен для отслеживания передовых моделей, поскольку он не требует доступа к внутренним параметрам модели или вероятностям вывода. Мы используем наш тест для изучения самоидентификации в десяти из самых продвинутых открытых и закрытых языковых моделях, в настоящее время общедоступных. Наши обширные эксперименты не выявили эмпирических доказательств общей или последовательной самоидентификации в любой из исследуемых LM. Вместо этого наши результаты указывают на то, что, имея набор альтернатив, LM стремятся выбрать "лучший" ответ, независимо от его происхождения. Более того, мы обнаружили признаки того, что предпочтения относительно того, какие модели дают лучшие ответы, согласованы между LM. Мы также выявили новые аспекты учета позиционного смещения для LM в множественных вариантах ответов.
С замечательными достижениями в области генерации изображений и генерации текста в открытой форме создание переплетенного контента изображений и текста стало все более увлекательной областью. Мультимодальная генерация историй, характеризующаяся созданием повествовательных текстов и ярких изображений в переплетенной форме, вышла на первый план как ценная и практичная задача с широким спектром применений. Однако эта задача представляет существенные вызовы, поскольку требует понимания сложного взаимодействия между текстами и изображениями, а также способности генерировать длинные последовательности согласованных, контекстуально значимых текстов и визуальных элементов. В данной работе мы предлагаем SEED-Story, новый метод, использующий Мультимодельную Большую Языковую Модель (MLLM) для генерации расширенных мультимодальных историй. Наша модель, основанная на мощной способности понимания MLLM, предсказывает текстовые токены, а также визуальные токены, которые впоследствии обрабатываются с помощью адаптированного визуального де-токенизатора для создания изображений с согласованными персонажами и стилями. Мы также предлагаем механизм мультимодального внимания для обеспечения генерации историй с до 25 последовательностями (только 10 для обучения) в высокоэффективном авторегрессивном режиме. Кроме того, мы представляем крупномасштабный и высокоразрешенный набор данных под названием StoryStream для обучения нашей модели и количественной оценки задачи мультимодальной генерации историй в различных аспектах.
Исключительная математическая способность рассуждения является одной из ключевых особенностей, демонстрирующих мощь больших языковых моделей (LLM). Как всесторонне определить и оценить математические способности LLM, а также отразить опыт пользователя в реальных сценариях, стало критической проблемой. Существующие бенчмарки в основном сосредотачиваются на способностях к решению проблем, что представляет существенный риск переобучения модели и не позволяет точно представить истинные математические способности рассуждения. В данной статье мы утверждаем, что если модель действительно понимает проблему, она должна надежно и легко применяться в разнообразных задачах. Вдохновленные этим, мы представляем MATHCHECK, хорошо спроектированный чеклист для тестирования обобщения задач и устойчивости рассуждений, а также автоматическое средство для эффективной генерации чеклистов. MATHCHECK включает в себя несколько математических задач рассуждения и типов тестов на устойчивость для облегчения всесторонней оценки как математических способностей рассуждения, так и тестирования поведения. Используя MATHCHECK, мы разрабатываем MATHCHECK-GSM и MATHCHECK-GEO для оценки математического текстового рассуждения и мультимодальных способностей рассуждения соответственно, выступая в качестве улучшенных версий бенчмарков, включая GSM8k, GeoQA, UniGeo и Geometry3K. Мы применяем MATHCHECK-GSM и MATHCHECK-GEO для оценки более чем 20 LLM и 11 MLLM, оценивая их всесторонние математические способности рассуждения. Наши результаты показывают, что в то время как передовые LLM, такие как GPT-4o, продолжают превосходить в различных способностях по чеклисту, многие другие семейства моделей демонстрируют значительное снижение. Дополнительные эксперименты показывают, что, в сравнении с традиционными математическими бенчмарками, MATHCHECK лучше отражает истинные математические способности и более линейно представляет математическое интеллект, тем самым поддерживая наш дизайн. На нашем MATHCHECK мы легко можем проводить детальный анализ поведения для глубокого изучения моделей.
Существующие мультимодальные модели языка больших размеров (MLLM) все более акцентируют сложное понимание различных визуальных элементов, включая множественные объекты, текстовую информацию и пространственные отношения. Их развитие для комплексного визуального восприятия зависит от наличия высококачественных наборов данных изображений и текста, предлагающих разнообразные визуальные элементы и полные описания изображений. Однако дефицит таких гипердетализированных наборов данных в настоящее время затрудняет прогресс в сообществе MLLM. Узкое место происходит из ограниченных перцептивных возможностей текущих модулей подписей, которые не могут обеспечить полные и точные аннотации. Для облегчения передовых исследований MLLM по комплексному визионному восприятию мы предлагаем Перцептивное Слияние, используя недорогой, но высокоэффективный модуль подписей для полных и точных описаний изображений. Конкретно, Перцептивное Слияние интегрирует разнообразных экспертов по восприятию в качестве изображений-приоритетов для предоставления явной информации о визуальных элементах и принимает эффективную модель MLLM в качестве центральной опоры для имитации способностей восприятия передовых моделей MLLM. Мы тщательно выбрали 1 миллион высоко репрезентативных изображений из некурированного набора данных LAION и сгенерировали плотные описания с использованием нашего модуля, названного DenseFusion-1M. Обширные эксперименты подтверждают, что наш модуль превосходит своих аналогов, где полученный набор данных значительно улучшает способности восприятия и когнитивные способности существующих моделей MLLM по различным бенчмаркам визио-языкового восприятия, особенно с изображениями высокого разрешения в качестве входных данных. Набор данных и код общедоступны по адресу https://github.com/baaivision/DenseFusion.
Значительное внимание уделяется интеграции больших языковых моделей (LLM) с различными инструментами для разработки универсальных агентов. Это представляет собой вызов для возможностей использования инструментов LLM. Однако существуют явные разрывы между существующими оценками использования инструментов и реальными сценариями. На текущий момент оценки часто используют искусственно созданные запросы, задачи с одним шагом, фиктивные инструменты и взаимодействие только с текстом, что не позволяет эффективно выявить способности агентов к решению проблем в реальном мире. Для решения этой проблемы мы предлагаем GTA, бенчмарк для агентов общего назначения, включающий три основных аспекта: (i) Запросы реальных пользователей: запросы, написанные людьми, с простыми целями в реальном мире, но с неявным использованием инструментов, требующие от LLM обосновать подходящие инструменты и спланировать шаги решения. (ii) Реальные инструменты: платформа оценки, оснащенная инструментами по категориям восприятия, операций, логики и креативности для оценки фактической производительности агентов при выполнении задач. (iii) Реальные мультимодальные входы: аутентичные изображения, такие как пространственные сцены, снимки веб-страниц, таблицы, фрагменты кода и печатные/рукописные материалы, используемые в качестве контекста запроса для близкого соответствия реальным сценариям. Мы разработали 229 задач реального мира и исполнимые цепочки инструментов для оценки основных LLM. Наши результаты показывают, что запросы пользователей из реального мира представляют собой вызов для существующих LLM, с GPT-4 выполняющим менее 50% задач, а большинство LLM достигают результатов ниже 25%. Эта оценка выявляет узкие места в возможностях использования инструментов текущих LLM в реальных сценариях, что определяет направление для развития агентов универсальных инструментов. Код и набор данных доступны по ссылке https://github.com/open-compass/GTA.
Мы представляем MELLE, новый подход к языковому моделированию на основе непрерывных токенов для синтеза речи из текста (TTS). MELLE авторегрессивно генерирует непрерывные кадры мел-спектрограммы непосредственно из текстового условия, обходя необходимость векторного квантования, которое изначально предназначено для аудио-сжатия и жертвует достоверностью по сравнению с мел-спектрограммами. В частности, (i) вместо потерь кросс-энтропии мы применяем потери регрессии с предложенной функцией потерь потока спектрограммы для моделирования вероятностного распределения непрерывных токенов. (ii) мы внедрили вариационное вывод в MELLE для облегчения механизмов выборки, тем самым улучшая разнообразие выходных данных и устойчивость модели. Эксперименты показывают, что по сравнению с языковыми моделями кодека двухэтапного VALL-E и его вариантами, одноэтапный MELLE уменьшает проблемы устойчивости, избегая врожденных недостатков выборки дискретных кодов, достигает превосходной производительности по нескольким метрикам и, что самое важное, предлагает более упрощенную парадигму. См. https://aka.ms/melle для демонстраций нашей работы.
В последние годы наблюдается быстрое развитие крупных языковых моделей (LLM). На основе мощных LLM мультимодальные LLM (MLLM) расширяют модальность с текста на более широкий спектр областей, привлекая широкое внимание из-за более широкого спектра сценариев применения. Поскольку LLM и MLLM полагаются на огромное количество параметров модели и данных для достижения важных возможностей, важность данных получает все более широкое внимание и признание. Изучая и анализируя недавние работы, ориентированные на данные для MLLM, мы обнаруживаем, что развитие моделей и данных не является двумя отдельными путями, а взаимосвязанными. С одной стороны, более обширные и высококачественные данные способствуют лучшей производительности MLLM, с другой стороны, MLLM могут способствовать развитию данных. Совместное развитие мультимодальных данных и MLLM требует четкого понимания 1) на какой стадии развития MLLM могут быть применены конкретные подходы к данным для улучшения каких возможностей и 2) какие возможности и роли моделей могут способствовать мультимодальным данным. Для поощрения совместного развития данных и моделей для сообщества MLLM мы систематически рассматриваем существующие работы, связанные с MLLM с точки зрения совместного развития данных и моделей. Регулярно обновляемый проект, связанный с этим обзором, доступен по адресу https://github.com/modelscope/data-juicer/blob/main/docs/awesome_llm_data.md.
Нейронные сети (НС) достигают выдающихся результатов в различных задачах, но лишены ключевых характеристик: интерпретируемости, поддержки категориальных признаков и легковесных реализаций, подходящих для периферийных устройств. В то время как текущие усилия направлены на решение этих проблем, Градиентный Бустинг Деревьев (GBT) по своей природе удовлетворяет этим требованиям. В результате GBT стали основным методом для задач обучения с учителем во многих прикладных областях и соревнованиях. Однако их применение в сценариях онлайн-обучения, особенно в обучении с подкреплением (RL), ограничено. В данной работе мы сокращаем этот разрыв, представляя Градиентное Бустинговое RL (GBRL), фреймворк, который расширяет преимущества GBT на область RL. Используя фреймворк GBRL, мы реализуем различные алгоритмы актор-критик и сравниваем их производительность с их аналогами на НС. Вдохновленные общими основами в НС, мы предлагаем подход к совместному использованию деревьев для функций политики и ценности с различными скоростями обучения, улучшая эффективность обучения на миллионах взаимодействий. GBRL достигает конкурентоспособной производительности в разнообразных задачах, преуспевая в областях со структурированными или категориальными признаками. Кроме того, мы представляем высокопроизводительную, ускоренную с помощью GPU реализацию, которая интегрируется без проблем с широко используемыми библиотеками RL (доступно на https://github.com/NVlabs/gbrl). GBRL расширяет набор инструментов для практиков RL, демонстрируя жизнеспособность и перспективы GBT в рамках парадигмы RL, особенно в областях, характеризующихся структурированными или категориальными признаками.
Большие языковые модели продемонстрировали выдающуюся эффективность в генерации потоковых данных, таких как текст и аудио, благодаря своему временно однонаправленному механизму внимания, который моделирует корреляции между текущим токеном и предыдущими токенами. Однако видеопоток остается гораздо менее исследованным, несмотря на растущую потребность в обработке прямых видео. Современные модели диффузии видео используют двунаправленное временное внимание для моделирования корреляций между текущим кадром и всеми окружающими (включая будущие) кадрами, что мешает им обрабатывать потоковые видео. Для решения этой проблемы мы представляем Live2Diff, первую попытку разработки модели диффузии видео с однонаправленным временным вниманием, специально нацеленную на живой потоковый видеоперевод. По сравнению с предыдущими работами, наш подход обеспечивает временную согласованность и плавность, коррелируя текущий кадр с его предшественниками и несколькими начальными кадрами для разогрева, без учета будущих кадров. Кроме того, мы используем высокоэффективную схему подавления шума, включающую механизм KV-кэша и конвейеризацию, для облегчения потокового видеоперевода с интерактивными частотами кадров. Обширные эксперименты демонстрируют эффективность предложенного механизма внимания и конвейера, превосходя предыдущие методы по показателям временной плавности и/или эффективности.
Моделирование движения имеет ключевое значение в интерполяции видеокадров на основе потока (Video Frame Interpolation, VFI). Существующие парадигмы либо рассматривают линейные комбинации двунаправленных потоков, либо непосредственно предсказывают двусторонние потоки для заданных меток времени, не исследуя благоприятные движения заранее, что приводит к недостаточной способности эффективно моделировать пространственно-временные динамики в видеороликах реального мира. Для преодоления этого ограничения в данном исследовании мы представляем Обобщенное Неявное Моделирование Движения (Generalizable Implicit Motion Modeling, GIMM), новый и эффективный подход к моделированию движения для VFI. Конкретно, чтобы сделать GIMM эффективной парадигмой моделирования движения, мы разрабатываем конвейер кодирования движения для моделирования пространственно-временного движения, скрытого в двунаправленных потоках, извлеченных из предварительно обученных оценщиков потока, эффективно представляя движения, специфичные для ввода. Затем мы неявно предсказываем оптические потоки произвольного временного шага между двумя смежными входными кадрами с помощью адаптивной нейронной сети на основе координат, с пространственно-временными координатами и скрытым движением в качестве входных данных. Наш GIMM может быть легко интегрирован с существующими работами по VFI на основе потока без дополнительных модификаций. Мы показываем, что GIMM работает лучше, чем текущее состояние искусства на бенчмарках VFI.
Карты сверху вниз (Bird's Eye View, BEV) являются популярным представлением для навигации наземных роботов благодаря их информативности и гибкости для последующих задач. В то время как недавние методы показали потенциал в предсказании карт BEV по изображениям от первого лица (First-Person View, FPV), их обобщаемость ограничена маленькими регионами, охваченными текущими наборами данных автономных транспортных средств. В этом контексте мы показываем, что более масштабный подход к обобщаемому предсказанию карт может быть реализован с использованием двух крупномасштабных платформ с картографическими данными, Mapillary для изображений FPV и OpenStreetMap для семантических карт BEV. Мы представляем Map It Anywhere (MIA), движок данных, который обеспечивает безупречную кураторскую работу и моделирование помеченных данных предсказания карт из существующих открытых картографических платформ. Используя наш движок данных MIA, мы демонстрируем легкость автоматического сбора набора данных из 1,2 миллиона пар изображений FPV и карт BEV, охватывающих разнообразные географии, ландшафты, окружающие факторы, модели камер и сценарии съемки. Мы также обучаем простую модель, не зависящую от модели камеры, на этих данных для предсказания карт BEV. Обширные оценки с использованием установленных бенчмарков и нашего набора данных показывают, что данные, собранные MIA, обеспечивают эффективное предварительное обучение для обобщаемого предсказания карт BEV, с производительностью "нулевого сэмпла", превосходящей базовые показатели, обученные на существующих наборах данных, на 35%. Наш анализ подчеркивает потенциал использования крупномасштабных общедоступных карт для разработки и тестирования обобщаемого восприятия BEV, что открывает путь к более надежной автономной навигации.
В данной перспективной статье мы представляем концепцию Специализированного Генералистического Искусственного Интеллекта (СГИ или просто СГИ), как важного этапа на пути к Искусственному Общему Интеллекту (ИОИ). В отличие от прямого масштабирования общих способностей, СГИ определяется как ИИ, специализирующийся хотя бы в одной задаче, превосходящий человеческих экспертов, сохраняя при этом общие способности. Этот путь слияния позволяет СГИ быстро достигать областей высокой ценности. Мы классифицируем СГИ на три этапа на основе уровня мастерства в профессиональных навыках и общей производительности. Кроме того, мы обсуждаем необходимость СГИ в решении проблем, связанных с большими языковыми моделями, такими как их недостаточная общность, специализированные возможности, неопределенность в инновациях и практические применения. Более того, мы предлагаем концептуальную структуру для развития СГИ, интегрирующую сильные стороны когнитивной обработки Системы 1 и Системы 2. Эта структура включает три уровня и четыре ключевых компонента, которые сосредотачиваются на улучшении индивидуальных способностей и облегчении совместной эволюции. Мы заключаем, подводя итог потенциальным вызовам и предлагая направления для будущего развития. Мы надеемся, что предложенный СГИ принесет понимание для дальнейших исследований и приложений на пути к достижению ИОИ.
Хотя область восстановления трехмерных сцен в основном контролируется моделями NeRF из-за их фотореалистичного качества, недавно появился метод трехмерного гауссова сплетения (3DGS), предлагающий схожее качество с возможностью реального времени рендеринга. Однако оба метода преимущественно проявляют себя в хорошо контролируемых трехмерных сценах, в то время как данные "на воле" - характеризующиеся заслонениями, динамическими объектами и изменяющимся освещением - остаются вызовом. NeRF легко адаптируется к таким условиям благодаря векторам внедрения на изображение, в то время как 3DGS испытывает затруднения из-за явного представления и отсутствия общих параметров. Для решения этой проблемы мы представляем WildGaussians, новый подход к обработке заслонений и изменений внешнего вида с помощью 3DGS. Используя надежные функции DINO и интегрируя модуль моделирования внешнего вида в 3DGS, наш метод достигает передовых результатов. Мы демонстрируем, что WildGaussians соответствует скорости реального времени рендеринга 3DGS, превосходя как 3DGS, так и базовые модели NeRF в обработке данных "на воле", все это в рамках простой архитектурной структуры.
Мы предлагаем OmniNOCS, крупномасштабный монокулярный набор данных с картами 3D нормализованного объектного координатного пространства (NOCS), масками объектов и аннотациями ограничивающих рамок 3D для внутренних и внешних сцен. OmniNOCS содержит в 20 раз больше классов объектов и в 200 раз больше экземпляров, чем существующие наборы данных NOCS (NOCS-Real275, Wild6D). Мы используем OmniNOCS для обучения новой модели прогнозирования монокулярного NOCS на основе трансформера (NOCSformer), которая может предсказывать точные NOCS, маски экземпляров и позы из 2D обнаруженных объектов различных классов. Это первая модель NOCS, которая способна обобщаться на широкий спектр классов при подаче 2D рамок. Мы оцениваем нашу модель на задаче прогнозирования 3D ориентированных ограничивающих рамок, где она достигает сравнимых результатов с передовыми методами обнаружения 3D, такими как Cube R-CNN. В отличие от других методов обнаружения 3D, наша модель также предоставляет детальную и точную форму и сегментацию 3D объектов. Мы предлагаем новый показатель для задачи прогнозирования NOCS на основе OmniNOCS, который, надеемся, послужит полезным базовым уровнем для будущих работ в этой области. Наш набор данных и код будут доступны на веб-сайте проекта: https://omninocs.github.io.
Задача персонализированной оценки эстетики изображений направлена на создание моделей прогнозирования оценок эстетики, соответствующих индивидуальным предпочтениям с помощью небольшого количества предоставленных пользователем входных данных. Однако масштабируемость и обобщающие возможности текущих подходов значительно ограничены из-за зависимости от дорогостоящей кураторской базы данных. Для преодоления этой давней проблемы масштабируемости мы представляем уникальный подход, который использует легко доступные базы данных для общей оценки эстетики изображений и оценки качества изображений. Конкретно, мы рассматриваем каждую базу данных как отдельную задачу регрессии оценки изображения, проявляющую различные уровни потенциала персонализации. Путем определения оптимальных комбинаций векторов задач, известных как представляющие определенные характеристики каждой базы данных, мы успешно создаем персонализированные модели для отдельных лиц. Этот подход интеграции нескольких моделей позволяет нам использовать значительное количество данных. Наши обширные эксперименты демонстрируют эффективность нашего подхода в обобщении на ранее не виденные области - задача, с которой предыдущие подходы боролись, что делает его крайне применимым к реальным сценариям. Наш новаторский подход значительно продвигает область, предлагая масштабируемые решения для персонализированной оценки эстетики и устанавливая высокие стандарты для будущих исследований.