Ежедневно отобранные исследовательские статьи по ИИ с переводами
Значительные успехи были достигнуты с использованием крупных моделей, объединяющих зрение и язык, таких как Stable Diffusion (SD), для решения различных задач, включая редактирование изображений, установление соответствий между изображениями и генерацию 3D-форм. Вдохновленные этими достижениями, мы исследуем возможность использования этих обширных моделей для сегментации изображений с любой желаемой детализацией, используя всего один аннотированный образец, предлагая метод SLiMe. SLiMe формулирует эту задачу как задачу оптимизации. В частности, учитывая одно обучающее изображение и его маску сегментации, мы сначала извлекаем карты внимания, включая нашу новую "взвешенную накопленную карту самовнимания", из априорной модели SD. Затем, используя извлеченные карты внимания, оптимизируются текстовые эмбеддинги Stable Diffusion таким образом, что каждый из них изучает отдельную сегментированную область на обучающем изображении. Эти обученные эмбеддинги затем выделяют сегментированную область на картах внимания, которые, в свою очередь, могут быть использованы для получения карты сегментации. Это позволяет SLiMe сегментировать любое реальное изображение во время вывода с детализацией, соответствующей сегментированной области на обучающем изображении, используя всего один пример. Более того, использование дополнительных обучающих данных, когда они доступны, т.е. в условиях few-shot, улучшает производительность SLiMe. Мы провели обширный набор экспериментов, исследуя различные факторы проектирования, и показали, что SLiMe превосходит другие существующие методы сегментации с одним и несколькими примерами.
Предыдущие исследования обычно предполагали, что крупные языковые модели не способны точно выполнять арифметические операции, особенно умножение чисел с более чем 8 цифрами, а также операции с десятичными дробями и обыкновенными дробями без использования калькуляторных инструментов. Данная работа ставит целью опровергнуть это заблуждение. При наличии достаточного объема обучающих данных языковая модель с 2 миллиардами параметров может точно выполнять многозначные арифметические операции с почти 100% точностью без утечки данных, значительно превосходя GPT-4 (точность которой в многозначном умножении составляет всего 4,3%). Мы также демонстрируем, что наша модель MathGLM, дообученная на основе GLM-10B на наборе данных с дополнительными многошаговыми арифметическими операциями и математическими задачами, описанными в тексте, достигает аналогичной производительности с GPT-4 на тестовом наборе из 5000 китайских математических задач.
Мы представляем CM3Leon (произносится как "Хамелеон") — мультимодальную языковую модель, основанную на извлечении данных, работающую с токенами и использующую только декодер, которая способна генерировать и заполнять как текст, так и изображения. CM3Leon использует мультимодальную архитектуру CM3, но также демонстрирует значительные преимущества масштабирования и настройки на более разнообразных данных в стиле инструкций. Это первая мультимодальная модель, обученная по методике, адаптированной из моделей, работающих исключительно с текстом, включая этап масштабного предварительного обучения с извлечением данных и второй этап многозадачного контролируемого тонкого настройки (SFT). Это также универсальная модель, способная выполнять как генерацию изображений из текста, так и генерацию текста из изображений, что позволяет нам внедрить самодостаточные методы контрастного декодирования, обеспечивающие высокое качество выходных данных. Многочисленные эксперименты показывают, что такой подход чрезвычайно эффективен для мультимодальных моделей. CM3Leon достигает наилучших результатов в генерации изображений из текста, используя в 5 раз меньше вычислительных ресурсов для обучения по сравнению с аналогичными методами (FID на MS-COCO в режиме zero-shot составляет 4,88). После SFT CM3Leon также демонстрирует беспрецедентный уровень управляемости в задачах, начиная от редактирования изображений с использованием языковых инструкций и заканчивая управляемой изображениями генерацией и сегментацией.
Мы представляем Matcha-TTS — новую архитектуру кодировщика-декодера для быстрого акустического моделирования в синтезе речи, обученную с использованием условного согласования потоков на основе оптимального транспорта (OT-CFM). Это позволяет получить декодер на основе обыкновенных дифференциальных уравнений (ODE), способный генерировать высококачественный выходной сигнал за меньшее количество шагов синтеза по сравнению с моделями, обученными с использованием согласования оценок. Тщательно продуманные архитектурные решения также обеспечивают высокую скорость выполнения каждого шага синтеза. Метод является вероятностным, неавторегрессивным и обучается говорить с нуля без использования внешних выравниваний. По сравнению с сильными предобученными базовыми моделями, система Matcha-TTS имеет наименьший объем занимаемой памяти, соперничает по скорости с самыми быстрыми моделями на длинных высказываниях и достигает наивысшего среднего балла в тестах на восприятие. Примеры аудио, код и предобученные модели доступны по ссылке: https://shivammehta25.github.io/Matcha-TTS/.
Последние достижения в области визуально-языковых моделей (VLM) привели к улучшению производительности в таких задачах, как визуальное ответы на вопросы и генерация подписей к изображениям. В результате эти модели теперь хорошо подходят для рассуждений о физическом мире, особенно в таких областях, как манипуляции с роботами. Однако современные VLM ограничены в понимании физических концепций (например, материал, хрупкость) обычных объектов, что снижает их полезность для задач роботизированных манипуляций, требующих взаимодействия и физического рассуждения о таких объектах. Чтобы устранить это ограничение, мы предлагаем PhysObjects — объектно-ориентированный набор данных, содержащий 36,9 тыс. аннотаций физических концепций, созданных с помощью краудсорсинга, и 417 тыс. автоматически сгенерированных аннотаций для обычных бытовых объектов. Мы демонстрируем, что тонкая настройка VLM на данных PhysObjects улучшает её понимание физических концепций объектов, захватывая человеческие представления об этих концепциях на основе визуального внешнего вида. Мы интегрируем эту физически обоснованную VLM в интерактивную структуру с планировщиком роботов на основе крупной языковой модели и показываем улучшение производительности планирования в задачах, требующих рассуждений о физических концепциях объектов, по сравнению с базовыми подходами, не использующими физически обоснованные VLM. Дополнительно мы демонстрируем преимущества нашей физически обоснованной VLM на реальном роботе, где она повышает успешность выполнения задач. Мы публикуем наш набор данных и предоставляем дополнительные детали и визуализации наших результатов на сайте https://iliad.stanford.edu/pg-vlm/.
Нейронные поля, категория нейронных сетей, обученных для представления высокочастотных сигналов, привлекли значительное внимание в последние годы благодаря их впечатляющей производительности в моделировании сложных 3D данных, особенно больших нейронных полей знаковых расстояний (SDF) или полей излучения (NeRF) с использованием одного многослойного перцептрона (MLP). Однако, несмотря на мощь и простоту представления сигналов с помощью MLP, эти методы всё ещё сталкиваются с трудностями при моделировании больших и сложных временных сигналов из-за ограниченной ёмкости MLP. В данной статье мы предлагаем эффективный подход для преодоления этого ограничения путём включения временных остаточных слоёв в нейронные поля, названные ResFields, — новый класс сетей, специально разработанных для эффективного представления сложных временных сигналов. Мы проводим всесторонний анализ свойств ResFields и предлагаем метод факторизации матриц для уменьшения количества обучаемых параметров и повышения обобщающей способности. Важно отметить, что наша формулировка легко интегрируется с существующими методами и последовательно улучшает результаты в различных сложных задачах: аппроксимации 2D видео, моделировании динамических форм с помощью временных SDF и реконструкции динамических NeRF. Наконец, мы демонстрируем практическую полезность ResFields, показывая их эффективность в захвате динамических 3D сцен из разреженных сенсорных данных лёгкой системы захвата.
Нейронные поля излучения (NeRF) продемонстрировали перспективность в таких задачах, как синтез видов и оценка глубины, однако обучение на основе многовидовых изображений сталкивается с присущими неопределенностями. Современные методы их количественной оценки либо эвристичны, либо требуют значительных вычислительных ресурсов. Мы представляем BayesRays — постфактумный фреймворк для оценки неопределенности в любом предварительно обученном NeRF без изменения процесса обучения. Наш метод создает объемное поле неопределенности с использованием пространственных возмущений и байесовской аппроксимации Лапласа. Мы статистически обосновываем наш алгоритм и демонстрируем его превосходство по ключевым метрикам и в приложениях. Дополнительные результаты доступны по адресу: https://bayesrays.github.io.
Ловкость человека является отличительной чертой моторного контроля. Наши руки способны быстро синтезировать новые поведенческие паттерны, несмотря на сложность (многосуставность и многозвенность, с 23 суставами, управляемыми более чем 40 мышцами) сенсомоторных цепей опорно-двигательного аппарата. В данной работе мы вдохновляемся тем, как человеческая ловкость основывается на разнообразии предыдущего опыта, а не приобретается через выполнение одной задачи. Мотивированные этим наблюдением, мы стремимся разработать агентов, которые могут опираться на свой предыдущий опыт для быстрого освоения новых (ранее недоступных) поведенческих паттернов. В частности, наш подход использует многозадачное обучение для неявного захвата априорных знаний о поведении, не зависящих от задачи (MyoDex), для достижения человеческой ловкости, используя физиологически реалистичную модель человеческой руки — MyoHand. Мы демонстрируем эффективность MyoDex в обобщении с малым количеством примеров, а также положительный перенос на большое количество ранее неизвестных задач ловкого манипулирования. Агенты, использующие MyoDex, могут решать примерно в 3 раза больше задач и в 4 раза быстрее по сравнению с базовым подходом, основанным на дистилляции. В то время как предыдущие работы синтезировали отдельные поведенческие паттерны управления опорно-двигательным аппаратом, MyoDex представляет собой первый обобщаемый априорный подход, который ускоряет обучение физиологическому управлению ловкостью в широком спектре задач, связанных с интенсивным контактом. Мы также демонстрируем эффективность наших подходов за пределами управления опорно-двигательным аппаратом, в направлении освоения ловкости в 24-степенном манипуляторе Adroit Hand. Веб-сайт: https://sites.google.com/view/myodex