Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем MVDream — многовидовую диффузионную модель, способную генерировать геометрически согласованные изображения с нескольких ракурсов на основе текстового запроса. Используя предобученные на крупномасштабных веб-данных модели диффузии изображений и многовидовой набор данных, созданный из 3D-ассетов, наша модель достигает как обобщаемости 2D-диффузии, так и согласованности 3D-данных. Такая модель может применяться в качестве многовидового априори для генерации 3D-объектов с помощью метода Score Distillation Sampling, значительно повышая стабильность существующих методов 2D-лифтинга за счет решения проблемы 3D-согласованности. Кроме того, мы показываем, что многовидовую диффузионную модель можно дообучать в условиях ограниченного количества данных для персонализированной 3D-генерации, например, в приложении DreamBooth3D, где согласованность сохраняется после изучения идентичности объекта.
Трансформероподобные модели для задач компьютерного зрения недавно доказали свою эффективность в широком спектре приложений, таких как сегментация и детектирование. Предыдущие работы показали, что свойства сегментации проявляются в визуальных трансформерах (ViT), обученных с использованием методов самообучения, таких как DINO, но не в моделях, обученных на задачах классификации с учителем. В данном исследовании мы исследуем, возникает ли сегментация в трансформерных моделях исключительно как результат сложных механизмов самообучения, или же такое поведение может быть достигнуто в более широких условиях за счет правильного проектирования архитектуры модели. На основе обширных экспериментальных результатов мы демонстрируем, что при использовании архитектуры, подобной трансформеру, известной как CRATE, которая явно моделирует и стремится к низкоразмерным структурам в распределении данных, свойства сегментации, как на уровне целого, так и на уровне частей, возникают уже при минималистичном обучении с учителем. Более детальный анализ на уровне слоев показывает, что возникающие свойства сильно подтверждают заложенные математические функции архитектуры с прозрачной структурой. Наши результаты указывают путь к проектированию базовых моделей с прозрачной структурой, которые одновременно обладают высокой производительностью и полной математической интерпретируемостью. Код доступен по адресу https://github.com/Ma-Lab-Berkeley/CRATE.
Stable Diffusion, генеративная модель, используемая в синтезе изображений по текстовым описаниям, часто сталкивается с проблемами композиции, вызванными изменением разрешения при генерации изображений различных размеров. Эта проблема в основном связана с тем, что модель обучалась на парах изображений одного масштаба и соответствующих текстовых описаний. Более того, прямое обучение на изображениях неограниченных размеров невозможно, так как это потребовало бы огромного количества пар текст-изображение и повлекло бы значительные вычислительные затраты. Для преодоления этих трудностей мы предлагаем двухэтапный подход под названием Any-Size-Diffusion (ASD), предназначенный для эффективной генерации хорошо скомпонованных изображений любого размера при минимальной потребности в ресурсах GPU с высокой памятью. В частности, на начальном этапе, названном Any Ratio Adaptability Diffusion (ARAD), используется выбранный набор изображений с ограниченным диапазоном соотношений сторон для оптимизации тексто-условной диффузионной модели, тем самым улучшая её способность адаптировать композицию под различные размеры изображений. Для поддержки создания изображений любого желаемого размера на следующем этапе мы вводим метод под названием Fast Seamless Tiled Diffusion (FSTD). Этот метод позволяет быстро увеличивать выходные данные ASD до любого высокого разрешения, избегая артефактов на стыках или перегрузки памяти. Экспериментальные результаты на бенчмарках LAION-COCO и MM-CelebA-HQ демонстрируют, что ASD может создавать хорошо структурированные изображения произвольных размеров, сокращая время вывода в 2 раза по сравнению с традиционным алгоритмом мозаичного увеличения.
Предварительно обученные языковые модели, такие как ChatGPT, значительно улучшили генерацию кода. По мере увеличения масштаба этих моделей возникает растущая потребность в том, чтобы их выходные данные могли справляться с более сложными задачами. Кроме того, в биоинформатике генерация функциональных программ представляет дополнительные существенные трудности из-за объема предметных знаний, необходимости сложных операций с данными и запутанных функциональных зависимостей между операциями. В данной работе мы представляем BioCoder — эталонный набор, разработанный для оценки существующих предварительно обученных моделей в генерации биоинформатического кода. В контексте генерации кода функций BioCoder охватывает потенциальные зависимости пакетов, объявления классов и глобальные переменные. Он включает 1026 функций и 1243 метода на Python и Java, взятых из GitHub, а также 253 примера из проекта Rosalind. BioCoder включает фреймворк для фаззинг-тестирования, и мы применили его для оценки множества моделей, включая InCoder, CodeGen, CodeGen2, SantaCoder, StarCoder, StarCoder+, InstructCodeT5+ и ChatGPT. Наш детальный анализ этих моделей подчеркивает важность предметных знаний, прагматичной генерации кода и контекстуального понимания. Наш набор данных, эталонный набор, Docker-образы и скрипты, необходимые для тестирования, доступны по адресу https://github.com/gersteinlab/biocoder.
Когда программисты осваивают один язык программирования, им становится проще изучать новый. В данном отчете мы сосредоточились на исследовании того, могут ли языки программирования взаимно усиливать друг друга в процессе тонкой настройки инструкций для крупных языковых моделей, специализирующихся на коде. Мы провели обширные эксперименты с 8 популярными языками программирования (Python, JavaScript, TypeScript, C, C++, Java, Go, HTML) на модели StarCoder. Результаты показывают, что языки программирования действительно могут значительно улучшать друг друга. Например, модель CodeM-Python 15B, обученная на Python, способна повысить показатель pass@1 для Java на абсолютные 17,95% на тесте HumanEval-X. Еще более удивительно, что модель CodeM-HTML 7B, обученная на корпусе HTML, может улучшить Java на абсолютные 15,24% pass@1. Наши данные для обучения опубликованы по адресу https://github.com/NL2Code/CodeM.
Мы рассматриваем задачу активного картографирования с использованием непрерывно обучаемого нейронного представления сцены, а именно Active Neural Mapping. Ключевая идея заключается в активном поиске целевого пространства для исследования с эффективным перемещением агента, что позволяет минимизировать неопределенность карты в реальном времени в ранее неизученной среде. В данной работе мы исследуем пространство весов непрерывно обучаемого нейронного поля и эмпирически показываем, что нейронная изменчивость, то есть устойчивость предсказаний к случайным возмущениям весов, может быть напрямую использована для измерения мгновенной неопределенности нейронной карты. В сочетании с непрерывной геометрической информацией, унаследованной в нейронной карте, агент может быть направлен на поиск проходимого пути для постепенного изучения окружающей среды. Впервые мы представляем систему активного картографирования с координатно-ориентированным неявным нейронным представлением для онлайн-реконструкции сцены. Эксперименты в визуально реалистичных средах Gibson и Matterport3D демонстрируют эффективность предложенного метода.
Разработка агентов, способных выполнять разнообразные манипуляционные задачи на основе визуальных наблюдений в неструктурированных реальных условиях, является давней проблемой в робототехнике. Для достижения этой цели робот должен обладать всесторонним пониманием трехмерной структуры и семантики сцены. В данной работе мы представляем GNFactor — агента для визуального клонирования поведения, предназначенного для многозадачной роботизированной манипуляции с использованием Обобщаемых Нейронных Полевых Признаков. GNFactor совместно оптимизирует обобщаемое нейронное поле (GNF) в качестве модуля реконструкции и Perceiver Transformer в качестве модуля принятия решений, используя общее глубокое трехмерное воксельное представление. Для включения семантики в 3D модуль реконструкции использует базовую модель компьютерного зрения и языка (например, Stable Diffusion) для извлечения богатой семантической информации в глубокое трехмерное воксельное пространство. Мы оцениваем GNFactor на трех задачах с реальным роботом и проводим детальные исследования на 10 задачах RLBench с ограниченным количеством демонстраций. Мы наблюдаем значительное улучшение GNFactor по сравнению с современными методами как в известных, так и в новых задачах, что демонстрирует сильную способность к обобщению. Наш проект доступен по адресу: https://yanjieze.com/GNFactor/.
Мы представляем Belebele — набор данных для машинного чтения с пониманием (MRC) с множественным выбором, охватывающий 122 языковых варианта. Значительно расширяя языковое покрытие бенчмарков для понимания естественного языка (NLU), этот набор данных позволяет оценивать текстовые модели на языках с высоким, средним и низким уровнем ресурсов. Каждый вопрос основан на коротком отрывке из набора данных Flores-200 и имеет четыре варианта ответа. Вопросы были тщательно отобраны для различения моделей с разным уровнем общего языкового понимания. Даже англоязычная версия набора данных сама по себе оказывается достаточно сложной, чтобы бросить вызов современным языковым моделям. Будучи полностью параллельным, этот набор данных позволяет напрямую сравнивать производительность моделей на всех языках. Мы используем этот набор данных для оценки возможностей многоязычных масочных языковых моделей (MLM) и крупных языковых моделей (LLM). Мы представляем обширные результаты и обнаруживаем, что, несмотря на значительный кросс-лингвистический перенос в англоцентричных LLM, гораздо меньшие MLM, предобученные на сбалансированных многоязычных данных, всё же понимают значительно больше языков. Мы также наблюдаем, что больший размер словаря и осознанное построение словаря коррелируют с лучшей производительностью на языках с низким уровнем ресурсов. В целом, Belebele открывает новые возможности для оценки и анализа многоязычных возможностей систем обработки естественного языка (NLP).
Человеко-ориентированная интерполяция видеокадров обладает большим потенциалом для улучшения развлекательного опыта людей и находит коммерческое применение в индустрии спортивного анализа, например, при создании замедленных видео. Хотя в сообществе доступны несколько эталонных наборов данных, ни один из них не предназначен специально для человеко-ориентированных сценариев. Чтобы устранить этот пробел, мы представляем SportsSloMo — эталонный набор данных, состоящий из более чем 130 тысяч видеоклипов и 1 миллиона видеокадров высокого разрешения (≥720p) замедленных спортивных видео, собранных с YouTube. Мы повторно обучаем несколько современных методов на нашем наборе данных, и результаты показывают снижение их точности по сравнению с другими наборами данных. Это подчеркивает сложность нашего набора данных и указывает на то, что он представляет значительные вызовы даже для лучших методов, поскольку человеческое тело обладает высокой деформируемостью, а окклюзии часто встречаются в спортивных видео. Для повышения точности мы вводим два дополнительных слагаемых функции потерь, учитывающих априорные знания о человеке, где мы добавляем вспомогательное обучение для панорамной сегментации и обнаружения ключевых точек человека соответственно. Эти слагаемые являются модельно-независимыми и могут быть легко интегрированы в любые подходы к интерполяции видеокадров. Экспериментальные результаты подтверждают эффективность предложенных слагаемых, приводя к последовательному улучшению производительности в 5 существующих моделях, которые устанавливают сильные базовые модели на нашем наборе данных. Набор данных и код доступны по адресу: https://neu-vi.github.io/SportsSlomo/.