Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

MVDream: Многовидовое диффузионное моделирование для генерации 3D-объектов
MVDream: Multi-view Diffusion for 3D Generation

Aug 31, 2023

Yichun Shi, Peng Wang, Jianglong Ye, Mai Long, Kejie Li, Xiao Yang

1026

Мы представляем MVDream — многовидовую диффузионную модель, способную генерировать геометрически согласованные изображения с нескольких ракурсов на основе текстового запроса. Используя предобученные на крупномасштабных веб-данных модели диффузии изображений и многовидовой набор данных, созданный из 3D-ассетов, наша модель достигает как обобщаемости 2D-диффузии, так и согласованности 3D-данных. Такая модель может применяться в качестве многовидового априори для генерации 3D-объектов с помощью метода Score Distillation Sampling, значительно повышая стабильность существующих методов 2D-лифтинга за счет решения проблемы 3D-согласованности. Кроме того, мы показываем, что многовидовую диффузионную модель можно дообучать в условиях ограниченного количества данных для персонализированной 3D-генерации, например, в приложении DreamBooth3D, где согласованность сохраняется после изучения идентичности объекта.

Возникновение сегментации с минималистичными прозрачными трансформерами
Emergence of Segmentation with Minimalistic White-Box Transformers

Aug 30, 2023

Yaodong Yu, Tianzhe Chu, Shengbang Tong, Ziyang Wu, Druv Pai, Sam Buchanan, Yi Ma

150

Трансформероподобные модели для задач компьютерного зрения недавно доказали свою эффективность в широком спектре приложений, таких как сегментация и детектирование. Предыдущие работы показали, что свойства сегментации проявляются в визуальных трансформерах (ViT), обученных с использованием методов самообучения, таких как DINO, но не в моделях, обученных на задачах классификации с учителем. В данном исследовании мы исследуем, возникает ли сегментация в трансформерных моделях исключительно как результат сложных механизмов самообучения, или же такое поведение может быть достигнуто в более широких условиях за счет правильного проектирования архитектуры модели. На основе обширных экспериментальных результатов мы демонстрируем, что при использовании архитектуры, подобной трансформеру, известной как CRATE, которая явно моделирует и стремится к низкоразмерным структурам в распределении данных, свойства сегментации, как на уровне целого, так и на уровне частей, возникают уже при минималистичном обучении с учителем. Более детальный анализ на уровне слоев показывает, что возникающие свойства сильно подтверждают заложенные математические функции архитектуры с прозрачной структурой. Наши результаты указывают путь к проектированию базовых моделей с прозрачной структурой, которые одновременно обладают высокой производительностью и полной математической интерпретируемостью. Код доступен по адресу https://github.com/Ma-Lab-Berkeley/CRATE.

Any-Size-Diffusion: К эффективному текстовому синтезу изображений высокого разрешения любого размера
Any-Size-Diffusion: Toward Efficient Text-Driven Synthesis for Any-Size HD Images

Aug 31, 2023

Qingping Zheng, Yuanfan Guo, Jiankang Deng, Jianhua Han, Ying Li, Songcen Xu, Hang Xu

120

Stable Diffusion, генеративная модель, используемая в синтезе изображений по текстовым описаниям, часто сталкивается с проблемами композиции, вызванными изменением разрешения при генерации изображений различных размеров. Эта проблема в основном связана с тем, что модель обучалась на парах изображений одного масштаба и соответствующих текстовых описаний. Более того, прямое обучение на изображениях неограниченных размеров невозможно, так как это потребовало бы огромного количества пар текст-изображение и повлекло бы значительные вычислительные затраты. Для преодоления этих трудностей мы предлагаем двухэтапный подход под названием Any-Size-Diffusion (ASD), предназначенный для эффективной генерации хорошо скомпонованных изображений любого размера при минимальной потребности в ресурсах GPU с высокой памятью. В частности, на начальном этапе, названном Any Ratio Adaptability Diffusion (ARAD), используется выбранный набор изображений с ограниченным диапазоном соотношений сторон для оптимизации тексто-условной диффузионной модели, тем самым улучшая её способность адаптировать композицию под различные размеры изображений. Для поддержки создания изображений любого желаемого размера на следующем этапе мы вводим метод под названием Fast Seamless Tiled Diffusion (FSTD). Этот метод позволяет быстро увеличивать выходные данные ASD до любого высокого разрешения, избегая артефактов на стыках или перегрузки памяти. Экспериментальные результаты на бенчмарках LAION-COCO и MM-CelebA-HQ демонстрируют, что ASD может создавать хорошо структурированные изображения произвольных размеров, сокращая время вывода в 2 раза по сравнению с традиционным алгоритмом мозаичного увеличения.

BioCoder: Бенчмарк для генерации биоинформатического кода с учетом контекстуальных прагматических знаний
BioCoder: A Benchmark for Bioinformatics Code Generation with Contextual Pragmatic Knowledge

Aug 31, 2023

Xiangru Tang, Bill Qian, Rick Gao, Jiakang Chen, Xinyun Chen, Mark Gerstein

120

Предварительно обученные языковые модели, такие как ChatGPT, значительно улучшили генерацию кода. По мере увеличения масштаба этих моделей возникает растущая потребность в том, чтобы их выходные данные могли справляться с более сложными задачами. Кроме того, в биоинформатике генерация функциональных программ представляет дополнительные существенные трудности из-за объема предметных знаний, необходимости сложных операций с данными и запутанных функциональных зависимостей между операциями. В данной работе мы представляем BioCoder — эталонный набор, разработанный для оценки существующих предварительно обученных моделей в генерации биоинформатического кода. В контексте генерации кода функций BioCoder охватывает потенциальные зависимости пакетов, объявления классов и глобальные переменные. Он включает 1026 функций и 1243 метода на Python и Java, взятых из GitHub, а также 253 примера из проекта Rosalind. BioCoder включает фреймворк для фаззинг-тестирования, и мы применили его для оценки множества моделей, включая InCoder, CodeGen, CodeGen2, SantaCoder, StarCoder, StarCoder+, InstructCodeT5+ и ChatGPT. Наш детальный анализ этих моделей подчеркивает важность предметных знаний, прагматичной генерации кода и контекстуального понимания. Наш набор данных, эталонный набор, Docker-образы и скрипты, необходимые для тестирования, доступны по адресу https://github.com/gersteinlab/biocoder.

Могут ли языки программирования усиливать друг друга с помощью настройки на инструкциях?
Can Programming Languages Boost Each Other via Instruction Tuning?

Aug 31, 2023

Daoguang Zan, Ailun Yu, Bo Shen, Jiaxin Zhang, Taihong Chen, Bing Geng, Bei Chen, Jichuan Ji, Yafen Yao, Yongji Wang, Qianxiang Wang

110

Когда программисты осваивают один язык программирования, им становится проще изучать новый. В данном отчете мы сосредоточились на исследовании того, могут ли языки программирования взаимно усиливать друг друга в процессе тонкой настройки инструкций для крупных языковых моделей, специализирующихся на коде. Мы провели обширные эксперименты с 8 популярными языками программирования (Python, JavaScript, TypeScript, C, C++, Java, Go, HTML) на модели StarCoder. Результаты показывают, что языки программирования действительно могут значительно улучшать друг друга. Например, модель CodeM-Python 15B, обученная на Python, способна повысить показатель pass@1 для Java на абсолютные 17,95% на тесте HumanEval-X. Еще более удивительно, что модель CodeM-HTML 7B, обученная на корпусе HTML, может улучшить Java на абсолютные 15,24% pass@1. Наши данные для обучения опубликованы по адресу https://github.com/NL2Code/CodeM.

Активное нейронное картографирование
Active Neural Mapping

Aug 30, 2023

Zike Yan, Haoxiang Yang, Hongbin Zha

110

Мы рассматриваем задачу активного картографирования с использованием непрерывно обучаемого нейронного представления сцены, а именно Active Neural Mapping. Ключевая идея заключается в активном поиске целевого пространства для исследования с эффективным перемещением агента, что позволяет минимизировать неопределенность карты в реальном времени в ранее неизученной среде. В данной работе мы исследуем пространство весов непрерывно обучаемого нейронного поля и эмпирически показываем, что нейронная изменчивость, то есть устойчивость предсказаний к случайным возмущениям весов, может быть напрямую использована для измерения мгновенной неопределенности нейронной карты. В сочетании с непрерывной геометрической информацией, унаследованной в нейронной карте, агент может быть направлен на поиск проходимого пути для постепенного изучения окружающей среды. Впервые мы представляем систему активного картографирования с координатно-ориентированным неявным нейронным представлением для онлайн-реконструкции сцены. Эксперименты в визуально реалистичных средах Gibson и Matterport3D демонстрируют эффективность предложенного метода.

GNFactor: Многозадачное обучение реальных роботов с использованием обобщаемых нейронных полей признаков
GNFactor: Multi-Task Real Robot Learning with Generalizable Neural Feature Fields

Aug 31, 2023

Yanjie Ze, Ge Yan, Yueh-Hua Wu, Annabella Macaluso, Yuying Ge, Jianglong Ye, Nicklas Hansen, Li Erran Li, Xiaolong Wang

100

Разработка агентов, способных выполнять разнообразные манипуляционные задачи на основе визуальных наблюдений в неструктурированных реальных условиях, является давней проблемой в робототехнике. Для достижения этой цели робот должен обладать всесторонним пониманием трехмерной структуры и семантики сцены. В данной работе мы представляем GNFactor — агента для визуального клонирования поведения, предназначенного для многозадачной роботизированной манипуляции с использованием Обобщаемых Нейронных Полевых Признаков. GNFactor совместно оптимизирует обобщаемое нейронное поле (GNF) в качестве модуля реконструкции и Perceiver Transformer в качестве модуля принятия решений, используя общее глубокое трехмерное воксельное представление. Для включения семантики в 3D модуль реконструкции использует базовую модель компьютерного зрения и языка (например, Stable Diffusion) для извлечения богатой семантической информации в глубокое трехмерное воксельное пространство. Мы оцениваем GNFactor на трех задачах с реальным роботом и проводим детальные исследования на 10 задачах RLBench с ограниченным количеством демонстраций. Мы наблюдаем значительное улучшение GNFactor по сравнению с современными методами как в известных, так и в новых задачах, что демонстрирует сильную способность к обобщению. Наш проект доступен по адресу: https://yanjieze.com/GNFactor/.

Бенчмарк Belebele: параллельный набор данных для оценки понимания прочитанного на 122 языковых вариантах
The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants

Aug 31, 2023

Lucas Bandarkar, Davis Liang, Benjamin Muller, Mikel Artetxe, Satya Narayan Shukla, Donald Husa, Naman Goyal, Abhinandan Krishnan, Luke Zettlemoyer, Madian Khabsa

100

Мы представляем Belebele — набор данных для машинного чтения с пониманием (MRC) с множественным выбором, охватывающий 122 языковых варианта. Значительно расширяя языковое покрытие бенчмарков для понимания естественного языка (NLU), этот набор данных позволяет оценивать текстовые модели на языках с высоким, средним и низким уровнем ресурсов. Каждый вопрос основан на коротком отрывке из набора данных Flores-200 и имеет четыре варианта ответа. Вопросы были тщательно отобраны для различения моделей с разным уровнем общего языкового понимания. Даже англоязычная версия набора данных сама по себе оказывается достаточно сложной, чтобы бросить вызов современным языковым моделям. Будучи полностью параллельным, этот набор данных позволяет напрямую сравнивать производительность моделей на всех языках. Мы используем этот набор данных для оценки возможностей многоязычных масочных языковых моделей (MLM) и крупных языковых моделей (LLM). Мы представляем обширные результаты и обнаруживаем, что, несмотря на значительный кросс-лингвистический перенос в англоцентричных LLM, гораздо меньшие MLM, предобученные на сбалансированных многоязычных данных, всё же понимают значительно больше языков. Мы также наблюдаем, что больший размер словаря и осознанное построение словаря коррелируют с лучшей производительностью на языках с низким уровнем ресурсов. В целом, Belebele открывает новые возможности для оценки и анализа многоязычных возможностей систем обработки естественного языка (NLP).

SportsSloMo: Новый эталон и базовые методы интерполяции кадров в видео с фокусом на человеке
SportsSloMo: A New Benchmark and Baselines for Human-centric Video Frame Interpolation

Aug 31, 2023

Jiaben Chen, Huaizu Jiang

Человеко-ориентированная интерполяция видеокадров обладает большим потенциалом для улучшения развлекательного опыта людей и находит коммерческое применение в индустрии спортивного анализа, например, при создании замедленных видео. Хотя в сообществе доступны несколько эталонных наборов данных, ни один из них не предназначен специально для человеко-ориентированных сценариев. Чтобы устранить этот пробел, мы представляем SportsSloMo — эталонный набор данных, состоящий из более чем 130 тысяч видеоклипов и 1 миллиона видеокадров высокого разрешения (≥720p) замедленных спортивных видео, собранных с YouTube. Мы повторно обучаем несколько современных методов на нашем наборе данных, и результаты показывают снижение их точности по сравнению с другими наборами данных. Это подчеркивает сложность нашего набора данных и указывает на то, что он представляет значительные вызовы даже для лучших методов, поскольку человеческое тело обладает высокой деформируемостью, а окклюзии часто встречаются в спортивных видео. Для повышения точности мы вводим два дополнительных слагаемых функции потерь, учитывающих априорные знания о человеке, где мы добавляем вспомогательное обучение для панорамной сегментации и обнаружения ключевых точек человека соответственно. Эти слагаемые являются модельно-независимыми и могут быть легко интегрированы в любые подходы к интерполяции видеокадров. Экспериментальные результаты подтверждают эффективность предложенных слагаемых, приводя к последовательному улучшению производительности в 5 существующих моделях, которые устанавливают сильные базовые модели на нашем наборе данных. Набор данных и код доступны по адресу: https://neu-vi.github.io/SportsSlomo/.

SportsSloMo: Новый эталон и базовые методы интерполяции кадров в видео с фокусом на человеке
SportsSloMo: A New Benchmark and Baselines for Human-centric Video Frame Interpolation

Aug 31, 2023

Jiaben Chen, Huaizu Jiang

Ежедневные статьи

MVDream: Многовидовое диффузионное моделирование для генерации 3D-объектов
MVDream: Multi-view Diffusion for 3D Generation

Возникновение сегментации с минималистичными прозрачными трансформерами
Emergence of Segmentation with Minimalistic White-Box Transformers

Any-Size-Diffusion: К эффективному текстовому синтезу изображений высокого разрешения любого размера
Any-Size-Diffusion: Toward Efficient Text-Driven Synthesis for Any-Size HD Images

BioCoder: Бенчмарк для генерации биоинформатического кода с учетом контекстуальных прагматических знаний
BioCoder: A Benchmark for Bioinformatics Code Generation with Contextual Pragmatic Knowledge

Могут ли языки программирования усиливать друг друга с помощью настройки на инструкциях?
Can Programming Languages Boost Each Other via Instruction Tuning?

Активное нейронное картографирование
Active Neural Mapping

GNFactor: Многозадачное обучение реальных роботов с использованием обобщаемых нейронных полей признаков
GNFactor: Multi-Task Real Robot Learning with Generalizable Neural Feature Fields

Бенчмарк Belebele: параллельный набор данных для оценки понимания прочитанного на 122 языковых вариантах
The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants

SportsSloMo: Новый эталон и базовые методы интерполяции кадров в видео с фокусом на человеке
SportsSloMo: A New Benchmark and Baselines for Human-centric Video Frame Interpolation

Support

Support

Ежедневные статьи

MVDream: Многовидовое диффузионное моделирование для генерации 3D-объектов
MVDream: Multi-view Diffusion for 3D Generation

Возникновение сегментации с минималистичными прозрачными трансформерами
Emergence of Segmentation with Minimalistic White-Box Transformers

Any-Size-Diffusion: К эффективному текстовому синтезу изображений высокого разрешения любого размера
Any-Size-Diffusion: Toward Efficient Text-Driven Synthesis for Any-Size HD Images

BioCoder: Бенчмарк для генерации биоинформатического кода с учетом контекстуальных прагматических знаний
BioCoder: A Benchmark for Bioinformatics Code Generation with Contextual Pragmatic Knowledge

Могут ли языки программирования усиливать друг друга с помощью настройки на инструкциях?
Can Programming Languages Boost Each Other via Instruction Tuning?

Активное нейронное картографирование
Active Neural Mapping

GNFactor: Многозадачное обучение реальных роботов с использованием обобщаемых нейронных полей признаков
GNFactor: Multi-Task Real Robot Learning with Generalizable Neural Feature Fields

Бенчмарк Belebele: параллельный набор данных для оценки понимания прочитанного на 122 языковых вариантах
The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants

SportsSloMo: Новый эталон и базовые методы интерполяции кадров в видео с фокусом на человеке
SportsSloMo: A New Benchmark and Baselines for Human-centric Video Frame Interpolation