Ежедневно отобранные исследовательские статьи по ИИ с переводами
Крупные мультимодальные модели, обученные на естественных документах, где изображения и текст чередуются, превосходят модели, обученные на парах изображение-текст, на различных мультимодальных тестах. Однако наборы данных, используемые для обучения этих моделей, не были опубликованы, а процесс их сбора не был полностью описан. Мы представляем набор данных OBELICS — открытый, веб-масштабный фильтрованный набор данных чередующихся документов с изображениями и текстом, включающий 141 миллион веб-страниц, извлечённых из Common Crawl, 353 миллиона связанных изображений и 115 миллиардов текстовых токенов. Мы описываем процесс создания набора данных, представляем подробные правила фильтрации и проводим анализ его содержания. Чтобы продемонстрировать жизнеспособность OBELICS, мы обучаем модели для обработки изображений и текста с 9 и 80 миллиардами параметров, названные IDEFICS, и достигаем конкурентоспособных результатов на различных мультимодальных тестах. Мы публикуем наш набор данных, модели и код.
Реконструкция 3D-модели по одному изображению является важной, но сложной задачей, требующей глубоких знаний о нашем естественном мире. Многие существующие методы решают эту проблему путем оптимизации нейронного поля излучения под руководством 2D-диффузионных моделей, однако они страдают от длительного времени оптимизации, несоответствия 3D-результатов и плохой геометрии. В данной работе мы предлагаем новый метод, который принимает на вход одно изображение любого объекта и генерирует полную 360-градусную текстурированную 3D-сетку за один прямой проход. Получив одно изображение, мы сначала используем 2D-диффузионную модель с условием на вид, Zero123, для генерации многовидовых изображений для входного вида, а затем стремимся поднять их в 3D-пространство. Поскольку традиционные методы реконструкции сталкиваются с проблемами несоответствия многовидовых предсказаний, мы строим наш модуль 3D-реконструкции на основе обобщаемого метода нейронной реконструкции поверхности, основанного на SDF, и предлагаем несколько ключевых стратегий обучения, чтобы обеспечить реконструкцию 360-градусных сеток. Без затратных оптимизаций наш метод реконструирует 3D-формы за значительно меньшее время, чем существующие методы. Более того, наш метод обеспечивает лучшую геометрию, генерирует более согласованные 3D-результаты и точнее соответствует входному изображению. Мы оцениваем наш подход как на синтетических данных, так и на реальных изображениях и демонстрируем его превосходство как по качеству сетки, так и по времени выполнения. Кроме того, наш подход может легко поддерживать задачу текстового описания в 3D, интегрируясь с готовыми текстово-изобразительными диффузионными моделями.
В данной статье представлен DreamDiffusion — новый метод генерации высококачественных изображений непосредственно из сигналов электроэнцефалограммы (ЭЭГ) мозга, без необходимости перевода мыслей в текст. DreamDiffusion использует предобученные модели для преобразования текста в изображения и применяет временное маскированное моделирование сигналов для предварительного обучения кодировщика ЭЭГ, что позволяет получать эффективные и устойчивые представления ЭЭГ. Кроме того, метод дополнительно задействует кодировщик изображений CLIP для обеспечения дополнительного контроля, что способствует лучшему согласованию встраиваний ЭЭГ, текста и изображений при ограниченном количестве пар ЭЭГ-изображение. В целом, предложенный метод преодолевает трудности, связанные с использованием сигналов ЭЭГ для генерации изображений, такие как шум, ограниченная информация и индивидуальные различия, и демонстрирует впечатляющие результаты. Количественные и качественные результаты подтверждают эффективность предложенного метода как значительного шага на пути к портативной и недорогой технологии «мысли-в-изображение», с потенциальными приложениями в нейронауках и компьютерном зрении.
Модели диффузии для генерации изображений из текста привлекают значительный интерес благодаря их широкой применимости в различных областях. Однако сохраняются сложности в создании управляемых моделей для персонализированной генерации объектов. В данной работе мы сначала выявляем проблемы запутанности в существующих персонализированных генеративных моделях, а затем предлагаем простую и эффективную стратегию обучения с использованием аугментации данных, которая направляет модель диффузии на фокусировку исключительно на идентичности объекта. Путем внедрения слоев адаптера plug-and-play из предварительно обученной управляемой модели диффузии, наша модель приобретает способность контролировать местоположение и размер каждого генерируемого персонализированного объекта. В процессе вывода мы предлагаем технику регионально-направленной выборки для сохранения качества и достоверности генерируемых изображений. Наш метод обеспечивает сопоставимую или превосходящую достоверность для персонализированных объектов, создавая надежную, универсальную и управляемую модель диффузии для генерации изображений из текста, способную создавать реалистичные и персонализированные изображения. Наш подход демонстрирует значительный потенциал для различных приложений, таких как искусство, развлечения и дизайн рекламы.
Мы представляем новый подход "выравнивание перед генерацией" для решения сложной задачи генерации общих 3D-форм на основе 2D-изображений или текстов. Прямое обучение условной генеративной модели от изображений или текстов к 3D-формам склонно к созданию результатов, не согласующихся с условиями, поскольку 3D-формы имеют дополнительное измерение, распределение которого значительно отличается от распределения 2D-изображений и текстов. Чтобы преодолеть разрыв между доменами трех модальностей и облегчить генерацию 3D-форм, обусловленных мультимодальными данными, мы исследуем представление 3D-форм в пространстве, выровненном по форме, изображению и тексту. Наша структура состоит из двух моделей: Вариационного Автокодировщика с Выравниванием Формы, Изображения и Текста (SITA-VAE) и условной Модели Латентной Диффузии Выровненных Форм (ASLDM). Первая модель кодирует 3D-формы в латентное пространство форм, выровненное по изображению и тексту, и восстанавливает детализированные 3D-нейронные поля, соответствующие заданным вложениям форм, с помощью трансформерного декодера. Вторая модель изучает вероятностную функцию отображения из пространства изображений или текстов в латентное пространство форм. Наши обширные эксперименты демонстрируют, что предложенный подход позволяет генерировать более качественные и разнообразные 3D-формы, которые лучше семантически соответствуют визуальным или текстовым условиям, подтверждая эффективность пространства, выровненного по форме, изображению и тексту, для кросс-модальной генерации 3D-форм.
Предварительно обученные большие языковые модели (PLM) лежат в основе большинства новых разработок в области обработки естественного языка. Они сместили фокус области с прикладных конвейеров моделей на единую модель, которая адаптируется к широкому спектру задач. Авторегрессивные PLM, такие как GPT-3 или PaLM, наряду с техниками, такими как обучение с малым количеством примеров (few-shot learning), также изменили выходную модальность на генерацию вместо классификации или регрессии. Несмотря на их повсеместное использование, качество генерации языковых моделей редко оценивается при их представлении. Кроме того, неясно, как существующие задачи генерации — хотя они могут использоваться для сравнения систем на высоком уровне — соотносятся с реальными сценариями использования, для которых люди их применяют. В данной работе мы обсуждаем, как адаптировать существующие прикладные бенчмарки генерации к PLM, и предоставляем углубленное эмпирическое исследование ограничений и возможностей PLM в задачах генерации естественного языка по таким параметрам, как масштаб, архитектура, входной и выходной язык. Наши результаты показывают, что PLM различаются по своей применимости к различным режимам данных и их обобщению на несколько языков, что помогает определить, какие PLM использовать для конкретной настройки задачи генерации. Мы делимся лучшими практиками, которые следует учитывать при тестировании возможностей генерации в процессе разработки новых PLM.
Мы впервые демонстрируем, что нейронные сети, обученные исключительно на синтетических данных, достигают наивысшей точности в задаче оценки 3D позы и формы человеческого тела (HPS) по реальным изображениям. Предыдущие синтетические наборы данных были либо небольшими, либо нереалистичными, либо не учитывали реалистичную одежду. Достижение достаточной реалистичности является нетривиальной задачей, и мы показываем, как это сделать для движущихся тел в полном объеме. В частности, наш набор данных BEDLAM содержит монохромные RGB-видео с эталонными 3D моделями тел в формате SMPL-X. Он включает разнообразие форм тела, движений, оттенков кожи, причесок и одежды. Одежда реалистично симулируется на движущихся телах с использованием коммерческого симулятора физики одежды. Мы визуализируем различное количество людей в реалистичных сценах с изменяющимся освещением и движением камеры. Затем мы обучаем различные регрессоры HPS с использованием BEDLAM и достигаем наивысшей точности на бенчмарках с реальными изображениями, несмотря на обучение на синтетических данных. Мы используем BEDLAM для получения инсайтов о том, какие конструктивные решения модели важны для точности. С качественными синтетическими данными для обучения мы обнаруживаем, что базовый метод, такой как HMR, приближается к точности текущего SOTA метода (CLIFF). BEDLAM полезен для решения различных задач, и все изображения, эталонные модели тел, 3D одежда, вспомогательный код и многое другое доступны для исследовательских целей. Кроме того, мы предоставляем подробную информацию о нашем конвейере генерации синтетических данных, что позволяет другим создавать свои собственные наборы данных. См. страницу проекта: https://bedlam.is.tue.mpg.de/.
Модели динамики, обученные на основе визуальных наблюдений, доказали свою эффективность в различных задачах роботизированного манипулирования. Одним из ключевых вопросов при обучении таких моделей динамики является выбор представления сцены. Предыдущие работы обычно предполагают использование представления с фиксированной размерностью или разрешением, что может быть неэффективным для простых задач и недостаточным для более сложных. В данной работе мы исследуем, как можно обучать динамические и адаптивные представления на разных уровнях абстракции, чтобы достичь оптимального баланса между эффективностью и результативностью. В частности, мы создаем динамические представления среды с переменным разрешением в виде частиц и обучаем унифицированную модель динамики с использованием графовых нейронных сетей (GNN), которая позволяет непрерывно выбирать уровень абстракции. Во время тестирования агент может адаптивно определять оптимальное разрешение на каждом шаге прогнозирующего управления (MPC). Мы оцениваем наш метод на задаче манипулирования кучами объектов, с которой часто сталкиваемся в кулинарии, сельском хозяйстве, производстве и фармацевтике. В ходе всесторонних оценок как в симуляции, так и в реальном мире мы показываем, что наш метод значительно превосходит современные подходы с фиксированным разрешением в задачах сбора, сортировки и перераспределения гранулированных куч объектов, таких как кофейные зерна, миндаль, кукуруза и т.д.
Глубокие нейронные сети (DNN) стали повсеместно применяться в машинном обучении, однако их энергопотребление остается значительной проблемой. Снижение напряжения питания является эффективной стратегией для уменьшения энергопотребления. Однако агрессивное снижение напряжения питания может привести к ухудшению точности из-за случайных битовых ошибок в статической оперативной памяти (SRAM), где хранятся параметры модели. Для решения этой проблемы мы представляем NeuralFuse — новый дополнительный модуль, который решает компромисс между точностью и энергопотреблением в условиях низкого напряжения, обучая преобразования входных данных для создания устойчивых к ошибкам представлений. NeuralFuse защищает точность DNN как в нормальных, так и в условиях низкого напряжения. Более того, NeuralFuse легко реализовать, и его можно применять к DNN с ограниченным доступом, таким как неконфигурируемое оборудование или удаленный доступ к облачным API. Экспериментальные результаты показывают, что при уровне битовых ошибок в 1% NeuralFuse может снизить энергопотребление доступа к памяти SRAM до 24%, одновременно повышая точность до 57%. Насколько нам известно, это первый модельно-агностический подход (т.е. без переобучения модели) для устранения битовых ошибок, вызванных низким напряжением. Исходный код доступен по адресу https://github.com/IBM/NeuralFuse.
Мы представляем ArrayBot — систему распределенного манипулирования, состоящую из массива 16×16 вертикально скользящих столбцов, интегрированных с тактильными сенсорами, которая способна одновременно поддерживать, воспринимать и манипулировать объектами на поверхности стола. Для достижения обобщаемого распределенного манипулирования мы используем алгоритмы обучения с подкреплением (RL) для автоматического поиска стратегий управления. В условиях массовой избыточности действий мы предлагаем преобразовать пространство действий, учитывая локальные пространственные патчи действий и низкочастотные действия в частотной области. С этим преобразованным пространством действий мы обучаем RL-агентов, способных перемещать разнообразные объекты, используя только тактильные наблюдения. Удивительно, но обнаруженная стратегия не только обобщается на неизвестные формы объектов в симуляторе, но и переносится на физического робота без какой-либо рандомизации домена. Используя развернутую стратегию, мы демонстрируем множество задач манипулирования в реальном мире, иллюстрируя огромный потенциал RL на ArrayBot для распределенного манипулирования.
В последние годы языковые модели на основе архитектуры Transformer стали стандартным подходом для задач обработки естественного языка. Однако строгие требования к пропускной способности и задержкам в промышленных приложениях ограничивают их широкое внедрение. Для сокращения этого разрыва используются методы сжатия моделей, такие как структурированное прореживание, чтобы повысить эффективность вывода. Тем не менее, большинство существующих сред выполнения для вывода нейронных сетей не обеспечивают достаточной поддержки структурированной разреженности. В данной статье мы предлагаем эффективный программный стек для вывода разреженных глубоких моделей на основе Transformer, где веса прореживаются с постоянным размером блока. Наш разреженный программный ускоритель использует технологию Intel Deep Learning Boost для максимизации производительности операции умножения разреженной матрицы на плотную матрицу (обычно обозначаемой как SpMM) на процессорах. Наше ядро SpMM превосходит существующие библиотеки для работы с разреженными матрицами (oneMKL, TVM и LIBXSMM) на порядок величины для широкого диапазона форм матриц GEMM при пяти репрезентативных уровнях разреженности (70%, 75%, 80%, 85%, 90%). Более того, наше ядро SpMM демонстрирует ускорение до 5 раз по сравнению с плотным ядром GEMM из библиотеки oneDNN, которая является хорошо оптимизированной плотной библиотекой, широко используемой в промышленности. Мы применяем наш разреженный ускоритель на популярных языковых моделях на основе Transformer, включая Bert-Mini, DistilBERT, Bert-Base и BERT-Large. Наше программное обеспечение для разреженного вывода показывает ускорение до 1,5 раз по сравнению с Deepsparse от Neural Magic при одинаковых конфигурациях на процессорах Xeon в Amazon Web Services в условиях ограничений на задержку, приближенных к производственным. Мы также сравниваем наше решение с двумя решениями для вывода на основе фреймворков, ONNX Runtime и PyTorch, и демонстрируем ускорение до 37 раз по сравнению с ONNX Runtime и до 345 раз по сравнению с PyTorch на процессорах Xeon при ограничениях на задержку. Весь исходный код доступен публично на GitHub: https://github.com/intel/intel-extension-for-transformers.