Ежедневно отобранные исследовательские статьи по ИИ с переводами
С ростом популярности онлайн-покупок способность покупателей виртуально визуализировать продукты в своих условиях — явление, которое мы определяем как "Виртуальная примерка всего" — становится крайне важной. Современные диффузионные модели по своей природе содержат модель мира, что делает их подходящими для этой задачи в контексте инпейнтинга. Однако традиционные диффузионные модели, основанные на изображениях, часто не способны уловить мелкие детали продуктов. В то же время персонализированные модели, такие как DreamPaint, хорошо сохраняют детали предметов, но они не оптимизированы для работы в реальном времени. Мы представляем "Diffuse to Choose" — новую диффузионную модель инпейнтинга, основанную на изображениях, которая эффективно сочетает быстрый вывод с сохранением высококачественных деталей в заданном эталонном предмете, обеспечивая при этом точные семантические манипуляции в содержимом сцены. Наш подход основан на включении мелкозернистых признаков из эталонного изображения непосредственно в латентные карты признаков основной диффузионной модели, а также на использовании перцептуальной потери для дальнейшего сохранения деталей эталонного предмета. Мы проводим обширное тестирование как на внутренних, так и на общедоступных наборах данных и показываем, что "Diffuse to Choose" превосходит существующие методы диффузионного инпейнтинга с нулевым обучением, а также алгоритмы персонализации диффузии с малым количеством примеров, такие как DreamPaint.
Быстрое развитие крупных языковых моделей произвело революцию в области анализа кода в разработке программного обеспечения. Однако доминирование моделей с закрытым исходным кодом ограничило масштабные исследования и разработки. Чтобы решить эту проблему, мы представляем серию DeepSeek-Coder — набор моделей для работы с кодом с открытым исходным кодом, размер которых варьируется от 1,3 млрд до 33 млрд параметров, обученных с нуля на 2 триллионах токенов. Эти модели предварительно обучаются на высококачественном корпусе кода на уровне проектов и используют задачу заполнения пропусков с окном в 16 тыс. токенов для улучшения генерации и дополнения кода. Наши обширные оценки показывают, что DeepSeek-Coder не только достигает наилучших результатов среди моделей с открытым исходным кодом на множестве тестов, но и превосходит существующие модели с закрытым исходным кодом, такие как Codex и GPT-3.5. Кроме того, модели DeepSeek-Coder распространяются под разрешительной лицензией, которая позволяет использовать их как для исследований, так и для коммерческого применения без ограничений.
В данной работе мы пересматриваем межфрагментные зависимости в механизме декодирования маскированных автоэнкодеров (MAE). Мы разлагаем этот механизм декодирования для восстановления маскированных фрагментов в MAE на самовнимание и перекрестное внимание. Наши исследования показывают, что самовнимание между маскированными фрагментами не является необходимым для обучения качественных представлений. В связи с этим мы предлагаем новую структуру предварительного обучения: Маскированные Автоэнкодеры с Перекрестным Вниманием (CrossMAE). Декодер CrossMAE использует только перекрестное внимание между маскированными и видимыми токенами, без ухудшения производительности на последующих задачах. Этот дизайн также позволяет декодировать только небольшое подмножество маскированных токенов, повышая эффективность. Кроме того, каждый блок декодера теперь может использовать различные признаки энкодера, что приводит к улучшению обучения представлений. CrossMAE демонстрирует сопоставимую с MAE производительность при 2,5–3,7-кратном сокращении вычислительных затрат на декодирование. Он также превосходит MAE в классификации на ImageNet и сегментации экземпляров на COCO при одинаковых вычислительных ресурсах. Код и модели: https://crossmae.github.io.
В динамичной сфере генеративного NLP традиционные конвейеры обработки текста ограничивают гибкость исследований и воспроизводимость, поскольку они адаптированы под конкретные комбинации наборов данных, задач и моделей. Растущая сложность, включающая системные подсказки, специфичные для моделей форматы, инструкции и многое другое, требует перехода к структурированному, модульному и настраиваемому решению. В ответ на эту потребность мы представляем Unitxt — инновационную библиотеку для настраиваемой подготовки и оценки текстовых данных, ориентированную на генеративные языковые модели. Unitxt изначально интегрируется с популярными библиотеками, такими как HuggingFace и LM-eval-harness, и разбивает процессы обработки на модульные компоненты, что позволяет легко настраивать и делиться ими между специалистами. Эти компоненты охватывают специфичные для моделей форматы, подсказки для задач и множество других определений обработки наборов данных. Unitxt-Catalog централизует эти компоненты, способствуя сотрудничеству и исследованию в современных рабочих процессах обработки текста. Unitxt — это не просто инструмент, а платформа, управляемая сообществом, которая позволяет пользователям совместно создавать, делиться и развивать свои конвейеры. Присоединяйтесь к сообществу Unitxt на https://github.com/IBM/unitxt!
Шестибитная квантизация (FP6) позволяет эффективно уменьшить размер больших языковых моделей (LLM) и сохранить качество модели в различных приложениях. Однако существующие системы не поддерживают Tensor Core для квантизации FP6 и сталкиваются с трудностями в достижении практического улучшения производительности при выводе LLM. Поддержка квантизации FP6 на GPU является сложной задачей из-за (1) недружелюбного доступа к памяти для весов модели с нерегулярной битовой шириной и (2) высоких накладных расходов на де-квантизацию весов во время выполнения. Для решения этих проблем мы предлагаем TC-FPx — первую полностековую схему проектирования GPU-ядер с унифицированной поддержкой Tensor Core для весов с плавающей точкой при различных битовых ширинах квантизации. Мы интегрируем ядро TC-FPx в существующую систему вывода, предоставляя новую сквозную поддержку (называемую FP6-LLM) для вывода квантизированных LLM, где достигается лучший баланс между стоимостью вывода и качеством модели. Эксперименты показывают, что FP6-LLM позволяет выполнять вывод модели LLaMA-70b с использованием всего одного GPU, достигая увеличения нормализованной пропускной способности вывода в 1,69–2,65 раза по сравнению с базовым уровнем FP16. Исходный код будет вскоре опубликован.
В данном исследовании мы изучаем способности моделей деноизинговой диффузии (Denoising Diffusion Models, DDM), изначально разработанных для генерации изображений, к обучению представлений. Наш подход заключается в деконструкции DDM с постепенным преобразованием её в классический деноизинговый автокодировщик (Denoising Autoencoder, DAE). Эта процедура деконструкции позволяет нам исследовать, как различные компоненты современных DDM влияют на обучение представлений в рамках самообучения. Мы наблюдаем, что лишь очень немногие современные компоненты критически важны для обучения качественных представлений, в то время как многие другие оказываются несущественными. В результате наше исследование приводит к подходу, который значительно упрощён и во многом напоминает классический DAE. Мы надеемся, что наша работа возродит интерес к семейству классических методов в контексте современных подходов к самообучению.
Мы предлагаем улучшать трансформеры для конкретной модальности с использованием нерелевантных данных из других модальностей, например, улучшать модель для ImageNet с помощью аудио или наборов данных с точечными облаками. Важно подчеркнуть, что образцы данных целевой модальности не связаны с другими модальностями, что отличает наш метод от других подходов, использующих парные (например, CLIP) или чередующиеся данные различных модальностей. Мы предлагаем методологию под названием Multimodal Pathway — для заданной целевой модальности и трансформера, разработанного для неё, мы используем вспомогательный трансформер, обученный на данных другой модальности, и создаем пути для соединения компонентов двух моделей, чтобы данные целевой модальности могли обрабатываться обеими моделями. Таким образом, мы используем универсальные способности трансформеров к моделированию последовательностей, полученные из двух модальностей. В качестве конкретной реализации мы используем модальность-специфичный токенизатор и задаче-специфичную голову, как обычно, но задействуем блоки трансформера вспомогательной модели с помощью предложенного метода Cross-Modal Re-parameterization, который использует веса вспомогательной модели без дополнительных затрат на вывод. На задачах распознавания изображений, точечных облаков, видео и аудио мы наблюдаем значительные и устойчивые улучшения производительности с использованием нерелевантных данных из других модальностей. Код и модели доступны по адресу https://github.com/AILab-CVC/M2PT.
Развертывание роботов в открытых неструктурированных средах, таких как дома, является давней исследовательской проблемой. Однако роботы часто изучаются только в закрытых лабораторных условиях, а предыдущие работы по мобильной манипуляции ограничиваются задачами "взять-переместить-положить", что, по сути, является лишь верхушкой айсберга в этой области. В данной статье мы представляем систему Open-World Mobile Manipulation System — комплексный подход для решения задач управления реалистичными шарнирными объектами, такими как двери, шкафы, ящики и холодильники, в открытых неструктурированных средах. Робот использует адаптивную обучающую структуру, которая сначала обучается на небольшом наборе данных с помощью клонирования поведения, а затем продолжает обучение в процессе онлайн-практики на новых объектах, выходящих за пределы обучающего распределения. Мы также разработали недорогую аппаратную платформу для мобильной манипуляции, способную безопасно и автономно адаптироваться в неструктурированных средах, стоимость которой составляет около 20 000 долларов США. В наших экспериментах мы используем 20 шарнирных объектов в 4 зданиях кампуса CMU. Менее чем за час онлайн-обучения для каждого объекта система способна повысить процент успешного выполнения задач с 50% после предварительного обучения методом клонирования поведения до 95% с использованием онлайн-адаптации. Видео с результатами доступно по ссылке: https://open-world-mobilemanip.github.io/.
Мы представляем pix2gestalt — фреймворк для амодальной сегментации в условиях zero-shot, который обучается оценивать форму и внешний вид целых объектов, частично скрытых за окклюзиями. Используя крупномасштабные диффузионные модели и перенося их представления на эту задачу, мы обучаем условную диффузионную модель для восстановления целых объектов в сложных zero-shot сценариях, включая примеры, нарушающие естественные и физические предпосылки, такие как произведения искусства. В качестве обучающих данных используется синтетически созданный набор данных, содержащий частично скрытые объекты в паре с их целыми аналогами. Эксперименты показывают, что наш подход превосходит контролируемые базовые методы на общепринятых бенчмарках. Кроме того, наша модель может быть использована для значительного улучшения производительности существующих методов распознавания объектов и 3D-реконструкции в условиях окклюзий.
Отсутствие высококачественных данных для задач генерации, основанной на контенте, было определено как основное препятствие для прогресса в этих задачах. Чтобы устранить этот пробел, мы предлагаем Genie — новый метод автоматической генерации высококачественных данных, основанных на контенте. Он состоит из трех этапов: (a) Подготовка контента, (b) Генерация: создание примеров, специфичных для задачи, на основе контента (например, пар вопрос-ответ или резюме). (c) Механизм фильтрации, направленный на обеспечение качества и достоверности сгенерированных данных. Мы демонстрируем эту методологию, генерируя три крупномасштабных синтетических набора данных для задач длинного ответа на вопросы (LFQA), суммаризации и извлечения информации. В ходе человеческой оценки наши сгенерированные данные были признаны естественными и высококачественными. Кроме того, мы сравниваем модели, обученные на наших данных, с моделями, обученными на данных, написанных людьми — ELI5 и ASQA для LFQA и CNN-DailyMail для суммаризации. Мы показываем, что наши модели либо соответствуют, либо превосходят модели, обученные на данных, созданных людьми, и стабильно превосходят их по достоверности. Наконец, мы применили наш метод для создания данных LFQA в медицинской области и сравнили модель, обученную на них, с моделями, обученными в других областях.