Ежедневно отобранные исследовательские статьи по ИИ с переводами
Модели, подобные ChatGPT, произвели революцию в различных приложениях искусственного интеллекта, от суммаризации и программирования до перевода, достигая или даже превосходя человеческие показатели. Однако в текущей ситуации отсутствует доступный, эффективный и экономически выгодный сквозной конвейер обучения с использованием RLHF (обучение с подкреплением на основе человеческой обратной связи) для таких мощных моделей, особенно при обучении на масштабах в миллиарды параметров. В данной статье представлена система DeepSpeed-Chat, которая демократизирует обучение RLHF, делая его доступным для сообщества ИИ. DeepSpeed-Chat предлагает три ключевые возможности: простой в использовании процесс обучения и вывода для моделей, подобных ChatGPT, конвейер DeepSpeed-RLHF, который воспроизводит процесс обучения из InstructGPT, а также надежную систему DeepSpeed-RLHF, объединяющую различные оптимизации для обучения и вывода в единый подход. Система обеспечивает непревзойденную эффективность и масштабируемость, позволяя обучать модели с сотнями миллиардов параметров в рекордно короткие сроки и при значительно меньших затратах. Благодаря этому развитию, DeepSpeed-Chat открывает путь к более широкому доступу к продвинутому обучению RLHF, даже для специалистов по данным с ограниченными ресурсами, тем самым способствуя инновациям и дальнейшему развитию в области ИИ.
Разреженные архитектуры смеси экспертов (MoE) позволяют масштабировать емкость модели без значительного увеличения затрат на обучение или вывод. Несмотря на их успех, MoE сталкиваются с рядом проблем: нестабильность обучения, потеря токенов, невозможность масштабирования числа экспертов или неэффективная тонкая настройка. В данной работе мы предлагаем Soft MoE — полностью дифференцируемую разреженную архитектуру Transformer, которая решает эти проблемы, сохраняя при этом преимущества MoE. Soft MoE выполняет неявное мягкое назначение, передавая каждому эксперту различные взвешенные комбинации всех входных токенов. Как и в других работах по MoE, эксперты в Soft MoE обрабатывают только подмножество (комбинированных) токенов, что позволяет увеличить емкость модели при меньших затратах на вывод. В контексте задач визуального распознавания Soft MoE значительно превосходит стандартные Transformer (ViT) и популярные варианты MoE (Tokens Choice и Experts Choice). Например, Soft MoE-Base/16 требует в 10,5 раз меньше затрат на вывод (в 5,7 раз меньше времени выполнения) по сравнению с ViT-Huge/14, при этом демонстрируя сопоставимую производительность после аналогичного обучения. Soft MoE также хорошо масштабируется: Soft MoE Huge/14 с 128 экспертами в 16 слоях MoE имеет более чем в 40 раз больше параметров, чем ViT Huge/14, при этом время вывода увеличивается всего на 2%, а производительность значительно улучшается.
Несмотря на значительный прогресс в области манипуляции изображениями на основе языковых инструкций, проблема того, как точно отразить человеческие намерения в процессе манипуляции, остается актуальной. Точное и всестороннее описание задачи манипуляции с использованием естественного языка является трудоемким, а иногда даже невозможным, главным образом из-за присущей неопределенности и неоднозначности языковых выражений. Возможно ли выполнить манипуляцию изображениями без привлечения внешней кросс-модальной языковой информации? Если такая возможность существует, то присущий модальный разрыв будет устранен без усилий. В данной статье мы предлагаем новую методологию манипуляции, названную ImageBrush, которая обучается визуальным инструкциям для более точного редактирования изображений. Наша ключевая идея заключается в использовании пары трансформационных изображений в качестве визуальных инструкций, которые не только точно отражают человеческие намерения, но и облегчают доступность в реальных сценариях. Захват визуальных инструкций представляет особую сложность, поскольку он предполагает извлечение скрытых намерений исключительно из визуальных демонстраций и последующее применение этой операции к новому изображению. Для решения этой задачи мы формулируем обучение визуальным инструкциям как проблему диффузионного восстановления изображений, где контекстная информация полностью используется в итеративном процессе генерации. Тщательно разработанный визуальный кодировщик подсказок усиливает способность модели раскрывать человеческие намерения, стоящие за визуальными инструкциями. Многочисленные эксперименты показывают, что наш метод генерирует убедительные результаты манипуляции, соответствующие трансформациям, заложенным в демонстрациях. Более того, наша модель демонстрирует устойчивые обобщающие способности в различных последующих задачах, таких как перенос позы, трансляция изображений и восстановление видео.
Наш подход, который мы называем Embeddings for Language/Image-aligned X-Rays (ELIXR), использует языково-ориентированный кодировщик изображений, интегрированный или привитый к фиксированной языковой модели PaLM 2, для выполнения широкого спектра задач. Мы обучаем эту легковесную архитектуру адаптера на изображениях, сопоставленных с соответствующими свободнотекстовыми радиологическими отчетами из набора данных MIMIC-CXR. ELIXR достиг наилучших результатов в задачах классификации рентгенограмм грудной клетки (CXR) без предварительного обучения (средний AUC 0.850 для 13 патологий), классификации CXR с эффективным использованием данных (средние AUC 0.893 и 0.898 для пяти патологий — ателектаз, кардиомегалия, консолидация, плевральный выпот и отек легких — при использовании 1% (~2200 изображений) и 10% (~22000 изображений) обучающих данных) и семантического поиска (NDCG 0.76 для 19 запросов, включая идеальное извлечение для 12 из них). По сравнению с существующими методами эффективного использования данных, включая обучение с контролируемым контрастированием (SupCon), ELIXR потребовал на два порядка меньше данных для достижения аналогичной производительности. ELIXR также показал перспективность в задачах, связанных с обработкой изображений и текста для CXR, продемонстрировав общую точность 58,7% и 62,5% в задачах визуального ответа на вопросы и контроля качества отчетов соответственно. Эти результаты свидетельствуют о том, что ELIXR является надежным и универсальным подходом к искусственному интеллекту для анализа рентгенограмм грудной клетки.
Вдохновленные тем, что подходы на основе DETR установили новые рекорды на бенчмарках COCO для задач обнаружения и сегментации, многие недавние исследования проявляют растущий интерес к тому, как можно дополнительно улучшить подходы на основе DETR, предварительно обучая Transformer в самообучаемом режиме, сохраняя при этом замороженную основу (backbone). Некоторые исследования уже заявили о значительном улучшении точности. В данной работе мы более внимательно изучим их экспериментальную методологию и проверим, остаются ли их подходы эффективными на фоне самых современных методов, таких как H-Deformable-DETR. Мы проводим тщательные эксперименты на задачах обнаружения объектов COCO, чтобы изучить влияние выбора наборов данных для предварительного обучения, а также схем генерации целей локализации и классификации. К сожалению, мы обнаруживаем, что предыдущие представительные самообучаемые подходы, такие как DETReg, не способны повысить производительность сильных подходов на основе DETR в условиях полного объема данных. Мы дополнительно анализируем причины и обнаруживаем, что простое сочетание более точного предсказателя bounding box и бенчмарка Objects365 может значительно улучшить результаты в последующих экспериментах. Мы демонстрируем эффективность нашего подхода, достигая высоких результатов обнаружения объектов с AP=59,3% на наборе COCO val, что превосходит H-Deformable-DETR + Swin-L на +1,4%. Наконец, мы создаем серию синтетических наборов данных для предварительного обучения, комбинируя современные модели генерации текстовых описаний изображений (LLaVA) и модели генерации изображений из текста (SDXL). Примечательно, что предварительное обучение на этих синтетических наборах данных приводит к заметному улучшению производительности в задачах обнаружения объектов. В перспективе мы ожидаем существенных преимуществ благодаря будущему расширению синтетических наборов данных для предварительного обучения.
CLIP, как фундаментальная модель для обработки визуальной и языковой информации, широко используется в задачах классификации изображений в условиях отсутствия обучающих данных (zero-shot) благодаря своей способности понимать различные визуальные концепции и естественно-языковые описания. Однако вопрос о том, как полностью раскрыть беспрецедентные, человеко-подобные способности CLIP для достижения лучших результатов в zero-shot классификации, остается открытым. В данной работе мы черпаем вдохновение из процесса визуального восприятия человека: современные исследования в нейронауках предполагают, что при классификации объекта человек сначала выводит его атрибуты, не зависящие от класса (например, фон и ориентация), что помогает отделить объект переднего плана от фона, а затем принимает решение на основе этой информации. Вдохновленные этим, мы обнаруживаем, что предоставление CLIP контекстных атрибутов улучшает zero-shot классификацию и снижает зависимость от ложных признаков. Мы также отмечаем, что CLIP способен самостоятельно разумно выводить атрибуты из изображения. На основе этих наблюдений мы предлагаем метод zero-shot классификации без обучения, состоящий из двух этапов, под названием PerceptionCLIP. Для заданного изображения он сначала выводит контекстные атрибуты (например, фон), а затем выполняет классификацию объекта с учетом этих атрибутов. Наши эксперименты показывают, что PerceptionCLIP демонстрирует лучшую обобщаемость, устойчивость к группам и интерпретируемость. Например, PerceptionCLIP с архитектурой ViT-L/14 улучшает точность на худшей группе на 16,5% для набора данных Waterbirds и на 3,5% для набора данных CelebA.