Ежедневно отобранные исследовательские статьи по ИИ с переводами
Крупные языковые модели (LLM) демонстрируют высокие результаты в различных задачах, но они зависят от тщательно разработанных промптов, создание которых часто требует значительных человеческих усилий. Чтобы автоматизировать этот процесс, в данной статье мы предлагаем новый фреймворк для оптимизации дискретных промптов под названием EvoPrompt, который заимствует идеи эволюционных алгоритмов (EA), известных своей высокой производительностью и быстрой сходимостью. Для того чтобы EA могли работать с дискретными промптами, которые представляют собой естественно-языковые выражения, требующие связности и читаемости, мы объединяем LLM с EA. Этот подход позволяет одновременно использовать мощные языковые возможности LLM и эффективную оптимизационную производительность EA. В частности, избегая использования градиентов или параметров, EvoPrompt начинает с популяции промптов и итеративно генерирует новые промпты с помощью LLM на основе эволюционных операторов, улучшая популяцию на основе тестового набора данных. Мы оптимизируем промпты как для закрытых, так и для открытых LLM, включая GPT-3.5 и Alpaca, на 9 наборах данных, охватывающих задачи понимания и генерации текста. EvoPrompt значительно превосходит промпты, созданные вручную, и существующие методы автоматической генерации промптов, улучшая результаты до 25% и 14% соответственно. Более того, EvoPrompt демонстрирует, что объединение LLM с EA создает синергетический эффект, что может вдохновить дальнейшие исследования на стыке LLM и традиционных алгоритмов.
Предыдущие исследования отмечали снижение точности при замене функции активации softmax в механизме внимания на поэлементную активацию, такую как ReLU. В контексте визуальных трансформеров мы обнаружили, что это ухудшение смягчается при делении на длину последовательности. Наши эксперименты по обучению визуальных трансформеров от малого до крупного масштаба на наборе данных ImageNet-21k показывают, что ReLU-внимание может приблизиться или соответствовать производительности softmax-внимания с точки зрения масштабируемости в зависимости от вычислительных ресурсов.
Одним из препятствий для более глубокого понимания внутренней работы нейронных сетей является полисемантичность, при которой нейроны активируются в различных, семантически различающихся контекстах. Полисемантичность мешает нам находить краткие, понятные человеку объяснения того, что нейронные сети делают внутри. Одной из предполагаемых причин полисемантичности является суперпозиция, при которой нейронные сети представляют больше признаков, чем у них есть нейронов, путем назначения признаков избыточному набору направлений в пространстве активаций, а не отдельным нейронам. В данной работе мы пытаемся идентифицировать эти направления, используя разреженные автокодировщики для реконструкции внутренних активаций языковой модели. Эти автокодировщики обучаются наборам разреженно активирующихся признаков, которые более интерпретируемы и моносемантичны, чем направления, идентифицированные альтернативными подходами, где интерпретируемость измеряется автоматизированными методами. Удаление этих признаков позволяет точно редактировать модель, например, устраняя такие возможности, как предсказание местоимений, при этом меньше нарушая поведение модели по сравнению с предыдущими методами. Эта работа показывает, что разрешение суперпозиции в языковых моделях возможно с использованием масштабируемого, неконтролируемого метода. Наш метод может послужить основой для будущих исследований механистической интерпретируемости, что, как мы надеемся, позволит достичь большей прозрачности и управляемости моделей.
Мы исследуем влияние разреженности параметров на масштабируемость трансформеров, обученных на огромных наборах данных (т.н. "фундаментальных моделях"), в областях как компьютерного зрения, так и обработки естественного языка. В этом контексте мы выявляем первый закон масштабирования, описывающий взаимосвязь между разреженностью весов, количеством ненулевых параметров и объемом обучающих данных, который мы эмпирически подтверждаем на различных масштабах моделей и данных, включая ViT/JFT-4B и T5/C4. Эти результаты позволяют нам охарактеризовать "оптимальную разреженность" — уровень разреженности, обеспечивающий наилучшую производительность при заданном эффективном размере модели и бюджете обучения. Для фиксированного количества ненулевых параметров мы обнаруживаем, что оптимальная разреженность увеличивается с объемом данных, используемых для обучения. Мы также расширяем наше исследование на различные структуры разреженности (например, аппаратно-оптимизированный шаблон n:m) и стратегии (например, начальное обучение с плотной предобученной модели). Наши результаты проливают свет на возможности и ограничения разреженности весов в различных параметрических и вычислительных условиях, предлагая как теоретическое понимание, так и практические рекомендации для повышения вычислительной эффективности за счет использования разреженности.
Для принятия эффективных решений в новых средах с долгосрочными целями крайне важно использовать иерархическое рассуждение на пространственных и временных масштабах. Это включает планирование абстрактных последовательностей подцелей, визуальное рассуждение о лежащих в основе планах и выполнение действий в соответствии с разработанным планом через визуально-моторный контроль. Мы предлагаем Композиционные базовые модели для иерархического планирования (HiP) — базовую модель, которая объединяет несколько экспертных базовых моделей, обученных на данных языка, зрения и действий, для решения долгосрочных задач. Мы используем крупную языковую модель для построения символических планов, которые привязаны к среде через модель диффузии видео. Сгенерированные видео-планы затем связываются с визуально-моторным контролем через модель обратной динамики, которая выводит действия из созданных видео. Для обеспечения эффективного рассуждения в рамках этой иерархии мы поддерживаем согласованность между моделями через итеративное уточнение. Мы демонстрируем эффективность и адаптивность нашего подхода на трех различных долгосрочных задачах манипуляции на столе.
Несмотря на недавние успехи в генерации текста в аудио (TTA), мы показываем, что современные модели, такие как AudioLDM, обученные на наборах данных с несбалансированным распределением классов, например AudioCaps, демонстрируют предвзятость в своей генерации. В частности, они преуспевают в создании распространенных аудиоклассов, но хуже справляются с редкими, что снижает общее качество генерации. Мы называем эту проблему генерацией текста в аудио с длинным хвостом. Для решения этой проблемы мы предлагаем простой подход с использованием извлечения данных для моделей TTA. А именно, для заданного текстового запроса мы сначала используем модель Contrastive Language Audio Pretraining (CLAP) для извлечения релевантных пар текст-аудио. Затем характеристики извлеченных аудио-текстовых данных используются в качестве дополнительных условий для обучения моделей TTA. Мы улучшаем AudioLDM с помощью нашего подхода и обозначаем получившуюся расширенную систему как Re-AudioLDM. На наборе данных AudioCaps Re-AudioLDM достигает современного значения Frechet Audio Distance (FAD) в 1.37, значительно превосходя существующие подходы. Более того, мы показываем, что Re-AudioLDM способна генерировать реалистичное аудио для сложных сцен, редких аудиоклассов и даже неизвестных типов аудио, что указывает на её потенциал в задачах TTA.
Модели диффузии текста в изображения понимают пространственные отношения между объектами, но действительно ли они представляют истинную 3D-структуру мира, обучаясь только на 2D-данных? Мы демонстрируем, что да, 3D-знания закодированы в 2D-моделях диффузии изображений, таких как Stable Diffusion, и показываем, что эту структуру можно использовать для задач 3D-видения. Наш метод, Viewpoint Neural Textual Inversion (ViewNeTI), управляет 3D-ракурсом объектов в изображениях, генерируемых замороженными моделями диффузии. Мы обучаем небольшой нейронный маппер, который принимает параметры ракурса камеры и предсказывает латентные векторы текстового кодировщика; эти векторы затем управляют процессом генерации диффузии для создания изображений с желаемым ракурсом камеры. ViewNeTI естественным образом решает задачу синтеза новых ракурсов (Novel View Synthesis, NVS). Используя замороженную модель диффузии как априорное знание, мы можем решать задачу NVS с очень малым количеством входных видов; мы даже можем выполнять синтез новых ракурсов на основе одного изображения. Наши предсказания для NVS с одним входным изображением обладают хорошими семантическими деталями и фотореалистичностью по сравнению с предыдущими методами. Наш подход хорошо подходит для моделирования неопределённости, присущей задачам 3D-видения с малым количеством данных, так как он может эффективно генерировать разнообразные примеры. Наш механизм управления ракурсом универсален и может изменять вид камеры даже в изображениях, сгенерированных по пользовательским запросам.