Ежедневно отобранные исследовательские статьи по ИИ с переводами
С увеличением размеров предварительно обученных моделей распознавания речи, использование этих крупных моделей в условиях низкой задержки или ограниченных ресурсов становится сложной задачей. В данной работе мы используем псевдоразметку для создания крупномасштабного открытого набора данных, который применяем для дистилляции модели Whisper в более компактный вариант, называемый Distil-Whisper. Используя простую эвристику на основе частоты ошибок по словам (WER), мы отбираем только наиболее качественные псевдоразметки для обучения. Дистиллированная модель работает в 5,8 раз быстрее и имеет на 51% меньше параметров, при этом демонстрируя отклонение в WER не более 1% на тестовых данных вне распределения в условиях zero-shot переноса. Distil-Whisper сохраняет устойчивость модели Whisper к сложным акустическим условиям, одновременно снижая склонность к ошибкам галлюцинаций на длинных аудиозаписях. Distil-Whisper разработан для совместного использования с Whisper в рамках спекулятивного декодирования, что обеспечивает ускорение в 2 раза при математической гарантии идентичности выходных данных с оригинальной моделью. Для содействия дальнейшим исследованиям в этой области мы делаем наш обучающий код, код для вывода и модели общедоступными.
LLaVA-Interactive — это исследовательский прототип для многомодального взаимодействия человека и ИИ. Система способна вести многошаговые диалоги с пользователями, принимая многомодальные входные данные и генерируя многомодальные ответы. Важно отметить, что LLaVA-Interactive выходит за рамки языковых запросов, позволяя использовать визуальные подсказки для согласования намерений человека в процессе взаимодействия. Разработка LLaVA-Interactive является крайне экономически эффективной, поскольку система объединяет три многомодальных навыка предварительно обученных моделей ИИ без необходимости дополнительного обучения: визуальный чат LLaVA, сегментацию изображений от SEEM, а также генерацию и редактирование изображений от GLIGEN. Представлен разнообразный набор сценариев применения, демонстрирующих потенциал LLaVA-Interactive и вдохновляющих на дальнейшие исследования в области многомодальных интерактивных систем.
Мы демонстрируем, как условная генерация с использованием диффузионных моделей может быть применена для решения различных практических задач в производстве музыкальных композиций в формате стереоаудио с частотой дискретизации 44,1 кГц с использованием управления на этапе сэмплирования. Рассматриваемые сценарии включают продолжение, восстановление и регенерацию музыкального аудио, создание плавных переходов между двумя различными музыкальными треками, а также перенос желаемых стилистических характеристик на существующие аудиоклипы. Мы достигаем этого, применяя управление на этапе сэмплирования в рамках простой структуры, которая поддерживает как потери реконструкции, так и классификации, или любую их комбинацию. Такой подход гарантирует, что сгенерированное аудио может соответствовать окружающему контексту или соответствовать распределению классов или латентному представлению, заданному относительно любого подходящего предварительно обученного классификатора или модели встраивания.
Мы демонстрируем текст как мощный кросс-модальный интерфейс. Вместо использования глубоких эмбеддингов для связи изображений и языка в качестве представления интерфейса, наш подход представляет изображение в виде текста, что позволяет нам использовать интерпретируемость и гибкость, присущие естественному языку. Мы применяем автоэнкодер, который использует предобученную диффузионную модель для преобразования текста в изображение в качестве декодера. Энкодер обучается преобразовывать входное изображение в текст, который затем подается в фиксированный диффузионный декодер для восстановления исходного изображения — процесс, который мы называем Де-Диффузией. Эксперименты подтверждают как точность, так и полноту текстового представления изображений с помощью Де-Диффузии, что позволяет легко использовать его в готовых инструментах для преобразования текста в изображение и в больших языковых моделях (LLM) для решения разнообразных мультимодальных задач. Например, одна модель Де-Диффузии может обобщать и предоставлять переносимые промпты для различных инструментов преобразования текста в изображение, а также устанавливает новый эталон в открытых задачах на стыке зрения и языка, просто используя несколько примеров для подсказки большим языковым моделям.
Недавний всплеск интереса к генеративному искусственному интеллекту вызвал беспрецедентное внимание во всем мире, сопровождаясь как восторгом, так и опасениями по поводу потенциально сверхчеловеческих уровней искусственного интеллекта: модели теперь способны за считанные секунды создавать результаты, которые бросают вызов или превосходят возможности даже экспертов-людей. В то же время модели продолжают допускать базовые ошибки в понимании, которые не ожидались бы даже у неспециалистов. Это создает кажущийся парадокс: как согласовать кажущиеся сверхчеловеческими способности с устойчивостью ошибок, которые редко допускают люди? В данной работе мы предполагаем, что это противоречие отражает расхождение в конфигурации интеллекта современных генеративных моделей по сравнению с человеческим интеллектом. В частности, мы выдвигаем и проверяем гипотезу "Парадокса генеративного ИИ": генеративные модели, обученные напрямую воспроизводить экспертные результаты, приобретают генеративные способности, которые не зависят — и поэтому могут превосходить — их способность понимать те же типы результатов. Это контрастирует с людьми, для которых базовое понимание почти всегда предшествует способности создавать экспертные результаты. Мы проверяем эту гипотезу с помощью контролируемых экспериментов, анализируя генерацию и понимание в генеративных моделях, охватывая как языковые, так и визуальные модальности. Наши результаты показывают, что хотя модели могут превосходить людей в генерации, они consistently уступают человеческим способностям в измерениях понимания, а также демонстрируют более слабую корреляцию между производительностью генерации и понимания и большую уязвимость к враждебным входам. Наши выводы поддерживают гипотезу о том, что генеративная способность моделей может не зависеть от способности к пониманию, и призывают к осторожности в интерпретации искусственного интеллекта по аналогии с человеческим интеллектом.
Пиксельные языковые модели обрабатывают текст, представленный в виде изображений, что позволяет им работать с любыми системами письма, делая их перспективным подходом для моделирования языка с открытым словарём. Однако современные методы используют текстовые рендереры, которые создают большое количество почти эквивалентных входных патчей, что может оказаться неоптимальным для последующих задач из-за избыточности во входных представлениях. В данной статье мы исследуем четыре подхода к рендерингу текста в модели PIXEL (Rust et al., 2023) и обнаруживаем, что простой рендеринг биграмм символов улучшает производительность на задачах уровня предложений, не ухудшая результаты на задачах уровня токенов или многоязычных задачах. Эта новая стратегия рендеринга также позволяет обучить более компактную модель всего с 22 миллионами параметров, которая работает наравне с исходной моделью с 86 миллионами параметров. Наши анализы показывают, что рендеринг биграмм символов приводит к более качественной модели, но с анизотропным пространством встраивания патчей, обусловленным смещением частоты патчей, что подчеркивает связь между языковыми моделями, основанными на патчах изображений и токенизации.
Крупные языковые модели продемонстрировали высокую эффективность в генерации кода, соответствующего требованиям человека. Однако требования, выраженные на естественном языке, могут быть расплывчатыми, неполными и неоднозначными, что приводит к тому, что крупные языковые модели неправильно понимают запросы и допускают ошибки. Более того, пользователю сложно уточнить свои требования. Чтобы помочь пользователям уточнить их запросы и повысить качество генерации кода крупными языковыми моделями, мы предлагаем ChatCoder: метод уточнения требований через диалог с крупными языковыми моделями. Мы разработали схему общения, в которой языковые модели направляют пользователей, помогая им формулировать требования более точно, однозначно и полно. Эксперименты показывают, что ChatCoder значительно улучшает производительность существующих крупных языковых моделей. Кроме того, ChatCoder превосходит методы, основанные на уточнении, и языковые модели, доработанные с использованием человеческих ответов.
Крупные языковые модели (LLM) продемонстрировали впечатляющие результаты в решении различных задач. При обучении таких моделей наблюдается растущая тенденция к обработке большего количества токенов на более крупных масштабах обучения, но с относительно меньшими размерами моделей. Оптимизатор Zero Redundancy Optimizer (ZeRO), хотя и эффективен в традиционных средах обучения, сталкивается с проблемами масштабирования в условиях этой новой парадигмы. В связи с этим мы предлагаем новый фреймворк для обучения LLM под названием AMSP, который осуществляет детальное разделение состояний модели, включая параметры (P), градиенты (G) и состояния оптимизатора (OS). В частности, AMSP (1) создает единое пространство разделения, позволяющее независимо выбирать стратегии разделения для P, G и OS; (2) включает масштабно-ориентированный разделитель для автономного поиска оптимальных стратегий разделения; (3) разрабатывает специализированный оптимизатор коммуникаций для эффективного управления расхождениями в размещении данных, возникающими из-за различных стратегий разделения. Наши оценки показывают, что AMSP достигает до 90,3% эффективности масштабирования на 1024 GPU.
Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), обучаются на огромных объемах данных, собранных людьми, что имитирует наше понимание мира. Однако, как известно из феномена зрительных иллюзий, человеческое восприятие реальности не всегда соответствует физическому миру. Это поднимает важный вопрос: испытывают ли VLMs аналогичные иллюзии, как и люди, или же они точно учатся представлять реальность? Чтобы исследовать этот вопрос, мы создали набор данных, содержащий пять типов зрительных иллюзий, и разработали четыре задачи для изучения зрительных иллюзий в современных VLMs. Наши результаты показали, что, хотя общее соответствие низкое, более крупные модели ближе к человеческому восприятию и более подвержены зрительным иллюзиям. Наш набор данных и первоначальные выводы способствуют лучшему пониманию зрительных иллюзий у людей и машин и служат основой для будущих вычислительных моделей, которые смогут лучше согласовывать восприятие и коммуникацию людей и машин в общем визуальном мире. Код и данные доступны по адресу https://github.com/vl-illusion/dataset.