Ежедневно отобранные исследовательские статьи по ИИ с переводами
Недавние прорывные успехи в машинном обучении в основном связаны с масштабом: а именно, с крупномасштабными архитектурами на основе механизма внимания и наборами данных беспрецедентного размера. В данной статье исследуется влияние обучения в масштабе на игру в шахматы. В отличие от традиционных шахматных движков, которые полагаются на сложные эвристики, явный поиск или их комбинацию, мы обучаем трансформерную модель с 270 миллионами параметров с использованием обучения с учителем на наборе данных из 10 миллионов шахматных партий. Мы аннотируем каждую позицию в наборе данных значениями действий, предоставленными мощным движком Stockfish 16, что приводит к примерно 15 миллиардам точек данных. Наша крупнейшая модель достигает рейтинга Elo 2895 в блице на платформе Lichess против людей и успешно решает серию сложных шахматных задач без каких-либо специфических для домена настроек или явных алгоритмов поиска. Мы также показываем, что наша модель превосходит политические и оценочные сети AlphaZero (без использования MCTS) и GPT-3.5-turbo-instruct. Систематическое исследование размера модели и набора данных показывает, что сильная шахматная производительность достигается только при достаточном масштабе. Для проверки наших результатов мы проводим обширную серию экспериментов с исключением различных вариантов дизайна и гиперпараметров.
Экранные пользовательские интерфейсы (UI) и инфографика, обладая схожим визуальным языком и принципами дизайна, играют важную роль в человеческом общении и взаимодействии человека с машиной. Мы представляем ScreenAI — модель обработки изображений и текста, специализирующуюся на понимании UI и инфографики. Наша модель улучшает архитектуру PaLI за счёт гибкой стратегии разбиения на фрагменты, используемой в pix2struct, и обучается на уникальной смеси наборов данных. Основой этой смеси является новая задача аннотирования экранов, в которой модель должна определить тип и расположение элементов UI. Мы используем эти текстовые аннотации для описания экранов большим языковым моделям (LLM) и автоматически генерируем масштабные наборы данных для обучения, включая вопросы и ответы (QA), навигацию по UI и задачи суммирования. Мы проводим исследования с исключением компонентов, чтобы продемонстрировать влияние этих решений. При объёме всего в 5 миллиардов параметров ScreenAI достигает новых наилучших результатов на задачах, связанных с UI и инфографикой (Multi-page DocVQA, WebSRC, MoTIF и Widget Captioning), а также демонстрирует лучшие в своём классе показатели на других задачах (Chart QA, DocVQA и InfographicVQA) по сравнению с моделями аналогичного размера. В заключение мы публикуем три новых набора данных: один сосредоточен на задаче аннотирования экранов, а два других — на вопросах и ответах.
Методы прямого согласования на основе предпочтений (DAP), такие как DPO, недавно появились как эффективные альтернативы обучению с подкреплением на основе обратной связи от человека (RLHF), которые не требуют отдельной модели вознаграждения. Однако наборы данных с предпочтениями, используемые в методах DAP, обычно собираются заранее и никогда не обновляются, что делает обратную связь исключительно оффлайн. Более того, ответы в этих наборах данных часто выбираются из языковой модели, отличной от той, которая согласуется, и поскольку модель развивается в процессе обучения, фаза согласования неизбежно становится офф-политичной. В данном исследовании мы предполагаем, что онлайн-обратная связь является ключевой и улучшает методы DAP. Наш метод, онлайн-обратная связь от ИИ (OAIF), использует языковую модель в качестве аннотатора: на каждой итерации обучения мы выбираем два ответа из текущей модели и предлагаем языковой модели-аннотатору выбрать предпочтительный, тем самым предоставляя онлайн-обратную связь. Несмотря на свою простоту, мы демонстрируем с помощью оценки человеком в нескольких задачах, что OAIF превосходит как оффлайн-методы DAP, так и RLHF. Мы также показываем, что обратная связь, используемая в OAIF, легко управляема с помощью инструкций, задаваемых языковой модели-аннотатору.
Создание 3D-контента достигло значительного прогресса как в плане качества, так и скорости. Хотя современные модели с прямой передачей данных могут генерировать 3D-объекты за считанные секунды, их разрешение ограничено интенсивными вычислениями, необходимыми в процессе обучения. В данной статье мы представляем Large Multi-View Gaussian Model (LGM) — новый фреймворк, предназначенный для генерации высококачественных 3D-моделей на основе текстовых запросов или однокадровых изображений. Наши ключевые идеи заключаются в следующем: 1) 3D-представление: мы предлагаем использовать многокадровые гауссовы признаки как эффективное и мощное представление, которое затем может быть объединено для дифференцируемого рендеринга. 2) 3D-архитектура: мы представляем асимметричную U-Net в качестве высокопроизводительной основы, работающей с многокадровыми изображениями, которые могут быть получены из текстового или однокадрового изображения с использованием многокадровых диффузионных моделей. Многочисленные эксперименты демонстрируют высокую точность и эффективность нашего подхода. Важно отметить, что мы сохраняем высокую скорость генерации 3D-объектов в пределах 5 секунд, одновременно повышая разрешение обучения до 512, что позволяет достичь генерации высококачественного 3D-контента.
Мы представляем EfficientViT-SAM — новое семейство ускоренных моделей для сегментации произвольных объектов. Мы сохраняем легковесный кодировщик подсказок и декодер масок из SAM, заменяя при этом тяжелый кодировщик изображений на EfficientViT. Для обучения мы начинаем с дистилляции знаний из кодировщика изображений SAM-ViT-H в EfficientViT. Затем проводим сквозное обучение на наборе данных SA-1B. Благодаря эффективности и емкости EfficientViT, модель EfficientViT-SAM демонстрирует ускорение в 48.9 раз при измерении на TensorRT на GPU A100 по сравнению с SAM-ViT-H, не жертвуя при этом производительностью. Наш код и предобученные модели доступны по адресу https://github.com/mit-han-lab/efficientvit.
Трансформерные большие языковые модели (LLM) теперь используются сотнями миллионов пользователей. Вывод LLM обычно выполняется на пакетах последовательностей, имеющих общий префикс, таких как примеры few-shot или системный промпт чат-бота. Декодирование в таких условиях с большими пакетами может быть ограничено операцией внимания, которая считывает большие кэши ключей и значений (KV) из памяти и вычисляет неэффективные матрично-векторные произведения для каждой последовательности в пакете. В данной работе мы представляем Hydragen, аппаратно-ориентированную точную реализацию внимания с общими префиксами. Hydragen вычисляет внимание для общего префикса и уникальных суффиксов отдельно. Такая декомпозиция позволяет эффективно вычислять внимание для префикса, объединяя запросы из разных последовательностей в пакеты, что уменьшает избыточные чтения из памяти и позволяет использовать аппаратно-оптимизированные матричные умножения. Наш метод может увеличить общую пропускную способность LLM до 32 раз по сравнению с конкурирующими базовыми методами, причем ускорение растет с увеличением размера пакета и длины общего префикса. Hydragen также позволяет использовать очень длинные общие контексты: при большом размере пакета увеличение длины префикса с 1K до 16K токенов снижает пропускную способность Hydragen менее чем на 15%, в то время как пропускная способность базовых методов падает более чем на 90%. Hydragen обобщается за пределы простой декомпозиции на префикс и суффикс и может применяться к древовидным схемам разделения промптов, что позволяет дополнительно сократить время вывода на задачах конкурсного программирования на 55%.
Крупные языковые модели всё чаще справляются с задачами, которые традиционно считались требующими человеческого уровня способности к рассуждению. Однако эти модели по-прежнему демонстрируют крайне низкие результаты на тестах общего интеллекта, таких как Корпус абстракции и рассуждений (ARC). В данной работе мы рассматриваем ARC как задачу программирования по примерам и представляем новый масштабируемый метод самообучения языковых моделей под названием Code Iteration (CodeIt). Наш метод чередует два этапа: 1) выборку программ и ретроспективное перемаркирование и 2) обучение на основе приоритизированного воспроизведения опыта. Перемаркируя цель эпизода (т.е. ожидаемый выход программы при заданном входе) на фактический выход, сгенерированный выбранной программой, наш метод эффективно справляется с крайней разреженностью вознаграждений в синтезе программ. Применяя CodeIt к набору данных ARC, мы показываем, что приоритизированное ретроспективное воспроизведение в сочетании с предварительным обучением и аугментацией данных приводит к успешной межзадачной генерализации. CodeIt является первым нейро-символическим подходом, который масштабируется на весь оценочный набор данных ARC. Наш метод решает 15% задач из оценочного набора ARC, достигая наилучших на сегодняшний день результатов и превосходя существующие нейронные и символические базовые подходы.
Линейные механизмы внимания продемонстрировали потенциал для повышения эффективности Transformer, снижая квадратичную сложность внимания до линейной относительно длины последовательности. Это открывает захватывающие перспективы для (1) обучения линейных Transformer с нуля, (2) "тонкой настройки-конвертации" специализированных Transformer в линейные версии, восстанавливающие производительность на задачах, и (3) "предварительной конвертации" Transformer, таких как крупные языковые модели, в линейные версии, которые можно дообучать на целевых задачах. Однако линейные механизмы внимания часто уступают стандартному softmax-вниманию по качеству. Чтобы сократить этот разрыв, мы обнаружили, что предыдущие линейные механизмы внимания не обладают ключевыми свойствами softmax-внимания, связанными с высокой производительностью: низкоэнтропийными (или "остроконечными") весами и монотонностью скалярного произведения. Мы также наблюдаем удивительно простые карты признаков, которые сохраняют эти свойства и соответствуют производительности softmax, но неэффективны для вычисления в линейном внимании. Таким образом, мы предлагаем Hedgehog, обучаемый линейный механизм внимания, который сохраняет остроконечные и монотонные свойства softmax-внимания, сохраняя при этом линейную сложность. Hedgehog использует простые обучаемые MLP для создания весов внимания, имитирующих softmax-внимание. Эксперименты показывают, что Hedgehog восстанавливает более 99% качества стандартного Transformer в настройках обучения с нуля и тонкой настройки-конвертации, превосходя предыдущие линейные механизмы внимания на до 6 пунктов perplexity на WikiText-103 с каузальными GPT и до 8.7 пунктов GLUE на дообученных двунаправленных BERT. Hedgehog также позволяет выполнять предварительную конвертацию. Конвертация предварительно обученной GPT-2 в линейную версию внимания достигает современного уровня 16.7 perplexity на WikiText-103 для 125M субквадратичных декодерных моделей. Наконец, мы превращаем предварительно обученную Llama-2 7B в жизнеспособную линейную версию внимания Llama. С использованием низкоранговой адаптации Hedgehog-Llama2 7B достигает 28.1 дополнительных пунктов ROUGE-1 по сравнению с базовой моделью стандартного внимания, тогда как предыдущие линейные механизмы внимания приводят к снижению на 16.5 пунктов.
Генерация длинных стереоаудиофайлов с частотой дискретизации 44,1 кГц на основе текстовых запросов может быть вычислительно затратной. Кроме того, большинство предыдущих работ не учитывают, что музыка и звуковые эффекты естественным образом варьируются по продолжительности. Наше исследование сосредоточено на эффективной генерации длинных стереомузыкальных композиций и звуков переменной длины с частотой 44,1 кГц с использованием текстовых запросов и генеративной модели. Stable Audio основан на латентной диффузии, где латентное пространство определяется полностью сверточным вариационным автокодировщиком. Модель учитывает текстовые запросы, а также временные эмбеддинги, что позволяет точно контролировать как содержание, так и длину генерируемой музыки и звуков. Stable Audio способен создавать стереосигналы длительностью до 95 секунд с частотой 44,1 кГц всего за 8 секунд на графическом процессоре A100. Несмотря на вычислительную эффективность и быстрый вывод, модель демонстрирует одни из лучших результатов в двух публичных бенчмарках для задач преобразования текста в музыку и аудио и, в отличие от современных моделей, способна генерировать музыку с четкой структурой и стереозвуком.
В данной статье мы представляем новый метод, который снижает задержку вывода модели при распределенном развертывании крупных языковых моделей (LLM). Наш вклад заключается в оптимизированной схеме развертывания вывода, которая устраняет текущие ограничения современных квантующих ядер при использовании в сочетании с тензорным параллелизмом (TP). Наш метод сохраняет локальность данных в шаблонах доступа к памяти GPU и использует априорные знания о TP для сокращения глобальной коммуникации. Мы демонстрируем ускорение до 1,81 раза по сравнению с существующими методами для модели Llama-70B и до 1,78 раза для задачи MLP-слоя модели Granite-20B от IBM WatsonX на системах NVIDIA DGX с GPU A100 и H100 для различных настроек TP.
Структурированная разреженность N:M привлекает значительный интерес благодаря относительно небольшой накладной нагрузке и повышению эффективности. Кроме того, эта форма разреженности обладает существенным потенциалом для сокращения объема используемой памяти благодаря своей умеренной накладной нагрузке на представление. Были предприняты попытки разработать методики обучения для структурированной разреженности N:M, которые в основном сосредоточены на областях с низкой разреженностью (около 50%). Тем не менее, производительность моделей, обученных с использованием этих подходов, имеет тенденцию к снижению при работе с областями высокой разреженности (>80%). В данной работе мы исследуем эффективность существующих методик обучения с разреженностью в областях высокой разреженности и утверждаем, что эти методы не способны поддерживать качество модели на уровне, сопоставимом с областями низкой разреженности. Мы демонстрируем, что значительным фактором, способствующим этому различию, является наличие повышенного уровня индуцированного шума в величинах градиентов. Для смягчения этого нежелательного эффекта мы применяем механизмы затухания, чтобы постепенно ограничивать поток градиентов к обрезанным элементам. Наш подход улучшает качество модели до 2% и 5% в моделях для обработки изображений и текста в режиме высокой разреженности соответственно. Мы также оцениваем компромисс между точностью модели и вычислительными затратами на обучение в терминах FLOPs. При одинаковых вычислительных затратах на обучение наш метод демонстрирует лучшую производительность по сравнению с традиционными методиками обучения с разреженностью, показывая улучшение точности до 2%. Исходный код доступен по адресу https://github.com/abhibambhaniya/progressive_gradient_flow_nm_sparsity.