Ежедневно отобранные исследовательские статьи по ИИ с переводами
В данной работе мы предлагаем Retentive Network (RetNet) в качестве базовой архитектуры для крупных языковых моделей, одновременно достигая параллелизма при обучении, низкозатратного вывода и высокой производительности. Мы теоретически выводим связь между рекуррентностью и механизмом внимания. Затем предлагаем механизм удержания (retention) для моделирования последовательностей, который поддерживает три вычислительные парадигмы: параллельную, рекуррентную и блочно-рекуррентную. В частности, параллельное представление обеспечивает параллелизм при обучении. Рекуррентное представление позволяет реализовать низкозатратный вывод со сложностью O(1), что улучшает пропускную способность декодирования, задержку и использование памяти GPU без ущерба для производительности. Блочно-рекуррентное представление способствует эффективному моделированию длинных последовательностей с линейной сложностью, где каждый блок кодируется параллельно, а блоки суммируются рекуррентно. Результаты экспериментов по языковому моделированию показывают, что RetNet демонстрирует благоприятные результаты масштабирования, параллельное обучение, низкозатратное развертывание и эффективный вывод. Эти интригующие свойства делают RetNet сильным преемником Transformer для крупных языковых моделей. Код будет доступен по адресу https://aka.ms/retnet.
Таблицы широко распространены в реальных базах данных, требуя значительного времени и усилий для анализа и обработки человеком. Достижения в области больших языковых моделей (LLM) сделали возможным взаимодействие с таблицами с использованием естественного языка, приблизив эту возможность к реальности. В данной статье мы представляем TableGPT — унифицированную тонко настроенную структуру, которая позволяет LLM понимать и работать с таблицами с использованием внешних функциональных команд. Она вводит возможность бесшовного взаимодействия с таблицами, обеспечивая широкий спектр функциональных возможностей, таких как ответы на вопросы, манипуляции с данными (например, операции вставки, удаления, запроса и изменения), визуализация данных, генерация аналитических отчетов и автоматизированное прогнозирование. TableGPT стремится предоставить пользователям удобство и доступность, позволяя им легко использовать табличные данные. В основе TableGPT лежит новая концепция глобальных табличных представлений, которая позволяет LLM получить всестороннее понимание всей таблицы, выходящее за рамки метаинформации. Совместное обучение LLM на табличных и текстовых данных позволяет TableGPT достичь глубокого понимания табличных данных и способности выполнять сложные операции с таблицами через цепочку команд. Важно отметить, что TableGPT обладает преимуществом автономной системы, не зависящей от внешних API-интерфейсов. Кроме того, она поддерживает эффективный поток обработки данных, отклонение запросов (в случае необходимости) и частное развертывание, что позволяет быстрее настраивать данные для конкретных доменов и обеспечивает конфиденциальность данных, повышая адаптируемость структуры к конкретным сценариям использования.
Крупные языковые модели (LLM) продемонстрировали выдающиеся способности к взаимодействию с людьми через язык, особенно с использованием данных, ориентированных на выполнение инструкций. Последние достижения в области LLM, такие как MiniGPT-4, LLaVA и X-LLM, расширяют их возможности за счет включения мультимодальных входных данных, включая изображения, видео и речь. Несмотря на их эффективность в генерации точного и детального понимания языка на основе заданного модального сигнала, эти LLM отказываются от способности привязывать конкретные части входных данных, создавая лишь грубую карту соответствий. Однако явное и информативное соответствие между текстом и другими модальностями не только улучшит пользовательский опыт, но и поможет расширить сценарии применения мультимодальных LLM. Поэтому мы предлагаем BuboGPT — мультимодальную LLM с визуальной привязкой, способную выполнять кросс-модальное взаимодействие между зрением, аудио и языком, обеспечивая детальное понимание визуальных объектов и других заданных модальностей. В результате BuboGPT может указывать конкретное местоположение объекта на изображении при генерации ответа или описания для этого объекта. Наш вклад заключается в следующем: 1) Готовый модуль визуальной привязки на основе SAM, который извлекает сущности в предложении и находит соответствующие маски на изображении. 2) Двухэтапная схема обучения и набор инструкций для обеспечения совместного понимания текста, изображений и аудио. Наши эксперименты показывают, что BuboGPT демонстрирует впечатляющие способности к мультимодальному пониманию и визуальной привязке во время взаимодействия с человеком. Модель стабильно хорошо работает при предоставлении произвольных комбинаций модальностей (как согласованных, так и несогласованных). Наш код, модель и набор данных доступны по адресу https://bubo-gpt.github.io.
Крупные языковые модели (LLM) приобретают способность следовать инструкциям благодаря тонкой настройке на инструкции (instruction-finetuning, IFT) с использованием размеченных данных, содержащих инструкции и ответы. Однако широко используемые наборы данных для IFT (например, 52k данных Alpaca) удивительным образом содержат множество низкокачественных примеров с некорректными или нерелевантными ответами, которые вводят в заблуждение и вредят процессу IFT. В данной статье мы предлагаем простую и эффективную стратегию отбора данных, которая автоматически идентифицирует и удаляет низкокачественные данные с использованием мощной LLM (например, ChatGPT). Для этого мы представляем AlpaGasus, модель, которая была тонко настроена на основе всего 9k высококачественных данных, отфильтрованных из 52k данных Alpaca. AlpaGasus значительно превосходит оригинальную Alpaca, что подтверждается оценкой GPT-4 на нескольких тестовых наборах, а её 13B вариант достигает более 90% производительности своей учительской LLM (т.е. Text-Davinci-003) на тестовых задачах. Кроме того, она обеспечивает ускорение обучения в 5,7 раз, сокращая время обучения для 7B варианта с 80 минут (для Alpaca) до 14 минут. Мы применяем IFT на том же количестве эпох, что и для Alpaca (7B), но на меньшем объёме данных, используя 4 GPU NVIDIA A100 (80 ГБ) и следуя оригинальным настройкам и гиперпараметрам Alpaca. В целом, AlpaGasus демонстрирует новый подход к IFT, ориентированный на данные, который может быть широко применён для настройки на инструкции, что приводит к более быстрому обучению и созданию моделей, лучше следующих инструкциям. Наша страница проекта доступна по адресу: https://lichang-chen.github.io/AlpaGasus/.
Хотя многие модели обучения без учителя сосредоточены на одном семействе задач — либо генеративных, либо дискриминативных, — мы исследуем возможность создания унифицированного модели представления: модели, которая использует единый этап предварительного обучения для решения обеих семейств задач одновременно. Мы выделяем диффузионные модели как основной кандидат. Диффузионные модели стали передовым методом для задач генерации изображений, удаления шума, восстановления, повышения разрешения, манипуляции и т.д. Такие модели предполагают обучение U-Net для итеративного предсказания и удаления шума, в результате чего модель может синтезировать изображения высокой точности, разнообразия и новизны. Архитектура U-Net, будучи основанной на свертках, генерирует разнообразный набор представлений признаков в виде промежуточных карт признаков. Мы представляем наши выводы о том, что эти эмбеддинги полезны не только для задачи предсказания шума, так как они содержат дискриминативную информацию и также могут быть использованы для классификации. Мы исследуем оптимальные методы извлечения и использования этих эмбеддингов для задач классификации, демонстрируя перспективные результаты на задаче классификации ImageNet. Мы обнаруживаем, что при тщательном отборе признаков и пулинге диффузионные модели превосходят сопоставимые генеративно-дискриминативные методы, такие как BigBiGAN, в задачах классификации. Мы исследуем диффузионные модели в режиме трансферного обучения, оценивая их производительность на нескольких наборах данных для детальной визуальной классификации. Мы сравниваем эти эмбеддинги с теми, которые генерируются конкурирующими архитектурами и методами предварительного обучения для задач классификации.
Методы прогнозирования движения в видео либо оценивают мгновенное движение всех точек в заданном кадре с использованием оптического потока, либо независимо отслеживают движение отдельных точек на протяжении всего видео. Последнее справедливо даже для мощных методов глубокого обучения, которые могут отслеживать точки через окклюзии. Индивидуальное отслеживание точек игнорирует сильную корреляцию, которая может существовать между точками, например, из-за их принадлежности к одному физическому объекту, что потенциально снижает производительность. В данной статье мы предлагаем CoTracker — архитектуру, которая совместно отслеживает несколько точек на протяжении всего видео. Эта архитектура объединяет несколько идей из литературы по оптическому потоку и отслеживанию в новом, гибком и мощном дизайне. Она основана на трансформерной сети, которая моделирует корреляцию различных точек во времени с помощью специализированных слоев внимания. Трансформер итеративно обновляет оценку нескольких траекторий. Он может применяться в скользящем окне для очень длинных видео, для чего мы разработали развернутый цикл обучения. Он может совместно отслеживать от одной до нескольких точек и поддерживает добавление новых точек для отслеживания в любой момент времени. В результате получается гибкий и мощный алгоритм отслеживания, который превосходит современные методы практически во всех тестах.
Мы представляем SEED — детализированный токенизатор изображений, который наделяет крупные языковые модели (LLM) способностью одновременно ВИДЕТЬ и РИСОВАТЬ. Исследования в области токенизаторов изображений ранее достигли тупика, поскольку подходы, использующие квантованные визуальные токены, потеряли популярность из-за неудовлетворительной производительности и сходимости в задачах мультимодального понимания (в сравнении с BLIP-2 и др.) или генерации (в сравнении с Stable Diffusion и др.). Несмотря на ограничения, мы уверены в естественной способности этого подхода объединять визуальные и текстовые представления, что облегчает масштабируемое мультимодальное обучение с использованием оригинальной архитектуры LLM. В данном исследовании мы выделяем два ключевых принципа для архитектуры и обучения SEED, которые эффективно упрощают последующее согласование с LLM. (1) Токены изображений должны быть независимы от 2D физических позиций патчей и вместо этого создаваться с одномерной причинной зависимостью, демонстрируя внутреннюю взаимосвязь, которая соответствует механизму авторегрессивного предсказания слева направо в LLM. (2) Токены изображений должны захватывать высокоуровневую семантику, согласованную со степенью семантической абстракции слов, и оптимизироваться как для различимости, так и для реконструкции на этапе обучения токенизатора. В результате стандартная LLM способна выполнять как генерацию текста из изображений, так и генерацию изображений из текста, интегрируя наш SEED через эффективную настройку LoRA. Полноценное мультимодальное предобучение и тонкая настройка инструкций, которые могут привести к улучшенным результатам, оставлены для будущих исследований. Эта версия SEED была обучена за 5,7 дней с использованием всего 64 GPU V100 и 5 миллионов общедоступных пар изображение-текст. Наше предварительное исследование подчеркивает огромный потенциал дискретных визуальных токенов в универсальных мультимодальных LLM и важность правильных токенизаторов изображений для более широких исследований.
Мы представляем Interactive Neural Video Editing (INVE) — решение для редактирования видео в реальном времени, которое может упростить процесс редактирования, последовательно распространяя редкие правки кадров на весь видеоклип. Наш метод вдохновлён недавними работами по Layered Neural Atlas (LNA). Однако LNA имеет два основных недостатка: (1) метод слишком медленный для интерактивного редактирования и (2) он недостаточно поддерживает некоторые сценарии редактирования, включая прямое редактирование кадров и отслеживание жёстких текстур. Чтобы решить эти проблемы, мы используем и адаптируем высокоэффективные архитектуры нейронных сетей, основанные на кодировании с помощью хэш-гридов, что значительно повышает скорость обработки. Кроме того, мы обучаем двунаправленные функции между изображением и атласом и вводим векторное редактирование, что в совокупности позволяет выполнять гораздо больше разнообразных правок как в атласе, так и непосредственно в кадрах. По сравнению с LNA, наш INVE сокращает время обучения и вывода в 5 раз и поддерживает различные операции редактирования видео, которые недоступны в LNA. Мы демонстрируем превосходство INVE над LNA в интерактивном редактировании видео с помощью всестороннего количественного и качественного анализа, подчеркивая его многочисленные преимущества и улучшенную производительность. Видео результаты доступны по ссылке: https://gabriel-huang.github.io/inve/
Мы стремимся исследовать, возможно ли достичь сквозного обучения визуальному рассуждению с использованием универсальных нейронных сетей, опираясь на визуальное предварительное обучение. Положительный результат опровергнет распространённое мнение о том, что явная визуальная абстракция (например, детекция объектов) необходима для композиционного обобщения в задачах визуального рассуждения, и подтвердит возможность создания нейронной сети-"универсала", способной решать задачи визуального распознавания и рассуждения. Мы предлагаем простую и универсальную самообучаемую архитектуру, которая "сжимает" каждый кадр видео в небольшой набор токенов с помощью трансформерной сети и восстанавливает оставшиеся кадры на основе сжатого временного контекста. Чтобы минимизировать ошибку восстановления, сеть должна научиться создавать компактное представление для каждого изображения, а также улавливать временную динамику и постоянство объектов из временного контекста. Мы проводим оценку на двух бенчмарках для визуального рассуждения — CATER и ACRE. Наши наблюдения показывают, что предварительное обучение критически важно для достижения композиционного обобщения в задачах сквозного визуального рассуждения. Предложенная нами архитектура значительно превосходит традиционные методы предварительного обучения с учителем, включая классификацию изображений и явную детекцию объектов.
В данной статье представлен новый Vision Transformer, называемый Scale-Aware Modulation Transformer (SMT), который эффективно справляется с различными задачами, сочетая в себе сверточные сети и Vision Transformer. Предложенный метод Scale-Aware Modulation (SAM) в SMT включает два основных нововведения. Во-первых, мы представляем модуль Multi-Head Mixed Convolution (MHMC), который способен захватывать признаки на разных масштабах и расширять рецептивное поле. Во-вторых, мы предлагаем модуль Scale-Aware Aggregation (SAA), который является легковесным, но эффективным, позволяя объединять информацию между различными "головами". Благодаря этим двум модулям, сверточная модуляция дополнительно улучшается. Кроме того, в отличие от предыдущих работ, где модуляции использовались на всех этапах для создания сети без внимания, мы предлагаем Evolutionary Hybrid Network (EHN), которая эффективно моделирует переход от захвата локальных зависимостей к глобальным по мере углубления сети, что приводит к превосходной производительности. Многочисленные эксперименты показывают, что SMT значительно превосходит существующие передовые модели в широком спектре визуальных задач. В частности, SMT с 11.5M параметров / 2.4 GFLOPs и 32M параметров / 7.7 GFLOPs достигает точности 82.2% и 84.3% top-1 на ImageNet-1K соответственно. После предварительного обучения на ImageNet-22K с разрешением 224^2, модель достигает точности 87.1% и 88.1% top-1 при дообучении с разрешением 224^2 и 384^2 соответственно. Для задачи обнаружения объектов с использованием Mask R-CNN, базовая версия SMT, обученная по расписанию 1x и 3x, превосходит Swin Transformer на 4.2 и 1.3 mAP на COCO соответственно. Для семантической сегментации с использованием UPerNet, базовая версия SMT при тестировании на одном и нескольких масштабах превосходит Swin на 2.0 и 1.1 mIoU соответственно на ADE20K.
Симуляция составляет основу современной разработки автономных транспортных средств. Симуляторы помогают разрабатывать, тестировать и улучшать системы вождения, не подвергая риску людей, транспортные средства или окружающую среду. Однако перед симуляторами стоит серьезная задача: они зависят от реалистичного, масштабируемого и при этом интересного контента. Хотя последние достижения в области рендеринга и реконструкции сцен значительно продвинулись в создании статических элементов сцены, моделирование их расположения, динамики и поведения остается сложной задачей. В данной работе мы обращаемся к языку как к источнику контроля для генерации динамических сцен дорожного движения. Наша модель, LCTGen, сочетает в себе крупную языковую модель с архитектурой декодера на основе трансформеров, которая выбирает вероятные местоположения на карте из набора данных карт и создает начальное распределение трафика, а также динамику каждого транспортного средства. LCTGen превосходит предыдущие работы как в безусловной, так и в условной генерации сцен дорожного движения с точки зрения реализма и точности. Код и видео будут доступны по адресу https://ariostgx.github.io/lctgen.