Ежедневно отобранные исследовательские статьи по ИИ с переводами
Быстрое развитие крупных языковых и визуальных моделей (LLVM) было обусловлено прогрессом в настройке визуальных инструкций. Недавно открытые LLVM собрали качественные наборы данных для настройки визуальных инструкций и использовали дополнительные визуальные кодировщики или несколько моделей компьютерного зрения для сокращения разрыва в производительности с мощными закрытыми LLVM. Эти усовершенствования связаны с многоаспектной информацией, необходимой для различных возможностей, включая фундаментальное понимание изображений, знание о реальном мире, общее чувство и необъектные концепции (например, диаграммы, схемы, символы, знаки и математические задачи), а также пошаговые процедуры для решения сложных вопросов. Извлекая из многоаспектной информации, мы представляем новую эффективную LLVM, основанную на методе обхода обоснований Mamba (Meteor), которая использует многоаспектные обоснования для улучшения возможностей понимания и ответа. Для встраивания длинных обоснований, содержащих обильную информацию, мы используем архитектуру Mamba, способную обрабатывать последовательные данные с линейной временной сложностью. Мы вводим новую концепцию обхода обоснований, которая облегчает эффективное встраивание обоснований. Впоследствии основная мультимодальная языковая модель (MLM) обучается генерировать ответы с помощью обоснования. Благодаря этим шагам Meteor достигает значительных улучшений в производительности визуально-языковых моделей на различных оценочных бенчмарках, требующих разнообразных возможностей, без увеличения размера модели или использования дополнительных визуальных кодировщиков и моделей компьютерного зрения.
Модели с многомодальными данными большого разрешения (LMM) сталкиваются с проблемами избыточных визуальных токенов и квадратичной визуальной сложности. Существующие модели LMM большого разрешения решают проблему квадратичной сложности, но по-прежнему генерируют избыточные визуальные токены. Однако избыточность визуальных токенов является ключевой проблемой, поскольку она приводит к более значительным вычислениям. Для устранения этой проблемы мы предлагаем ConvLLaVA, который использует ConvNeXt, иерархическую основу, в качестве визуального кодера LMM для замены Vision Transformer (ViT). ConvLLaVA сжимает изображения большого разрешения в информационно насыщенные визуальные признаки, эффективно предотвращая генерацию избыточных визуальных токенов. Для улучшения возможностей ConvLLaVA мы предлагаем две ключевые оптимизации. Поскольку предварительно обученный ConvNeXt низкого разрешения показывает недостаточные результаты при прямом применении к изображениям высокого разрешения, мы обновляем его для устранения этой проблемы. Более того, поскольку исходное соотношение сжатия ConvNeXt недостаточно для входов гораздо более высокого разрешения, мы обучаем последующий этап для дальнейшего сжатия визуальных токенов, тем самым уменьшая избыточность. Эти оптимизации позволяют ConvLLaVA поддерживать входы разрешением 1536x1536, генерируя всего 576 визуальных токенов, способных обрабатывать изображения произвольных пропорций. Экспериментальные результаты показывают, что наш метод достигает конкурентоспособной производительности по сравнению с современными моделями на основных бенчмарках. Серия моделей ConvLLaVA доступна по адресу https://github.com/alibaba/conv-llava.
Мы исследуем, могут ли трансформеры научиться неявному рассуждению над параметрическими знаниями, навык, с которым даже самые способные языковые модели борются. Сосредотачиваясь на двух представительных типах рассуждений, композиции и сравнения, мы последовательно обнаруживаем, что трансформеры могут научиться неявному рассуждению, но только через гроккинг, т.е. продолжительное обучение, далеко превышающее переобучение. Уровни обобщения также различаются в зависимости от типов рассуждений: столкнувшись с примерами вне распределения, трансформеры не могут систематически обобщать для композиции, но успешно делают это для сравнения. Мы погружаемся во внутренности модели на протяжении обучения, проводя аналитические эксперименты, которые раскрывают: 1) механизм гроккинга, такой как формирование обобщающей цепи и ее отношение к относительной эффективности обобщающих и запоминающих цепей, и 2) связь между систематичностью и конфигурацией обобщающей цепи. Наши результаты указывают на данные и настройку обучения для лучшего индукции неявного рассуждения и предлагают потенциальные улучшения архитектуры трансформера, такие как поощрение обмена знаниями между слоями. Более того, мы демонстрируем, что для сложной задачи рассуждения с большим пространством поиска GPT-4-Turbo и Gemini-1.5-Pro на основе непараметрической памяти плохо справляются независимо от стилей подсказок или дополнения поиска, в то время как полностью грокнутый трансформер может достичь почти идеальной точности, демонстрируя мощь параметрической памяти для сложного рассуждения.
Данный технический отчет представляет Aya 23, семейство мультиязычных языковых моделей. Aya 23 основана на недавнем выпуске модели Aya (Устюн и др., 2024), сосредотачиваясь на сочетании высокопроизводительной предварительно обученной модели с недавно выпущенной коллекцией Aya (Сингх и др., 2024). Результатом стало создание мощной мультиязычной крупной языковой модели, обслуживающей 23 языка, расширяя возможности языкового моделирования до приблизительно половины населения мира. Модель Aya охватывала 101 язык, в то время как Aya 23 является экспериментом в глубину против ширины, исследуя влияние выделения большего объема ресурсов для меньшего числа языков, включенных во время предварительного обучения. Aya 23 превосходит как предыдущие массово-мультиязычные модели, такие как Aya 101 для охваченных языков, так и широко используемые модели, такие как Gemma, Mistral и Mixtral, на широком спектре дискриминационных и генеративных задач. Мы публикуем открытые веса как для моделей 8B, так и для 35B в рамках нашего постоянного стремления расширить доступ к мультиязычному прогрессу.
LLM-модели являются вычислительно затратными для предварительного обучения из-за их большого масштаба. Подход модельного роста возникает как многообещающий способ, используя более маленькие модели для ускорения обучения более крупных. Однако жизнеспособность этих методов модельного роста в эффективном предварительном обучении LLM остается недостаточно исследованной. В данной работе выделяются три критические препятствия: (O1) недостаток комплексной оценки, (O2) непроверенная жизнеспособность для масштабирования и (O3) отсутствие эмпирических рекомендаций. Для решения O1 мы обобщаем существующие подходы на четыре атомарных оператора роста и систематически оцениваем их в стандартизированной среде предварительного обучения LLM. Наши результаты показывают, что оператор стека по глубине, называемый G_{stack}, обеспечивает заметное ускорение обучения, что приводит к снижению потерь и улучшению общей производительности на восьми стандартных бенчмарках NLP по сравнению с сильными базовыми моделями. Вдохновленные этими обнадеживающими результатами, мы проводим обширные эксперименты для более глубокого изучения G_{stack} с целью решения O2 и O3. Для O2 (непроверенная масштабируемость) наше исследование показывает, что G_{stack} масштабируем и стабильно демонстрирует хорошие результаты, с экспериментами до 7B LLM после роста и предварительного обучения LLM с 750B токенов. Например, по сравнению с традиционно обученной моделью на 7B с использованием 300B токенов, наша модель G_{stack} сходится к тем же потерям с 194B токенами, что приводит к ускорению в 54.6\%. Мы также решаем O3 (отсутствие эмпирических рекомендаций), формализуя рекомендации для определения времени роста и коэффициента роста для G_{stack}, что делает его практичным в общем предварительном обучении LLM. Мы также предоставляем подробные обсуждения и обширные исследования абляции G_{stack}. Наш код и предварительно обученная модель доступны по ссылке https://llm-stacking.github.io/.
Существующие графики скорости обучения, не требующие указания шага остановки оптимизации T, значительно уступают графикам скорости обучения, зависящим от T. Мы предлагаем подход, который избегает необходимости указания этого времени остановки, отказываясь от использования графиков вообще, при этом демонстрируя современную производительность по сравнению с графиками на широком спектре задач, начиная от выпуклых проблем до проблем глубокого обучения большого масштаба. Наш подход без графиков не вводит дополнительных гиперпараметров по сравнению с стандартными оптимизаторами с импульсом. Наш метод является прямым следствием новой теории, которую мы разрабатываем, объединяющей планирование и усреднение итераций. Open source реализация нашего метода доступна по ссылке (https://github.com/facebookresearch/schedule_free).
Мы представляем AutoCoder, первую большую языковую модель, превзошедшую GPT-4 Turbo (апрель 2024 года) и GPT-4o в pass@1 по тесту бенчмарка Human Eval (90,9% против 90,2%). Кроме того, AutoCoder предлагает более гибкий интерпретатор кода по сравнению с GPT-4 Turbo и GPT-4o. Его интерпретатор кода может устанавливать внешние пакеты вместо ограничения встроенными пакетами. Обучающие данные AutoCoder представляют собой набор данных многовариантного диалога, созданный системой, объединяющей взаимодействие агента и верификацию выполнения внешнего кода, метод, который мы называем AIEV-Instruct (Настройка инструкций с взаимодействием агента и проверкой выполнения). По сравнению с предыдущими методами генерации крупномасштабных наборов данных кода, AIEV-Instruct уменьшает зависимость от собственных крупномасштабных моделей и предоставляет проверенный на выполнение набор данных кода. Код и демонстрационное видео доступны по ссылке https://github.com/bin123apple/AutoCoder.
Мы представляем новую систему генеративного 3D-моделирования под названием CraftsMan, способную создавать трехмерные геометрические объекты высокого качества с разнообразными формами, регулярной сеткой и детализированными поверхностями, а также позволяющую интерактивно уточнять геометрию. Несмотря на значительные достижения в области 3D-генерации, существующие методы все еще сталкиваются с длительными процессами оптимизации, нерегулярными сетками, шумными поверхностями и сложностями в учете пользовательских правок, что затрудняет их широкое применение и внедрение в программное обеспечение для 3D-моделирования. Наша работа вдохновлена ремесленником, который обычно сначала грубо набрасывает общую форму работы, а затем разрабатывает детали поверхности. В частности, мы используем трехмерную диффузионную модель, которая работает в латентном пространстве, изученном на основе латентных наборов трехмерных представлений, для создания грубых геометрических объектов с регулярной сеткой за считанные секунды. Этот процесс принимает на вход текстовую подсказку или изображение-ссылку и использует мощную многозрительную (MV) диффузионную модель для генерации нескольких видов грубой геометрии, которые подаются на вход нашей MV-условной 3D-диффузионной модели для создания трехмерной геометрии, значительно повышая устойчивость и обобщаемость. Затем используется улучшитель геометрии на основе нормалей для значительного улучшения деталей поверхности. Это уточнение может быть выполнено автоматически или интерактивно с учетом правок, внесенных пользователем. Обширные эксперименты показывают, что наш метод обладает высокой эффективностью в создании трехмерных объектов высокого качества по сравнению с существующими методами. Домашняя страница: https://craftsman3d.github.io/, Код: https://github.com/wyysf-98/CraftsMan
Самообучаемые признаки являются основой современных систем машинного обучения. Обычно они предварительно обучаются на наборах данных, для создания и курирования которых требуется значительное человеческое усилие. Этот ручной процесс имеет некоторые ограничения, аналогичные тем, с которыми сталкиваются в обучении с учителем, например, выбор данных с привлечением широких масс требует затрат и времени, что затрудняет масштабирование размера набора данных. В данной работе мы рассматриваем проблему автоматического курирования высококачественных наборов данных для предварительного самообучения. Мы предполагаем, что такие наборы данных должны быть большими, разнообразными и сбалансированными, и предлагаем подход на основе кластеризации для построения тех, которые удовлетворяют всем этим критериям. Наш метод включает последовательное и иерархическое применение метода k-средних к большому и разнообразному репозиторию данных для получения кластеров, которые равномерно распределяются по концепциям данных, а затем иерархический этап сбалансированной выборки из этих кластеров. Обширные эксперименты на трех различных областях данных, включая изображения из веба, спутниковые изображения и текст, показывают, что признаки, обученные на наших автоматически курированных наборах данных, превосходят те, которые обучены на некурированных данных, сохраняя при этом уровень или превосходя те, которые обучены на ручно курированных данных.
Мировые модели позволяют агентам, основанным на моделях, взаимодействовать, рассуждать и планировать в воображаемых окружениях для принятия решений в реальном мире. Однако высокий спрос на интерактивность создает вызовы в использовании недавних достижений в области видео-генеративных моделей для разработки мировых моделей в масштабе. В данной работе представлен Interactive VideoGPT (iVideoGPT), масштабируемая авторегрессионная трансформерная структура, интегрирующая мультимодальные сигналы - визуальные наблюдения, действия и вознаграждения - в последовательность токенов, обеспечивая интерактивный опыт агентов через предсказание следующего токена. iVideoGPT включает в себя новую технику компрессивной токенизации, которая эффективно дискретизирует высокоразмерные визуальные наблюдения. Используя его масштабируемую архитектуру, мы можем предварительно обучить iVideoGPT на миллионах траекторий человеческого и роботизированного манипулирования, создавая универсальное основание, которое адаптируется для использования в качестве интерактивных мировых моделей для широкого спектра последующих задач. Среди них - предсказание видео с учетом действий, визуальное планирование и обучение с подкреплением на основе моделей, где iVideoGPT достигает конкурентоспособной производительности по сравнению с современными методами. Наша работа способствует развитию интерактивных общих мировых моделей, сокращая разрыв между генеративными видео-моделями и практическими приложениями обучения с подкреплением на основе моделей.
Языковые модели (LMs) давно используются для улучшения результатов систем автоматического распознавания речи (ASR), но они не знают ошибках, которые допускают системы ASR. Модели исправления ошибок предназначены для исправления ошибок ASR, однако они показали незначительное улучшение по сравнению с традиционными LMs в основном из-за отсутствия надзорных данных для обучения. В данной статье мы представляем Денойзинг LM (DLM), который является масштабной моделью исправления ошибок, обученной на огромных объемах синтетических данных, значительно превосходящих предыдущие попытки и в то же время достигающей нового state-of-the-art производительности ASR. Мы используем системы текст в речь (TTS) для синтеза аудио, которое подается на систему ASR для создания шумных гипотез, которые затем сопоставляются с оригинальными текстами для обучения DLM. DLM имеет несколько ключевых компонентов: (i) масштабная модель и данные; (ii) использование многоголосых систем TTS; (iii) комбинация нескольких стратегий увеличения шума; и (iv) новые техники декодирования. С помощью Transformer-CTC ASR, DLM достигает 1.5% словесной оценки ошибок (WER) на test-clean и 3.3% WER на test-other на Librispeech, которые, насколько нам известно, являются лучшими отчетными показателями в условиях, когда не используются внешние аудиоданные, и даже соответствуют методам самообучения, использующим внешние аудиоданные. Более того, один DLM применим к различным ASR и значительно превосходит производительность конвенционального LM на основе переоценки поиска лучшего пути. Эти результаты указывают на то, что правильно исследованные модели исправления ошибок имеют потенциал заменить традиционные LMs, имея ключ к новому уровню точности в системах ASR.
Большие языковые модели обладают исключительными способностями к обобщению, в основном благодаря использованию разнообразных источников данных. Однако традиционные практики интеграции этого разнообразного материала тесно связаны с эвристическими схемами, лишенными теоретического руководства. Настоящее исследование решает эти ограничения, исследуя стратегии на основе недорогих замен для смесей данных с целью оптимизации курирования данных для улучшения эффективности обучения. Конкретно, мы предлагаем единую закономерность масштабирования, названную BiMix, которая точно моделирует бивариантное поведение масштабирования как количества данных, так и пропорций смешивания. Мы проводим систематические эксперименты и предоставляем эмпирические доказательства предсказательной силы и фундаментальных принципов BiMix. Особенно наши результаты показывают, что смеси данных, основанные на энтропийном подходе и не требующие обучения, могут достичь сравнимой или даже лучшей производительности, чем более ресурсоемкие методы. Мы надеемся, что наши количественные исследования могут пролить свет на дальнейшие разумные исследования и разработки в области экономичного языкового моделирования.
Синтез нового вида с высоким динамическим диапазоном (HDR) направлен на создание фотореалистичных изображений с новых точек зрения с использованием техник HDR-изображений. Полученные изображения HDR захватывают более широкий диапазон уровней яркости, содержащий больше деталей сцены, чем обычные изображения с низким динамическим диапазоном (LDR). Существующие методы HDR синтеза нового вида в основном основаны на NeRF. Они страдают от длительного времени обучения и медленной скорости вывода. В данной статье мы предлагаем новую структуру, высокодинамическое гауссовское распыление (HDR-GS), которая может эффективно воссоздавать новые HDR виды и восстанавливать изображения LDR с учетом времени экспозиции пользователя. Конкретно, мы разрабатываем модель двойного динамического диапазона (DDR) гауссовских облаков точек, использующую сферические гармоники для соответствия цвета HDR и применяющую тоновый сопоставитель на основе MLP для воссоздания цвета LDR. Затем цвета HDR и LDR подаются на два параллельных дифференцируемых процесса растеризации (PDR) для восстановления HDR и LDR видов. Для установления базы данных для исследований методов синтеза нового вида на основе гауссовского распыления в HDR, мы перекалибруем параметры камеры и вычисляем начальные позиции для гауссовских облаков точек. Эксперименты показывают, что наш HDR-GS превосходит современный метод на основе NeRF на 3,84 и 1,91 дБ в LDR и HDR синтезе нового вида, обладая скоростью вывода в 1000 раз выше и требуя всего 6,3% времени обучения.