Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем SELF-DISCOVER — универсальную структуру, позволяющую большим языковым моделям (LLM) самостоятельно выявлять внутренние структуры рассуждений для решения сложных задач, которые представляют трудности для стандартных методов подсказок. Основой этой структуры является процесс самообнаружения, в ходе которого LLM выбирают несколько атомарных модулей рассуждений, таких как критическое мышление и пошаговое мышление, и объединяют их в явную структуру рассуждений, которой модели следуют в процессе декодирования. SELF-DISCOVER значительно улучшает производительность GPT-4 и PaLM 2 на сложных тестах рассуждений, таких как BigBench-Hard, обоснованное рассуждение агентов и MATH, демонстрируя рост до 32% по сравнению с методом Chain of Thought (CoT). Более того, SELF-DISCOVER превосходит ресурсоемкие методы, такие как CoT-Self-Consistency, более чем на 20%, при этом требуя в 10–40 раз меньше вычислительных ресурсов для вывода. Наконец, мы показываем, что обнаруженные структуры рассуждений универсально применимы для различных семейств моделей: от PaLM 2-L до GPT-4 и от GPT-4 до Llama2, а также имеют сходство с паттернами человеческого мышления.
Предобученные большие языковые модели (LLM) демонстрируют выдающиеся способности в обработке общего языка, но требуют значительных затрат памяти и вычислительных ресурсов. Как мощная технология сжатия, бинаризация позволяет сократить веса модели до всего 1 бита, значительно снижая затраты на вычисления и требования к памяти. Однако существующие методы квантования не способны сохранить производительность LLM при сверхнизкой битовой ширине. В ответ на этот вызов мы представляем BiLLM — инновационную схему посттренировочного квантования на 1 бит, специально разработанную для предобученных LLM. Основываясь на распределении весов LLM, BiLLM сначала идентифицирует и структурно выделяет значимые веса, а затем минимизирует потери при сжатии с помощью эффективной стратегии бинарной аппроксимации остатков. Кроме того, учитывая колоколообразное распределение незначимых весов, мы предлагаем оптимальный поиск разделения для их точной группировки и бинаризации. BiLLM впервые достигает высокоточного вывода (например, 8.41 perplexity на LLaMA2-70B) с весами всего 1.08 бита для различных семейств LLM и метрик оценки, значительно превосходя современные методы квантования LLM. Более того, BiLLM позволяет выполнить процесс бинаризации LLM с 7 миллиардами весов менее чем за 0.5 часа на одном GPU, демонстрируя удовлетворительную временную эффективность.
Модели пространства состояний (SSMs), такие как Mamba Gu & Dao (2034), были предложены в качестве альтернативы сетям Transformer в задачах языкового моделирования. Они включают механизмы гейтирования, свертки и зависимый от входных данных выбор токенов, чтобы смягчить квадратичную сложность многоголового внимания. Хотя SSMs демонстрируют конкурентоспособную производительность, их способности к обучению в контексте (ICL) — замечательное эмерджентное свойство современных языковых моделей, позволяющее выполнять задачи без оптимизации параметров, — остаются недостаточно изученными по сравнению с Transformers. В данном исследовании мы оцениваем производительность SSMs, в частности Mamba, в задачах ICL, сравнивая их с моделями Transformer на различных задачах. Наши результаты показывают, что SSMs демонстрируют сопоставимую с Transformers производительность в стандартных задачах регрессии ICL, превосходя их в задачах, таких как обучение разреженной четности. Однако SSMs уступают в задачах, связанных с нестандартной функциональностью извлечения данных. Для устранения этих ограничений мы представляем гибридную модель \variant, которая объединяет Mamba с блоками внимания, превосходя отдельные модели в задачах, где они испытывают трудности по отдельности. Наши результаты указывают на то, что гибридные архитектуры открывают перспективные пути для улучшения ICL в языковых моделях.
Масштабирование контрастного предобучения на основе языковых и визуальных данных (CLIP) имеет решающее значение для повышения эффективности как моделей компьютерного зрения, так и мультимодальных моделей. Мы представляем EVA-CLIP-18B — самую крупную и мощную на сегодняшний день открытую модель CLIP, содержащую 18 миллиардов параметров. Обучившись всего на 6 миллиардах примеров, EVA-CLIP-18B достигает выдающегося показателя в 80,7% точности (top-1) в задачах zero-shot, усреднённого по 27 широко известным бенчмаркам классификации изображений, значительно превосходя свою предшественницу EVA-CLIP (5 миллиардов параметров) и другие открытые модели CLIP. Примечательно, что мы наблюдаем устойчивое улучшение производительности с увеличением масштаба модели EVA-CLIP, несмотря на использование постоянного набора данных для обучения, состоящего из 2 миллиардов пар изображение-текст из LAION-2B и COYO-700M. Этот набор данных открыто доступен и значительно меньше внутренних наборов данных (например, DFN-5B, WebLI-10B), используемых в других современных моделях CLIP. EVA-CLIP-18B демонстрирует потенциал масштабирования визуальных моделей в стиле EVA — от слабых к сильным. Сделав веса нашей модели общедоступными, мы надеемся способствовать дальнейшим исследованиям в области базовых моделей компьютерного зрения и мультимодальных систем.
Генерация видео из изображений (Image-to-Video, I2V) ставит своей целью создание видеопоследовательности на основе начального кадра (вместе с текстовым запросом). Основная сложность в I2V заключается в поддержании визуальной согласованности на протяжении всего видео: существующие методы часто не могут сохранить целостность объекта, фона и стиля из первого кадра, а также обеспечить плавное и логичное развитие видеосюжета. Для решения этих проблем мы предлагаем ConsistI2V — метод, основанный на диффузии, который улучшает визуальную согласованность в генерации I2V. В частности, мы вводим (1) пространственно-временное внимание к первому кадру для поддержания пространственной и динамической согласованности, (2) инициализацию шума из низкочастотной полосы первого кадра для улучшения согласованности композиции. Эти два подхода позволяют ConsistI2V генерировать видео с высокой степенью согласованности. Мы также расширяем предложенные подходы, чтобы продемонстрировать их потенциал для улучшения согласованности в авторегрессивной генерации длинных видео и управлении движением камеры. Для проверки эффективности нашего метода мы предлагаем I2V-Bench — комплексный эталонный набор для оценки генерации I2V. Результаты автоматической и экспертной оценки подтверждают превосходство ConsistI2V над существующими методами.
Законы масштабирования предоставляют важные инсайты, которые могут направлять проектирование больших языковых моделей (LLM). Существующие работы в основном сосредоточены на изучении законов масштабирования для потерь при предварительном обучении (upstream). Однако в условиях трансферного обучения, когда LLM предварительно обучаются на неразмеченных данных, а затем дообучаются для решения конкретной задачи, нас также часто интересует производительность на конечной задаче. В данной работе мы изучаем поведение масштабирования в условиях трансферного обучения, где LLM дообучаются для задач машинного перевода. В частности, мы исследуем, как выбор данных для предварительного обучения и их объем влияют на производительность на конечной задаче (качество перевода), оцениваемую по двум метрикам: кросс-энтропии на конечной задаче и оценке BLEU. Наши эксперименты показывают, что объем данных для дообучения и степень согласованности распределений данных для предварительного обучения и конечной задачи существенно влияют на поведение масштабирования. При достаточной согласованности как кросс-энтропия на конечной задаче, так и оценка BLEU монотонно улучшаются с увеличением объема данных для предварительного обучения. В таких случаях мы демонстрируем, что можно с высокой точностью предсказать оценку BLEU на конечной задаче с использованием логарифмического закона. Однако существуют также случаи, когда умеренное несоответствие приводит к колебаниям или ухудшению оценки BLEU при увеличении объема данных для предварительного обучения, в то время как кросс-энтропия на конечной задаче продолжает монотонно улучшаться. Анализируя эти наблюдения, мы предлагаем новые практические рекомендации для выбора подходящих данных для предварительного обучения.
Мы представляем MusicRL — первую систему генерации музыки, дообученную на основе человеческих предпочтений. Оценка моделей, преобразующих текст в музыку, особенно субъективна, поскольку понятие музыкальности, а также конкретное намерение, стоящее за описанием, зависят от пользователя (например, описание вроде "энергичная музыка для тренировок" может соответствовать ретро-гитарному соло или техно-поп-биту). Это не только усложняет обучение таких моделей с учителем, но и требует интеграции непрерывной обратной связи от пользователей в процесс их дообучения после развертывания. MusicRL представляет собой предобученную авторегрессионную модель MusicLM (Agostinelli et al., 2023), работающую с дискретными аудиотокенами и дообученную с использованием обучения с подкреплением для максимизации наград на уровне последовательностей. Мы разрабатываем функции награды, связанные с соответствием тексту и качеством звука, с помощью выбранных оценщиков, и используем их для дообучения MusicLM до версии MusicRL-R. Мы развертываем MusicLM для пользователей и собираем обширный набор данных, включающий 300 000 парных предпочтений. С помощью обучения с подкреплением на основе человеческой обратной связи (RLHF) мы обучаем MusicRL-U — первую модель преобразования текста в музыку, которая учитывает человеческие предпочтения в масштабе. Оценки пользователей показывают, что как MusicRL-R, так и MusicRL-U предпочтительнее базовой модели. В итоге MusicRL-RU объединяет оба подхода и становится лучшей моделью по мнению оценщиков. Абляционные исследования проливают свет на музыкальные атрибуты, влияющие на предпочтения пользователей, указывая, что соответствие тексту и качество звука объясняют лишь часть этих предпочтений. Это подчеркивает преобладание субъективности в оценке музыки и требует дальнейшего вовлечения слушателей в процесс дообучения моделей генерации музыки.
Мы представляем MobileVLM V2 — семейство значительно улучшенных моделей обработки визуальной информации и языка на основе MobileVLM, которое демонстрирует, что тщательная организация новой архитектурной разработки, усовершенствованной схемы обучения, адаптированной для мобильных VLMs, и богатой высококачественной подготовки данных может существенно повысить производительность VLMs. В частности, MobileVLM V2 1.7B демонстрирует лучшие или сопоставимые результаты на стандартных тестах для VLMs по сравнению с гораздо более крупными моделями масштаба 3B. Примечательно, что наша модель 3B превосходит множество VLMs масштаба 7B+. Наши модели будут доступны по адресу https://github.com/Meituan-AutoML/MobileVLM.
Последние достижения в области больших языковых моделей вызвали интерес к их исключительным и почти сверхчеловеческим способностям, что побудило исследователей изучить методы оценки и оптимизации этих возможностей, получившие название супервыравнивания. В этом контексте наша работа углубляется в область базовых моделей компьютерного зрения, сосредотачиваясь на концепции обобщения от слабого к сильному, которая предполагает использование более слабой модели для обучения более сильной с целью расширения возможностей последней за пределы, достижимые первой. Мы представляем новую и адаптивно настраиваемую функцию потерь для обучения от слабого к сильному. Наши всесторонние эксперименты охватывают различные сценарии, включая обучение с малым количеством данных, трансферное обучение, обучение с зашумленными метками и стандартные настройки дистилляции знаний. Результаты впечатляют: наш подход не только превосходит эталонные показатели, установленные обобщением от сильного к сильному, но и превышает результаты тонкой настройки сильных моделей на полных наборах данных. Эти убедительные данные подчеркивают значительный потенциал обобщения от слабого к сильному, демонстрируя его способность существенно повышать производительность базовых моделей компьютерного зрения. Код доступен по адресу https://github.com/ggjy/vision_weak_to_strong.
CodeCompose — это инструмент для написания кода с поддержкой ИИ, основанный на больших языковых моделях (LLM), который предоставляет встроенные подсказки десяткам тысяч разработчиков в Meta. В этой статье мы рассказываем, как мы масштабировали продукт от отображения однострочных подсказок до многострочных. Это развитие потребовало преодоления нескольких уникальных проблем, связанных с улучшением удобства использования таких подсказок для разработчиков. Во-первых, мы обсуждаем, как многострочные подсказки могут вызывать «раздражающий» эффект, поскольку предложения LLM постоянно перемещают существующий код разработчика, что может снижать продуктивность и удовлетворенность. Во-вторых, генерация многострочных подсказок занимает значительно больше времени; поэтому мы представляем несколько инновационных решений, которые мы внедрили для снижения воспринимаемой задержки для пользователей. Эти оптимизации хостинга моделей ускорили задержку многострочных подсказок в 2,5 раза. Наконец, мы провели эксперименты с участием десятков тысяч инженеров, чтобы понять, как многострочные подсказки влияют на пользовательский опыт, и сравнили их с однострочными. Наши эксперименты показывают, что (i) многострочные подсказки составляют 42% от общего числа принятых символов (несмотря на то, что они составляют только 16% от отображаемых подсказок), (ii) многострочные подсказки почти удвоили процент сэкономленных нажатий клавиш для пользователей — с 9% до 17%. Многострочный CodeCompose был внедрен для всех инженеров в Meta, и менее 1% инженеров отказались от использования многострочных подсказок.
Для захвата и анализа мимики лица доминирующие решения обычно основаны на визуальных сигналах, что не обеспечивает защиту конфиденциальности и уязвимо к окклюзиям. Инерциальные измерительные модули (IMU) представляют собой потенциальное решение, однако они в основном используются для захвата движений всего тела. В данной статье мы предлагаем IMUSIC, чтобы заполнить этот пробел, — новый подход к захвату мимики лица с использованием исключительно сигналов IMU, значительно отличающийся от предыдущих визуальных решений. Ключевой элемент нашего IMUSIC состоит из трилогии. Сначала мы разрабатываем микро-IMU, адаптированные для захвата мимики, в сочетании со схемой размещения IMU, основанной на анатомии. Затем мы представляем новый набор данных IMU-ARKit, который предоставляет богатые парные сигналы IMU и визуальные данные для различных выражений лица и их проявлений. Такая уникальная многомодальность открывает огромный потенциал для будущих направлений, таких как анализ мимики на основе IMU. Более того, используя IMU-ARKit, мы предлагаем надежный базовый подход для точного предсказания параметров блендшейпов лица исключительно по сигналам IMU. В частности, мы адаптируем модель Transformer с диффузией и двухэтапной стратегией обучения для этой новой задачи отслеживания. Фреймворк IMUSIC позволяет нам выполнять точный захват мимики в сценариях, где визуальные методы терпят неудачу, одновременно обеспечивая защиту конфиденциальности пользователя. Мы проводим обширные эксперименты как с конфигурацией IMU, так и с техническими компонентами, чтобы подтвердить эффективность нашего подхода IMUSIC. Примечательно, что IMUSIC открывает различные потенциальные и новые приложения, такие как захват мимики с защитой конфиденциальности, гибридный захват для борьбы с окклюзиями или обнаружение малозаметных движений лица, которые часто не видны через визуальные сигналы. Мы опубликуем наш набор данных и реализации, чтобы расширить возможности захвата и анализа мимики в нашем сообществе.
Мы предлагаем тонкую настройку крупных языковых моделей для генерации стабильных материалов. Хотя это и нестандартно, тонкая настройка крупных языковых моделей на текстово-закодированных атомарных данных проста в реализации и надежна: около 90% сгенерированных структур соблюдают физические ограничения на позиции атомов и заряды. Используя расчеты энергии выше границы как на основе обученных ML-потенциалов, так и на основе эталонных расчетов DFT, мы показываем, что наша самая мощная модель (тонко настроенная LLaMA-2 70B) может генерировать материалы, предсказанные как метастабильные, с примерно вдвое большей частотой (49% против 28%) по сравнению с CDVAE, конкурирующей диффузионной моделью. Благодаря присущей текстовым запросам гибкости, наши модели могут одновременно использоваться для безусловной генерации стабильных материалов, заполнения частичных структур и текстово-условной генерации. Наконец, мы показываем, что способность языковых моделей улавливать ключевые симметрии кристаллических структур улучшается с увеличением масштаба модели, что свидетельствует о том, что предобученные крупные языковые модели удивительно хорошо подходят для работы с атомарными данными.
Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), продемонстрировали свою широкую применимость благодаря масштабному обучению, направленному на согласование визуальных инструкций с ответами. Однако такая окончательная согласованность приводит к тому, что модели игнорируют критически важное визуальное рассуждение, что, в свою очередь, вызывает ошибки при решении тщательно продуманных визуальных задач и приводит к недостоверным ответам. В данной статье мы предлагаем механизм под названием "Цепочка манипуляций" (Chain of Manipulations), который позволяет VLMs решать задачи с помощью последовательности манипуляций, где каждая манипуляция представляет собой операцию над визуальным входом, основанную либо на внутренних способностях (например, локализация), приобретенных в ходе предшествующего обучения, либо на имитации человеческого поведения (например, увеличение). Этот механизм способствует тому, что VLMs генерируют достоверные ответы, подкрепленные визуальным рассуждением, и позволяет пользователям отслеживать причины ошибок на интерпретируемых этапах. Мы обучаем CogCoM — универсальную 17B VLM с архитектурой, совместимой с памятью, наделенную этим механизмом рассуждения. Эксперименты показывают, что наша модель достигает наилучших результатов на 8 тестовых наборах из 3 категорий, а также демонстрирует конкурентоспособную производительность при ограниченном количестве шагов обучения с использованием данных. Код и данные доступны по адресу https://github.com/THUDM/CogCoM.
Мы представляем EscherNet — многовидовую условную диффузионную модель для синтеза видов. EscherNet изучает неявные и генеративные 3D-представления в сочетании со специализированным позиционным кодированием камеры, что позволяет точно и непрерывно управлять относительным преобразованием камеры между произвольным количеством опорных и целевых видов. EscherNet предлагает исключительную универсальность, гибкость и масштабируемость в синтезе видов — она способна генерировать более 100 согласованных целевых видов одновременно на одной потребительской GPU, несмотря на обучение с фиксированным количеством из 3 опорных видов в 3 целевых. В результате EscherNet не только решает задачу синтеза новых видов с нулевым обучением, но и естественным образом объединяет одно- и многокадровую 3D-реконструкцию, интегрируя эти разнообразные задачи в единую связную структуру. Наши обширные эксперименты демонстрируют, что EscherNet достигает передовых результатов в нескольких бенчмарках, даже в сравнении с методами, специально разработанными для каждой отдельной задачи. Эта замечательная универсальность открывает новые направления для проектирования масштабируемых нейронных архитектур в области 3D-зрения. Страница проекта: https://kxhit.github.io/EscherNet.
Мы представляем Diffusion World Model (DWM) — условную диффузионную модель, способную одновременно предсказывать многократные будущие состояния и награды. В отличие от традиционных одношаговых моделей динамики, DWM обеспечивает долгосрочные прогнозы за один прямой проход, устраняя необходимость в рекурсивных запросах. Мы интегрируем DWM в оценку значений на основе моделей, где краткосрочный возврат моделируется с помощью будущих траекторий, сэмплированных из DWM. В контексте обучения с подкреплением на оффлайн-данных DWM можно рассматривать как консервативную регуляризацию значений через генеративное моделирование. Альтернативно, её можно рассматривать как источник данных, который позволяет проводить оффлайн Q-обучение с использованием синтетических данных. Наши эксперименты на наборе данных D4RL подтверждают устойчивость DWM к долгосрочному моделированию. По абсолютной производительности DWM значительно превосходит одношаговые модели динамики с приростом производительности на 44% и достигает результатов, соответствующих современным стандартам.