Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем LayerSkip, комплексное решение для ускорения вывода больших языковых моделей (LLM). Во-первых, во время обучения мы применяем отсев слоев с низкими значениями отсева для более ранних слоев и более высокими значениями отсева для более поздних слоев, а также потери на раннем выходе, где все трансформерные слои используют одинаковый выход. Во-вторых, во время вывода мы показываем, что данная методика обучения повышает точность раннего выхода на более ранних слоях, не добавляя дополнительных слоев или модулей к модели. В-третьих, мы представляем новое решение самоспекулятивного декодирования, где мы выходим на ранних слоях, а затем проверяем и корректируем с помощью оставшихся слоев модели. Наше предложенное самоспекулятивное декодирование требует меньше памяти, чем другие подобные подходы, и использует общие вычисления и активации этапов черновика и верификации. Мы проводим эксперименты на различных размерах моделей Llama при различных типах обучения: предварительное обучение с нуля, продолжительное предварительное обучение, донастройка на конкретной области данных и донастройка на конкретную задачу. Мы реализуем наше решение вывода и демонстрируем ускорение до 2.16x для суммаризации документов CNN/DM, 1.82x для кодирования и 2.0x для семантического разбора TOPv2. Мы открываем исходный код и контрольные точки по адресу https://github.com/facebookresearch/LayerSkip.
В данном отчете мы представляем InternVL 1.5, открытую мультимодальную крупномасштабную языковую модель (MLLM), которая позволяет сократить разрыв в возможностях между открытыми и коммерческими проприетарными моделями в мультимодальном понимании. Мы внедрили три простых улучшения: (1) Сильный Визионный Кодировщик: мы исследовали стратегию непрерывного обучения для крупномасштабной модели визуального фундамента - InternViT-6B, улучшив ее возможности визуального понимания и сделав возможным ее передачу и повторное использование в различных LLM. (2) Динамическое Высокое Разрешение: мы делим изображения на плитки от 1 до 40 размером 448х448 пикселей в зависимости от соотношения сторон и разрешения входных изображений, что поддерживает ввод с разрешением до 4K. (3) Высококачественный Двуязычный Набор Данных: мы тщательно собрали высококачественный двуязычный набор данных, охватывающий общие сцены, документы, и аннотировали их вопросами и ответами на английском и китайском языках, значительно улучшая производительность в задачах OCR и китайского языка. Мы оценили InternVL 1.5 через ряд бенчмарков и сравнительных исследований. По сравнению с открытыми и проприетарными моделями, InternVL 1.5 показывает конкурентоспособную производительность, достигая передовых результатов в 8 из 18 бенчмарков. Код доступен по ссылке https://github.com/OpenGVLab/InternVL.
Хотя многие современные большие языковые модели (LLM) могут обрабатывать длинные входные данные, они все еще испытывают трудности в полном использовании информации в рамках длинного контекста, известного как вызов "потерянный посередине". Мы предполагаем, что это происходит из-за недостаточного явного надзора во время обучения на длинном контексте, что не подчеркивает, что любая позиция в длинном контексте может содержать важную информацию. Исходя из этого интуитивного предположения, наше исследование представляет информационно-насыщенное (IN2) обучение, чисто данных ориентированное решение для преодоления вызова "потерянный посередине". Конкретно, обучение IN2 использует синтезированный набор данных вопрос-ответ на длинный контекст, где ответ требует (1) точного понимания информации в коротком сегменте (~128 токенов) в синтезированном длинном контексте (4K-32K токенов), и (2) интеграции и рассуждения на основе информации из двух или более коротких сегментов. Применяя это информационно-насыщенное обучение на Mistral-7B, мы представляем FILM-7B (Fill-in-the-Middle). Для тщательной оценки способности FILM-7B использовать длинные контексты, мы разрабатываем три задачи проверки, охватывающие различные стили контекста (документ, код и структурированный контекст данных) и шаблоны поиска информации (прямой, обратный и двунаправленный поиск). Результаты проверки показывают, что FILM-7B надежно извлекает информацию из различных позиций в своем окне контекста 32K. Помимо этих проверочных задач, FILM-7B значительно улучшает производительность на задачах реального мира с длинным контекстом (например, 23.5->26.9 показатель F1 на NarrativeQA), сохраняя сопоставимую производительность на задачах с коротким контекстом (например, 59.3->59.2 точность на MMLU). Ссылка на Github: https://github.com/microsoft/FILM.
Генерация трехмерных объектов претерпела значительные усовершенствования, приводя к получению высококачественных результатов. Однако она не достигает точного контроля со стороны пользователя, часто давая результаты, которые не соответствуют ожиданиям пользователя, что ограничивает их применимость. Генерация трехмерных объектов с учетом видения пользователя сталкивается с существенными проблемами в реализации своих концепций с использованием текущих генеративных моделей из-за ограниченных возможностей взаимодействия. Существующие методы в основном предлагают два подхода: (i) интерпретацию текстовых инструкций с ограниченной управляемостью или (ii) восстановление трехмерных объектов из двумерных изображений. Оба подхода ограничивают настройку в рамках двумерной ссылки и могут внести нежелательные артефакты в процессе преобразования в трехмерное пространство, ограничивая возможности прямых и универсальных трехмерных модификаций. В данной работе мы представляем Interactive3D, инновационную платформу для интерактивной генерации трехмерных объектов, предоставляющую пользователям точный контроль над процессом генерации благодаря обширным возможностям трехмерного взаимодействия. Interactive3D построен в двух каскадных этапах, используя различные трехмерные представления. Первый этап использует Гауссово сглаживание для прямого взаимодействия пользователя, позволяя модифицировать и направлять процесс генерации на любом промежуточном этапе через (i) Добавление и Удаление компонентов, (ii) Деформируемое и Жесткое Перетаскивание, (iii) Геометрические Преобразования и (iv) Семантическое Редактирование. Затем Гауссовы сглаживания преобразуются в InstantNGP. Мы представляем новый (v) модуль Интерактивной Хэш-доработки для дальнейшего добавления деталей и извлечения геометрии на втором этапе. Наши эксперименты показывают, что Interactive3D значительно улучшает управляемость и качество генерации трехмерных объектов. Наш веб-сайт проекта доступен по адресу https://interactive-3d.github.io/.
Технологии на основе диффузии сделали значительные шаги, особенно в персонализированной и настраиваемой генерации лиц. Однако существующие методы сталкиваются с проблемами в достижении высокой степени реалистичности и детальной согласованности идентичности (ID), в основном из-за недостаточного тонкого контроля над областями лица и отсутствия всеохватывающей стратегии сохранения ID, полностью учитывающей сложные детали лица и общее лицо. Для решения этих ограничений мы представляем ConsistentID, инновационный метод, разработанный для генерации портретов с сохранением разнообразной идентичности при помощи тонких мультимодальных подсказок для лица, используя только одно исходное изображение. ConsistentID состоит из двух ключевых компонентов: генератора мультимодальных подсказок для лица, который объединяет черты лица, соответствующие описания лица и общий контекст лица для улучшения точности деталей лица, и сети сохранения ID, оптимизированной с помощью стратегии локализации внимания к лицу, направленной на сохранение согласованности ID в областях лица. Вместе эти компоненты значительно улучшают точность сохранения ID, вводя тонкую мультимодальную информацию ID из областей лица. Для облегчения обучения ConsistentID мы представляем набор данных с тонкими деталями портретов, FGID, с более чем 500 000 изображений лиц, предлагающий большее разнообразие и полноту, чем существующие общедоступные наборы данных о лицах, такие как LAION-Face, CelebA, FFHQ и SFHQ. Экспериментальные результаты подтверждают, что наш ConsistentID достигает исключительной точности и разнообразия в персонализированной генерации лиц, превосходя существующие методы на наборе данных MyStyle. Более того, хотя ConsistentID вводит больше мультимодальной информации ID, он сохраняет быструю скорость вывода во время генерации.
Большие языковые модели (LLM) продемонстрировали глубокие способности в понимании и генерации языка, облегчая широкий спектр приложений. Однако существует заметный дефицит подробных методологий с открытым исходным кодом по эффективному масштабированию LLM свыше 50 миллиардов параметров с минимальными затратами на пробные запуски и вычислительные ресурсы. В данном отчете мы представляем Tele-FLM (также известную как FLM-2), 52B многоязычную открытую языковую модель, которая обладает стабильной, эффективной парадигмой предварительного обучения и улучшенными способностями к фактическому суждению. Tele-FLM демонстрирует превосходные многоязычные возможности моделирования языка, измеренные по BPB на текстовом корпусе. Кроме того, как в оценке английской, так и китайской фундаментальных моделей, она сравнима с мощными моделями с открытым исходным кодом, включающими более крупные FLOPs предварительного обучения, такими как Llama2-70B и DeepSeek-67B. Помимо весов модели, мы делимся основными конструкциями, инженерными практиками и деталями обучения, которые, как мы надеемся, принесут пользу как академическому, так и промышленному сообществу.
Применение набора маркеров (SoM) разблокирует возможность визуальной привязки модели GPT-4V, позволяя модели ассоциировать визуальные объекты с тегами, вставленными на изображение. Эти теги, помеченные алфавитно-цифровыми символами, могут быть проиндексированы с помощью текстовых токенов для удобной ссылки. Несмотря на выдающуюся производительность GPT-4V, мы наблюдаем, что другие мультимодальные модели языка больших размеров (MLLMs) испытывают затруднения в понимании этих визуальных тегов. Для продвижения обучения с помощью SoM для моделей с открытым исходным кодом мы предлагаем новую парадигму обучения: "перечисление элементов по одному", которая просит модель перечислить и описать все визуальные теги, размещенные на изображении в соответствии с алфавитным порядком тегов. Интегрируя наш подготовленный набор данных с другими наборами данных для настройки визуальных инструкций, мы можем оснастить существующие MLLMs способностью к использованию SoM. Кроме того, мы оцениваем наши донастроенные модели SoM на пяти бенчмарках MLLM. Мы обнаруживаем, что этот новый набор данных, даже при относительно небольшом размере (10k-30k изображений с тегами), значительно улучшает возможности визуального рассуждения и снижает галлюцинации для MLLMs. Возможно, удивительно, что эти улучшения сохраняются даже тогда, когда визуальные теги отсутствуют на входных изображениях во время вывода. Это указывает на потенциал "перечисления элементов по одному" как новой парадигмы для обучения MLLMs, которая укрепляет соответствие объекта и текста с помощью использования визуальных тегов на этапе обучения. Наконец, мы проводим анализы, исследуя обученные модели для понимания механизма работы SoM. Наш код и данные доступны по адресу https://github.com/zzxslp/SoM-LLaVA.
Хотя генеративные модели текст-в-изображение (T2I) стали повсеместными, они не обязательно создают изображения, соответствующие заданному запросу. Предыдущие исследования оценивали соответствие T2I запросу, предлагая метрики, стандарты и шаблоны для сбора оценок людей, однако качество этих компонентов не систематически измерялось. Наборы запросов, оцененные людьми, обычно небольшие, и надежность оценок - а следовательно, используемого набора запросов для сравнения моделей - не оценивается. Мы заполняем этот пробел, проводя обширное исследование, оценивающее авто-оценочные метрики и шаблоны людей. Мы делаем три основных вклада: (1) Мы представляем комплексный бенчмарк на основе навыков, который может различать модели по разным шаблонам людей. Этот бенчмарк на основе навыков категоризирует запросы по поднавыкам, позволяя практикующему точно определить, какие навыки вызывают трудности, и на каком уровне сложности навык становится вызывающим трудности. (2) Мы собираем оценки людей по четырем шаблонам и четырем моделям T2I, всего более 100 тыс. аннотаций. Это позволяет нам понять, где возникают различия из-за врожденной неоднозначности запроса, и где они возникают из-за различий в метриках и качестве модели. (3) Наконец, мы представляем новую авто-оценочную метрику на основе вопросов и ответов (QA), которая лучше коррелирует с оценками людей, чем существующие метрики для нашего нового набора данных, по разным шаблонам людей и на TIFA160.
Мы представляем NeRF-XL, принципиальный метод распределения нейронных полярностей (NeRF) по нескольким графическим процессорам (GPU), что позволяет обучать и отображать NeRF с произвольной большой емкостью. Мы начинаем с пересмотра существующих подходов для многографического процессорного использования, которые декомпозируют большие сцены на несколько независимо обученных NeRF и выявляем несколько фундаментальных проблем с этими методами, которые затрудняют улучшение качества реконструкции при использовании дополнительных вычислительных ресурсов (GPU) в процессе обучения. NeRF-XL устраняет эти проблемы и позволяет обучать и отображать NeRF с произвольным количеством параметров просто за счет использования большего количества аппаратного обеспечения. В основе нашего метода лежит новая формулировка распределенного обучения и отображения, которая математически эквивалентна классическому случаю обучения на одном GPU и минимизирует коммуникацию между GPU. Разблокировав NeRF с произвольным большим количеством параметров, наш подход первым показывает законы масштабирования NeRF для нескольких GPU, демонстрируя улучшения в качестве реконструкции с увеличением количества параметров и ускорение с увеличением числа GPU. Мы демонстрируем эффективность NeRF-XL на широком спектре наборов данных, включая самый крупный открытый набор данных на сегодняшний день, MatrixCity, содержащий 258 тыс. изображений, охватывающих городскую территорию площадью 25 км².
Понимание визуального контента, богатого текстом, является важным для практического применения Мультимодальных Больших Языковых Моделей (МБЯМ), поскольку сценарии с богатым текстом широко распространены в реальном мире, характеризуемые наличием обширных текстов, встроенных в изображения. Недавно появление МБЯМ с впечатляющей универсальностью повысило планку ожиданий от МБЯМ. Однако их профессионализм в сценариях с богатым текстом еще не был полностью и объективно оценен, поскольку текущие бенчмарки МБЯМ в основном сосредоточены на оценке общего визуального понимания. В данной работе мы представляем SEED-Bench-2-Plus, бенчмарк, специально разработанный для оценки визуального понимания текста у МБЯМ. Наш бенчмарк включает 2,3 тыс. вопросов с множественным выбором с точными аннотациями людей, охватывающих три широкие категории: Графики, Карты и Сети, каждая из которых охватывает широкий спектр сценариев с богатым текстом в реальном мире. Эти категории, благодаря своей врожденной сложности и разнообразию, эффективно моделируют среды с богатым текстом в реальном мире. Мы также проводим тщательную оценку, включающую 34 ведущих МБЯМ (включая GPT-4V, Gemini-Pro-Vision и Claude-3-Opus) и акцентируем на текущих ограничениях МБЯМ в визуальном понимании текста. Мы надеемся, что наша работа может стать ценным дополнением к существующим бенчмаркам МБЯМ, предоставляя содержательные наблюдения и вдохновляя на дальнейшие исследования в области визуального понимания с богатым текстом при помощи МБЯМ. Набор данных и код оценки доступны по ссылке https://github.com/AILab-CVC/SEED-Bench.