Ежедневно отобранные исследовательские статьи по ИИ с переводами
Корпоративные документы, такие как формы, счета, квитанции, отчеты, контракты и другие подобные записи, часто содержат богатую семантику на пересечении текстовых и пространственных модальностей. Визуальные подсказки, предоставляемые их сложной структурой, играют ключевую роль в эффективном понимании этих документов. В данной статье мы представляем DocLLM — легковесное расширение традиционных больших языковых моделей (LLM) для анализа визуальных документов, учитывающее как текстовую семантику, так и пространственную структуру. Наша модель отличается от существующих мультимодальных LLM тем, что избегает использования ресурсоемких кодировщиков изображений и сосредоточена исключительно на информации о граничных рамках для включения структуры пространственного расположения. В частности, перекрестное согласование между текстовыми и пространственными модальностями достигается за счет декомпозиции механизма внимания в классических трансформерах на набор разъединенных матриц. Кроме того, мы разработали цель предварительного обучения, которая учится заполнять текстовые сегменты. Этот подход позволяет нам работать с нерегулярными структурами и разнородным контентом, часто встречающимися в визуальных документах. Предварительно обученная модель дорабатывается с использованием крупномасштабного набора данных с инструкциями, охватывающего четыре основные задачи интеллектуальной обработки документов. Мы показываем, что наше решение превосходит современные LLM на 14 из 16 наборов данных по всем задачам и хорошо обобщается на 4 из 5 ранее не встречавшихся наборов данных.
В данной статье мы представляем новый и простой метод получения высококачественных текстовых эмбеддингов, использующий только синтетические данные и менее 1000 шагов обучения. В отличие от существующих подходов, которые часто зависят от многоэтапного промежуточного предобучения на миллиардах слабо аннотированных текстовых пар с последующим тонким настраиванием на нескольких размеченных наборах данных, наш метод не требует создания сложных обучающих конвейеров или использования вручную собранных данных, которые часто ограничены разнообразием задач и охватом языков. Мы используем проприетарные большие языковые модели (LLM) для генерации разнообразных синтетических данных для сотен тысяч задач текстового эмбеддинга на почти 100 языках. Затем мы тонко настраиваем открытые декодер-ориентированные LLM на синтетических данных, используя стандартную контрастную функцию потерь. Эксперименты показывают, что наш метод демонстрирует высокую производительность на конкурентных бенчмарках текстовых эмбеддингов без использования каких-либо размеченных данных. Более того, при тонкой настройке на смеси синтетических и размеченных данных наша модель устанавливает новые рекорды на бенчмарках BEIR и MTEB.
Использование силы данных, аннотированных человеком, посредством контролируемой тонкой настройки (Supervised Fine-Tuning, SFT) является ключевым для развития крупных языковых моделей (Large Language Models, LLMs). В данной статье мы исследуем возможность превращения слабой LLM в мощную без необходимости получения дополнительных данных, аннотированных человеком. Мы предлагаем новый метод тонкой настройки под названием Self-Play fIne-tuNing (SPIN), который начинается с модели, прошедшей контролируемую тонкую настройку. В основе SPIN лежит механизм самоигры, в рамках которого LLM совершенствует свои способности, играя против собственных экземпляров. Более конкретно, LLM генерирует свои собственные обучающие данные на основе предыдущих итераций, улучшая свою политику, различая эти самостоятельно сгенерированные ответы и те, что получены из данных, аннотированных человеком. Наш метод постепенно превращает LLM из начальной модели в мощную, раскрывая весь потенциал данных, аннотированных человеком, для SFT. Теоретически мы доказываем, что глобальный оптимум целевой функции обучения нашего метода достигается только тогда, когда политика LLM соответствует целевому распределению данных. Эмпирически мы оцениваем наш метод на нескольких эталонных наборах данных, включая HuggingFace Open LLM Leaderboard, MT-Bench и наборы данных из Big-Bench. Наши результаты показывают, что SPIN может значительно улучшить производительность LLM на различных тестах и даже превзойти модели, обученные с помощью прямой оптимизации предпочтений (Direct Preference Optimization, DPO), дополненной дополнительными данными предпочтений GPT-4. Это открывает перспективы для самоигры, позволяя достичь уровня производительности, сопоставимого с человеческим, в LLM без необходимости участия экспертов-оппонентов.
В последнее время были достигнуты значительные успехи в области больших языковых моделей (LLM), примером чего является ChatGPT, демонстрирующий впечатляющую эффективность в решении широкого спектра сложных задач. Однако многие популярные LLM (например, LLaMA) предварительно обучаются на корпусах с преобладанием английского языка, что ограничивает их производительность в других языках. В данной статье мы сосредоточиваемся на том, как эффективно перенести способности генерации текста и выполнения инструкций на неанглийский язык. Чтобы ответить на этот вопрос, мы проводим масштабное эмпирическое исследование на основе LLaMA, накопленное за более чем 1440 GPU-часов. Мы анализируем влияние ключевых факторов, таких как расширение словаря, дополнительное предварительное обучение и настройка на выполнение инструкций, на процесс переноса. Для точной оценки уровня знаний модели мы используем четыре широко применяемых стандартизированных тестовых набора: C-Eval, MMLU, AGI-Eval и GAOKAO-Bench. Кроме того, проводится всесторонняя оценка качества ответов модели с учетом таких аспектов, как точность, беглость, информативность, логическая связность и безопасность, на основе LLM-Eval — набора тестов, состоящего из задач с инструкциями из 17 различных категорий. Наши результаты оценки показывают, что сопоставимая с современными моделями переноса производительность может быть достигнута с использованием менее 1% данных для предварительного обучения, как с точки зрения соответствия знаний, так и качества ответов. Более того, экспериментальные результаты для тринадцати языков с ограниченными ресурсами также демонстрируют схожие тенденции. Мы ожидаем, что выводы, полученные в ходе экспериментов, помогут сообществу в разработке неанглийских LLM.
Эмпирические законы масштабирования больших языковых моделей (LLM) представляют собой формулы, которые оценивают изменения качества модели в результате увеличения количества параметров и объема обучающих данных. Однако эти формулы, включая популярные законы масштабирования DeepMind Chinchilla, не учитывают стоимость выполнения вывода (inference). Мы модифицируем законы Chinchilla, чтобы рассчитать оптимальное количество параметров LLM и объем предварительных обучающих данных для обучения и развертывания модели заданного качества и требований к выводу. Мы проводим наш анализ как с точки зрения вычислительного бюджета, так и реальных затрат и обнаруживаем, что исследователи LLM, ожидающие значительного спроса на вывод (~1 млрд запросов), должны обучать модели меньшего размера и дольше, чем это оптимально по Chinchilla.
В данной работе исследуется способность крупных языковых моделей (LLM) обрабатывать длинные контексты без необходимости тонкой настройки. Ограниченная длина обучающей последовательности во время тренировки может ограничивать применение LLM на длинных входных последовательностях при выводе. В этой работе мы утверждаем, что существующие LLM сами по себе обладают встроенными возможностями для обработки длинных контекстов. Основываясь на этом утверждении, мы предлагаем расширять контекстное окно LLM самостоятельно, чтобы полностью использовать их встроенные способности. Мы предлагаем метод Self-Extend для стимулирования потенциала LLM в обработке длинных контекстов. Основная идея заключается в построении двухуровневой информации внимания: на уровне групп и на уровне соседей. Оба уровня вычисляются с использованием оригинального механизма самовнимания модели, что означает, что предложенный метод не требует дополнительного обучения. Всего с четырьмя строками изменений в коде предложенный метод может легко расширить контекстное окно существующих LLM без какой-либо тонкой настройки. Мы проводим всесторонние эксперименты, и результаты показывают, что предложенный метод эффективно увеличивает длину контекстного окна существующих LLM.
Высокая стоимость полной настройки всех параметров (FFT) больших языковых моделей (LLMs) привела к появлению ряда методов эффективной настройки параметров (PEFT). Однако до сих пор неясно, какие методы обеспечивают наилучший баланс между затратами и производительностью для моделей разного масштаба. Мы представляем Astraios — набор из 28 моделей OctoCoder, настроенных на выполнение инструкций, с использованием 7 методов настройки и 4 размеров моделей до 16 миллиардов параметров. В ходе исследований на 5 задачах и 8 различных наборах данных, охватывающих как задачи понимания, так и генерации кода, мы обнаружили, что FFT, как правило, обеспечивает наилучшую производительность на всех масштабах, а эффективность методов PEFT значительно варьируется в зависимости от размера модели. LoRA обычно предлагает наиболее выгодный компромисс между затратами и производительностью. Дальнейшее изучение влияния этих методов на устойчивость моделей и безопасность кода показывает, что более крупные модели склонны демонстрировать сниженную устойчивость и меньшую безопасность. Наконец, мы исследуем взаимосвязь между обновленными параметрами, кросс-энтропийными потерями и производительностью на задачах. Мы обнаружили, что эффективность настройки, наблюдаемая в небольших моделях, хорошо обобщается на более крупные модели, а потери на валидации при настройке на выполнение инструкций могут быть надежным индикатором общей производительности на последующих задачах.
Недавние инновации и прорывы в области диффузионных моделей значительно расширили возможности генерации высококачественных видео по заданным запросам. Большинство существующих работ сосредоточено на сценариях с одной сценой, где происходит только одно событие в едином фоне. Однако расширение до генерации многосценовых видео является нетривиальной задачей и требует грамотного управления логикой между сценами при сохранении визуальной согласованности ключевого контента. В данной статье мы предлагаем новую структуру, названную VideoDrafter, для генерации многосценовых видео с сохранением контентной согласованности. Технически VideoDrafter использует большие языковые модели (LLM) для преобразования входного запроса в детализированный многосценовый сценарий, который извлекает выгоду из логических знаний, усвоенных LLM. Сценарий для каждой сцены включает описание события, сущности переднего плана/фона, а также движение камеры. VideoDrafter идентифицирует общие сущности по всему сценарию и запрашивает у LLM детализацию каждой сущности. Полученное описание сущности затем передается в текстово-изобразительную модель для генерации эталонного изображения для каждой сущности. В итоге VideoDrafter создает многосценовое видео, генерируя каждую сцену с помощью диффузионного процесса, который учитывает эталонные изображения, описательный запрос события и движение камеры. Диффузионная модель использует эталонные изображения в качестве условия и выравнивания для усиления контентной согласованности многосценовых видео. Многочисленные эксперименты демонстрируют, что VideoDrafter превосходит современные модели генерации видео по визуальному качеству, контентной согласованности и предпочтениям пользователей.
Крупные языковые модели (LLM) продемонстрировали выдающиеся способности в понимании и генерации текста, который близко имитирует человеческое общение. Однако основное ограничение заключается в значительных вычислительных затратах во время обучения, вызванных их обширной параметризацией. Эта проблема усугубляется динамической природой мира, что требует частого обновления LLM для исправления устаревшей информации или интеграции новых знаний, обеспечивая их актуальность. Следует отметить, что многие приложения требуют постоянной корректировки моделей после обучения для устранения недостатков или нежелательного поведения. В последнее время растет интерес к эффективным и легковесным методам модификации моделей на лету. В связи с этим в последние годы активно развиваются методы редактирования знаний для LLM, которые направлены на эффективное изменение поведения моделей в определенных областях при сохранении общей производительности на различных входных данных. В данной статье мы сначала определяем проблему редактирования знаний, а затем предоставляем всесторонний обзор современных подходов. Вдохновляясь теориями из области образования и когнитивных исследований, мы предлагаем унифицированный критерий классификации, который разделяет методы редактирования знаний на три группы: использование внешних знаний, интеграция знаний в модель и редактирование внутренних знаний. Кроме того, мы представляем новый бенчмарк KnowEdit для всесторонней эмпирической оценки репрезентативных подходов к редактированию знаний. Дополнительно мы проводим углубленный анализ локализации знаний, который может дать более глубокое понимание структур знаний, присущих LLM. Наконец, мы обсуждаем несколько потенциальных приложений редактирования знаний, подчеркивая его широкие и значимые последствия.
В эволюции предобучения моделей для обработки зрения и языка переход от понимания коротких текстов к охвату расширенных текстовых контекстов является ключевым. Недавние авторегрессивные модели, такие как Flamingo и PALME, использующие способность больших языковых моделей работать с длинными контекстами, преуспели в задачах генерации текста с малым количеством примеров, но сталкиваются с трудностями в задачах согласования. Для устранения этого пробела мы вводим контрастную функцию потерь в модели генерации текста, представляя фреймворк COntrastive-Streamlined MultimOdal (\ModelName), который стратегически разделяет языковую модель на компоненты, специализирующиеся на обработке унимодальных текстов и умело работающие с мультимодальными данными. \ModelName, наш унифицированный фреймворк, объединяет унимодальные и мультимодальные элементы, повышая производительность модели в задачах, связанных с текстовыми и визуальными данными, при этом значительно сокращая количество обучаемых параметров. Однако такие модели требуют обширных наборов данных с длинными текстами, в то время как доступность высококачественных наборов данных с длинными текстами для видео остается ограниченной. Для устранения этого пробела данная работа представляет \VideoDatasetName, первый набор данных с чередующимися видео и текстами, содержащий подробные описания, что является значительным шагом вперед. Продемонстрировав его влияние, мы показываем, как \VideoDatasetName улучшает производительность модели в задачах обработки изображений и текстов. С 34% обучаемых параметров и использованием 72% доступных данных наша модель демонстрирует значительное превосходство над OpenFlamingo~openflamingo. Например, в задаче генерации подписей к изображениям Flickr с 4 примерами производительность заметно улучшается с 57,2% до 65%. Вклад \ModelName и \VideoDatasetName подчеркивается значительным улучшением производительности на 14 различных наборах данных, охватывающих как задачи обработки изображений и текстов, так и видео и текстов.
В современных подходах к генерации видео из текста (Text-to-Video, T2V) достижение управляемости в синтезированном видео часто представляет собой сложную задачу. Обычно эта проблема решается путем предоставления низкоуровневых подсказок на уровне отдельных кадров в виде карт границ, карт глубины или существующего видео, которое требуется изменить. Однако процесс получения таких подсказок может быть трудоемким. В данной статье основное внимание уделяется повышению управляемости в синтезе видео с использованием простых ограничивающих рамок (bounding boxes) для направления объекта различными способами, при этом без необходимости обучения нейронной сети, дообучения, оптимизации на этапе вывода или использования предварительно существующих видео. Наш алгоритм, TrailBlazer, построен на основе предварительно обученной модели T2V и прост в реализации. Объект направляется ограничивающей рамкой через предложенное редактирование пространственных и временных карт внимания. Кроме того, мы вводим концепцию ключевых кадров (keyframing), позволяющую направлять траекторию объекта и его общий вид с помощью движущейся ограничивающей рамки и соответствующих текстовых подсказок, без необходимости предоставления детализированной маски. Метод является эффективным, с незначительными дополнительными вычислениями по сравнению с базовой предварительно обученной моделью. Несмотря на простоту управления с помощью ограничивающих рамок, результирующее движение оказывается удивительно естественным, с возникающими эффектами, включая перспективу и движение в сторону виртуальной камеры по мере увеличения размера рамки.
Крупные языковые модели (LLM) достигли значительных успехов в обработке естественного языка и одновременно расширяют языковые способности на другие модальности, такие как речь и зрение. Тем не менее, большинство предыдущих работ сосредоточено на наделении LLM способностями восприятия, такими как слуховое понимание, в то время как эффективный подход к расширению LLM возможностями синтеза речи остается неясным. В данной статье мы проводим всестороннее эмпирическое исследование по наделению LLM способностью генерировать речь, комбинируя предобученные модели LLaMA/OPT и модель синтеза речи VALL-E. Мы сравниваем три метода интеграции LLM и моделей синтеза речи, включая прямое тонкое обучение LLM, наложение слоев LLM и VALL-E, а также связанные LLM и VALL-E с использованием LLM в качестве мощного текстового энкодера. Результаты экспериментов показывают, что использование метода LoRA для прямого тонкого обучения LLM с целью улучшения способности синтеза речи не дает хороших результатов, а наложение LLM и VALL-E может улучшить качество генерируемой речи как по сходству с голосом, так и по частоте ошибок в словах (WER). Среди этих трех методов связанные методы, использующие LLM в качестве текстового энкодера, демонстрируют наилучшие результаты, превосходя оригинальные модели синтеза речи с более высоким сходством голоса и значительным (10,9%) снижением WER.
Обучение крупномасштабных языковых моделей становится все более важным в различных областях, однако этот процесс затрудняется частыми сбоями, что приводит к значительным временным и экономическим затратам. Современные методы восстановления после сбоев в облачных средах недостаточно эффективно справляются с разнообразными и сложными сценариями, сосредотачиваясь исключительно на устранении простоев для отдельных задач без учета общего влияния на стоимость работы кластера. Мы представляем Unicron, менеджер рабочих нагрузок, разработанный для эффективного самовосстановления при обучении крупномасштабных языковых моделей. Unicron оптимизирует процесс обучения, минимизируя затраты, связанные со сбоями, для множества параллельных задач в рамках кластера. Его ключевые особенности включают встроенное обнаружение ошибок для их идентификации в реальном времени без дополнительных накладных расходов, механизм динамического формирования планов с учетом стоимости для оптимальной переконфигурации, а также эффективную стратегию перехода для сокращения времени простоя при изменении состояний. Развернутый на распределенном кластере из 128 графических процессоров, Unicron демонстрирует до 1,9-кратное улучшение эффективности обучения по сравнению с передовыми методами, значительно снижая затраты на восстановление после сбоев и повышая надежность обучения крупномасштабных языковых моделей.
С быстрым развитием моделей "Текст-в-Изображение" (T2I) в последние годы их неудовлетворительные результаты генерации стали серьезной проблемой. Однако универсальное улучшение изображений, созданных искусственным интеллектом (AIGI) разного качества, не только ограничивает возможности оптимизации для низкокачественных AIGI, но и приводит к негативной оптимизации для высококачественных. Для решения этой проблемы предложен улучшающий модуль Q-Refine, учитывающий качество. Основываясь на предпочтениях человеческой зрительной системы (HVS), Q-Refine впервые использует метрику оценки качества изображений (IQA) для управления процессом улучшения и модифицирует изображения разного качества через три адаптивных конвейера. Эксперименты показывают, что для основных моделей T2I Q-Refine способен эффективно оптимизировать AIGI различного качества. Он может служить универсальным инструментом для улучшения AIGI как с точки зрения точности, так и эстетического качества, расширяя таким образом область применения моделей генерации T2I.
Крупные языковые модели (LLM) достигли значительных успехов благодаря своей общей эрудиции и способности решать широкий спектр задач в области обработки естественного языка (NLP). Благодаря своим впечатляющим возможностям, LLM открыли перспективы для междисциплинарных применений, способствующих научным открытиям в конкретных областях с использованием искусственного интеллекта (AI for Science, AI4S). В то же время использование методов NLP в исследованиях и практике геонаук является обширным и сложным, начиная от извлечения знаний и классификации документов до вопросно-ответных систем и открытия новых знаний. В данной работе мы делаем первый шаг в направлении использования LLM для науки, применяя достаточно простой подход. Мы пытаемся специализировать LLM для геонаук, дополнительно предварительно обучая модель на большом объеме текстов из этой области, а также проводя контролируемую тонкую настройку (SFT) полученной модели с использованием собранного нами набора данных для настройки инструкций. Эти усилия привели к созданию модели GeoGalactica, состоящей из 30 миллиардов параметров. Насколько нам известно, это самая крупная языковая модель для области геонаук. Более конкретно, GeoGalactica была создана путем дополнительного предварительного обучения модели Galactica. Мы обучали GeoGalactica на корпусе текстов, связанных с геонауками, содержащем 65 миллиардов токенов, отобранных из обширных источников данных в рамках крупного научного проекта Deep-time Digital Earth (DDE), который является крупнейшим корпусом текстов, специфичных для геонаук. Затем мы провели тонкую настройку модели с использованием 1 миллиона пар данных для настройки инструкций, состоящих из вопросов, требующих профессиональных знаний в области геонаук для ответа. В этом техническом отчете мы подробно рассмотрим все аспекты GeoGalactica, включая сбор данных, очистку данных, выбор базовой модели, предварительное обучение, SFT и оценку. Мы открываем исходный код наших инструментов для курирования данных и контрольные точки GeoGalactica, полученные в течение первых 3/4 предварительного обучения.
Дистилляция оценок стала одним из наиболее распространенных подходов для синтеза 3D-ассетов из текста. По сути, дистилляция оценок обновляет параметры 3D-моделей путем поднятия и обратного распространения оценок, усредненных по различным ракурсам. В данной работе мы показываем, что оценка градиента в дистилляции оценок изначально подвержена высокой дисперсии. Через призму уменьшения дисперсии эффективность методов SDS и VSD можно интерпретировать как применение различных контрольных переменных к оценке Монте-Карло для дистиллированной оценки. Вдохновленные этим переосмыслением и основываясь на тождестве Стейна, мы предлагаем более общее решение для уменьшения дисперсии в дистилляции оценок, названное Stein Score Distillation (SSD). SSD включает контрольные переменные, построенные с использованием тождества Стейна, что позволяет использовать произвольные базовые функции. Это дает возможность включать гибкие априорные знания и архитектуры сетей для явной оптимизации с целью уменьшения дисперсии. В наших экспериментах общий конвейер, названный SteinDreamer, реализован путем использования контрольной переменной на основе монохромного оценщика глубины. Результаты показывают, что SSD эффективно снижает дисперсию дистилляции и последовательно улучшает визуальное качество как для генерации объектов, так и для сцен. Более того, мы демонстрируем, что SteinDreamer достигает более быстрой сходимости по сравнению с существующими методами благодаря более стабильным обновлениям градиента.