Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем FinTral — набор современных мультимодальных больших языковых моделей (LLM), созданных на основе модели Mistral-7b и адаптированных для финансового анализа. FinTral интегрирует текстовые, числовые, табличные и графические данные. Мы улучшили FinTral с помощью предметно-ориентированного предобучения, тонкой настройки на инструкциях и обучения с использованием RLAIF, используя обширную коллекцию текстовых и визуальных наборов данных, которые мы подготовили для этой работы. Мы также представляем расширенный бенчмарк, включающий девять задач и 25 наборов данных для оценки, в том числе анализ галлюцинаций в финансовой области. Наша модель FinTral, обученная с оптимизацией прямых предпочтений с использованием передовых инструментов и методов поиска, названная FinTral-DPO-T&R, демонстрирует исключительную производительность в условиях zero-shot. Она превосходит ChatGPT-3.5 во всех задачах и опережает GPT-4 в пяти из девяти задач, что знаменует значительный прогресс в области искусственного интеллекта для финансовых технологий. Мы также показываем, что FinTral обладает потенциалом для эффективного анализа в реальном времени и принятия решений в различных финансовых контекстах.
Природа бесконечно свободна от ограничений по разрешению. В контексте этой реальности существующие диффузионные модели, такие как Diffusion Transformers, часто сталкиваются с трудностями при обработке изображений с разрешениями, выходящими за пределы их обучаемой области. Чтобы преодолеть это ограничение, мы представляем Flexible Vision Transformer (FiT) — архитектуру трансформера, специально разработанную для генерации изображений с неограниченными разрешениями и соотношениями сторон. В отличие от традиционных методов, которые воспринимают изображения как статичные сетки фиксированного разрешения, FiT концептуализирует изображения как последовательности динамически изменяемых токенов. Такой подход позволяет реализовать гибкую стратегию обучения, которая легко адаптируется к различным соотношениям сторон как на этапе обучения, так и на этапе вывода, способствуя обобщению по разрешению и устраняя искажения, вызванные обрезкой изображений. Благодаря тщательно настроенной структуре сети и интеграции методов экстраполяции, не требующих дополнительного обучения, FiT демонстрирует выдающуюся гибкость в генерации экстраполяции разрешений. Комплексные эксперименты подтверждают исключительную производительность FiT в широком диапазоне разрешений, демонстрируя его эффективность как в пределах, так и за пределами распределения разрешений, использованного при обучении. Репозиторий доступен по адресу https://github.com/whlzy/FiT.
Мы представляем AnyGPT, универсальную мультимодальную языковую модель, которая использует дискретные представления для единой обработки различных модальностей, включая речь, текст, изображения и музыку. AnyGPT может быть стабильно обучена без каких-либо изменений в текущей архитектуре крупных языковых моделей (LLM) или парадигмах обучения. Вместо этого она полагается исключительно на предварительную обработку данных, что облегчает бесшовную интеграцию новых модальностей в LLM, аналогично добавлению новых языков. Мы создаем мультимодальный текстоцентричный набор данных для предварительного обучения мультимодального выравнивания. Используя генеративные модели, мы синтезируем первый крупномасштабный набор данных для универсальных мультимодальных инструкций. Он состоит из 108 тысяч примеров многоходовых диалогов, которые сложно переплетают различные модальности, что позволяет модели обрабатывать произвольные комбинации мультимодальных входных и выходных данных. Экспериментальные результаты показывают, что AnyGPT способна поддерживать универсальные мультимодальные диалоги, достигая производительности, сопоставимой со специализированными моделями во всех модальностях, что доказывает, что дискретные представления могут эффективно и удобно объединять несколько модальностей в рамках языковой модели. Демонстрации доступны по адресу: https://junzhan2000.github.io/AnyGPT.github.io/
Спекулятивное декодирование — это известный метод ускорения вывода большой целевой языковой модели на основе предсказаний вспомогательной черновой модели. Хотя этот метод эффективен, в задачах, специфичных для конкретных приложений, он часто требует тонкой настройки как черновой, так и целевой моделей для достижения высоких показателей принятия предсказаний. С увеличением числа задач это приводит к значительному усложнению систем вывода. Мы предлагаем метод **Speculative Streaming** — подход к спекулятивному декодированию с использованием одной модели, который интегрирует процесс создания черновика в целевую модель, изменяя цель тонкой настройки с предсказания следующего токена на предсказание будущих n-грамм. Speculative Streaming ускоряет декодирование в 1,8–3,1 раза в различных задачах, таких как суммаризация, структурированные запросы и представление смысла, без ущерба для качества генерации. Кроме того, Speculative Streaming является параметрически эффективным. Он достигает сопоставимых или более высоких показателей ускорения по сравнению с архитектурами в стиле Medusa, используя при этом примерно в 10 000 раз меньше дополнительных параметров, что делает его подходящим для устройств с ограниченными ресурсами.
Квантование моделей использует значения с низкой разрядностью для представления весовых матриц моделей, что является перспективным подходом для снижения как затрат на хранение, так и вычислительных затрат при развертывании высоко ожидаемых больших языковых моделей (LLM). Однако существующие методы квантования страдают от значительного ухудшения производительности при крайнем снижении разрядности и поэтому сосредоточены на использовании 4-битных или 8-битных значений для квантования моделей. В данной статье смело квантуются весовые матрицы LLM до 1 бита, прокладывая путь для развертывания LLM с крайне низкой разрядностью. Для достижения этой цели мы представляем 1-битную структуру квантования с учетом обучения (QAT) под названием OneBit, включающую новый метод представления 1-битных параметров для более эффективного квантования LLM, а также эффективный метод инициализации параметров на основе матричного разложения для улучшения скорости сходимости структуры QAT. Многочисленные экспериментальные результаты показывают, что OneBit демонстрирует хорошую производительность (не менее 83% от неквантованной производительности) с устойчивыми процессами обучения при использовании только 1-битных весовых матриц.
Крупные языковые модели (LLM) продемонстрировали широкий спектр возможностей, таких как написание кода для роботов на основе языковых команд, что позволяет неспециалистам управлять поведением роботов, корректировать его на основе обратной связи или комбинировать для выполнения новых задач. Однако эти возможности (основанные на обучении в контексте) ограничены краткосрочными взаимодействиями, где обратная связь пользователя остается актуальной только до тех пор, пока она укладывается в размер контекста LLM, и может быть забыта в более длительных взаимодействиях. В данной работе мы исследуем тонкую настройку LLM, генерирующих код для роботов, чтобы они запоминали свои контекстные взаимодействия и улучшали свою обучаемость, то есть насколько эффективно они адаптируются к человеческим вводам (измеряется средним количеством исправлений до того, как пользователь сочтет задачу успешной). Наше ключевое наблюдение заключается в том, что когда взаимодействия человека и робота формулируются как частично наблюдаемый марковский процесс принятия решений (где языковые вводы человека являются наблюдениями, а выходы кода робота — действиями), то обучение LLM завершать предыдущие взаимодействия можно рассматривать как обучение модели динамики переходов, которую можно комбинировать с классическими методами робототехники, такими как прогнозирующее управление на основе модели (MPC), для поиска более коротких путей к успеху. Это приводит к созданию Language Model Predictive Control (LMPC) — фреймворка, который тонко настраивает PaLM 2 для улучшения его обучаемости на 78 задачах для 5 различных реализаций роботов, повышая успешность обучения неспециалистов новым задачам на 26,9% и сокращая среднее количество человеческих исправлений с 2,4 до 1,9. Эксперименты показывают, что LMPC также создает сильных мета-обучающихся, повышая успешность обучения в контексте новым задачам для неизвестных реализаций роботов и API на 31,5%. Видео, код и демонстрации доступны по ссылке: https://robot-teaching.github.io/.
Замечательный успех крупных языковых моделей (LLM) и настройки по инструкциям стимулирует развитие моделей, объединяющих зрение и язык (VLM), в сторону универсальных моделей общего назначения. Однако остается неисследованным, обладают ли современные VLM действительно качественными возможностями понимания объектов на уровне изображения, определяемыми вопросами «какие объекты присутствуют на изображении?» или «какой объект соответствует указанной ограничивающей рамке?». Наши результаты показывают, что способности современных VLM к пониманию изображений тесно связаны с их производительностью на задачах, объединяющих зрение и язык (VL), в условиях zero-shot. Это свидетельствует о том, что приоритетное внимание к базовому пониманию изображений имеет решающее значение для успеха VLM в задачах VL. Для улучшения понимания объектов на уровне изображений мы предлагаем модель Crayon Large Language and Vision mOdel (CoLLaVO), которая включает настройку по инструкциям с использованием подсказок в виде цветных карандашей в качестве новой схемы визуальной настройки на основе панорамных цветовых карт. Кроме того, мы представляем стратегию обучения Dual QLoRA, которая позволяет сохранять понимание объектов на уровне изображения, не забывая его в процессе визуальной настройки по инструкциям, что приводит к значительному прорыву в производительности на множестве бенчмарков VL в условиях zero-shot.
Качество данных для тонкой настройки имеет решающее значение для согласования крупных языковых моделей (LLM) с человеческими ценностями. Современные методы улучшения качества данных либо требуют значительных трудозатрат, либо подвержены фактологическим ошибкам, вызванным галлюцинациями LLM. В данной статье исследуется повышение качества существующих инструктивных данных для лучшего согласования с человеческими ценностями, предлагая простой и эффективный подход под названием ReAlign, который преобразует ответы инструктивных данных в формат, лучше соответствующий заранее установленным критериям и собранным доказательствам. Этот подход минимизирует необходимость аннотирования человеком, галлюцинации и сложности масштабирования, оставаясь ортогональным существующим методам согласования. Экспериментально ReAlign значительно улучшает общую способность к согласованию, математическое мышление, фактологическую точность и читаемость LLM. Обнадеживающе, без введения дополнительных данных или сложных методов обучения, и лишь за счет преобразования ответа, способность LLaMA-2-13B к математическому мышлению на GSM8K улучшается с 46,77% до 56,63% по точности. Кроме того, всего 5% данных ReAlign дают 67% улучшение общей способности к согласованию, измеренной на наборе данных Alpaca. Эта работа подчеркивает необходимость дальнейших исследований в области науки и механистической интерпретируемости LLM. Мы сделали связанный код и данные общедоступными для поддержки будущих исследований по адресу https://github.com/GAIR-NLP/ReAlign.
Крупные языковые модели (LLM) продемонстрировали впечатляющие результаты в понимании языка и выполнении сложных задач логического рассуждения. Однако LLM с длинными контекстными окнами печально известны своими высокими затратами на обучение и значительной задержкой при выводе. Даже самые передовые модели, такие как GPT-4 и Claude2, часто допускают ошибки при обработке входных данных объемом более 100 тысяч токенов — явление, известное как "потеря в середине". В данной статье мы предлагаем LongAgent — метод, основанный на многоагентном взаимодействии, который масштабирует LLM (например, LLaMA) до контекста в 128 тысяч токенов и демонстрирует потенциальное превосходство в обработке длинных текстов по сравнению с GPT-4. В LongAgent лидер отвечает за понимание намерений пользователя и направляет членов команды на извлечение информации из документов. Из-за галлюцинаций членов команды лидеру непросто получить точную информацию из ответов десятков или сотен участников. Для решения этой проблемы мы разработали механизм взаимодействия между членами команды, который устраняет конфликты в ответах, вызванные галлюцинациями, путем обмена информацией. Наши экспериментальные результаты показывают, что LongAgent предлагает перспективную альтернативу для обработки длинных текстов. Команда агентов, реализованная на основе LLaMA-7B, демонстрирует значительные улучшения в задачах, таких как поиск в текстах длиной 128 тысяч токенов и многошаговое ответы на вопросы, по сравнению с GPT-4.
Современные языковые модели демонстрируют впечатляющие способности к уточнению рассуждений в задачах по математике, естественным наукам или программированию. Однако недавние исследования показывают, что даже лучшие модели испытывают трудности с определением момента и места для уточнения без доступа к внешней обратной связи. Модели вознаграждения, основанные на результатах (Outcome-based Reward Models, ORMs), обученные предсказывать правильность конечного ответа и указывать, когда следует уточнять, предлагают удобное решение для принятия таких решений. Модели вознаграждения, основанные на процессе (Process Based Reward Models, PRMs), обученные предсказывать правильность промежуточных шагов, могут затем использоваться для указания места уточнения. Однако их обучение требует значительных затрат, включая обширные аннотации, созданные человеком. В данной работе мы предлагаем пошаговые ORMs (Stepwise ORMs, SORMs), которые обучаются исключительно на синтетических данных для аппроксимации ожидаемого будущего вознаграждения оптимальной политики или \(V^{\star}\). Более конкретно, SORMs обучаются предсказывать правильность конечного ответа при многократной выборке из текущей политики (в отличие от ORMs, где выборка происходит только один раз). Наши эксперименты показывают, что SORMs могут более точно обнаруживать ошибочные шаги рассуждений по сравнению с ORMs, что улучшает точность последующих уточнений. Затем мы обучаем глобальные модели уточнения, которые принимают на вход только вопрос и черновое решение, предсказывая исправленное решение, а также локальные модели уточнения, которые дополнительно принимают на вход критику, указывающую на место первой ошибки в рассуждениях. Мы генерируем обучающие данные для обеих моделей синтетически, повторно используя данные, применявшиеся для обучения SORM. Мы обнаруживаем, что комбинация глобальных и локальных уточнений с использованием ORM в качестве ранжировщика значительно превосходит каждый из подходов по отдельности, а также базовый подход с выборкой лучшего из трех образцов. С помощью этой стратегии мы можем повысить точность модели LLaMA-2 13B (уже дообученной с использованием обучения с подкреплением) на наборе данных GSM8K с 53\% до 65\% при жадной выборке.
Хотя алгоритмы синтеза видов на основе поверхностей привлекательны благодаря своим низким вычислительным требованиям, они часто испытывают трудности с воспроизведением тонких структур. В отличие от них, более ресурсоемкие методы, которые моделируют геометрию сцены как объемное поле плотности (например, NeRF), превосходно справляются с восстановлением мелких геометрических деталей. Однако поля плотности часто представляют геометрию в "размытом" виде, что затрудняет точное определение местоположения поверхности. В данной работе мы модифицируем поля плотности, чтобы стимулировать их сходимость к поверхностям, не жертвуя при этом способностью восстанавливать тонкие структуры. Во-первых, мы используем дискретное представление сетки непрозрачности вместо непрерывного поля плотности, что позволяет значениям непрозрачности скачкообразно изменяться от нуля до единицы на поверхности. Во-вторых, мы применяем антиалиасинг, отправляя несколько лучей на пиксель, что позволяет моделировать границы окклюзии и субпиксельные структуры без использования полупрозрачных вокселей. В-третьих, мы минимизируем бинарную энтропию значений непрозрачности, что облегчает извлечение геометрии поверхности, стимулируя бинаризацию значений непрозрачности к концу обучения. Наконец, мы разрабатываем стратегию создания сетки на основе слияния, за которой следует упрощение сетки и подгонка модели внешнего вида. Компактные сетки, созданные нашей моделью, могут быть визуализированы в реальном времени на мобильных устройствах и обеспечивают значительно более высокое качество синтеза видов по сравнению с существующими подходами на основе сеток.
В данной статье представлен новый метод для осуществления детализированного управления освещением в процессе генерации изображений на основе текстовых описаний с использованием диффузионных моделей. Хотя существующие диффузионные модели уже способны генерировать изображения при любых условиях освещения, без дополнительных указаний эти модели склонны связывать содержание изображения с освещением. Более того, текстовые запросы не обладают достаточной выразительной силой для описания детализированных настроек освещения. Чтобы предоставить создателю контента возможность детализированного управления освещением в процессе генерации изображений, мы дополняем текстовый запрос подробной информацией об освещении в виде радиационных подсказок, то есть визуализаций геометрии сцены с однородным каноническим материалом при целевом освещении. Однако геометрия сцены, необходимая для создания радиационных подсказок, неизвестна. Наше ключевое наблюдение заключается в том, что нам нужно лишь направлять процесс диффузии, поэтому точные радиационные подсказки не обязательны; достаточно лишь указать диффузионной модели правильное направление. На основе этого наблюдения мы представляем трехэтапный метод управления освещением в процессе генерации изображений. На первом этапе мы используем стандартную предобученную диффузионную модель для создания промежуточного изображения при неуправляемом освещении. Затем, на втором этапе, мы повторно синтезируем и уточняем объект переднего плана в сгенерированном изображении, передавая целевое освещение в усовершенствованную диффузионную модель, названную DiLightNet, с использованием радиационных подсказок, вычисленных на основе грубой формы объекта переднего плана, выведенной из промежуточного изображения. Чтобы сохранить детали текстуры, мы умножаем радиационные подсказки на нейронное кодирование промежуточного синтезированного изображения перед передачей в DiLightNet. Наконец, на третьем этапе мы повторно синтезируем фон, чтобы он соответствовал освещению на объекте переднего плана. Мы демонстрируем и проверяем нашу диффузионную модель с управляемым освещением на различных текстовых запросах и условиях освещения.
Несмотря на впечатляющие возможности моделей, работающих с визуальными и языковыми данными (VLMs), в качестве универсальных визуальных ассистентов, в существующих рамках VLMs сохраняются две существенные проблемы: (1) недостаточное разнообразие задач на этапах предварительного обучения и настройки визуальных инструкций, и (2) ошибки аннотаций и смещения в данных для настройки инструкций, синтезированных GPT-4. Обе проблемы приводят к таким недостаткам, как низкая обобщаемость, галлюцинации и катастрофическое забывание. Для решения этих проблем мы создали Vision-Flan — наиболее разнообразный общедоступный набор данных для настройки визуальных инструкций, включающий 187 разнообразных задач и 1 664 261 примеров, взятых из академических наборов данных, причем каждая задача сопровождается инструкцией, написанной экспертом. Кроме того, мы предлагаем двухэтапную структуру настройки инструкций, в которой VLMs сначала донастраиваются на Vision-Flan, а затем дополнительно настраиваются на данных, синтезированных GPT-4. Мы обнаружили, что эта двухэтапная структура настройки значительно превосходит традиционную одноэтапную структуру настройки визуальных инструкций и достигает наилучших результатов на широком спектре многомодальных оценочных тестов. Наконец, мы провели углубленный анализ, чтобы понять настройку визуальных инструкций, и наши выводы показывают, что: (1) данные, синтезированные GPT-4, не существенно улучшают возможности VLMs, а скорее корректируют ответы модели в соответствии с предпочитаемыми человеком форматами; (2) минимальное количество (например, 1 000) данных, синтезированных GPT-4, может эффективно согласовать ответы VLMs с предпочтениями человека; (3) настройка визуальных инструкций в основном помогает крупным языковым моделям (LLMs) понимать визуальные особенности.
Авторегрессионные модели достигли впечатляющих результатов в генерации 2D-изображений, моделируя совместные распределения в пространстве сетки. В данной работе мы расширяем авторегрессионные модели на 3D-области и стремимся к повышению способности генерации 3D-форм, одновременно улучшая их емкость и масштабируемость. Во-первых, мы используем ансамбль общедоступных 3D-наборов данных для облегчения обучения крупномасштабных моделей. Он состоит из обширной коллекции, включающей примерно 900 000 объектов, с множеством свойств, таких как меши, точки, воксели, рендеренные изображения и текстовые описания. Этот разнообразный размеченный набор данных, названный Objaverse-Mix, позволяет нашей модели обучаться на широком спектре вариаций объектов. Однако прямое применение 3D-авторегрессии сталкивается с критическими проблемами высоких вычислительных затрат на объемные сетки и неоднозначного порядка авторегрессии по измерениям сетки, что приводит к низкому качеству 3D-форм. Для решения этих проблем мы представляем новую архитектуру Argus3D, ориентированную на повышение емкости. Конкретно, наш подход вводит дискретное обучение представлений на основе латентного вектора вместо объемных сеток, что не только снижает вычислительные затраты, но и сохраняет важные геометрические детали, обучая совместные распределения в более управляемом порядке. Емкость условной генерации может быть реализована путем простого объединения различных условных входных данных с латентным вектором, таких как облака точек, категории, изображения и тексты. Кроме того, благодаря простоте архитектуры нашей модели, мы естественным образом масштабируем наш подход до более крупной модели с впечатляющими 3,6 миллиардами параметров, что дополнительно повышает качество универсальной 3D-генерации. Многочисленные эксперименты на четырех задачах генерации демонстрируют, что Argus3D способен синтезировать разнообразные и точные формы в различных категориях, достигая выдающихся результатов.