Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем семейство моделей Yi, серию языковых и мультимодальных моделей, демонстрирующих высокие многомерные возможности. Семейство моделей Yi основано на предварительно обученных языковых моделях объемом 6 миллиардов и 34 миллиарда токенов, после чего мы расширяем их до моделей для чатов, моделей с длинным контекстом в 200 тысяч токенов, моделей с увеличенной глубиной и моделей для видео-языкового взаимодействия. Наши базовые модели показывают высокую производительность на широком спектре бенчмарков, таких как MMLU, а наши донастроенные модели для чатов демонстрируют высокую оценку предпочтения человека на основных платформах оценки, таких как AlpacaEval и Chatbot Arena. Основываясь на нашей масштабируемой суперкомпьютерной инфраструктуре и классической архитектуре трансформера, мы приписываем производительность моделей Yi в первую очередь к качеству данных, полученному благодаря нашим усилиям по инженерии данных. Для предварительного обучения мы создаем 3,1 триллиона токенов англоязычных и китайских корпусов, используя каскадную систему дедупликации данных и фильтрации по качеству. Для донастройки мы улучшаем небольшой набор данных инструкций (менее 10 тысяч) на протяжении нескольких итераций таким образом, что каждый отдельный пример был проверен непосредственно нашими инженерами машинного обучения. Для видео-языкового взаимодействия мы объединяем языковую модель для чатов с кодировщиком трансформера для видео и обучаем модель выравнивать визуальные представления с семантическим пространством языковой модели. Мы дополнительно увеличиваем длину контекста до 200 тысяч токенов с помощью легкого непрерывного предварительного обучения и демонстрируем высокую производительность поиска "иголки в стоге сена". Мы показываем, что увеличение глубины предварительной точки через непрерывное предварительное обучение дополнительно улучшает производительность. Мы считаем, что, учитывая наши текущие результаты, продолжение увеличения параметров модели с тщательно оптимизированными данными приведет к еще более сильным моделям на передовом фронте.
Обучение с подкреплением на основе обратной связи от человека (RLHF) стало доминирующим подходом для согласования результатов LLM с предпочтениями человека. Вдохновленные успехом RLHF, мы изучаем производительность нескольких алгоритмов, которые учатся на обратной связи (Expert Iteration, Оптимизация ближней политики (PPO), RL, зависящее от возврата) для улучшения способностей рассуждения LLM. Мы исследуем как разреженные, так и плотные вознаграждения, предоставленные LLM как эвристически, так и с помощью модели обучаемого вознаграждения. Мы также начинаем с нескольких размеров моделей и инициализаций как с обучением с учителем (SFT), так и без него. В целом мы обнаруживаем, что все алгоритмы работают сопоставимо, с Expert Iteration, в большинстве случаев, показывающим лучшие результаты. Удивительно, что сложность выборки Expert Iteration схожа с PPO, требуя в большинстве случаев не более порядка 10^6 выборок для сходимости из предварительной точки контроля. Мы исследуем, почему так происходит, приходя к выводу, что во время обучения RL модели не исследуют значительно за пределами решений, уже созданных моделями SFT. Кроме того, мы обсуждаем компромисс между производительностью метрики maj@1 и pass@96 во время обучения SFT и как, наоборот, обучение RL одновременно улучшает обе. Затем мы заключаем обсуждением последствий наших результатов для RLHF и будущей роли RL в настройке LLM.
Большие языковые модели (LLM) открыли новые возможности и приложения; однако оценка соответствия человеческим предпочтениям по-прежнему представляет существенные трудности. Для решения этой проблемы мы представляем Chatbot Arena - открытую платформу для оценки LLM на основе человеческих предпочтений. Наш методология использует подход попарного сравнения и опирается на входные данные от разнообразной пользовательской аудитории через краудсорсинг. Платформа функционирует уже несколько месяцев и собрала более 240 тыс. голосов. В данной статье описывается платформа, анализируются данные, которые мы собрали до сих пор, и объясняются проверенные статистические методы, которые мы используем для эффективной и точной оценки и ранжирования моделей. Мы подтверждаем, что вопросы, собранные через краудсорсинг, достаточно разнообразны и различающиеся, и что голоса пользователей, собранные через краудсорсинг, хорошо согласуются с оценками экспертов. Эти анализы в совокупности устанавливают прочную основу для доверия к Chatbot Arena. Благодаря своей уникальной ценности и открытости Chatbot Arena стала одной из самых цитируемых таблиц лидеров LLM, широко упоминаемых ведущими разработчиками и компаниями LLM. Наш демонстрационный вариант доступен по адресу https://chat.lmsys.org.
С момента появления DragGAN редактирование изображений на основе точек привлекло значительное внимание. Недавно DragDiffusion дополнительно улучшил качество генерации, применяя эту технику перетаскивания к моделям диффузии. Несмотря на эти великолепные успехи, данная схема перетаскивания обладает двумя основными недостатками, а именно неточное отслеживание точек и неполное наблюдение за движением, что может привести к неудовлетворительным результатам перетаскивания. Для решения этих проблем мы создали стабильную и точную систему редактирования на основе перетаскивания, названную StableDrag, разработав дискриминативный метод отслеживания точек и стратегию улучшения латентного пространства на основе уверенности для наблюдения за движением. Первое позволяет нам точно определять обновленные управляющие точки, тем самым повышая стабильность манипуляций на большие расстояния, в то время как второе отвечает за обеспечение оптимизации латентного пространства наиболее высокого качества на всех этапах манипуляции. Благодаря этим уникальным решениям мы создаем два типа моделей редактирования изображений, включая StableDrag-GAN и StableDrag-Diff, которые обеспечивают более стабильное выполнение перетаскивания, благодаря обширным качественным экспериментам и количественной оценке на платформе DragBench.
Инструменты необходимы для того, чтобы крупным языковым моделям (КЯМ) получать актуальную информацию и принимать последовательные действия во внешних средах. Существующие исследования по инструментально дополненным КЯМ в основном сосредотачиваются на широком охвате инструментов и гибкости добавления новых инструментов. Однако критически важным аспектом, который удивительно мало изучен, является просто то, насколько точно КЯМ использует инструменты, для которых он был обучен. Мы обнаружили, что существующие КЯМ, включая GPT-4 и открытые КЯМ, специально настроенные для использования инструментов, достигают лишь уровня корректности в диапазоне от 30% до 60%, что далеко от надежного использования на практике. Мы предлагаем биологически вдохновленный метод для инструментально дополненных КЯМ, имитирующий пробу и ошибку (STE), который оркестрирует три ключевых механизма для успешного использования инструментов в биологической системе: пробу и ошибку, воображение и память. В частности, STE использует "воображение" КЯМ для имитации вероятных сценариев использования инструмента, после чего КЯМ взаимодействует с инструментом, чтобы учиться на основе обратной связи выполнения. Краткосрочная и долгосрочная память используются для улучшения глубины и ширины исследований соответственно. Обширные эксперименты на ToolBench показывают, что STE существенно улучшает обучение инструментам для КЯМ как в условиях контекстного обучения, так и в настройках доводки, принося увеличение на 46,7% для Mistral-Instruct-7B и позволяя ему превзойти GPT-4. Мы также показываем эффективное непрерывное обучение инструментам с помощью простой стратегии повтора опыта.
Модели видео-языка (VLM), такие как GPT-4V, недавно продемонстрировали невероятные успехи в различных задачах видео-языкового взаимодействия. Мы исследуем видео-основанное дедуктивное мышление, более сложную, но менее изученную область, и обнаруживаем ранее не выявленные слепые пятна в текущих передовых VLM. Конкретно, мы используем Матрицы Рэйвена (RPM), чтобы оценить способности VLM выполнять многопрыжковое относительное и дедуктивное мышление, полагаясь исключительно на визуальные подсказки. Мы проводим всестороннюю оценку нескольких популярных VLM, используя стандартные стратегии, такие как обучение в контексте, самосогласованность и Цепочка мыслей (CoT) на трех различных наборах данных, включая тест на IQ Mensa, IntelligenceTest и RAVEN. Результаты показывают, что несмотря на впечатляющие возможности LLM в текстовом мышлении, мы все еще далеки от достижения сопоставимой профессиональной подготовки в визуальном дедуктивном мышлении. Мы обнаружили, что определенные стандартные стратегии, которые эффективны при применении к LLM, не безупречно переносятся на задачи, представленные визуальным мышлением. Более того, детальный анализ показывает, что VLM испытывают затруднения в решении этих задач в основном потому, что они не способны воспринимать и понимать несколько запутанных абстрактных узоров в примерах RPM.
Математические способности ранее считались возникающими в общих языковых моделях только на очень большом масштабе или требующими обширного предварительного обучения по математике. В данной статье показано, что модель LLaMA-2 7B с общим предварительным обучением уже обладает сильными математическими способностями, о чем свидетельствует ее впечатляющая точность 97,7% и 72,0% на бенчмарках GSM8K и MATH соответственно при выборе лучшего ответа из 256 случайных генераций. Основная проблема текущей базовой модели заключается в сложности последовательного вызова ее врожденных математических способностей. Заметим, что точность для первого ответа снижается до 49,5% и 7,9% на бенчмарках GSM8K и MATH соответственно. Мы обнаружили, что простое увеличение данных SFT может значительно улучшить надежность генерации правильных ответов. Однако потенциал для обширного масштабирования ограничен дефицитом общедоступных математических вопросов. Для преодоления этого ограничения мы используем синтетические данные, которые оказываются почти так же эффективными, как реальные данные, и не показывают явного насыщения при увеличении до примерно одного миллиона образцов. Этот простой подход достигает точности 82,6% на GSM8K и 40,6% на MATH с использованием моделей LLaMA-2 7B, превосходя предыдущие модели на 14,2% и 20,8% соответственно. Мы также предоставляем понимание поведения масштабирования в различных уровнях сложности рассуждений и типах ошибок.
Мы представляем Pix2Gif, модель диффузии, управляемую движением, для генерации изображения в формат GIF (видео). Мы решаем эту проблему по-другому, формулируя задачу как проблему перевода изображения, управляемую текстом и величиной движения, как показано на иллюстрации. Чтобы гарантировать, что модель следует указаниям движения, мы предлагаем новый модуль искажения, управляемый движением, для пространственного преобразования признаков исходного изображения, условие которого зависит от двух типов указаний. Более того, мы вводим потерю восприятия для обеспечения того, чтобы преобразованная карта признаков оставалась в том же пространстве, что и целевое изображение, гарантируя согласованность и последовательность контента. В преддверии обучения модели мы тщательно подготовили данные, извлекая согласованные кадры изображения из набора данных TGIF с описанием видео, который предоставляет обширную информацию о временных изменениях объектов. После предварительного обучения мы применяем нашу модель в режиме нулевой настройки к ряду видео-наборов данных. Обширные качественные и количественные эксперименты демонстрируют эффективность нашей модели - она не только улавливает семантическое указание из текста, но и пространственные указания из управления движением. Мы обучаем все наши модели, используя один узел с 16xV100 графическими процессорами. Код, набор данных и модели доступны по ссылке: https://hiteshk03.github.io/Pix2Gif/.
Рентген широко применяется для трансмиссионного изображения из-за большей проникающей способности по сравнению с естественным светом. При визуализации новых видов проекций рентгеновских лучей существующие методы, в основном основанные на NeRF, сталкиваются с длительным временем обучения и медленной скоростью вывода. В данной статье мы предлагаем 3D-основанную структуру на основе гауссовского сплетения, названную X-Gaussian, для синтеза нового вида рентгеновских изображений. Во-первых, мы перерабатываем радиативную модель гауссовских точек, вдохновленную изотропной природой рентгеновской томографии. Наша модель исключает влияние направления обзора при обучении предсказывать интенсивность излучения 3D-точек. На основе этой модели мы разрабатываем дифференцируемую радиативную растеризацию (DRR) с реализацией на CUDA. Во-вторых, мы настраиваем стратегию инициализации углового положения кубоида (ACUI), которая непосредственно использует параметры рентгеновского сканера для вычисления информации о камере, а затем равномерно выбирает позиции точек внутри кубоида, охватывающего сканируемый объект. Эксперименты показывают, что наш X-Gaussian превосходит современные методы на 6.5 дБ, при этом требуя менее 15% времени обучения и обеспечивая более чем в 73 раза большую скорость вывода. Применение на реконструкцию CT с разреженным обзором также показывает практическую ценность нашего метода. Код и модели будут общедоступны на https://github.com/caiyuanhao1998/X-Gaussian . Видео демонстрации процесса обучения доступно по ссылке https://www.youtube.com/watch?v=gDVf_Ngeghg .