Ежедневно отобранные исследовательские статьи по ИИ с переводами
Предыдущие методы предварительного обучения языковых моделей равномерно применяли потерю прогнозирования следующего токена ко всем обучающим токенам. Опровергая этот норматив, мы предполагаем, что "Не все токены в корпусе одинаково важны для обучения языковой модели". Наш первоначальный анализ углубляется в динамику обучения на уровне токенов языковой модели, раскрывая различные шаблоны потерь для различных токенов. Используя эти идеи, мы представляем новую языковую модель под названием Rho-1. В отличие от традиционных ЯМ, которые учатся предсказывать каждый следующий токен в корпусе, Rho-1 использует Селективное Моделирование Языка (SLM), которое выборочно обучает полезные токены, соответствующие желаемому распределению. Этот подход включает оценку токенов предварительного обучения с использованием опорной модели, а затем обучение языковой модели с упором на токены с более высокой избыточной потерей. После продолжительного предварительного обучения на корпусе 15B OpenWebMath, Rho-1 дает абсолютное улучшение в точности при небольшом количестве примеров до 30% в 9 математических задачах. После настройки, Rho-1-1B и 7B достигли передовых результатов 40.6% и 51.8% на наборе данных MATH соответственно - сравнимых с DeepSeekMath с использованием всего 3% токенов предварительного обучения. Более того, при предварительном обучении на 80B общих токенах, Rho-1 достигает среднего улучшения в 6.8% по 15 разнообразным задачам, увеличивая как эффективность, так и производительность предварительного обучения языковой модели.
Самостоятельные агенты, выполняющие сложные компьютерные задачи с минимальным вмешательством человека, имеют потенциал изменить взаимодействие человека с компьютером, значительно улучшая доступность и производительность. Однако существующие бенчмарки либо не имеют интерактивной среды, либо ограничены средами, специфичными для определенных приложений или областей, не отражая разнообразную и сложную природу использования компьютера в реальном мире, тем самым ограничивая спектр задач и масштабируемость агентов. Для решения этой проблемы мы представляем OSWorld - первую в своем роде масштабируемую реальную компьютерную среду для мультимодальных агентов, поддерживающую настройку задач, оценку на основе выполнения и интерактивное обучение на различных операционных системах, таких как Ubuntu, Windows и macOS. OSWorld может служить единым интегрированным компьютерным окружением для оценки открытых компьютерных задач, включающих произвольные приложения. На основе OSWorld мы создаем бенчмарк из 369 компьютерных задач, включающих реальные веб- и настольные приложения в открытых областях, ввод-вывод файловой системы ОС и рабочие процессы, охватывающие несколько приложений. Каждый пример задачи происходит из реальных случаев использования компьютера и включает подробную настройку начального состояния и сценарий оценки на основе выполнения для надежной и воспроизводимой оценки. Обширное исследование современных агентов на базе LLM/VLM на OSWorld показывает значительные недостатки в их способности выступать в роли компьютерных помощников. В то время как люди могут выполнить более 72,36% задач, лучшая модель достигает лишь 12,24% успеха, в основном испытывая трудности с GUI и операционными знаниями. Комплексный анализ с использованием OSWorld предоставляет ценные идеи для разработки мультимодальных универсальных агентов, которые не были возможны с помощью предыдущих бенчмарков. Наш код, среда, базовые модели и данные доступны публично по адресу https://os-world.github.io.
Для улучшения управляемости моделей диффузии текста в изображение существующие усилия, такие как ControlNet, внедрили изображения, основанные на условных управлениях. В этой статье мы показываем, что существующие методы по-прежнему сталкиваются с значительными проблемами при генерации изображений, соответствующих изображениям условных управлений. Для этого мы предлагаем ControlNet++, новый подход, который улучшает управляемую генерацию путем явной оптимизации циклической последовательности на уровне пикселей между сгенерированными изображениями и условными управлениями. Конкретно, для входного условного управления мы используем предварительно обученную дискриминативную модель вознаграждения для извлечения соответствующего условия сгенерированных изображений, а затем оптимизируем потери согласованности между входным условным управлением и извлеченным условием. Прямолинейная реализация заключается в генерации изображений из случайных шумов, а затем расчете потерь согласованности, но такой подход требует сохранения градиентов для нескольких временных шагов выборки, что приводит к значительным временным и памятьным затратам. Для решения этой проблемы мы предлагаем эффективную стратегию вознаграждения, которая намеренно нарушает входные изображения, добавляя шум, а затем использует денойзированные изображения на один шаг для тонкой настройки вознаграждения. Это позволяет избежать значительных затрат, связанных с выборкой изображений, обеспечивая более эффективную тонкую настройку вознаграждения. Обширные эксперименты показывают, что ControlNet++ значительно улучшает управляемость при различных условных управлениях. Например, он достигает улучшений по сравнению с ControlNet на 7,9% mIoU, 13,4% SSIM и 7,6% RMSE соответственно для маски сегментации, края линейного рисунка и глубины.
Мы представляем RecurrentGemma, открытую языковую модель, которая использует новую архитектуру Griffin от Google. Griffin объединяет линейные рекурренты с локальным вниманием для достижения отличного качества работы с языком. Он имеет состояние фиксированного размера, что снижает использование памяти и обеспечивает эффективный вывод на длинных последовательностях. Мы предоставляем предварительно обученную модель с 2 миллиардами параметров, не включая эмбеддинги, а также вариант, настроенный по инструкции. Обе модели достигают сравнимого качества с Gemma-2B, несмотря на обучение на меньшем количестве токенов.
В то время как Ferret плавно интегрирует региональное понимание в Большую Языковую Модель (LLM) для облегчения ее возможности ссылки и закрепления, это представляет определенные ограничения: ограниченностью предварительно обученным фиксированным визуальным кодировщиком и неспособностью хорошо справляться с более широкими задачами. В данной работе мы представляем Ferret-v2, значительное улучшение по сравнению с Ferret, с тремя ключевыми дизайнами. (1) Закрепление и ссылка на любое разрешение: гибкий подход, который легко обрабатывает более высокое разрешение изображения, улучшая способность модели обрабатывать и понимать изображения более детально. (2) Мульти-гранулярное визуальное кодирование: путем интеграции дополнительного кодировщика DINOv2 модель изучает лучше и разнообразнее основные контексты для глобальной и мелкозернистой визуальной информации. (3) Трехэтапная парадигма обучения: помимо выравнивания изображения-подписи, предлагается дополнительный этап для плотного выравнивания высокого разрешения перед окончательной настройкой инструкции. Эксперименты показывают, что Ferret-v2 обеспечивает значительные улучшения по сравнению с Ferret и другими передовыми методами благодаря масштабированию высокого разрешения и обработке мелкозернистой визуальной информации.
Успех моделей искусственного интеллекта зависит от наличия больших, разнообразных и высококачественных наборов данных, получение которых может быть сложным из-за дефицита данных, проблем конфиденциальности и высоких затрат. Синтетические данные стали перспективным решением, создавая искусственные данные, имитирующие реальные паттерны. В данной статье представлен обзор исследований синтетических данных, обсуждающий их применение, вызовы и будущие направления. Мы представляем эмпирические доказательства из предыдущих работ, чтобы продемонстрировать их эффективность и подчеркнуть важность обеспечения их фактичности, достоверности и беспристрастности. Мы подчеркиваем необходимость ответственного использования синтетических данных для создания более мощных, инклюзивных и надежных языковых моделей.
Обработка длинных контекстов остается вызовом для больших языковых моделей (LLM) из-за квадратичной вычислительной и памяти исключительной нагрузки механизма самовнимания и значительных размеров кэша KV во время генерации. Мы предлагаем новый подход к решению этой проблемы путем обучения контекстов в автономном режиме через сжатие контекста и параметроэффективное донастройку в предметной области. Наш метод позволяет LLM создавать краткое представление исходного контекста и эффективно извлекать соответствующую информацию для точного ответа на вопросы. Мы представляем LLoCO, технику, которая объединяет сжатие контекста, извлечение и параметроэффективную донастройку с использованием LoRA. Наш подход расширяет эффективное окно контекста модели LLaMA2-7B на 4k токенов для обработки до 128k токенов. Мы оцениваем наш подход на нескольких наборах данных для вопросно-ответных задач с длинным контекстом, демонстрируя, что LLoCO значительно превосходит обучение в контексте, используя в 30 раз меньше токенов во время вывода. LLoCO достигает ускорения до 7.62 раз и существенно снижает стоимость ответов на вопросы в длинных документах, что делает его многообещающим решением для эффективной обработки длинных контекстов. Наш код общедоступен по адресу https://github.com/jeffreysijuntan/lloco.
В области исследований веб-агентов достижение как обобщения, так и точности остается сложной задачей. Из-за высокой вариации в структуре веб-сайтов существующие подходы часто терпят неудачу. Более того, существующие техники настройки и контекстного обучения не способны обобщаться на несколько веб-сайтов. Мы представляем подход Wilbur, который использует дифференцируемую модель ранжирования и новую технику синтеза инструкций для оптимального заполнения запроса черного ящика большой языковой модели демонстрациями задач из предыдущих запусков. Для максимизации общих показателей успеха мы также предлагаем интеллектуальный механизм отката, который учится и исправляет свои ошибки. Наконец, мы показываем, что наша модель ранжирования может быть обучена на данных из генеративного авто-учебного плана, который выбирает представительные цели из LLM, запускает агента и автоматически оценивает его без ручной аннотации. Wilbur достигает передовых результатов на бенчмарке WebVoyager, превосходя модели только с текстом в целом на 8% и до 36% на определенных веб-сайтах. На том же бенчмарке Wilbur находится в пределах 5% от сильной мультимодальной модели, несмотря на то что получает только текстовые входы, и дальнейший анализ показывает, что значительное количество неудач связано с техническими проблемами при работе с веб-сайтами.
Иерархическая воротная линейная RNN (HGRN, Цин и др., 2023) продемонстрировала конкурентоспособную скорость обучения и производительность в языковом моделировании, обеспечивая при этом эффективный вывод. Однако размер рекуррентного состояния HGRN остается относительно небольшим, что ограничивает его выразительность. Для решения этой проблемы, вдохновленные линейным вниманием, мы представляем простой механизм расширения состояния на основе внешнего произведения, благодаря которому размер рекуррентного состояния может значительно увеличиться без введения дополнительных параметров. Форма линейного внимания также позволяет эффективно использовать аппаратное обеспечение для обучения. Наши обширные эксперименты подтверждают преимущество HGRN2 перед HGRN1 в языковом моделировании, классификации изображений и в долгосрочной арене. Наша крупнейшая модель HGRN2 объемом 3 млрд нейронов незначительно превосходит Mamba и трансформерную архитектуру LLaMa в языковом моделировании в контролируемом экспериментальном окружении; и конкурентоспособна с многими открытыми моделями объемом 3 млрд в оценке на следующем уровне, используя при этом гораздо меньше общего количества обучающих токенов.
Руководство - это важная техника для извлечения наилучшей производительности из моделей диффузии, генерирующих изображения. Традиционно по всей цепочке выборки изображения применялся постоянный вес руководства. Мы показываем, что руководство явно вредно в начале цепочки (высокие уровни шума), в значительной степени излишне в конце (низкие уровни шума) и полезно только в середине. Мы ограничиваем его до определенного диапазона уровней шума, улучшая как скорость вывода, так и качество результата. Этот ограниченный интервал руководства значительно улучшает рекорд FID в ImageNet-512, с 1,81 до 1,40. Мы показываем, что это количественно и качественно полезно при различных параметрах сэмплера, архитектурах сетей и наборах данных, включая масштабную настройку Stable Diffusion XL. Мы предлагаем выставление интервала руководства в качестве гиперпараметра во всех моделях диффузии, использующих руководство.
Обнаружение полос движения является фундаментальной задачей в автономном вождении и достигло значительного прогресса с развитием глубокого обучения. Предыдущие методы на основе якорей часто разрабатывали плотные якоря, которые сильно зависят от обучающего набора данных и остаются неизменными во время вывода. Мы анализируем, что плотные якоря не являются необходимыми для обнаружения полос движения, и предлагаем основанную на трансформере архитектуру обнаружения полос движения на основе разреженного механизма якорей. Для этого мы генерируем разреженные якоря с позиционно-осведомленными запросами полосы и запросами углов вместо традиционных явных якорей. Мы используем Горизонтальное Восприимчивое Внимание (HPA) для агрегации признаков полосы вдоль горизонтального направления и применяем Перекрестное Внимание Полосы-Угла (LACA) для взаимодействия между запросами полосы и запросами углов. Мы также предлагаем Внимание Полосы (LPA) на основе деформируемого перекрестного внимания для дальнейшего уточнения прогнозов полосы. Наш метод, названный Разреженный Лейнеформер, легко реализуем и обучаем на конечный результат. Обширные эксперименты показывают, что Разреженный Лейнеформер проявляет себя лучше по сравнению с современными методами, например, превосходя Лейнеформер на 3,0% по оценке F1 и O2SFormer на 0,7% по оценке F1 с меньшим количеством MACs на наборе данных CULane с той же основой ResNet-34.