Ежедневно отобранные исследовательские статьи по ИИ с переводами
Повсеместный и явно неоптимальный выбор изменения размера изображений до фиксированного разрешения перед их обработкой с помощью моделей компьютерного зрения до сих пор не был успешно пересмотрен. Однако такие модели, как Vision Transformer (ViT), предлагают гибкое последовательностное моделирование, что позволяет работать с входными последовательностями переменной длины. Мы используем это преимущество в NaViT (Native Resolution ViT), которая применяет упаковку последовательностей во время обучения для обработки входных данных с произвольным разрешением и соотношением сторон. Наряду с гибкостью использования модели, мы демонстрируем повышение эффективности обучения при крупномасштабном контролируемом и контрастном предобучении на изображениях и тексте. NaViT может быть эффективно адаптирована для стандартных задач, таких как классификация изображений и видео, обнаружение объектов и семантическая сегментация, и приводит к улучшенным результатам на тестах устойчивости и справедливости. Во время вывода гибкость входного разрешения может быть использована для плавного управления компромиссом между стоимостью и производительностью на этапе тестирования. Мы считаем, что NaViT знаменует отход от стандартного конвейера обработки входных данных и моделирования, разработанного для CNN, который используется большинством моделей компьютерного зрения, и представляет собой перспективное направление для ViT.
Мы предлагаем In-context Autoencoder (ICAE) для сжатия контекста в крупных языковых моделях (LLM). ICAE состоит из двух модулей: обучаемого кодера, адаптированного с использованием LoRA из LLM для сжатия длинного контекста в ограниченное количество слотов памяти, и фиксированного декодера, который представляет собой целевую LLM, способную учитывать слоты памяти для различных целей. Сначала мы предварительно обучаем ICAE, используя как задачи автокодирования, так и языкового моделирования на больших объемах текстовых данных, что позволяет ему генерировать слоты памяти, которые точно и полно представляют исходный контекст. Затем мы дообучаем предварительно обученную ICAE на небольшом количестве инструктивных данных, чтобы улучшить ее взаимодействие с различными запросами для получения желаемых ответов. Наши экспериментальные результаты показывают, что ICAE, обученная с использованием предложенного нами подхода предварительного обучения и дообучения, эффективно создает слоты памяти с 4-кратным сжатием контекста, которые могут быть успешно учтены целевой LLM для ответа на различные запросы. Эти обнадеживающие результаты демонстрируют значительные перспективы ICAE благодаря ее новому подходу к решению проблемы длинного контекста и ее потенциалу для снижения вычислительных и ресурсных затрат при инференсе LLM на практике, что указывает на необходимость дальнейших исследований в области управления контекстом для LLM. Наш код и данные будут опубликованы в ближайшее время.
Крупные языковые модели (LLM) демонстрируют впечатляющую способность понимать, рассуждать и генерировать текст в соответствии с инструкциями на естественном языке. Однако разработка LLM в основном сосредоточена на языках с высоким уровнем ресурсов, таких как английский, что ограничивает их применимость и исследования для других языков. В связи с этим мы представляем PolyLM, многоязычную LLM, обученную на 640 миллиардах (B) токенов, доступную в двух размерах: 1.7B и 13B. Для улучшения её многоязычных возможностей мы 1) интегрируем двуязычные данные в обучающий набор и 2) применяем стратегию обучения по учебному плану, которая увеличивает долю неанглоязычных данных с 30% на первом этапе до 60% на финальном этапе предварительного обучения. Кроме того, мы предлагаем метод многоязычного самообучения, который автоматически генерирует 132.7K разнообразных многоязычных инструкций для тонкой настройки модели. Для оценки производительности модели мы собираем несколько существующих многоязычных задач, включая многоязычное понимание, ответы на вопросы, генерацию текста и перевод. Многочисленные эксперименты показывают, что PolyLM превосходит другие модели с открытым исходным кодом, такие как LLaMA и BLOOM, в многоязычных задачах, сохраняя при этом сопоставимую производительность на английском языке. Наши модели, а также данные инструкций и многоязычный бенчмарк доступны по адресу: https://modelscope.cn/models/damo/nlp_polylm_13b_text_generation.
В данной статье представлен InternVid — крупномасштабный видеоцентричный мультимодальный набор данных, который позволяет изучать мощные и переносимые видеотекстовые представления для мультимодального понимания и генерации. Набор данных InternVid содержит более 7 миллионов видео общей продолжительностью около 760 тысяч часов, включая 234 миллиона видеоклипов, сопровождаемых детальными описаниями объемом 4,1 миллиарда слов. Наш ключевой вклад заключается в разработке масштабируемого подхода для автономного создания высококачественного видеотекстового набора данных с использованием больших языковых моделей (LLM), что демонстрирует их эффективность в изучении видеоязыковых представлений в больших масштабах. В частности, мы применяем многоуровневый подход для генерации описаний, связанных с видео. Кроме того, мы представляем ViCLIP — модель обучения видеотекстовых представлений на основе ViT-L. Обученная на InternVid с использованием контрастивного обучения, эта модель демонстрирует лидирующие результаты в задаче распознавания действий с нулевым обучением (zero-shot) и конкурентоспособную производительность в задаче поиска видео. Помимо базовых задач понимания видео, таких как распознавание и поиск, наш набор данных и модель имеют широкий спектр применений. Они особенно полезны для генерации чередующихся видеотекстовых данных для обучения видеоцентричной диалоговой системы, а также для продвижения исследований в области генерации видео в текст и текста в видео. Предложенные ресурсы предоставляют инструмент для исследователей и практиков, заинтересованных в мультимодальном понимании и генерации видео.
Несмотря на доминирование и эффективность масштабирования, приводящего к созданию крупных сетей с сотнями миллиардов параметров, необходимость обучения перепараметризованных моделей остается недостаточно изученной, а альтернативные подходы не обязательно делают обучение высокопроизводительных моделей более экономичным. В данной статье мы исследуем методы обучения с низким рангом как альтернативный подход к обучению крупных нейронных сетей. Мы представляем новый метод под названием ReLoRA, который использует низкоранговые обновления для обучения высокоранговых сетей. Мы применяем ReLoRA для предварительного обучения трансформерных языковых моделей с количеством параметров до 350 миллионов и демонстрируем сопоставимую производительность с обычным обучением нейронных сетей. Более того, мы наблюдаем, что эффективность ReLoRA возрастает с увеличением размера модели, что делает его перспективным подходом для эффективного обучения сетей с миллиардами параметров. Наши результаты проливают свет на потенциал методов обучения с низким рангом и их влияние на законы масштабирования.
Крупные языковые модели (LLM) продемонстрировали впечатляющие результаты в разработке универсальных агентов планирования для разнообразных задач. Однако реализация этих планов в обширных, многоэтажных и многокомнатных средах представляет собой значительную проблему для робототехники. Мы представляем SayPlan — масштабируемый подход к планированию крупномасштабных задач на основе LLM с использованием представлений в виде 3D графов сцены (3DSG). Для обеспечения масштабируемости нашего подхода мы: (1) используем иерархическую природу 3DSG, позволяя LLM проводить семантический поиск релевантных подграфов задач из сокращённого представления полного графа; (2) сокращаем горизонт планирования для LLM за счёт интеграции классического планировщика маршрутов и (3) вводим итеративный контур перепланирования, который уточняет начальный план с использованием обратной связи от симулятора графа сцены, исправляя невыполнимые действия и предотвращая сбои в планировании. Мы оцениваем наш подход на двух крупномасштабных средах, охватывающих до 3 этажей, 36 комнат и 140 объектов, и показываем, что наш подход способен реализовывать крупномасштабные долгосрочные планы задач на основе абстрактных и естественно-языковых инструкций для мобильного манипуляторного робота.
Крупные языковые модели (LLM), такие как GPT-4, продемонстрировали впечатляющие способности в решении широкого круга задач, включая приложения в области здравоохранения. В данной статье мы исследуем, как LLM могут быть использованы для масштабирования курирования биомедицинских знаний. Мы обнаружили, что хотя LLM уже обладают достойной компетентностью в структурировании биомедицинских текстов, значительные улучшения могут быть достигнуты путем дистилляции в специализированную студенческую модель с использованием самообучения, что превосходит возможности стандартных LLM, а также обеспечивает дополнительные преимущества, такие как снижение затрат, повышение эффективности и доступ к прозрачной модели. Мы провели кейс-стади по извлечению информации о неблагоприятных лекарственных реакциях (ADE), что является важной областью для улучшения медицинской помощи. В стандартной оценке извлечения ADE модель PubMedBERT, дистиллированная из GPT-3.5, достигла сопоставимой точности с современными моделями, обученными с учителем, без использования размеченных данных. Несмотря на то, что дистиллированная модель более чем в 1000 раз меньше, она превзошла свою учительскую модель GPT-3.5 на более чем 6 абсолютных пунктов по метрике F1 и GPT-4 — на более чем 5 абсолютных пунктов. Абляционные исследования выбора модели для дистилляции (например, PubMedBERT против BioGPT) и архитектуры извлечения ADE проливают свет на лучшие практики для извлечения биомедицинских знаний. Аналогичные улучшения были достигнуты с помощью дистилляции для других стандартных задач извлечения биомедицинских знаний, таких как ассоциации генов и заболеваний и защищенная медицинская информация, что дополнительно подчеркивает перспективность данного подхода.
Крупные языковые модели обычно проходят два этапа обучения: предварительное обучение и тонкую настройку. Несмотря на то, что масштабное предварительное обучение наделяет модель мощными способностями к генерации естественных языковых ответов, эти предварительно обученные модели всё же могут иногда не справляться с пониманием человеческих инструкций. Для повышения способности языковых моделей интерпретировать и реагировать на инструкции, тонкая настройка на инструкции стала ключевым методом в этой области. Недавние исследования показали, что крупные языковые модели могут быть эффективно настроены даже с использованием небольшого количества высококачественных данных, связанных с выполнением инструкций. Однако выбор высококачественных наборов данных для тонкой настройки языковых моделей всё ещё не имеет чётких руководящих принципов. В данной статье мы предлагаем InstructMining, линейное правило для оценки качества данных, связанных с выполнением инструкций. Мы формулируем InstructMining с использованием конкретных естественных языковых индикаторов. Чтобы исследовать взаимосвязь между качеством данных и этими индикаторами, мы проводим обширные эксперименты по тонкой настройке. Результаты экспериментов затем применяются для оценки параметров в InstructMining. Для дальнейшего изучения его производительности мы используем InstructMining для выбора высококачественных данных из неизвестных наборов данных. Результаты показывают, что InstructMining может помочь выбрать относительно высококачественные образцы из различных наборов данных, связанных с выполнением инструкций. По сравнению с моделями, настроенными на нефильтрованных наборах данных, модели, настроенные на наборах данных, отобранных с помощью InstructMining, показывают лучшие результаты в 42,5% случаев.
Успех серии GPT доказывает, что GPT способна извлекать общую информацию из последовательностей, тем самым принося пользу всем последующим задачам. Это мотивирует нас использовать предварительно обученные модели для исследования скрытой информации в последовательностях ДНК. Однако данные и требования задач в анализе последовательностей ДНК отличаются сложностью и разнообразием, поскольку данные, связанные с ДНК, включают различные типы информации, такие как последовательности, уровни экспрессии и т.д., в то время как в настоящее время не существует модели, специально разработанной для этих характеристик. В связи с этим мы представляем DNAGPT, обобщённую базовую модель, предварительно обученную на более чем 10 миллиардах пар оснований от 9 видов, которая может быть дообучена для любой задачи анализа последовательностей ДНК. Наша модель способна одновременно обрабатывать или выводить последовательности ДНК и числовые данные. Кроме того, наш уникальный дизайн токенов позволяет пользователям создавать промпты в соответствии с их собственными требованиями к задачам, делая модель применимой к любому типу задач. Мы оценили нашу модель на задачах классификации, регрессии и генерации. Мы демонстрируем, что DNAGPT извлекает пользу из предварительного обучения и, следовательно, может приносить улучшения производительности для любой последующей задачи. Наша модель представляет собой не только новую попытку в области анализа геномов, но и открывает новое направление для применения базовых моделей в биологии.
Перед развертыванием языковой модели (LM) в определенной предметной области важно оценить ее склонность к генерации фактически неверной информации в этой области. Существующие методы оценки генерации фактов сосредоточены на фактах, извлеченных из самой LM, и, таким образом, не контролируют набор оцениваемых фактов, что может приводить к недостаточному учету редких и маловероятных фактов. Мы предлагаем FACTOR: Factual Assessment via Corpus TransfORmation (Фактическая оценка через трансформацию корпуса) — масштабируемый подход для оценки фактической точности LM. FACTOR автоматически преобразует интересующий фактический корпус в бенчмарк, оценивающий склонность LM генерировать истинные факты из корпуса в сравнении с похожими, но неверными утверждениями. Мы используем наш фреймворк для создания двух бенчмарков: Wiki-FACTOR и News-FACTOR. Мы показываем, что: (i) оценки нашего бенчмарка увеличиваются с ростом размера модели и улучшаются, когда LM дополняется поиском; (ii) оценка бенчмарка коррелирует с перплексией, но эти две метрики не всегда согласуются в ранжировании моделей; и (iii) когда перплексия и оценка бенчмарка расходятся, последняя лучше отражает фактическую точность в открытой генерации, что подтверждается оценками человеческих аннотаторов. Мы делаем наши данные и код общедоступными по адресу https://github.com/AI21Labs/factor.
Несмотря на впечатляющую способность современных моделей генерации изображений по тексту создавать высококачественные изображения, существующие подходы часто сталкиваются с трудностями при эффективном объединении объектов с различными атрибутами и отношениями в сложную и согласованную сцену. Мы предлагаем T2I-CompBench — всеобъемлющий бенчмарк для генерации изображений по тексту в условиях открытого мира, состоящий из 6,000 композиционных текстовых запросов, разделенных на 3 категории (связывание атрибутов, отношения объектов и сложные композиции) и 6 подкатегорий (связывание цвета, связывание формы, связывание текстуры, пространственные отношения, не-пространственные отношения и сложные композиции). Мы также предлагаем несколько метрик оценки, специально разработанных для анализа композиционной генерации изображений по тексту. Мы представляем новый подход, Generative mOdel fine-tuning with Reward-driven Sample selection (GORS), для улучшения способностей предобученных моделей генерации изображений по тексту в области композиционной генерации. Проведены обширные эксперименты и оценки для сравнения предыдущих методов на T2I-CompBench, а также для подтверждения эффективности предложенных нами метрик оценки и подхода GORS. Страница проекта доступна по адресу https://karine-h.github.io/T2I-CompBench/.
Текстовое и семантическое понимание изображений является ключевым для генерации качественных описаний. Такое понимание требует обнаружения объектов, моделирования отношений между ними, оценки семантики сцены и, наконец, представления извлеченных знаний в языковом пространстве. Для достижения богатых языковых возможностей при обеспечении хорошего соответствия между изображением и текстом, предобученные языковые модели (LM) были адаптированы с использованием предобученных мультимодальных (изображение-текст) моделей, которые позволяют работать с входными изображениями. Это требует согласования представления изображения в мультимодальной модели с языковыми представлениями генеративной LM. Однако остается неясным, как лучше всего передать семантику, обнаруженную визуальным кодировщиком мультимодальной модели, в языковую модель. Мы предлагаем два новых способа построения линейного отображения, которое успешно передает семантику между пространствами встраивания двух предобученных моделей. Первый способ согласует пространство встраивания языкового кодировщика мультимодальной модели с пространством встраивания предобученной LM через соответствия токенов. Второй способ использует дополнительные данные, состоящие из пар изображение-текст, для построения отображения непосредственно из визуального пространства в языковое. Используя наши семантические отображения, мы открываем возможность генерации описаний изображений для LM без доступа к информации о градиентах. Применяя различные источники данных, мы достигаем высокой производительности на наборах данных MS-COCO и Flickr30k. Даже в условиях ограниченных данных наш метод частично превосходит результаты других подходов, включая zero-shot и даже дообученные модели. Наши исследования показывают, что даже LM с масштабом всего в 250M параметров могут генерировать достойные описания с использованием наших семантических отображений. Наш подход делает генерацию описаний изображений более доступной для организаций с ограниченными вычислительными ресурсами.
По мере развития области применения языковых моделей возникает естественный вопрос: как можно быстро адаптировать модели к новым задачам. Мы подходим к этому классическому вопросу с точки зрения непрерывного обучения, где цель заключается в продолжении тонкой настройки моделей, обученных на предыдущих задачах, для новых задач с целью "переноса" релевантных знаний. Однако такая стратегия также несет риск причинения большего вреда, чем пользы, то есть отрицательного переноса. В данной работе мы создаем новый эталонный набор последовательностей задач, которые охватывают различные возможные сценарии переноса, с которыми можно столкнуться, например, последовательности задач с высоким потенциалом положительного переноса, высоким потенциалом отрицательного переноса, отсутствием ожидаемого эффекта или их смешением. Идеальный обучающийся алгоритм должен максимально использовать информацию из всех задач, которые имеют потенциал для положительного переноса, одновременно избегая негативных эффектов от отвлекающих задач, которые могут его запутать. Мы предлагаем простой, но эффективный алгоритм, который удовлетворяет многим нашим требованиям, просто используя избирательную стратегию для инициализации новых моделей на основе контрольных точек предыдущих задач. Тем не менее, ограничения остаются, и мы надеемся, что этот эталонный набор поможет сообществу в дальнейшем разработке и анализе таких алгоритмов.
Крупные языковые модели (LLMs) демонстрируют наличие значительного объема практических знаний, которые могут быть извлечены для управления роботами в форме рассуждений и планирования. Несмотря на прогресс, большинство подходов по-прежнему полагаются на предопределенные примитивы движения для выполнения физического взаимодействия с окружающей средой, что остается основным ограничением. В данной работе мы стремимся синтезировать траектории робота, то есть плотную последовательность 6-DoF (шести степеней свободы) контрольных точек манипулятора, для широкого спектра задач манипуляции, заданных открытым набором инструкций и объектов. Мы достигаем этого, сначала отмечая, что LLMs превосходно справляются с выводом аффордансов и ограничений на основе свободной текстовой инструкции. Более того, используя их способность генерировать код, они могут взаимодействовать с визуально-языковой моделью (VLM) для создания 3D карт ценности, чтобы закрепить знания в пространстве наблюдений агента. Созданные карты ценности затем используются в рамках моделируемого планирования для синтеза замкнутых траекторий робота с нуля, обеспечивая устойчивость к динамическим возмущениям. Мы также демонстрируем, как предложенная система может извлекать пользу из онлайн-опыта, эффективно обучая модель динамики для сцен, включающих интенсивные контактные взаимодействия. Мы представляем масштабное исследование предложенного метода как в симулированных, так и в реальных роботизированных средах, демонстрируя способность выполнять широкий спектр повседневных задач манипуляции, заданных в свободной форме на естественном языке. Сайт проекта: https://voxposer.github.io
Камеры, установленные на манипуляторе, продемонстрировали потенциал в повышении эффективности работы с образцами и обобщения в задачах роботизированного манипулирования на основе зрения. Однако для роботизированного имитационного обучения по-прежнему дорого привлекать человека-оператора для сбора большого количества экспертных демонстраций с использованием реального робота. Видеозаписи выполнения задач человеком, напротив, гораздо дешевле собирать, поскольку они устраняют необходимость в экспертных знаниях по телеуправлению роботами и могут быть быстро получены в широком диапазоне сценариев. Таким образом, видеодемонстрации человека представляют собой перспективный источник данных для масштабируемого обучения обобщаемым стратегиям роботизированного манипулирования. В данной работе мы расширяем узкие наборы данных для роботизированного имитационного обучения с помощью широкого спектра немаркированных видеодемонстраций человека, что значительно улучшает обобщение визуомоторных стратегий для камер на манипуляторе. Несмотря на существование явного разрыва в визуальных доменах между данными человека и робота, наш подход не требует применения явных методов адаптации доменов, поскольку мы используем частичную наблюдаемость камер на манипуляторе, а также простую схему фиксированного маскирования изображений. На наборе из восьми реальных задач, включающих управление роботизированными манипуляторами с 3 и 6 степенями свободы, наш метод повышает средний уровень успешности стратегий манипулирования с камерами на манипуляторе на 58% (в абсолютных значениях), позволяя роботам обобщать как новые конфигурации среды, так и новые задачи, которые отсутствуют в данных роботизированных демонстраций. Видеорезультаты доступны по ссылке: https://giving-robots-a-hand.github.io/.