Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

Patch n' Pack: NaViT, Vision Transformer для любого соотношения сторон и разрешения
Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution

Jul 12, 2023

Mostafa Dehghani, Basil Mustafa, Josip Djolonga, Jonathan Heek, Matthias Minderer, Mathilde Caron, Andreas Steiner, Joan Puigcerver, Robert Geirhos, Ibrahim Alabdulmohsin, Avital Oliver, Piotr Padlewski, Alexey Gritsenko, Mario Lučić, Neil Houlsby

303

Повсеместный и явно неоптимальный выбор изменения размера изображений до фиксированного разрешения перед их обработкой с помощью моделей компьютерного зрения до сих пор не был успешно пересмотрен. Однако такие модели, как Vision Transformer (ViT), предлагают гибкое последовательностное моделирование, что позволяет работать с входными последовательностями переменной длины. Мы используем это преимущество в NaViT (Native Resolution ViT), которая применяет упаковку последовательностей во время обучения для обработки входных данных с произвольным разрешением и соотношением сторон. Наряду с гибкостью использования модели, мы демонстрируем повышение эффективности обучения при крупномасштабном контролируемом и контрастном предобучении на изображениях и тексте. NaViT может быть эффективно адаптирована для стандартных задач, таких как классификация изображений и видео, обнаружение объектов и семантическая сегментация, и приводит к улучшенным результатам на тестах устойчивости и справедливости. Во время вывода гибкость входного разрешения может быть использована для плавного управления компромиссом между стоимостью и производительностью на этапе тестирования. Мы считаем, что NaViT знаменует отход от стандартного конвейера обработки входных данных и моделирования, разработанного для CNN, который используется большинством моделей компьютерного зрения, и представляет собой перспективное направление для ViT.

Автокодировщик в контексте для сжатия контекста в крупной языковой модели
In-context Autoencoder for Context Compression in a Large Language Model

Jul 13, 2023

Tao Ge, Jing Hu, Xun Wang, Si-Qing Chen, Furu Wei

280

Мы предлагаем In-context Autoencoder (ICAE) для сжатия контекста в крупных языковых моделях (LLM). ICAE состоит из двух модулей: обучаемого кодера, адаптированного с использованием LoRA из LLM для сжатия длинного контекста в ограниченное количество слотов памяти, и фиксированного декодера, который представляет собой целевую LLM, способную учитывать слоты памяти для различных целей. Сначала мы предварительно обучаем ICAE, используя как задачи автокодирования, так и языкового моделирования на больших объемах текстовых данных, что позволяет ему генерировать слоты памяти, которые точно и полно представляют исходный контекст. Затем мы дообучаем предварительно обученную ICAE на небольшом количестве инструктивных данных, чтобы улучшить ее взаимодействие с различными запросами для получения желаемых ответов. Наши экспериментальные результаты показывают, что ICAE, обученная с использованием предложенного нами подхода предварительного обучения и дообучения, эффективно создает слоты памяти с 4-кратным сжатием контекста, которые могут быть успешно учтены целевой LLM для ответа на различные запросы. Эти обнадеживающие результаты демонстрируют значительные перспективы ICAE благодаря ее новому подходу к решению проблемы длинного контекста и ее потенциалу для снижения вычислительных и ресурсных затрат при инференсе LLM на практике, что указывает на необходимость дальнейших исследований в области управления контекстом для LLM. Наш код и данные будут опубликованы в ближайшее время.

PolyLM: Открытая многоязычная модель большого языка
PolyLM: An Open Source Polyglot Large Language Model

Jul 12, 2023

Xiangpeng Wei, Haoran Wei, Huan Lin, Tianhao Li, Pei Zhang, Xingzhang Ren, Mei Li, Yu Wan, Zhiwei Cao, Binbin Xie, Tianxiang Hu, Shangjie Li, Binyuan Hui, Bowen Yu, Dayiheng Liu, Baosong Yang, Fei Huang, Jun Xie

264

Крупные языковые модели (LLM) демонстрируют впечатляющую способность понимать, рассуждать и генерировать текст в соответствии с инструкциями на естественном языке. Однако разработка LLM в основном сосредоточена на языках с высоким уровнем ресурсов, таких как английский, что ограничивает их применимость и исследования для других языков. В связи с этим мы представляем PolyLM, многоязычную LLM, обученную на 640 миллиардах (B) токенов, доступную в двух размерах: 1.7B и 13B. Для улучшения её многоязычных возможностей мы 1) интегрируем двуязычные данные в обучающий набор и 2) применяем стратегию обучения по учебному плану, которая увеличивает долю неанглоязычных данных с 30% на первом этапе до 60% на финальном этапе предварительного обучения. Кроме того, мы предлагаем метод многоязычного самообучения, который автоматически генерирует 132.7K разнообразных многоязычных инструкций для тонкой настройки модели. Для оценки производительности модели мы собираем несколько существующих многоязычных задач, включая многоязычное понимание, ответы на вопросы, генерацию текста и перевод. Многочисленные эксперименты показывают, что PolyLM превосходит другие модели с открытым исходным кодом, такие как LLaMA и BLOOM, в многоязычных задачах, сохраняя при этом сопоставимую производительность на английском языке. Наши модели, а также данные инструкций и многоязычный бенчмарк доступны по адресу: https://modelscope.cn/models/damo/nlp_polylm_13b_text_generation.

InternVid: Масштабный видеотекстовый набор данных для мультимодального понимания и генерации
InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation

Jul 13, 2023

Yi Wang, Yinan He, Yizhuo Li, Kunchang Li, Jiashuo Yu, Xin Ma, Xinyuan Chen, Yaohui Wang, Ping Luo, Ziwei Liu, Yali Wang, Limin Wang, Yu Qiao

230

В данной статье представлен InternVid — крупномасштабный видеоцентричный мультимодальный набор данных, который позволяет изучать мощные и переносимые видеотекстовые представления для мультимодального понимания и генерации. Набор данных InternVid содержит более 7 миллионов видео общей продолжительностью около 760 тысяч часов, включая 234 миллиона видеоклипов, сопровождаемых детальными описаниями объемом 4,1 миллиарда слов. Наш ключевой вклад заключается в разработке масштабируемого подхода для автономного создания высококачественного видеотекстового набора данных с использованием больших языковых моделей (LLM), что демонстрирует их эффективность в изучении видеоязыковых представлений в больших масштабах. В частности, мы применяем многоуровневый подход для генерации описаний, связанных с видео. Кроме того, мы представляем ViCLIP — модель обучения видеотекстовых представлений на основе ViT-L. Обученная на InternVid с использованием контрастивного обучения, эта модель демонстрирует лидирующие результаты в задаче распознавания действий с нулевым обучением (zero-shot) и конкурентоспособную производительность в задаче поиска видео. Помимо базовых задач понимания видео, таких как распознавание и поиск, наш набор данных и модель имеют широкий спектр применений. Они особенно полезны для генерации чередующихся видеотекстовых данных для обучения видеоцентричной диалоговой системы, а также для продвижения исследований в области генерации видео в текст и текста в видео. Предложенные ресурсы предоставляют инструмент для исследователей и практиков, заинтересованных в мультимодальном понимании и генерации видео.

Создавайте больше слоев по-новому: высокоранговое обучение через низкоранговые обновления
Stack More Layers Differently: High-Rank Training Through Low-Rank Updates

Jul 11, 2023

Vladislav Lialin, Namrata Shivagunde, Sherin Muckatira, Anna Rumshisky

230

Несмотря на доминирование и эффективность масштабирования, приводящего к созданию крупных сетей с сотнями миллиардов параметров, необходимость обучения перепараметризованных моделей остается недостаточно изученной, а альтернативные подходы не обязательно делают обучение высокопроизводительных моделей более экономичным. В данной статье мы исследуем методы обучения с низким рангом как альтернативный подход к обучению крупных нейронных сетей. Мы представляем новый метод под названием ReLoRA, который использует низкоранговые обновления для обучения высокоранговых сетей. Мы применяем ReLoRA для предварительного обучения трансформерных языковых моделей с количеством параметров до 350 миллионов и демонстрируем сопоставимую производительность с обычным обучением нейронных сетей. Более того, мы наблюдаем, что эффективность ReLoRA возрастает с увеличением размера модели, что делает его перспективным подходом для эффективного обучения сетей с миллиардами параметров. Наши результаты проливают свет на потенциал методов обучения с низким рангом и их влияние на законы масштабирования.

SayPlan: Привязка крупных языковых моделей с использованием 3D графов сцен для масштабируемого планирования задач
SayPlan: Grounding Large Language Models using 3D Scene Graphs for Scalable Task Planning

Jul 12, 2023

Krishan Rana, Jesse Haviland, Sourav Garg, Jad Abou-Chakra, Ian Reid, Niko Suenderhauf

141

Крупные языковые модели (LLM) продемонстрировали впечатляющие результаты в разработке универсальных агентов планирования для разнообразных задач. Однако реализация этих планов в обширных, многоэтажных и многокомнатных средах представляет собой значительную проблему для робототехники. Мы представляем SayPlan — масштабируемый подход к планированию крупномасштабных задач на основе LLM с использованием представлений в виде 3D графов сцены (3DSG). Для обеспечения масштабируемости нашего подхода мы: (1) используем иерархическую природу 3DSG, позволяя LLM проводить семантический поиск релевантных подграфов задач из сокращённого представления полного графа; (2) сокращаем горизонт планирования для LLM за счёт интеграции классического планировщика маршрутов и (3) вводим итеративный контур перепланирования, который уточняет начальный план с использованием обратной связи от симулятора графа сцены, исправляя невыполнимые действия и предотвращая сбои в планировании. Мы оцениваем наш подход на двух крупномасштабных средах, охватывающих до 3 этажей, 36 комнат и 140 объектов, и показываем, что наш подход способен реализовывать крупномасштабные долгосрочные планы задач на основе абстрактных и естественно-языковых инструкций для мобильного манипуляторного робота.

Дистилляция крупных языковых моделей для извлечения биомедицинских знаний: Пример исследования побочных эффектов лекарственных препаратов
Distilling Large Language Models for Biomedical Knowledge Extraction: A Case Study on Adverse Drug Events

Jul 12, 2023

Yu Gu, Sheng Zhang, Naoto Usuyama, Yonas Woldesenbet, Cliff Wong, Praneeth Sanapathi, Mu Wei, Naveen Valluri, Erika Strandberg, Tristan Naumann, Hoifung Poon

101

Крупные языковые модели (LLM), такие как GPT-4, продемонстрировали впечатляющие способности в решении широкого круга задач, включая приложения в области здравоохранения. В данной статье мы исследуем, как LLM могут быть использованы для масштабирования курирования биомедицинских знаний. Мы обнаружили, что хотя LLM уже обладают достойной компетентностью в структурировании биомедицинских текстов, значительные улучшения могут быть достигнуты путем дистилляции в специализированную студенческую модель с использованием самообучения, что превосходит возможности стандартных LLM, а также обеспечивает дополнительные преимущества, такие как снижение затрат, повышение эффективности и доступ к прозрачной модели. Мы провели кейс-стади по извлечению информации о неблагоприятных лекарственных реакциях (ADE), что является важной областью для улучшения медицинской помощи. В стандартной оценке извлечения ADE модель PubMedBERT, дистиллированная из GPT-3.5, достигла сопоставимой точности с современными моделями, обученными с учителем, без использования размеченных данных. Несмотря на то, что дистиллированная модель более чем в 1000 раз меньше, она превзошла свою учительскую модель GPT-3.5 на более чем 6 абсолютных пунктов по метрике F1 и GPT-4 — на более чем 5 абсолютных пунктов. Абляционные исследования выбора модели для дистилляции (например, PubMedBERT против BioGPT) и архитектуры извлечения ADE проливают свет на лучшие практики для извлечения биомедицинских знаний. Аналогичные улучшения были достигнуты с помощью дистилляции для других стандартных задач извлечения биомедицинских знаний, таких как ассоциации генов и заболеваний и защищенная медицинская информация, что дополнительно подчеркивает перспективность данного подхода.

Инструктивное майнинг: отбор высококачественных инструктивных данных для крупных языковых моделей
Instruction Mining: High-Quality Instruction Data Selection for Large Language Models

Jul 12, 2023

Yihan Cao, Yanbin Kang, Lichao Sun

100

Крупные языковые модели обычно проходят два этапа обучения: предварительное обучение и тонкую настройку. Несмотря на то, что масштабное предварительное обучение наделяет модель мощными способностями к генерации естественных языковых ответов, эти предварительно обученные модели всё же могут иногда не справляться с пониманием человеческих инструкций. Для повышения способности языковых моделей интерпретировать и реагировать на инструкции, тонкая настройка на инструкции стала ключевым методом в этой области. Недавние исследования показали, что крупные языковые модели могут быть эффективно настроены даже с использованием небольшого количества высококачественных данных, связанных с выполнением инструкций. Однако выбор высококачественных наборов данных для тонкой настройки языковых моделей всё ещё не имеет чётких руководящих принципов. В данной статье мы предлагаем InstructMining, линейное правило для оценки качества данных, связанных с выполнением инструкций. Мы формулируем InstructMining с использованием конкретных естественных языковых индикаторов. Чтобы исследовать взаимосвязь между качеством данных и этими индикаторами, мы проводим обширные эксперименты по тонкой настройке. Результаты экспериментов затем применяются для оценки параметров в InstructMining. Для дальнейшего изучения его производительности мы используем InstructMining для выбора высококачественных данных из неизвестных наборов данных. Результаты показывают, что InstructMining может помочь выбрать относительно высококачественные образцы из различных наборов данных, связанных с выполнением инструкций. По сравнению с моделями, настроенными на нефильтрованных наборах данных, модели, настроенные на наборах данных, отобранных с помощью InstructMining, показывают лучшие результаты в 42,5% случаев.

DNAGPT: Универсальный предобученный инструмент для решения множества задач анализа последовательностей ДНК
DNAGPT: A Generalized Pretrained Tool for Multiple DNA Sequence Analysis Tasks

Jul 11, 2023

Daoan Zhang, Weitong Zhang, Bing He, Jianguo Zhang, Chenchen Qin, Jianhua Yao

100

Успех серии GPT доказывает, что GPT способна извлекать общую информацию из последовательностей, тем самым принося пользу всем последующим задачам. Это мотивирует нас использовать предварительно обученные модели для исследования скрытой информации в последовательностях ДНК. Однако данные и требования задач в анализе последовательностей ДНК отличаются сложностью и разнообразием, поскольку данные, связанные с ДНК, включают различные типы информации, такие как последовательности, уровни экспрессии и т.д., в то время как в настоящее время не существует модели, специально разработанной для этих характеристик. В связи с этим мы представляем DNAGPT, обобщённую базовую модель, предварительно обученную на более чем 10 миллиардах пар оснований от 9 видов, которая может быть дообучена для любой задачи анализа последовательностей ДНК. Наша модель способна одновременно обрабатывать или выводить последовательности ДНК и числовые данные. Кроме того, наш уникальный дизайн токенов позволяет пользователям создавать промпты в соответствии с их собственными требованиями к задачам, делая модель применимой к любому типу задач. Мы оценили нашу модель на задачах классификации, регрессии и генерации. Мы демонстрируем, что DNAGPT извлекает пользу из предварительного обучения и, следовательно, может приносить улучшения производительности для любой последующей задачи. Наша модель представляет собой не только новую попытку в области анализа геномов, но и открывает новое направление для применения базовых моделей в биологии.

Создание эталонных наборов данных для оценки фактической точности языковых моделей
Generating Benchmarks for Factuality Evaluation of Language Models

Jul 13, 2023

Dor Muhlgay, Ori Ram, Inbal Magar, Yoav Levine, Nir Ratner, Yonatan Belinkov, Omri Abend, Kevin Leyton-Brown, Amnon Shashua, Yoav Shoham

Перед развертыванием языковой модели (LM) в определенной предметной области важно оценить ее склонность к генерации фактически неверной информации в этой области. Существующие методы оценки генерации фактов сосредоточены на фактах, извлеченных из самой LM, и, таким образом, не контролируют набор оцениваемых фактов, что может приводить к недостаточному учету редких и маловероятных фактов. Мы предлагаем FACTOR: Factual Assessment via Corpus TransfORmation (Фактическая оценка через трансформацию корпуса) — масштабируемый подход для оценки фактической точности LM. FACTOR автоматически преобразует интересующий фактический корпус в бенчмарк, оценивающий склонность LM генерировать истинные факты из корпуса в сравнении с похожими, но неверными утверждениями. Мы используем наш фреймворк для создания двух бенчмарков: Wiki-FACTOR и News-FACTOR. Мы показываем, что: (i) оценки нашего бенчмарка увеличиваются с ростом размера модели и улучшаются, когда LM дополняется поиском; (ii) оценка бенчмарка коррелирует с перплексией, но эти две метрики не всегда согласуются в ранжировании моделей; и (iii) когда перплексия и оценка бенчмарка расходятся, последняя лучше отражает фактическую точность в открытой генерации, что подтверждается оценками человеческих аннотаторов. Мы делаем наши данные и код общедоступными по адресу https://github.com/AI21Labs/factor.

T2I-CompBench: Комплексный бенчмарк для генерации изображений на основе текста с открытым миром и композиционностью
T2I-CompBench: A Comprehensive Benchmark for Open-world Compositional Text-to-image Generation

Jul 12, 2023

Kaiyi Huang, Kaiyue Sun, Enze Xie, Zhenguo Li, Xihui Liu

Несмотря на впечатляющую способность современных моделей генерации изображений по тексту создавать высококачественные изображения, существующие подходы часто сталкиваются с трудностями при эффективном объединении объектов с различными атрибутами и отношениями в сложную и согласованную сцену. Мы предлагаем T2I-CompBench — всеобъемлющий бенчмарк для генерации изображений по тексту в условиях открытого мира, состоящий из 6,000 композиционных текстовых запросов, разделенных на 3 категории (связывание атрибутов, отношения объектов и сложные композиции) и 6 подкатегорий (связывание цвета, связывание формы, связывание текстуры, пространственные отношения, не-пространственные отношения и сложные композиции). Мы также предлагаем несколько метрик оценки, специально разработанных для анализа композиционной генерации изображений по тексту. Мы представляем новый подход, Generative mOdel fine-tuning with Reward-driven Sample selection (GORS), для улучшения способностей предобученных моделей генерации изображений по тексту в области композиционной генерации. Проведены обширные эксперименты и оценки для сравнения предыдущих методов на T2I-CompBench, а также для подтверждения эффективности предложенных нами метрик оценки и подхода GORS. Страница проекта доступна по адресу https://karine-h.github.io/T2I-CompBench/.

SITTA: Семантическое согласование изображений и текста для генерации подписей к изображениям
SITTA: A Semantic Image-Text Alignment for Image Captioning

Jul 10, 2023

Fabian Paischer, Thomas Adler, Markus Hofmarcher, Sepp Hochreiter

Текстовое и семантическое понимание изображений является ключевым для генерации качественных описаний. Такое понимание требует обнаружения объектов, моделирования отношений между ними, оценки семантики сцены и, наконец, представления извлеченных знаний в языковом пространстве. Для достижения богатых языковых возможностей при обеспечении хорошего соответствия между изображением и текстом, предобученные языковые модели (LM) были адаптированы с использованием предобученных мультимодальных (изображение-текст) моделей, которые позволяют работать с входными изображениями. Это требует согласования представления изображения в мультимодальной модели с языковыми представлениями генеративной LM. Однако остается неясным, как лучше всего передать семантику, обнаруженную визуальным кодировщиком мультимодальной модели, в языковую модель. Мы предлагаем два новых способа построения линейного отображения, которое успешно передает семантику между пространствами встраивания двух предобученных моделей. Первый способ согласует пространство встраивания языкового кодировщика мультимодальной модели с пространством встраивания предобученной LM через соответствия токенов. Второй способ использует дополнительные данные, состоящие из пар изображение-текст, для построения отображения непосредственно из визуального пространства в языковое. Используя наши семантические отображения, мы открываем возможность генерации описаний изображений для LM без доступа к информации о градиентах. Применяя различные источники данных, мы достигаем высокой производительности на наборах данных MS-COCO и Flickr30k. Даже в условиях ограниченных данных наш метод частично превосходит результаты других подходов, включая zero-shot и даже дообученные модели. Наши исследования показывают, что даже LM с масштабом всего в 250M параметров могут генерировать достойные описания с использованием наших семантических отображений. Наш подход делает генерацию описаний изображений более доступной для организаций с ограниченными вычислительными ресурсами.

К устойчивому и эффективному непрерывному обучению языковых моделей
Towards Robust and Efficient Continual Language Learning

Jul 11, 2023

Adam Fisch, Amal Rannen-Triki, Razvan Pascanu, Jörg Bornschein, Angeliki Lazaridou, Elena Gribovskaya, Marc'Aurelio Ranzato

По мере развития области применения языковых моделей возникает естественный вопрос: как можно быстро адаптировать модели к новым задачам. Мы подходим к этому классическому вопросу с точки зрения непрерывного обучения, где цель заключается в продолжении тонкой настройки моделей, обученных на предыдущих задачах, для новых задач с целью "переноса" релевантных знаний. Однако такая стратегия также несет риск причинения большего вреда, чем пользы, то есть отрицательного переноса. В данной работе мы создаем новый эталонный набор последовательностей задач, которые охватывают различные возможные сценарии переноса, с которыми можно столкнуться, например, последовательности задач с высоким потенциалом положительного переноса, высоким потенциалом отрицательного переноса, отсутствием ожидаемого эффекта или их смешением. Идеальный обучающийся алгоритм должен максимально использовать информацию из всех задач, которые имеют потенциал для положительного переноса, одновременно избегая негативных эффектов от отвлекающих задач, которые могут его запутать. Мы предлагаем простой, но эффективный алгоритм, который удовлетворяет многим нашим требованиям, просто используя избирательную стратегию для инициализации новых моделей на основе контрольных точек предыдущих задач. Тем не менее, ограничения остаются, и мы надеемся, что этот эталонный набор поможет сообществу в дальнейшем разработке и анализе таких алгоритмов.

VoxPoser: Композируемые 3D-карты ценностей для манипуляций роботов с использованием языковых моделей
VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models

Jul 12, 2023

Wenlong Huang, Chen Wang, Ruohan Zhang, Yunzhu Li, Jiajun Wu, Li Fei-Fei

Крупные языковые модели (LLMs) демонстрируют наличие значительного объема практических знаний, которые могут быть извлечены для управления роботами в форме рассуждений и планирования. Несмотря на прогресс, большинство подходов по-прежнему полагаются на предопределенные примитивы движения для выполнения физического взаимодействия с окружающей средой, что остается основным ограничением. В данной работе мы стремимся синтезировать траектории робота, то есть плотную последовательность 6-DoF (шести степеней свободы) контрольных точек манипулятора, для широкого спектра задач манипуляции, заданных открытым набором инструкций и объектов. Мы достигаем этого, сначала отмечая, что LLMs превосходно справляются с выводом аффордансов и ограничений на основе свободной текстовой инструкции. Более того, используя их способность генерировать код, они могут взаимодействовать с визуально-языковой моделью (VLM) для создания 3D карт ценности, чтобы закрепить знания в пространстве наблюдений агента. Созданные карты ценности затем используются в рамках моделируемого планирования для синтеза замкнутых траекторий робота с нуля, обеспечивая устойчивость к динамическим возмущениям. Мы также демонстрируем, как предложенная система может извлекать пользу из онлайн-опыта, эффективно обучая модель динамики для сцен, включающих интенсивные контактные взаимодействия. Мы представляем масштабное исследование предложенного метода как в симулированных, так и в реальных роботизированных средах, демонстрируя способность выполнять широкий спектр повседневных задач манипуляции, заданных в свободной форме на естественном языке. Сайт проекта: https://voxposer.github.io

Даем роботам руку: обучение обобщаемым манипуляциям с использованием демонстраций на видео с камеры в руке человека
Giving Robots a Hand: Learning Generalizable Manipulation with Eye-in-Hand Human Video Demonstrations

Jul 12, 2023

Moo Jin Kim, Jiajun Wu, Chelsea Finn

Камеры, установленные на манипуляторе, продемонстрировали потенциал в повышении эффективности работы с образцами и обобщения в задачах роботизированного манипулирования на основе зрения. Однако для роботизированного имитационного обучения по-прежнему дорого привлекать человека-оператора для сбора большого количества экспертных демонстраций с использованием реального робота. Видеозаписи выполнения задач человеком, напротив, гораздо дешевле собирать, поскольку они устраняют необходимость в экспертных знаниях по телеуправлению роботами и могут быть быстро получены в широком диапазоне сценариев. Таким образом, видеодемонстрации человека представляют собой перспективный источник данных для масштабируемого обучения обобщаемым стратегиям роботизированного манипулирования. В данной работе мы расширяем узкие наборы данных для роботизированного имитационного обучения с помощью широкого спектра немаркированных видеодемонстраций человека, что значительно улучшает обобщение визуомоторных стратегий для камер на манипуляторе. Несмотря на существование явного разрыва в визуальных доменах между данными человека и робота, наш подход не требует применения явных методов адаптации доменов, поскольку мы используем частичную наблюдаемость камер на манипуляторе, а также простую схему фиксированного маскирования изображений. На наборе из восьми реальных задач, включающих управление роботизированными манипуляторами с 3 и 6 степенями свободы, наш метод повышает средний уровень успешности стратегий манипулирования с камерами на манипуляторе на 58% (в абсолютных значениях), позволяя роботам обобщать как новые конфигурации среды, так и новые задачи, которые отсутствуют в данных роботизированных демонстраций. Видеорезультаты доступны по ссылке: https://giving-robots-a-hand.github.io/.

SITTA: Семантическое согласование изображений и текста для генерации подписей к изображениям
SITTA: A Semantic Image-Text Alignment for Image Captioning

Jul 10, 2023

Fabian Paischer, Thomas Adler, Markus Hofmarcher, Sepp Hochreiter

Ежедневные статьи

Patch n' Pack: NaViT, Vision Transformer для любого соотношения сторон и разрешения
Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution

Автокодировщик в контексте для сжатия контекста в крупной языковой модели
In-context Autoencoder for Context Compression in a Large Language Model

PolyLM: Открытая многоязычная модель большого языка
PolyLM: An Open Source Polyglot Large Language Model

InternVid: Масштабный видеотекстовый набор данных для мультимодального понимания и генерации
InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation

Создавайте больше слоев по-новому: высокоранговое обучение через низкоранговые обновления
Stack More Layers Differently: High-Rank Training Through Low-Rank Updates

SayPlan: Привязка крупных языковых моделей с использованием 3D графов сцен для масштабируемого планирования задач
SayPlan: Grounding Large Language Models using 3D Scene Graphs for Scalable Task Planning

Инструктивное майнинг: отбор высококачественных инструктивных данных для крупных языковых моделей
Instruction Mining: High-Quality Instruction Data Selection for Large Language Models

DNAGPT: Универсальный предобученный инструмент для решения множества задач анализа последовательностей ДНК
DNAGPT: A Generalized Pretrained Tool for Multiple DNA Sequence Analysis Tasks

Создание эталонных наборов данных для оценки фактической точности языковых моделей
Generating Benchmarks for Factuality Evaluation of Language Models

T2I-CompBench: Комплексный бенчмарк для генерации изображений на основе текста с открытым миром и композиционностью
T2I-CompBench: A Comprehensive Benchmark for Open-world Compositional Text-to-image Generation

SITTA: Семантическое согласование изображений и текста для генерации подписей к изображениям
SITTA: A Semantic Image-Text Alignment for Image Captioning

К устойчивому и эффективному непрерывному обучению языковых моделей
Towards Robust and Efficient Continual Language Learning

VoxPoser: Композируемые 3D-карты ценностей для манипуляций роботов с использованием языковых моделей
VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models

Support

Support

Ежедневные статьи

Patch n' Pack: NaViT, Vision Transformer для любого соотношения сторон и разрешения
Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution

Автокодировщик в контексте для сжатия контекста в крупной языковой модели
In-context Autoencoder for Context Compression in a Large Language Model

PolyLM: Открытая многоязычная модель большого языка
PolyLM: An Open Source Polyglot Large Language Model

InternVid: Масштабный видеотекстовый набор данных для мультимодального понимания и генерации
InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation

Создавайте больше слоев по-новому: высокоранговое обучение через низкоранговые обновления
Stack More Layers Differently: High-Rank Training Through Low-Rank Updates

SayPlan: Привязка крупных языковых моделей с использованием 3D графов сцен для масштабируемого планирования задач
SayPlan: Grounding Large Language Models using 3D Scene Graphs for Scalable Task Planning

Инструктивное майнинг: отбор высококачественных инструктивных данных для крупных языковых моделей
Instruction Mining: High-Quality Instruction Data Selection for Large Language Models

DNAGPT: Универсальный предобученный инструмент для решения множества задач анализа последовательностей ДНК
DNAGPT: A Generalized Pretrained Tool for Multiple DNA Sequence Analysis Tasks

Создание эталонных наборов данных для оценки фактической точности языковых моделей
Generating Benchmarks for Factuality Evaluation of Language Models

T2I-CompBench: Комплексный бенчмарк для генерации изображений на основе текста с открытым миром и композиционностью
T2I-CompBench: A Comprehensive Benchmark for Open-world Compositional Text-to-image Generation

SITTA: Семантическое согласование изображений и текста для генерации подписей к изображениям
SITTA: A Semantic Image-Text Alignment for Image Captioning

К устойчивому и эффективному непрерывному обучению языковых моделей
Towards Robust and Efficient Continual Language Learning

VoxPoser: Композируемые 3D-карты ценностей для манипуляций роботов с использованием языковых моделей
VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models