HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

19 papers found

StemGen: Модель генерации музыки, которая слушает
StemGen: A music generation model that listens

Dec 14

ByJulian D. Parker, Janne Spijkervet, Katerina Kosta, Furkan Yesiler, Boris Kuznetsov, Ju-Chiang Wang, Matt Avent, Jitong Chen, Duc Le

Сквозная генерация музыкального аудио с использованием методов глубокого обучения в последнее время переживает взрывной рост активности. Однако большинство моделей сосредоточены на создании полностью сведенной музыки в ответ на абстрактные условия. В данной работе мы предлагаем альтернативную парадигму для создания моделей генерации музыки, которые способны слушать и реагировать на музыкальный контекст. Мы описываем, как такая модель может быть построена с использованием неавторегрессивной архитектуры на основе трансформеров, и представляем ряд новых архитектурных улучшений и усовершенствований в процессе сэмплирования. Мы обучаем описанную архитектуру как на открытых, так и на проприетарных наборах данных. Произведенные модели оцениваются с использованием стандартных метрик качества и нового подхода, основанного на дескрипторах извлечения музыкальной информации. Полученная модель достигает качества аудио, сопоставимого с современными моделями, обусловленными текстом, а также демонстрирует высокую музыкальную согласованность с контекстом.

TinyGSM: достижение более 80% точности на GSM8k с использованием компактных языковых моделей
TinyGSM: achieving >80% on GSM8k with small language models

Dec 14

ByBingbin Liu, Sebastien Bubeck, Ronen Eldan, Janardhan Kulkarni, Yuanzhi Li, Anh Nguyen, Rachel Ward, Yi Zhang

Модели небольшого масштаба предлагают различные вычислительные преимущества, однако вопрос о том, насколько критичен размер для способности решать задачи, остается открытым. В частности, для решения задач по математике начальной школы минимальный размер модели, необходимый для преодоления барьера в 80\% на бенчмарке GSM8K, до сих пор составляет 34 миллиарда параметров. Наша работа исследует, как высококачественные наборы данных могут стать ключом к тому, чтобы небольшие языковые модели приобрели способность к математическому рассуждению. Мы представляем TinyGSM — синтетический набор данных, содержащий 12,3 миллиона задач по математике начальной школы, сопряженных с решениями на Python, полностью сгенерированными моделью GPT-3.5. После тонкой настройки на TinyGSM мы обнаружили, что дуэт из генеративной модели на 1,3 миллиарда параметров и модели-верификатора на 1,3 миллиарда параметров может достичь точности в 81,5\%, превосходя существующие модели, которые на порядки больше. Этот результат также сопоставим с производительностью модели GPT-3.5 (77,4\%), которая выступала в роли «учителя» и генерировала данные для обучения нашей модели. Наш подход прост и состоит из двух ключевых компонентов: 1) высококачественного набора данных TinyGSM, 2) использования верификатора, который выбирает окончательные ответы из множества кандидатов, сгенерированных моделью.

CogAgent: Визуальная языковая модель для агентов графического интерфейса пользователя
CogAgent: A Visual Language Model for GUI Agents

Dec 14

ByWenyi Hong, Weihan Wang, Qingsong Lv, Jiazheng Xu, Wenmeng Yu, Junhui Ji, Yan Wang, Zihan Wang, Yuxiao Dong, Ming Ding, Jie Tang

Люди проводят огромное количество времени за цифровыми устройствами, взаимодействуя с графическими пользовательскими интерфейсами (GUI), такими как экраны компьютеров или смартфонов. Крупные языковые модели (LLM), такие как ChatGPT, могут помогать людям в задачах, например, в написании писем, но испытывают трудности с пониманием и взаимодействием с GUI, что ограничивает их потенциал для повышения уровня автоматизации. В этой статье мы представляем CogAgent, визуальную языковую модель (VLM) с 18 миллиардами параметров, специализирующуюся на понимании и навигации по GUI. Благодаря использованию как низкоразрешающих, так и высокоразрешающих кодировщиков изображений, CogAgent поддерживает ввод с разрешением 1120*1120, что позволяет ей распознавать мелкие элементы страницы и текст. Как универсальная визуальная языковая модель, CogAgent достигает наилучших результатов на пяти текстоориентированных и четырех общих бенчмарках для визуального вопросно-ответного анализа (VQA), включая VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet и POPE. CogAgent, использующая только скриншоты в качестве входных данных, превосходит методы на основе LLM, которые используют извлеченный HTML-текст, в задачах навигации по GUI на ПК и Android — Mind2Web и AITW, устанавливая новый стандарт в этой области. Модель и код доступны по адресу https://github.com/THUDM/CogVLM.

VideoLCM: Видеомодель латентной согласованности
VideoLCM: Video Latent Consistency Model

Dec 14

ByXiang Wang, Shiwei Zhang, Han Zhang, Yu Liu, Yingya Zhang, Changxin Gao, Nong Sang

Модели согласованности продемонстрировали мощные возможности в эффективной генерации изображений, позволяя синтезировать их за несколько шагов сэмплирования, что снижает высокие вычислительные затраты в диффузионных моделях. Однако применение моделей согласованности в более сложной и ресурсоемкой задаче генерации видео остается малоизученным. В данном отчете мы представляем фреймворк VideoLCM, который заполняет этот пробел, используя концепцию моделей согласованности из генерации изображений для эффективного синтеза видео с минимальным количеством шагов при сохранении высокого качества. VideoLCM основывается на существующих латентных диффузионных моделях для видео и включает методы согласованной дистилляции для обучения латентной модели согласованности. Экспериментальные результаты демонстрируют эффективность VideoLCM с точки зрения вычислительной эффективности, точности и временной согласованности. Примечательно, что VideoLCM достигает синтеза видео с высокой точностью и плавностью всего за четыре шага сэмплирования, что открывает потенциал для синтеза в реальном времени. Мы надеемся, что VideoLCM сможет стать простым, но эффективным базовым решением для последующих исследований. Исходный код и модели будут общедоступны.

Картина стоит больше, чем 77 текстовых токенов: оценка моделей в стиле CLIP на основе плотных описаний
A Picture is Worth More Than 77 Text Tokens: Evaluating CLIP-Style Models on Dense Captions

Dec 14

ByJack Urbanek, Florian Bordes, Pietro Astolfi, Mary Williamson, Vasu Sharma, Adriana Romero-Soriano

Методы курирования крупномасштабных наборов данных для задач "визуальный язык" требуют компромисса между размером набора данных и его качеством. Однако даже самые качественные доступные аннотации к изображениям оказываются слишком краткими, чтобы передать всё богатство визуальных деталей. Чтобы продемонстрировать ценность плотных и точно согласованных пар "изображение-текст", мы собрали набор данных Densely Captioned Images (DCI), содержащий 8012 натуральных изображений, аннотированных человеком с описаниями, привязанными к маскам, где каждое описание в среднем превышает 1000 слов. Благодаря точным и надёжным аннотациям, связанным с конкретными частями изображения, мы можем оценить понимание моделей "визуальный язык" (VLMs) с помощью новой задачи, которая сопоставляет каждое описание с соответствующим фрагментом изображения. Поскольку современные модели часто ограничены 77 текстовыми токенами, мы также представляем сокращённую версию (sDCI), в которой длина каждого описания ограничена. Мы показываем, что современные методы, демонстрирующие прогресс на стандартных бенчмарках, не приводят к значительному улучшению на нашем бенчмарке, основанном на sDCI. Наконец, мы дообучили модель CLIP с использованием sDCI и показали значительное улучшение по сравнению с базовой моделью, несмотря на небольшой обучающий набор. Выпуская первый набор данных с плотными аннотациями изображений, созданными человеком, мы надеемся способствовать разработке новых бенчмарков или рецептов дообучения для следующего поколения моделей "визуальный язык".

Mosaic-SDF для генеративных 3D-моделей
Mosaic-SDF for 3D Generative Models

Dec 14

ByLior Yariv, Omri Puny, Natalia Neverova, Oran Gafni, Yaron Lipman

Современные диффузионные или потоковые генеративные модели для 3D-форм делятся на два типа: дистилляция предобученных диффузионных моделей для 2D-изображений и прямое обучение на 3D-формах. При обучении диффузионных или потоковых моделей на 3D-формах ключевым выбором является представление формы. Эффективное представление формы должно соответствовать трем принципам: оно должно позволять эффективное преобразование больших наборов 3D-данных в нужную форму; обеспечивать оптимальный баланс между точностью аппроксимации и количеством параметров; и иметь простую тензорную форму, совместимую с существующими мощными нейронными архитектурами. Хотя стандартные представления 3D-форм, такие как воксельные сетки и облака точек, не соответствуют всем этим принципам одновременно, в данной статье мы предлагаем новое представление, которое их удовлетворяет. Мы представляем Mosaic-SDF (M-SDF): простое представление 3D-форм, которое аппроксимирует функцию знакового расстояния (SDF) для заданной формы с использованием набора локальных сеток, распределенных вблизи границы формы. Представление M-SDF быстро вычисляется для каждой формы в отдельности, что делает его легко параллелизуемым; оно эффективно по параметрам, так как покрывает только пространство вокруг границы формы; и имеет простую матричную форму, совместимую с архитектурами на основе трансформеров. Мы демонстрируем эффективность представления M-SDF, используя его для обучения 3D-генеративной потоковой модели, включая условную генерацию по классам на наборе данных 3D Warehouse, а также генерацию 3D-форм по тексту с использованием набора данных из около 600 тысяч пар "описание-форма".

Пиксельно-выровненные языковые модели
Pixel Aligned Language Models

Dec 14

ByJiarui Xu, Xingyi Zhou, Shen Yan, Xiuye Gu, Anurag Arnab, Chen Sun, Xiaolong Wang, Cordelia Schmid

Крупные языковые модели достигли значительных успехов в последние годы, как и их аналоги в области компьютерного зрения. Существующие модели, объединяющие зрение и язык, способны описывать изображения на естественном языке, отвечать на вопросы, связанные с визуальным контентом, или выполнять сложные рассуждения об изображении. Однако до сих пор неясно, как можно выполнять задачи локализации, такие как привязка слов или локализация по ссылкам, с использованием крупных языковых моделей. В данной работе мы стремимся разработать модель, объединяющую зрение и язык, которая может принимать местоположения, например, набор точек или ограничивающих рамок, в качестве входных или выходных данных. Когда местоположения используются как входные данные, модель выполняет генерацию подписей с учетом локации, создавая описания для указанного объекта или области. Когда модель генерирует местоположения как выходные данные, она предсказывает координаты пикселей для каждого слова, сгенерированного языковой моделью, тем самым выполняя плотную привязку слов. Наша модель предварительно обучается на наборе данных Localized Narrative, который содержит подписи, согласованные с пикселями на основе человеческого внимания. Мы показываем, что наша модель может быть применена к различным задачам, учитывающим локализацию в области зрения и языка, включая локализацию по ссылкам, генерацию подписей с учетом локации и плотное описание объектов, достигая наилучших результатов на наборах данных RefCOCO и Visual Genome. Страница проекта: https://jerryxu.net/PixelLLM.

SEEAvatar: Фотореалистичная генерация 3D-аватаров из текста с ограниченной геометрией и внешним видом
SEEAvatar: Photorealistic Text-to-3D Avatar Generation with Constrained Geometry and Appearance

Dec 13

ByYuanyou Xu, Zongxin Yang, Yi Yang

Благодаря крупномасштабным моделям генерации изображений из текста, создание 3D-аватаров по текстовому описанию достигло значительного прогресса. Однако большинство методов не способны создавать фотореалистичные результаты из-за неточной геометрии и низкокачественного внешнего вида. Для более практичного создания аватаров мы представляем SEEAvatar — метод генерации фотореалистичных 3D-аватаров из текста с использованием SElf-Evolving ограничений для разделения геометрии и внешнего вида. Для геометрии мы предлагаем ограничивать оптимизированный аватар в рамках корректной глобальной формы с использованием шаблонного аватара. Шаблонный аватар инициализируется с учетом априорных данных о человеке и может периодически обновляться на основе оптимизированного аватара, выступая в роли эволюционирующего шаблона, что позволяет создавать более гибкие формы. Кроме того, геометрия также ограничивается статическими априорными данными о человеке для локальных частей, таких как лицо и руки, чтобы сохранить тонкие структуры. Для генерации внешнего вида мы используем диффузионную модель, усиленную инженерией подсказок, чтобы направлять физически основанный конвейер рендеринга для создания реалистичных текстур. Ограничение яркости применяется к альбедо-текстуре для подавления некорректных эффектов освещения. Эксперименты показывают, что наш метод значительно превосходит предыдущие подходы как по качеству глобальной и локальной геометрии, так и по качеству внешнего вида. Поскольку наш метод позволяет создавать высококачественные меши и текстуры, такие ресурсы могут быть напрямую использованы в классическом графическом конвейере для реалистичного рендеринга при любых условиях освещения. Страница проекта: https://seeavatar3d.github.io.

Zebra: Расширение контекстного окна с помощью послойно сгруппированного локально-глобального внимания
Zebra: Extending Context Window with Layerwise Grouped Local-Global Attention

Dec 14

ByKaiqiang Song, Xiaoyang Wang, Sangwoo Cho, Xiaoman Pan, Dong Yu

В данной статье представлен новый подход для расширения возможностей крупных языковых моделей (LLM) в обработке и понимании длинных текстовых последовательностей, что является критически важным аспектом для приложений, требующих глубокого анализа и синтеза больших объемов информации. Учитывая присущие трудности в расширении контекстного окна для LLM, основанных преимущественно на архитектуре Transformer, мы предлагаем новую архитектуру модели, названную Zebra. Эта архитектура эффективно решает проблемы квадратичной временной и пространственной сложности, связанные с полным вниманием в Transformer, за счет использования группированных локально-глобальных слоев внимания. Наша модель, подобно чередующимся полосам зебры, балансирует между локальными и глобальными слоями внимания, значительно снижая вычислительные требования и потребление памяти. Для оценки производительности Zebra проведены комплексные эксперименты, включая предварительное обучение с нуля, продолжение адаптационного обучения для длинных контекстов и тонкую настройку на длинных инструкциях. Результаты показывают, что Zebra демонстрирует сопоставимую или превосходящую производительность на бенчмарках как для коротких, так и для длинных последовательностей, одновременно повышая эффективность обучения и вывода.

Модели "зрение-язык" как источник вознаграждений
Vision-Language Models as a Source of Rewards

Dec 14

ByKate Baumli, Satinder Baveja, Feryal Behbahani, Harris Chan, Gheorghe Comanici, Sebastian Flennerhag, Maxime Gazeau, Kristian Holsheimer, Dan Horgan, Michael Laskin, Clare Lyle, Hussain Masoom, Kay McKinney, Volodymyr Mnih, Alexander Neitz, Fabio Pardo, Jack Parker-Holder, John Quan, Tim Rocktäschel, Himanshu Sahni, Tom Schaul, Yannick Schroecker, Stephen Spencer, Richie Steigerwald, Luyu Wang, Lei Zhang

Создание универсальных агентов, способных достигать множества целей в сложных и открытых средах, является одной из ключевых исследовательских задач в области обучения с подкреплением. Основным ограничивающим фактором при разработке таких агентов с использованием RL была необходимость в большом количестве функций вознаграждения для достижения различных целей. Мы исследуем возможность использования готовых моделей, объединяющих зрение и язык (vision-language models, VLMs), в качестве источников вознаграждения для агентов обучения с подкреплением. Мы демонстрируем, как вознаграждения за визуальное достижение разнообразных языковых целей могут быть получены из семейства моделей CLIP и использованы для обучения RL-агентов, способных достигать различных языковых целей. Мы представляем этот подход в двух различных визуальных областях и показываем тенденцию масштабирования, согласно которой более крупные VLMs обеспечивают более точные вознаграждения за достижение визуальных целей, что, в свою очередь, приводит к созданию более эффективных RL-агентов.

FineControlNet: Точное управление текстом для генерации изображений с пространственно выровненным введением текстового управления
FineControlNet: Fine-level Text Control for Image Generation with Spatially Aligned Text Control Injection

Dec 14

ByHongsuk Choi, Isaac Kasahara, Selim Engin, Moritz Graule, Nikhil Chavan-Dafle, Volkan Isler

Недавно представленный ControlNet обладает способностью управлять процессом генерации изображений на основе текста с использованием геометрических входных данных, таких как 2D-поза человека или граничные признаки. Хотя ControlNet обеспечивает контроль над геометрической формой объектов в сгенерированном изображении, он не способен задавать визуальный внешний вид каждого объекта. Мы представляем FineControlNet, который предоставляет точный контроль над внешним видом каждого объекта, сохраняя при этом возможность точного управления позой. В частности, мы разработали и продемонстрировали FineControlNet с геометрическим управлением через изображения поз человека и управлением внешним видом через текстовые подсказки на уровне объектов. Пространственное выравнивание текстовых подсказок, специфичных для объектов, и 2D-поз в латентном пространстве обеспечивает возможности точного управления FineControlNet. Мы оцениваем производительность FineControlNet, сравнивая его с современными моделями диффузии текста в изображение, управляемыми позой. FineControlNet демонстрирует превосходную производительность в генерации изображений, соответствующих предоставленным пользователем текстовым подсказкам и позам, по сравнению с существующими методами. Страница проекта: https://samsunglabs.github.io/FineControlNet-project-page.

LIME: Локализованное редактирование изображений с помощью регуляризации внимания в диффузионных моделях
LIME: Localized Image Editing via Attention Regularization in Diffusion Models

Dec 14

ByEnis Simsar, Alessio Tonioni, Yongqin Xian, Thomas Hofmann, Federico Tombari

Диффузионные модели (DMs) приобрели значительную популярность благодаря своей способности генерировать высококачественные и разнообразные изображения, особенно с учетом последних достижений в области генерации изображений на основе текста. В настоящее время исследовательский фокус смещается в сторону управляемости DMs. Одной из ключевых задач в этой области является локализованное редактирование, при котором изменяются определенные области изображения без воздействия на остальное содержимое. В данной статье представлен метод LIME для локализованного редактирования изображений в диффузионных моделях, который не требует указания пользователем областей интереса (RoI) или дополнительного текстового ввода. Наш метод использует признаки, полученные с помощью предобученных методов, и простую технику кластеризации для создания точных семантических карт сегментации. Затем, используя карты кросс-внимания, метод уточняет эти сегменты для локализованного редактирования. Наконец, мы предлагаем новую технику регуляризации кросс-внимания, которая штрафует несвязанные оценки кросс-внимания в области интереса на этапах удаления шума, обеспечивая локализованные изменения. Наш подход, не требующий повторного обучения и тонкой настройки, последовательно улучшает производительность существующих методов в различных тестах на редактирование.

Универсальная базовая модель для изображений и видео в масштабе
General Object Foundation Model for Images and Videos at Scale

Dec 14

ByJunfeng Wu, Yi Jiang, Qihao Liu, Zehuan Yuan, Xiang Bai, Song Bai

В данной работе мы представляем GLEE — базовую модель на уровне объектов для локализации и идентификации объектов на изображениях и видео. В рамках единой структуры GLEE выполняет задачи обнаружения, сегментации, отслеживания, привязки и идентификации произвольных объектов в сценариях открытого мира для различных задач восприятия объектов. Используя согласованную стратегию обучения, GLEE приобретает знания из разнообразных источников данных с различными уровнями контроля, формируя общие представления об объектах, что позволяет ей эффективно справляться с задачами переноса на новые данные и задачи в условиях нулевого обучения. В частности, мы применяем кодировщик изображений, кодировщик текста и визуальный промптер для обработки многомодальных входных данных, что позволяет одновременно решать различные задачи, ориентированные на объекты, сохраняя при этом передовые показатели производительности. Продемонстрированная в ходе обширного обучения на более чем пяти миллионах изображений из различных наборов данных, GLEE демонстрирует выдающуюся универсальность и улучшенную способность к обобщению, эффективно справляясь с задачами без необходимости адаптации под конкретные задачи. Благодаря интеграции больших объемов автоматически размеченных данных мы дополнительно усиливаем её способности к нулевому обобщению. Кроме того, GLEE может быть интегрирована в крупные языковые модели, выступая в качестве базовой модели для предоставления универсальной информации на уровне объектов для многомодальных задач. Мы надеемся, что универсальность и универсальность нашего метода станут важным шагом в разработке эффективных визуальных базовых моделей для систем искусственного общего интеллекта (AGI). Модель и код будут доступны по адресу https://glee-vision.github.io.

UniDream: Унификация диффузионных априорных моделей для генерации переосвещаемых 3D-объектов из текста
UniDream: Unifying Diffusion Priors for Relightable Text-to-3D Generation

Dec 14

ByZexiang Liu, Yangguang Li, Youtian Lin, Xin Yu, Sida Peng, Yan-Pei Cao, Xiaojuan Qi, Xiaoshui Huang, Ding Liang, Wanli Ouyang

Последние достижения в технологии генерации 3D-объектов из текстовых описаний значительно продвинули процесс преобразования текстовых описаний в воображаемые, геометрически точные и детально текстурированные 3D-модели. Однако, несмотря на эти успехи, распространённым ограничением является использование RGB-данных в диффузионных или реконструкционных моделях, что часто приводит к появлению моделей с эффектами освещения и теней, которые снижают их реалистичность и ограничивают их применимость в задачах, требующих точного переосвещения. Чтобы устранить этот пробел, мы представляем UniDream — фреймворк для генерации 3D-объектов из текста, основанный на объединённых диффузионных априорных данных. Наш подход включает три основных компонента: (1) двухэтапный процесс обучения для получения согласованных по альбедо и нормалям многовидовых диффузионных и реконструкционных моделей, (2) прогрессивную процедуру генерации геометрии и текстур альбедо на основе метода Score Distillation Sample (SDS) с использованием обученных реконструкционных и диффузионных моделей, и (3) инновационное применение SDS для финализации генерации PBR (физически корректного рендеринга) с сохранением фиксированного альбедо на основе модели Stable Diffusion. Результаты обширных экспериментов показывают, что UniDream превосходит существующие методы в создании 3D-объектов с более чёткими текстурами альбедо, гладкими поверхностями, повышенной реалистичностью и улучшенными возможностями переосвещения.

ZeroQuant(4+2): Переосмысление квантования языковых моделей с новой стратегией, ориентированной на FP6, для разнообразных генеративных задач
ZeroQuant(4+2): Redefining LLMs Quantization with a New FP6-Centric Strategy for Diverse Generative Tasks

Dec 14

ByXiaoxia Wu, Haojun Xia, Stephen Youn, Zhen Zheng, Shiyang Chen, Arash Bakhtiari, Michael Wyatt, Yuxiong He, Olatunji Ruwase, Leon Song, Zhewei Yao

В данном исследовании рассматриваются методы 4-битной квантизации, такие как GPTQ, в крупных языковых моделях (LLM), подчеркивая склонность GPTQ к переобучению и ограниченное улучшение в задачах Zero-Shot. В то время как предыдущие работы фокусировались исключительно на измерениях в режиме zero-shot, мы расширяем спектр задач до более генеративных категорий, таких как генерация кода и абстрактное суммирование, в которых обнаружили, что INT4-квантизация может значительно уступать по производительности. Однако переход к более высоким форматам точности, таким как FP6, оказался особенно сложным и часто игнорировался из-за низкой производительности, вызванной отсутствием сложной интеграции и стратегий ускорения на современном аппаратном обеспечении для ИИ. Наши результаты показывают, что FP6, даже с грубой схемой квантизации, демонстрирует устойчивую производительность в различных алгоритмах и задачах, подтверждая его превосходство в точности и универсальности. В частности, при использовании FP6-квантизации модель \codestar-15B показывает сопоставимые результаты с её FP16-аналогом в генерации кода, а для более мелких моделей, таких как 406M, она близка к их базовым показателям в задачах суммирования. Ничего подобного не удается достичь с INT4. Для лучшей адаптации к различному аппаратному обеспечению ИИ и достижения наилучшей системной производительности мы предлагаем новую 4+2 схему для FP6, которая обеспечивает задержку, сравнимую с современной INT4-квантизацией с мелкой гранулярностью. С нашей разработкой FP6 может стать перспективным решением для текущих методов 4-битной квантизации, используемых в LLM.

VL-GPT: Генеративный предобученный трансформер для понимания и генерации данных в области зрения и языка
VL-GPT: A Generative Pre-trained Transformer for Vision and Language Understanding and Generation

Dec 14

ByJinguo Zhu, Xiaohan Ding, Yixiao Ge, Yuying Ge, Sijie Zhao, Hengshuang Zhao, Xiaohua Wang, Ying Shan

В данной работе мы представляем Vision-Language Generative Pre-trained Transformer (VL-GPT) — трансформерную модель, способную одновременно воспринимать и генерировать визуальные и лингвистические данные. VL-GPT реализует унифицированный подход к предварительному обучению для изображений и текста, используя простую авторегрессионную задачу, что позволяет модели обрабатывать изображения и текст так же естественно, как языковая модель обрабатывает текст. Для достижения этого мы сначала предлагаем новую архитектуру токенизатора-детокенизатора для визуальных данных, специально разработанную для преобразования исходных изображений в последовательность непрерывных эмбеддингов и их последующего восстановления. В сочетании с существующими токенизатором и детокенизатором для текста эта архитектура позволяет кодировать чередующиеся изображения и текст в мультимодальную последовательность, которая затем может быть подана в трансформерную модель. В результате VL-GPT может выполнять масштабное предварительное обучение на мультимодальных корпусах, используя унифицированную авторегрессионную задачу (т.е. предсказание следующего токена). После завершения предварительного обучения VL-GPT демонстрирует выдающуюся производительность в задачах нулевого и немногих примеров для широкого спектра задач понимания и генерации визуальных и текстовых данных, включая создание подписей к изображениям, визуальный вопросно-ответный анализ, генерацию изображений по тексту и многое другое. Кроме того, предобученная модель сохраняет способность к обучению в контексте при работе с мультимодальными запросами. Мы также проводим тонкую настройку инструкций для нашей VL-GPT, подчеркивая её исключительный потенциал для мультимодальной помощи. Исходный код и веса модели будут опубликованы.

Помощь или управление? Ансамбли моделей вознаграждения смягчают, но не устраняют проблему манипулирования вознаграждением
Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking

Dec 14

ByJacob Eisenstein, Chirag Nagpal, Alekh Agarwal, Ahmad Beirami, Alex D'Amour, DJ Dvijotham, Adam Fisch, Katherine Heller, Stephen Pfohl, Deepak Ramachandran, Peter Shaw, Jonathan Berant

Модели вознаграждения играют ключевую роль в согласовании приложений языковых моделей с человеческими предпочтениями. Однако такая настройка создает стимул для языковой модели эксплуатировать ошибки в модели вознаграждения для достижения высокой оценки вознаграждения — явление, часто называемое "взломом вознаграждения". Естественным способом смягчения этой проблемы является обучение ансамбля моделей вознаграждения, агрегирующего выходы моделей для получения более устойчивой оценки вознаграждения. Мы исследуем применение ансамблей вознаграждения для согласования как на этапе обучения (через обучение с подкреплением), так и на этапе вывода (через переранжирование). Во-первых, мы показываем, что модели вознаграждения недостаточно специфицированы: модели, которые демонстрируют схожую производительность в рамках обучающего распределения, могут давать сильно различающиеся оценки вознаграждения при использовании для согласования из-за сдвига распределения. Во-вторых, недостаточная спецификация приводит к переоптимизации, при которой согласование с одной моделью вознаграждения не улучшает оценку вознаграждения, измеренную другой моделью, обученной на тех же данных. В-третьих, использование ансамблей моделей вознаграждения смягчает проблему переоптимизации, причем ансамбли, различающиеся начальными значениями для предварительного обучения, обеспечивают лучшее обобщение, чем ансамбли, различающиеся только начальными значениями для тонкой настройки, и оба типа ансамблей превосходят отдельные модели вознаграждения. Однако даже ансамбли моделей с предварительным обучением не устраняют полностью взлом вознаграждения: мы демонстрируем несколько качественных примеров взлома вознаграждения, которые не устраняются ансамблированием, поскольку все модели в ансамбле демонстрируют схожие паттерны ошибок.

SHAP-EDITOR: Редактирование скрытых 3D-моделей по инструкциям за секунды
SHAP-EDITOR: Instruction-guided Latent 3D Editing in Seconds

Dec 14

ByMinghao Chen, Junyu Xie, Iro Laina, Andrea Vedaldi

Мы предлагаем новый фреймворк для прямого редактирования 3D-объектов под названием Shap-Editor. Предыдущие исследования в области редактирования 3D-объектов в основном сосредотачивались на редактировании отдельных объектов с использованием готовых сетей для редактирования 2D-изображений. Это достигается с помощью процесса, называемого дистилляцией, который переносит знания из 2D-сети в 3D-активы. Дистилляция требует как минимум десятков минут на каждый объект для достижения удовлетворительных результатов редактирования, что делает её не очень практичной. В отличие от этого, мы задаёмся вопросом, можно ли выполнять редактирование 3D-объектов напрямую с помощью прямой сети, избегая оптимизации во время тестирования. В частности, мы предполагаем, что редактирование может быть значительно упрощено, если сначала закодировать 3D-объекты в подходящем латентном пространстве. Мы проверяем эту гипотезу, основываясь на латентном пространстве Shap-E. Мы демонстрируем, что прямое редактирование 3D-объектов в этом пространстве возможно и эффективно, создавая прямую сеть для редактирования, которая требует всего около одной секунды на каждое изменение. Наши эксперименты показывают, что Shap-Editor хорошо обобщается как на объекты из распределения, так и на объекты вне распределения, с различными запросами, демонстрируя сопоставимую производительность с методами, которые выполняют оптимизацию во время тестирования для каждого редактируемого экземпляра.

TigerBot: Открытая многоязычная многозадачная языковая модель
TigerBot: An Open Multilingual Multitask LLM

Dec 14

ByYe Chen, Wei Cai, Liangmin Wu, Xiaowei Li, Zhanxuan Xin, Cong Fu

Мы представляем семейство больших языковых моделей (LLM) TigerBot, включающее базовые и чат-модели с размерами от 7, 13, 70 до 180 миллиардов параметров. Наши модели разработаны на основе Llama-2 и BLOOM, и мы продвигаем границы возможностей в области данных, алгоритмов обучения, инфраструктуры и инструментов для приложений. Наши модели демонстрируют значительный прирост производительности по сравнению с современными открытыми моделями, такими как Llama-2, с улучшением на 6% для английского языка и на 20% для китайского. Семейство моделей TigerBot также достигает лидирующих результатов в основных академических и промышленных бенчмарках и рейтингах. Мы считаем, что TigerBot представляет собой лишь моментальный снимок стремительного прогресса в сообществе открытых LLM. Поэтому мы с радостью делимся нашими моделями, публично выпуская их и описывая наш подход, с особым акцентом на создание современных LLM в демократизированной манере и их применение в реальных задачах.