Ежедневно отобранные исследовательские статьи по ИИ с переводами
Дистилляция знаний (Knowledge Distillation, KD) широко используется для сжатия модели-учителя с целью уменьшения затрат на вывод и объема занимаемой памяти путем обучения более компактной модели-ученика. Однако современные методы KD для авторегрессивных моделей последовательностей страдают от несоответствия распределений между выходными последовательностями, наблюдаемыми во время обучения, и теми, которые генерируются учеником во время вывода. Для решения этой проблемы мы представляем Обобщенную Дистилляцию Знаний (Generalized Knowledge Distillation, GKD). Вместо того чтобы полагаться исключительно на фиксированный набор выходных последовательностей, GKD обучает ученика на его собственных сгенерированных последовательностях, используя обратную связь от учителя на такие последовательности. В отличие от подходов с контролируемой KD, GKD также предоставляет гибкость в использовании альтернативных функций потерь между учеником и учителем, что может быть полезно, когда ученик не обладает достаточной выразительностью для точного воспроизведения распределения учителя. Кроме того, GKD обеспечивает плавную интеграцию дистилляции с тонкой настройкой с использованием обучения с подкреплением (RLHF). Мы демонстрируем эффективность GKD для дистилляции авторегрессивных языковых моделей в задачах суммаризации, перевода и арифметических рассуждений, а также для задач, не зависящих от конкретной задачи, в рамках настройки на инструкции.
Модели языка с расширенным поиском (retrieval-augmented language models, LMs) в последнее время привлекают значительное внимание. Однако обычно поисковый механизм не обучается совместно как неотъемлемая часть модели языка, а добавляется к уже предобученной LM, что ограничивает способность модели и поискового механизма адаптироваться друг к другу. В данной работе мы предлагаем Retrieval-Pretrained Transformer (RPT) — архитектуру и процедуру обучения для совместного обучения модели языка с расширенным поиском с нуля для задачи моделирования длинных текстов. Для недавно сгенерированного фрагмента текста в длинном документе модель языка вычисляет представления запросов, которые затем используются для поиска предыдущих фрагментов документа, расположенных потенциально за десятки тысяч токенов до текущего. Информация из найденных фрагментов интегрируется в представления модели языка для предсказания следующего целевого фрагмента. Мы обучаем поисковый компонент с семантической целью, где задача состоит в поиске фрагментов, которые увеличивают вероятность следующего фрагмента согласно эталонной модели языка. Мы оцениваем RPT на четырех задачах моделирования языка с длинным контекстом, охватывающих книги, код и математические тексты, и показываем, что RPT улучшает качество поиска и, как следствие, снижает perplexity по сравнению с сильными базовыми моделями.
С ростом популярности крупных языковых моделей (LLM) и их повсеместного внедрения в различных областях, измерение поведения языковых моделей на реалистичных данных становится крайне важным. Например, компания, развертывающая клиентский чат-бот, должна убедиться, что модель не будет отвечать на запросы клиентов ненормативной лексикой. Современные методы оценки решают эту проблему с использованием небольших, узкоспециализированных наборов данных с аннотациями, созданными вручную. Эти оценочные наборы часто выбираются из узкого и упрощенного распределения, а источники данных могут непреднамеренно попадать в обучающий набор, что может привести к ошибочным оценкам. Чтобы обойти эти недостатки, мы предлагаем фреймворк для самообучаемой оценки LLM путем анализа их чувствительности или инвариантности к преобразованиям входного текста. Самообучаемая оценка позволяет напрямую отслеживать поведение LLM на данных, собранных в реальных условиях или поступающих в режиме реального времени при развертывании модели. Мы демонстрируем стратегии самообучаемой оценки для измерения знаний в закрытой книге, токсичности и зависимости от долгосрочного контекста, а также чувствительности к грамматической структуре и ошибкам токенизации. Когда доступны сравнения с аналогичными эталонными данными, аннотированными человеком, мы обнаруживаем сильную корреляцию между самообучаемой и человеко-контролируемой оценками. Самообучаемый подход дополняет современные стратегии оценки, основанные на размеченных данных.
В данной работе мы возвращаемся к фундаментальному строительному блоку глубокого обучения — многослойному перцептрону (MLP) — и исследуем пределы его производительности на задачах компьютерного зрения. Эмпирические инсайты, связанные с MLP, важны по нескольким причинам. (1) Учитывая недавний нарратив "меньше индуктивного смещения — лучше", популяризированный благодаря тому, что трансформеры превзошли сверточные модели, естественно изучить пределы этой гипотезы. В этом контексте MLP предлагает идеальный полигон для испытаний, поскольку полностью свободен от какого-либо индуктивного смещения. (2) MLP почти исключительно выступают главным героем в теоретической литературе по глубокому обучению благодаря своей математической простоте, служа прокси для объяснения эмпирических явлений, наблюдаемых в более сложных архитектурах. Удивительно, но экспериментальные данные по MLP крайне сложно найти в литературе, особенно в сочетании с крупномасштабными протоколами предварительного обучения. Это расхождение между практикой и теорией вызывает беспокойство: отражают ли MLP эмпирические достижения, демонстрируемые практическими моделями? Или теоретикам необходимо переосмыслить роль MLP как прокси? Мы предоставляем инсайты по обоим этим аспектам. Мы показываем, что производительность MLP значительно улучшается с масштабированием (93% на CIFAR10, 79% на CIFAR100, 69% на TinyImageNet), подчеркивая, что отсутствие индуктивного смещения действительно может быть компенсировано. Мы наблюдаем, что MLP точно воспроизводят поведение своих современных аналогов, хотя некоторые компоненты в настройках обучения демонстрируют более сильные или неожиданные характеристики. Благодаря их врожденной вычислительной эффективности крупномасштабные эксперименты с предварительным обучением становятся более доступными для академических исследователей. Все наши эксперименты были проведены на одном графическом процессоре.
Мы представляем задачу открыто-словарной 3D-сегментации объектов. Традиционные подходы к 3D-сегментации объектов в значительной степени опираются на существующие аннотированные 3D-датасеты, которые ограничены закрытым набором категорий объектов. Это является важным ограничением для реальных приложений, где может потребоваться выполнение задач, направляемых новыми, открыто-словарными запросами, связанными с объектами из широкого спектра категорий. Недавно появились методы открыто-словарного понимания 3D-сцен, которые решают эту проблему, обучая запрашиваемые признаки для каждой точки сцены. Хотя такое представление может быть непосредственно использовано для выполнения семантической сегментации, существующие методы имеют ограничения в способности идентифицировать объектные экземпляры. В данной работе мы устраняем это ограничение и предлагаем OpenMask3D — подход с нулевым обучением для открыто-словарной 3D-сегментации объектов. Руководствуясь предсказанными класс-независимыми 3D-масками объектов, наша модель агрегирует признаки для каждой маски с помощью мультивьюшного слияния CLIP-эмбеддингов изображений. Мы проводим эксперименты и исследования на датасете ScanNet200 для оценки производительности OpenMask3D и предоставляем инсайты о задаче открыто-словарной 3D-сегментации объектов. Мы показываем, что наш подход превосходит другие открыто-словарные методы, особенно на длинном хвосте распределения. Более того, OpenMask3D выходит за рамки ограничений закрыто-словарных подходов и позволяет сегментировать объектные экземпляры на основе свободных запросов, описывающих свойства объектов, такие как семантика, геометрия, аффордансы и свойства материалов.
Обратная связь на естественном языке (NL) содержит богатую информацию о пользовательском опыте. Существующие исследования сосредоточены на подходе на уровне отдельных примеров, где обратная связь используется для уточнения конкретных случаев, игнорируя её применение на уровне системы. В данной статье предлагается общая структура для раскрытия системного использования обратной связи на естественном языке. Мы показываем, как использовать обратную связь для формализации решений на уровне системы в процессе с участием человека — с целью создания более качественных моделей. В частности, это достигается через: (i) разработку метрик для задач; и (ii) проектирование подсказок для языковых моделей с целью уточнения их ответов. Мы проводим два кейс-стади этого подхода для улучшения генерации поисковых запросов и генерации диалоговых ответов, демонстрируя эффективность использования системной обратной связи. Мы показываем, что сочетание системной и примерной обратной связи приводит к дополнительным улучшениям, а также что обратная связь, написанная человеком на уровне примеров, обеспечивает более обоснованные уточнения по сравнению с обратной связью, сгенерированной GPT-3.5, что подчеркивает важность человеческой обратной связи для построения систем.
Нейронные поля достигли значительных успехов в синтезе видов и реконструкции сцен. Однако редактирование этих нейронных полей остается сложной задачей из-за неявного кодирования геометрической и текстурной информации. В данной статье мы предлагаем DreamEditor — новый фреймворк, который позволяет пользователям выполнять контролируемое редактирование нейронных полей с использованием текстовых запросов. Представляя сцены в виде нейронных полей на основе сеток, DreamEditor обеспечивает локализованное редактирование в определенных областях. DreamEditor использует текстовый кодировщик предварительно обученной модели диффузии текста в изображение для автоматического определения областей, подлежащих редактированию, на основе семантики текстовых запросов. Затем DreamEditor оптимизирует область редактирования и согласовывает ее геометрию и текстуру с текстовыми запросами с помощью метода сэмплирования по дистилляции оценок [29]. Многочисленные эксперименты показали, что DreamEditor может точно редактировать нейронные поля реальных сцен в соответствии с заданными текстовыми запросами, сохраняя при этом неизменность в нерелевантных областях. DreamEditor создает высокореалистичные текстуры и геометрию, значительно превосходя предыдущие работы как в количественных, так и в качественных оценках.