Ежедневно отобранные исследовательские статьи по ИИ с переводами
Обучение в контексте (In-context learning, ICL) в больших языковых моделях (Large Language Models, LLMs) стало мощной новой парадигмой обучения. Однако его базовый механизм до сих пор недостаточно изучен. В частности, сложно сопоставить его с "классической" структурой машинного обучения, где используется обучающий набор данных S для поиска наилучшей функции f(x) в некотором классе гипотез. В данной работе мы продвигаемся в решении этой проблемы, показывая, что функции, изучаемые с помощью ICL, часто имеют очень простую структуру: они соответствуют трансформеру LLM, входными данными для которого являются только запрос x и единственный "вектор задачи", вычисленный на основе обучающего набора. Таким образом, ICL можно рассматривать как сжатие S в единый вектор задачи theta(S) и последующее использование этого вектора для модуляции трансформера с целью получения выходных данных. Мы подтверждаем это утверждение с помощью всесторонних экспериментов на различных моделях и задачах.
Ландшафт публично доступных базовых моделей для задач компьютерного зрения (Vision Foundation Models, VFMs), таких как CLIP и Segment Anything Model (SAM), стремительно расширяется. VFMs обладают уникальными возможностями, обусловленными их целями предварительного обучения. Например, CLIP преуспевает в семантическом понимании, в то время как SAM специализируется на пространственном понимании для задач сегментации. В данной работе мы представляем простой метод для эффективного объединения VFMs в единую модель, которая ассимилирует их экспертизу. Наш предложенный подход интегрирует многозадачное обучение, методы непрерывного обучения и дистилляцию по схеме "учитель-ученик". Эта стратегия требует значительно меньших вычислительных затрат по сравнению с традиционным многозадачным обучением с нуля. Кроме того, она требует лишь небольшой части наборов данных для предварительного обучения, которые изначально использовались для тренировки отдельных моделей. Применив наш метод к SAM и CLIP, мы создали SAM-CLIP: единую модель, которая объединяет сильные стороны SAM и CLIP в единый бэкбон, делая её подходящей для использования на устройствах с ограниченными ресурсами. Мы показываем, что SAM-CLIP обучается более богатым визуальным представлениям, оснащённым как локализационными, так и семантическими признаками, что делает её пригодной для широкого спектра задач компьютерного зрения. SAM-CLIP демонстрирует улучшенную производительность на нескольких задачах тестирования по сравнению с SAM и CLIP. Мы также показываем, что SAM-CLIP не только сохраняет фундаментальные преимущества своих предшественников, но и вводит синергетические функциональные возможности, наиболее заметные в задаче семантической сегментации с нулевым обучением, где SAM-CLIP устанавливает новые рекорды на 5 бенчмарках. Она значительно превосходит предыдущие модели, специально разработанные для этой задачи, включая улучшение среднего IoU на 6,8% и 5,9% на наборах данных Pascal-VOC и COCO-Stuff соответственно.
Галлюцинации представляют собой серьезную проблему, нависающую над быстро развивающимися мультимодальными большими языковыми моделями (MLLMs), и относятся к явлению, когда сгенерированный текст не соответствует содержанию изображения. Для смягчения галлюцинаций существующие исследования в основном прибегают к подходу настройки с помощью инструкций, который требует переобучения моделей на специфических данных. В данной статье мы предлагаем иной путь, представляя метод без необходимости обучения, названный Woodpecker. Подобно тому, как дятел лечит деревья, он выявляет и исправляет галлюцинации в сгенерированном тексте. Конкретно, Woodpecker состоит из пяти этапов: извлечение ключевых концепций, формулирование вопросов, проверка визуальных знаний, генерация визуальных утверждений и исправление галлюцинаций. Реализованный в виде постобработки, Woodpecker может легко применяться к различным MLLMs, оставаясь интерпретируемым благодаря доступу к промежуточным результатам на каждом из пяти этапов. Мы оцениваем Woodpecker как количественно, так и качественно, демонстрируя огромный потенциал этой новой парадигмы. На бенчмарке POPE наш метод показывает улучшение точности на 30,66%/24,33% по сравнению с базовыми моделями MiniGPT-4/mPLUG-Owl. Исходный код доступен по адресу https://github.com/BradyFU/Woodpecker.
Большинство недавних исследований, посвященных использованию крупных языковых моделей (LLM), таких как GPT-3, для машинного перевода (MT), сосредоточены на выборе примеров для немедленного обучения (few-shot prompting). В данной работе мы стремимся глубже понять роль атрибутов демонстраций для обучения переводам в контексте (in-context learning) путем внесения изменений в высококачественные, тематически релевантные примеры. Мы обнаруживаем, что асимметричное изменение соответствий между исходным и целевым текстами приводит к существенно разным результатам. Мы показываем, что изменение исходного текста оказывает удивительно малое влияние, в то время как изменение целевого текста может значительно снизить качество перевода, что указывает на то, что именно распределение выходного текста предоставляет наиболее важный сигнал для обучения в контексте перевода. Мы предлагаем метод под названием Zero-Shot-Context, который автоматически добавляет этот сигнал в запросы без примеров (zero-shot prompting). Мы демонстрируем, что этот метод улучшает качество перевода GPT-3 в режиме zero-shot, делая его конкурентоспособным даже с переводами, выполненными с использованием few-shot prompting.
В данной статье мы представляем модель Recognize Anything Plus (RAM++), фундаментальную модель распознавания изображений с мощными возможностями распознавания в открытом множестве, путем внедрения семантических концепций в процесс обучения маркировки изображений. Предыдущие подходы либо ограничивались моделями маркировки изображений с ограниченной семантикой, либо представляли собой модели взаимодействия визуальных и текстовых данных с поверхностным взаимодействием, что приводило к неоптимальной производительности в распознавании множества тегов. В отличие от них, RAM++ объединяет выравнивание изображений и текста с маркировкой изображений в рамках единой системы тонкого взаимодействия, основанной на триплетах "изображение-тег-текст". Такая конструкция позволяет RAM++ не только превосходно справляться с распознаванием предопределенных категорий, но и значительно расширять возможности распознавания в открытых категориях. Кроме того, RAM++ использует большие языковые модели (LLM) для генерации разнообразных визуальных описаний тегов, впервые интегрируя знания LLM в процесс обучения маркировки изображений. Этот подход позволяет RAM++ интегрировать концепции визуальных описаний для распознавания в открытом множестве на этапе вывода. Оценки на комплексных тестах распознавания изображений демонстрируют, что RAM++ превосходит существующие передовые (SOTA) фундаментальные модели распознавания изображений по большинству аспектов. В частности, для предопределенных часто используемых категорий тегов RAM++ показывает улучшения на 10,2 mAP и 15,4 mAP по сравнению с CLIP на наборах данных OpenImages и ImageNet. Для открытых категорий, выходящих за пределы предопределенных, RAM++ фиксирует улучшения на 5 mAP и 6,4 mAP по сравнению с CLIP и RAM соответственно на OpenImages. Для разнообразных фраз взаимодействия человека и объекта RAM++ достигает улучшений на 7,8 mAP и 4,7 mAP на тесте HICO. Код, наборы данных и предобученные модели доступны по адресу https://github.com/xinyu1205/recognize-anything.
Мы исследуем способность современных моделей отвечать на запросы, связанные с удовлетворением ограничений, для задач информационного поиска (например, «список магазинов мороженого в Сан-Диего»). В прошлом такие запросы считались задачами, которые можно решить только с помощью веб-поиска или баз знаний. Однако в последнее время крупные языковые модели (LLM) продемонстрировали начальные признаки способностей в решении таких задач. Тем не менее, многие существующие бенчмарки для оценки поиска либо достигли насыщения, либо не измеряют способность удовлетворять ограничениям. В связи с растущими опасениями относительно фактических ошибок и галлюцинаций LLM мы представляем KITAB — новый набор данных для оценки способности языковых моделей удовлетворять ограничениям. KITAB содержит данные, связанные с книгами, для более чем 600 авторов и 13 000 запросов, а также предлагает динамический подход к сбору данных и проверке ограничений для получения аналогичных тестовых данных для других авторов. Наши расширенные эксперименты с GPT-4 и GPT-3.5 характеризуют и разделяют типичные ошибки по таким параметрам, как популярность информации, типы ограничений и доступность контекста. Результаты показывают, что при отсутствии контекста модели демонстрируют серьезные ограничения, выражающиеся в нерелевантной информации, фактических ошибках и неполноте, многие из которых усугубляются с уменьшением популярности информации. Хотя доступность контекста снижает количество нерелевантной информации, он не помогает в удовлетворении ограничений, что указывает на фундаментальные барьеры в решении таких задач. Мы открываем доступ к нашим разработкам, чтобы стимулировать дальнейшие исследования по улучшению способности будущих моделей удовлетворять ограничениям.
Архитектура Transformer играет ключевую роль во множестве моделей ИИ, однако она по-прежнему сталкивается с трудностями в задачах моделирования языка на больших дистанциях. Хотя было разработано несколько специализированных архитектур Transformer для решения проблем долгосрочных зависимостей, существующие методы, такие как Transformer-XL, страдают от высокого процента неэффективных воспоминаний. В данном исследовании мы представляем стратегию "plug-and-play", известную как TRAining-free Memory Selection (TRAMS), которая выбирает токены, участвующие в вычислении внимания, на основе одного простого критерия. Эта стратегия позволяет сохранять токены, которые с высокой вероятностью будут иметь значительный показатель внимания для текущих запросов, и игнорировать остальные. Мы протестировали наш подход на бенчмарках уровня слов (WikiText-103) и уровня символов (enwik8), и результаты демонстрируют улучшение без необходимости дополнительного обучения или добавления новых параметров.
Теория моральных основ (MFT) представляет собой психологический инструмент оценки, который разлагает моральные рассуждения человека на пять факторов, включая забота/вред, свобода/угнетение и святость/деградация (Graham et al., 2009). Люди различаются по значимости, которую они придают этим измерениям при принятии моральных решений, отчасти из-за их культурного воспитания и политической идеологии. Поскольку крупные языковые модели (LLM) обучаются на наборах данных, собранных из интернета, они могут отражать предубеждения, присутствующие в таких корпусах. В данной статье MFT используется как инструмент для анализа того, приобрели ли популярные LLM предубеждения в пользу определённого набора моральных ценностей. Мы анализируем известные LLM и обнаруживаем, что они демонстрируют определённые моральные основы, а также показываем, как они соотносятся с моральными основами людей и их политической принадлежностью. Мы также измеряем согласованность этих предубеждений, то есть насколько сильно они варьируются в зависимости от контекста, в котором модель получает запрос. Наконец, мы показываем, что можно намеренно подбирать запросы, которые побуждают модель демонстрировать определённый набор моральных основ, и что это может повлиять на поведение модели в последующих задачах. Эти результаты помогают проиллюстрировать потенциальные риски и непреднамеренные последствия того, что LLM принимают определённую моральную позицию.