Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

Обучение в контексте формирует векторы задач.
In-Context Learning Creates Task Vectors

Oct 24, 2023

Roee Hendel, Mor Geva, Amir Globerson

438

Обучение в контексте (In-context learning, ICL) в больших языковых моделях (Large Language Models, LLMs) стало мощной новой парадигмой обучения. Однако его базовый механизм до сих пор недостаточно изучен. В частности, сложно сопоставить его с "классической" структурой машинного обучения, где используется обучающий набор данных S для поиска наилучшей функции f(x) в некотором классе гипотез. В данной работе мы продвигаемся в решении этой проблемы, показывая, что функции, изучаемые с помощью ICL, часто имеют очень простую структуру: они соответствуют трансформеру LLM, входными данными для которого являются только запрос x и единственный "вектор задачи", вычисленный на основе обучающего набора. Таким образом, ICL можно рассматривать как сжатие S в единый вектор задачи theta(S) и последующее использование этого вектора для модуляции трансформера с целью получения выходных данных. Мы подтверждаем это утверждение с помощью всесторонних экспериментов на различных моделях и задачах.

SAM-CLIP: Объединение базовых моделей компьютерного зрения для семантического и пространственного понимания
SAM-CLIP: Merging Vision Foundation Models towards Semantic and Spatial Understanding

Oct 23, 2023

Haoxiang Wang, Pavan Kumar Anasosalu Vasu, Fartash Faghri, Raviteja Vemulapalli, Mehrdad Farajtabar, Sachin Mehta, Mohammad Rastegari, Oncel Tuzel, Hadi Pouransari

234

Ландшафт публично доступных базовых моделей для задач компьютерного зрения (Vision Foundation Models, VFMs), таких как CLIP и Segment Anything Model (SAM), стремительно расширяется. VFMs обладают уникальными возможностями, обусловленными их целями предварительного обучения. Например, CLIP преуспевает в семантическом понимании, в то время как SAM специализируется на пространственном понимании для задач сегментации. В данной работе мы представляем простой метод для эффективного объединения VFMs в единую модель, которая ассимилирует их экспертизу. Наш предложенный подход интегрирует многозадачное обучение, методы непрерывного обучения и дистилляцию по схеме "учитель-ученик". Эта стратегия требует значительно меньших вычислительных затрат по сравнению с традиционным многозадачным обучением с нуля. Кроме того, она требует лишь небольшой части наборов данных для предварительного обучения, которые изначально использовались для тренировки отдельных моделей. Применив наш метод к SAM и CLIP, мы создали SAM-CLIP: единую модель, которая объединяет сильные стороны SAM и CLIP в единый бэкбон, делая её подходящей для использования на устройствах с ограниченными ресурсами. Мы показываем, что SAM-CLIP обучается более богатым визуальным представлениям, оснащённым как локализационными, так и семантическими признаками, что делает её пригодной для широкого спектра задач компьютерного зрения. SAM-CLIP демонстрирует улучшенную производительность на нескольких задачах тестирования по сравнению с SAM и CLIP. Мы также показываем, что SAM-CLIP не только сохраняет фундаментальные преимущества своих предшественников, но и вводит синергетические функциональные возможности, наиболее заметные в задаче семантической сегментации с нулевым обучением, где SAM-CLIP устанавливает новые рекорды на 5 бенчмарках. Она значительно превосходит предыдущие модели, специально разработанные для этой задачи, включая улучшение среднего IoU на 6,8% и 5,9% на наборах данных Pascal-VOC и COCO-Stuff соответственно.

Woodpecker: Коррекция галлюцинаций в мультимодальных больших языковых моделях
Woodpecker: Hallucination Correction for Multimodal Large Language Models

Oct 24, 2023

Shukang Yin, Chaoyou Fu, Sirui Zhao, Tong Xu, Hao Wang, Dianbo Sui, Yunhang Shen, Ke Li, Xing Sun, Enhong Chen

171

Галлюцинации представляют собой серьезную проблему, нависающую над быстро развивающимися мультимодальными большими языковыми моделями (MLLMs), и относятся к явлению, когда сгенерированный текст не соответствует содержанию изображения. Для смягчения галлюцинаций существующие исследования в основном прибегают к подходу настройки с помощью инструкций, который требует переобучения моделей на специфических данных. В данной статье мы предлагаем иной путь, представляя метод без необходимости обучения, названный Woodpecker. Подобно тому, как дятел лечит деревья, он выявляет и исправляет галлюцинации в сгенерированном тексте. Конкретно, Woodpecker состоит из пяти этапов: извлечение ключевых концепций, формулирование вопросов, проверка визуальных знаний, генерация визуальных утверждений и исправление галлюцинаций. Реализованный в виде постобработки, Woodpecker может легко применяться к различным MLLMs, оставаясь интерпретируемым благодаря доступу к промежуточным результатам на каждом из пяти этапов. Мы оцениваем Woodpecker как количественно, так и качественно, демонстрируя огромный потенциал этой новой парадигмы. На бенчмарке POPE наш метод показывает улучшение точности на 30,66%/24,33% по сравнению с базовыми моделями MiniGPT-4/mPLUG-Owl. Исходный код доступен по адресу https://github.com/BradyFU/Woodpecker.

Анализ контекстного обучения переводам в GPT
Dissecting In-Context Learning of Translations in GPTs

Oct 24, 2023

Vikas Raunak, Hany Hassan Awadalla, Arul Menezes

Большинство недавних исследований, посвященных использованию крупных языковых моделей (LLM), таких как GPT-3, для машинного перевода (MT), сосредоточены на выборе примеров для немедленного обучения (few-shot prompting). В данной работе мы стремимся глубже понять роль атрибутов демонстраций для обучения переводам в контексте (in-context learning) путем внесения изменений в высококачественные, тематически релевантные примеры. Мы обнаруживаем, что асимметричное изменение соответствий между исходным и целевым текстами приводит к существенно разным результатам. Мы показываем, что изменение исходного текста оказывает удивительно малое влияние, в то время как изменение целевого текста может значительно снизить качество перевода, что указывает на то, что именно распределение выходного текста предоставляет наиболее важный сигнал для обучения в контексте перевода. Мы предлагаем метод под названием Zero-Shot-Context, который автоматически добавляет этот сигнал в запросы без примеров (zero-shot prompting). Мы демонстрируем, что этот метод улучшает качество перевода GPT-3 в режиме zero-shot, делая его конкурентоспособным даже с переводами, выполненными с использованием few-shot prompting.

Внедрение семантических концептов в маркировку изображений для распознавания в открытом множестве
Inject Semantic Concepts into Image Tagging for Open-Set Recognition

Oct 23, 2023

Xinyu Huang, Yi-Jie Huang, Youcai Zhang, Weiwei Tian, Rui Feng, Yuejie Zhang, Yanchun Xie, Yaqian Li, Lei Zhang

В данной статье мы представляем модель Recognize Anything Plus (RAM++), фундаментальную модель распознавания изображений с мощными возможностями распознавания в открытом множестве, путем внедрения семантических концепций в процесс обучения маркировки изображений. Предыдущие подходы либо ограничивались моделями маркировки изображений с ограниченной семантикой, либо представляли собой модели взаимодействия визуальных и текстовых данных с поверхностным взаимодействием, что приводило к неоптимальной производительности в распознавании множества тегов. В отличие от них, RAM++ объединяет выравнивание изображений и текста с маркировкой изображений в рамках единой системы тонкого взаимодействия, основанной на триплетах "изображение-тег-текст". Такая конструкция позволяет RAM++ не только превосходно справляться с распознаванием предопределенных категорий, но и значительно расширять возможности распознавания в открытых категориях. Кроме того, RAM++ использует большие языковые модели (LLM) для генерации разнообразных визуальных описаний тегов, впервые интегрируя знания LLM в процесс обучения маркировки изображений. Этот подход позволяет RAM++ интегрировать концепции визуальных описаний для распознавания в открытом множестве на этапе вывода. Оценки на комплексных тестах распознавания изображений демонстрируют, что RAM++ превосходит существующие передовые (SOTA) фундаментальные модели распознавания изображений по большинству аспектов. В частности, для предопределенных часто используемых категорий тегов RAM++ показывает улучшения на 10,2 mAP и 15,4 mAP по сравнению с CLIP на наборах данных OpenImages и ImageNet. Для открытых категорий, выходящих за пределы предопределенных, RAM++ фиксирует улучшения на 5 mAP и 6,4 mAP по сравнению с CLIP и RAM соответственно на OpenImages. Для разнообразных фраз взаимодействия человека и объекта RAM++ достигает улучшений на 7,8 mAP и 4,7 mAP на тесте HICO. Код, наборы данных и предобученные модели доступны по адресу https://github.com/xinyu1205/recognize-anything.

KITAB: Оценка языковых моделей на способность удовлетворять ограничениям при поиске информации
KITAB: Evaluating LLMs on Constraint Satisfaction for Information Retrieval

Oct 24, 2023

Marah I Abdin, Suriya Gunasekar, Varun Chandrasekaran, Jerry Li, Mert Yuksekgonul, Rahee Ghosh Peshawaria, Ranjita Naik, Besmira Nushi

Мы исследуем способность современных моделей отвечать на запросы, связанные с удовлетворением ограничений, для задач информационного поиска (например, «список магазинов мороженого в Сан-Диего»). В прошлом такие запросы считались задачами, которые можно решить только с помощью веб-поиска или баз знаний. Однако в последнее время крупные языковые модели (LLM) продемонстрировали начальные признаки способностей в решении таких задач. Тем не менее, многие существующие бенчмарки для оценки поиска либо достигли насыщения, либо не измеряют способность удовлетворять ограничениям. В связи с растущими опасениями относительно фактических ошибок и галлюцинаций LLM мы представляем KITAB — новый набор данных для оценки способности языковых моделей удовлетворять ограничениям. KITAB содержит данные, связанные с книгами, для более чем 600 авторов и 13 000 запросов, а также предлагает динамический подход к сбору данных и проверке ограничений для получения аналогичных тестовых данных для других авторов. Наши расширенные эксперименты с GPT-4 и GPT-3.5 характеризуют и разделяют типичные ошибки по таким параметрам, как популярность информации, типы ограничений и доступность контекста. Результаты показывают, что при отсутствии контекста модели демонстрируют серьезные ограничения, выражающиеся в нерелевантной информации, фактических ошибках и неполноте, многие из которых усугубляются с уменьшением популярности информации. Хотя доступность контекста снижает количество нерелевантной информации, он не помогает в удовлетворении ограничений, что указывает на фундаментальные барьеры в решении таких задач. Мы открываем доступ к нашим разработкам, чтобы стимулировать дальнейшие исследования по улучшению способности будущих моделей удовлетворять ограничениям.

TRAMS: Бесплатное обучение выбору памяти для языкового моделирования на больших дистанциях
TRAMS: Training-free Memory Selection for Long-range Language Modeling

Oct 24, 2023

Haofei Yu, Cunxiang wang, Yue Zhang, Wei Bi

Архитектура Transformer играет ключевую роль во множестве моделей ИИ, однако она по-прежнему сталкивается с трудностями в задачах моделирования языка на больших дистанциях. Хотя было разработано несколько специализированных архитектур Transformer для решения проблем долгосрочных зависимостей, существующие методы, такие как Transformer-XL, страдают от высокого процента неэффективных воспоминаний. В данном исследовании мы представляем стратегию "plug-and-play", известную как TRAining-free Memory Selection (TRAMS), которая выбирает токены, участвующие в вычислении внимания, на основе одного простого критерия. Эта стратегия позволяет сохранять токены, которые с высокой вероятностью будут иметь значительный показатель внимания для текущих запросов, и игнорировать остальные. Мы протестировали наш подход на бенчмарках уровня слов (WikiText-103) и уровня символов (enwik8), и результаты демонстрируют улучшение без необходимости дополнительного обучения или добавления новых параметров.

Моральные основы больших языковых моделей
Moral Foundations of Large Language Models

Oct 23, 2023

Marwa Abdulhai, Gregory Serapio-Garcia, Clément Crepy, Daria Valter, John Canny, Natasha Jaques

Теория моральных основ (MFT) представляет собой психологический инструмент оценки, который разлагает моральные рассуждения человека на пять факторов, включая забота/вред, свобода/угнетение и святость/деградация (Graham et al., 2009). Люди различаются по значимости, которую они придают этим измерениям при принятии моральных решений, отчасти из-за их культурного воспитания и политической идеологии. Поскольку крупные языковые модели (LLM) обучаются на наборах данных, собранных из интернета, они могут отражать предубеждения, присутствующие в таких корпусах. В данной статье MFT используется как инструмент для анализа того, приобрели ли популярные LLM предубеждения в пользу определённого набора моральных ценностей. Мы анализируем известные LLM и обнаруживаем, что они демонстрируют определённые моральные основы, а также показываем, как они соотносятся с моральными основами людей и их политической принадлежностью. Мы также измеряем согласованность этих предубеждений, то есть насколько сильно они варьируются в зависимости от контекста, в котором модель получает запрос. Наконец, мы показываем, что можно намеренно подбирать запросы, которые побуждают модель демонстрировать определённый набор моральных основ, и что это может повлиять на поведение модели в последующих задачах. Эти результаты помогают проиллюстрировать потенциальные риски и непреднамеренные последствия того, что LLM принимают определённую моральную позицию.

SAM-CLIP: Объединение базовых моделей компьютерного зрения для семантического и пространственного понимания
SAM-CLIP: Merging Vision Foundation Models towards Semantic and Spatial Understanding

Oct 23, 2023

Haoxiang Wang, Pavan Kumar Anasosalu Vasu, Fartash Faghri, Raviteja Vemulapalli, Mehrdad Farajtabar, Sachin Mehta, Mohammad Rastegari, Oncel Tuzel, Hadi Pouransari

234

Ежедневные статьи

Обучение в контексте формирует векторы задач.
In-Context Learning Creates Task Vectors

SAM-CLIP: Объединение базовых моделей компьютерного зрения для семантического и пространственного понимания
SAM-CLIP: Merging Vision Foundation Models towards Semantic and Spatial Understanding

Woodpecker: Коррекция галлюцинаций в мультимодальных больших языковых моделях
Woodpecker: Hallucination Correction for Multimodal Large Language Models

Анализ контекстного обучения переводам в GPT
Dissecting In-Context Learning of Translations in GPTs

Внедрение семантических концептов в маркировку изображений для распознавания в открытом множестве
Inject Semantic Concepts into Image Tagging for Open-Set Recognition

KITAB: Оценка языковых моделей на способность удовлетворять ограничениям при поиске информации
KITAB: Evaluating LLMs on Constraint Satisfaction for Information Retrieval

TRAMS: Бесплатное обучение выбору памяти для языкового моделирования на больших дистанциях
TRAMS: Training-free Memory Selection for Long-range Language Modeling

Моральные основы больших языковых моделей
Moral Foundations of Large Language Models

Support

Support

Ежедневные статьи

Обучение в контексте формирует векторы задач.
In-Context Learning Creates Task Vectors

SAM-CLIP: Объединение базовых моделей компьютерного зрения для семантического и пространственного понимания
SAM-CLIP: Merging Vision Foundation Models towards Semantic and Spatial Understanding

Woodpecker: Коррекция галлюцинаций в мультимодальных больших языковых моделях
Woodpecker: Hallucination Correction for Multimodal Large Language Models

Анализ контекстного обучения переводам в GPT
Dissecting In-Context Learning of Translations in GPTs

Внедрение семантических концептов в маркировку изображений для распознавания в открытом множестве
Inject Semantic Concepts into Image Tagging for Open-Set Recognition

KITAB: Оценка языковых моделей на способность удовлетворять ограничениям при поиске информации
KITAB: Evaluating LLMs on Constraint Satisfaction for Information Retrieval

TRAMS: Бесплатное обучение выбору памяти для языкового моделирования на больших дистанциях
TRAMS: Training-free Memory Selection for Long-range Language Modeling

Моральные основы больших языковых моделей
Moral Foundations of Large Language Models