Ежедневно отобранные исследовательские статьи по ИИ с переводами
Получение с использованием генерации (RAG) стало мощным парадигмой для улучшения больших языковых моделей (LLM) путем извлечения внешних знаний. Несмотря на широкое внимание, уделенное этой теме, существующие академические исследования в основном сосредоточены на одноходовом RAG, что оставляет значительный пробел в решении сложностей многоразовых разговоров, встречающихся в прикладных областях. Для заполнения этого пробела мы представляем CORAL, крупномасштабную базу данных, разработанную для оценки систем RAG в реалистичных многоразовых разговорных ситуациях. CORAL включает разнообразные беседы о поиске информации, автоматически извлеченные из Википедии, и решает ключевые проблемы, такие как охват в открытой области, интенсивность знаний, свободные формы ответов и смена темы. Он поддерживает три основные задачи разговорного RAG: поиск отрывков, генерацию ответов и маркировку цитат. Мы предлагаем унифицированную структуру для стандартизации различных методов разговорного RAG и проводим всестороннюю оценку этих методов на CORAL, демонстрируя значительные возможности для улучшения существующих подходов.
Трансформеры стали преобладающей архитектурой в основных моделях благодаря их отличной производительности в различных областях. Однако значительная стоимость масштабирования этих моделей остается значительной проблемой. Эта проблема возникает в основном из-за их зависимости от фиксированного количества параметров в пределах линейных проекций. При внесении архитектурных изменений (например, размеров каналов) весьма часто требуется переобучение всей модели с нуля. Поскольку размеры моделей продолжают увеличиваться, такой подход приводит к все более высоким вычислительным затратам и становится неустойчивым. Для преодоления этой проблемы мы представляем TokenFormer, архитектуру, которая масштабируется собственным образом и использует механизм внимания не только для вычислений между входными токенами, но также для взаимодействий между токенами и параметрами модели, тем самым улучшая архитектурную гибкость. Обрабатывая параметры модели как токены, мы заменяем все линейные проекции в Трансформерах нашим слоем внимания к токенам-параметрам, где входные токены действуют как запросы, а параметры модели - как ключи и значения. Эта переформулировка позволяет постепенное и эффективное масштабирование без необходимости переобучения с нуля. Наша модель масштабируется от 124 миллионов до 1,4 миллиарда параметров путем пошагового добавления новых пар ключ-значение параметров, достигая производительности, сравнимой с Трансформерами, обученными с нуля, при значительном снижении затрат на обучение. Код и модели доступны по адресу https://github.com/Haiyang-W/TokenFormer.
В последние годы в области Обучения с Подкреплением (RL) наблюдается тенденция к использованию больших моделей действий, обученных в автономном режиме на масштабных наборах данных с помощью моделирования последовательностей. Существующие модели в основном основаны на архитектуре Трансформера, что приводит к созданию мощных агентов. Однако из-за медленного времени вывода подходы на основе Трансформера непрактичны для приложений в реальном времени, таких как робототехника. Недавно были предложены современные рекуррентные архитектуры, такие как xLSTM и Mamba, которые обладают преимуществами параллелизации во время обучения, аналогичными архитектуре Трансформера, при этом обеспечивая быстрый вывод. В данной работе мы изучаем пригодность этих современных рекуррентных архитектур для больших моделей действий. В результате мы предлагаем Большую Рекуррентную Модель Действий (LRAM) с xLSTM в ее основе, которая обладает сложностью вывода линейного времени и естественной способностью экстраполяции длины последовательности. Эксперименты на 432 задачах из 6 областей показывают, что LRAM сравнима с Трансформерами по показателям производительности и скорости.
Мы представляем REM, фреймворк для сегментации широкого спектра концепций в видео, которые могут быть описаны естественным языком. Наш метод основан на визуально-языковых представлениях, полученных моделями диффузии видео на масштабе Интернета. Одним из ключевых принципов нашего подхода является сохранение как можно большей части исходного представления генеративной модели, одновременно настраивая его на узкодоменных наборах данных для сегментации объектов по запросу. В результате наш фреймворк может точно сегментировать и отслеживать редкие и невидимые объекты, несмотря на то, что он обучен на масках объектов из ограниченного набора категорий. Кроме того, он способен обобщаться на динамические концепции, не связанные с объектами, такие как волны, разбивающиеся в океане, как продемонстрировано нашим новым бенчмарком для сегментации видеопроцессов по запросу (Ref-VPS). Наши эксперименты показывают, что REM демонстрирует производительность на уровне с передовыми подходами на внутридоменных наборах данных, таких как Ref-DAVIS, превосходя их на до двенадцать пунктов по сходству регионов на внедоменных данных, используя мощь предварительного обучения на масштабе Интернета.
Большие языковые модели (LLM) достигают хороших результатов на сложных бенчмарках рассуждений, однако могут также допускать базовые ошибки в рассуждениях. Это противоречивое поведение вызывает затруднения при попытке понять механизмы, лежащие в основе способностей LLM к рассуждениям. Одна из гипотез заключается в том, что увеличение и почти насыщенная производительность на общих бенчмарках рассуждений могут быть обусловлены запоминанием похожих проблем. В данной статье мы систематически исследуем эту гипотезу с помощью количественного измерения запоминания в задачах рассуждений, используя динамически созданный логический бенчмарк на основе головоломок Рыцарей и Лжецов (K&K). Мы обнаружили, что LLM могут интерполировать тренировочные головоломки (достигая почти идеальной точности) после тонкой настройки, однако терпят неудачу, когда эти головоломки немного изменяются, что указывает на то, что модели сильно полагаются на запоминание для решения этих тренировочных головоломок. С другой стороны, мы показываем, что хотя тонкая настройка приводит к интенсивному запоминанию, она также последовательно улучшает обобщающую производительность. Глубокий анализ с тестами на изменение, передачу между уровнями сложности, исследование внутренностей модели и тонкую настройку с неправильными ответами показывают, что LLM учатся рассуждать на головоломках K&K, несмотря на запоминание тренировочных данных. Это явление указывает на то, что LLM проявляют сложное взаимодействие между запоминанием и истинными способностями к рассуждениям. Наконец, наш анализ с оценкой запоминания для каждого образца проливает свет на то, как LLM переключаются между рассуждением и запоминанием при решении логических головоломок. Наш код и данные доступны по адресу https://memkklogic.github.io.
Читатели могут иметь разные цели относительно текста, который они читают. Можно ли декодировать эти цели из образца их глазных движений по тексту? В данной работе мы впервые исследуем возможность декодирования двух типов целей чтения, которые распространены в повседневной жизни: поиск информации и обычное чтение. Используя обширные данные отслеживания глаз, мы применяем к этой задаче широкий спектр передовых моделей для глазных движений и текста, охватывающих различные архитектурные и стратегии представления данных, а также представляем новую модель ансамбля. Мы систематически оцениваем эти модели на трех уровнях обобщения: новый текстовый элемент, новый участник и их комбинация. Мы обнаруживаем, что глазные движения содержат очень ценные сигналы для этой задачи. Мы также проводим анализ ошибок, основанный на предыдущих эмпирических выводах о различиях между обычным чтением и поиском информации, и используем богатые текстовые аннотации. Этот анализ раскрывает ключевые свойства текстовых элементов и глазных движений участников, которые влияют на сложность задачи.
Модели смеси экспертов (MoE) улучшают эффективность и масштабируемость плотных языковых моделей путем направления каждого токена к небольшому числу экспертов на каждом уровне. В данной статье мы показываем, как злоумышленник, который может организовать свои запросы так, чтобы они появлялись в одном пакете примеров с запросами жертвы, может использовать маршрутизацию выбора экспертов для полного раскрытия запроса жертвы. Мы успешно демонстрируем эффективность этой атаки на двухуровневой модели Mixtral, используя поведение обработки связей в реализации torch.topk CUDA. Наши результаты показывают, что мы можем извлечь весь запрос, используя O({VM}^2) запросов (с размером словаря V и длиной запроса M) или в среднем 100 запросов на токен в рассматриваемой ситуации. Это первая атака, использующая архитектурные недочеты для извлечения пользовательских запросов, вводя новый класс уязвимостей LLM.
Открытые модели больших языковых моделей становятся все более доступными и популярными среди исследователей и практиков. В то время как значительные успехи были достигнуты в отношении моделей с открытым весом, практика использования открытых обучающих данных пока не была принята ведущими создателями моделей с открытым весом. В то же время исследователи работают над обеспечением безопасности языковых моделей. Мы предлагаем конвейер кураторства данных для снижения вредных результатов, получаемых моделями, обученными на общедоступных данных. Существуют уникальные вызовы при работе с общедоступными данными, поскольку эти источники отличаются от веб-текста как по форме, так и по содержанию. Многие источники представляют собой исторические документы и являются результатом оптического распознавания символов (OCR). Следовательно, текущие передовые подходы к фильтрации токсичности часто являются невозможными или неуместными для моделей с открытыми данными. В данной статье мы представляем новый полностью открытый конвейер для фильтрации токсичности открытых данных. Наши вклады тройные. Мы создаем специальный обучающий набор данных, ToxicCommons, который состоит из текстов, классифицированных по пяти различным измерениям (основанным на расовой/этнической принадлежности, половой принадлежности, религиозной принадлежности, дискриминации на основе способностей и насилия). Мы используем этот набор данных для обучения специального классификатора, Celadon, который может быть использован для обнаружения токсичного контента в открытых данных более эффективно и в большем масштабе. Наконец, мы описываем сбалансированный подход к фильтрации контента, который оптимизирует фильтрацию безопасности с учетом доступных для обучения отфильтрованных данных.
У человека есть дополнительная система обучения, которая соединяет медленное обучение общей динамике мира с быстрым сохранением эпизодической памяти из нового опыта. Однако предыдущие модели генерации видео в основном сосредотачивались на медленном обучении путем предварительного обучения на огромных объемах данных, игнорируя быструю фазу обучения, важную для сохранения эпизодической памяти. Это упущение приводит к несоответствиям между временно удаленными кадрами при создании более длинных видео, так как эти кадры выходят за контекстное окно модели. В этой связи мы представляем SlowFast-VGen, новую двухскоростную систему обучения для генерации длинных видео, ориентированных на действия. Наш подход включает в себя маскированную условную модель диффузии видео для медленного обучения динамике мира, наряду с стратегией быстрого обучения на этапе вывода, основанной на модуле временного LoRA. В частности, процесс быстрого обучения обновляет параметры временного LoRA на основе локальных входных и выходных данных, тем самым эффективно сохраняя эпизодическую память в своих параметрах. Мы также предлагаем алгоритм медленного-быстрого обучения, который плавно интегрирует внутренний цикл быстрого обучения во внешний медленный цикл обучения, обеспечивая вызов предыдущих мульти-эпизодических опытов для обучения навыкам с учетом контекста. Для облегчения медленного обучения приблизительной модели мира мы собрали крупномасштабный набор данных из 200 тыс. видео с аннотациями действий на языке, охватывающий широкий спектр сценариев. Обширные эксперименты показывают, что SlowFast-VGen превосходит базовые показатели по различным метрикам для генерации видео, ориентированной на действия, достигая значения FVD в 514 по сравнению с 782 и поддерживая последовательность в более длинных видео, среднее количество смен сцен - 0,37 против 0,89. Алгоритм медленного-быстрого обучения значительно улучшает производительность на задачах планирования с долгосрочным горизонтом. Веб-сайт проекта: https://slowfast-vgen.github.io
Мы представляем бенчмарк для больших языковых моделей, разработанный для решения одной из наиболее знаниевооруженных задач в области науки о данных: написание кода для инженерии признаков, что требует знания предметной области, а также глубокого понимания основной проблемы и структуры данных. Модель получает описание набора данных в виде подсказки и запрашивает генерацию кода для его преобразования. Оценочный балл вычисляется на основе улучшения, достигнутого моделью XGBoost, обученной на измененном наборе данных, по сравнению с оригинальными данными. Проведя обширное сравнение современных моделей и сопоставление с установленными бенчмарками, мы демонстрируем, что FeatEng нашего предложения может дешево и эффективно оценивать широкие возможности больших языковых моделей, в отличие от существующих методов.
Извлечение медицинской информации (MIR) является неотъемлемым для получения актуальных медицинских знаний из различных источников, включая электронные медицинские записи, научную литературу и медицинские базы данных. Однако достижение эффективного плотного поиска с нулевым шагом в медицинской области представляет существенные трудности из-за отсутствия данных с метками релевантности. В данной статье мы представляем новый подход, названный Самообучающие гипотетические вложения документов (SL-HyDE), чтобы решить эту проблему. SL-HyDE использует большие языковые модели (LLM) в качестве генераторов для создания гипотетических документов на основе заданного запроса. Эти сгенерированные документы содержат ключевой медицинский контекст, направляя плотный поисковик на поиск наиболее релевантных документов. Самообучающаяся структура поэтапно улучшает как генерацию псевдо-документов, так и поиск, используя неразмеченные медицинские корпуса без необходимости в данных с метками релевантности. Кроме того, мы представляем Китайский бенчмарк по извлечению медицинской информации (CMIRB), обширную систему оценки, основанную на реальных медицинских сценариях, охватывающую пять задач и десять наборов данных. Проведя оценку десяти моделей на CMIRB, мы устанавливаем строгий стандарт для оценки систем извлечения медицинской информации. Экспериментальные результаты показывают, что SL-HyDE значительно превосходит существующие методы по точности извлечения, демонстрируя при этом сильную обобщаемость и масштабируемость при различных конфигурациях LLM и поисковика. Данные и код оценки CMIRB доступны публично по ссылке: https://github.com/CMIRB-benchmark/CMIRB.