Ежедневно отобранные исследовательские статьи по ИИ с переводами
Крупные языковые модели (LLM) приобретают все большую популярность как в академической среде, так и в промышленности благодаря их беспрецедентной производительности в различных приложениях. Поскольку LLM продолжают играть важную роль как в исследованиях, так и в повседневном использовании, их оценка становится все более критически важной, не только на уровне задач, но и на уровне общества для лучшего понимания их потенциальных рисков. За последние годы были приложены значительные усилия для изучения LLM с различных точек зрения. В данной статье представлен всесторонний обзор этих методов оценки LLM, сфокусированный на трех ключевых аспектах: что оценивать, где оценивать и как оценивать. Во-первых, мы предоставляем обзор с точки зрения задач оценки, охватывающих общие задачи обработки естественного языка, рассуждения, медицинское применение, этику, образование, естественные и социальные науки, агентские приложения и другие области. Во-вторых, мы отвечаем на вопросы «где» и «как», углубляясь в методы оценки и бенчмарки, которые являются ключевыми компонентами в оценке производительности LLM. Затем мы суммируем успехи и неудачи LLM в различных задачах. Наконец, мы освещаем несколько будущих вызовов, которые ожидают оценку LLM. Наша цель — предложить ценные идеи исследователям в области оценки LLM, тем самым способствуя разработке более совершенных LLM. Наш ключевой тезис заключается в том, что оценка должна рассматриваться как важная дисциплина для лучшего содействия развитию LLM. Мы постоянно поддерживаем связанные открытые материалы по адресу: https://github.com/MLGroupJLU/LLM-eval-survey.
Хотя современные языковые модели способны обрабатывать длинные контексты на входе, относительно мало известно о том, насколько эффективно они используют такие расширенные контексты. Мы анализируем производительность языковых моделей на двух задачах, требующих идентификации релевантной информации в пределах входных контекстов: многодокументное ответы на вопросы и извлечение ключ-значение. Мы обнаруживаем, что производительность часто оказывается наивысшей, когда релевантная информация находится в начале или конце входного контекста, и значительно снижается, когда модели должны обращаться к релевантной информации в середине длинных контекстов. Кроме того, производительность существенно уменьшается с увеличением длины входного контекста, даже для моделей, специально разработанных для работы с длинными контекстами. Наш анализ позволяет лучше понять, как языковые модели используют свои входные контексты, и предлагает новые протоколы оценки для будущих моделей, работающих с длинными контекстами.
Многие когнитивные подходы к благополучию, такие как распознавание и переосмысление непродуктивных мыслей, получили значительную эмпирическую поддержку за последние десятилетия, однако до сих пор не получили широкого распространения в формате самопомощи. Одним из препятствий для такого распространения является отсутствие достаточно специфичных и разнообразных материалов для практики. В данной работе исследуется, можно ли использовать современные языковые модели для создания практически неограниченного количества практических материалов, иллюстрирующих стандартные непродуктивные мыслительные шаблоны, соответствующие заданным контекстам, а также для генерации подходящих предложений по их позитивному переосмыслению. Мы представляем PATTERNREFRAME — новый набор данных, содержащий около 10 тысяч примеров мыслей с непродуктивными шаблонами, обусловленными заданной личностью, и сопровождаемых примерно 27 тысячами позитивных переосмыслений. Используя этот набор данных для обучения и/или оценки современных моделей, мы показываем, что существующие модели уже могут быть мощным инструментом для генерации большого количества адаптированных практических материалов и гипотез, при этом не требуя или требуя минимальной дополнительной дообучки моделей.
Крупные языковые модели обладают исключительной способностью контекстуально усваивать новую информацию. Однако полный потенциал такого подхода часто ограничивается из-за недостаточной длины эффективного контекста. Одним из решений этой проблемы является предоставление слою внимания доступа к внешней памяти, состоящей из пар (ключ, значение). Тем не менее, по мере увеличения количества документов доля релевантных ключей по сравнению с нерелевантными уменьшается, что заставляет модель больше фокусироваться на нерелевантных ключах. Мы выявляем значительную проблему, названную проблемой отвлечения, при которой ключи, связанные с различными семантическими значениями, могут перекрываться, что затрудняет их различение. Для решения этой проблемы мы представляем Focused Transformer (FoT) — метод, использующий процесс обучения, вдохновленный контрастивным обучением. Этот новый подход улучшает структуру пространства (ключ, значение), позволяя расширить длину контекста. Наш метод позволяет тонко настраивать существующие крупномасштабные модели для увеличения их эффективного контекста. Это демонстрируется нашей тонкой настройкой контрольных точек OpenLLaMA на 3B и 7B параметров. Полученные модели, которые мы называем LongLLaMA, показывают улучшения в задачах, требующих длинного контекста. Мы также показываем, что наши модели LongLLaMA успешно справляются с длиной контекста в 256 тысяч токенов для задачи извлечения ключа доступа.
В данной статье мы сосредоточимся на модели Whisper, недавно разработанной системе автоматического распознавания речи, обученной на обширном корпусе из 680 тысяч часов размеченных речевых данных, записанных в разнообразных условиях. Сначала мы демонстрируем интересное наблюдение: хотя Whisper демонстрирует высокую устойчивость к фоновым шумам в реальных условиях (например, к музыке), её аудиопредставление на самом деле не является инвариантным к шуму, а вместо этого сильно коррелирует с неречевыми звуками. Это указывает на то, что Whisper распознаёт речь с учётом типа шума. На основе этого наблюдения мы создаём унифицированную модель Whisper-AT для аудиотегирования и распознавания речи, замораживая основную архитектуру Whisper и обучая на её основе лёгкую модель аудиотегирования. При увеличении вычислительных затрат менее чем на 1% Whisper-AT способна распознавать как аудиособытия, так и произносимый текст за один прямой проход.
Авторегрессионные большие языковые модели (LLM) достигли значительных успехов в различных задачах генерации естественного языка. Однако они требуют высоких вычислительных затрат и вызывают задержки из-за пошаговой генерации токенов. Для решения этой проблемы было предложено несколько подходов, направленных на снижение вычислительных затрат с использованием стратегий раннего выхода. Эти стратегии позволяют ускорить генерацию текста за счет сокращения вычислений, не применяя полный вычислительный граф к каждому токену. Хотя существующие методы раннего выхода на уровне токенов демонстрируют многообещающие результаты для онлайн-вывода, они не могут быть легко применены для пакетного вывода и кэширования ключей и значений (KV). Это связано с тем, что они должны ждать, пока последний токен в пакете не завершит обработку, прежде чем прекратить вычисления. Это серьезно ограничивает практическое применение таких методов. В данной статье мы предлагаем простой и эффективный метод раннего выхода на уровне токенов, SkipDecode, который разработан для бесперебойной работы с пакетным выводом и KV-кэшированием. Он преодолевает предыдущие ограничения, устанавливая единую точку выхода для каждого токена в пакете на каждой позиции последовательности. Кроме того, он гарантирует монотонное уменьшение точек выхода, тем самым устраняя необходимость пересчета KV-кэшей для предыдущих токенов. В отличие от преждевременного завершения вычислений, как в предыдущих работах, наш подход обходит нижние и средние слои, сосредотачивая большую часть вычислительных ресурсов на верхних слоях, что позволяет последующим токенам использовать вычислительные затраты, сделанные для предыдущих токенов. Наши экспериментальные результаты показывают, что SkipDecode может обеспечить ускорение вывода в 2–5 раз с незначительной потерей качества на различных задачах. Это достигается с использованием моделей OPT с 1,3 миллиарда и 6,7 миллиарда параметров, при этом метод полностью совместим с техниками оптимизации пакетной обработки и KV-кэширования.
Мы оцениваем возможности существующих базовых моделей в понимании видео, используя тщательно разработанный экспериментальный протокол, включающий три ключевые задачи (распознавание действий, временная локализация и пространственно-временная локализация), восемь наборов данных, получивших признание в сообществе, и четыре метода адаптации базовой модели (FM) для решения конкретных задач. Кроме того, мы предлагаем скалярный показатель VideoGLUE Score (VGS) для оценки эффективности и производительности FM при адаптации к задачам общего понимания видео. Основные выводы нашей работы следующие. Во-первых, специализированные модели значительно превосходят шесть исследуемых FM, что резко контрастирует с достижениями FM в области понимания естественного языка и изображений. Во-вторых, FM, обученные на видеоданных, как правило, лучше справляются с классификацией видео, богатых движением, локализацией действий во времени и пониманием видео с несколькими действиями, чем FM, обученные на изображениях. В-третьих, FM, обученные на видеоданных, могут хорошо справляться с видео-задачами при минимальной адаптации к конкретным задачам (например, замораживании основного блока FM), тогда как FM, обученные на изображениях, выигрывают при полной сквозной тонкой настройке. Первые два наблюдения подчеркивают необходимость и огромные возможности для исследований в области FM, ориентированных на видео, а последнее подтверждает, что как задачи, так и методы адаптации имеют значение при оценке FM.