Ежедневно отобранные исследовательские статьи по ИИ с переводами
Поскольку крупные языковые модели (LLM) продемонстрировали свои мощные возможности в различных областях и задачах, включая понимание контекста, генерацию кода, создание текста, визуализацию данных и т.д., многие аналитики данных могут задаваться вопросом, будут ли их работы заменены искусственным интеллектом. Эта спорная тема привлекла значительное внимание общественности. Однако мы все еще находимся на этапе расхождения мнений без какого-либо окончательного вывода. Вдохновленные этим, мы ставим исследовательский вопрос: «Является ли GPT-4 хорошим аналитиком данных?» — и стремимся ответить на него, проводя сравнительные исследования. В частности, мы рассматриваем GPT-4 как аналитика данных, выполняющего сквозной анализ данных с использованием баз данных из различных областей. Мы предлагаем подход к решению проблем, тщательно разрабатывая промты для GPT-4 для проведения экспериментов. Также мы разрабатываем несколько специфических метрик оценки для систематического сравнения производительности нескольких профессиональных аналитиков данных и GPT-4. Результаты экспериментов показывают, что GPT-4 может достичь сопоставимой с людьми производительности. Мы также предоставляем подробное обсуждение наших результатов, чтобы пролить свет на дальнейшие исследования, прежде чем прийти к выводу, что GPT-4 может заменить аналитиков данных.
С появлением крупных языковых моделей (LLM) в практических приложениях, наличие методов, способных эффективно выявлять фактические несоответствия, становится крайне важным для снижения распространения дезинформации и повышения доверия к выводам моделей. При тестировании на существующих эталонных наборах данных для проверки фактической согласованности мы обнаружили, что несколько крупных языковых моделей демонстрируют конкурентоспособные результаты на классификационных тестах для обнаружения фактических несоответствий по сравнению с традиционными методами, не основанными на LLM. Однако более детальный анализ показывает, что большинство LLM не справляются с более сложными формулировками задачи, а также выявляет проблемы с существующими эталонными наборами для оценки, что влияет на точность измерений. Для решения этой проблемы мы предлагаем новый протокол создания эталонных наборов для обнаружения несоответствий и реализуем его в наборе данных SummEdits, охватывающем 10 предметных областей. Этот новый набор данных в 20 раз более экономичен на один образец по сравнению с предыдущими эталонами и обладает высокой воспроизводимостью, так как согласованность между аннотаторами оценивается на уровне около 0,9. Большинство LLM демонстрируют низкие результаты на SummEdits, близкие к случайным. Лучшая модель, GPT-4, всё ещё отстаёт на 8% от предполагаемой производительности человека, что подчеркивает пробелы в способности LLM анализировать факты и обнаруживать несоответствия, когда они возникают.
Игры на выживание в открытом мире представляют значительные сложности для алгоритмов ИИ из-за необходимости многозадачности, глубокого исследования и приоритизации целей. Несмотря на популярность обучения с подкреплением (RL) для решения игровых задач, его высокая вычислительная сложность ограничивает эффективность в сложных играх с открытым миром, таких как Crafter или Minecraft. Мы предлагаем новый подход, SPRING, который заключается в чтении оригинальной научной статьи игры и использовании полученных знаний для рассуждений и игры через большую языковую модель (LLM). Используя исходный код LaTeX в качестве контекста игры и описание текущих наблюдений агента, наша система SPRING применяет направленный ациклический граф (DAG), где узлы представляют вопросы, связанные с игрой, а рёбра — зависимости между ними. Мы определяем оптимальное действие для выполнения в среде, обходя DAG и вычисляя ответы LLM для каждого узла в топологическом порядке, причём ответ LLM на последний узел напрямую преобразуется в действия в среде. В наших экспериментах мы изучаем качество контекстного "рассуждения", вызванного различными формами подсказок, в условиях открытого мира Crafter. Результаты экспериментов показывают, что LLM, при использовании последовательной цепочки рассуждений, обладают большим потенциалом для выполнения сложных высокоуровневых траекторий. Количественно, SPRING с GPT-4 превосходит все современные RL-базовые модели, обученные на 1 миллионе шагов, без какого-либо обучения. Наконец, мы демонстрируем потенциал игр как тестовой среды для LLM.
Хотя нейронный машинный перевод (NMT) представляет собой ведущий подход в области машинного перевода (MT), выходные данные моделей NMT по-прежнему требуют постредактирования для исправления ошибок и повышения качества, особенно в критически важных условиях. В данной работе мы формализуем задачу постредактирования перевода с использованием крупных языковых моделей (LLMs) и исследуем применение GPT-4 для автоматического постредактирования выходных данных NMT для нескольких языковых пар. Наши результаты показывают, что GPT-4 эффективно справляется с постредактированием перевода и вносит значимые правки даже в случаях, когда целевой язык не является английским. В частности, мы достигаем наилучших результатов на языковых парах WMT-22 английский-китайский, английский-немецкий, китайский-английский и немецкий-английский при использовании постредактирования на основе GPT-4, что подтверждается современными метриками качества машинного перевода.
Методы, такие как последовательное рассуждение (chain-of-thought prompting), улучшают производительность больших языковых моделей (LLM) на задачах, требующих сложного анализа, путем разложения входных примеров на промежуточные шаги. Однако остается неясным, как применять такие методы для анализа длинных документов, где как разложение, так и результат каждого промежуточного шага сложно получить. В данной работе мы предлагаем PEARL — фреймворк для улучшения рассуждений над длинными документами, который состоит из трех этапов: извлечение действий, формулирование плана и выполнение плана. Конкретно, задавая вопрос о длинном документе, PEARL разбивает его на последовательность действий (например, SUMMARIZE, FIND_EVENT, FIND_RELATION), а затем выполняет их над документом для получения ответа. Каждый этап PEARL реализуется с помощью zero-shot или few-shot подсказок для LLM (в нашем случае GPT-4) с минимальным участием человека. Мы оцениваем PEARL на сложном подмножестве набора данных QuALITY, содержащем вопросы, требующие сложного анализа длинных повествовательных текстов. PEARL превосходит zero-shot и последовательное рассуждение на этом наборе данных, а эксперименты с удалением компонентов показывают, что каждый этап PEARL важен для его производительности. В целом, PEARL представляет собой первый шаг к использованию LLM для рассуждений над длинными документами.