Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

Является ли GPT-4 хорошим аналитиком данных?
Is GPT-4 a Good Data Analyst?

May 24, 2023

Liying Cheng, Xingxuan Li, Lidong Bing

Поскольку крупные языковые модели (LLM) продемонстрировали свои мощные возможности в различных областях и задачах, включая понимание контекста, генерацию кода, создание текста, визуализацию данных и т.д., многие аналитики данных могут задаваться вопросом, будут ли их работы заменены искусственным интеллектом. Эта спорная тема привлекла значительное внимание общественности. Однако мы все еще находимся на этапе расхождения мнений без какого-либо окончательного вывода. Вдохновленные этим, мы ставим исследовательский вопрос: «Является ли GPT-4 хорошим аналитиком данных?» — и стремимся ответить на него, проводя сравнительные исследования. В частности, мы рассматриваем GPT-4 как аналитика данных, выполняющего сквозной анализ данных с использованием баз данных из различных областей. Мы предлагаем подход к решению проблем, тщательно разрабатывая промты для GPT-4 для проведения экспериментов. Также мы разрабатываем несколько специфических метрик оценки для систематического сравнения производительности нескольких профессиональных аналитиков данных и GPT-4. Результаты экспериментов показывают, что GPT-4 может достичь сопоставимой с людьми производительности. Мы также предоставляем подробное обсуждение наших результатов, чтобы пролить свет на дальнейшие исследования, прежде чем прийти к выводу, что GPT-4 может заменить аналитиков данных.

LLM как инструменты для фактологического рассуждения: выводы из существующих тестов и перспективы развития
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond

May 23, 2023

Philippe Laban, Wojciech Kryściński, Divyansh Agarwal, Alexander R. Fabbri, Caiming Xiong, Shafiq Joty, Chien-Sheng Wu

С появлением крупных языковых моделей (LLM) в практических приложениях, наличие методов, способных эффективно выявлять фактические несоответствия, становится крайне важным для снижения распространения дезинформации и повышения доверия к выводам моделей. При тестировании на существующих эталонных наборах данных для проверки фактической согласованности мы обнаружили, что несколько крупных языковых моделей демонстрируют конкурентоспособные результаты на классификационных тестах для обнаружения фактических несоответствий по сравнению с традиционными методами, не основанными на LLM. Однако более детальный анализ показывает, что большинство LLM не справляются с более сложными формулировками задачи, а также выявляет проблемы с существующими эталонными наборами для оценки, что влияет на точность измерений. Для решения этой проблемы мы предлагаем новый протокол создания эталонных наборов для обнаружения несоответствий и реализуем его в наборе данных SummEdits, охватывающем 10 предметных областей. Этот новый набор данных в 20 раз более экономичен на один образец по сравнению с предыдущими эталонами и обладает высокой воспроизводимостью, так как согласованность между аннотаторами оценивается на уровне около 0,9. Большинство LLM демонстрируют низкие результаты на SummEdits, близкие к случайным. Лучшая модель, GPT-4, всё ещё отстаёт на 8% от предполагаемой производительности человека, что подчеркивает пробелы в способности LLM анализировать факты и обнаруживать несоответствия, когда они возникают.

SPRING: GPT-4 превосходит алгоритмы обучения с подкреплением, изучая статьи и рассуждая
SPRING: GPT-4 Out-performs RL Algorithms by Studying Papers and Reasoning

May 24, 2023

Yue Wu, So Yeon Min, Shrimai Prabhumoye, Yonatan Bisk, Ruslan Salakhutdinov, Amos Azaria, Tom Mitchell, Yuanzhi Li

Игры на выживание в открытом мире представляют значительные сложности для алгоритмов ИИ из-за необходимости многозадачности, глубокого исследования и приоритизации целей. Несмотря на популярность обучения с подкреплением (RL) для решения игровых задач, его высокая вычислительная сложность ограничивает эффективность в сложных играх с открытым миром, таких как Crafter или Minecraft. Мы предлагаем новый подход, SPRING, который заключается в чтении оригинальной научной статьи игры и использовании полученных знаний для рассуждений и игры через большую языковую модель (LLM). Используя исходный код LaTeX в качестве контекста игры и описание текущих наблюдений агента, наша система SPRING применяет направленный ациклический граф (DAG), где узлы представляют вопросы, связанные с игрой, а рёбра — зависимости между ними. Мы определяем оптимальное действие для выполнения в среде, обходя DAG и вычисляя ответы LLM для каждого узла в топологическом порядке, причём ответ LLM на последний узел напрямую преобразуется в действия в среде. В наших экспериментах мы изучаем качество контекстного "рассуждения", вызванного различными формами подсказок, в условиях открытого мира Crafter. Результаты экспериментов показывают, что LLM, при использовании последовательной цепочки рассуждений, обладают большим потенциалом для выполнения сложных высокоуровневых траекторий. Количественно, SPRING с GPT-4 превосходит все современные RL-базовые модели, обученные на 1 миллионе шагов, без какого-либо обучения. Наконец, мы демонстрируем потенциал игр как тестовой среды для LLM.

Использование GPT-4 для автоматического постредактирования перевода
Leveraging GPT-4 for Automatic Translation Post-Editing

May 24, 2023

Vikas Raunak, Amr Sharaf, Hany Hassan Awadallah, Arul Menezes

Хотя нейронный машинный перевод (NMT) представляет собой ведущий подход в области машинного перевода (MT), выходные данные моделей NMT по-прежнему требуют постредактирования для исправления ошибок и повышения качества, особенно в критически важных условиях. В данной работе мы формализуем задачу постредактирования перевода с использованием крупных языковых моделей (LLMs) и исследуем применение GPT-4 для автоматического постредактирования выходных данных NMT для нескольких языковых пар. Наши результаты показывают, что GPT-4 эффективно справляется с постредактированием перевода и вносит значимые правки даже в случаях, когда целевой язык не является английским. В частности, мы достигаем наилучших результатов на языковых парах WMT-22 английский-китайский, английский-немецкий, китайский-английский и немецкий-английский при использовании постредактирования на основе GPT-4, что подтверждается современными метриками качества машинного перевода.

PEARL: Использование подсказок для больших языковых моделей с целью планирования и выполнения действий над длинными документами
PEARL: Prompting Large Language Models to Plan and Execute Actions Over Long Documents

May 23, 2023

Simeng Sun, Yang Liu, Shuohang Wang, Chenguang Zhu, Mohit Iyyer

Методы, такие как последовательное рассуждение (chain-of-thought prompting), улучшают производительность больших языковых моделей (LLM) на задачах, требующих сложного анализа, путем разложения входных примеров на промежуточные шаги. Однако остается неясным, как применять такие методы для анализа длинных документов, где как разложение, так и результат каждого промежуточного шага сложно получить. В данной работе мы предлагаем PEARL — фреймворк для улучшения рассуждений над длинными документами, который состоит из трех этапов: извлечение действий, формулирование плана и выполнение плана. Конкретно, задавая вопрос о длинном документе, PEARL разбивает его на последовательность действий (например, SUMMARIZE, FIND_EVENT, FIND_RELATION), а затем выполняет их над документом для получения ответа. Каждый этап PEARL реализуется с помощью zero-shot или few-shot подсказок для LLM (в нашем случае GPT-4) с минимальным участием человека. Мы оцениваем PEARL на сложном подмножестве набора данных QuALITY, содержащем вопросы, требующие сложного анализа длинных повествовательных текстов. PEARL превосходит zero-shot и последовательное рассуждение на этом наборе данных, а эксперименты с удалением компонентов показывают, что каждый этап PEARL важен для его производительности. В целом, PEARL представляет собой первый шаг к использованию LLM для рассуждений над длинными документами.

LLM как инструменты для фактологического рассуждения: выводы из существующих тестов и перспективы развития
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond

May 23, 2023

Philippe Laban, Wojciech Kryściński, Divyansh Agarwal, Alexander R. Fabbri, Caiming Xiong, Shafiq Joty, Chien-Sheng Wu

Ежедневные статьи

Является ли GPT-4 хорошим аналитиком данных?
Is GPT-4 a Good Data Analyst?

LLM как инструменты для фактологического рассуждения: выводы из существующих тестов и перспективы развития
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond

SPRING: GPT-4 превосходит алгоритмы обучения с подкреплением, изучая статьи и рассуждая
SPRING: GPT-4 Out-performs RL Algorithms by Studying Papers and Reasoning

Использование GPT-4 для автоматического постредактирования перевода
Leveraging GPT-4 for Automatic Translation Post-Editing

Support

Support

Ежедневные статьи

Является ли GPT-4 хорошим аналитиком данных?
Is GPT-4 a Good Data Analyst?

LLM как инструменты для фактологического рассуждения: выводы из существующих тестов и перспективы развития
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond

SPRING: GPT-4 превосходит алгоритмы обучения с подкреплением, изучая статьи и рассуждая
SPRING: GPT-4 Out-performs RL Algorithms by Studying Papers and Reasoning

Использование GPT-4 для автоматического постредактирования перевода
Leveraging GPT-4 for Automatic Translation Post-Editing