Ежедневно отобранные исследовательские статьи по ИИ с переводами
Крупные языковые модели (LLM) стали прорывной технологией благодаря своим непревзойденным возможностям генерации текста в различных приложениях. Тем не менее, сохраняются опасения относительно точности и уместности создаваемого ими контента. Современный подход, известный как самокоррекция, был предложен в качестве решения этих проблем. Основываясь на этой предпосылке, данная статья критически исследует роль и эффективность самокоррекции в LLM, раскрывая ее истинный потенциал и ограничения. Центральное место в нашем исследовании занимает концепция внутренней самокоррекции, при которой LLM пытается исправить свои первоначальные ответы, полагаясь исключительно на свои внутренние возможности, без использования внешней обратной связи. В контексте логических рассуждений наши исследования показывают, что LLM испытывают трудности с самокоррекцией своих ответов без внешней обратной связи, а в некоторых случаях их производительность может даже ухудшаться после попыток самокоррекции. На основе этих выводов мы предлагаем рекомендации для будущих исследований и практического применения в данной области.
В последнее время было разработано множество моделей условной генерации и редактирования изображений для решения различных задач, включая генерацию изображений по тексту, редактирование изображений с текстовым руководством, генерацию изображений на основе объектов, генерацию изображений с управлением и т.д. Однако мы наблюдаем значительные несоответствия в экспериментальных условиях: наборах данных, процессе вывода и метриках оценки, что затрудняет объективное сравнение. В данной статье предлагается ImagenHub — универсальная библиотека для стандартизации вывода и оценки всех моделей условной генерации изображений. Во-первых, мы определяем семь ключевых задач и создаем высококачественные наборы данных для их оценки. Во-вторых, мы разрабатываем унифицированный конвейер вывода для обеспечения справедливого сравнения. В-третьих, мы разрабатываем две метрики для человеческой оценки: семантическую согласованность и перцептивное качество, а также подробные руководства для оценки сгенерированных изображений. Мы обучаем экспертов для оценки выходных данных моделей на основе предложенных метрик. Наша человеческая оценка демонстрирует высокий уровень согласия между оценщиками, измеряемый коэффициентом альфа Криппендорфа, для 76% моделей со значением выше 0,4. Мы провели всестороннюю оценку около 30 моделей и выделили три ключевых вывода: (1) производительность существующих моделей в целом неудовлетворительна, за исключением задач генерации изображений по тексту и генерации изображений на основе объектов, при этом 74% моделей получили общий балл ниже 0,5. (2) мы проверили заявления из опубликованных статей и обнаружили, что 83% из них подтверждаются, за исключением нескольких случаев. (3) Ни одна из существующих автоматических метрик не имеет коэффициента корреляции Спирмена выше 0,2, за исключением генерации изображений на основе объектов. В дальнейшем мы продолжим оценивать новые модели и обновлять наш рейтинг, чтобы отслеживать прогресс в области условной генерации изображений.
Метод Chain-of-Thought (CoT) для языковых моделей демонстрирует впечатляющие результаты в задачах, требующих рассуждений, но обычно требует наличия размеченных примеров процесса рассуждений. В данной работе мы представляем новый подход к промптингу — Analogical Prompting, который предназначен для автоматического управления процессом рассуждений крупных языковых моделей. Вдохновленный аналогическим рассуждением — когнитивным процессом, в котором люди используют релевантный прошлый опыт для решения новых задач, наш подход побуждает языковые модели самостоятельно генерировать релевантные примеры или знания в контексте перед тем, как приступить к решению поставленной задачи. Этот метод имеет несколько преимуществ: он устраняет необходимость в размечении или извлечении примеров, обеспечивая универсальность и удобство; он также может адаптировать генерируемые примеры и знания к каждой конкретной задаче, обеспечивая гибкость. Экспериментальные результаты показывают, что наш подход превосходит 0-shot CoT и ручной few-shot CoT в различных задачах рассуждений, включая решение математических задач в GSM8K и MATH, генерацию кода в Codeforces и другие задачи рассуждений в BIG-Bench.
Последние крупные языковые модели (LLMs) продемонстрировали значительный потенциал в создании интеллектуальных агентов и автоматизации следующего поколения, однако в настоящее время отсутствует систематический бенчмарк для оценки способностей LLM в роли агентов. Мы представляем SmartPlay: как сложный бенчмарк, так и методологию для оценки LLM в качестве агентов. SmartPlay включает 6 различных игр, таких как "Камень-Ножницы-Бумага", "Ханойская башня" и Minecraft. Каждая игра имеет уникальную обстановку, предоставляя до 20 вариантов оценки и бесконечное разнообразие окружений. Каждая игра в SmartPlay уникальным образом проверяет подмножество из 9 важных способностей интеллектуального агента на основе LLM, включая рассуждение с учетом зависимостей объектов, планирование наперед, пространственное мышление, обучение на основе истории и понимание случайности. Различие между набором способностей, которые проверяет каждая игра, позволяет нам анализировать каждую способность отдельно. SmartPlay служит не только строгой площадкой для тестирования общей производительности LLM-агентов, но и дорожной картой для выявления пробелов в текущих методологиях. Мы публикуем наш бенчмарк на github.com/LLMsmartplay/SmartPlay.