Ежедневно отобранные исследовательские статьи по ИИ с переводами
В последнее время использование мощных проприетарных моделей обработки естественного языка (LLM), таких как GPT-4, в качестве инструмента оценки длинных текстов стало де-факто стандартом. Однако для специалистов, сталкивающихся с задачами масштабной оценки и учитывающих специфические критерии (например, удобочитаемость для детей), использование проприетарных LLM в качестве оценщика ненадежно из-за их закрытого исходного кода, отсутствия контроля над версиями и чрезмерно высоких затрат. В данной работе мы представляем Prometheus — полностью открытую LLM, которая по своим оценочным возможностям сопоставима с GPT-4 при наличии соответствующих справочных материалов (эталонного ответа, оценочной шкалы). Сначала мы создаем Feedback Collection — новый набор данных, включающий 1 тыс. детализированных оценочных шкал, 20 тыс. инструкций и 100 тыс. ответов с языковой обратной связью, сгенерированных GPT-4. Используя Feedback Collection, мы обучаем Prometheus — 13-миллиардную LLM-оценщик, способную анализировать любой длинный текст на основе пользовательской оценочной шкалы. Экспериментальные результаты показывают, что Prometheus достигает коэффициента корреляции Пирсона 0,897 с оценками людей при использовании 45 пользовательских оценочных шкал, что сопоставимо с GPT-4 (0,882) и значительно превосходит ChatGPT (0,392). Кроме того, измерение корреляции с GPT-4 на основе 1222 пользовательских оценочных шкал в четырех тестовых наборах (MT Bench, Vicuna Bench, Feedback Bench, Flask Eval) демонстрирует схожие тенденции, подтверждая возможности Prometheus как LLM-оценщика. Наконец, Prometheus достигает наивысшей точности на двух тестовых наборах, основанных на предпочтениях людей (HHH Alignment и MT Bench Human Judgment), по сравнению с открытыми моделями вознаграждения, явно обученными на наборах данных с человеческими предпочтениями, что подчеркивает его потенциал в качестве универсальной модели вознаграждения. Мы открываем исходный код, набор данных и модель по адресу https://github.com/kaistAI/Prometheus.
Plan-and-Write — это распространенный иерархический подход в генерации длинных повествовательных текстов, который сначала создает план для руководства написанием повествования. Следуя этому подходу, несколько исследований полагаются на простые запросы к большим языковым моделям для создания планов, что часто приводит к неоптимальным результатам. В данной статье мы предлагаем новый фреймворк под названием Evaluation-guided Iterative Plan Extraction для генерации длинных повествовательных текстов (EIPE-text), который извлекает планы из корпуса повествований и использует извлеченные планы для создания более эффективного планировщика. EIPE-text состоит из трех этапов: извлечение планов, обучение и вывод. На этапе извлечения планов он итеративно извлекает и улучшает планы из корпуса повествований и создает корпус планов. Мы предлагаем механизм оценки на основе вопросов и ответов (QA) для автоматической оценки планов и генерации детальных инструкций по улучшению планов, которые направляют итеративное совершенствование. На этапе обучения мы создаем более эффективный планировщик путем тонкой настройки с использованием корпуса планов или обучения в контексте с примерами из корпуса планов. Наконец, мы используем иерархический подход для генерации длинных повествований. Мы оцениваем эффективность EIPE-text в областях романов и рассказов. Как оценки на основе GPT-4, так и оценки экспертов демонстрируют, что наш метод позволяет генерировать более связные и релевантные длинные повествования. Наш код будет опубликован в будущем.
Мы исследуем использование языка в качестве перцептивного представления для задач навигации, объединяющих зрение и язык. Наш подход использует готовые системы компьютерного зрения (для генерации подписей к изображениям и обнаружения объектов) для преобразования эгоцентрического панорамного обзора агента на каждом временном шаге в описания на естественном языке. Затем мы дообучаем предварительно обученную языковую модель для выбора действия, которое наилучшим образом выполнит инструкции по навигации, основываясь на текущем обзоре и истории траектории. В отличие от стандартного подхода, где предварительно обученная языковая модель адаптируется для работы непосредственно с непрерывными визуальными признаками из предварительно обученных моделей зрения, наш подход использует (дискретный) язык в качестве перцептивного представления. Мы исследуем два варианта применения нашего подхода к навигации на основе языка (LangNav) на бенчмарке R2R для навигации, объединяющей зрение и язык: генерацию синтетических траекторий с помощью крупной языковой модели (GPT-4) для дообучения меньшей языковой модели; и перенос из симуляции в реальность, где мы переносим политику, обученную в симулированной среде (ALFRED), в реальную среду (R2R). Наш подход демонстрирует улучшение по сравнению с сильными базовыми методами, которые полагаются на визуальные признаки, в условиях, когда доступно лишь небольшое количество эталонных траекторий (10–100), что подчеркивает потенциал использования языка в качестве перцептивного представления для задач навигации.