Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

Прометей: Развитие способности к детальной оценке в языковых моделях
Prometheus: Inducing Fine-grained Evaluation Capability in Language Models

Oct 12, 2023

Seungone Kim, Jamin Shin, Yejin Cho, Joel Jang, Shayne Longpre, Hwaran Lee, Sangdoo Yun, Seongjin Shin, Sungdong Kim, James Thorne, Minjoon Seo

554

В последнее время использование мощных проприетарных моделей обработки естественного языка (LLM), таких как GPT-4, в качестве инструмента оценки длинных текстов стало де-факто стандартом. Однако для специалистов, сталкивающихся с задачами масштабной оценки и учитывающих специфические критерии (например, удобочитаемость для детей), использование проприетарных LLM в качестве оценщика ненадежно из-за их закрытого исходного кода, отсутствия контроля над версиями и чрезмерно высоких затрат. В данной работе мы представляем Prometheus — полностью открытую LLM, которая по своим оценочным возможностям сопоставима с GPT-4 при наличии соответствующих справочных материалов (эталонного ответа, оценочной шкалы). Сначала мы создаем Feedback Collection — новый набор данных, включающий 1 тыс. детализированных оценочных шкал, 20 тыс. инструкций и 100 тыс. ответов с языковой обратной связью, сгенерированных GPT-4. Используя Feedback Collection, мы обучаем Prometheus — 13-миллиардную LLM-оценщик, способную анализировать любой длинный текст на основе пользовательской оценочной шкалы. Экспериментальные результаты показывают, что Prometheus достигает коэффициента корреляции Пирсона 0,897 с оценками людей при использовании 45 пользовательских оценочных шкал, что сопоставимо с GPT-4 (0,882) и значительно превосходит ChatGPT (0,392). Кроме того, измерение корреляции с GPT-4 на основе 1222 пользовательских оценочных шкал в четырех тестовых наборах (MT Bench, Vicuna Bench, Feedback Bench, Flask Eval) демонстрирует схожие тенденции, подтверждая возможности Prometheus как LLM-оценщика. Наконец, Prometheus достигает наивысшей точности на двух тестовых наборах, основанных на предпочтениях людей (HHH Alignment и MT Bench Human Judgment), по сравнению с открытыми моделями вознаграждения, явно обученными на наборах данных с человеческими предпочтениями, что подчеркивает его потенциал в качестве универсальной модели вознаграждения. Мы открываем исходный код, набор данных и модель по адресу https://github.com/kaistAI/Prometheus.

EIPE-text: Извлечение итеративного плана с управлением через оценку для генерации длинных повествовательных текстов
EIPE-text: Evaluation-Guided Iterative Plan Extraction for Long-Form Narrative Text Generation

Oct 12, 2023

Wang You, Wenshan Wu, Yaobo Liang, Shaoguang Mao, Chenfei Wu, Maosong Cao, Yuzhe Cai, Yiduo Guo, Yan Xia, Furu Wei, Nan Duan

Plan-and-Write — это распространенный иерархический подход в генерации длинных повествовательных текстов, который сначала создает план для руководства написанием повествования. Следуя этому подходу, несколько исследований полагаются на простые запросы к большим языковым моделям для создания планов, что часто приводит к неоптимальным результатам. В данной статье мы предлагаем новый фреймворк под названием Evaluation-guided Iterative Plan Extraction для генерации длинных повествовательных текстов (EIPE-text), который извлекает планы из корпуса повествований и использует извлеченные планы для создания более эффективного планировщика. EIPE-text состоит из трех этапов: извлечение планов, обучение и вывод. На этапе извлечения планов он итеративно извлекает и улучшает планы из корпуса повествований и создает корпус планов. Мы предлагаем механизм оценки на основе вопросов и ответов (QA) для автоматической оценки планов и генерации детальных инструкций по улучшению планов, которые направляют итеративное совершенствование. На этапе обучения мы создаем более эффективный планировщик путем тонкой настройки с использованием корпуса планов или обучения в контексте с примерами из корпуса планов. Наконец, мы используем иерархический подход для генерации длинных повествований. Мы оцениваем эффективность EIPE-text в областях романов и рассказов. Как оценки на основе GPT-4, так и оценки экспертов демонстрируют, что наш метод позволяет генерировать более связные и релевантные длинные повествования. Наш код будет опубликован в будущем.

LangNav: Язык как перцептивное представление для навигации
LangNav: Language as a Perceptual Representation for Navigation

Oct 11, 2023

Bowen Pan, Rameswar Panda, SouYoung Jin, Rogerio Feris, Aude Oliva, Phillip Isola, Yoon Kim

Мы исследуем использование языка в качестве перцептивного представления для задач навигации, объединяющих зрение и язык. Наш подход использует готовые системы компьютерного зрения (для генерации подписей к изображениям и обнаружения объектов) для преобразования эгоцентрического панорамного обзора агента на каждом временном шаге в описания на естественном языке. Затем мы дообучаем предварительно обученную языковую модель для выбора действия, которое наилучшим образом выполнит инструкции по навигации, основываясь на текущем обзоре и истории траектории. В отличие от стандартного подхода, где предварительно обученная языковая модель адаптируется для работы непосредственно с непрерывными визуальными признаками из предварительно обученных моделей зрения, наш подход использует (дискретный) язык в качестве перцептивного представления. Мы исследуем два варианта применения нашего подхода к навигации на основе языка (LangNav) на бенчмарке R2R для навигации, объединяющей зрение и язык: генерацию синтетических траекторий с помощью крупной языковой модели (GPT-4) для дообучения меньшей языковой модели; и перенос из симуляции в реальность, где мы переносим политику, обученную в симулированной среде (ALFRED), в реальную среду (R2R). Наш подход демонстрирует улучшение по сравнению с сильными базовыми методами, которые полагаются на визуальные признаки, в условиях, когда доступно лишь небольшое количество эталонных траекторий (10–100), что подчеркивает потенциал использования языка в качестве перцептивного представления для задач навигации.

Прометей: Развитие способности к детальной оценке в языковых моделях
Prometheus: Inducing Fine-grained Evaluation Capability in Language Models

Oct 12, 2023

Seungone Kim, Jamin Shin, Yejin Cho, Joel Jang, Shayne Longpre, Hwaran Lee, Sangdoo Yun, Seongjin Shin, Sungdong Kim, James Thorne, Minjoon Seo

554

Ежедневные статьи

Прометей: Развитие способности к детальной оценке в языковых моделях
Prometheus: Inducing Fine-grained Evaluation Capability in Language Models

LangNav: Язык как перцептивное представление для навигации
LangNav: Language as a Perceptual Representation for Navigation

Support

Support

Ежедневные статьи

Прометей: Развитие способности к детальной оценке в языковых моделях
Prometheus: Inducing Fine-grained Evaluation Capability in Language Models

LangNav: Язык как перцептивное представление для навигации
LangNav: Language as a Perceptual Representation for Navigation

Ежедневные статьи

Прометей: Развитие способности к детальной оценке в языковых моделяхPrometheus: Inducing Fine-grained Evaluation Capability in Language Models

LangNav: Язык как перцептивное представление для навигацииLangNav: Language as a Perceptual Representation for Navigation

Ежедневные статьи

Прометей: Развитие способности к детальной оценке в языковых моделяхPrometheus: Inducing Fine-grained Evaluation Capability in Language Models

LangNav: Язык как перцептивное представление для навигацииLangNav: Language as a Perceptual Representation for Navigation

Прометей: Развитие способности к детальной оценке в языковых моделях
Prometheus: Inducing Fine-grained Evaluation Capability in Language Models

LangNav: Язык как перцептивное представление для навигации
LangNav: Language as a Perceptual Representation for Navigation

Прометей: Развитие способности к детальной оценке в языковых моделях
Prometheus: Inducing Fine-grained Evaluation Capability in Language Models

LangNav: Язык как перцептивное представление для навигации
LangNav: Language as a Perceptual Representation for Navigation