Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

PandaLM: Автоматизированный эталонный тест для оценки настройки инструкций в крупных языковых моделях (LLM)
PandaLM: An Automatic Evaluation Benchmark for LLM Instruction Tuning Optimization

Jun 8, 2023

Yidong Wang, Zhuohao Yu, Zhengran Zeng, Linyi Yang, Cunxiang Wang, Hao Chen, Chaoya Jiang, Rui Xie, Jindong Wang, Xing Xie, Wei Ye, Shikun Zhang, Yue Zhang

Настройка крупных языковых моделей (LLM) на выполнение инструкций остается сложной задачей из-за сложности выбора гиперпараметров и трудностей, связанных с оценкой настроенных моделей. Для определения оптимальных гиперпараметров необходим автоматический, надежный и достоверный эталон оценки. Однако создание такого эталона является нетривиальной задачей из-за проблем, связанных с точностью оценки и защитой конфиденциальности. В ответ на эти вызовы мы представляем судейскую языковую модель под названием PandaLM, которая обучена определять лучшую модель среди нескольких LLM. PandaLM фокусируется не только на объективной правильности ответов, что является основной задачей традиционных наборов данных для оценки, но также учитывает важные субъективные факторы, такие как относительная лаконичность, ясность, следование инструкциям, полнота и формальность. Чтобы обеспечить надежность PandaLM, мы собрали разнообразный тестовый набор данных с аннотациями, созданными людьми, где все контексты генерируются людьми, а метки соответствуют человеческим предпочтениям. Наши результаты показывают, что PandaLM-7B достигает 93,75% способности GPT-3.5 и 88,28% GPT-4 в терминах F1-меры на нашем тестовом наборе данных. PandaLM позволяет проводить оценку LLM более справедливо и с меньшими затратами, что подтверждается значительными улучшениями, достигнутыми моделями, настроенными с помощью PandaLM, по сравнению с их аналогами, обученными с гиперпараметрами по умолчанию Alpaca. Кроме того, PandaLM не зависит от API-оценок, что позволяет избежать потенциальной утечки данных. Все ресурсы PandaLM доступны по адресу https://github.com/WeOpenML/PandaLM.

INSTRUCTEVAL: К всесторонней оценке крупных языковых моделей, настроенных на выполнение инструкций
INSTRUCTEVAL: Towards Holistic Evaluation of Instruction-Tuned Large Language Models

Jun 7, 2023

Yew Ken Chia, Pengfei Hong, Lidong Bing, Soujanya Poria

Крупные языковые модели, настроенные на выполнение инструкций, произвели революцию в обработке естественного языка и продемонстрировали огромный потенциал в таких приложениях, как диалоговые системы. Эти модели, такие как GPT-4, способны не только овладевать языком, но и решать сложные задачи в областях математики, программирования, медицины и права. Несмотря на их впечатляющие возможности, до сих пор отсутствует всестороннее понимание их полного потенциала, в основном из-за "черного ящика" многих моделей и отсутствия комплексных исследований их оценки. Для решения этих проблем мы представляем INSTRUCTEVAL — более всеобъемлющий набор тестов, разработанный специально для крупных языковых моделей, настроенных на выполнение инструкций. В отличие от предыдущих работ, наша оценка включает строгий анализ моделей на основе их способности решать задачи, писать тексты и соответствовать человеческим ценностям. Мы применяем комплексный подход для анализа различных факторов, влияющих на производительность моделей, включая основу предварительного обучения, данные для настройки на инструкции и методы обучения. Наши результаты показывают, что качество данных с инструкциями является наиболее важным фактором для масштабирования производительности моделей. Хотя модели с открытым исходным кодом демонстрируют впечатляющие способности в написании текстов, есть значительный потенциал для улучшения в решении задач и согласованности с ценностями. Мы воодушевлены быстрым развитием моделей в сообществе с открытым исходным кодом, но также подчеркиваем необходимость строгой оценки для подтверждения заявлений об этих моделях. С помощью INSTRUCTEVAL мы стремимся способствовать более глубокому пониманию моделей, настроенных на выполнение инструкций, и прогрессу в их возможностях. INSTRUCTEVAL доступен публично по адресу https://github.com/declare-lab/instruct-eval.

О надежности водяных знаков для больших языковых моделей
On the Reliability of Watermarks for Large Language Models

Jun 7, 2023

John Kirchenbauer, Jonas Geiping, Yuxin Wen, Manli Shu, Khalid Saifullah, Kezhi Kong, Kasun Fernando, Aniruddha Saha, Micah Goldblum, Tom Goldstein

Крупные языковые модели (LLMs) уже используются в повседневной жизни и готовы производить огромные объемы текста в ближайшее десятилетие. Машинно-сгенерированный текст может вытеснить текст, написанный людьми, в интернете и имеет потенциал для использования в злонамеренных целях, таких как целевые фишинговые атаки и боты в социальных сетях. Водяные знаки представляют собой простую и эффективную стратегию для смягчения таких рисков, позволяя обнаруживать и документировать текст, созданный LLM. Однако остается важный вопрос: насколько надежны водяные знаки в реальных условиях? В таких условиях текст с водяными знаками может смешиваться с другими источниками текста, перефразироваться людьми или другими языковыми моделями и использоваться в широком спектре областей, как социальных, так и технических. В данной статье мы исследуем различные схемы обнаружения, количественно оцениваем их эффективность в выявлении водяных знаков и определяем, какой объем машинно-сгенерированного текста необходимо наблюдать в каждом сценарии для надежного обнаружения водяного знака. Особое внимание мы уделяем нашему исследованию с участием людей, где изучаем надежность водяных знаков при столкновении с перефразированием текста человеком. Мы сравниваем обнаружение на основе водяных знаков с другими стратегиями обнаружения и приходим к выводу, что водяные знаки являются надежным решением, особенно благодаря их сложности выборки — для всех рассматриваемых атак доказательства наличия водяного знака накапливаются с увеличением количества примеров, и в конечном итоге водяной знак обнаруживается.

Насколько далеко могут зайти верблюды? Исследование состояния тонкой настройки инструкций на открытых ресурсах
How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources

Jun 7, 2023

Yizhong Wang, Hamish Ivison, Pradeep Dasigi, Jack Hessel, Tushar Khot, Khyathi Raghavi Chandu, David Wadden, Kelsey MacMillan, Noah A. Smith, Iz Beltagy, Hannaneh Hajishirzi

В данной работе мы исследуем последние достижения в области тонкой настройки языковых моделей на выполнение инструкций с использованием ряда открытых наборов данных. Несмотря на недавние заявления о том, что открытые модели могут быть наравне с передовыми проприетарными моделями, эти утверждения часто сопровождаются ограниченной оценкой, что затрудняет всестороннее сравнение моделей и определение полезности различных ресурсов. Мы представляем большой набор моделей, настроенных на выполнение инструкций, размером от 6,7 млрд до 65 млрд параметров, обученных на 12 наборах данных, варьирующихся от вручную отобранных (например, OpenAssistant) до синтетических и дистиллированных (например, Alpaca), и систематически оцениваем их на предмет знаний, способности к рассуждению, многоязычности, программированию и выполнения открытых инструкций с использованием набора автоматических, модельных и человеческих метрик. Мы также представляем T\"ulu — наш лучший набор моделей, настроенных на выполнение инструкций, дообученных на комбинации высококачественных открытых ресурсов. Наши эксперименты показывают, что различные наборы данных для тонкой настройки на выполнение инструкций могут раскрывать или улучшать определённые навыки, при этом ни один набор данных (или их комбинация) не обеспечивает наилучшую производительность во всех оценках. Интересно, что мы обнаружили, что оценки, основанные на предпочтениях моделей и людей, не отражают различий в возможностях моделей, выявленных с помощью бенчмарков, что подчеркивает необходимость систематической оценки, проведённой в этой работе. Наши оценки показывают, что лучшая модель в любой конкретной оценке достигает в среднем 83% производительности ChatGPT и 68% производительности GPT-4, что указывает на необходимость дальнейших инвестиций в создание более качественных базовых моделей и данных для тонкой настройки на выполнение инструкций, чтобы сократить разрыв. Мы публикуем наши модели, настроенные на выполнение инструкций, включая полностью дообученную 65-миллиардную T\"ulu, а также наш код, данные и фреймворк для оценки по адресу https://github.com/allenai/open-instruct, чтобы способствовать дальнейшим исследованиям.

LLMZip: Сжатие текста без потерь с использованием больших языковых моделей
LLMZip: Lossless Text Compression using Large Language Models

Jun 6, 2023

Chandra Shekhara Kaushik Valmeekam, Krishna Narayanan, Dileep Kalathil, Jean-Francois Chamberland, Srinivas Shakkottai

Мы представляем новые оценки асимптотической верхней границы энтропии английского языка, используя крупную языковую модель LLaMA-7B в качестве предиктора следующего токена на основе окна предыдущих токенов. Эта оценка значительно меньше, чем текущие доступные оценки в работах cover1978convergent и lutati2023focus. Естественным побочным продуктом является алгоритм для сжатия английского текста без потерь, который объединяет предсказания крупной языковой модели со схемой сжатия без потерь. Предварительные результаты ограниченных экспериментов показывают, что наша схема превосходит современные методы сжатия текста, такие как BSC, ZPAQ и paq8h.

ARTIC3D: Обучение устойчивых артикулированных 3D-моделей на основе зашумленных коллекций веб-изображений
ARTIC3D: Learning Robust Articulated 3D Shapes from Noisy Web Image Collections

Jun 7, 2023

Chun-Han Yao, Amit Raj, Wei-Chih Hung, Yuanzhen Li, Michael Rubinstein, Ming-Hsuan Yang, Varun Jampani

Оценка 3D-артикулированных форм, таких как тела животных, по монохромным изображениям является сложной задачей из-за неоднозначностей, связанных с точкой зрения камеры, позой, текстурой, освещением и т.д. Мы предлагаем ARTIC3D, самообучаемую структуру для восстановления 3D-форм отдельных экземпляров из разреженной коллекции изображений в естественных условиях. В частности, ARTIC3D основана на скелетном представлении поверхности и дополнительно направляется 2D-диффузионными априорными данными из Stable Diffusion. Во-первых, мы улучшаем входные изображения, устраняя окклюзии и обрезки с помощью 2D-диффузии, чтобы получить более точные оценки масок и семантические признаки. Во-вторых, мы выполняем 3D-оптимизацию с использованием диффузионного руководства для оценки формы и текстуры, которые обладают высокой точностью и соответствуют входным изображениям. Мы также предлагаем новую технику для расчета более стабильных градиентов на уровне изображения с использованием диффузионных моделей по сравнению с существующими альтернативами. Наконец, мы создаем реалистичные анимации, дорабатывая визуализированную форму и текстуру при жестких преобразованиях частей. Обширные оценки на нескольких существующих наборах данных, а также на новых коллекциях зашумленных веб-изображений с окклюзиями и обрезками демонстрируют, что результаты ARTIC3D более устойчивы к зашумленным изображениям, имеют более высокое качество в плане деталей формы и текстуры и выглядят более реалистично при анимации. Страница проекта: https://chhankyao.github.io/artic3d/

Разработка улучшенной асимметричной VQGAN для StableDiffusion
Designing a Better Asymmetric VQGAN for StableDiffusion

Jun 7, 2023

Zixin Zhu, Xuelu Feng, Dongdong Chen, Jianmin Bao, Le Wang, Yinpeng Chen, Lu Yuan, Gang Hua

StableDiffusion представляет собой революционный генератор изображений из текста, который вызывает ажиотаж в мире генерации и редактирования изображений. В отличие от традиционных методов, которые обучают диффузионную модель в пространстве пикселей, StableDiffusion обучает диффузионную модель в латентном пространстве с использованием VQGAN, что обеспечивает как эффективность, так и качество. Он не только поддерживает задачи генерации изображений, но также позволяет редактировать реальные изображения, такие как восстановление изображений (inpainting) и локальное редактирование. Однако мы заметили, что стандартный VQGAN, используемый в StableDiffusion, приводит к значительной потере информации, вызывая искажения даже в неотредактированных областях изображения. В связи с этим мы предлагаем новую асимметричную VQGAN с двумя простыми изменениями. Во-первых, помимо входных данных от энкодера, декодер содержит условную ветвь, которая учитывает информацию из априорных данных, специфичных для задачи, например, незамаскированную область изображения при восстановлении. Во-вторых, декодер значительно сложнее энкодера, что позволяет более детально восстанавливать изображения при незначительном увеличении общей стоимости вывода. Обучение нашей асимметричной VQGAN является экономичным, так как требуется переобучить только новый асимметричный декодер, оставляя стандартный энкодер VQGAN и StableDiffusion без изменений. Наша асимметричная VQGAN может широко использоваться в методах восстановления и локального редактирования на основе StableDiffusion. Многочисленные эксперименты показывают, что она значительно улучшает качество восстановления и редактирования, сохраняя при этом исходные возможности генерации изображений из текста. Код доступен по адресу https://github.com/buxiangzhiren/Asymmetric_VQGAN.

PromptBench: К оценке устойчивости больших языковых моделей к адверсарным промптам
PromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts

Jun 7, 2023

Kaijie Zhu, Jindong Wang, Jiaheng Zhou, Zichen Wang, Hao Chen, Yidong Wang, Linyi Yang, Wei Ye, Neil Zhenqiang Gong, Yue Zhang, Xing Xie

Растущая зависимость от крупных языковых моделей (LLM) в академических и промышленных кругах требует всестороннего понимания их устойчивости к промптам. В ответ на эту важную потребность мы представляем PromptBench — эталонный тест для оценки устойчивости LLM к адверсарным промптам. В данном исследовании используется множество адверсарных текстовых атак, направленных на промпты различных уровней: символьного, словесного, предложенческого и семантического. Эти промпты затем применяются в разнообразных задачах, таких как анализ тональности, естественно-языковой вывод, понимание прочитанного, машинный перевод и решение математических задач. Наше исследование генерирует 4 032 адверсарных промпта, тщательно оцененных на 8 задачах и 13 наборах данных, с общим количеством тестовых образцов 567 084. Наши результаты показывают, что современные LLM уязвимы к адверсарным промптам. Кроме того, мы представляем всесторонний анализ для понимания загадки устойчивости промптов и их переносимости. Затем мы предлагаем глубокий анализ устойчивости и практические рекомендации по составлению промптов, полезные как для исследователей, так и для повседневных пользователей. Мы делаем наш код, промпты и методологии для генерации адверсарных промптов общедоступными, тем самым способствуя и поощряя совместное исследование в этой ключевой области: https://github.com/microsoft/promptbench.

MobileNMT: Обеспечение перевода в 15 МБ и 30 мс
MobileNMT: Enabling Translation in 15MB and 30ms

Jun 7, 2023

Ye Lin, Xiaohui Wang, Zhexi Zhang, Mingxuan Wang, Tong Xiao, Jingbo Zhu

Развертывание моделей нейронного машинного перевода (NMT) на мобильных устройствах крайне важно для обеспечения конфиденциальности, низкой задержки и работы в автономных сценариях. Однако модели NMT с высокой емкостью обычно имеют большой размер. Запуск таких моделей на устройствах с ограниченным объемом памяти, вычислительными ресурсами и энергопотреблением представляет собой сложную задачу. Существующие подходы либо сосредоточены на одной метрике, такой как количество операций с плавающей запятой (FLOPs), либо используют универсальные движки, которые неэффективны для авторегрессивного декодирования. В данной статье мы представляем MobileNMT — систему, способную выполнять перевод на устройствах с использованием всего 15 МБ памяти и за 30 мс. Мы предлагаем набор принципов для сжатия моделей в сочетании с квантованием. Кроме того, мы разрабатываем движок, оптимизированный для работы с INT8 и декодированием. Благодаря совместной разработке модели и движка, по сравнению с существующими системами, мы ускоряем выполнение в 47,0 раз и сокращаем использование памяти на 99,5% при потере всего 11,6% по метрике BLEU. Исходный код доступен по адресу https://github.com/zjersey/Lightseq-ARM.

Youku-mPLUG: Крупномасштабный китайский видеотекстовый набор данных для предварительного обучения и тестирования, содержащий 10 миллионов примеров
Youku-mPLUG: A 10 Million Large-scale Chinese Video-Language Dataset for Pre-training and Benchmarks

Jun 7, 2023

Haiyang Xu, Qinghao Ye, Xuan Wu, Ming Yan, Yuan Miao, Jiabo Ye, Guohai Xu, Anwen Hu, Yaya Shi, Guangwei Xu, Chenliang Li, Qi Qian, Maofei Que, Ji Zhang, Xiao Zeng, Fei Huang

Для содействия развитию предобучения моделей для задач "Видео-Текст" (Vision-Language Pre-training, VLP) и мультимодальных больших языковых моделей (Large Language Model, LLM) в китайском сообществе мы впервые публикуем крупнейший открытый высококачественный китайский набор данных Youku-mPLUG, собранный с популярной китайской видеоплатформы Youku с соблюдением строгих критериев безопасности, разнообразия и качества. Youku-mPLUG содержит 10 миллионов пар "видео-текст", отфильтрованных из 400 миллионов исходных видеозаписей, охватывающих 45 разнообразных категорий для масштабного предобучения. Кроме того, для всесторонней оценки моделей, работающих с видео и текстом, мы тщательно создали крупнейшие аннотированные вручную китайские бенчмарки, охватывающие три популярные задачи: кросс-модальный поиск, генерация описаний к видео и классификация категорий видео. Youku-mPLUG позволяет исследователям проводить более глубокие мультимодальные исследования и разрабатывать более совершенные приложения в будущем. Мы также публикуем популярные модели предобучения для задач "Видео-Текст", такие как ALPRO и mPLUG-2, а также нашу предложенную модульную модель с декодером mPLUG-video, предобученную на Youku-mPLUG. Эксперименты показывают, что модели, предобученные на Youku-mPLUG, достигают улучшения до 23,1% в задаче классификации категорий видео. Кроме того, mPLUG-video устанавливает новый рекорд на этих бенчмарках с точностью 80,5% (top-1) в классификации категорий видео и оценкой CIDEr 68,9 в генерации описаний к видео. Наконец, мы масштабируем mPLUG-video на основе замороженной модели Bloomz с использованием всего 1,7% обучаемых параметров в качестве китайской мультимодальной LLM, демонстрируя впечатляющие способности в понимании инструкций и видео. Эксперимент с нулевым обучением (zero-shot) на понимание инструкций показывает, что предобучение на Youku-mPLUG улучшает способность модели понимать общую и детальную визуальную семантику, распознавать текст в сценах и использовать открытые знания.

Насколько далеко могут зайти верблюды? Исследование состояния тонкой настройки инструкций на открытых ресурсах
How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources

Jun 7, 2023

Yizhong Wang, Hamish Ivison, Pradeep Dasigi, Jack Hessel, Tushar Khot, Khyathi Raghavi Chandu, David Wadden, Kelsey MacMillan, Noah A. Smith, Iz Beltagy, Hannaneh Hajishirzi

Ежедневные статьи

PandaLM: Автоматизированный эталонный тест для оценки настройки инструкций в крупных языковых моделях (LLM)
PandaLM: An Automatic Evaluation Benchmark for LLM Instruction Tuning Optimization

INSTRUCTEVAL: К всесторонней оценке крупных языковых моделей, настроенных на выполнение инструкций
INSTRUCTEVAL: Towards Holistic Evaluation of Instruction-Tuned Large Language Models

О надежности водяных знаков для больших языковых моделей
On the Reliability of Watermarks for Large Language Models

Насколько далеко могут зайти верблюды? Исследование состояния тонкой настройки инструкций на открытых ресурсах
How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources

LLMZip: Сжатие текста без потерь с использованием больших языковых моделей
LLMZip: Lossless Text Compression using Large Language Models

ARTIC3D: Обучение устойчивых артикулированных 3D-моделей на основе зашумленных коллекций веб-изображений
ARTIC3D: Learning Robust Articulated 3D Shapes from Noisy Web Image Collections

Разработка улучшенной асимметричной VQGAN для StableDiffusion
Designing a Better Asymmetric VQGAN for StableDiffusion

PromptBench: К оценке устойчивости больших языковых моделей к адверсарным промптам
PromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts

MobileNMT: Обеспечение перевода в 15 МБ и 30 мс
MobileNMT: Enabling Translation in 15MB and 30ms

Support

Support

Ежедневные статьи

PandaLM: Автоматизированный эталонный тест для оценки настройки инструкций в крупных языковых моделях (LLM)
PandaLM: An Automatic Evaluation Benchmark for LLM Instruction Tuning Optimization

INSTRUCTEVAL: К всесторонней оценке крупных языковых моделей, настроенных на выполнение инструкций
INSTRUCTEVAL: Towards Holistic Evaluation of Instruction-Tuned Large Language Models

О надежности водяных знаков для больших языковых моделей
On the Reliability of Watermarks for Large Language Models

Насколько далеко могут зайти верблюды? Исследование состояния тонкой настройки инструкций на открытых ресурсах
How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources

LLMZip: Сжатие текста без потерь с использованием больших языковых моделей
LLMZip: Lossless Text Compression using Large Language Models

ARTIC3D: Обучение устойчивых артикулированных 3D-моделей на основе зашумленных коллекций веб-изображений
ARTIC3D: Learning Robust Articulated 3D Shapes from Noisy Web Image Collections

Разработка улучшенной асимметричной VQGAN для StableDiffusion
Designing a Better Asymmetric VQGAN for StableDiffusion

PromptBench: К оценке устойчивости больших языковых моделей к адверсарным промптам
PromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts

MobileNMT: Обеспечение перевода в 15 МБ и 30 мс
MobileNMT: Enabling Translation in 15MB and 30ms