Ежедневно отобранные исследовательские статьи по ИИ с переводами
Настройка крупных языковых моделей (LLM) на выполнение инструкций остается сложной задачей из-за сложности выбора гиперпараметров и трудностей, связанных с оценкой настроенных моделей. Для определения оптимальных гиперпараметров необходим автоматический, надежный и достоверный эталон оценки. Однако создание такого эталона является нетривиальной задачей из-за проблем, связанных с точностью оценки и защитой конфиденциальности. В ответ на эти вызовы мы представляем судейскую языковую модель под названием PandaLM, которая обучена определять лучшую модель среди нескольких LLM. PandaLM фокусируется не только на объективной правильности ответов, что является основной задачей традиционных наборов данных для оценки, но также учитывает важные субъективные факторы, такие как относительная лаконичность, ясность, следование инструкциям, полнота и формальность. Чтобы обеспечить надежность PandaLM, мы собрали разнообразный тестовый набор данных с аннотациями, созданными людьми, где все контексты генерируются людьми, а метки соответствуют человеческим предпочтениям. Наши результаты показывают, что PandaLM-7B достигает 93,75% способности GPT-3.5 и 88,28% GPT-4 в терминах F1-меры на нашем тестовом наборе данных. PandaLM позволяет проводить оценку LLM более справедливо и с меньшими затратами, что подтверждается значительными улучшениями, достигнутыми моделями, настроенными с помощью PandaLM, по сравнению с их аналогами, обученными с гиперпараметрами по умолчанию Alpaca. Кроме того, PandaLM не зависит от API-оценок, что позволяет избежать потенциальной утечки данных. Все ресурсы PandaLM доступны по адресу https://github.com/WeOpenML/PandaLM.
Крупные языковые модели, настроенные на выполнение инструкций, произвели революцию в обработке естественного языка и продемонстрировали огромный потенциал в таких приложениях, как диалоговые системы. Эти модели, такие как GPT-4, способны не только овладевать языком, но и решать сложные задачи в областях математики, программирования, медицины и права. Несмотря на их впечатляющие возможности, до сих пор отсутствует всестороннее понимание их полного потенциала, в основном из-за "черного ящика" многих моделей и отсутствия комплексных исследований их оценки. Для решения этих проблем мы представляем INSTRUCTEVAL — более всеобъемлющий набор тестов, разработанный специально для крупных языковых моделей, настроенных на выполнение инструкций. В отличие от предыдущих работ, наша оценка включает строгий анализ моделей на основе их способности решать задачи, писать тексты и соответствовать человеческим ценностям. Мы применяем комплексный подход для анализа различных факторов, влияющих на производительность моделей, включая основу предварительного обучения, данные для настройки на инструкции и методы обучения. Наши результаты показывают, что качество данных с инструкциями является наиболее важным фактором для масштабирования производительности моделей. Хотя модели с открытым исходным кодом демонстрируют впечатляющие способности в написании текстов, есть значительный потенциал для улучшения в решении задач и согласованности с ценностями. Мы воодушевлены быстрым развитием моделей в сообществе с открытым исходным кодом, но также подчеркиваем необходимость строгой оценки для подтверждения заявлений об этих моделях. С помощью INSTRUCTEVAL мы стремимся способствовать более глубокому пониманию моделей, настроенных на выполнение инструкций, и прогрессу в их возможностях. INSTRUCTEVAL доступен публично по адресу https://github.com/declare-lab/instruct-eval.
Крупные языковые модели (LLMs) уже используются в повседневной жизни и готовы производить огромные объемы текста в ближайшее десятилетие. Машинно-сгенерированный текст может вытеснить текст, написанный людьми, в интернете и имеет потенциал для использования в злонамеренных целях, таких как целевые фишинговые атаки и боты в социальных сетях. Водяные знаки представляют собой простую и эффективную стратегию для смягчения таких рисков, позволяя обнаруживать и документировать текст, созданный LLM. Однако остается важный вопрос: насколько надежны водяные знаки в реальных условиях? В таких условиях текст с водяными знаками может смешиваться с другими источниками текста, перефразироваться людьми или другими языковыми моделями и использоваться в широком спектре областей, как социальных, так и технических. В данной статье мы исследуем различные схемы обнаружения, количественно оцениваем их эффективность в выявлении водяных знаков и определяем, какой объем машинно-сгенерированного текста необходимо наблюдать в каждом сценарии для надежного обнаружения водяного знака. Особое внимание мы уделяем нашему исследованию с участием людей, где изучаем надежность водяных знаков при столкновении с перефразированием текста человеком. Мы сравниваем обнаружение на основе водяных знаков с другими стратегиями обнаружения и приходим к выводу, что водяные знаки являются надежным решением, особенно благодаря их сложности выборки — для всех рассматриваемых атак доказательства наличия водяного знака накапливаются с увеличением количества примеров, и в конечном итоге водяной знак обнаруживается.
В данной работе мы исследуем последние достижения в области тонкой настройки языковых моделей на выполнение инструкций с использованием ряда открытых наборов данных. Несмотря на недавние заявления о том, что открытые модели могут быть наравне с передовыми проприетарными моделями, эти утверждения часто сопровождаются ограниченной оценкой, что затрудняет всестороннее сравнение моделей и определение полезности различных ресурсов. Мы представляем большой набор моделей, настроенных на выполнение инструкций, размером от 6,7 млрд до 65 млрд параметров, обученных на 12 наборах данных, варьирующихся от вручную отобранных (например, OpenAssistant) до синтетических и дистиллированных (например, Alpaca), и систематически оцениваем их на предмет знаний, способности к рассуждению, многоязычности, программированию и выполнения открытых инструкций с использованием набора автоматических, модельных и человеческих метрик. Мы также представляем T\"ulu — наш лучший набор моделей, настроенных на выполнение инструкций, дообученных на комбинации высококачественных открытых ресурсов. Наши эксперименты показывают, что различные наборы данных для тонкой настройки на выполнение инструкций могут раскрывать или улучшать определённые навыки, при этом ни один набор данных (или их комбинация) не обеспечивает наилучшую производительность во всех оценках. Интересно, что мы обнаружили, что оценки, основанные на предпочтениях моделей и людей, не отражают различий в возможностях моделей, выявленных с помощью бенчмарков, что подчеркивает необходимость систематической оценки, проведённой в этой работе. Наши оценки показывают, что лучшая модель в любой конкретной оценке достигает в среднем 83% производительности ChatGPT и 68% производительности GPT-4, что указывает на необходимость дальнейших инвестиций в создание более качественных базовых моделей и данных для тонкой настройки на выполнение инструкций, чтобы сократить разрыв. Мы публикуем наши модели, настроенные на выполнение инструкций, включая полностью дообученную 65-миллиардную T\"ulu, а также наш код, данные и фреймворк для оценки по адресу https://github.com/allenai/open-instruct, чтобы способствовать дальнейшим исследованиям.
Мы представляем новые оценки асимптотической верхней границы энтропии английского языка, используя крупную языковую модель LLaMA-7B в качестве предиктора следующего токена на основе окна предыдущих токенов. Эта оценка значительно меньше, чем текущие доступные оценки в работах cover1978convergent и lutati2023focus. Естественным побочным продуктом является алгоритм для сжатия английского текста без потерь, который объединяет предсказания крупной языковой модели со схемой сжатия без потерь. Предварительные результаты ограниченных экспериментов показывают, что наша схема превосходит современные методы сжатия текста, такие как BSC, ZPAQ и paq8h.
Оценка 3D-артикулированных форм, таких как тела животных, по монохромным изображениям является сложной задачей из-за неоднозначностей, связанных с точкой зрения камеры, позой, текстурой, освещением и т.д. Мы предлагаем ARTIC3D, самообучаемую структуру для восстановления 3D-форм отдельных экземпляров из разреженной коллекции изображений в естественных условиях. В частности, ARTIC3D основана на скелетном представлении поверхности и дополнительно направляется 2D-диффузионными априорными данными из Stable Diffusion. Во-первых, мы улучшаем входные изображения, устраняя окклюзии и обрезки с помощью 2D-диффузии, чтобы получить более точные оценки масок и семантические признаки. Во-вторых, мы выполняем 3D-оптимизацию с использованием диффузионного руководства для оценки формы и текстуры, которые обладают высокой точностью и соответствуют входным изображениям. Мы также предлагаем новую технику для расчета более стабильных градиентов на уровне изображения с использованием диффузионных моделей по сравнению с существующими альтернативами. Наконец, мы создаем реалистичные анимации, дорабатывая визуализированную форму и текстуру при жестких преобразованиях частей. Обширные оценки на нескольких существующих наборах данных, а также на новых коллекциях зашумленных веб-изображений с окклюзиями и обрезками демонстрируют, что результаты ARTIC3D более устойчивы к зашумленным изображениям, имеют более высокое качество в плане деталей формы и текстуры и выглядят более реалистично при анимации. Страница проекта: https://chhankyao.github.io/artic3d/
StableDiffusion представляет собой революционный генератор изображений из текста, который вызывает ажиотаж в мире генерации и редактирования изображений. В отличие от традиционных методов, которые обучают диффузионную модель в пространстве пикселей, StableDiffusion обучает диффузионную модель в латентном пространстве с использованием VQGAN, что обеспечивает как эффективность, так и качество. Он не только поддерживает задачи генерации изображений, но также позволяет редактировать реальные изображения, такие как восстановление изображений (inpainting) и локальное редактирование. Однако мы заметили, что стандартный VQGAN, используемый в StableDiffusion, приводит к значительной потере информации, вызывая искажения даже в неотредактированных областях изображения. В связи с этим мы предлагаем новую асимметричную VQGAN с двумя простыми изменениями. Во-первых, помимо входных данных от энкодера, декодер содержит условную ветвь, которая учитывает информацию из априорных данных, специфичных для задачи, например, незамаскированную область изображения при восстановлении. Во-вторых, декодер значительно сложнее энкодера, что позволяет более детально восстанавливать изображения при незначительном увеличении общей стоимости вывода. Обучение нашей асимметричной VQGAN является экономичным, так как требуется переобучить только новый асимметричный декодер, оставляя стандартный энкодер VQGAN и StableDiffusion без изменений. Наша асимметричная VQGAN может широко использоваться в методах восстановления и локального редактирования на основе StableDiffusion. Многочисленные эксперименты показывают, что она значительно улучшает качество восстановления и редактирования, сохраняя при этом исходные возможности генерации изображений из текста. Код доступен по адресу https://github.com/buxiangzhiren/Asymmetric_VQGAN.
Растущая зависимость от крупных языковых моделей (LLM) в академических и промышленных кругах требует всестороннего понимания их устойчивости к промптам. В ответ на эту важную потребность мы представляем PromptBench — эталонный тест для оценки устойчивости LLM к адверсарным промптам. В данном исследовании используется множество адверсарных текстовых атак, направленных на промпты различных уровней: символьного, словесного, предложенческого и семантического. Эти промпты затем применяются в разнообразных задачах, таких как анализ тональности, естественно-языковой вывод, понимание прочитанного, машинный перевод и решение математических задач. Наше исследование генерирует 4 032 адверсарных промпта, тщательно оцененных на 8 задачах и 13 наборах данных, с общим количеством тестовых образцов 567 084. Наши результаты показывают, что современные LLM уязвимы к адверсарным промптам. Кроме того, мы представляем всесторонний анализ для понимания загадки устойчивости промптов и их переносимости. Затем мы предлагаем глубокий анализ устойчивости и практические рекомендации по составлению промптов, полезные как для исследователей, так и для повседневных пользователей. Мы делаем наш код, промпты и методологии для генерации адверсарных промптов общедоступными, тем самым способствуя и поощряя совместное исследование в этой ключевой области: https://github.com/microsoft/promptbench.
Развертывание моделей нейронного машинного перевода (NMT) на мобильных устройствах крайне важно для обеспечения конфиденциальности, низкой задержки и работы в автономных сценариях. Однако модели NMT с высокой емкостью обычно имеют большой размер. Запуск таких моделей на устройствах с ограниченным объемом памяти, вычислительными ресурсами и энергопотреблением представляет собой сложную задачу. Существующие подходы либо сосредоточены на одной метрике, такой как количество операций с плавающей запятой (FLOPs), либо используют универсальные движки, которые неэффективны для авторегрессивного декодирования. В данной статье мы представляем MobileNMT — систему, способную выполнять перевод на устройствах с использованием всего 15 МБ памяти и за 30 мс. Мы предлагаем набор принципов для сжатия моделей в сочетании с квантованием. Кроме того, мы разрабатываем движок, оптимизированный для работы с INT8 и декодированием. Благодаря совместной разработке модели и движка, по сравнению с существующими системами, мы ускоряем выполнение в 47,0 раз и сокращаем использование памяти на 99,5% при потере всего 11,6% по метрике BLEU. Исходный код доступен по адресу https://github.com/zjersey/Lightseq-ARM.
Для содействия развитию предобучения моделей для задач "Видео-Текст" (Vision-Language Pre-training, VLP) и мультимодальных больших языковых моделей (Large Language Model, LLM) в китайском сообществе мы впервые публикуем крупнейший открытый высококачественный китайский набор данных Youku-mPLUG, собранный с популярной китайской видеоплатформы Youku с соблюдением строгих критериев безопасности, разнообразия и качества. Youku-mPLUG содержит 10 миллионов пар "видео-текст", отфильтрованных из 400 миллионов исходных видеозаписей, охватывающих 45 разнообразных категорий для масштабного предобучения. Кроме того, для всесторонней оценки моделей, работающих с видео и текстом, мы тщательно создали крупнейшие аннотированные вручную китайские бенчмарки, охватывающие три популярные задачи: кросс-модальный поиск, генерация описаний к видео и классификация категорий видео. Youku-mPLUG позволяет исследователям проводить более глубокие мультимодальные исследования и разрабатывать более совершенные приложения в будущем. Мы также публикуем популярные модели предобучения для задач "Видео-Текст", такие как ALPRO и mPLUG-2, а также нашу предложенную модульную модель с декодером mPLUG-video, предобученную на Youku-mPLUG. Эксперименты показывают, что модели, предобученные на Youku-mPLUG, достигают улучшения до 23,1% в задаче классификации категорий видео. Кроме того, mPLUG-video устанавливает новый рекорд на этих бенчмарках с точностью 80,5% (top-1) в классификации категорий видео и оценкой CIDEr 68,9 в генерации описаний к видео. Наконец, мы масштабируем mPLUG-video на основе замороженной модели Bloomz с использованием всего 1,7% обучаемых параметров в качестве китайской мультимодальной LLM, демонстрируя впечатляющие способности в понимании инструкций и видео. Эксперимент с нулевым обучением (zero-shot) на понимание инструкций показывает, что предобучение на Youku-mPLUG улучшает способность модели понимать общую и детальную визуальную семантику, распознавать текст в сценах и использовать открытые знания.