HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

12 papers found

Обучение на ошибках делает языковые модели более эффективными в рассуждениях.
Learning From Mistakes Makes LLM Better Reasoner

Oct 31

ByShengnan An, Zexiong Ma, Zeqi Lin, Nanning Zheng, Jian-Guang Lou, Weizhu Chen

Крупные языковые модели (LLM) недавно продемонстрировали впечатляющие способности к рассуждению при решении математических задач. Для дальнейшего улучшения этой способности в данной работе предлагается метод Learning from Mistakes (LeMa), аналогичный процессу обучения человека. Рассмотрим студента, который не смог решить математическую задачу: он учится на своих ошибках, анализируя, что пошло не так и как это исправить. Подражая этому процессу обучения на основе ошибок, LeMa дообучает LLM на парах данных "ошибка-исправление", сгенерированных GPT-4. В частности, мы сначала собираем некорректные цепочки рассуждений от различных LLM, а затем используем GPT-4 в качестве "корректора" для (1) идентификации шага с ошибкой, (2) объяснения причины ошибки и (3) исправления ошибки с генерацией итогового ответа. Экспериментальные результаты демонстрируют эффективность LeMa: на пяти базовых LLM и двух задачах математического рассуждения LeMa стабильно улучшает производительность по сравнению с дообучением только на данных CoT. Примечательно, что LeMa также может улучшать специализированные LLM, такие как WizardMath и MetaMath, достигая точности 85,4% pass@1 на GSM8K и 27,1% на MATH. Это превосходит SOTA-результаты, достигнутые неисполняемыми открытыми моделями на этих сложных задачах. Наш код, данные и модели будут общедоступны по адресу https://github.com/microsoft/CodeT.

CapsFusion: Переосмысление масштабных данных "изображение-текст"
CapsFusion: Rethinking Image-Text Data at Scale

Oct 31

ByQiying Yu, Quan Sun, Xiaosong Zhang, Yufeng Cui, Fan Zhang, Xinlong Wang, Jingjing Liu

Крупные мультимодальные модели демонстрируют выдающуюся универсальную способность выполнять разнообразные мультимодальные задачи в режиме zero-shot. Крупномасштабные пары изображение-текст, собранные из интернета, вносят фундаментальный вклад в этот успех, но страдают от чрезмерного уровня шума. Недавние исследования используют альтернативные описания, синтезированные моделями генерации подписей, и достигли заметных результатов на эталонных тестах. Однако наши эксперименты выявили значительные проблемы с масштабируемостью и потерей знаний о мире в моделях, обученных на синтетических подписях, которые оставались в значительной степени незамеченными из-за их первоначального успеха на тестах. При более детальном анализе мы определили корневую причину как чрезмерно упрощённую структуру языка и отсутствие деталей знаний в существующих синтетических подписях. Для предоставления более качественных и масштабируемых данных для мультимодального предобучения мы предлагаем CapsFusion — продвинутую структуру, которая использует крупные языковые модели для консолидации и уточнения информации как из веб-пар изображение-текст, так и из синтетических подписей. Многочисленные эксперименты показывают, что подписи CapsFusion демонстрируют всестороннее превосходство над существующими подписями с точки зрения производительности модели (например, улучшение на 18,8 и 18,3 балла по метрике CIDEr на COCO и NoCaps), эффективности использования данных (требуя в 11–16 раз меньше вычислений, чем базовые методы), глубины знаний о мире и масштабируемости. Эти преимущества в эффективности, производительности и масштабируемости делают CapsFusion перспективным кандидатом для будущего масштабирования обучения крупных мультимодальных моделей.

Битва архитектур: Масштабное сравнение предобученных моделей в задачах компьютерного зрения
Battle of the Backbones: A Large-Scale Comparison of Pretrained Models across Computer Vision Tasks

Oct 30

ByMicah Goldblum, Hossein Souri, Renkun Ni, Manli Shu, Viraj Prabhu, Gowthami Somepalli, Prithvijit Chattopadhyay, Mark Ibrahim, Adrien Bardes, Judy Hoffman, Rama Chellappa, Andrew Gordon Wilson, Tom Goldstein

Системы компьютерного зрения на основе нейронных сетей обычно строятся на базе так называемого "бэкбона" — предварительно обученного или случайно инициализированного экстрактора признаков. Несколько лет назад стандартным выбором была сверточная нейронная сеть, обученная на наборе данных ImageNet. Однако в последнее время появилось множество бэкбонов, предварительно обученных с использованием различных алгоритмов и наборов данных. Хотя это разнообразие привело к повышению производительности для ряда систем, практикам сложно принимать обоснованные решения о том, какой бэкбон выбрать. Проект "Battle of the Backbones" (BoB) упрощает этот выбор, проводя сравнительный анализ разнообразных предварительно обученных моделей, включая модели, объединяющие зрение и язык, модели, обученные с использованием самообучения, а также бэкбон Stable Diffusion, на широком спектре задач компьютерного зрения — от классификации до обнаружения объектов, обобщения на незнакомые данные и других. Кроме того, BoB выявляет перспективные направления для исследовательского сообщества, продвигая компьютерное зрение за счет анализа сильных и слабых сторон существующих подходов, проведенного на основе более чем 1500 экспериментов. Хотя трансформеры для зрения (ViT) и самообучение (SSL) становятся все более популярными, мы обнаружили, что сверточные нейронные сети, предварительно обученные с учителем на больших наборах данных, по-прежнему демонстрируют наилучшие результаты на большинстве задач среди рассматриваемых моделей. Более того, в прямых сравнениях на одинаковых архитектурах и наборах данных схожего размера бэкбоны, обученные с использованием SSL, показывают высокую конкурентоспособность, что указывает на необходимость использования более продвинутых архитектур и больших наборов данных для предварительного обучения в будущих работах. Мы публикуем сырые результаты наших экспериментов вместе с кодом, который позволяет исследователям проверить свои бэкбоны в аналогичных условиях: https://github.com/hsouri/Battle-of-the-Backbones.

Раскрытие потенциала предварительно обученных языковых моделей для оффлайн-обучения с подкреплением
Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning

Oct 31

ByRuizhe Shi, Yuyao Liu, Yanjie Ze, Simon S. Du, Huazhe Xu

Оффлайн-обучение с подкреплением (RL) ставит своей целью нахождение близкой к оптимальной политики с использованием заранее собранных наборов данных. В реальных сценариях сбор данных может быть дорогостоящим и рискованным; поэтому оффлайн RL становится особенно сложным, когда данные в целевой области ограничены. Учитывая последние достижения в области больших языковых моделей (LLM) и их способность к обучению с малым количеством примеров, в данной статье представлена система Language Models for Motion Control (LaMo) — общий фреймворк, основанный на Decision Transformers, для эффективного использования предварительно обученных языковых моделей (LM) в оффлайн RL. Наш фреймворк выделяет четыре ключевых компонента: (1) инициализация Decision Transformers с помощью последовательно предварительно обученных LM, (2) использование метода тонкой настройки LoRA, в отличие от полной тонкой настройки, для эффективного объединения предварительно полученных знаний из LM и знаний в целевой области, (3) применение нелинейного преобразования MLP вместо линейных проекций для генерации эмбеддингов и (4) интеграция вспомогательной функции потерь для предсказания языка в процессе тонкой настройки для стабилизации LM и сохранения их исходных способностей в работе с языком. Экспериментальные результаты показывают, что LaMo достигает наилучших результатов в задачах с разреженным вознаграждением и сокращает разрыв между методами оффлайн RL, основанными на оценке, и Decision Transformers в задачах с плотным вознаграждением. В частности, наш метод демонстрирует превосходную производительность в сценариях с ограниченным количеством данных. Сайт проекта доступен по адресу: https://lamo2023.github.io.

Проходит ли GPT-4 тест Тьюринга?
Does GPT-4 Pass the Turing Test?

Oct 31

ByCameron Jones, Benjamin Bergen

Мы провели оценку GPT-4 в публичном онлайн-тесте Тьюринга. Лучший вариант запроса GPT-4 прошел тест в 41% случаев, превзойдя базовые показатели ELIZA (27%) и GPT-3.5 (14%), но не достигнув уровня случайного угадывания и базового показателя, установленного участниками-людьми (63%). Решения участников основывались преимущественно на лингвистическом стиле (35%) и социально-эмоциональных характеристиках (27%), что подтверждает идею о том, что интеллекта недостаточно для прохождения теста Тьюринга. Демографические данные участников, включая уровень образования и знакомство с языковыми моделями, не предсказывали частоту обнаружения, что указывает на то, что даже те, кто глубоко понимает системы и часто взаимодействует с ними, могут быть подвержены обману. Несмотря на известные ограничения теста Тьюринга как оценки интеллекта, мы утверждаем, что он остается актуальным для оценки естественной коммуникации и способности к обману. ИИ-модели, способные маскироваться под людей, могут иметь широкие социальные последствия, и мы анализируем эффективность различных стратегий и критериев для оценки человекообразности.

Тонкая настройка LoRA эффективно отменяет обучение безопасности в модели Llama 2-Chat 70B.
LoRA Fine-tuning Efficiently Undoes Safety Training in Llama 2-Chat 70B

Oct 31

BySimon Lermen, Charlie Rogers-Smith, Jeffrey Ladish

Разработчики ИИ часто применяют процедуры обеспечения безопасности, чтобы предотвратить неправомерное использование своих систем. Например, перед выпуском Llama 2-Chat, набора крупных языковых моделей, дообученных на инструкциях, компания Meta вложила значительные ресурсы в обучение безопасности, включая масштабное тестирование методом "красной команды" и обучение с подкреплением на основе обратной связи от людей. Однако остается неясным, насколько эффективно обучение безопасности защищает от злоупотребления моделями, если злоумышленники имеют доступ к их весам. Мы исследуем устойчивость обучения безопасности в языковых моделях, проводя скрытое дообучение на общедоступных весах Llama 2-Chat. В качестве эффективного метода дообучения мы используем низкоранговую адаптацию (LoRA). При бюджете менее $200 на модель и использовании всего одного GPU нам удалось отменить обучение безопасности для моделей Llama 2-Chat размером 7B, 13B и 70B. В частности, наш метод дообучения значительно снижает частоту, с которой модель отказывается выполнять вредоносные инструкции. Мы добились уровня отказов ниже 1% для нашей модели Llama 2-Chat 70B на двух тестовых наборах. Наш метод дообучения сохраняет общую производительность, что мы подтвердили, сравнив наши дообученные модели с Llama 2-Chat на двух тестовых наборах. Кроме того, мы приводим примеры вредоносных выводов, созданных нашими моделями. Хотя степень рисков, связанных с текущими моделями, остается неопределенной, вероятно, что будущие модели будут обладать значительно более опасными возможностями, включая способность взламывать критически важную инфраструктуру, создавать опасные биологическое оружие или автономно воспроизводиться и адаптироваться к новым условиям. Мы показываем, что скрытое дообучение является практичным и эффективным, и, следовательно, утверждаем, что оценка рисков, связанных с дообучением, должна быть ключевой частью анализа рисков при публикации весов моделей.

За пределами U: Ускорение и облегчение диффузионных моделей
Beyond U: Making Diffusion Models Faster & Lighter

Oct 31

BySergio Calvo-Ordonez, Jiahao Huang, Lipei Zhang, Guang Yang, Carola-Bibiane Schonlieb, Angelica I Aviles-Rivero

Диффузионные модели представляют собой семейство генеративных моделей, демонстрирующих рекордные результаты в таких задачах, как синтез изображений, генерация видео и проектирование молекул. Несмотря на их возможности, их эффективность, особенно в процессе обратного удаления шума, остается проблемой из-за медленной скорости сходимости и высоких вычислительных затрат. В данной работе мы представляем подход, который использует непрерывные динамические системы для создания новой сети удаления шума для диффузионных моделей, которая является более параметрически эффективной, демонстрирует более быструю сходимость и повышенную устойчивость к шуму. Экспериментируя с вероятностными диффузионными моделями удаления шума, наш фреймворк работает примерно с четвертью параметров и 30% операций с плавающей запятой (FLOPs) по сравнению со стандартными U-Net в моделях Denoising Diffusion Probabilistic Models (DDPMs). Кроме того, наша модель до 70% быстрее в процессе вывода, чем базовые модели, при измерении в равных условиях, при этом сходится к решениям более высокого качества.

Что содержится в моих больших данных?
What's In My Big Data?

Oct 31

ByYanai Elazar, Akshita Bhagia, Ian Magnusson, Abhilasha Ravichander, Dustin Schwenk, Alane Suhr, Pete Walsh, Dirk Groeneveld, Luca Soldaini, Sameer Singh, Hanna Hajishirzi, Noah A. Smith, Jesse Dodge

Крупные текстовые корпуса являются основой языковых моделей. Однако наше понимание содержания этих корпусов, включая общую статистику, качество, социальные аспекты и наличие данных для оценки (загрязнение), остается ограниченным. В данной работе мы представляем платформу What's In My Big Data? (WIMBD) и набор из шестнадцати анализов, которые позволяют раскрывать и сравнивать содержимое крупных текстовых корпусов. WIMBD основывается на двух базовых возможностях — подсчете и поиске — в масштабе, что позволяет анализировать более 35 терабайт данных на стандартном вычислительном узле. Мы применяем WIMBD к десяти различным корпусам, используемым для обучения популярных языковых моделей, включая C4, The Pile и RedPajama. Наш анализ выявляет несколько удивительных и ранее не документированных фактов об этих корпусах, включая высокую распространенность дубликатов, синтетического и низкокачественного контента, личной идентифицируемой информации, токсичного языка и загрязнения тестовых данных. Например, мы обнаруживаем, что около 50% документов в RedPajama и LAION-2B-en являются дубликатами. Кроме того, несколько наборов данных, используемых для тестирования моделей, обученных на таких корпусах, загрязнены в отношении важных тестов, включая Winograd Schema Challenge и части GLUE и SuperGLUE. Мы открываем исходный код и артефакты WIMBD, чтобы предоставить стандартный набор оценок для новых текстовых корпусов и стимулировать больше анализов и прозрачности вокруг них: github.com/allenai/wimbd.

Влияние глубины и ширины на обобщающую способность трансформаторных языковых моделей
The Impact of Depth and Width on Transformer Language Model Generalization

Oct 30

ByJackson Petty, Sjoerd van Steenkiste, Ishita Dasgupta, Fei Sha, Dan Garrette, Tal Linzen

Для обработки новых предложений языковые модели (LMs) должны обобщать композиционно — комбинировать знакомые элементы новыми способами. Какие аспекты структуры модели способствуют композиционному обобщению? Сосредоточившись на трансформерах, мы проверяем гипотезу, мотивированную недавними теоретическими и эмпирическими исследованиями, что трансформеры обобщают более композиционно, когда они глубже (имеют больше слоев). Поскольку простое добавление слоев увеличивает общее количество параметров, смешивая глубину и размер, мы создаем три класса моделей, которые компенсируют глубину за счет ширины, сохраняя при этом постоянное общее количество параметров (41 млн, 134 млн и 374 млн параметров). Мы предварительно обучаем все модели как LMs и дообучаем их на задачах, проверяющих композиционное обобщение. Мы сообщаем три основных вывода: (1) после дообучения более глубокие модели обобщают лучше вне распределения, чем более мелкие, но относительная польза от дополнительных слоев быстро уменьшается; (2) внутри каждого семейства более глубокие модели демонстрируют лучшую производительность в языковом моделировании, но отдача также уменьшается; (3) преимущества глубины для композиционного обобщения нельзя объяснить исключительно лучшей производительностью в языковом моделировании или на данных из распределения.

SEINE: Модель диффузии от коротких к длинным видео для генеративных переходов и предсказания
SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction

Oct 31

ByXinyuan Chen, Yaohui Wang, Lingjun Zhang, Shaobin Zhuang, Xin Ma, Jiashuo Yu, Yali Wang, Dahua Lin, Yu Qiao, Ziwei Liu

В последнее время генерация видео достигла значительного прогресса, демонстрируя реалистичные результаты. Тем не менее, существующие видео, созданные с помощью ИИ, обычно представляют собой очень короткие фрагменты ("уровень кадра"), изображающие одну сцену. Для создания связного длинного видео ("уровень истории") желательно иметь креативные переходы и эффекты предсказания между различными фрагментами. В данной статье представлена модель диффузии для перехода от короткого к длинному видео, SEINE, которая фокусируется на генерации переходов и предсказаний. Цель заключается в создании высококачественных длинных видео с плавными и креативными переходами между сценами и различной продолжительностью фрагментов. В частности, мы предлагаем модель диффузии видео с случайным маскированием для автоматической генерации переходов на основе текстовых описаний. Предоставляя изображения различных сцен в качестве входных данных, в сочетании с текстовым управлением, наша модель генерирует переходные видео, обеспечивая связность и визуальное качество. Кроме того, модель может быть легко расширена для различных задач, таких как анимация от изображения к видео и авторегрессивное предсказание видео. Для всесторонней оценки этой новой генеративной задачи мы предлагаем три критерия оценки для плавных и креативных переходов: временная согласованность, семантическое сходство и семантическое соответствие видео и текста. Многочисленные эксперименты подтверждают эффективность нашего подхода по сравнению с существующими методами для генерации переходов и предсказаний, что позволяет создавать длинные видео на уровне истории. Страница проекта: https://vchitect.github.io/SEINE-project/.

ChipNeMo: Специализированные языковые модели для проектирования микросхем
ChipNeMo: Domain-Adapted LLMs for Chip Design

Oct 31

ByMingjie Liu, Teo Ene, Robert Kirby, Chris Cheng, Nathaniel Pinckney, Rongjian Liang, Jonah Alben, Himyanshu Anand, Sanmitra Banerjee, Ismet Bayraktaroglu, Bonita Bhaskaran, Bryan Catanzaro, Arjun Chaudhuri, Sharon Clay, Bill Dally, Laura Dang, Parikshit Deshpande, Siddhanth Dhodhi, Sameer Halepete, Eric Hill, Jiashang Hu, Sumit Jain, Brucek Khailany, Kishor Kunal, Xiaowei Li, Hao Liu, Stuart Oberman, Sujeet Omar, Sreedhar Pratty, Ambar Sarkar, Zhengjiang Shao, Hanfei Sun, Pratik P Suthar, Varun Tej, Kaizhe Xu, Haoxing Ren

ChipNeMo ставит своей целью исследование применения больших языковых моделей (LLM) в промышленном проектировании микросхем. Вместо прямого использования готовых коммерческих или открытых LLM мы применяем следующие методы адаптации к предметной области: специализированные токенизаторы, продолженное предобучение с адаптацией к домену, тонкую настройку с учителем (SFT) с использованием инструкций, специфичных для домена, и модели поиска, адаптированные к предметной области. Мы оцениваем эти методы на трех выбранных приложениях LLM для проектирования микросхем: чат-бот инженерного помощника, генерация скриптов для САПР, а также суммирование и анализ ошибок. Наши результаты показывают, что эти методы адаптации к домену позволяют значительно улучшить производительность LLM по сравнению с базовыми моделями общего назначения во всех трех оцениваемых приложениях, что позволяет сократить размер модели до 5 раз при сохранении или улучшении производительности на ряде задач проектирования. Наши выводы также указывают на то, что между текущими результатами и идеальными показателями все еще остается пространство для улучшения. Мы считаем, что дальнейшее исследование подходов к адаптации LLM к предметной области поможет сократить этот разрыв в будущем.

Использование игр на угадывание слов для оценки интеллекта крупных языковых моделей
Leveraging Word Guessing Games to Assess the Intelligence of Large Language Models

Oct 31

ByTian Liang, Zhiwei He, Jen-tes Huang, Wenxuan Wang, Wenxiang Jiao, Rui Wang, Yujiu Yang, Zhaopeng Tu, Shuming Shi, Xing Wang

Автоматическая оценка интеллекта агентов на основе больших языковых моделей (LLM) имеет критически важное значение для разработки продвинутых LLM-агентов. Хотя значительные усилия были направлены на создание аннотированных человеком наборов данных для оценки, таких как AlpacaEval, существующие методы являются дорогостоящими, трудоемкими и недостаточно адаптивными. В данной статье, вдохновившись популярной языковой игрой «Кто шпион», мы предлагаем использовать игру в угадывание слов для оценки интеллектуальных способностей LLM. Задается слово, и LLM требуется описать его и определить его идентичность (шпион или нет) на основе своих и чужих описаний. В идеале продвинутый агент должен обладать способностью точно описывать заданное слово, используя агрессивное описание, одновременно максимизируя путаницу в консервативном описании, что усиливает его участие в игре. Для этого мы сначала разрабатываем DEEP для оценки способностей LLM к выражению и маскировке. DEEP требует от LLM описать слово в агрессивном и консервативном режимах. Затем мы представляем SpyGame — интерактивную многоагентную платформу, предназначенную для оценки интеллекта LLM через участие в соревновательной настольной игре на основе языка. Включая взаимодействие нескольких агентов, SpyGame требует от целевой LLM обладать лингвистическими навыками и стратегическим мышлением, обеспечивая более комплексную оценку человеко-подобных когнитивных способностей и адаптивности LLM в сложных коммуникативных ситуациях. Предложенная система оценки очень проста в реализации. Мы собрали слова из различных источников, областей и языков и использовали предложенную систему оценки для проведения экспериментов. Многочисленные эксперименты демонстрируют, что предложенные DEEP и SpyGame эффективно оценивают возможности различных LLM, выявляя их способность адаптироваться к новым ситуациям и участвовать в стратегической коммуникации.

Битва архитектур: Масштабное сравнение предобученных моделей в задачах компьютерного зрения
Battle of the Backbones: A Large-Scale Comparison of Pretrained Models across Computer Vision Tasks

Oct 30