Ежедневно отобранные исследовательские статьи по ИИ с переводами
Крупные языковые модели (LLM) недавно продемонстрировали впечатляющие способности к рассуждению при решении математических задач. Для дальнейшего улучшения этой способности в данной работе предлагается метод Learning from Mistakes (LeMa), аналогичный процессу обучения человека. Рассмотрим студента, который не смог решить математическую задачу: он учится на своих ошибках, анализируя, что пошло не так и как это исправить. Подражая этому процессу обучения на основе ошибок, LeMa дообучает LLM на парах данных "ошибка-исправление", сгенерированных GPT-4. В частности, мы сначала собираем некорректные цепочки рассуждений от различных LLM, а затем используем GPT-4 в качестве "корректора" для (1) идентификации шага с ошибкой, (2) объяснения причины ошибки и (3) исправления ошибки с генерацией итогового ответа. Экспериментальные результаты демонстрируют эффективность LeMa: на пяти базовых LLM и двух задачах математического рассуждения LeMa стабильно улучшает производительность по сравнению с дообучением только на данных CoT. Примечательно, что LeMa также может улучшать специализированные LLM, такие как WizardMath и MetaMath, достигая точности 85,4% pass@1 на GSM8K и 27,1% на MATH. Это превосходит SOTA-результаты, достигнутые неисполняемыми открытыми моделями на этих сложных задачах. Наш код, данные и модели будут общедоступны по адресу https://github.com/microsoft/CodeT.
Крупные мультимодальные модели демонстрируют выдающуюся универсальную способность выполнять разнообразные мультимодальные задачи в режиме zero-shot. Крупномасштабные пары изображение-текст, собранные из интернета, вносят фундаментальный вклад в этот успех, но страдают от чрезмерного уровня шума. Недавние исследования используют альтернативные описания, синтезированные моделями генерации подписей, и достигли заметных результатов на эталонных тестах. Однако наши эксперименты выявили значительные проблемы с масштабируемостью и потерей знаний о мире в моделях, обученных на синтетических подписях, которые оставались в значительной степени незамеченными из-за их первоначального успеха на тестах. При более детальном анализе мы определили корневую причину как чрезмерно упрощённую структуру языка и отсутствие деталей знаний в существующих синтетических подписях. Для предоставления более качественных и масштабируемых данных для мультимодального предобучения мы предлагаем CapsFusion — продвинутую структуру, которая использует крупные языковые модели для консолидации и уточнения информации как из веб-пар изображение-текст, так и из синтетических подписей. Многочисленные эксперименты показывают, что подписи CapsFusion демонстрируют всестороннее превосходство над существующими подписями с точки зрения производительности модели (например, улучшение на 18,8 и 18,3 балла по метрике CIDEr на COCO и NoCaps), эффективности использования данных (требуя в 11–16 раз меньше вычислений, чем базовые методы), глубины знаний о мире и масштабируемости. Эти преимущества в эффективности, производительности и масштабируемости делают CapsFusion перспективным кандидатом для будущего масштабирования обучения крупных мультимодальных моделей.
Системы компьютерного зрения на основе нейронных сетей обычно строятся на базе так называемого "бэкбона" — предварительно обученного или случайно инициализированного экстрактора признаков. Несколько лет назад стандартным выбором была сверточная нейронная сеть, обученная на наборе данных ImageNet. Однако в последнее время появилось множество бэкбонов, предварительно обученных с использованием различных алгоритмов и наборов данных. Хотя это разнообразие привело к повышению производительности для ряда систем, практикам сложно принимать обоснованные решения о том, какой бэкбон выбрать. Проект "Battle of the Backbones" (BoB) упрощает этот выбор, проводя сравнительный анализ разнообразных предварительно обученных моделей, включая модели, объединяющие зрение и язык, модели, обученные с использованием самообучения, а также бэкбон Stable Diffusion, на широком спектре задач компьютерного зрения — от классификации до обнаружения объектов, обобщения на незнакомые данные и других. Кроме того, BoB выявляет перспективные направления для исследовательского сообщества, продвигая компьютерное зрение за счет анализа сильных и слабых сторон существующих подходов, проведенного на основе более чем 1500 экспериментов. Хотя трансформеры для зрения (ViT) и самообучение (SSL) становятся все более популярными, мы обнаружили, что сверточные нейронные сети, предварительно обученные с учителем на больших наборах данных, по-прежнему демонстрируют наилучшие результаты на большинстве задач среди рассматриваемых моделей. Более того, в прямых сравнениях на одинаковых архитектурах и наборах данных схожего размера бэкбоны, обученные с использованием SSL, показывают высокую конкурентоспособность, что указывает на необходимость использования более продвинутых архитектур и больших наборов данных для предварительного обучения в будущих работах. Мы публикуем сырые результаты наших экспериментов вместе с кодом, который позволяет исследователям проверить свои бэкбоны в аналогичных условиях: https://github.com/hsouri/Battle-of-the-Backbones.
Оффлайн-обучение с подкреплением (RL) ставит своей целью нахождение близкой к оптимальной политики с использованием заранее собранных наборов данных. В реальных сценариях сбор данных может быть дорогостоящим и рискованным; поэтому оффлайн RL становится особенно сложным, когда данные в целевой области ограничены. Учитывая последние достижения в области больших языковых моделей (LLM) и их способность к обучению с малым количеством примеров, в данной статье представлена система Language Models for Motion Control (LaMo) — общий фреймворк, основанный на Decision Transformers, для эффективного использования предварительно обученных языковых моделей (LM) в оффлайн RL. Наш фреймворк выделяет четыре ключевых компонента: (1) инициализация Decision Transformers с помощью последовательно предварительно обученных LM, (2) использование метода тонкой настройки LoRA, в отличие от полной тонкой настройки, для эффективного объединения предварительно полученных знаний из LM и знаний в целевой области, (3) применение нелинейного преобразования MLP вместо линейных проекций для генерации эмбеддингов и (4) интеграция вспомогательной функции потерь для предсказания языка в процессе тонкой настройки для стабилизации LM и сохранения их исходных способностей в работе с языком. Экспериментальные результаты показывают, что LaMo достигает наилучших результатов в задачах с разреженным вознаграждением и сокращает разрыв между методами оффлайн RL, основанными на оценке, и Decision Transformers в задачах с плотным вознаграждением. В частности, наш метод демонстрирует превосходную производительность в сценариях с ограниченным количеством данных. Сайт проекта доступен по адресу: https://lamo2023.github.io.
Мы провели оценку GPT-4 в публичном онлайн-тесте Тьюринга. Лучший вариант запроса GPT-4 прошел тест в 41% случаев, превзойдя базовые показатели ELIZA (27%) и GPT-3.5 (14%), но не достигнув уровня случайного угадывания и базового показателя, установленного участниками-людьми (63%). Решения участников основывались преимущественно на лингвистическом стиле (35%) и социально-эмоциональных характеристиках (27%), что подтверждает идею о том, что интеллекта недостаточно для прохождения теста Тьюринга. Демографические данные участников, включая уровень образования и знакомство с языковыми моделями, не предсказывали частоту обнаружения, что указывает на то, что даже те, кто глубоко понимает системы и часто взаимодействует с ними, могут быть подвержены обману. Несмотря на известные ограничения теста Тьюринга как оценки интеллекта, мы утверждаем, что он остается актуальным для оценки естественной коммуникации и способности к обману. ИИ-модели, способные маскироваться под людей, могут иметь широкие социальные последствия, и мы анализируем эффективность различных стратегий и критериев для оценки человекообразности.
Разработчики ИИ часто применяют процедуры обеспечения безопасности, чтобы предотвратить неправомерное использование своих систем. Например, перед выпуском Llama 2-Chat, набора крупных языковых моделей, дообученных на инструкциях, компания Meta вложила значительные ресурсы в обучение безопасности, включая масштабное тестирование методом "красной команды" и обучение с подкреплением на основе обратной связи от людей. Однако остается неясным, насколько эффективно обучение безопасности защищает от злоупотребления моделями, если злоумышленники имеют доступ к их весам. Мы исследуем устойчивость обучения безопасности в языковых моделях, проводя скрытое дообучение на общедоступных весах Llama 2-Chat. В качестве эффективного метода дообучения мы используем низкоранговую адаптацию (LoRA). При бюджете менее $200 на модель и использовании всего одного GPU нам удалось отменить обучение безопасности для моделей Llama 2-Chat размером 7B, 13B и 70B. В частности, наш метод дообучения значительно снижает частоту, с которой модель отказывается выполнять вредоносные инструкции. Мы добились уровня отказов ниже 1% для нашей модели Llama 2-Chat 70B на двух тестовых наборах. Наш метод дообучения сохраняет общую производительность, что мы подтвердили, сравнив наши дообученные модели с Llama 2-Chat на двух тестовых наборах. Кроме того, мы приводим примеры вредоносных выводов, созданных нашими моделями. Хотя степень рисков, связанных с текущими моделями, остается неопределенной, вероятно, что будущие модели будут обладать значительно более опасными возможностями, включая способность взламывать критически важную инфраструктуру, создавать опасные биологическое оружие или автономно воспроизводиться и адаптироваться к новым условиям. Мы показываем, что скрытое дообучение является практичным и эффективным, и, следовательно, утверждаем, что оценка рисков, связанных с дообучением, должна быть ключевой частью анализа рисков при публикации весов моделей.
Диффузионные модели представляют собой семейство генеративных моделей, демонстрирующих рекордные результаты в таких задачах, как синтез изображений, генерация видео и проектирование молекул. Несмотря на их возможности, их эффективность, особенно в процессе обратного удаления шума, остается проблемой из-за медленной скорости сходимости и высоких вычислительных затрат. В данной работе мы представляем подход, который использует непрерывные динамические системы для создания новой сети удаления шума для диффузионных моделей, которая является более параметрически эффективной, демонстрирует более быструю сходимость и повышенную устойчивость к шуму. Экспериментируя с вероятностными диффузионными моделями удаления шума, наш фреймворк работает примерно с четвертью параметров и 30% операций с плавающей запятой (FLOPs) по сравнению со стандартными U-Net в моделях Denoising Diffusion Probabilistic Models (DDPMs). Кроме того, наша модель до 70% быстрее в процессе вывода, чем базовые модели, при измерении в равных условиях, при этом сходится к решениям более высокого качества.
Крупные текстовые корпуса являются основой языковых моделей. Однако наше понимание содержания этих корпусов, включая общую статистику, качество, социальные аспекты и наличие данных для оценки (загрязнение), остается ограниченным. В данной работе мы представляем платформу What's In My Big Data? (WIMBD) и набор из шестнадцати анализов, которые позволяют раскрывать и сравнивать содержимое крупных текстовых корпусов. WIMBD основывается на двух базовых возможностях — подсчете и поиске — в масштабе, что позволяет анализировать более 35 терабайт данных на стандартном вычислительном узле. Мы применяем WIMBD к десяти различным корпусам, используемым для обучения популярных языковых моделей, включая C4, The Pile и RedPajama. Наш анализ выявляет несколько удивительных и ранее не документированных фактов об этих корпусах, включая высокую распространенность дубликатов, синтетического и низкокачественного контента, личной идентифицируемой информации, токсичного языка и загрязнения тестовых данных. Например, мы обнаруживаем, что около 50% документов в RedPajama и LAION-2B-en являются дубликатами. Кроме того, несколько наборов данных, используемых для тестирования моделей, обученных на таких корпусах, загрязнены в отношении важных тестов, включая Winograd Schema Challenge и части GLUE и SuperGLUE. Мы открываем исходный код и артефакты WIMBD, чтобы предоставить стандартный набор оценок для новых текстовых корпусов и стимулировать больше анализов и прозрачности вокруг них: github.com/allenai/wimbd.
В последнее время генерация видео достигла значительного прогресса, демонстрируя реалистичные результаты. Тем не менее, существующие видео, созданные с помощью ИИ, обычно представляют собой очень короткие фрагменты ("уровень кадра"), изображающие одну сцену. Для создания связного длинного видео ("уровень истории") желательно иметь креативные переходы и эффекты предсказания между различными фрагментами. В данной статье представлена модель диффузии для перехода от короткого к длинному видео, SEINE, которая фокусируется на генерации переходов и предсказаний. Цель заключается в создании высококачественных длинных видео с плавными и креативными переходами между сценами и различной продолжительностью фрагментов. В частности, мы предлагаем модель диффузии видео с случайным маскированием для автоматической генерации переходов на основе текстовых описаний. Предоставляя изображения различных сцен в качестве входных данных, в сочетании с текстовым управлением, наша модель генерирует переходные видео, обеспечивая связность и визуальное качество. Кроме того, модель может быть легко расширена для различных задач, таких как анимация от изображения к видео и авторегрессивное предсказание видео. Для всесторонней оценки этой новой генеративной задачи мы предлагаем три критерия оценки для плавных и креативных переходов: временная согласованность, семантическое сходство и семантическое соответствие видео и текста. Многочисленные эксперименты подтверждают эффективность нашего подхода по сравнению с существующими методами для генерации переходов и предсказаний, что позволяет создавать длинные видео на уровне истории. Страница проекта: https://vchitect.github.io/SEINE-project/.
Для обработки новых предложений языковые модели (LMs) должны обобщать композиционно — комбинировать знакомые элементы новыми способами. Какие аспекты структуры модели способствуют композиционному обобщению? Сосредоточившись на трансформерах, мы проверяем гипотезу, мотивированную недавними теоретическими и эмпирическими исследованиями, что трансформеры обобщают более композиционно, когда они глубже (имеют больше слоев). Поскольку простое добавление слоев увеличивает общее количество параметров, смешивая глубину и размер, мы создаем три класса моделей, которые компенсируют глубину за счет ширины, сохраняя при этом постоянное общее количество параметров (41 млн, 134 млн и 374 млн параметров). Мы предварительно обучаем все модели как LMs и дообучаем их на задачах, проверяющих композиционное обобщение. Мы сообщаем три основных вывода: (1) после дообучения более глубокие модели обобщают лучше вне распределения, чем более мелкие, но относительная польза от дополнительных слоев быстро уменьшается; (2) внутри каждого семейства более глубокие модели демонстрируют лучшую производительность в языковом моделировании, но отдача также уменьшается; (3) преимущества глубины для композиционного обобщения нельзя объяснить исключительно лучшей производительностью в языковом моделировании или на данных из распределения.
ChipNeMo ставит своей целью исследование применения больших языковых моделей (LLM) в промышленном проектировании микросхем. Вместо прямого использования готовых коммерческих или открытых LLM мы применяем следующие методы адаптации к предметной области: специализированные токенизаторы, продолженное предобучение с адаптацией к домену, тонкую настройку с учителем (SFT) с использованием инструкций, специфичных для домена, и модели поиска, адаптированные к предметной области. Мы оцениваем эти методы на трех выбранных приложениях LLM для проектирования микросхем: чат-бот инженерного помощника, генерация скриптов для САПР, а также суммирование и анализ ошибок. Наши результаты показывают, что эти методы адаптации к домену позволяют значительно улучшить производительность LLM по сравнению с базовыми моделями общего назначения во всех трех оцениваемых приложениях, что позволяет сократить размер модели до 5 раз при сохранении или улучшении производительности на ряде задач проектирования. Наши выводы также указывают на то, что между текущими результатами и идеальными показателями все еще остается пространство для улучшения. Мы считаем, что дальнейшее исследование подходов к адаптации LLM к предметной области поможет сократить этот разрыв в будущем.
Автоматическая оценка интеллекта агентов на основе больших языковых моделей (LLM) имеет критически важное значение для разработки продвинутых LLM-агентов. Хотя значительные усилия были направлены на создание аннотированных человеком наборов данных для оценки, таких как AlpacaEval, существующие методы являются дорогостоящими, трудоемкими и недостаточно адаптивными. В данной статье, вдохновившись популярной языковой игрой «Кто шпион», мы предлагаем использовать игру в угадывание слов для оценки интеллектуальных способностей LLM. Задается слово, и LLM требуется описать его и определить его идентичность (шпион или нет) на основе своих и чужих описаний. В идеале продвинутый агент должен обладать способностью точно описывать заданное слово, используя агрессивное описание, одновременно максимизируя путаницу в консервативном описании, что усиливает его участие в игре. Для этого мы сначала разрабатываем DEEP для оценки способностей LLM к выражению и маскировке. DEEP требует от LLM описать слово в агрессивном и консервативном режимах. Затем мы представляем SpyGame — интерактивную многоагентную платформу, предназначенную для оценки интеллекта LLM через участие в соревновательной настольной игре на основе языка. Включая взаимодействие нескольких агентов, SpyGame требует от целевой LLM обладать лингвистическими навыками и стратегическим мышлением, обеспечивая более комплексную оценку человеко-подобных когнитивных способностей и адаптивности LLM в сложных коммуникативных ситуациях. Предложенная система оценки очень проста в реализации. Мы собрали слова из различных источников, областей и языков и использовали предложенную систему оценки для проведения экспериментов. Многочисленные эксперименты демонстрируют, что предложенные DEEP и SpyGame эффективно оценивают возможности различных LLM, выявляя их способность адаптироваться к новым ситуациям и участвовать в стратегической коммуникации.