Ежедневно отобранные исследовательские статьи по ИИ с переводами
В данной работе мы разрабатываем и выпускаем Llama 2 — набор предварительно обученных и дообученных больших языковых моделей (LLM), масштаб которых варьируется от 7 до 70 миллиардов параметров. Наши дообученные модели, названные Llama 2-Chat, оптимизированы для использования в диалоговых сценариях. Наши модели превосходят открытые чат-модели на большинстве тестируемых бенчмарков, и, основываясь на наших оценках полезности и безопасности, проведённых людьми, могут служить подходящей заменой для закрытых моделей. Мы предоставляем подробное описание нашего подхода к дообучению и улучшению безопасности Llama 2-Chat, чтобы сообщество могло развивать нашу работу и способствовать ответственному развитию LLM.
GPT-3.5 и GPT-4 являются двумя наиболее широко используемыми сервисами больших языковых моделей (LLM). Однако то, когда и как эти модели обновляются со временем, остается неясным. В данном исследовании мы оцениваем версии GPT-3.5 и GPT-4 за март и июнь 2023 года на четырех различных задачах: 1) решение математических задач, 2) ответы на чувствительные/опасные вопросы, 3) генерация кода и 4) визуальное рассуждение. Мы обнаружили, что производительность и поведение как GPT-3.5, так и GPT-4 могут значительно варьироваться со временем. Например, GPT-4 (март 2023 года) был очень хорош в определении простых чисел (точность 97,6%), но GPT-4 (июнь 2023 года) показал очень низкие результаты на тех же вопросах (точность 2,4%). Интересно, что GPT-3.5 (июнь 2023 года) справился с этой задачей значительно лучше, чем GPT-3.5 (март 2023 года). GPT-4 в июне был менее склонен отвечать на чувствительные вопросы, чем в марте, а у обоих GPT-4 и GPT-3.5 в июне было больше ошибок форматирования при генерации кода, чем в марте. В целом, наши результаты показывают, что поведение одного и того же сервиса LLM может существенно измениться за относительно короткий промежуток времени, что подчеркивает необходимость постоянного мониторинга качества LLM.
Анализ схем является перспективным методом для понимания внутренних механизмов языковых моделей. Однако существующие исследования проводятся на небольших моделях, далеких от современных достижений. Чтобы устранить этот пробел, мы представляем кейс-стади анализа схем в модели Chinchilla с 70 миллиардами параметров, целью которого является проверка масштабируемости данного подхода. В частности, мы исследуем задачи с множественным выбором и изучаем способность Chinchilla определять правильный метку ответа при наличии знания правильного текста ответа. Мы обнаруживаем, что существующие методы, такие как анализ вклада в логиты, визуализация паттернов внимания и модификация активаций, естественным образом масштабируются до Chinchilla, что позволяет нам идентифицировать и классифицировать небольшой набор «выходных узлов» (голов внимания и MLP). Дополнительно мы исследуем категорию голов внимания, связанных с «правильной буквой», чтобы понять семантику их признаков, с неоднозначными результатами. Для стандартных задач с множественным выбором мы значительно сжимаем подпространства запросов, ключей и значений головы без потери производительности при работе с метками ответов, и показываем, что подпространства запросов и ключей в некоторой степени представляют признак «N-й элемент в перечислении». Однако, когда мы пытаемся использовать это объяснение для понимания поведения голов на более общем распределении, включающем рандомизированные метки ответов, обнаруживаем, что оно является лишь частичным, что указывает на необходимость дальнейшего изучения работы голов, связанных с «правильной буквой», в задачах с множественным выбором.
Контрастные модели, работающие с изображениями и текстом, такие как CLIP, полезны для различных прикладных задач, включая классификацию с нулевым обучением, поиск по изображениям и тексту, а также трансферное обучение. Однако эти модели, обученные контрастным методом, часто не справляются с композиционными визуально-лингвистическими задачами, такими как Winoground, показывая результаты на уровне случайного угадывания. В нашей работе мы решаем эту проблему и предлагаем эффективный по выборке и легковесный метод под названием SDS-CLIP, который улучшает способности CLIP к композиционному визуально-лингвистическому рассуждению. Основная идея нашего метода заключается в использовании дифференцируемых параметризаций изображений для тонкой настройки CLIP с целью дистилляции от крупных генеративных моделей, преобразующих текст в изображения, таких как Stable-Diffusion, которые относительно хорошо справляются с визуально-лингвистическими задачами. На сложном бенчмарке композиционного рассуждения Winoground наш метод улучшает абсолютную визуально-лингвистическую производительность различных моделей CLIP до 7%, а на наборе данных ARO — до 3%. В качестве побочного эффекта внедрения визуально-лингвистического рассуждения в CLIP мы также обнаруживаем, что производительность с нулевым обучением незначительно улучшается на различных прикладных наборах данных. Наш метод подтверждает, что тщательно разработанные цели дистилляции от генеративных моделей могут быть использованы для расширения существующих контрастных моделей, работающих с изображениями и текстом, с улучшенными возможностями визуально-лингвистического рассуждения.
Значительный прогресс был достигнут в области 3D-реконструкции на основе однокадровых RGB-D данных. MCC (Multi-view Consistent Completion) в настоящее время является передовым методом в этой области, демонстрирующим беспрецедентные успехи благодаря сочетанию трансформеров для обработки изображений и масштабного обучения. Однако мы выявили два ключевых ограничения MCC: 1) Декодер на основе трансформера неэффективен при обработке большого количества запрашиваемых точек; 2) 3D-представление испытывает трудности с восстановлением деталей высокой точности. В данной статье мы предлагаем новый подход под названием NU-MCC, который устраняет эти ограничения. NU-MCC включает два ключевых нововведения: декодер на основе соседства (Neighborhood decoder) и отталкивающую функцию беззнакового расстояния (Repulsive UDF). Во-первых, наш декодер на основе соседства вводит центральные точки в качестве эффективного прокси для визуальных признаков входных данных, позволяя каждой запрашиваемой точке учитывать только небольшое соседство. Этот подход не только значительно ускоряет процесс вывода, но и позволяет использовать более детализированные визуальные признаки для улучшения восстановления 3D-текстур. Во-вторых, наша Repulsive UDF представляет собой новую альтернативу полю занятости, используемому в MCC, что существенно повышает качество 3D-реконструкции объектов. В отличие от стандартных UDF, которые страдают от появления дыр в результатах, предложенная нами Repulsive UDF обеспечивает более полное восстановление поверхности. Экспериментальные результаты показывают, что NU-MCC способен обучать мощное 3D-представление, значительно продвигая состояние дел в области однокадровой 3D-реконструкции. В частности, он превосходит MCC на 9,7% по показателю F1-меры на наборе данных CO3D-v2 при более чем пятикратном увеличении скорости работы.
Мы представляем Biomaker CA: проект Biome Maker, использующий клеточные автоматы (CA). В Biomaker CA морфогенез является ключевым элементом, и небольшие "семена" должны развиваться в растительные организмы, чтобы выжить в среде с ограниченными питательными веществами и в конечном итоге воспроизводиться с вариациями, что позволяет биому существовать на протяжении длительных временных периодов. Мы моделируем сложные биомы с помощью правил CA на двумерных сетках и параллелизируем все вычисления на GPU с использованием фреймворка Python JAX. Мы демонстрируем, как этот проект позволяет создавать различные типы сред и "законов физики", а также использовать различные архитектуры моделей и стратегии мутаций. Далее мы анализируем некоторые конфигурации, чтобы показать, как растительные агенты могут расти, выживать, размножаться и эволюционировать, формируя стабильные и нестабильные биомы. Затем мы демонстрируем, как можно мета-эволюционировать модели для выживания в суровых условиях, либо с помощью сквозной мета-эволюции, либо с использованием более точного и эффективного подхода, называемого мета-эволюцией в чашке Петри. Наконец, мы показываем, как проводить интерактивную эволюцию, где пользователь решает, как эволюционировать модель растения в интерактивном режиме, а затем развертывает её в более крупной среде. Мы открываем исходный код Biomaker CA по адресу: https://tinyurl.com/2x8yu34s.