Ежедневно отобранные исследовательские статьи по ИИ с переводами
Крупные языковые модели стали краеугольным камнем обработки естественного языка, однако их использование сопряжено с существенными затратами вычислительных ресурсов и памяти. Разрежение предлагает решение для смягчения этих ограничений, и недавние работы показали, что обученные модели могут быть разрежены постфактум. Существующие методы разрежения сталкиваются с трудностями, так как требуют дополнительных структур данных и обеспечивают ограниченное ускорение на современном оборудовании. В данной статье мы представляем SliceGPT — новую схему разрежения после обучения, которая заменяет каждую матрицу весов на меньшую (плотную) матрицу, уменьшая размерность встраивания сети. В ходе обширных экспериментов мы показываем, что SliceGPT может удалить до 25% параметров модели (включая встраивания) для моделей LLAMA2-70B, OPT 66B и Phi-2, сохраняя при этом 99%, 99% и 90% производительности в задачах zero-shot по сравнению с плотной моделью соответственно. Наши разреженные модели работают на меньшем количестве графических процессоров и выполняются быстрее без какой-либо дополнительной оптимизации кода: на потребительских GPU с 24 ГБ мы сокращаем общие вычисления для вывода на LLAMA2-70B до 64% от плотной модели; на GPU A100 с 40 ГБ мы сокращаем их до 66%. Мы предлагаем новое понимание — вычислительную инвариантность в трансформерных сетях, которая делает возможным SliceGPT, и надеемся, что это вдохновит и откроет новые пути для снижения требований к памяти и вычислениям для предобученных моделей. Код доступен по адресу: https://github.com/microsoft/TransformerCompression.
Метаобучение стало мощным подходом для обучения нейронных сетей быстрому освоению новых задач на основе ограниченных данных. Широкое знакомство с различными задачами приводит к формированию универсальных представлений, способствующих решению общих проблем. Но каковы пределы метаобучения? В данной работе мы исследуем потенциал амортизации наиболее мощного универсального предсказателя, а именно индукции Соломонова (SI), в нейронные сети, доводя метаобучение до его пределов. Мы используем универсальные машины Тьюринга (UTM) для генерации обучающих данных, которые позволяют познакомить сети с широким спектром паттернов. Мы предоставляем теоретический анализ процессов генерации данных UTM и протоколов метаобучения. Мы проводим всесторонние эксперименты с нейронными архитектурами (например, LSTM, трансформеры) и алгоритмическими генераторами данных различной сложности и универсальности. Наши результаты показывают, что данные UTM являются ценным ресурсом для метаобучения и могут быть использованы для обучения нейронных сетей, способных осваивать универсальные стратегии предсказания.
Авторегрессивное декодирование делает вывод крупных языковых моделей (LLM) затратным по времени. Мы предлагаем простую структуру, EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency), для безубыточного ускорения. В отличие от традиционных методов спекулятивного сэмплирования, EAGLE выполняет процесс чернового генерации авторегрессивно на более регулярном (предпоследнем) уровне признаков и решает проблемы неопределенности сэмплирования в задачах предсказания следующего признака путем интеграции токенов на один шаг вперед. Ускорение, предоставляемое EAGLE, является безубыточным: оно не требует тонкой настройки целевой LLM, и генерируемый текст сохраняет то же распределение, что и при классическом авторегрессивном декодировании. На момент подачи данной статьи EAGLE является самой быстрой известной структурой в семействе спекулятивного сэмплирования. На MT-bench EAGLE работает в 3 раза быстрее классического декодирования, в 2 раза быстрее Lookahead и в 1,6 раза быстрее Medusa. Используя gpt-fast, EAGLE достигает в среднем 160 токенов/с с LLaMA2-Chat 13B на одной видеокарте RTX 3090, по сравнению с 24 токенами/с в реализациях Huggingface.
Последние достижения в области моделей "текст-изображение" значительно улучшили возможности генерации изображений, однако сохраняется заметный пробел в поддержке двуязычных или китайских языков в открытых моделях. Для решения этой проблемы мы представляем Taiyi-Diffusion-XL — новую двуязычную модель "текст-изображение" для китайского и английского языков, разработанную путем расширения возможностей CLIP и Stable-Diffusion-XL через процесс двуязычного непрерывного предварительного обучения. Этот подход включает эффективное расширение словаря за счет интеграции наиболее часто используемых китайских символов в токенизатор и слои эмбеддингов CLIP, а также расширение абсолютного позиционного кодирования. Кроме того, мы обогащаем текстовые подсказки с помощью крупной модели "визуальный язык", что приводит к улучшению описаний изображений и повышению их визуального качества. Эти улучшения затем применяются в моделях "текст-изображение" на последующих этапах. Наши эмпирические результаты показывают, что разработанная модель CLIP превосходит другие в двуязычном поиске изображений по тексту. Более того, возможности двуязычной генерации изображений Taiyi-Diffusion-XL превосходят предыдущие модели. Это исследование привело к разработке и открытому распространению модели Taiyi-Diffusion-XL, что представляет собой значительный прогресс в области генерации изображений, особенно для приложений на китайском языке. Этот вклад является шагом вперед в удовлетворении потребности в поддержке большего разнообразия языков в мультимодальных исследованиях. Модель и демонстрация доступны публично по адресу https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-XL-3.5B/{этот URL}, способствуя дальнейшим исследованиям и сотрудничеству в этой области.
Редактирование 3D-сцен с использованием текстовых описаний привлекает значительное внимание благодаря своей удобству и простоте использования. Однако существующие методы всё ещё не обеспечивают точного контроля над внешним видом и местоположением результата редактирования из-за присущих ограничений текстовых описаний. Для решения этой проблемы мы предлагаем фреймворк для редактирования 3D-сцен, TIPEditor, который принимает как текстовые и графические подсказки, так и 3D-ограничивающий прямоугольник для указания области редактирования. С помощью графической подсказки пользователи могут легко задать детали внешнего вида/стиля целевого содержимого в дополнение к текстовому описанию, что обеспечивает точный контроль над внешним видом. В частности, TIPEditor использует пошаговую стратегию 2D-персонализации для более точного изучения представления существующей сцены и эталонного изображения, в которой предлагается функция потерь локализации для корректного размещения объекта в соответствии с указанным ограничивающим прямоугольником. Кроме того, TIPEditor использует явное и гибкое 3D-представление на основе гауссовых сплайнов для облегчения локального редактирования при сохранении фона неизменным. Многочисленные эксперименты показали, что TIPEditor выполняет точное редактирование в соответствии с текстовыми и графическими подсказками в указанной области ограничивающего прямоугольника, стабильно превосходя базовые методы по качеству редактирования и соответствию подсказкам как качественно, так и количественно.
Люди используют выразительные поведенческие паттерны для эффективного общения и координации своих действий с другими, например, кивают, чтобы подтвердить взгляд другого человека, или говорят "извините", чтобы пройти в оживленном коридоре. Мы хотим, чтобы роботы также демонстрировали выразительное поведение в процессе взаимодействия с людьми. Предыдущие работы предлагают методы, основанные на правилах, которые плохо масштабируются на новые коммуникативные модальности или социальные ситуации, в то время как методы, основанные на данных, требуют специализированных наборов данных для каждой социальной ситуации, в которой используется робот. Мы предлагаем использовать богатый социальный контекст, доступный в больших языковых моделях (LLM), и их способность генерировать движения на основе инструкций или предпочтений пользователя, чтобы создавать адаптируемые и композируемые выразительные движения роботов, которые могут дополнять друг друга. Наш подход использует метод few-shot chain-of-thought prompting для перевода инструкций на естественном языке в параметризованный управляющий код с использованием доступных и изученных навыков робота. С помощью пользовательских исследований и экспериментов в симуляции мы демонстрируем, что наш подход создает поведение, которое пользователи считают компетентным и легко понятным. Дополнительные материалы можно найти по адресу https://generative-expressive-motion.github.io/.