Ежедневно отобранные исследовательские статьи по ИИ с переводами
Языковые агенты продемонстрировали впечатляющие навыки решения задач в рамках определённых условий и коротких временных промежутков. Однако с постоянно растущей сложностью симуляций открытого мира возникает острая необходимость в агентах, способных гибко адаптироваться к сложным средам и последовательно поддерживать долговременную память для обеспечения согласованных действий. Чтобы сократить разрыв между языковыми агентами и играми в открытом мире, мы представляем Language Agent for Role-Playing (LARP), который включает когнитивную архитектуру, охватывающую обработку памяти и помощник для принятия решений, модуль взаимодействия со средой с обучаемым пространством действий на основе обратной связи, а также метод постобработки, способствующий согласованию различных личностей. Фреймворк LARP улучшает взаимодействие между пользователями и агентами, предопределёнными уникальными предысториями и характерами, что в конечном итоге повышает качество игрового опыта в контексте открытого мира. Кроме того, он подчеркивает разнообразное применение языковых моделей в таких областях, как развлечения, образование и различные сценарии симуляций. Страница проекта доступна по адресу https://miao-ai-lab.github.io/LARP/.
Диффузионные модели произвели революцию в синтезе изображений (image-to-image, I2I) и теперь активно проникают в область видео. Однако прогресс в синтезе видео (video-to-video, V2V) сдерживается сложностью поддержания временной согласованности между кадрами. В данной статье предлагается согласованный фреймворк для V2V-синтеза, который совместно использует пространственные условия и временные подсказки оптического потока из исходного видео. В отличие от предыдущих методов, строго следующих оптическому потоку, наш подход извлекает его преимущества, одновременно справляясь с несовершенством оценки потока. Мы кодируем оптический поток через деформацию на основе первого кадра и используем его как дополнительную ссылку в диффузионной модели. Это позволяет нашему модели синтезировать видео, редактируя первый кадр с помощью любой популярной I2I-модели, а затем распространяя изменения на последующие кадры. Наша V2V-модель, FlowVid, демонстрирует впечатляющие свойства: (1) Гибкость: FlowVid работает с существующими I2I-моделями, поддерживая различные модификации, включая стилизацию, замену объектов и локальные правки. (2) Эффективность: Генерация 4-секундного видео с частотой 30 кадров в секунду и разрешением 512x512 занимает всего 1,5 минуты, что в 3,1, 7,2 и 10,5 раз быстрее, чем CoDeF, Rerender и TokenFlow соответственно. (3) Высокое качество: В пользовательских исследованиях FlowVid предпочли в 45,7% случаев, что превосходит результаты CoDeF (3,5%), Rerender (10,2%) и TokenFlow (40,4%).
Мы представляем SynCLR — новый подход для обучения визуальных представлений исключительно на основе синтетических изображений и синтетических описаний, без использования реальных данных. Мы синтезируем большой набор данных текстовых описаний изображений с использованием языковых моделей (LLM), после чего применяем готовую модель для генерации изображений по тексту, чтобы создать несколько изображений для каждого синтетического описания. Обучение визуальных представлений на этих синтетических изображениях осуществляется с помощью контрастного обучения, где изображения, соответствующие одному и тому же описанию, рассматриваются как позитивные пары. Полученные представления хорошо переносятся на множество задач, конкурируя с другими универсальными методами обучения визуальных представлений, такими как CLIP и DINO v2, в задачах классификации изображений. Более того, в задачах плотного предсказания, таких как семантическая сегментация, SynCLR значительно превосходит предыдущие методы самообучения, например, улучшая показатели на 6.2 и 4.3 mIoU на наборе данных ADE20k для модели ViT-B/16 по сравнению с MAE и iBOT.
Современная тенденция в области больших языковых моделей (LLM) заключается в увеличении масштаба как размера модели (т.е. количества параметров), так и объема данных для достижения лучшей генеративной способности, что подтверждается множеством работ, таких как известные GPT и Llama. Однако крупные модели часто требуют значительных вычислительных затрат, и практические приложения не могут позволить себе такие высокие расходы. При этом метод построения эффективной архитектуры моделей для LLM редко обсуждается. Мы сначала анализируем современные архитектуры языковых моделей и наблюдаем проблему коллапса признаков. На основе теоретического анализа мы утверждаем, что нелинейность также крайне важна для языковых моделей, что обычно изучается в сверточных нейронных сетях для задач компьютерного зрения. Затем вводится серийная информированная функция активации с минимальными вычислениями, которыми можно пренебречь, а также используется расширенный шорткат для усиления нелинейности модели. Мы демонстрируем, что предложенный подход значительно эффективен для улучшения нелинейности модели с помощью тщательно спланированных экспериментов; таким образом, мы представляем новую эффективную архитектуру модели для современных задач, а именно PanGu-pi. Эксперименты проводятся с использованием того же набора данных и стратегии обучения для сравнения PanGu-pi с современными LLM. Результаты показывают, что PanGu-pi-7B достигает сопоставимой производительности с эталонными моделями при ускорении вывода примерно на 10%, а PanGu-pi-1B демонстрирует наилучшие показатели по точности и эффективности. Кроме того, мы внедрили PanGu-pi-7B в высокоценные области финансов и права, разработав LLM под названием YunShan для практического применения. Результаты показывают, что YunShan превосходит другие модели схожего масштаба на эталонных тестах.
Растущий интерес к мультимодальным большим языковым моделям (MLLMs), таким как GPT-4V(ision) от OpenAI, оказал значительное влияние как на академическую, так и на промышленную сферы. Эти модели расширяют возможности больших языковых моделей (LLMs) за счет продвинутого визуального понимания, что способствует их применению в различных мультимодальных задачах. Недавно Google представил Gemini — передовую MLLM, разработанную специально для мультимодальной интеграции. Несмотря на её прогресс, предварительные тесты показывают, что Gemini отстает от моделей GPT в задачах, требующих здравого смысла. Однако эта оценка, основанная на ограниченном наборе данных (например, HellaSWAG), не полностью отражает истинный потенциал Gemini в решении задач, связанных с здравым смыслом. Чтобы устранить этот пробел, наше исследование проводит тщательную оценку производительности Gemini в сложных задачах, требующих интеграции знаний о здравом смысле в различных модальностях. Мы осуществляем всесторонний анализ 12 наборов данных для задач здравого смысла, охватывающих как общие, так и узкоспециализированные задачи. Это включает 11 наборов данных, ориентированных исключительно на язык, а также один, включающий мультимодальные элементы. Наши эксперименты с четырьмя LLMs и двумя MLLMs демонстрируют конкурентоспособные способности Gemini в решении задач, связанных с здравым смыслом. Кроме того, мы выявляем общие проблемы, с которыми сталкиваются современные LLMs и MLLMs при решении задач здравого смысла, подчеркивая необходимость дальнейших улучшений в повышении способностей этих моделей к здравому смыслу.