Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем Reka Core, Flash и Edge, серию мощных мультимодальных языковых моделей, обученных с нуля Reka. Модели Reka способны обрабатывать и рассуждать с текстом, изображениями, видео и аудиовходами. В данном техническом отчете обсуждаются детали обучения некоторых из этих моделей и предоставляются полные результаты оценки. Мы показываем, что Reka Edge и Reka Flash не только являются передовыми, но и превосходят многие гораздо более крупные модели, предоставляя значительные значения для их соответствующего класса вычислений. Тем временем наша наиболее способная и крупная модель, Reka Core, приближается к лучшим моделям на фронте как по автоматическим оценкам, так и по слепым человеческим оценкам. На бенчмарках по ответам на вопросы об изображениях (например, MMMU, VQAv2), Core конкурентоспособен с GPT4-V. Тем временем, в мультимодальном чате Core занимает второе место среди предпочтительных моделей в слепой оценке третьей стороной, превосходя другие модели, такие как Claude 3 Opus. На текстовых бенчмарках Core не только конкурентоспособен с другими фронтовыми моделями на ряде установленных бенчмарков (например, MMLU, GSM8K), но и превосходит GPT4-0613 по человеческой оценке. На бенчмарке по ответам на вопросы о видео (Perception-Test) Core превосходит Gemini Ultra. Модели отправлены в продакшн на http://chat.reka.ai. Демонстрация неотфильтрованных качественных примеров также доступна на http://showcase.reka.ai.
Мы представляем Blink, новый бенчмарк для мультимодальных языковых моделей (LLM), который фокусируется на основных визуальных способностях восприятия, отсутствующих в других оценках. Большинство задач Blink могут быть решены людьми "мгновенно" (например, оценка относительной глубины, визуальная корреспонденция, обнаружение фальсификаций и многоплановое рассуждение). Однако мы обнаружили, что эти требующие восприятия задачи представляют существенные вызовы для текущих мультимодальных LLM, поскольку они сопротивляются посредничеству через естественный язык. Blink преобразует 14 классических задач компьютерного зрения в 3 807 вопросов с выбором из нескольких вариантов ответа, сопровождаемых одним или несколькими изображениями и визуальными подсказками. В то время как люди в среднем достигают точности 95,70%, Blink оказывается удивительно сложным для существующих мультимодальных LLM: даже лучшие модели GPT-4V и Gemini достигают точностей 51,26% и 45,72%, всего на 13,17% и 7,63% выше случайного угадывания, что указывает на то, что такие способности восприятия еще не "проявились" в недавних мультимодальных LLM. Наш анализ также подчеркивает, что специализированные модели компьютерного зрения могли бы решать эти проблемы значительно лучше, что указывает на потенциальные пути для будущих улучшений. Мы считаем, что Blink стимулирует сообщество помочь мультимодальным LLM догнать уровень визуального восприятия человека.
Clipart, готовая графическая форма искусства, предлагает удобный и эффективный способ иллюстрации визуального контента. Традиционные рабочие процессы по преобразованию статических изображений clipart в последовательности движения являются трудоемкими и времязатратными, включая множество сложных этапов, таких как оборудование, ключевая анимация и создание промежуточных кадров. Недавние достижения в области генерации текста в видео имеют большой потенциал для решения этой проблемы. Тем не менее, прямое применение моделей генерации текста в видео часто испытывает затруднения в сохранении визуальной идентичности изображений clipart или генерации мультяшного стиля движения, что приводит к неудовлетворительным результатам анимации. В данной статье мы представляем AniClipart, систему, которая преобразует статические изображения clipart в высококачественные последовательности движения под руководством предварительных знаний текста в видео. Для создания мультяшного стиля и плавного движения мы сначала определяем кривые Безье над ключевыми точками изображения clipart в качестве формы регуляризации движения. Затем мы выравниваем траектории движения ключевых точек с предоставленным текстовым запросом, оптимизируя потерю Video Score Distillation Sampling (VSDS), которая кодирует достаточные знания о естественном движении в предварительно обученной модели диффузии текста в видео. С помощью дифференцируемого алгоритма деформации формы As-Rigid-As-Possible наш метод может быть оптимизирован end-to-end с сохранением жесткости деформации. Экспериментальные результаты показывают, что предложенный AniClipart последовательно превосходит существующие модели генерации изображений в видео, с точки зрения выравнивания текста и видео, сохранения визуальной идентичности и согласованности движения. Более того, мы продемонстрировали универсальность AniClipart, адаптируя его для создания более широкого спектра форматов анимации, таких как слоистая анимация, позволяющая топологические изменения.
Тонкая настройка заранее обученных языковых моделей для различных последующих задач продемонстрировала выдающийся успех и привлекла интерес как у академиков, так и у практиков. Для обеспечения соответствия таких тонко настроенных языковых моделей предпочтениям человека появились методики, такие как RLHF и DPO. В то же время наблюдается увеличенный интерес к уменьшению количества параметров моделей. В данной работе, используя OpenLLaMA 3Bv2 в качестве базовой модели, мы описываем рецепт, использованный для тонкой настройки семейства моделей OpenBezoar. В этом рецепте: сначала мы генерируем синтетические данные для тонкой настройки посредством открытой и коммерчески нерестриктивной варианта тонкой настройки инструкций модели Falcon-40B по трём схемам на основе: LaMini-LM, WizardLM/Evol-Instruct (с набором данных databricks-dolly-15k в качестве исходного набора данных) и Orca (с коллекцией Flan в качестве исходного набора данных), затем фильтруем эти генерации с помощью GPT-4 в качестве человеческого прокси. Затем мы последовательно выполняем эффективную с точки зрения затрат тонкую настройку под наблюдением с использованием QLoRA с каждой схемой. Полученную контрольную точку дополнительно тонко настраиваем с помощью подмножества набора данных HH-RLHF для минимизации сдвига распределения перед использованием потерь DPO для получения конечной контрольной точки. Оценка производится с использованием задач/метрик LM Eval Harness, а также на MT-Bench с использованием фреймворка "LLM-как-судья" с помощью Claude 2.1, с выводом о том, что конечная контрольная точка "OpenBezoar-HH-RLHF-DPO" демонстрирует превосходную производительность по сравнению с многими моделями на масштабе параметров 3B, даже превосходя лучшую модель в одной из категорий на доске лидеров Huggingface Open LLM. Мы выпускаем контрольные точки "OpenBezoar-SFT", "OpenBezoar-HH-RLHF-SFT", "OpenBezoar-HH-RLHF-DPO", наряду с нашими сгенерированными наборами данных на HuggingFace по адресу https://huggingface.co/collections/SurgeGlobal/open-bezoar-6620a24923e12127e9e2b9cc и нашим кодовым базисом по адресу https://bitbucket.org/paladinanalytics/workspace/projects/OP.