Ежедневно отобранные исследовательские статьи по ИИ с переводами
PaliGemma - это открытая модель видео-языка (VLM), основанная на визионном кодировщике SigLIP-So400m и языковой модели Gemma-2B. Она обучена быть универсальной и широко осведомленной базовой моделью, которая эффективна для передачи знаний. Она демонстрирует высокую производительность на широком спектре задач в открытом мире. Мы оцениваем PaliGemma на почти 40 разнообразных задачах, включая стандартные бенчмарки VLM, а также более специализированные задачи, такие как дистанционное зондирование и сегментация.
Большие языковые модели (LLM) продемонстрировали исключительную производительность и огромный потенциал в различных задачах. Однако развертывание LLM с высокой производительностью в условиях ограниченных ресурсов привлекло значительное внимание в индустрии. Когда ресурсы аппаратного обеспечения GPU ограничены, мы можем исследовать альтернативные варианты на ЦП. Для смягчения финансовой нагрузки и устранения ограничений, накладываемых ресурсами аппаратного обеспечения, оптимизация производительности вывода необходима. В данной статье мы представляем легкоразвертываемое решение оптимизации производительности вывода, направленное на ускорение LLM на ЦП. В этом решении мы реализуем эффективный способ уменьшения размера кэша KV, обеспечивая при этом точность. Мы предлагаем распределенный подход к оптимизации вывода и реализуем его на основе библиотеки коллективных коммуникаций oneAPI. Кроме того, мы предлагаем подходы к оптимизации для LLM на ЦП и проводим индивидуальные оптимизации для наиболее часто используемых моделей. Код доступен в открытом доступе по ссылке https://github.com/intel/xFasterTransformer.
Визуальная настройка инструкций сделала значительные успехи в улучшении возможностей Больших Мультимодальных Моделей (BMM). Однако существующие открытые БММ в основном сосредоточены на задачах с одним изображением, их применение к сценариям с несколькими изображениями остается мало исследованным. Кроме того, предшествующие исследования БММ отдельно рассматривают различные сценарии, что делает невозможным обобщение между сценариями с новыми возможностями. Для этого мы представляем LLaVA-NeXT-Interleave, который одновременно решает задачи с несколькими изображениями, несколькими кадрами (видео), несколькими видами (3D) и несколькими патчами (одно изображение) в БММ. Для обеспечения этих возможностей мы рассматриваем формат данных с переплетением как общий шаблон и компилируем набор данных M4-Instruct с 1,177.6 тыс. образцов, охватывающий 4 основных области с 14 задачами и 41 наборами данных. Мы также составляем набор инструментов LLaVA-Interleave Bench для всесторонней оценки многокартинной производительности БММ. В результате обширных экспериментов LLaVA-NeXT-Interleave достигает ведущих результатов в многокартинных, видео- и 3D-бенчмарках, сохраняя производительность задач с одним изображением. Кроме того, наша модель также обладает несколькими новыми возможностями, например, передачей задач между различными настройками и модальностями. Код доступен по адресу https://github.com/LLaVA-VL/LLaVA-NeXT
Мы представляем 4DiM, каскадную модель диффузии для синтеза нового вида в 4D (NVS), условную по одному или нескольким изображениям общей сцены, а также набору поз камеры и временным меткам. Для преодоления вызванных ограниченной доступностью 4D обучающих данных вызовов, мы предлагаем совместное обучение на 3D (с позой камеры), 4D (поза+время) и видеоданных (только время, без позы) и предлагаем новую архитектуру, позволяющую это реализовать. Мы также предлагаем калибровку данных SfM с позами с использованием монокулярных метрических оценщиков глубины для контроля метрического масштаба камеры. Для оценки модели мы вводим новые метрики для обогащения и преодоления недостатков текущих схем оценки, демонстрируя передовые результаты как в плане достоверности, так и управления позой по сравнению с существующими моделями диффузии для 3D NVS, при этом добавляя возможность обработки временной динамики. 4DiM также используется для улучшенного стежения панорам, перевода видео с условием позы на видео и ряда других задач. Для обзора посетите https://4d-diffusion.github.io
Генерация аудиоконтента, семантически и временно согласованного с видеовходом, стала центральной темой для исследователей, особенно после выдающегося прорыва в генерации текста в видеоформате. В данной работе мы стремимся предложить исследования по парадигме генерации аудио из видео, сосредотачиваясь на трех ключевых аспектах: визионные кодировщики, вспомогательные вложения и техники аугментации данных. Начиная с фундаментальной модели VTA-LDM, построенной на простой, но удивительно эффективной интуиции, мы исследуем различные визионные кодировщики и вспомогательные вложения через исследования по абляции. Используя комплексный пайплайн оценки, который акцентирует качество генерации и синхронизацию видео и аудио, мы демонстрируем, что наша модель обладает передовыми возможностями генерации аудио из видео. Кроме того, мы предоставляем критические исследования влияния различных методов аугментации данных на улучшение общей способности фреймворка генерации. Мы показываем возможности продвижения в решении задачи генерации синхронизированного аудио с семантической и временной точек зрения. Мы надеемся, что эти исследования послужат отправной точкой к разработке более реалистичных и точных моделей генерации аудио-видео.
Мы представляем VEnhancer, фреймворк улучшения пространственно-временных характеристик, который повышает качество результатов преобразования текста в видео путем добавления дополнительных деталей в пространственной области и синтетического детализированного движения во временной области. Учитывая сгенерированное видео низкого качества, наш подход способен одновременно увеличить пространственное и временное разрешение с произвольным масштабированием пространства и времени через объединенную модель диффузии видео. Более того, VEnhancer эффективно устраняет пространственные артефакты и временные мерцания сгенерированных видео. Для достижения этой цели, на основе предварительно обученной модели диффузии видео мы обучаем Video ControlNet и внедряем его в модель диффузии в качестве условия для видео с низкой частотой кадров и низким разрешением. Для эффективного обучения этой Video ControlNet мы разрабатываем аугментацию данных пространства и времени, а также видео-ориентированное условие. Благодаря вышеперечисленным подходам, VEnhancer оказывается стабильным во время обучения и обладает элегантным способом обучения от начала до конца. Обширные эксперименты показывают, что VEnhancer превосходит существующие методы видео суперразрешения и пространственно-временного суперразрешения в улучшении видео, созданных искусственным интеллектом. Более того, с помощью VEnhancer существующий метод преобразования текста в видео с открытым исходным кодом, VideoCrafter-2, достигает первого места в рейтинге видео-генерации - VBench.
Настройка моделей текст-в-изображение (T2I) недавно продемонстрировала значительный прогресс, особенно в областях персонализации, стилизации и условной генерации. Однако расширение этого прогресса на генерацию видео все еще находится в начальной стадии, в основном из-за отсутствия настраиваемых видеоданных. В данной работе мы представляем Still-Moving, новую общую структуру для настройки модели текст-в-видео (T2V) без необходимости настраиваемых видеоданных. Эта структура применима к ведущему дизайну T2V, где видеомодель строится на основе модели текст-в-изображение (T2I) (например, через надувание). Мы предполагаем наличие настроенной версии модели T2I, обученной только на статических изображениях (например, с использованием DreamBooth или StyleDrop). Простое подключение весов настроенной модели T2I в модель T2V часто приводит к значительным артефактам или недостаточному соблюдению настраиваемых данных. Для преодоления этой проблемы мы обучаем легкие пространственные адаптеры, которые корректируют признаки, созданные внедренными слоями T2I. Важно, что наши адаптеры обучаются на "замороженных видео" (т.е. повторяющихся изображениях), созданных из образцов изображений, сгенерированных настроенной моделью T2I. Это обучение облегчается новым модулем Motion Adapter, который позволяет нам обучаться на таких статических видео, сохраняя при этом движущийся приоритет видеомодели. На этапе тестирования мы удаляем модули Motion Adapter и оставляем только обученные пространственные адаптеры. Это восстанавливает движущийся приоритет модели T2V, соблюдая пространственный приоритет настроенной модели T2I. Мы демонстрируем эффективность нашего подхода на различных задачах, включая персонализированную, стилизованную и условную генерацию. Во всех оцененных сценариях наш метод плавно интегрирует пространственный приоритет настроенной модели T2I с движущимся приоритетом, предоставленным моделью T2V.
Большие предварительно обученные языковые модели (LM) говорят, что "не способны связать высказывания с миром" (Бендер и Коллер, 2020), потому что у них нет "ментальных моделей мира" (Митчелл и Кракауэр, 2023). Если это так, то ожидается, что представления LM не будут связаны с представлениями, индуцированными моделями зрения. Мы представляем эмпирическую оценку по четырем семействам LM (BERT, GPT-2, OPT и LLaMA-2) и трем архитектурам моделей зрения (ResNet, SegFormer и MAE). Наши эксперименты показывают, что LM частично сходятся к представлениям, изоморфным представлениям моделей зрения, при условии дисперсии, полисемии и частоты. Это имеет важные последствия как для мультимодальной обработки, так и для дебатов о понимании LM (Митчелл и Кракауэр, 2023).
Существующие модели контрастного обучения вид-текст улучшают передачу представлений и поддерживают предсказание без обучения путем сопоставления вложений парных изображений и подписей, одновременно отталкивая несвязанные пары. Однако астрономические наборы данных изображений и меток значительно меньше по сравнению с общедоступными наборами данных изображений и меток в Интернете. Мы представляем CosmoCLIP, астрономическую модель контрастного обучения вид-текст, точно настроенную на предварительно обученной модели CLIP с использованием описаний SpaceNet и BLIP. SpaceNet, полученный через FLARE, состоит из ~13 тыс. оптимально распределенных изображений, в то время как BLIP действует как богатый экстрактор знаний. Богатая семантика, извлеченная из описаний SpaceNet и BLIP, когда она изучается контрастно, позволяет CosmoCLIP достичь превосходной обобщаемости по различным задачам внутри и вне области. Наши результаты показывают, что CosmoCLIP является простой, но мощной моделью, значительно превосходящей CLIP в задачах классификации без обучения и поиска изображений-текста.
В данной статье мы рассматриваем загрязнение тестовых наборов кодогенерации, в частности их использование в современных больших языковых моделях. Мы обсуждаем три возможных источника такого загрязнения и представляем результаты, подтверждающие каждый из них: (i) прямая утечка данных, (ii) косвенная утечка данных через использование синтетических данных и (iii) переобучение на наборах оценки во время выбора модели. Ключевым для наших результатов является новый набор данных из 161 подсказки с соответствующими им решениями на Python, набор данных, который доступен по ссылке https://huggingface.co/datasets/CohereForAI/lbpp.
Мы предлагаем метод обучения роботов для общения, планирования и выполнения широкого спектра задач, названный This&That. Мы достигаем планирования роботов для общих задач, используя мощь видео-генеративных моделей, обученных на данных интернет-масштаба, содержащих богатый физический и семантический контекст. В данной работе мы решаем три фундаментальных задачи в планировании на основе видео: 1) однозначное общение задач с помощью простых человеческих инструкций, 2) управляемая генерация видео, учитывающая намерения пользователя, и 3) преобразование визуального планирования в действия робота. Мы предлагаем использование языково-жестовой зависимости для генерации видео, которая является как более простой, так и более понятной, чем существующие методы только на основе языка, особенно в сложных и неопределенных средах. Затем мы предлагаем дизайн клонирования поведения, который без проблем интегрирует видео-планы. This&That демонстрирует передовую эффективность в решении вышеупомянутых трех задач и обосновывает использование генерации видео в качестве промежуточного представления для обобщенного планирования и выполнения задач. Веб-сайт проекта: https://cfeng16.github.io/this-and-that/.
Обучение классификатора на данных, полученных с помощью веб-сканирования, требует использования алгоритмов обучения, устойчивых к ошибкам разметки и несущественным примерам. В данной статье основывается на недавних эмпирических наблюдениях, показывающих, что применение неконтролируемого контрастного обучения к шумным данным, полученным с веб-сайтов, приводит к формированию признакового представления, в котором образцы внутри диапазона (ID) и вне диапазона (OOD) линейно разделимы. Мы показываем, что прямая оценка разделяющей гиперплоскости действительно позволяет точно обнаруживать образцы OOD, однако, удивительным образом, это обнаружение не приводит к увеличению точности классификации. Глубже изучая это явление, мы обнаруживаем, что почти идеальное обнаружение упускает тип чистых примеров, которые ценны для обучения с учителем. Эти примеры часто представляют собой визуально простые изображения, которые относительно легко идентифицировать как чистые примеры с использованием стандартных методов потерь или на основе расстояния, несмотря на то, что они плохо разделяются от распределения OOD при использовании неконтролируемого обучения. Поскольку мы также наблюдаем низкую корреляцию с метриками SOTA, это заставляет нас предложить гибридное решение, которое чередует обнаружение шума с использованием линейного разделения и передового (SOTA) подхода с низкими потерями. Когда это сочетается с алгоритмом SOTA PLS, мы значительно улучшаем результаты SOTA для классификации изображений в реальном мире в условиях наличия шума на веб-сайтах github.com/PaulAlbert31/LSA
Мы представляем BiGym, новый стандарт и среду обучения для мобильной биманипуляционной робототехники, управляемой демонстрациями. BiGym включает 40 разнообразных задач, выполненных в домашних условиях, начиная от простого достижения цели до сложной уборки на кухне. Для точного отражения производительности в реальном мире мы предоставляем демонстрации, собранные у людей, для каждой задачи, отражающие разнообразные модальности, присущие траекториям реальных роботов. BiGym поддерживает различные виды наблюдений, включая проприоцептивные данные и визуальные входы, такие как RGB и данные глубины из трех камер. Для проверки применимости BiGym мы тщательно тестируем передовые алгоритмы имитационного обучения и алгоритмы обучения с подкреплением, управляемые демонстрациями, в данной среде и обсуждаем перспективы для будущих исследований.
Генерация движения толпы является важной задачей в индустрии развлечений, таких как анимация и игры, а также в стратегических областях, таких как городское моделирование и планирование. Эта новая задача требует сложной интеграции управления и генерации для реалистичного синтеза динамики толпы с учетом конкретных пространственных и семантических ограничений, чьи вызовы еще предстоит полностью исследовать. С одной стороны, существующие модели генерации движения человека обычно сосредотачиваются на индивидуальных поведенческих моделях, игнорируя сложности коллективных поведенческих моделей. С другой стороны, недавние методы генерации движения для нескольких людей сильно зависят от заранее определенных сценариев и ограничены фиксированным, небольшим количеством межличностных взаимодействий, что затрудняет их практическое применение. Для преодоления этих вызовов мы представляем CrowdMoGen, фреймворк, управляемый текстом с нулевой обучающей выборкой, который использует мощь больших языковых моделей (LLM) для интеграции коллективного интеллекта в фреймворк генерации движения в качестве руководства, тем самым обеспечивая обобщенное планирование и генерацию движения толпы без обучающих данных. Наш фреймворк состоит из двух ключевых компонентов: 1) Планировщик сцены толпы, который учится координировать движения и динамику в соответствии с конкретными контекстами сцены или введенными возмущениями, и 2) Генератор коллективного движения, который эффективно синтезирует необходимые коллективные движения на основе глобальных планов. Обширные количественные и качественные эксперименты подтвердили эффективность нашего фреймворка, который не только заполняет критическую пробел, предоставляя масштабируемые и обобщенные решения для задачи генерации движения толпы, но также достигает высокого уровня реализма и гибкости.