Ежедневно отобранные исследовательские статьи по ИИ с переводами
Недавние достижения в моделях видео-языка улучшили производительность за счёт увеличения длины визуальных токенов, делая их значительно длиннее текстовых токенов и существенно увеличивая вычислительные затраты. Однако мы наблюдаем, что визуальные токены, сгенерированные популярными визуальными кодировщиками, такими как CLIP и SigLIP, содержат значительную избыточность. Для решения этой проблемы мы представляем VisionZip, простой, но эффективный метод, который выбирает набор информативных токенов для ввода в языковую модель, уменьшая избыточность визуальных токенов и повышая эффективность при сохранении производительности модели. Предложенный VisionZip может быть широко применен к задачам понимания изображений и видео и хорошо подходит для многоразовых диалогов в реальных сценариях, где предыдущие методы часто показывают низкую производительность. Экспериментальные результаты показывают, что VisionZip превосходит предыдущий метод, признанный лучшим в данной области, как минимум на 5% во всех настройках. Более того, наш метод значительно увеличивает скорость вывода модели, улучшая время предварительной обработки в 8 раз и позволяя модели LLaVA-Next 13B выводить результаты быстрее, чем модель LLaVA-Next 7B, при этом достигая лучших результатов. Кроме того, мы анализируем причины этой избыточности и призываем сообщество сосредоточиться на извлечении лучших визуальных признаков, а не просто увеличивать длину токенов. Наш код доступен по ссылке https://github.com/dvlab-research/VisionZip.
Мы представляем новый метод генерации 3D-изображений для создания универсальных и высококачественных 3D-ресурсов. Основой является объединенное структурированное латентное (SLAT) представление, которое позволяет декодировать в различные выходные форматы, такие как радиационные поля, 3D-гауссианы и сетки. Это достигается путем интеграции разреженной 3D-сетки с плотными многовидовыми визуальными признаками, извлеченными из мощной модели базового зрения, всесторонне захватывающей как структурную (геометрическую), так и текстурную (внешнюю) информацию, сохраняя гибкость во время декодирования. Мы используем преобразователи прямого потока, настроенные для SLAT, в качестве наших моделей генерации 3D и обучаем модели с до 2 миллиардами параметров на большом наборе данных 3D-ресурсов из 500 тыс. разнообразных объектов. Наша модель генерирует высококачественные результаты с условиями текста или изображения, значительно превосходящие существующие методы, включая недавние на сходных масштабах. Мы демонстрируем гибкий выбор формата вывода и возможности локального редактирования 3D, которые не предлагались предыдущими моделями. Код, модель и данные будут опубликованы.
Графические пользовательские интерфейсы (GUI) критически важны для взаимодействия человека с компьютером, однако автоматизация задач GUI остается сложной из-за сложности и изменчивости визуальных сред. Существующие подходы часто полагаются на текстовые представления GUI, что вводит ограничения в обобщении, эффективности и масштабируемости. В данной статье мы представляем Aguvis, унифицированный чисто видеоориентированный фреймворк для автономных агентов GUI, работающий на различных платформах. Наш подход использует наблюдения на основе изображений, привязывает инструкции к естественному языку к визуальным элементам и использует единое пространство действий для обеспечения обобщения между платформами. Для преодоления ограничений предыдущих работ мы интегрируем явное планирование и рассуждения в модель, улучшая ее способность автономно перемещаться и взаимодействовать с комплексными цифровыми средами. Мы создаем крупномасштабный набор данных траекторий агентов GUI, включающий мультимодальное рассуждение и привязку, и используем двухэтапный процесс обучения, сначала сосредотачиваясь на общей привязке GUI, а затем на планировании и рассуждениях. Через комплексные эксперименты мы демонстрируем, что Aguvis превосходит предыдущие методы, как в офлайн, так и в реальных онлайн сценариях, достигая, насколько нам известно, первого полностью автономного чисто видеоориентированного агента GUI, способного выполнять задачи независимо без сотрудничества с внешними закрытыми моделями. Мы опубликовали все наборы данных, модели и инструкции по обучению на https://aguvis-project.github.io/.
Мы представляем Florence-VL, новое семейство мультимодальных крупных языковых моделей (MLLM) с обогащенными визуальными представлениями, созданными Florence-2, моделью генеративного визионного фундамента. В отличие от широко используемой модели CLIP-стиля визионного трансформера, обученной методом контрастного обучения, Florence-2 способен захватывать различные уровни и аспекты визуальных особенностей, которые более универсальны для адаптации к различным задачам. Мы предлагаем новую архитектуру объединения признаков и инновационный метод обучения, который эффективно интегрирует визуальные особенности Florence-2 в предварительно обученные LLM, такие как Phi 3.5 и LLama 3. В частности, мы предлагаем "объединение глубины и ширины (DBFusion)" для объединения визуальных особенностей, извлеченных из разных глубин и под различными подсказками. Наше обучение модели состоит из предварительного обучения всей модели end-to-end, за которым следует донастройка слоя проекции и LLM на тщательно разработанном наборе разнообразных наборов данных с открытым исходным кодом, включающих подписи к изображениям высокого качества и пары настройки инструкций. Наше количественное анализ и визуализация визуальных особенностей Florence-VL показывают ее преимущества по сравнению с популярными визионными кодировщиками в области выравнивания визуальных и языковых данных, где обогащенная глубина и ширина играют важную роль. Florence-VL достигает значительных улучшений по сравнению с существующими передовыми MLLM на различных мультимодальных и визионно-центричных бенчмарках, охватывающих общие VQA, восприятие, галлюцинации, OCR, графики, понимание, основанное на знаниях и т. д. Для облегчения будущих исследований наши модели и полный метод обучения доступны в открытом доступе. https://github.com/JiuhaiChen/Florence-VL
Визуальные языковые модели (VLM) в последние годы значительно продвинулись в точности. Однако их эффективность получила гораздо меньше внимания. В данной статье представлена NVILA, семейство открытых VLM, разработанных для оптимизации как эффективности, так и точности. На основе VILA мы улучшаем его архитектуру модели, сначала увеличивая пространственное и временное разрешение, а затем сжимая визуальные токены. Этот подход "увеличить-затем-сжать" позволяет NVILA эффективно обрабатывать изображения высокого разрешения и длинные видео. Мы также проводим систематическое исследование для улучшения эффективности NVILA на протяжении всего ее жизненного цикла, начиная с обучения и до настройки. NVILA соответствует или превосходит точность многих ведущих открытых и закрытых VLM на широком спектре бенчмарков изображений и видео. В то же время она снижает затраты на обучение в 4,5 раза, использование памяти при настройке в 3,4 раза, задержку предварительной загрузки в 1,6-2,2 раза и задержку декодирования в 1,2-2,8 раза. Мы скоро опубликуем наш код и модели для обеспечения воспроизводимости.
С увеличением использования синтетических данных в языковых моделях (LM) после обучения способность LM генерировать данные высокого качества стала почти так же важной, как его способность непосредственно решать проблемы. В то время как предыдущие работы сосредотачивались на разработке эффективных методов генерации данных, им не хватало систематического сравнения различных LM в качестве генераторов данных в единой среде. Для заполнения этого пробела мы предлагаем AgoraBench, бенчмарк, который предоставляет стандартизированные настройки и метрики для оценки способностей LM к генерации данных. Путем синтеза 1,26 миллиона обучающих примеров с использованием 6 LM и обучения 99 студенческих моделей мы выявляем ключевые идеи о способностях LM к генерации данных. Во-первых, мы замечаем, что LM обладают различными сильными сторонами. Например, GPT-4o отличается в генерации новых проблем, в то время как Claude-3.5-Sonnet лучше справляется с улучшением существующих. Кроме того, наш анализ показывает, что способность LM к генерации данных не обязательно коррелирует с его способностью решать проблемы. Вместо этого несколько внутренних характеристик качества данных, включая качество ответа, перплексию и сложность инструкций, вместе служат лучшими показателями. Наконец, мы демонстрируем, что стратегические выборы в формате вывода и экономичный выбор модели значительно влияют на эффективность генерации данных.
Автоматическое обнаружение и предотвращение открытых сбоев являются критически важными в замкнутых робототехнических системах. Недавние исследования часто сталкиваются с трудностями в одновременной идентификации неожиданных сбоев реактивно после их возникновения и предотвращении предсказуемых сбоев проактивно. В этой связи мы предлагаем метод Code-as-Monitor (CaM), новую парадигму, использующую модель видения-языка (VLM) для обнаружения открытых сбоев как реактивно, так и проактивно. Основой нашего метода является формулирование обеих задач как объединенного набора проблем удовлетворения пространственно-временных ограничений и использование сгенерированного VLM кода для их оценки в реальном времени. Для улучшения точности и эффективности мониторинга мы дополнительно вводим элементы ограничений, которые абстрагируют сущности, связанные с ограничениями или их части, в компактные геометрические элементы. Этот подход предлагает большую общность, упрощает отслеживание и облегчает визуальное программирование с учетом ограничений, используя эти элементы в качестве визуальных подсказок. Эксперименты показывают, что CaM достигает более высокий процент успешных результатов на 28,7% и сокращает время выполнения на 31,8% при сильных помехах по сравнению с базовыми показателями на трех симуляторах и в реальной среде. Более того, CaM может быть интегрирован с политиками управления с открытым контуром для формирования замкнутых систем, обеспечивая выполнение задач с длительным горизонтом в перегруженных сценах с динамическими окружениями.
Модели диффузии отличаются в создании изображений высокого качества. Однако текущие модели диффузии испытывают затруднения в создании надежных изображений без методов руководства, таких как метод руководства без классификатора (CFG). Но действительно ли необходимы методы руководства? Наблюдая, что шум, полученный путем инверсии диффузии, может восстанавливать изображения высокого качества без руководства, мы фокусируемся на начальном шуме конвейера денойзинга. Путем отображения гауссовского шума в "шум без руководства" мы обнаруживаем, что небольшие низкочастотные компоненты малой амплитуды значительно улучшают процесс денойзинга, устраняя необходимость в руководстве и тем самым улучшая как производительность вывода, так и использование памяти. Развивая эту идею, мы предлагаем \ours, новый метод, который заменяет методы руководства одним улучшением начального шума. Этот улучшенный шум позволяет создавать изображения высокого качества без руководства в рамках того же конвейера диффузии. Наша модель улучшения шума использует эффективное обучение в пространстве шума, достигая быстрой сходимости и высокой производительности всего с 50 тыс. пар текст-изображение. Мы подтверждаем ее эффективность по различным метрикам и анализируем, как улучшенный шум может устранить необходимость в руководстве. См. нашу страницу проекта: https://cvlab-kaist.github.io/NoiseRefine/.
Существующие методы генерации многозрительных изображений часто вносят инвазивные изменения в предварительно обученные модели текст-к-изображению (T2I) и требуют полной донастройки, что приводит к (1) высоким вычислительным затратам, особенно с большими базовыми моделями и изображениями высокого разрешения, и (2) ухудшению качества изображения из-за сложностей оптимизации и недостатка высококачественных 3D данных. В данной статье мы предлагаем первое решение на основе адаптеров для генерации многозрительных изображений и представляем MV-Adapter, универсальный адаптер plug-and-play, который улучшает модели T2I и их производные, не изменяя оригинальную структуру сети или пространство признаков. Обновляя меньшее количество параметров, MV-Adapter обеспечивает эффективное обучение и сохраняет встроенные в предварительно обученные модели знания, снижая риски переобучения. Для эффективного моделирования геометрических знаний 3D внутри адаптера мы предлагаем инновационные конструкции, включающие дублированные слои самовнимания и параллельную архитектуру внимания, позволяющие адаптеру наследовать мощные априорные знания предварительно обученных моделей для моделирования новых 3D знаний. Более того, мы представляем объединенный кодер условий, который плавно интегрирует параметры камеры и геометрическую информацию, облегчая приложения, такие как генерация 3D на основе текста и изображений и текстурирование. MV-Adapter достигает генерации многозрительных изображений с разрешением 768 на Stable Diffusion XL (SDXL) и демонстрирует адаптивность и универсальность. Он также может быть расширен до генерации произвольных видов, обеспечивая более широкие применения. Мы показываем, что MV-Adapter устанавливает новый стандарт качества для генерации многозрительных изображений и открывает новые возможности благодаря своей эффективности, адаптивности и универсальности.
Недавние достижения в генерации изображений, сосредоточенных на одежде, на основе текстовых и изображенческих подсказок с использованием моделей диффузии впечатляют. Однако существующие методы не поддерживают различные комбинации одежды и испытывают трудности в сохранении деталей одежды при соблюдении верности текстовым подсказкам, что ограничивает их производительность в различных сценариях. В данной статье мы сосредотачиваемся на новой задаче, а именно, на многокомпонентном виртуальном одевании, и предлагаем новый метод AnyDressing для настройки персонажей в зависимости от любой комбинации одежды и любых персонализированных текстовых подсказок. AnyDressing включает две основные сети, названные GarmentsNet и DressingNet, которые посвящены извлечению подробных характеристик одежды и генерации настраиваемых изображений. В частности, мы предлагаем эффективный и масштабируемый модуль, названный Извлекатель Характеристик, специфичных для Одежды, в GarmentsNet для индивидуального кодирования текстур одежды параллельно. Этот дизайн предотвращает путаницу с одеждой, обеспечивая при этом эффективность сети. Тем временем, мы разрабатываем адаптивный механизм Внимания к Одеванию и новую стратегию Обучения Локализации Одежды на Уровне Экземпляра в DressingNet для точного внедрения многокомпонентных характеристик в соответствующие области. Этот подход эффективно интегрирует текстурные подсказки многокомпонентной одежды в созданные изображения и дополнительно улучшает согласованность текста и изображения. Кроме того, мы вводим стратегию Обучения Текстуры, Улучшенной Одеждой для улучшения деталей текстуры одежды. Благодаря нашему хорошо продуманному дизайну, AnyDressing может служить в качестве подключаемого модуля для легкой интеграции с любыми расширениями управления сообществом для моделей диффузии, улучшая разнообразие и управляемость синтезированных изображений. Обширные эксперименты показывают, что AnyDressing достигает лучших результатов в своем классе.
Руководство по атакам на основе текста с использованием отрицательного подсказывания стало широко применяемым подходом для отталкивания выходных характеристик от нежелательных концепций. Хотя это полезно, выполнение атак на основе текста одними лишь текстовыми данными может быть недостаточным для улавливания сложных визуальных концепций и избегания нежелательных визуальных элементов, таких как защищенные авторским правом персонажи. В данной статье мы впервые исследуем альтернативную модальность в этом направлении, выполняя атаки напрямую с использованием визуальных характеристик из исходного изображения или других изображений в пакете. В частности, мы представляем метод объединения отрицательных токенов (NegToMe), простой, но эффективный подход без обучения, который осуществляет атаки путем выборочного отталкивания соответствующих семантических характеристик (между исходным и сгенерированным изображениями) во время процесса обратного диффузии. При использовании относительно других изображений в одном пакете мы наблюдаем, что NegToMe значительно увеличивает разнообразие выходных данных (расовое, гендерное, визуальное), не жертвуя качеством выходного изображения. Аналогично, при использовании относительно защищенного авторским правом актива NegToMe помогает уменьшить визуальную схожесть с защищенным контентом на 34.57%. NegToMe легок в реализации с помощью всего нескольких строк кода, требует лишь незначительно большего времени вывода (<4%) и обобщается на различные архитектуры диффузии, такие как Flux, которые не поддерживают использование отдельного отрицательного подсказывания. Код доступен по адресу https://negtome.github.io
Большие языковые модели (LLM) стали вехой в искусственном интеллекте, и их производительность может улучшаться по мере увеличения размера модели. Однако это масштабирование создает большие вызовы для эффективности обучения и вывода, особенно при развертывании LLM в ресурсоемких средах, и тенденция масштабирования становится все более непосильной. В данной статье представлен концепт "плотности емкости" в качестве новой метрики для оценки качества LLM на различных масштабах и описывается тенденция LLM с точки зрения как эффективности, так и эффективности. Для расчета плотности емкости данной целевой LLM мы сначала вводим набор эталонных моделей и разрабатываем закон масштабирования для прогнозирования последующей производительности этих эталонных моделей на основе их размеров параметров. Затем мы определяем эффективный размер параметра целевой LLM как размер параметра, необходимый эталонной модели для достижения эквивалентной производительности, и формализуем плотность емкости как отношение эффективного размера параметра к фактическому размеру параметра целевой LLM. Плотность емкости предоставляет единый каркас для оценки как эффективности модели, так и эффективности. Наше дальнейшее анализ недавно опубликованных базовых LLM с открытым исходным кодом раскрывает эмпирический закон (закон уплотнения), согласно которому плотность емкости LLM экспоненциально растет со временем. Более конкретно, используя некоторые широко используемые бенчмарки для оценки, плотность емкости LLM удваивается примерно каждые три месяца. Этот закон предоставляет новые перспективы для руководства будущим развитием LLM, подчеркивая важность улучшения плотности емкости для достижения оптимальных результатов с минимальными вычислительными затратами.
Культурные предвзятости в многоязычных наборах данных представляют существенные вызовы для их эффективности в качестве глобальных бенчмарков. Эти предвзятости происходят не только из языка, но и из культурных знаний, необходимых для интерпретации вопросов, что снижает практическую полезность переведенных наборов данных, таких как MMLU. Более того, перевод часто вносит артефакты, которые могут исказить значение или ясность вопросов на целевом языке. Распространенной практикой в многоязычной оценке является использование машинных переведенных наборов данных для оценки, но простое переведение набора данных недостаточно для решения этих проблем. В данной работе мы отслеживаем влияние обеих этих проблем на многоязычные оценки и последующие результаты моделей. Наша масштабная оценка современных открытых и закрытых моделей показывает, что прогресс в MMLU в значительной степени зависит от изучения западно-центричных концепций, причем 28% всех вопросов требуют культурно чувствительных знаний. Более того, для вопросов, требующих географических знаний, удивительные 84,9% сосредоточены либо на североамериканском, либо на европейском регионах. Рейтинги оценок моделей меняются в зависимости от того, оцениваются ли они на полной части или на подмножестве вопросов, помеченных как культурно чувствительные, что показывает искажение рейтингов моделей при слепом полагании на переведенный MMLU. Мы выпускаем Global-MMLU, улучшенный MMLU с охватом оценки на 42 языках -- с улучшенным общим качеством путем взаимодействия с компенсированными профессиональными и сообщественными аннотаторами для проверки качества перевода, а также тщательной оценки культурных предвзятостей, присутствующих в исходном наборе данных. Этот всесторонний набор Global-MMLU также включает обозначенные подмножества, помеченные как культурно чувствительные и культурно агностические, чтобы обеспечить более глубокую, полную оценку.
Мы представляем Infinity, побитовую визуальную авторегрессионную модель, способную генерировать изображения высокого разрешения с фотореалистичным качеством в соответствии с языковым инструктажем. Infinity переопределяет модель визуальной авторегрессии в рамках битового прогнозирования токенов с использованием токенизатора и классификатора с бесконечным словарем и механизмом битовой самокоррекции, что значительно улучшает емкость и детализацию генерации. Путем теоретического масштабирования размера словаря токенизатора к бесконечности и параллельного масштабирования размера трансформера наш метод значительно раскрывает мощные возможности масштабирования по сравнению с обычной VAR. Infinity устанавливает новый рекорд для моделей текст-в-изображение с авторегрессией, превосходя лучшие модели диффузии, такие как SD3-Medium и SDXL. Заметно, что Infinity превосходит SD3-Medium, улучшая показатель бенчмарка GenEval с 0.62 до 0.73 и показатель бенчмарка ImageReward с 0.87 до 0.96, достигая победный результат в 66%. Без дополнительной оптимизации Infinity генерирует изображение размером 1024x1024 пикселя за 0.8 секунды, что в 2.6 раза быстрее, чем SD3-Medium, и утверждает себя как самая быстрая модель текст-в-изображение. Модели и коды будут опубликованы для поощрения дальнейшего исследования Infinity в области визуальной генерации и унифицированного моделирования токенизатора.
Мы представляем HumanEdit - высококачественный набор данных, вознаграждаемый людьми, специально разработанный для редактирования изображений по инструкциям, обеспечивая точные и разнообразные манипуляции изображениями через инструкции на естественном языке. Предыдущие масштабные наборы данных для редактирования часто включают минимальную обратную связь от людей, что приводит к трудностям в выравнивании наборов данных с предпочтениями людей. HumanEdit устраняет этот разрыв, привлекая человеческих аннотаторов для создания пар данных и администраторов для предоставления обратной связи. Благодаря тщательной кураторской работе, HumanEdit включает 5 751 изображение и требует более 2 500 часов человеческого труда на четырех этапах, обеспечивая как точность, так и надежность для широкого спектра задач по редактированию изображений. Набор данных включает шесть различных типов инструкций для редактирования: Действие, Добавить, Подсчет, Отношение, Удалить и Заменить, охватывая широкий спектр реальных сценариев. Все изображения в наборе данных сопровождаются масками, и для подмножества данных мы обеспечиваем достаточно детальные инструкции для поддержки редактирования без маски. Более того, HumanEdit предлагает обширное разнообразие и высокоразрешающий контент 1024 на 1024 пикселя из различных областей, устанавливая новый универсальный стандарт для наборов данных по инструкционному редактированию изображений. С целью продвижения будущих исследований и установления оценочных стандартов в области редактирования изображений мы выпускаем HumanEdit по адресу https://huggingface.co/datasets/BryanW/HumanEdit.
Многомодельные крупные языковые модели (MLLM) становятся все более важными благодаря своим передовым характеристикам и способности интегрировать несколько модальностей данных, таких как текст, изображения и звук, для выполнения сложных задач с высокой точностью. В данной статье представлен обширный обзор персонализированных многомодельных крупных языковых моделей, сосредоточенный на их архитектуре, методах обучения и применениях. Мы предлагаем интуитивную таксономию для классификации техник, используемых для персонализации MLLM для отдельных пользователей, и обсуждаем эти техники соответственно. Кроме того, мы обсуждаем, как такие техники могут быть объединены или адаптированы при необходимости, выделяя их преимущества и основные принципы. Мы также предоставляем краткое изложение задач персонализации, исследуемых в существующих исследованиях, вместе с общеиспользуемыми метриками оценки. Кроме того, мы подводим итоги наборам данных, которые полезны для оценки персонализированных MLLM. Наконец, мы обрисовываем основные открытые проблемы. Целью данного обзора является служить ценным ресурсом для исследователей и практиков, стремящихся понять и продвигать развитие персонализированных многомодельных крупных языковых моделей.
Понимание внутренних вычислений больших языковых моделей (LLM) критически важно для их согласования с человеческими ценностями и предотвращения нежелательных поведенческих аспектов, таких как генерация токсичного контента. Однако механистическая интерпретируемость затруднена полисемией, когда отдельные нейроны реагируют на несколько несвязанных концепций. В то время как разреженные автокодировщики (SAE) пытались разделить эти характеристики через разреженное обучение словаря, они компрометировали производительность LLM из-за зависимости от постобработки функции потерь восстановления. Для решения этой проблемы мы представляем архитектуру Mixture of Monosemantic Experts for Transformers (Monet), которая интегрирует разреженное обучение словаря непосредственно в предварительное обучение Mixture-of-Experts end-to-end. Наш новый метод декомпозиции экспертов позволяет масштабировать количество экспертов до 262 144 на слой, в то время как общее количество параметров масштабируется пропорционально квадратному корню от количества экспертов. Наши анализы демонстрируют взаимоисключающую природу знаний между экспертами и показывают параметрическое знание, заключенное в отдельных экспертах. Более того, Monet позволяет манипулировать знаниями в различных областях, языках и смягчать токсичность без ухудшения общей производительности. Наша работа по созданию прозрачных LLM подчеркивает потенциал увеличения количества экспертов для улучшения механистической интерпретируемости и прямого изменения внутренних знаний для фундаментальной коррекции поведения модели. Исходный код и предварительно обученные контрольные точки доступны по адресу https://github.com/dmis-lab/Monet.
Мы представляем OmniFlow, новую генеративную модель, разработанную для задач генерации любого к любому, таких как текст в изображение, текст в аудио и аудио в изображение. OmniFlow развивает рамки исправленного потока (RF), используемые в моделях текст в изображение, для работы с совместным распределением нескольких модальностей. Он превосходит предыдущие модели любого к любому на широком спектре задач, таких как синтез текста в изображение и текста в аудио. Наша работа предлагает три ключевых вклада: Во-первых, мы расширяем RF до мультимодальной среды и представляем новый механизм управления, позволяющий пользователям гибко контролировать соответствие между различными модальностями в сгенерированных выходных данных. Во-вторых, мы предлагаем новую архитектуру, которая расширяет архитектуру текст в изображение MMDiT Stable Diffusion 3 и позволяет генерацию аудио и текста. Расширенные модули могут быть эффективно предварительно обучены индивидуально и объединены с обычным текстом в изображение MMDiT для настройки. Наконец, мы проводим всестороннее исследование дизайнерских решений для преобразователей исправленного потока для генерации аудио и текста в масштабе, предоставляя ценные идеи для оптимизации производительности в различных модальностях. Код будет доступен по адресу https://github.com/jacklishufan/OmniFlows.
Футбол, как всемирно популярный вид спорта, привлекает широкий интерес болельщиков со всех уголков мира. Цель данной статьи - разработать комплексную мультимодальную систему для анализа видео матчей по футболу. В частности, в данной работе мы вносим следующие вклады: (i) мы представляем SoccerReplay-1988, самый крупный мультимодальный набор данных по футболу на сегодняшний день, включающий видео и подробные аннотации с 1,988 полных матчей, с использованием автоматизированного процесса аннотирования; (ii) мы представляем первую модель фундаментального визуально-языкового анализа в области футбола, MatchVision, которая использует пространственно-временную информацию по видео матчей и успешно справляется с различными задачами; (iii) мы проводим обширные эксперименты и исследования по классификации событий, генерации комментариев и распознаванию нарушений с разных ракурсов. MatchVision демонстрирует передовую производительность во всех этих задачах, значительно превосходя существующие модели, что подчеркивает превосходство наших предложенных данных и модели. Мы считаем, что данная работа установит стандартный парадигму для исследований в области понимания спорта.
Контрастно-обучаемые модели видео-языка (VLM), такие как CLIP, стали фактическим подходом к обучению дискриминативного представления видео-языка. Однако эти модели имеют ограниченное понимание языка, часто проявляя "мешок слов" поведение. В то же время большие модели видео-языка (LVLM), которые объединяют кодировщики видео с LLM, показали способность к детальному видео-языковому рассуждению, однако их авторегрессивная природа делает их менее подходящими для дискриминативных задач. В данной работе мы предлагаем объединить "лучшее из обоих миров": новый подход к обучению дискриминативной донастройки LVLM, который приводит к сильным дискриминативным и композиционным возможностям. По сути, наш подход преобразует генеративную LVLM в дискриминативную, разблокируя ее способность к мощной дискриминации изображений и текста в сочетании с улучшенным пониманием языка. Наши вклады включают: (1) Тщательно разработанную структуру обучения/оптимизации, которая использует пары изображений и текста переменной длины и структуры для обучения модели с использованием как контрастных, так и потерь предсказания следующего токена. Это сопровождается исследованиями абляции, которые обосновывают необходимость компонентов нашей структуры. (2) Метод адаптации с эффективными параметрами с использованием комбинации мягкого подсказывания и адаптеров LoRA. (3) Значительные улучшения по сравнению с современными моделями, подобными CLIP, схожего размера, включая стандартные бенчмарки поиска изображений и текста и заметные приросты в композициональности.
Большие языковые модели (LLM) достигли значительного прогресса в последние годы; однако их отличные показатели производительности по-прежнему в основном ограничены крупными мировыми языками, в основном английским. Многие LLM продолжают сталкиваться с проблемами в многоязычных задачах, особенно когда речь идет о языках с ограниченными ресурсами. Для решения этой проблемы мы представили Marco-LLM: Массовое многоязычное обучение для улучшения кросс-языковых LLM. Мы собрали значительное количество многоязычных данных для нескольких языков с ограниченными ресурсами и провели обширное непрерывное предварительное обучение с использованием моделей Qwen2. Эти усилия привели к созданию многоязычной LLM под названием Marco-LLM. После комплексной оценки на различных многоязычных бенчмарках, включая MMMLU, AGIEval, Belebele, Flores-200, XCOPA и многие другие, Marco-LLM продемонстрировал значительные улучшения по сравнению с современными LLM. Более того, Marco-LLM достиг значительных улучшений в задачах машинного перевода любого-на-любой, показывая эффективность нашей многоязычной LLM. Marco-LLM является передовой многоязычной LLM, разработанной не только для выдающихся результатов в многоязычных задачах, включая языки с ограниченными ресурсами, но и для поддержания высоких показателей производительности на английском и других крупных языках, сокращая разрыв в производительности между возможностями языков с высоким и ограниченным количеством ресурсов. Связывая языки, эти усилия демонстрируют наше стремление к обеспечению точной работы LLM в различных языках.
Недавние достижения в моделях видеодиффузии открыли новые возможности для реалистичной генерации аудио-управляемых видеороликов с разговорами. Однако достижение плавной синхронизации аудио и губ, поддержание долгосрочной согласованности личности и создание естественных, аудио-выравненных выражений в созданных видеороликах с разговорами остаются значительными вызовами. Для решения этих проблем мы предлагаем модель Memory-guided EMOtion-aware diffusion (MEMO), подход к генерации аудио-управляемой анимации портрета с учетом эмоций для создания согласованных личностей и выразительных видеороликов с разговорами. Наш подход построен вокруг двух ключевых модулей: (1) модуль временной памяти с управлением, который улучшает долгосрочную согласованность личности и плавность движения путем развития памятных состояний для хранения информации из более длительного контекста прошлого для направления временного моделирования с помощью линейного внимания; и (2) эмоциональный аудио-модуль, который заменяет традиционное кросс-внимание многомодальным вниманием для улучшения взаимодействия аудио-видео, одновременно обнаруживая эмоции из аудио для уточнения лицевых выражений через эмоционально-адаптивное слоенормирование. Обширные количественные и качественные результаты показывают, что MEMO генерирует более реалистичные видеоролики с разговорами по различным типам изображений и аудио, превосходя современные методы по общему качеству, синхронизации аудио и губ, согласованности личности и соответствию выражений и эмоций.
В данной статье мы предлагаем ZipAR - фреймворк параллельного декодирования, не требующий обучения, для ускорения авторегрессивной (AR) визуальной генерации. Мотивация возникла из наблюдения, что изображения обладают локальными структурами, и пространственно удаленные области обычно имеют минимальную взаимосвязь. Учитывая частично декодированный набор визуальных токенов, помимо оригинальной схемы предсказания следующего токена в строковом измерении, токены, соответствующие пространственно смежным областям в столбцовом измерении, могут быть декодированы параллельно, обеспечивая парадигму "предсказания следующего набора". Путем одновременного декодирования нескольких токенов за один проход уменьшается количество проходов, необходимых для генерации изображения, что приводит к существенному повышению эффективности генерации. Эксперименты показывают, что ZipAR может сократить количество проходов модели до 91% на модели Emu3-Gen без необходимости дополнительного переобучения.
Современные крупные языковые модели в основном основаны на структуре трансформеров только для декодирования, которые обладают отличными возможностями контекстного обучения (ICL). Общепризнано, что важным основанием для их способности к контекстному обучению является механизм индукционных головок, требующий как минимум двух слоев внимания. Для более эффективной реализации способности модели к индукции мы пересмотрели механизм индукционных головок и предложили внимание с сдвигом KV. Мы теоретически доказываем, что внимание с сдвигом KV снижает требования модели к глубине и ширине механизма индукционных головок. Наши экспериментальные результаты показывают, что внимание с сдвигом KV положительно влияет на обучение индукционных головок и языковое моделирование, что приводит к лучшей производительности или быстрее сходимости от игрушечных моделей к моделям предварительного обучения с более чем 10 млрд параметров.
Мы предлагаем 4Real-Video, новую концепцию для создания 4D видео, организованных в виде сетки видеокадров с временной и точки зрения осями. В этой сетке каждая строка содержит кадры, совпадающие по времени, в то время как каждый столбец содержит кадры с одной и той же точки зрения. Мы предлагаем новую двухпоточную архитектуру. Один поток выполняет обновления точки зрения по столбцам, а другой поток выполняет временные обновления по строкам. После каждого слоя диффузионного трансформатора слой синхронизации обменивается информацией между двумя потоками токенов. Мы предлагаем две реализации слоя синхронизации, используя либо жесткую, либо мягкую синхронизацию. Эта прямая архитектура улучшает предыдущие работы тремя способами: более высокая скорость вывода, улучшенное качество изображения (измеряемое по FVD, CLIP и VideoScore) и улучшенная временная и точечная согласованность (измеряемая по VideoScore и Dust3R-Confidence).
Несмотря на выдающуюся производительность мультимодальных крупных языковых моделей (MLLMs) в различных задачах, значительные затраты на обучение и вывод затрудняют их развитие. Большая часть вычислений происходит из-за огромного объема визионных токенов, обрабатываемых декодером трансформера. В данной статье мы предлагаем создать эффективные MLLMs, используя механизм Смеси Глубин (MoD), где каждый слой декодера трансформера выбирает важные визионные токены для обработки, пропуская избыточные. Однако интеграция MoD в MLLMs является нетривиальной. Для решения проблем стабильности обучения и вывода, а также ограниченности обучающих данных, мы адаптируем модуль MoD с двумя новыми дизайнами: тангенсальной нормализацией весов (TanhNorm) и симметричным перевзвешиванием токенов (STRing). Более того, мы замечаем, что визионные токены проявляют более высокую избыточность в более глубоких слоях, и поэтому разрабатываем стратегию прогрессивного уменьшения коэффициента удержания токенов (PRD), которая постепенно уменьшает соотношение удержания токенов слой за слоем, используя сдвинутое косинусное расписание. Этот ключевой дизайн полностью раскрывает потенциал MoD, значительно повышая эффективность и производительность наших моделей. Для проверки эффективности нашего подхода мы проводим обширные эксперименты с двумя базовыми моделями на 14 бенчмарках. Наша модель, p-MoD, соответствует или даже превосходит производительность базовых моделей, используя всего 55.6% TFLOPs и 53.8% кэш-памяти KV во время вывода, и 77.7% часов GPU во время обучения.
Несмотря на значительные достижения в моделях видео-языкового взаимодействия (VLM), отсутствуют эффективные подходы к улучшению качества ответов путем масштабирования вычислений во время вывода. Эта способность считается ключевым шагом к самоулучшающимся моделям в недавних исследованиях больших языковых моделей. В данной статье мы представляем модель видео-значений (VisVM), которая может направлять поиск во время вывода VLM для генерации ответов с лучшим визуальным пониманием. Конкретно, VisVM не только оценивает качество сгенерированного предложения на текущем этапе поиска, но и предвидит качество последующих предложений, которые могут возникнуть на основе текущего этапа, обеспечивая долгосрочную ценность. Таким образом, VisVM направляет VLM от генерации предложений, склонных к галлюцинациям или недостаточной детализации, что приводит к более качественным ответам. Экспериментальные результаты показывают, что поиск под управлением VisVM значительно улучшает способность VLM генерировать описательные подписи с более богатыми визуальными деталями и меньшим количеством галлюцинаций, по сравнению с жадным декодированием и методами поиска с другими визуальными сигналами вознаграждения. Более того, мы обнаружили, что самообучение модели с подписями, направляемыми VisVM, улучшает производительность VLM на широком спектре мультимодальных бенчмарков, указывая на потенциал развития самоулучшающихся VLM. Наша модель значений и код доступны по ссылке https://github.com/si0wang/VisVM.
Сегментация медицинских изображений недавно продемонстрировала впечатляющий прогресс с использованием глубоких нейронных сетей, однако гетерогенность модальностей и недостаток масок аннотаций ограничивают развитие моделей сегментации на неаннотированных модальностях. В данной статье исследуется новая парадигма использования генеративных моделей в медицинских приложениях: контролируемое синтезирование данных для неаннотированных модальностей без необходимости зарегистрированных пар данных. Конкретно, в данной статье мы вносим следующие вклады: (i) мы собираем и курируем крупномасштабный набор данных изображений и текстов радиологии, MedGen-1M, включающий метки модальности, атрибуты, информацию о регионе и органе, а также подмножество аннотаций масок органов для поддержки исследований в области контролируемой генерации медицинских изображений; (ii) мы предлагаем движок данных на основе диффузии, названный MRGen, который позволяет генерировать данные на основе текстовых подсказок и масок, синтезируя МР-изображения для различных модальностей, лишенных аннотаций масок, для обучения моделей сегментации на неаннотированных модальностях; (iii) мы проводим обширные эксперименты по различным модальностям, демонстрируя, что наш движок данных может эффективно синтезировать обучающие выборки и расширять сегментацию МРТ в сторону неаннотированных модальностей.
Извлечение таблиц из изображений документов представляет собой сложную проблему искусственного интеллекта, и размеченные данные для многих областей контента трудно найти. Существующие наборы данных для извлечения таблиц часто сосредоточены на научных таблицах из-за огромного количества доступных научных статей, а также их исходного кода. Однако существуют значительные различия в макете и типографике между таблицами, встречающимися в научных, финансовых и других областях. Текущие наборы данных часто не содержат слов и их позиции, находящихся в таблицах, вместо этого они полагаются на ненадежное оптическое распознавание символов для извлечения этих функций для обучения современных моделей машинного обучения на задачах обработки естественного языка. Поэтому существует необходимость в более общем методе получения размеченных данных. Мы представляем SynFinTabs, крупномасштабный размеченный набор данных синтетических финансовых таблиц. Надеемся, что наш метод генерации этих синтетических таблиц может быть применен и в других областях. Для демонстрации эффективности нашего набора данных в обучении моделей извлечения информации из изображений таблиц мы создаем FinTabQA, крупномасштабную языковую модель, обученную на задаче извлекающего вопросно-ответного взаимодействия. Мы тестируем нашу модель, используя реальные финансовые таблицы, сравниваем ее с передовой генеративной моделью и обсуждаем результаты. Мы предоставляем набор данных, модель и код генерации набора данных общественности.
Открытые платформы, управляемые сообществом, такие как Chatbot Arena, которые собирают данные о предпочтениях пользователей среди посетителей сайта, завоевали репутацию одного из наиболее надежных публично доступных бенчмарков для оценки производительности LLM. Хотя сейчас это стандартная практика, сложно реализовать эффективные меры безопасности для сбора аннотаций высокого качества от людей. В данной статье мы демонстрируем, что три источника плохих аннотаций, как злонамеренных, так и других, могут исказить надежность рейтингов открытого лидерборда. В частности, мы показываем, что всего лишь 10\% голосов низкого качества от апатичных (посетители сайта, которым не было должным образом предоставлено стимул для выдачи правильных голосов) или агрессивных (злоумышленники, стремящиеся завысить рейтинг целевой модели) аннотаторов могут изменить рейтинги моделей до 5 мест на лидерборде. Наконец, мы обсуждаем открытые проблемы обеспечения аннотаций высокого качества со стороны людей.
Мы разрабатываем законы масштабирования задач и модели лестниц для прогнозирования индивидуальной производительности задач предварительно обученных языковых моделей (ЯМ) в условиях переобучения. Стандартные степенные законы для потерь языкового моделирования не могут точно моделировать производительность задач. Поэтому мы используем двухэтапный подход к прогнозированию: сначала используем модель и размер данных для прогнозирования задачи-специфичных потерь, а затем используем эти потери для прогнозирования производительности задачи. Мы обучаем набор маломасштабных "лестничных" моделей, собираем данные для подгонки параметризованных функций двух этапов прогнозирования и делаем прогнозы для двух целевых моделей: модели 7B, обученной на 4T токенах, и модели 13B, обученной на 5T токенах. Обучение лестничных моделей стоит всего 1% от вычислительных ресурсов, использованных для целевых моделей. На четырех задачах с выбором из нескольких вариантов ответов, представленных в формате ранжированной классификации, мы можем предсказать точность обеих целевых моделей с погрешностью не более 2 пунктов. У нас есть более высокая погрешность прогнозирования на четырех других задачах (средняя абсолютная погрешность 6,9) и мы обнаружили, что это часто задачи с более высокой дисперсией метрик задачи. Мы также обнаружили, что использование меньшего количества вычислительных ресурсов для обучения меньшего количества лестничных моделей обычно ухудшает прогнозы. Наконец, мы эмпирически показываем, что наши выборы дизайна и двухэтапный подход приводят к более высокой производительности в установлении законов масштабирования.