Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем исчерпывающий отчет о сжатии моделей Llama 3.1 8B и Mistral NeMo 12B до параметров 4B и 8B соответственно с использованием стрижки и дистилляции. Мы исследуем две различные стратегии стрижки: (1) стрижку глубины и (2) совместную стрижку скрытых/внимания/MLP (ширины), и оцениваем результаты на общих бенчмарках из LM Evaluation Harness. Затем модели выравниваются с помощью NeMo Aligner и тестируются в версиях, настроенных для инструктажа. Этот подход порождает убедительную модель 4B из Llama 3.1 8B и современную модель Mistral-NeMo-Minitron-8B (MN-Minitron-8B для краткости) из Mistral NeMo 12B. Мы обнаружили, что без доступа к исходным данным полезно слегка донастроить учителей на наборе данных для дистилляции. Мы открываем исходные веса нашей базовой модели на Hugging Face с лицензией, разрешающей использование.
В данной работе мы обсуждаем оценку моделей основ видео справедливым и надежным способом. В отличие от моделей основ языка или изображений, многие модели основ видео оцениваются с различными параметрами (такими как частота дискретизации, количество кадров, количество предварительных шагов обучения и т. д.), что затрудняет справедливые и надежные сравнения. Поэтому мы представляем тщательно разработанную систему оценки для измерения двух основных способностей понимания видео: восприятия и понимания движения. Наши результаты показывают, что существующие модели основ видео, будь то модели с обучением по тексту, такие как UMT или InternVideo2, или модели с автообучением, такие как V-JEPA, проявляют ограничения по крайней мере в одной из этих способностей. В качестве альтернативы мы представляем TWLV-I, новую модель основ видео, которая создает надежные визуальные представления как для видео на основе движения, так и для видео на основе восприятия. Основываясь на средней точности верхнего уровня 1 при линейном зондировании на пяти бенчмарках распознавания действий, предобученных только на общедоступных наборах данных, наша модель показывает улучшение на 4.6% по сравнению с V-JEPA (ViT-L) и на 7.7% по сравнению с UMT (ViT-L). Даже при сравнении с гораздо более крупными моделями наша модель демонстрирует улучшение на 7.2% по сравнению с DFN (ViT-H), на 2.7% по сравнению с V-JEPA (ViT-H) и на 2.8% по сравнению с InternVideo2 (ViT-g). Мы предоставляем векторы встраивания, полученные TWLV-I из видео нескольких широко используемых бенчмарков видео, а также исходный код оценки, который может напрямую использовать эти встраивания. Код доступен на "https://github.com/twelvelabs-io/video-embeddings-evaluation-framework".
Для многих последующих приложений важно, чтобы LLM мог использовать полезную информацию из длинного контекста. Однако достижение больших длин контекста с помощью обычной архитектуры трансформера требует значительных ресурсов для обучения и вывода. В данной статье мы представляем FocusLLM, фреймворк, разработанный для расширения длины контекста любого LLM только с декодером, позволяющий модели сосредотачиваться на актуальной информации из очень длинных последовательностей. FocusLLM обрабатывает длинные текстовые входы, разделяя их на части на основе исходной длины контекста модели для уменьшения проблемы рассеянного внимания. Затем он добавляет локальный контекст к каждой части в качестве подсказки для извлечения важной информации из каждой части на основе нового параллельного механизма декодирования и, в конечном итоге, интегрирует извлеченную информацию в локальный контекст. FocusLLM выделяется своей высокой эффективностью обучения и универсальностью: обученный с длиной входа 8K с гораздо меньшими затратами на обучение, чем предыдущие методы, FocusLLM проявляет превосходную производительность на последующих задачах с длинным контекстом и сохраняет сильные способности моделирования языка при обработке обширных длинных текстов, даже до 400K токенов. Наш код доступен по адресу https://github.com/leezythu/FocusLLM.
В последние годы наблюдается значительный прогресс в генерации видео с возможностью управления на основе диффузии. Однако достижение точного контроля в сложных сценариях, включая детализированные части объектов, сложные траектории движения и согласованное движение фона, остается вызовом. В данной статье мы представляем TrackGo, новый подход, который использует маски и стрелки произвольной формы для условной генерации видео. Этот метод предлагает пользователям гибкий и точный механизм управления видеоконтентом. Мы также предлагаем TrackAdapter для реализации управления, эффективный и легкий адаптер, разработанный для плавной интеграции во временные слои самовнимания предварительно обученной модели генерации видео. Этот дизайн использует наше наблюдение о том, что карта внимания этих слоев может точно активировать области, соответствующие движению на видео. Наши экспериментальные результаты демонстрируют, что наш новый подход, улучшенный TrackAdapter, достигает передовых показателей по ключевым метрикам, таким как FVD, FID и ObjMC. Страницу проекта TrackGo можно найти по адресу: https://zhtjtcz.github.io/TrackGo-Page/
Большие мультимодальные модели (LMM) проявили свою компетентность во многих визуальных задачах. Хотя существует множество хорошо известных бенчмарков для оценки производительности модели, они все чаще оказываются недостаточными. В связи с этим существует настоятельная необходимость в новом поколении бенчмарков, достаточно сложных для следующего поколения LMM. Одной из областей, в которой LMM проявляют потенциал, является анализ графиков, в частности задачи, которые аналитик обычно выполняет при интерпретации графиков, такие как оценка среднего, пересечений или корреляций функций и данных. В данной работе мы представляем GRAB, бенчмарк анализа графиков, подходящий для текущих и будущих фронтовых LMM. Наш бенчмарк полностью синтетический, обеспечивая высококачественные, лишенные шума вопросы. GRAB состоит из 2170 вопросов, охватывающих четыре задачи и 23 свойства графиков. Мы оценили 20 LMM на GRAB и обнаружили, что это сложный бенчмарк, лучшая модель набрала всего 21,7%. Наконец, мы проводим различные абляции, чтобы исследовать, где модели преуспевают и сталкиваются с трудностями. Мы выпускаем GRAB, чтобы поощрить прогресс в этой важной, развивающейся области.
Модели диффузии текста в изображение (T2I) продемонстрировали впечатляющие возможности в генерации изображений высокого качества по текстовому запросу. Однако обеспечение соответствия между запросом и изображением остается значительной проблемой, то есть создание изображений, которые верно соответствуют семантике запроса. Недавние работы пытаются улучшить верность, оптимизируя скрытый код, что потенциально может привести к выходу скрытого кода за пределы распределения и, следовательно, к созданию нереалистичных изображений. В данной статье мы предлагаем FRAP, простой, но эффективный подход, основанный на адаптивной настройке весов токенов запроса для улучшения соответствия запроса и изображения и подлинности сгенерированных изображений. Мы разрабатываем онлайн-алгоритм для адаптивного обновления коэффициента веса каждого токена, что достигается путем минимизации объединенной целевой функции, стимулирующей присутствие объекта и связывание пар объект-модификатор. Через обширные оценки мы показываем, что FRAP генерирует изображения с значительно более высоким соответствием запроса и изображения для запросов из сложных наборов данных, при этом имея более низкую среднюю задержку по сравнению с недавними методами оптимизации скрытого кода, например, на 4 секунды быстрее, чем D&B на наборе данных COCO-Subject. Кроме того, через визуальные сравнения и оценку по метрике CLIP-IQA-Real мы показываем, что FRAP не только улучшает соответствие запроса и изображения, но также генерирует более аутентичные изображения с реалистичным внешним видом. Мы также исследуем комбинирование FRAP с моделью LLM для переписывания запроса для восстановления их ухудшенного соответствия запроса и изображения, где мы наблюдаем улучшения как в соответствии запроса и изображения, так и в качестве изображения.
Современные системы машинного обучения полагаются на большие наборы данных для достижения широкой обобщаемости, что часто представляет собой вызов в области обучения роботов, где каждая робототехническая платформа и задача могут иметь только небольшой набор данных. Обучая одну политику на различных видах роботов, метод обучения роботов может воспользоваться гораздо более широкими и разнообразными наборами данных, что в свою очередь может привести к лучшей обобщаемости и устойчивости. Однако обучение одной политики на мульти-роботных данных является сложной задачей из-за широкого разнообразия датчиков, исполнительных устройств и частоты управления у роботов. Мы предлагаем CrossFormer, масштабируемую и гибкую политику на основе трансформера, способную обрабатывать данные из любого воплощения. Мы обучаем CrossFormer на самом большом и разнообразном наборе данных на сегодняшний день, включающем 900 тыс. траекторий на 20 различных воплощениях роботов. Мы демонстрируем, что одни и те же веса сети могут управлять сильно отличающимися роботами, включая системы манипуляции с одним и двумя руками, колесные роботы, квадрокоптеры и четвероногих. В отличие от предыдущих работ, наша модель не требует ручного выравнивания пространств наблюдения или действий. Обширные эксперименты в реальном мире показывают, что наш метод соответствует производительности специализированных политик, настроенных для каждого воплощения, при этом значительно превосходит предыдущий уровень в области обучения на различных воплощениях.
Мы рассматриваем постоянное препятствие в моделях текст-к-изображению: точная генерация указанного количества объектов. Существующие модели, обученные на парах изображение-текст, имеют проблемы с подсчетом, так как обучающие данные не могут изображать каждое возможное количество объектов для любого данного объекта. Для решения этой проблемы мы предлагаем оптимизировать сгенерированное изображение на основе потерь от подсчета, полученных от модели подсчета, агрегирующей потенциал объекта. Использование готовой модели подсчета вызывает трудности по двум причинам: во-первых, модель требует гиперпараметр масштабирования для агрегации потенциала, изменяющийся в зависимости от точки зрения объектов, и во-вторых, техники направления классификатора требуют модифицированных моделей, работающих на шумных промежуточных этапах диффузии. Для решения этих проблем мы предлагаем итеративный режим онлайн-обучения, который улучшает точность выведенных изображений, изменяя вложение условия текста и динамически настраивая гиперпараметры. Наш метод предлагает три ключевых преимущества: (i) он может рассматривать недифференцируемые техники подсчета на основе моделей обнаружения, (ii) это решение "включи и играй", облегчающее быстрые изменения в техниках подсчета и методах генерации изображений, и (iii) оптимизированный токен подсчета может быть повторно использован для генерации точных изображений без дополнительной оптимизации. Мы оцениваем генерацию различных объектов и показываем значительное улучшение точности. Страница проекта доступна по адресу https://ozzafar.github.io/count_token.
Обнаружение данных вне диапазона (OOD) является важным в машинном обучении для смягчения риска чрезмерной уверенности модели, тем самым повышая надежность и безопасность развернутых систем. Большинство существующих методов обнаружения OOD в основном рассматривают уни-модальные входные данные, такие как изображения или тексты. В контексте мульти-модальных документов заметен недостаток обширных исследований по производительности этих методов, которые в основном были разработаны с упором на задачи компьютерного зрения. Мы предлагаем новую методологию, названную маскированием внимания головы (AHM) для мульти-модальных OOD задач в системах классификации документов. Наши эмпирические результаты демонстрируют, что предложенный метод AHM превосходит все существующие подходы и значительно снижает уровень ложноположительных срабатываний (FPR) по сравнению с существующими решениями до 7.5\%. Эта методология хорошо обобщается на мульти-модальные данные, такие как документы, где визуальная и текстовая информация моделируются в рамках одной и той же архитектуры Трансформера. Для решения проблемы недостатка качественных общедоступных наборов данных документов и поощрения дальнейших исследований по обнаружению OOD для документов мы представляем FinanceDocs, новый набор данных по искусственному интеллекту для документов. Наш код и набор данных общедоступны.
Системы визуального поиска сталкиваются с значительными проблемами при обновлении моделей с улучшенными представлениями из-за несоответствия между старыми и новыми представлениями. Затратный и ресурсоемкий процесс обновления включает пересчет векторов признаков для изображений в наборе галереи при введении новой модели. Для решения этой проблемы предыдущие исследования исследовали методы обратной совместимости обучения, которые позволяют прямые сравнения между новыми и старыми представлениями без обновления. Несмотря на эти достижения, достижение баланса между обратной совместимостью и производительностью независимо обученных моделей остается открытой проблемой. В данной статье мы решаем эту проблему путем расширения пространства представлений с дополнительными измерениями и обучения ортогонального преобразования для достижения совместимости со старыми моделями и одновременного интегрирования новой информации. Это преобразование сохраняет геометрию исходного пространства признаков, обеспечивая соответствие нашей модели предыдущим версиям, а также обучение новым данным. Наш подход Ортогонально Совместимое Выравнивание (OCA) устраняет необходимость повторного индексирования во время обновления модели и гарантирует, что признаки могут быть сравниваемы напрямую между различными обновлениями модели без дополнительных функций отображения. Экспериментальные результаты на CIFAR-100 и ImageNet-1k показывают, что наш метод не только сохраняет совместимость с предыдущими моделями, но и достигает точности на уровне передовых достижений, превосходя несколько существующих методов.
Большие языковые модели (LLM) склонны наследовать и усиливать общественные предвзятости, заложенные в их обучающих данных, что потенциально усиливает вредные стереотипы, связанные с гендером, профессиями и другими чувствительными категориями. Эта проблема становится особенно острой, поскольку предвзятые LLM могут иметь далеко идущие последствия, приводя к несправедливым практикам и усугубляя социальные неравенства в различных областях, таких как найм, модерация онлайн-контента или даже уголовная юстиция. Хотя предыдущие исследования сосредоточились на выявлении предвзятости в LLM с использованием специализированных наборов данных, разработанных для выявления внутренних предвзятостей, наблюдается значительное отсутствие изучения того, как эти результаты коррелируют с авторитетными наборами данных, такими как данные Национального бюро статистики труда США (NBLS). Для заполнения этого пробела мы проводим эмпирическое исследование, которое оценивает LLM в условиях "предвзятости из коробки", анализируя, как сгенерированные выводы сравниваются с распределениями, найденными в данных NBLS. Более того, мы предлагаем простой, но эффективный механизм дебиасинга, который непосредственно включает экземпляры NBLS для смягчения предвзятости в LLM. Наше исследование охватывает семь различных LLM, включая обучаемые, базовые и модели смеси экспертов, и выявляет значительные уровни предвзятости, которые часто упускаются при существующих методах выявления предвзятости. Важно отметить, что наш метод дебиасинга, не полагающийся на внешние наборы данных, продемонстрировал существенное снижение показателей предвзятости, подчеркивая эффективность нашего подхода в создании более справедливых и надежных LLM.
В рамках задач, представленных в рамках Инициативы по открытым языковым данным, мы расширили набор оценочных данных FLORES+ для включения языка Эмакхува, малоресурсного языка, широко используемого в Мозамбике. Мы перевели наборы dev и devtest с португальского на язык Эмакхува и подробно описываем процесс перевода и использованные меры контроля качества. Наш метод включал различные проверки качества, включая постредактирование и оценку адекватности. Полученные наборы данных состоят из нескольких эталонных предложений для каждого исходного предложения. Мы представляем базовые результаты обучения системы нейронного машинного перевода и донастройки существующих мультиязычных моделей перевода. Наши результаты показывают, что несоответствия в написании остаются вызовом для языка Эмакхува. Кроме того, базовые модели показали недостаточную производительность на этом наборе оценки, подчеркивая необходимость дальнейших исследований для улучшения качества машинного перевода для языка Эмакхува. Данные доступны публично по адресу https://huggingface.co/datasets/LIACC/Emakhuwa-FLORES.