Ежедневно отобранные исследовательские статьи по ИИ с переводами
Большие языковые модели все более становятся ключевой технологией в искусственном интеллекте, науке и обществе в целом, однако оптимальные стратегии составления и фильтрации наборов данных остаются в значительной степени неясными. Многие из лучших моделей не обладают прозрачностью в процессах курирования данных и разработки моделей, что создает препятствие для разработки полностью открытых языковых моделей. В данной статье мы выделяем три основных вызова, связанных с данными, которые необходимо решить для продвижения открытых языковых моделей с открытым исходным кодом. Эти вызовы включают в себя (1) прозрачность в разработке моделей, включая процесс курирования данных, (2) доступ к большим объемам высококачественных данных и (3) наличие артефактов и метаданных для курирования и анализа наборов данных. Для решения этих вызовов мы выпускаем RedPajama-V1, открытую репродукцию набора данных LLaMA. Кроме того, мы выпускаем RedPajama-V2, огромный набор данных только из веба, состоящий из необработанных текстовых данных вместе с сигналами качества и метаданными. Вместе наборы данных RedPajama охватывают более 100 триллионов токенов, охватывая несколько областей, и их сигналы качества облегчают фильтрацию данных, нацеленную на вдохновение разработки множества новых наборов данных. На сегодняшний день эти наборы данных уже использовались при обучении мощных языковых моделей, используемых в производстве, таких как Snowflake Arctic, XGen от Salesforce и OLMo от AI2. Для предоставления представления о качестве RedPajama мы представляем ряд анализов и исследований абляции с моделями языка только с декодером с до 1,6 миллиарда параметров. Наши результаты демонстрируют, как сигналы качества для веб-данных могут быть эффективно использованы для курирования высококачественных подмножеств набора данных, подчеркивая потенциал RedPajama для продвижения разработки прозрачных и высокопроизводительных языковых моделей в масштабе.
Скетч-анимации представляют собой мощное средство визуального повествования, начиная от простых зарисовок в стиле флип-бука и заканчивая профессиональными студийными производствами. В то время как для традиционной анимации требуется команда опытных художников для создания ключевых кадров и промежуточных кадров, существующие попытки автоматизации все еще требуют значительных художественных усилий через точные траектории движения или спецификацию ключевых кадров. Мы представляем FlipSketch, систему, которая возвращает магию флип-бук анимации -- просто нарисуйте свою идею и опишите, как вы хотите, чтобы она двигалась! Наш подход использует движущиеся априорные знания из моделей диффузии текста в видео, адаптируя их для создания скетч-анимаций через три ключевых инновации: (i) настройка для генерации кадров в стиле скетча, (ii) механизм опорного кадра, который сохраняет визуальную целостность входного скетча через улучшение шума, и (iii) двойная механизм внимания, который обеспечивает плавное движение без потери визуальной согласованности. В отличие от ограниченных векторных анимаций, наши растровые кадры поддерживают динамические преобразования скетчей, захватывая выразительную свободу традиционной анимации. Результатом является интуитивная система, которая делает скетч-анимацию такой же простой, как зарисовка и описание, сохраняя художественную сущность ручной анимации.
Модели генерации изображений с авторегрессией по непрерывным значениям (AR) продемонстрировали значительное превосходство над своими дискретными аналогами, обладая значительным качеством восстановления и более высокой достоверностью генерации. Однако вычислительные требования авторегрессионной структуры приводят к значительным накладным расходам при выводе. В то время как спекулятивное декодирование доказало свою эффективность в ускорении крупных языковых моделей (LLM), их адаптация к непрерывным визуальным авторегрессионным моделям остается неизученной. В данной работе обобщается алгоритм спекулятивного декодирования от дискретных токенов к непрерывному пространству. Анализируя внутренние свойства распределения вывода, мы устанавливаем настраиваемый критерий принятия для диффузионных распределений, характерных для таких моделей. Для преодоления несогласованности, возникшей в распределениях вывода спекулятивного декодирования, мы предлагаем методы выравнивания траектории денойзинга и предварительного заполнения токенов. Кроме того, мы выявляем распределение, сложное для выборки, в фазе отклонения. Для уменьшения этой проблемы мы предлагаем тщательный метод выборки с принятием и отклонением с соответствующей верхней границей, тем самым обходя сложные интеграции. Экспериментальные результаты показывают, что наше непрерывное спекулятивное декодирование обеспечивает замечательное ускорение в 2,33 раза на моделях «из коробки», сохраняя при этом распределение вывода. Коды будут доступны по адресу https://github.com/MarkXCloud/CSpD
Недавние достижения в основных моделях видеоязыковых моделей (VLM) переосмыслили парадигму оценки в задачах компьютерного зрения. Эти фундаментальные модели, особенно CLIP, ускорили исследования в задачах компьютерного зрения с открытым словарем, включая семантическую сегментацию с открытым словарем (OVSS). Хотя первоначальные результаты обнадеживающие, плотные возможности прогнозирования VLM все еще требуют дальнейшего улучшения. В данном исследовании мы улучшаем производительность семантической сегментации CLIP путем внедрения новых модулей и модификаций: 1) архитектурные изменения в последнем слое ViT и интеграция карт внимания из средних слоев с последним слоем, 2) Инженерия изображений: применение аугментаций данных для обогащения представлений входного изображения, и 3) использование больших языковых моделей (LLM) для генерации определений и синонимов для каждого названия класса для использования возможностей CLIP с открытым словарем. Наш метод обучения без обучения, ITACLIP, превосходит текущие передовые подходы на бенчмарках сегментации, таких как COCO-Stuff, COCO-Object, Pascal Context и Pascal VOC. Наш код доступен по адресу https://github.com/m-arda-aydn/ITACLIP.
Данная статья исследует быстро развивающуюся экосистему общедоступных моделей искусственного интеллекта и их потенциальное влияние на область безопасности. Поскольку модели искусственного интеллекта становятся все более распространенными, важно понимать их потенциальные риски и уязвимости. Мы рассматриваем текущие сценарии безопасности и безопасности, выделяя проблемы, такие как проблемы отслеживания, устранение и явное отсутствие процессов жизненного цикла и владения моделями искусственного интеллекта. Предлагаются комплексные стратегии для улучшения безопасности как для разработчиков моделей, так и для конечных пользователей. Цель данной статьи - предоставить некоторые основные элементы для более стандартизированной безопасности, безопасности и прозрачности в разработке и эксплуатации моделей искусственного интеллекта, а также в более крупных открытых экосистемах и сообществах, формирующихся вокруг них.
Динамическое управление объектами в руке остается сложной задачей для мягких робототехнических систем, которые продемонстрировали преимущества в безопасном совместимом взаимодействии, но испытывают трудности с высокоскоростными динамическими задачами. В данной работе мы представляем SWIFT, систему для обучения динамическим задачам с использованием мягкой и совместимой робототехнической руки. В отличие от предыдущих работ, основанных на симуляции, квазистатических действиях и точных моделях объектов, предлагаемая система учится крутить ручку через пробу и ошибку, используя только реальные данные, не требуя явного предварительного знания физических характеристик ручки. С помощью самообучающихся проб, собранных из реального мира, система находит набор параметров примитивов захвата и вращения ручки, который позволяет мягкой руке надежно и стабильно вращать ручку. После 130 собранных действий на каждый объект SWIFT достигает 100% успешных результатов на трех ручках с разными весами и распределением веса, демонстрируя обобщаемость системы и устойчивость к изменениям свойств объектов. Результаты подчеркивают потенциал мягких робототехнических конечных элементов для выполнения динамических задач, включая быструю манипуляцию в руке. Мы также демонстрируем, что SWIFT обобщается на вращение предметов с разными формами и весами, такими как кисть и отвертка, которые мы вращаем соответственно с успехом в 10 из 10 и 5 из 10 случаев. Видео, данные и код доступны на https://soft-spin.github.io.
Существующие методы оценки качества изображений (IQA) достигают значительных успехов в анализе качества для общего изображения, но немногие работы исследуют анализ качества для Областей Интереса (ROIs). Анализ качества ROIs может обеспечить детальное руководство для улучшения качества изображения и является критическим для сценариев, сосредоточенных на качестве на уровне области. В данной статье предлагается новая сеть, SEAGULL, которая может Видеть и Оценивать качество ROIs с Поддержкой от Большой модели видео-языка. SEAGULL включает модель видео-языка (VLM), маски, сгенерированные моделью Segment Anything Model (SAM) для определения ROIs, а также тщательно разработанный Извлекатель Признаков на Основе Маски (MFE) для извлечения глобальных и локальных токенов для указанных ROIs, обеспечивая точную детальную оценку качества ROIs. Более того, в данной статье созданы два набора данных для оценки качества на основе ROIs, SEAGULL-100w и SEAGULL-3k, для обучения и оценки оценки качества на основе ROIs. SEAGULL-100w включает около 100 тыс. синтетических изображений с искажениями с 33 миллионами ROIs для предварительного обучения с целью улучшения способности модели к восприятию качества на уровне области, а SEAGULL-3k содержит около 3 тыс. аутентичных искаженных ROIs для улучшения способности модели воспринимать искажения реального мира. После предварительного обучения на SEAGULL-100w и донастройки на SEAGULL-3k SEAGULL показывает замечательные результаты в оценке качества ROIs с высокой детализацией. Код и наборы данных доступны публично по адресу https://github.com/chencn2020/Seagull.
Большие языковые модели (LLM) на основе архитектур трансформеров революционизировали различные области, причем токенизация играет ключевую роль в их предварительной обработке и настройке. В мультиязычных моделях, особенно тех, которые адаптированы для индийских языков, эффективная токенизация имеет решающее значение для оптимизации производительности. В данной статье представлено всестороннее оценивание токенизаторов, использованных 12 LLM для всех 22 официальных языков Индии, с акцентом на сравнение эффективности их процессов токенизации. Мы использовали нормализованную длину последовательности (NSL) в качестве ключевой метрики в нашем анализе. Наши результаты показывают, что токенизатор SUTRA превосходит все другие модели, включая несколько моделей, специализированных на индийские языки, превосходя их в 14 языках. Заметные выводы включают в себя более эффективную обработку индийских языков токенизатором SUTRA, прогресс GPT-4o по сравнению с его предшественником GPT-4 в обработке индийских языков, а также ограниченную производительность Project Indus в некоторых языках. Это исследование подчеркивает критическое значение разработки целевых стратегий токенизации для мультиязычных и индийских моделей, заложив основу для будущих улучшений в проектировании токенизаторов для улучшения языкового охвата и эффективности модели.