HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

9 papers found

RedPajama: открытый набор данных для обучения больших языковых моделей
RedPajama: an Open Dataset for Training Large Language Models

Nov 19

ByMaurice Weber, Daniel Fu, Quentin Anthony, Yonatan Oren, Shane Adams, Anton Alexandrov, Xiaozhong Lyu, Huu Nguyen, Xiaozhe Yao, Virginia Adams, Ben Athiwaratkun, Rahul Chalamala, Kezhen Chen, Max Ryabinin, Tri Dao, Percy Liang, Christopher Ré, Irina Rish, Ce Zhang

Большие языковые модели все более становятся ключевой технологией в искусственном интеллекте, науке и обществе в целом, однако оптимальные стратегии составления и фильтрации наборов данных остаются в значительной степени неясными. Многие из лучших моделей не обладают прозрачностью в процессах курирования данных и разработки моделей, что создает препятствие для разработки полностью открытых языковых моделей. В данной статье мы выделяем три основных вызова, связанных с данными, которые необходимо решить для продвижения открытых языковых моделей с открытым исходным кодом. Эти вызовы включают в себя (1) прозрачность в разработке моделей, включая процесс курирования данных, (2) доступ к большим объемам высококачественных данных и (3) наличие артефактов и метаданных для курирования и анализа наборов данных. Для решения этих вызовов мы выпускаем RedPajama-V1, открытую репродукцию набора данных LLaMA. Кроме того, мы выпускаем RedPajama-V2, огромный набор данных только из веба, состоящий из необработанных текстовых данных вместе с сигналами качества и метаданными. Вместе наборы данных RedPajama охватывают более 100 триллионов токенов, охватывая несколько областей, и их сигналы качества облегчают фильтрацию данных, нацеленную на вдохновение разработки множества новых наборов данных. На сегодняшний день эти наборы данных уже использовались при обучении мощных языковых моделей, используемых в производстве, таких как Snowflake Arctic, XGen от Salesforce и OLMo от AI2. Для предоставления представления о качестве RedPajama мы представляем ряд анализов и исследований абляции с моделями языка только с декодером с до 1,6 миллиарда параметров. Наши результаты демонстрируют, как сигналы качества для веб-данных могут быть эффективно использованы для курирования высококачественных подмножеств набора данных, подчеркивая потенциал RedPajama для продвижения разработки прозрачных и высокопроизводительных языковых моделей в масштабе.

FlipSketch: Преобразование статических рисунков в анимации скетчей с помощью текстового руководства
FlipSketch: Flipping Static Drawings to Text-Guided Sketch Animations

Nov 16

ByHmrishav Bandyopadhyay, Yi-Zhe Song

Скетч-анимации представляют собой мощное средство визуального повествования, начиная от простых зарисовок в стиле флип-бука и заканчивая профессиональными студийными производствами. В то время как для традиционной анимации требуется команда опытных художников для создания ключевых кадров и промежуточных кадров, существующие попытки автоматизации все еще требуют значительных художественных усилий через точные траектории движения или спецификацию ключевых кадров. Мы представляем FlipSketch, систему, которая возвращает магию флип-бук анимации -- просто нарисуйте свою идею и опишите, как вы хотите, чтобы она двигалась! Наш подход использует движущиеся априорные знания из моделей диффузии текста в видео, адаптируя их для создания скетч-анимаций через три ключевых инновации: (i) настройка для генерации кадров в стиле скетча, (ii) механизм опорного кадра, который сохраняет визуальную целостность входного скетча через улучшение шума, и (iii) двойная механизм внимания, который обеспечивает плавное движение без потери визуальной согласованности. В отличие от ограниченных векторных анимаций, наши растровые кадры поддерживают динамические преобразования скетчей, захватывая выразительную свободу традиционной анимации. Результатом является интуитивная система, которая делает скетч-анимацию такой же простой, как зарисовка и описание, сохраняя художественную сущность ручной анимации.

SymDPO: Усиление контекстного обучения больших мультимодальных моделей с оптимизацией прямых предпочтений символов.
SymDPO: Boosting In-Context Learning of Large Multimodal Models with Symbol Demonstration Direct Preference Optimization

Nov 17

ByHongrui Jia, Chaoya Jiang, Haiyang Xu, Wei Ye, Mengfan Dong, Ming Yan, Ji Zhang, Fei Huang, Shikun Zhang

По мере масштабирования языковых моделей, Большие Языковые Модели (LLM) проявляют возрастающие возможности в Обучении в Контексте (ICL), что позволяет им решать языковые задачи, добавляя несколько демонстраций в контексте (ICD) в качестве контекста. Вдохновленные этими достижениями, исследователи расширили эти техники для разработки Больших Мультимодальных Моделей (LMM) с возможностями ICL. Однако существующие LMM сталкиваются с критической проблемой: они часто не могут эффективно использовать визуальный контекст в мультимодальных демонстрациях и вместо этого просто следуют текстовым шаблонам. Это указывает на то, что LMM не достигают эффективного соответствия между мультимодальными демонстрациями и выходами модели. Для решения этой проблемы мы предлагаем Оптимизацию Прямого Предпочтения Символов в Демонстрациях (SymDPO). Конкретно, SymDPO нацелено на изменение традиционной парадигмы построения мультимодальных демонстраций путем замены текстовых ответов в примерах случайными символами. Это заставляет модель внимательно понимать изображения демонстрации и устанавливать связь между изображениями и символами для правильного ответа на вопросы. Мы подтверждаем эффективность этого метода на нескольких бенчмарках, показывая, что с SymDPO LMM могут более эффективно понимать мультимодальный контекст в примерах и использовать это знание для лучшего ответа на вопросы.

Непрерывное спекулятивное декодирование для авторегрессивной генерации изображений
Continuous Speculative Decoding for Autoregressive Image Generation

Nov 18

ByZili Wang, Robert Zhang, Kun Ding, Qi Yang, Fei Li, Shiming Xiang

Модели генерации изображений с авторегрессией по непрерывным значениям (AR) продемонстрировали значительное превосходство над своими дискретными аналогами, обладая значительным качеством восстановления и более высокой достоверностью генерации. Однако вычислительные требования авторегрессионной структуры приводят к значительным накладным расходам при выводе. В то время как спекулятивное декодирование доказало свою эффективность в ускорении крупных языковых моделей (LLM), их адаптация к непрерывным визуальным авторегрессионным моделям остается неизученной. В данной работе обобщается алгоритм спекулятивного декодирования от дискретных токенов к непрерывному пространству. Анализируя внутренние свойства распределения вывода, мы устанавливаем настраиваемый критерий принятия для диффузионных распределений, характерных для таких моделей. Для преодоления несогласованности, возникшей в распределениях вывода спекулятивного декодирования, мы предлагаем методы выравнивания траектории денойзинга и предварительного заполнения токенов. Кроме того, мы выявляем распределение, сложное для выборки, в фазе отклонения. Для уменьшения этой проблемы мы предлагаем тщательный метод выборки с принятием и отклонением с соответствующей верхней границей, тем самым обходя сложные интеграции. Экспериментальные результаты показывают, что наше непрерывное спекулятивное декодирование обеспечивает замечательное ускорение в 2,33 раза на моделях «из коробки», сохраняя при этом распределение вывода. Коды будут доступны по адресу https://github.com/MarkXCloud/CSpD

ITACLIP: Увеличение эффективности обучения без обучающего набора данных с помощью улучшений изображения, текста и архитектуры.
ITACLIP: Boosting Training-Free Semantic Segmentation with Image, Text, and Architectural Enhancements

Nov 18

ByM. Arda Aydın, Efe Mert Çırpar, Elvin Abdinli, Gozde Unal, Yusuf H. Sahin

Недавние достижения в основных моделях видеоязыковых моделей (VLM) переосмыслили парадигму оценки в задачах компьютерного зрения. Эти фундаментальные модели, особенно CLIP, ускорили исследования в задачах компьютерного зрения с открытым словарем, включая семантическую сегментацию с открытым словарем (OVSS). Хотя первоначальные результаты обнадеживающие, плотные возможности прогнозирования VLM все еще требуют дальнейшего улучшения. В данном исследовании мы улучшаем производительность семантической сегментации CLIP путем внедрения новых модулей и модификаций: 1) архитектурные изменения в последнем слое ViT и интеграция карт внимания из средних слоев с последним слоем, 2) Инженерия изображений: применение аугментаций данных для обогащения представлений входного изображения, и 3) использование больших языковых моделей (LLM) для генерации определений и синонимов для каждого названия класса для использования возможностей CLIP с открытым словарем. Наш метод обучения без обучения, ITACLIP, превосходит текущие передовые подходы на бенчмарках сегментации, таких как COCO-Stuff, COCO-Object, Pascal Context и Pascal VOC. Наш код доступен по адресу https://github.com/m-arda-aydn/ITACLIP.

Построение доверия: основы безопасности, надежности и прозрачности в искусственном интеллекте
Building Trust: Foundations of Security, Safety and Transparency in AI

Nov 19

ByHuzaifa Sidhpurwala, Garth Mollett, Emily Fox, Mark Bestavros, Huamin Chen

Данная статья исследует быстро развивающуюся экосистему общедоступных моделей искусственного интеллекта и их потенциальное влияние на область безопасности. Поскольку модели искусственного интеллекта становятся все более распространенными, важно понимать их потенциальные риски и уязвимости. Мы рассматриваем текущие сценарии безопасности и безопасности, выделяя проблемы, такие как проблемы отслеживания, устранение и явное отсутствие процессов жизненного цикла и владения моделями искусственного интеллекта. Предлагаются комплексные стратегии для улучшения безопасности как для разработчиков моделей, так и для конечных пользователей. Цель данной статьи - предоставить некоторые основные элементы для более стандартизированной безопасности, безопасности и прозрачности в разработке и эксплуатации моделей искусственного интеллекта, а также в более крупных открытых экосистемах и сообществах, формирующихся вокруг них.

Мягкая динамическая робототехника для вращения ручки в руке
Soft Robotic Dynamic In-Hand Pen Spinning

Nov 19

ByYunchao Yao, Uksang Yoo, Jean Oh, Christopher G. Atkeson, Jeffrey Ichnowski

Динамическое управление объектами в руке остается сложной задачей для мягких робототехнических систем, которые продемонстрировали преимущества в безопасном совместимом взаимодействии, но испытывают трудности с высокоскоростными динамическими задачами. В данной работе мы представляем SWIFT, систему для обучения динамическим задачам с использованием мягкой и совместимой робототехнической руки. В отличие от предыдущих работ, основанных на симуляции, квазистатических действиях и точных моделях объектов, предлагаемая система учится крутить ручку через пробу и ошибку, используя только реальные данные, не требуя явного предварительного знания физических характеристик ручки. С помощью самообучающихся проб, собранных из реального мира, система находит набор параметров примитивов захвата и вращения ручки, который позволяет мягкой руке надежно и стабильно вращать ручку. После 130 собранных действий на каждый объект SWIFT достигает 100% успешных результатов на трех ручках с разными весами и распределением веса, демонстрируя обобщаемость системы и устойчивость к изменениям свойств объектов. Результаты подчеркивают потенциал мягких робототехнических конечных элементов для выполнения динамических задач, включая быструю манипуляцию в руке. Мы также демонстрируем, что SWIFT обобщается на вращение предметов с разными формами и весами, такими как кисть и отвертка, которые мы вращаем соответственно с успехом в 10 из 10 и 5 из 10 случаев. Видео, данные и код доступны на https://soft-spin.github.io.

ЧАЙКА: Оценка качества изображения без ссылок для областей интереса через настройку инструкций зрительного языка
SEAGULL: No-reference Image Quality Assessment for Regions of Interest via Vision-Language Instruction Tuning

Nov 15

ByZewen Chen, Juan Wang, Wen Wang, Sunhan Xu, Hang Xiong, Yun Zeng, Jian Guo, Shuxun Wang, Chunfeng Yuan, Bing Li, Weiming Hu

Существующие методы оценки качества изображений (IQA) достигают значительных успехов в анализе качества для общего изображения, но немногие работы исследуют анализ качества для Областей Интереса (ROIs). Анализ качества ROIs может обеспечить детальное руководство для улучшения качества изображения и является критическим для сценариев, сосредоточенных на качестве на уровне области. В данной статье предлагается новая сеть, SEAGULL, которая может Видеть и Оценивать качество ROIs с Поддержкой от Большой модели видео-языка. SEAGULL включает модель видео-языка (VLM), маски, сгенерированные моделью Segment Anything Model (SAM) для определения ROIs, а также тщательно разработанный Извлекатель Признаков на Основе Маски (MFE) для извлечения глобальных и локальных токенов для указанных ROIs, обеспечивая точную детальную оценку качества ROIs. Более того, в данной статье созданы два набора данных для оценки качества на основе ROIs, SEAGULL-100w и SEAGULL-3k, для обучения и оценки оценки качества на основе ROIs. SEAGULL-100w включает около 100 тыс. синтетических изображений с искажениями с 33 миллионами ROIs для предварительного обучения с целью улучшения способности модели к восприятию качества на уровне области, а SEAGULL-3k содержит около 3 тыс. аутентичных искаженных ROIs для улучшения способности модели воспринимать искажения реального мира. После предварительного обучения на SEAGULL-100w и донастройки на SEAGULL-3k SEAGULL показывает замечательные результаты в оценке качества ROIs с высокой детализацией. Код и наборы данных доступны публично по адресу https://github.com/chencn2020/Seagull.

Оценка производительности токенизатора крупных языковых моделей на официальных индийских языках
Evaluating Tokenizer Performance of Large Language Models Across Official Indian Languages

Nov 19

ByS. Tamang, D. J. Bora

Большие языковые модели (LLM) на основе архитектур трансформеров революционизировали различные области, причем токенизация играет ключевую роль в их предварительной обработке и настройке. В мультиязычных моделях, особенно тех, которые адаптированы для индийских языков, эффективная токенизация имеет решающее значение для оптимизации производительности. В данной статье представлено всестороннее оценивание токенизаторов, использованных 12 LLM для всех 22 официальных языков Индии, с акцентом на сравнение эффективности их процессов токенизации. Мы использовали нормализованную длину последовательности (NSL) в качестве ключевой метрики в нашем анализе. Наши результаты показывают, что токенизатор SUTRA превосходит все другие модели, включая несколько моделей, специализированных на индийские языки, превосходя их в 14 языках. Заметные выводы включают в себя более эффективную обработку индийских языков токенизатором SUTRA, прогресс GPT-4o по сравнению с его предшественником GPT-4 в обработке индийских языков, а также ограниченную производительность Project Indus в некоторых языках. Это исследование подчеркивает критическое значение разработки целевых стратегий токенизации для мультиязычных и индийских моделей, заложив основу для будущих улучшений в проектировании токенизаторов для улучшения языкового охвата и эффективности модели.

RedPajama: открытый набор данных для обучения больших языковых моделей
RedPajama: an Open Dataset for Training Large Language Models

Nov 19