HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

10 papers found

Meltemi: Первая открытая большая языковая модель для греческого языка
Meltemi: The first open Large Language Model for Greek

Jul 30

ByLeon Voukoutis, Dimitris Roussis, Georgios Paraskevopoulos, Sokratis Sofianopoulos, Prokopis Prokopidis, Vassilis Papavasileiou, Athanasios Katsamanis, Stelios Piperidis, Vassilis Katsouros

Мы описываем разработку и возможности Meltemi 7B, первой открытой большой языковой модели для греческого языка. Meltemi 7B имеет 7 миллиардов параметров и обучается на корпусе греческого языка объемом 40 миллиардов токенов. Для разработки Meltemi 7B мы адаптировали Mistral, продолжая предварительное обучение на греческом корпусе. Meltemi 7B содержит актуальную информацию по состоянию на сентябрь 2023 года. Кроме того, мы перевели и отредактировали корпус греческих инструкций, который использовался для настройки чат-модели под названием Meltemi 7B Instruct. Было уделено особое внимание выравниванию и удалению токсичного контента для Meltemi 7B Instruct. Разработанные модели оцениваются на широком наборе собранных оценочных корпусов, и приводятся примеры подсказок и ответов. Обе модели, Meltemi 7B и Meltemi 7B Instruct, доступны на https://huggingface.co/ilsp под лицензией Apache 2.0.

Большое семейство базовых моделей кодировщик-декодировщик для химического языка
A Large Encoder-Decoder Family of Foundation Models For Chemical Language

Jul 24

ByEduardo Soares, Victor Shirasuna, Emilio Vital Brazil, Renato Cerqueira, Dmitry Zubarev, Kristin Schmidt

Методологии масштабного предварительного обучения для химических языковых моделей представляют собой прорыв в химинформатике. Эти методы отлично справляются с задачами, такими как предсказание свойств и генерация молекул, обучая контекстуализированные представления входных токенов через самообучение на больших неразмеченных корпусах. Обычно это включает предварительное обучение на неразмеченных данных, за которым следует настройка на конкретные задачи, снижая зависимость от размеченных наборов данных и расширяя понимание химического языка. В данной статье представлены крупные предварительно обученные химические модели основы кодировщик-декодировщик на отобранном наборе данных из 91 миллиона образцов SMILES, взятых из PubChem, что эквивалентно 4 миллиардам молекулярных токенов. Предложенная модель основы поддерживает различные сложные задачи, включая предсказание квантовых свойств, и обладает гибкостью с двумя основными вариантами (289M и 8times289M). Наши эксперименты на нескольких эталонных наборах данных подтверждают способность предложенной модели предоставлять передовые результаты для различных задач. Мы также предоставляем предварительную оценку композициональности пространства вложений как предпосылки для задач рассуждения. Мы демонстрируем, что полученное латентное пространство разделимо по сравнению с передовыми методами с возможностями обучения на небольшом количестве примеров.

ТонкийК: Уменьшение размера кэша ключей с помощью обрезки, управляемой запросами
ThinK: Thinner Key Cache by Query-Driven Pruning

Jul 30

ByYuhui Xu, Zhanming Jie, Hanze Dong, Lei Wang, Xudong Lu, Aojun Zhou, Amrita Saha, Caiming Xiong, Doyen Sahoo

Большие языковые модели (LLM) революционизировали область обработки естественного языка, достигая беспрецедентной производительности в различных приложениях за счет увеличения размеров моделей и длины последовательностей. Однако рост вычислительных и памятных затрат представляет существенные вызовы, особенно в управлении длинными последовательностями из-за квадратичной сложности механизма внимания трансформера. В данной статье рассматривается сценарий с длинным контекстом, решая проблемы неэффективного использования памяти KV-кэша во время вывода. В отличие от существующих подходов, оптимизирующих память на основе длины последовательностей, мы обнаруживаем, что размер канала KV-кэша обладает значительной избыточностью, характеризуемой несбалансированным распределением величин и низкоранговой структурой весов внимания. Исходя из этих наблюдений, мы предлагаем ThinK, новый метод обрезки KV-кэша, зависящий от запроса, разработанный для минимизации потерь веса внимания при селективном обрезании наименее значимых каналов. Наш подход не только поддерживает или улучшает точность модели, но также обеспечивает снижение затрат памяти более чем на 20% по сравнению с обычными методами вытеснения KV-кэша. Обширные оценки на моделях LLaMA3 и Mistral на различных длинных последовательностях подтверждают эффективность ThinK, устанавливая новый прецедент для эффективного развертывания LLM без ущерба производительности. Мы также обрисовываем потенциал расширения нашего метода на обрезку кэша значений, демонстрируя универсальность и широкие возможности ThinK в снижении как памятных, так и вычислительных нагрузок.

Адаптация классификатора безопасности рабочей среды для малайского языка: улучшение Выравнивания в рамках LLM-Ops Framework
Adapting Safe-for-Work Classifier for Malaysian Language Text: Enhancing Alignment in LLM-Ops Framework

Jul 30

ByAisyah Razak, Ariff Nazhan, Kamarul Adha, Wan Adzhar Faiq Adzlan, Mas Aisyah Ahmad, Ammar Azman

Поскольку большие языковые модели (LLM) все более интегрируются в операционные рабочие процессы (LLM-Ops), существует настоятельная необходимость в эффективных ограждениях для обеспечения безопасного и согласованного взаимодействия, включая способность обнаруживать потенциально небезопасный или неподходящий контент на разных языках. Однако существующие классификаторы безопасности рабочего места в основном сосредоточены на английском тексте. Для заполнения этого пробела для малайского языка мы представляем новый классификатор текста безопасного для работы, разработанный специально для контента на малайском языке. Путем составления и аннотирования уникального набора данных малайского текста, охватывающего несколько категорий контента, мы обучили модель классификации, способную идентифицировать потенциально небезопасный материал с использованием передовых техник обработки естественного языка. Эта работа представляет собой важный шаг в обеспечении безопасного взаимодействия и фильтрации контента для смягчения потенциальных рисков и обеспечения ответственного развертывания LLM. Для максимизации доступности и поощрения дальнейших исследований по улучшению согласованности в LLM-Ops для малайского контекста модель общедоступно доступна по адресу https://huggingface.co/malaysia-ai/malaysian-sfw-classifier.

Матирование методом генерации
Matting by Generation

Jul 30

ByZhixiang Wang, Baiang Li, Jian Wang, Yu-Lun Liu, Jinwei Gu, Yung-Yu Chuang, Shin'ichi Satoh

Эта статья представляет инновационный подход к матированию изображений, который переосмысливает традиционную задачу на основе регрессии как задачу генеративного моделирования. Наш метод использует возможности моделей латентной диффузии, обогащенных обширными предварительно обученными знаниями, для регуляризации процесса матирования. Мы представляем новые архитектурные инновации, которые делают нашу модель способной создавать маски с превосходным разрешением и деталями. Предложенный метод универсален и способен выполнять как матирование изображений без руководства, так и на основе руководства, учитывая различные дополнительные подсказки. Наше всестороннее оценивание на трех стандартных наборах данных демонстрирует превосходное качество работы нашего подхода как количественно, так и качественно. Результаты не только отражают эффективность нашего метода, но и подчеркивают его способность генерировать визуально убедительные маски, приближающиеся к фотореалистичному качеству. Страница проекта для этой статьи доступна по адресу https://lightchaserx.github.io/matting-by-generation/

Knesset-DictaBERT: Языковая модель на иврите для парламентских процедур
Knesset-DictaBERT: A Hebrew Language Model for Parliamentary Proceedings

Jul 30

ByGili Goldin, Shuly Wintner

Мы представляем Knesset-DictaBERT, большую модель на иврите, донастроенную на корпусе Кнессета, включающем парламентские заседания Израиля. Модель основана на архитектуре DictaBERT и демонстрирует значительные улучшения в понимании парламентского языка в рамках задачи MLM. Мы предоставляем подробную оценку производительности модели, показывая улучшения в перплексии и точности по сравнению с базовой моделью DictaBERT.

Агенты с диффузионным усилением: Фреймворк для эффективного исследования и обучения передаче
Diffusion Augmented Agents: A Framework for Efficient Exploration and Transfer Learning

Jul 30

ByNorman Di Palo, Leonard Hasenclever, Jan Humplik, Arunkumar Byravan

Мы представляем Diffusion Augmented Agents (DAAG), новую концепцию, которая использует большие языковые модели, модели видео-языка и модели диффузии для улучшения эффективности выборки и обучения с переносом в обучении с подкреплением для инкорпорированных агентов. DAAG переосмысливает опыт агента, используя модели диффузии для преобразования видео таким образом, чтобы они соответствовали целевым инструкциям во временном и геометрическом аспектах с использованием метода, который мы называем Hindsight Experience Augmentation. Большая языковая модель оркестрирует этот автономный процесс без необходимости человеческого наблюдения, что делает его подходящим для сценариев пожизненного обучения. Этот фреймворк сокращает количество данных с разметкой наград, необходимых для 1) донастройки модели видео-языка, действующей как детектор награды, и 2) обучения агентов с подкреплением на новых задачах. Мы демонстрируем прирост эффективности выборки DAAG в симулированных средах робототехники, включающих манипуляции и навигацию. Наши результаты показывают, что DAAG улучшает обучение детекторов наград, перенос прошлого опыта и освоение новых задач - ключевые навыки для развития эффективных агентов пожизненного обучения. Дополнительные материалы и визуализации доступны на нашем веб-сайте https://sites.google.com/view/diffusion-augmented-agents/

Futga: К утонченному пониманию музыки через временно усиленное генеративное увеличение.
Futga: Towards Fine-grained Music Understanding through Temporally-enhanced Generative Augmentation

Jul 29

ByJunda Wu, Zachary Novack, Amit Namburi, Jiaheng Dai, Hao-Wen Dong, Zhouhang Xie, Carol Chen, Julian McAuley

Существующие методы подписывания музыки ограничены генерацией кратких общих описаний коротких музыкальных клипов, которые не улавливают тонкие музыкальные характеристики и изменения музыкального времени. Для решения этих ограничений мы предлагаем FUTGA, модель, оснащенную возможностями тонкой музыкальной интерпретации через обучение на основе генеративного увеличения с темпоральными композициями. Мы используем существующие наборы данных для подписывания музыки и большие языковые модели (LLM) для синтеза тонких музыкальных подписей с структурными описаниями и временными границами для полноформатных песен. Усиленный предложенным синтетическим набором данных, FUTGA способен идентифицировать временные изменения в музыке на ключевых точках перехода и их музыкальные функции, а также генерировать подробные описания для каждого музыкального сегмента. Мы также представляем набор данных полноформатных подписей музыки, сгенерированный FUTGA, как дополнение к наборам данных MusicCaps и Song Describer. Мы оцениваем автоматически сгенерированные подписи на нескольких задачах вторичной обработки, включая генерацию и поиск музыки. Эксперименты демонстрируют качество сгенерированных подписей и лучшую производительность в различных задачах вторичной обработки, достигнутую предложенным подходом к подписыванию музыки. Наш код и наборы данных можно найти по ссылке https://huggingface.co/JoshuaW1997/FUTGA.

JaColBERTv2.5: Оптимизация многовекторных извлекателей для создания Современных японских извлекателей с ограниченными ресурсами
JaColBERTv2.5: Optimising Multi-Vector Retrievers to Create State-of-the-Art Japanese Retrievers with Constrained Resources

Jul 30

ByBenjamin Clavié

Извлечение информации с использованием нейронных сетей быстро развивается на языках с высокими ресурсами, но прогресс на языках с низкими ресурсами, таких как японский, затрудняется из-за недостатка данных, среди прочих проблем. В результате мультиязычные модели доминируют в извлечении информации на японском языке, несмотря на их вычислительные неэффективности и неспособность улавливать лингвистические тонкости. Недавние много-векторные монолингвальные модели, такие как JaColBERT, сузили эту разницу, однако они все еще отстают от мультиязычных методов в крупномасштабных оценках. В данной работе рассматриваются неоптимальные методы обучения много-векторных извлекателей в условиях низких ресурсов, с акцентом на японском языке. Мы систематически оцениваем и улучшаем ключевые аспекты вывода и настроек обучения JaColBERT, а также, более широко, много-векторные модели. Мы дополнительно повышаем производительность через новый этап объединения контрольных точек, демонстрируя его эффективность в сочетании преимуществ донастройки с возможностями обобщения исходной контрольной точки. Основываясь на нашем анализе, мы представляем новый метод обучения, что приводит к модели JaColBERTv2.5. JaColBERTv2.5, с всего 110 миллионами параметров и обученная менее чем за 15 часов на 4 GPU A100, значительно превосходит все существующие методы по всем общим бенчмаркам, достигая среднего показателя 0.754, значительно выше предыдущего лучшего показателя в 0.720. Для поддержки будущих исследований мы делаем наши конечные модели, промежуточные контрольные точки и все использованные данные общедоступными.

Извлечение текстовых и структурированных данных из репозитория публикаций HAL.
Harvesting Textual and Structured Data from the HAL Publication Repository

Jul 30

ByFrancis Kulumba, Wissam Antoun, Guillaume Vimont, Laurent Romary

HAL (Hyper Articles en Ligne) - это репозиторий национальных публикаций Франции, используемый большинством организаций высшего образования и исследований для своей политики открытой науки. Как цифровая библиотека, он представляет собой богатый репозиторий научных документов, однако его потенциал для продвинутых исследований остается недооцененным. Мы представляем HALvest, уникальный набор данных, который сокращает разрыв между сетями цитирования и полным текстом статей, представленных в HAL. Мы создаем наш набор данных, фильтруя HAL для научных публикаций, что приводит к примерно 700 000 документам на 34 языках в 13 определенных областях, подходящих для обучения языковых моделей, и общим объемом примерно 16,5 миллиарда токенов (8 миллиардов на французском и 7 миллиардов на английском, наиболее представленные языки). Мы преобразуем метаданные каждой статьи в сеть цитирования, создавая направленный гетерогенный граф. Этот граф включает уникально идентифицируемых авторов на HAL, а также все открытые представленные статьи и их цитирования. Мы предоставляем базовую линию для атрибуции авторства с использованием набора данных, реализуем ряд передовых моделей в обучении представлений графа для предсказания связей и обсуждаем полезность структуры нашего сгенерированного графа знаний.

ТонкийК: Уменьшение размера кэша ключей с помощью обрезки, управляемой запросами
ThinK: Thinner Key Cache by Query-Driven Pruning

Jul 30

ByYuhui Xu, Zhanming Jie, Hanze Dong, Lei Wang, Xudong Lu, Aojun Zhou, Amrita Saha, Caiming Xiong, Doyen Sahoo