Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Разбор SDXL Turbo: Интерпретация моделей текст-в-изображение с помощью разреженных автоэнкодеров
Unpacking SDXL Turbo: Interpreting Text-to-Image Models with Sparse Autoencoders

Oct 28

ByViacheslav Surkov, Chris Wendler, Mikhail Terekhov, Justin Deschenaux, Robert West, Caglar Gulcehre

Разреженные автокодировщики (SAE) стали ключевым элементом в обратной разработке крупных языковых моделей (LLM). Для LLM они показали способность декомпозировать промежуточные представления, которые часто нельзя интерпретировать напрямую, на разреженные суммы интерпретируемых признаков, облегчая лучший контроль и последующий анализ. Однако аналогичные анализы и подходы отсутствовали для моделей текст-изображение. Мы исследовали возможность использования SAE для изучения интерпретируемых признаков для моделей диффузии текст-изображение с несколькими этапами, таких как SDXL Turbo. Для этого мы обучаем SAE на обновлениях, выполняемых блоками трансформера в денойзинг U-Net SDXL Turbo. Мы обнаружили, что их изученные признаки интерпретируемы, вызывают причинное влияние на процесс генерации и раскрывают специализацию среди блоков. В частности, мы обнаружили один блок, который в основном занимается композицией изображения, один, который в основном отвечает за добавление локальных деталей, и один за цвет, освещение и стиль. Таким образом, наша работа является важным первым шагом к лучшему пониманию внутренностей генеративных моделей текст-изображение, таких как SDXL Turbo, и демонстрирует потенциал признаков, изученных SAE, для визуальной области. Код доступен по ссылке https://github.com/surkovv/sdxl-unbox

Что происходит в слоях LLMs при обучении для быстрого и медленного мышления: градиентная перспектива
What Happened in LLMs Layers when Trained for Fast vs. Slow Thinking: A Gradient Perspective

Oct 31

ByMing Li, Yanhong Li, Tianyi Zhou

Что влияет на пост-тренировку крупных языковых моделей (LLM)? Мы исследуем паттерны обучения различных слоев в крупных языковых моделях (LLM) через призму градиента при обучении с разными ответами и начальными моделями. Мы специально интересуемся тем, как быстрое мышление по сравнению с медленным влияет на градиенты слоев, учитывая недавнюю популярность обучения LLM на путях рассуждений, таких как цепочка мыслей (CoT) и процесс вознаграждения. В нашем исследовании быстрое мышление без CoT приводит к более крупным градиентам и большим различиям градиентов между слоями, чем медленное мышление (Детальный CoT), указывая на устойчивость обучения, привнесенную последним. Более того, предварительно обученные LLM менее подвержены нестабильности быстрого мышления, чем LLM, настроенные на инструкции. Кроме того, мы изучаем, могут ли паттерны градиента отражать правильность ответов при обучении различных LLM с использованием путей медленного и быстрого мышления. Результаты показывают, что градиенты медленного мышления могут различать правильные и неправильные пути рассуждений. В качестве сравнения мы проводим анализ аналогичных градиентов на задачах обучения знаний без рассуждений, на которых, однако, тривиальное увеличение длины ответа не приводит к аналогичным поведенческим особенностям медленного мышления. Наше исследование укрепляет фундаментальное понимание обучения LLM и предлагает новые идеи относительно его эффективности и стабильности, что открывает путь к созданию обобщаемого агента System-2. Наш код, данные и статистика градиента доступны по ссылке: https://github.com/MingLiiii/Layer_Gradient.

Подход на основе сети указателей для совместного извлечения и обнаружения мультиклассовых намерений с мультиязычными метками.
A Pointer Network-based Approach for Joint Extraction and Detection of Multi-Label Multi-Class Intents

Oct 29

ByAnkan Mullick, Sombit Bose, Abhilash Nandy, Gajula Sai Chaitanya, Pawan Goyal

В задачевых диалоговых системах обнаружение намерений играет ключевую роль в интерпретации запросов пользователей и предоставлении соответствующих ответов. Существующие исследования в основном затрагивают простые запросы с одним намерением, не обеспечивая эффективных систем для обработки сложных запросов с несколькими намерениями и извлечения различных интервалов намерений. Кроме того, отмечается значительное отсутствие мультиязычных, мульти-намеренческих наборов данных. В данном исследовании рассматриваются три критических задачи: извлечение нескольких интервалов намерений из запросов, обнаружение нескольких намерений и разработка мультиязычного мульти-меткированного набора данных намерений. Мы представляем новый набор данных для обнаружения множественных меток намерений (MLMCID-dataset), собранный из существующих эталонных наборов данных. Мы также предлагаем архитектуру на основе сети указателей (MLMCID) для извлечения интервалов намерений и обнаружения нескольких намерений с грубыми и мелкозернистыми метками в виде шестерок. Комплексный анализ демонстрирует превосходство нашей системы на основе сети указателей над базовыми подходами в терминах точности и F1-меры на различных наборах данных.

SelfCodeAlign: Самовыравнивание для генерации кода
SelfCodeAlign: Self-Alignment for Code Generation

Oct 31

ByYuxiang Wei, Federico Cassano, Jiawei Liu, Yifeng Ding, Naman Jain, Zachary Mueller, Harm de Vries, Leandro von Werra, Arjun Guha, Lingming Zhang

Настройка инструкций - это метод обучения с учителем, который значительно улучшает способность крупных языковых моделей (LLM) следовать человеческим инструкциям. Мы предлагаем SelfCodeAlign - первый полностью прозрачный и разрешающий конвейер для самоприведения кодовых LLM без обширных человеческих аннотаций или дистилляции. SelfCodeAlign использует ту же базовую модель для вывода на протяжении процесса генерации данных. Сначала извлекаются разнообразные кодовые концепции из высококачественных исходных фрагментов для создания новых задач. Затем для каждой задачи выбираются несколько ответов, каждый из которых сопоставляется с тестовыми случаями и проверяется в песочнице. Наконец, проходящие примеры выбираются для настройки инструкций. В наших первичных экспериментах мы используем SelfCodeAlign с CodeQwen1.5-7B для создания набора данных из 74 тыс. пар инструкция-ответ. Обучение на этом наборе данных приводит к модели, которая достигает 67,1 pass@1 на HumanEval+, превосходя CodeLlama-70B-Instruct, несмотря на то, что она в десять раз меньше. На всех бенчмарках эта донастройка модели последовательно превосходит оригинальную версию, обученную с помощью OctoPack, предыдущего передового метода для настройки инструкций без человеческих аннотаций или дистилляции. Кроме того, мы показываем, что SelfCodeAlign эффективен для LLM различных размеров, от 3B до 33B, и что базовые модели могут получить больше выгоды от выравнивания с их собственным распределением данных. Мы также подтверждаем эффективность каждого компонента в нашем конвейере, показывая, что SelfCodeAlign превосходит как прямую дистилляцию из GPT-4o, так и ведущие методы дистилляции на основе GPT-3.5, такие как OSS-Instruct и Evol-Instruct. SelfCodeAlign также привел к созданию StarCoder2-Instruct - первой полностью прозрачной, разрешающей лицензии и самоприведенной кодовой LLM, которая достигает передовой производительности в кодировании.

BitStack: Тонкое управление размером для сжатых больших языковых моделей в переменных памятных средах
BitStack: Fine-Grained Size Control for Compressed Large Language Models in Variable Memory Environments

Oct 31

ByXinghao Wang, Pengyu Wang, Bo Wang, Dong Zhang, Yunhua Zhou, Xipeng Qiu

Большие языковые модели (LLM) революционизировали множество приложений, однако их внедрение продолжает сталкиваться с ограничениями памяти на локальных устройствах. Хотя законы масштабирования улучшили возможности LLM, основное узкое место перешло от возможностей к доступности, что подчеркивает необходимость эффективного управления памятью. Традиционные методы сжатия, такие как квантование, часто требуют заранее определенных коэффициентов сжатия и отдельных процессов сжатия для каждой настройки, что усложняет внедрение в переменные среды памяти. В данной статье мы представляем BitStack, новый подход к сжатию весов без обучения, который позволяет достигать компромиссов на уровне мегабайт между использованием памяти и производительностью модели. Используя декомпозицию весов, BitStack может динамически настраивать размер модели с минимальной передачей между рабочей памятью и устройствами хранения. Наш подход итеративно декомпозирует матрицы весов, учитывая значимость каждого параметра, что приводит к приблизительно 1 биту на остаточный блок параметров в каждой итерации декомпозиции. Эти блоки сортируются и складываются в хранилище как базовые блоки передачи, и различные количества загружаются в зависимости от текущей доступной памяти. Обширные эксперименты по широкому спектру задач показывают, что, несмотря на предложение управления размером с высокой детализацией, BitStack последовательно соответствует или превосходит сильные базовые значения квантования, особенно при экстремальных коэффициентах сжатия. На наш взгляд, это первый метод на основе декомпозиции, который эффективно сокращает разрыв до практических методов сжатия, таких как квантование. Код доступен на https://github.com/xinghaow99/BitStack.

Языковые модели могут самостоятельно увеличивать длину для генерации длинных текстов.
Language Models can Self-Lengthen to Generate Long Texts

Oct 31

ByShanghaoran Quan, Tianyi Tang, Bowen Yu, An Yang, Dayiheng Liu, Bofei Gao, Jianhong Tu, Yichang Zhang, Jingren Zhou, Junyang Lin

Недавние достижения в области крупных языковых моделей (LLM) значительно улучшили их способность обрабатывать длинные контексты, однако остается заметный разрыв в генерации длинных, выровненных выводов. Это ограничение происходит из разрыва в обучении, где предварительное обучение не обеспечивает эффективных инструкций для генерации длинных текстов, а данные после обучения в основном состоят из коротких пар запрос-ответ. Текущие подходы, такие как обратный перевод инструкций и имитация поведения, сталкиваются с проблемами, включая качество данных, авторские права и ограничения на использование собственных моделей. В данной статье мы представляем инновационную итеративную обучающую структуру под названием Self-Lengthen, которая использует только внутренние знания и навыки LLM без необходимости во вспомогательных данных или собственных моделях. Структура состоит из двух ролей: Генератора и Расширителя. Генератор производит первоначальный ответ, который затем разделяется и расширяется Расширителем. Этот процесс приводит к новому, более длинному ответу, который используется для итеративного обучения как Генератора, так и Расширителя. Через этот процесс модели постепенно обучаются обрабатывать все более длинные ответы. Эксперименты на стандартных наборах данных и оценки людей показывают, что Self-Lengthen превосходит существующие методы в генерации длинных текстов, когда применяется к ведущим открытым LLM, таким как Qwen2 и LLaMA3. Наш код общедоступен по адресу https://github.com/QwenLM/Self-Lengthen.

Ограничение обратного перевода улучшает выполнение сложных инструкций большими языковыми моделями.
Constraint Back-translation Improves Complex Instruction Following of Large Language Models

Oct 31

ByYunjia Qi, Hao Peng, Xiaozhi Wang, Bin Xu, Lei Hou, Juanzi Li

Большие языковые модели (LLM) испытывают трудности в следовании инструкциям с комплексными ограничениями по формату, длине и т. д. Следуя традиционной практике настройки инструкций, предыдущие работы проводят пост-тренировку на сложных парах инструкция-ответ, сгенерированных путем подачи сложных инструкций продвинутым LLM. Однако даже продвинутые LLM не могут хорошо следовать сложным инструкциям, что ограничивает качество сгенерированных данных. В данной работе мы обнаружили, что существующие наборы данных в себе несут внутренние неявные сложные ограничения, и предложили новую технику генерации данных, обратный перевод ограничений. Конкретно, мы берем высококачественные пары инструкция-ответ из существующих наборов данных и применяем только продвинутые LLM для добавления сложных ограничений, которые уже соответствуют ответам на инструкции, что естественным образом снижает затраты и шум данных. В экспериментах мы используем Llama3-70B-Instruct для обратного перевода ограничений и создаем высококачественный набор данных сложных пар инструкция-ответ, названный CRAB. Мы демонстрируем, что пост-тренировка на CRAB улучшает способность нескольких основных LLM следовать сложным инструкциям, оцененную на обширных бенчмарках следования инструкциям. Мы также обнаружили, что обратный перевод ограничений также служит полезной вспомогательной целью обучения в пост-тренировке. Наш код, данные и модели будут опубликованы для облегчения будущих исследований.

NeuZip: Обучение и вывод с динамической компрессией нейронных сетей для эффективного использования памяти
NeuZip: Memory-Efficient Training and Inference with Dynamic Compression of Neural Networks

Oct 28

ByYongchang Hao, Yanshuai Cao, Lili Mou

Производительность нейронных сетей улучшается при использовании большего количества параметров. Однако размеры моделей ограничены доступной памятью на устройстве во время обучения и вывода результатов. Хотя применение техник, таких как квантование, может смягчить это ограничение, они страдают от снижения производительности. В данной работе мы представляем NeuZip, новую схему сжатия весов, основанную на энтропии чисел с плавающей запятой в нейронных сетях. С помощью NeuZip мы можем добиться эффективного использования памяти при обучении и выводе результатов без ущерба производительности. Значительно уменьшаем объем памяти, необходимый для обучения модели Llama-3 8B с 31 ГБ до менее 16 ГБ, при этом полностью сохраняя динамику обучения. В выводе наш метод может уменьшить использование памяти более чем вдвое, сохраняя при этом почти без потерь производительность. Наш код доступен публично.

AAAR-1.0: Оценка потенциала ИИ в помощи исследованиям
AAAR-1.0: Assessing AI's Potential to Assist Research

Oct 29

ByRenze Lou, Hanzi Xu, Sijia Wang, Jiangshu Du, Ryo Kamoi, Xiaoxin Lu, Jian Xie, Yuxuan Sun, Yusen Zhang, Jihyun Janice Ahn, Hongchao Fang, Zhuoyang Zou, Wenchao Ma, Xi Li, Kai Zhang, Congying Xia, Lifu Huang, Wenpeng Yin

Многочисленные исследования оценили профессионализм систем искусственного интеллекта, в частности, больших языковых моделей (БЯМ), в облегчении повседневных задач, таких как написание электронных писем, ответы на вопросы и генерация творческого контента. Однако исследователи сталкиваются с уникальными вызовами и возможностями в использовании БЯМ для своей работы, таких как генерация идей для исследований, разработка экспериментов и написание или рецензирование статей. В данном исследовании мы представляем AAAR-1.0, набор данных-бенчмарк, разработанный для оценки производительности БЯМ в трех фундаментальных, требующих экспертного уровня задачах исследований: (i) EquationInference, оценка правильности уравнений на основе контекстуальной информации в статьях; (ii) ExperimentDesign, разработка экспериментов для проверки идей и решений исследований; (iii) PaperWeakness, выявление слабых мест в статьях; и (iv) REVIEWCRITIQUE, выявление недостатков в каждом сегменте человеческих рецензий. AAAR-1.0 отличается от предыдущих бенчмарков двумя ключевыми способами: во-первых, он явно ориентирован на исследования, с задачами, требующими глубокой предметной экспертизы; во-вторых, он ориентирован на исследователей, отражая основные деятельности, которыми занимаются исследователи ежедневно. Оценка как открытых, так и закрытых БЯМ показывает их потенциал, а также ограничения в выполнении сложных исследовательских задач. Мы будем продолжать совершенствовать AAAR-1.0 к новым версиям.

Обучение видеопредставлений без использования естественных видео.
Learning Video Representations without Natural Videos

Oct 31

ByXueyang Yu, Xinlei Chen, Yossi Gandelsman

В данной статье мы показываем, что полезные видеорепрезентации могут быть изучены из синтетических видео и естественных изображений, без включения естественных видео в обучение. Мы предлагаем прогрессию видео-наборов данных, синтезированных простыми генеративными процессами, которые моделируют растущий набор свойств естественного видео (например, движение, ускорение и преобразования формы). Результативность видео-моделей, предварительно обученных на этих сгенерированных наборах данных, постепенно увеличивается с прогрессией набора данных. Модель VideoMAE, предварительно обученная на наших синтетических видео, закрывает 97,2% разрыва в производительности по классификации действий UCF101 между обучением с нуля и предварительным самообучением на естественных видео, и превосходит предварительно обученную модель на HMDB51. Введение обрезанных статических изображений на этапе предварительного обучения приводит к схожей производительности с предварительным обучением на UCF101 и превосходит предварительно обученную модель UCF101 на 11 из 14 наборов данных UCF101-P, не входящих в распределение. Анализируя низкоуровневые свойства наборов данных, мы выявляем корреляции между разнообразием кадров, сходством кадров с естественными данными и результативностью на следующем этапе. Наш подход предоставляет более управляемую и прозрачную альтернативу процессам курирования видео-данных для предварительного обучения.

Навигация в неизвестном: чат-ориентированный коллаборативный интерфейс для персонализированных исследовательских задач
Navigating the Unknown: A Chat-Based Collaborative Interface for Personalized Exploratory Tasks

Oct 31

ByYingzhe Peng, Xiaoting Qin, Zhiyang Zhang, Jue Zhang, Qingwei Lin, Xu Yang, Dongmei Zhang, Saravan Rajmohan, Qi Zhang

Возникновение больших языковых моделей (LLM) революционизировало взаимодействие пользователей с системами на основе знаний, позволяя чатботам синтезировать огромные объемы информации и помогать в выполнении сложных исследовательских задач. Однако чатботы на основе LLM часто испытывают затруднения в предоставлении персонализированной поддержки, особенно когда пользователи начинают с нечетких запросов или не обладают достаточной контекстной информацией. В данной статье представлена Совместная помощница для персонализированного исследования (CARE), система, разработанная для улучшения персонализации в исследовательских задачах путем объединения многоагентной структуры LLM с структурированным пользовательским интерфейсом. Интерфейс CARE состоит из Панели Чата, Панели Решений и Панели Потребностей, обеспечивая итеративное уточнение запросов и динамическую генерацию решений. Многоагентная структура сотрудничает для выявления как явных, так и неявных потребностей пользователей, предоставляя настроенные, действенные решения. В рамках пользовательского исследования внутри предметной области с участием 22 участников CARE была последовательно предпочтительнее базового чатбота на основе LLM, пользователи высоко оценили ее способность снижать когнитивную нагрузку, вдохновлять креативность и предоставлять более настроенные решения. Наши результаты подчеркивают потенциал CARE трансформировать системы на основе LLM от пассивных поисковиков информации до активных партнеров в персонализированном решении проблем и исследовании.

BenchX: Единая система оценки для медицинского видео-языкового предварительного обучения на рентгенограммах грудной клетки
BenchX: A Unified Benchmark Framework for Medical Vision-Language Pretraining on Chest X-Rays

Oct 29

ByYang Zhou, Tan Li Hui Faith, Yanyu Xu, Sicong Leng, Xinxing Xu, Yong Liu, Rick Siow Mong Goh

Предварительное обучение медицинской зрительно-языковой модели (MedVLP) показывает перспективы в обучении обобщенных и переносимых визуальных представлений на основе парных и непарных медицинских изображений и отчетов. MedVLP может предоставлять полезные характеристики для последующих задач и облегчать адаптацию моделей, специфичных для задач, к новым настройкам с использованием меньшего количества примеров. Однако существующие методы MedVLP часто различаются по наборам данных, предварительной обработке и реализации дообучения. Это создает значительные трудности при оценке того, насколько хорошо метод MedVLP обобщается на различные клинически значимые задачи из-за отсутствия унифицированного, стандартизированного и всестороннего бенчмарка. Для заполнения этого пробела мы предлагаем BenchX, унифицированную систему бенчмарков, которая позволяет сравнивать и систематически анализировать методы MedVLP с использованием общедоступных наборов данных рентгеновских снимков груди. Конкретно, BenchX состоит из трех компонентов: 1) Обширные наборы данных, охватывающие девять наборов данных и четыре медицинские задачи; 2) Наборы бенчмарков для стандартизации предварительной обработки данных, разделения на обучающие и тестовые выборки и выбора параметров; 3) Унифицированные протоколы дообучения, которые адаптируют разнообразные методы MedVLP для последовательной адаптации к задачам классификации, сегментации и генерации отчетов, соответственно. Используя BenchX, мы устанавливаем базовые показатели для девяти передовых методов MedVLP и обнаружили, что производительность некоторых ранних методов MedVLP может быть улучшена до превосходства более поздних, что подталкивает к пересмотру разработок и выводов из предыдущих работ в области MedVLP. Наш код доступен по ссылке https://github.com/yangzhou12/BenchX.

DELTA: Плотное эффективное трехмерное отслеживание на большие расстояния для любого видео
DELTA: Dense Efficient Long-range 3D Tracking for any video

Oct 31

ByTuan Duc Ngo, Peiye Zhuang, Chuang Gan, Evangelos Kalogerakis, Sergey Tulyakov, Hsin-Ying Lee, Chaoyang Wang

Отслеживание плотного 3D движения по монокулярным видеороликам остается сложной задачей, особенно когда требуется пиксельная точность на протяжении длительных последовательностей. Мы представляем \Approach, новый метод, который эффективно отслеживает каждый пиксель в 3D пространстве, обеспечивая точную оценку движения на протяжении всего видео. Наш подход использует совместный глобальный-локальный механизм внимания для отслеживания с пониженным разрешением, а затем трансформаторный апсемплер для достижения предсказаний высокого разрешения. В отличие от существующих методов, ограниченных вычислительной неэффективностью или разреженным отслеживанием, \Approach обеспечивает плотное 3D отслеживание в масштабе, работая более чем в 8 раз быстрее, чем предыдущие методы, при этом достигая современной точности. Кроме того, мы исследуем влияние представления глубины на производительность отслеживания и определяем логарифмическую глубину как оптимальный выбор. Обширные эксперименты демонстрируют превосходство \Approach на нескольких бенчмарках, достигая новых современных результатов как в задачах плотного отслеживания в 2D, так и в 3D. Наш метод предоставляет надежное решение для приложений, требующих детального долгосрочного отслеживания движения в 3D пространстве.

Обучение агентов с подкреплением с инкорпорацией телесных характеристик: Информативность и Разнообразие использования языка
Teaching Embodied Reinforcement Learning Agents: Informativeness and Diversity of Language Use

Oct 31

ByJiajun Xi, Yinong He, Jianing Yang, Yinpei Dai, Joyce Chai

В реальных сценариях желательно, чтобы воплощенные агенты обладали способностью использовать человеческий язык для получения явных или неявных знаний для обучающих задач. Несмотря на недавние успехи, большинство предыдущих подходов используют простые низкоуровневые инструкции в качестве языковых входных данных, которые могут не отражать естественного человеческого общения. Неясно, как внедрить богатое языковое взаимодействие для облегчения обучения задачам. Для решения этого вопроса в данной статье изучаются различные типы языковых входных данных в обучении воплощенных агентов с подкреплением (RL). Более конкретно, мы исследуем, как различные уровни информативности языка (т.е. обратная связь по прошлым действиям и будущее руководство) и разнообразие (т.е. вариация языковых выражений) влияют на обучение и вывод агента. Наши эмпирические результаты на основе четырех бенчмарков RL показывают, что агенты, обученные с разнообразной и информативной языковой обратной связью, могут достичь улучшенной обобщаемости и быстрой адаптации к новым задачам. Эти результаты подчеркивают ключевую роль использования языка в обучении воплощенных агентов новым задачам в открытом мире. Веб-сайт проекта: https://github.com/sled-group/Teachable_RL

Связывание с минимальной энтропией с узким местом
Minimum Entropy Coupling with Bottleneck

Oct 29

ByM. Reza Ebrahimi, Jun Chen, Ashish Khisti

Данный документ исследует новую рамку потерь сжатия, работающую на основе логарифмических потерь и предназначенную для работы в ситуациях, когда распределение восстановления расходится с распределением источника. Эта рамка особенно актуальна для приложений, требующих совместного сжатия и извлечения, а также в сценариях, связанных с изменениями распределения из-за обработки. Мы показываем, что предложенная формулировка расширяет классическую рамку минимальной энтропии сцепления путем интеграции узкого места, позволяющего контролировать степень стохастичности в сцеплении. Мы исследуем декомпозицию Минимального Энтропийного Сцепления с Узким Местом (MEC-B) на две отдельные задачи оптимизации: Максимизацию Информации с Ограниченной Энтропией (EBIM) для кодера и Минимальное Энтропийное Сцепление (MEC) для декодера. Через обширный анализ мы предлагаем жадный алгоритм для EBIM с гарантированной производительностью и характеризуем оптимальное решение около функциональных отображений, что приводит к значительным теоретическим исследованиям структурной сложности этой проблемы. Более того, мы иллюстрируем практическое применение MEC-B через эксперименты в Играх Марковского Кодирования (MCG) при ограничениях скорости. Эти игры моделируют сценарий коммуникации в рамках Процесса Принятия Решений Маркова, где агент должен передать сжатое сообщение от отправителя к получателю через свои действия. Наши эксперименты подчеркивают компромиссы между наградами MDP и точностью получателя при различных скоростях сжатия, демонстрируя эффективность нашего метода по сравнению с обычным базовым сжатием.

GlotCC: открытый корпус и конвейер для меньшинственных языков на основе CommonCrawl
GlotCC: An Open Broad-Coverage CommonCrawl Corpus and Pipeline for Minority Languages

Oct 31

ByAmir Hossein Kargaran, François Yvon, Hinrich Schütze

С появлением предварительно обученных языковых моделей и, в частности, открытием законов масштабирования для этих моделей, возросла потребность в больших текстовых корпусах. Большинство доступных корпусов имеют достаточное количество данных только для языков с крупными доминирующими сообществами. Однако не существует корпуса, который (i) охватывал бы широкий спектр языков меньшинств; (ii) был бы создан с использованием открытого воспроизводимого конвейера; и (iii) строго очищен от шума, что делает его надежным для использования. Мы представляем GlotCC - чистый корпус общего назначения на уровне документа объемом 2 ТБ, полученный из CommonCrawl и охватывающий более 1000 языков. Мы предоставляем GlotCC и систему, использованную для его создания - включая конвейер, модель идентификации языка и фильтры - на использование исследовательскому сообществу. Корпус v. 1.0 https://huggingface.co/datasets/cis-lmu/GlotCC-v1, Конвейер v. 3.0 https://github.com/cisnlp/GlotCC.