Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

YuLan-Mini: Открытая модель языка с низким потреблением данных
YuLan-Mini: An Open Data-efficient Language Model

Dec 23

ByYiwen Hu, Huatong Song, Jia Deng, Jiapeng Wang, Jie Chen, Kun Zhou, Yutao Zhu, Jinhao Jiang, Zican Dong, Wayne Xin Zhao, Ji-Rong Wen

Эффективное предварительное обучение крупных языковых моделей (LLM) представляет собой сложную задачу из-за огромных требований к ресурсам и сложности технических процессов, вовлеченных в процесс. В данной статье представлен подробный технический отчет о YuLan-Mini, высококвалифицированной базовой модели с 2,42 миллиарда параметров, достигающей лучших показателей среди моделей с аналогичным количеством параметров. Наш подход к предварительному обучению сосредоточен на повышении эффективности обучения благодаря трем ключевым техническим вкладам: тщательная конвейерная обработка данных, объединяющая очистку данных с стратегиями расписания данных, устойчивый метод оптимизации для смягчения нестабильности обучения и эффективный метод отжига, который включает в себя выбор целевых данных и обучение на длинных контекстах. Замечательно, что YuLan-Mini, обученная на 1,08 триллионах токенов, достигает производительности, сравнимой с ведущими моделями в индустрии, требующими значительно больше данных. Для обеспечения воспроизводимости мы предоставляем полные детали состава данных для каждой фазы обучения. Детали проекта можно найти по следующей ссылке: https://github.com/RUC-GSAI/YuLan-Mini.

Серебряная пуля или компромисс для полного внимания? Комплексное исследование сжатия контекста на основе токенов Gist.
A Silver Bullet or a Compromise for Full Attention? A Comprehensive Study of Gist Token-based Context Compression

Dec 23

ByChenlong Deng, Zhisong Zhang, Kelong Mao, Shuaiyi Li, Xinting Huang, Dong Yu, Zhicheng Dou

В данной работе мы проводим тщательное исследование методов сжатия контекста на основе сути для улучшения обработки длинного контекста в больших языковых моделях. Мы сосредотачиваемся на двух ключевых вопросах: (1) Насколько хорошо эти методы могут заменить модели полного внимания? и (2) Какие потенциальные шаблоны отказа возникают из-за сжатия? Через обширные эксперименты мы показываем, что хотя сжатие на основе сути может достичь почти потерь производительности на задачах, таких как генерация с увеличением извлечения и вопросно-ответная система для длинных документов, оно сталкивается с вызовами на задачах, таких как синтетическое воспоминание. Более того, мы выявляем три ключевых шаблона отказа: потерянный у границы, потерянный при сюрпризе и потерянный по пути. Для смягчения этих проблем мы предлагаем две эффективные стратегии: детализированное авокодирование, которое улучшает восстановление информации об исходном токене, и оценку важности токена по сегментам, которая корректирует оптимизацию на основе зависимостей токенов. Наша работа предоставляет ценные идеи для понимания сжатия контекста на основе токенов сути и предлагает практические стратегии для улучшения возможностей сжатия.

MMFactory: Универсальный поисковый движок решений для задач видео-языкового взаимодействия
MMFactory: A Universal Solution Search Engine for Vision-Language Tasks

Dec 24

ByWan-Cyuan Fan, Tanzila Rahman, Leonid Sigal

С развитием фундаментальных и моделей видео-языка, а также эффективных техник настройки, было разработано большое количество как общих, так и специализированных моделей для различных визуальных задач. Несмотря на гибкость и доступность этих моделей, ни одна модель не способна обрабатывать все задачи и/или приложения, которые могут быть представлены потенциальными пользователями. Недавние подходы, такие как визуальное программирование и мультимодальные LLM с интегрированными инструментами, направлены на решение сложных визуальных задач путем синтеза программ. Однако такие подходы не учитывают ограничения пользователя (например, производительность / вычислительные потребности), создают решения, зависящие от образцов на этапе тестирования, которые сложно развернуть, и иногда требуют инструкций низкого уровня, что может превышать возможности неопытного пользователя. Для преодоления этих ограничений мы представляем MMFactory, универсальную платформу, которая включает в себя компоненты маршрутизации моделей и метрик, действуя как поисковый движок решений по различным доступным моделям. Основываясь на описании задачи и нескольких образцах входа-выхода и (по желанию) ресурсных и/или производственных ограничениях, MMFactory может предложить разнообразный набор программных решений, инстанциируя и объединяя визуально-языковые инструменты из своего репозитория моделей. Помимо синтеза этих решений, MMFactory также предлагает метрики и бенчмарки производительности / ресурсных характеристик, позволяя пользователям выбирать решение, соответствующее их уникальным проектным ограничениям. С технической точки зрения, мы также представили решение на основе комитета, которое использует многоагентный LLM диалог для генерации исполнимых, разнообразных, универсальных и надежных решений для пользователя. Экспериментальные результаты показывают, что MMFactory превосходит существующие методы, предлагая передовые решения, адаптированные к спецификациям проблемы пользователя. Страница проекта доступна по адресу https://davidhalladay.github.io/mmfactory_demo.

Молар: мультимодальные LLM с выравниванием коллаборативной фильтрации для улучшенных последовательных рекомендаций
Molar: Multimodal LLMs with Collaborative Filtering Alignment for Enhanced Sequential Recommendation

Dec 24

ByYucong Luo, Qitao Qin, Hao Zhang, Mingyue Cheng, Ruiran Yan, Kefan Wang, Jie Ouyang

Системы последовательных рекомендаций (SR) значительно эволюционировали за последнее десятилетие, переходя от традиционной коллаборативной фильтрации к подходам глубокого обучения и, более недавно, к большим языковым моделям (LLM). В то время как применение LLM привело к значительным усовершенствованиям, эти модели в своей сути лишены информации коллаборативной фильтрации, полагаясь в основном на текстовые данные и игнорируя другие модальности, что приводит к недостаточной производительности рекомендаций. Для преодоления этого ограничения мы предлагаем Molar, мультимодальную крупномасштабную языковую последовательную рекомендательную платформу, которая интегрирует несколько модальностей контента с идентификационной информацией для эффективного улавливания коллаборативных сигналов. Molar использует MLLM для создания объединенных представлений элементов из текстовых и нетекстовых данных, облегчая комплексное мультимодальное моделирование и обогащение вложений элементов. Кроме того, он включает сигналы коллаборативной фильтрации через механизм пост-выравнивания, который выравнивает представления пользователей из моделей на основе контента и идентификаторов, обеспечивая точную персонализацию и надежную производительность. Путем плавного объединения мультимодального контента с коллаборативными сигналами Molar улавливает как интересы пользователей, так и контекстуальную семантику, что приводит к более высокой точности рекомендаций. Обширные эксперименты подтверждают, что Molar значительно превосходит традиционные и основанные на LLM базовые модели, подчеркивая его силу в использовании мультимодальных данных и коллаборативных сигналов для задач последовательных рекомендаций. Исходный код доступен по адресу https://anonymous.4open.science/r/Molar-8B06/.

YuLan-Mini: Открытая модель языка с низким потреблением данных

YuLan-Mini: An Open Data-efficient Language Model

Dec 23

ByYiwen Hu, Huatong Song, Jia Deng, Jiapeng Wang, Jie Chen, Kun Zhou, Yutao Zhu, Jinhao Jiang, Zican Dong, Wayne Xin Zhao, Ji-Rong Wen

Серебряная пуля или компромисс для полного внимания? Комплексное исследование сжатия контекста на основе токенов Gist.

A Silver Bullet or a Compromise for Full Attention? A Comprehensive Study of Gist Token-based Context Compression

Dec 23

ByChenlong Deng, Zhisong Zhang, Kelong Mao, Shuaiyi Li, Xinting Huang, Dong Yu, Zhicheng Dou

MMFactory: Универсальный поисковый движок решений для задач видео-языкового взаимодействия

MMFactory: A Universal Solution Search Engine for Vision-Language Tasks

Dec 24

ByWan-Cyuan Fan, Tanzila Rahman, Leonid Sigal

Молар: мультимодальные LLM с выравниванием коллаборативной фильтрации для улучшенных последовательных рекомендаций

Molar: Multimodal LLMs with Collaborative Filtering Alignment for Enhanced Sequential Recommendation

Dec 24

ByYucong Luo, Qitao Qin, Hao Zhang, Mingyue Cheng, Ruiran Yan, Kefan Wang, Jie Ouyang