Ежедневно отобранные исследовательские статьи по ИИ с переводами
Эффективное предварительное обучение крупных языковых моделей (LLM) представляет собой сложную задачу из-за огромных требований к ресурсам и сложности технических процессов, вовлеченных в процесс. В данной статье представлен подробный технический отчет о YuLan-Mini, высококвалифицированной базовой модели с 2,42 миллиарда параметров, достигающей лучших показателей среди моделей с аналогичным количеством параметров. Наш подход к предварительному обучению сосредоточен на повышении эффективности обучения благодаря трем ключевым техническим вкладам: тщательная конвейерная обработка данных, объединяющая очистку данных с стратегиями расписания данных, устойчивый метод оптимизации для смягчения нестабильности обучения и эффективный метод отжига, который включает в себя выбор целевых данных и обучение на длинных контекстах. Замечательно, что YuLan-Mini, обученная на 1,08 триллионах токенов, достигает производительности, сравнимой с ведущими моделями в индустрии, требующими значительно больше данных. Для обеспечения воспроизводимости мы предоставляем полные детали состава данных для каждой фазы обучения. Детали проекта можно найти по следующей ссылке: https://github.com/RUC-GSAI/YuLan-Mini.
В данной работе мы проводим тщательное исследование методов сжатия контекста на основе сути для улучшения обработки длинного контекста в больших языковых моделях. Мы сосредотачиваемся на двух ключевых вопросах: (1) Насколько хорошо эти методы могут заменить модели полного внимания? и (2) Какие потенциальные шаблоны отказа возникают из-за сжатия? Через обширные эксперименты мы показываем, что хотя сжатие на основе сути может достичь почти потерь производительности на задачах, таких как генерация с увеличением извлечения и вопросно-ответная система для длинных документов, оно сталкивается с вызовами на задачах, таких как синтетическое воспоминание. Более того, мы выявляем три ключевых шаблона отказа: потерянный у границы, потерянный при сюрпризе и потерянный по пути. Для смягчения этих проблем мы предлагаем две эффективные стратегии: детализированное авокодирование, которое улучшает восстановление информации об исходном токене, и оценку важности токена по сегментам, которая корректирует оптимизацию на основе зависимостей токенов. Наша работа предоставляет ценные идеи для понимания сжатия контекста на основе токенов сути и предлагает практические стратегии для улучшения возможностей сжатия.
С развитием фундаментальных и моделей видео-языка, а также эффективных техник настройки, было разработано большое количество как общих, так и специализированных моделей для различных визуальных задач. Несмотря на гибкость и доступность этих моделей, ни одна модель не способна обрабатывать все задачи и/или приложения, которые могут быть представлены потенциальными пользователями. Недавние подходы, такие как визуальное программирование и мультимодальные LLM с интегрированными инструментами, направлены на решение сложных визуальных задач путем синтеза программ. Однако такие подходы не учитывают ограничения пользователя (например, производительность / вычислительные потребности), создают решения, зависящие от образцов на этапе тестирования, которые сложно развернуть, и иногда требуют инструкций низкого уровня, что может превышать возможности неопытного пользователя. Для преодоления этих ограничений мы представляем MMFactory, универсальную платформу, которая включает в себя компоненты маршрутизации моделей и метрик, действуя как поисковый движок решений по различным доступным моделям. Основываясь на описании задачи и нескольких образцах входа-выхода и (по желанию) ресурсных и/или производственных ограничениях, MMFactory может предложить разнообразный набор программных решений, инстанциируя и объединяя визуально-языковые инструменты из своего репозитория моделей. Помимо синтеза этих решений, MMFactory также предлагает метрики и бенчмарки производительности / ресурсных характеристик, позволяя пользователям выбирать решение, соответствующее их уникальным проектным ограничениям. С технической точки зрения, мы также представили решение на основе комитета, которое использует многоагентный LLM диалог для генерации исполнимых, разнообразных, универсальных и надежных решений для пользователя. Экспериментальные результаты показывают, что MMFactory превосходит существующие методы, предлагая передовые решения, адаптированные к спецификациям проблемы пользователя. Страница проекта доступна по адресу https://davidhalladay.github.io/mmfactory_demo.
Системы последовательных рекомендаций (SR) значительно эволюционировали за последнее десятилетие, переходя от традиционной коллаборативной фильтрации к подходам глубокого обучения и, более недавно, к большим языковым моделям (LLM). В то время как применение LLM привело к значительным усовершенствованиям, эти модели в своей сути лишены информации коллаборативной фильтрации, полагаясь в основном на текстовые данные и игнорируя другие модальности, что приводит к недостаточной производительности рекомендаций. Для преодоления этого ограничения мы предлагаем Molar, мультимодальную крупномасштабную языковую последовательную рекомендательную платформу, которая интегрирует несколько модальностей контента с идентификационной информацией для эффективного улавливания коллаборативных сигналов. Molar использует MLLM для создания объединенных представлений элементов из текстовых и нетекстовых данных, облегчая комплексное мультимодальное моделирование и обогащение вложений элементов. Кроме того, он включает сигналы коллаборативной фильтрации через механизм пост-выравнивания, который выравнивает представления пользователей из моделей на основе контента и идентификаторов, обеспечивая точную персонализацию и надежную производительность. Путем плавного объединения мультимодального контента с коллаборативными сигналами Molar улавливает как интересы пользователей, так и контекстуальную семантику, что приводит к более высокой точности рекомендаций. Обширные эксперименты подтверждают, что Molar значительно превосходит традиционные и основанные на LLM базовые модели, подчеркивая его силу в использовании мультимодальных данных и коллаборативных сигналов для задач последовательных рекомендаций. Исходный код доступен по адресу https://anonymous.4open.science/r/Molar-8B06/.