ChatPaper.aiChatPaper.ai
Главная

arXiv

HuggingFace

ЦеныАккаунтРабочее пространство

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

1

YuLan-Mini: Открытая модель языка с низким потреблением данных
YuLan-Mini: An Open Data-efficient Language Model

Dec 23
ByYiwen Hu, Huatong Song, Jia Deng, Jiapeng Wang, Jie Chen, Kun Zhou, Yutao Zhu, Jinhao Jiang, Zican Dong, Wayne Xin Zhao, Ji-Rong Wen
64
2

Эффективное предварительное обучение крупных языковых моделей (LLM) представляет собой сложную задачу из-за огромных требований к ресурсам и сложности технических процессов, вовлеченных в процесс. В данной статье представлен подробный технический отчет о YuLan-Mini, высококвалифицированной базовой модели с 2,42 миллиарда параметров, достигающей лучших показателей среди моделей с аналогичным количеством параметров. Наш подход к предварительному обучению сосредоточен на повышении эффективности обучения благодаря трем ключевым техническим вкладам: тщательная конвейерная обработка данных, объединяющая очистку данных с стратегиями расписания данных, устойчивый метод оптимизации для смягчения нестабильности обучения и эффективный метод отжига, который включает в себя выбор целевых данных и обучение на длинных контекстах. Замечательно, что YuLan-Mini, обученная на 1,08 триллионах токенов, достигает производительности, сравнимой с ведущими моделями в индустрии, требующими значительно больше данных. Для обеспечения воспроизводимости мы предоставляем полные детали состава данных для каждой фазы обучения. Детали проекта можно найти по следующей ссылке: https://github.com/RUC-GSAI/YuLan-Mini.

2

Серебряная пуля или компромисс для полного внимания? Комплексное исследование сжатия контекста на основе токенов Gist.
A Silver Bullet or a Compromise for Full Attention? A Comprehensive Study of Gist Token-based Context Compression

Dec 23
ByChenlong Deng, Zhisong Zhang, Kelong Mao, Shuaiyi Li, Xinting Huang, Dong Yu, Zhicheng Dou
34
3

В данной работе мы проводим тщательное исследование методов сжатия контекста на основе сути для улучшения обработки длинного контекста в больших языковых моделях. Мы сосредотачиваемся на двух ключевых вопросах: (1) Насколько хорошо эти методы могут заменить модели полного внимания? и (2) Какие потенциальные шаблоны отказа возникают из-за сжатия? Через обширные эксперименты мы показываем, что хотя сжатие на основе сути может достичь почти потерь производительности на задачах, таких как генерация с увеличением извлечения и вопросно-ответная система для длинных документов, оно сталкивается с вызовами на задачах, таких как синтетическое воспоминание. Более того, мы выявляем три ключевых шаблона отказа: потерянный у границы, потерянный при сюрпризе и потерянный по пути. Для смягчения этих проблем мы предлагаем две эффективные стратегии: детализированное авокодирование, которое улучшает восстановление информации об исходном токене, и оценку важности токена по сегментам, которая корректирует оптимизацию на основе зависимостей токенов. Наша работа предоставляет ценные идеи для понимания сжатия контекста на основе токенов сути и предлагает практические стратегии для улучшения возможностей сжатия.

3

MMFactory: Универсальный поисковый движок решений для задач видео-языкового взаимодействия
MMFactory: A Universal Solution Search Engine for Vision-Language Tasks

Dec 24
ByWan-Cyuan Fan, Tanzila Rahman, Leonid Sigal
20
2

С развитием фундаментальных и моделей видео-языка, а также эффективных техник настройки, было разработано большое количество как общих, так и специализированных моделей для различных визуальных задач. Несмотря на гибкость и доступность этих моделей, ни одна модель не способна обрабатывать все задачи и/или приложения, которые могут быть представлены потенциальными пользователями. Недавние подходы, такие как визуальное программирование и мультимодальные LLM с интегрированными инструментами, направлены на решение сложных визуальных задач путем синтеза программ. Однако такие подходы не учитывают ограничения пользователя (например, производительность / вычислительные потребности), создают решения, зависящие от образцов на этапе тестирования, которые сложно развернуть, и иногда требуют инструкций низкого уровня, что может превышать возможности неопытного пользователя. Для преодоления этих ограничений мы представляем MMFactory, универсальную платформу, которая включает в себя компоненты маршрутизации моделей и метрик, действуя как поисковый движок решений по различным доступным моделям. Основываясь на описании задачи и нескольких образцах входа-выхода и (по желанию) ресурсных и/или производственных ограничениях, MMFactory может предложить разнообразный набор программных решений, инстанциируя и объединяя визуально-языковые инструменты из своего репозитория моделей. Помимо синтеза этих решений, MMFactory также предлагает метрики и бенчмарки производительности / ресурсных характеристик, позволяя пользователям выбирать решение, соответствующее их уникальным проектным ограничениям. С технической точки зрения, мы также представили решение на основе комитета, которое использует многоагентный LLM диалог для генерации исполнимых, разнообразных, универсальных и надежных решений для пользователя. Экспериментальные результаты показывают, что MMFactory превосходит существующие методы, предлагая передовые решения, адаптированные к спецификациям проблемы пользователя. Страница проекта доступна по адресу https://davidhalladay.github.io/mmfactory_demo.

4

Молар: мультимодальные LLM с выравниванием коллаборативной фильтрации для улучшенных последовательных рекомендаций
Molar: Multimodal LLMs with Collaborative Filtering Alignment for Enhanced Sequential Recommendation

Dec 24
ByYucong Luo, Qitao Qin, Hao Zhang, Mingyue Cheng, Ruiran Yan, Kefan Wang, Jie Ouyang
17
2

Системы последовательных рекомендаций (SR) значительно эволюционировали за последнее десятилетие, переходя от традиционной коллаборативной фильтрации к подходам глубокого обучения и, более недавно, к большим языковым моделям (LLM). В то время как применение LLM привело к значительным усовершенствованиям, эти модели в своей сути лишены информации коллаборативной фильтрации, полагаясь в основном на текстовые данные и игнорируя другие модальности, что приводит к недостаточной производительности рекомендаций. Для преодоления этого ограничения мы предлагаем Molar, мультимодальную крупномасштабную языковую последовательную рекомендательную платформу, которая интегрирует несколько модальностей контента с идентификационной информацией для эффективного улавливания коллаборативных сигналов. Molar использует MLLM для создания объединенных представлений элементов из текстовых и нетекстовых данных, облегчая комплексное мультимодальное моделирование и обогащение вложений элементов. Кроме того, он включает сигналы коллаборативной фильтрации через механизм пост-выравнивания, который выравнивает представления пользователей из моделей на основе контента и идентификаторов, обеспечивая точную персонализацию и надежную производительность. Путем плавного объединения мультимодального контента с коллаборативными сигналами Molar улавливает как интересы пользователей, так и контекстуальную семантику, что приводит к более высокой точности рекомендаций. Обширные эксперименты подтверждают, что Molar значительно превосходит традиционные и основанные на LLM базовые модели, подчеркивая его силу в использовании мультимодальных данных и коллаборативных сигналов для задач последовательных рекомендаций. Исходный код доступен по адресу https://anonymous.4open.science/r/Molar-8B06/.

Dec 26
Dec 27
Dec 30