HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

5 papers found

INDUS: Эффективные и эффективные языковые модели для научных приложений
INDUS: Effective and Efficient Language Models for Scientific Applications

May 17

ByBishwaranjan Bhattacharjee, Aashka Trivedi, Masayasu Muraoka, Muthukumaran Ramasubramanian, Takuma Udagawa, Iksha Gurung, Rong Zhang, Bharath Dandala, Rahul Ramachandran, Manil Maskey, Kayleen Bugbee, Mike Little, Elizabeth Fancher, Lauren Sanders, Sylvain Costes, Sergi Blanco-Cuaresma, Kelly Lockhart, Thomas Allen, Felix Grazes, Megan Ansdel, Alberto Accomazzi, Yousef El-Kurdi, Davis Wertheimer, Birgit Pfitzmann, Cesar Berrospi Ramis, Michele Dolfi, Rafael Teixeira de Lima, Panos Vegenas, S. Karthik Mukkavilli, Peter Staar, Sanaz Vahidinia, Ryan McGranaghan, Armin Mehrabian, Tsendgar Lee

Большие языковые модели (LLM), обученные на корпусах общего назначения, показали впечатляющие результаты на задачах обработки естественного языка (NLP). Однако предыдущие исследования показали, что LLM, обученные с использованием корпусов, сфокусированных на определенной области, показывают лучшие результаты на специализированных задачах. Вдохновленные этим ключевым открытием, мы разработали INDUS, комплексный набор LLM, настроенных для областей научной дисциплины Земли, биологии, физики, гелиофизики, планетарных наук и астрофизики, и обученных с использованием отобранных научных корпусов из различных источников данных. В набор моделей входят: (1) модель кодировщика, обученная с использованием специфической для области лексики и корпусов для решения задач понимания естественного языка, (2) модель обобщенного встраивания текста на основе контрастного обучения, обученная с использованием разнообразного набора данных из различных источников для решения задач информационного поиска, и (3) уменьшенные версии этих моделей, созданные с использованием техник дистилляции знаний для решения задач, имеющих ограничения по времени выполнения или ресурсам. Мы также создали три новых научных набора данных для оценки, а именно, CLIMATE-CHANGE-NER (распознавание сущностей), NASA-QA (извлекающий вопросно-ответный) и NASA-IR (информационный поиск), чтобы ускорить исследования в этих междисциплинарных областях. Наконец, мы показываем, что наши модели превосходят как общие кодировщики (RoBERTa), так и существующие областно-специфические кодировщики (SciBERT) на этих новых задачах, а также на существующих бенчмарках в областях интереса.

Сверточный слой KV-кэша для эффективного вывода больших языковых моделей
Layer-Condensed KV Cache for Efficient Inference of Large Language Models

May 17

ByHaoyi Wu, Kewei Tu

Огромное потребление памяти долгое время является основным узким местом для развертывания высокопроизводительных крупных языковых моделей в реальных приложениях. Помимо большого количества параметров, кэш ключ-значение (KV) для механизма внимания в архитектуре трансформера потребляет значительное количество памяти, особенно когда количество слоев велико для глубоких языковых моделей. В данной статье мы предлагаем новый метод, который вычисляет и кэширует только ключи и значения небольшого количества слоев, что значительно экономит память и повышает производительность вывода. Наши эксперименты на крупных языковых моделях показывают, что наш метод достигает до 26 раз более высокой производительности, чем стандартные трансформеры, и конкурентоспособное качество в языковом моделировании и задачах на уровне. Кроме того, наш метод ортогонален существующим техникам экономии памяти трансформера, поэтому его легко интегрировать с нашей моделью, достигая дальнейшего улучшения эффективности вывода. Наш код доступен по адресу https://github.com/whyNLP/LCKV.

Законы наблюдения масштабов и предсказуемость производительности языковой модели
Observational Scaling Laws and the Predictability of Language Model Performance

May 17

ByYangjun Ruan, Chris J. Maddison, Tatsunori Hashimoto

Понимание того, как производительность языковых моделей изменяется с масштабом, критично для оценки и разработки алгоритмов. Законы масштабирования являются одним из подходов к построению этого понимания, но требование обучения моделей на множестве различных масштабов ограничило их использование. Мы предлагаем альтернативный наблюдательный подход, который обходит обучение моделей и вместо этого строит законы масштабирования на основе около 80 публично доступных моделей. Построение единого закона масштабирования из нескольких семейств моделей представляет собой сложную задачу из-за значительных различий в их эффективности и возможностях обучения. Тем не менее мы показываем, что эти различия согласуются с простым, обобщенным законом масштабирования, где производительность языковой модели является функцией пространства возможностей низкой размерности, а семейства моделей различаются только по эффективности преобразования вычислительных возможностей в возможности. Используя этот подход, мы демонстрируем удивительную предсказуемость сложных явлений масштабирования: мы показываем, что несколько возникающих явлений следуют плавному сигмоидальному поведению и могут быть предсказаны на основе небольших моделей; мы показываем, что производительность агента моделей, таких как GPT-4, может быть точно предсказана на основе более простых неагентных бенчмарков; и мы показываем, как предсказать воздействие пост-тренировочных вмешательств, таких как Chain-of-Thought и Self-Consistency, по мере улучшения возможностей языковой модели.

Закрепленная 3D-LLM с референтными токенами
Grounded 3D-LLM with Referent Tokens

May 16

ByYilun Chen, Shuai Yang, Haifeng Huang, Tai Wang, Ruiyuan Lyu, Runsen Xu, Dahua Lin, Jiangmiao Pang

Предыдущие исследования в области понимания трехмерных сцен в основном разрабатывали специализированные модели для конкретных задач или требовали настройки под конкретную задачу. В данном исследовании мы предлагаем Grounded 3D-LLM, который исследует потенциал трехмерных крупномасштабных мульти-модальных моделей (3D LMMs) для объединения различных задач трехмерного зрения в рамках унифицированной генеративной структуры. Модель использует токены сценовых ссылок в качестве специальных именных фраз для ссылки на трехмерные сцены, обеспечивая обработку последовательностей, в которых чередуются трехмерные и текстовые данные. Она предлагает естественный подход для перевода задач трехмерного зрения в языковые форматы с использованием шаблонов инструкций, специфичных для задачи. Для облегчения использования токенов сценовых ссылок в последующем языковом моделировании мы подготовили кураторские крупномасштабные наборы данных с обоснованным языком, которые предлагают более тесное соответствие сцен-текст на уровне фразы путем итеративного использования существующих меток объектов. Впоследствии мы представили Contrastive LAnguage-Scene Pre-training (CLASP) для эффективного использования этих данных, тем самым интегрируя трехмерное зрение с языковыми моделями. Наше всестороннее оценивание включает открытые задачи, такие как плотное описание и 3D QA, наряду с закрытыми задачами, такими как обнаружение объектов и языковое привязывание. Эксперименты на нескольких трехмерных бенчмарках показывают ведущую производительность и широкие возможности Grounded 3D-LLM. Код и наборы данных будут опубликованы на странице проекта: https://groundedscenellm.github.io/grounded_3d-llm.github.io.

Динамический сэмплер данных для переноса знаний между языками в больших языковых моделях
Dynamic data sampler for cross-language transfer learning in large language models

May 17

ByYudong Li, Yuhao Feng, Wen Zhou, Zhe Zhao, Linlin Shen, Cheng Hou, Xianxu Hou

Большие языковые модели (LLM) привлекли значительное внимание в области обработки естественного языка (NLP) благодаря широкому спектру применений. Однако обучение LLM для языков, отличных от английского, представляет существенные трудности из-за сложностей в получении крупномасштабного корпуса и необходимых вычислительных ресурсов. В данной статье мы предлагаем ChatFlow - LLM на основе переноса между языками, чтобы решить эти проблемы и обучить крупные китайские языковые модели экономичным способом. Мы используем смесь китайского, английского и параллельного корпуса для непрерывного обучения модели LLaMA2 с целью выравнивания представлений между языками и облегчения передачи знаний специально для китайской языковой модели. Кроме того, мы используем динамический сэмплер данных для постепенного перехода модели от ненадзорного предварительного обучения к надзорной настройке. Экспериментальные результаты показывают, что наш подход ускоряет сходимость модели и достигает превосходных результатов. Мы оцениваем ChatFlow на популярных китайских и английских бенчмарках, результаты показывают, что он превосходит другие китайские модели, дообученные на LLaMA-2-7B.

INDUS: Эффективные и эффективные языковые модели для научных приложений
INDUS: Effective and Efficient Language Models for Scientific Applications

May 17