ChatPaper.aiChatPaper

InfiR: Creación de Modelos de Lenguaje Pequeños Efectivos y Modelos de Lenguaje Pequeños Multimodales en Razonamiento

InfiR : Crafting Effective Small Language Models and Multimodal Small Language Models in Reasoning

February 17, 2025
Autores: Congkai Xie, Shuo Cai, Wenjun Wang, Pengxiang Li, Zhijie Sang, Kejing Yang, Yiming Zhang, Zhen Li, Guanghao Zhu, Zeyu Liu, Yang Yu, Yuhang Liu, Su Lu, Baoyi He, Qi Zhou, Xiaotian Han, Jianbo Yuan, Shengyu Zhang, Fei Wu, Hongxia Yang
cs.AI

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) y los Modelos de Lenguaje Multimodal de Gran Escala (MLLMs) han logrado avances significativos en capacidades de razonamiento. Sin embargo, aún enfrentan desafíos como altas demandas computacionales y preocupaciones de privacidad. Este artículo se centra en el desarrollo de Modelos de Lenguaje Pequeños (SLMs) y Modelos de Lenguaje Multimodal Pequeños (MSLMs) que mantienen capacidades de razonamiento competitivas. Introducimos una novedosa pipeline de entrenamiento que mejora las capacidades de razonamiento y facilita la implementación en dispositivos de borde, logrando un rendimiento de vanguardia mientras se minimizan los costos de desarrollo. \InfR~ tiene como objetivo avanzar los sistemas de IA mejorando el razonamiento, reduciendo las barreras de adopción y abordando las preocupaciones de privacidad a través de tamaños de modelo más pequeños. Los recursos están disponibles en https://github.com/Reallm-Labs/InfiR.
English
Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) have made significant advancements in reasoning capabilities. However, they still face challenges such as high computational demands and privacy concerns. This paper focuses on developing efficient Small Language Models (SLMs) and Multimodal Small Language Models (MSLMs) that retain competitive reasoning abilities. We introduce a novel training pipeline that enhances reasoning capabilities and facilitates deployment on edge devices, achieving state-of-the-art performance while minimizing development costs. \InfR~ aims to advance AI systems by improving reasoning, reducing adoption barriers, and addressing privacy concerns through smaller model sizes. Resources are available at https://github. com/Reallm-Labs/InfiR.

Summary

AI-Generated Summary

PDF82February 20, 2025