MAP-Neo: высокопроизводительная и прозрачная двуязычная крупномасштабная языковая модельMAP-Neo: Highly Capable and Transparent Bilingual Large Language Model
Series
Большие языковые модели (LLM) в последние годы сделали значительные успехи в достижении беспрецедентной производительности в различных задачах. Однако из-за коммерческого интереса наиболее конкурентоспособные модели, такие как GPT, Gemini и Claude, были ограждены собственными интерфейсами без раскрытия деталей обучения. Недавно многие учреждения предоставили в открытый доступ несколько мощных LLM, таких как LLaMA-3, сопоставимых с существующими закрытыми LLM. Однако большинство деталей (например, промежуточные контрольные точки, корпусы предварительного обучения и код обучения и т. д.) предоставлены только веса модели. Для повышения прозрачности LLM исследовательское сообщество начало предоставлять в открытый доступ по-настоящему открытые LLM (например, Pythia, Amber, OLMo), где предоставляются более подробные сведения (например, корпусы предварительного обучения и код обучения). Эти модели значительно продвинули научное изучение этих крупных моделей, включая их сильные и слабые стороны, предвзятости и риски. Однако мы наблюдаем, что существующие по-настоящему открытые LLM в задачах рассуждения, знаний и кодирования все еще уступают существующим передовым LLM с аналогичными размерами моделей. В этой связи мы представляем в открытый доступ MAP-Neo, высококвалифицированную и прозрачную двуязычную языковую модель с 7 миллиардами параметров, обученную с нуля на 4,5 триллионах высококачественных токенов. Наш MAP-Neo является первой полностью открытой двуязычной LLM с сопоставимой производительностью по сравнению с существующими передовыми LLM. Более того, мы предоставляем все детали для воспроизведения нашего MAP-Neo, включая очищенный корпус предварительного обучения, процесс очистки данных, контрольные точки и хорошо оптимизированный фреймворк обучения/оценки. Наконец, мы надеемся, что наш MAP-Neo усилит и укрепит открытое исследовательское сообщество и вдохновит на больше инноваций и творчества для облегчения дальнейшего улучшения LLM.