ChatPaper.aiChatPaper

Apertus: 글로벌 언어 환경을 위한 개방적이고 규정 준수 가능한 LLM의 민주화

Apertus: Democratizing Open and Compliant LLMs for Global Language Environments

September 17, 2025
저자: Alejandro Hernández-Cano, Alexander Hägele, Allen Hao Huang, Angelika Romanou, Antoni-Joan Solergibert, Barna Pasztor, Bettina Messmer, Dhia Garbaya, Eduard Frank Ďurech, Ido Hakimi, Juan García Giraldo, Mete Ismayilzada, Negar Foroutan, Skander Moalla, Tiancheng Chen, Vinko Sabolčec, Yixuan Xu, Michael Aerni, Badr AlKhamissi, Ines Altemir Marinas, Mohammad Hossein Amani, Matin Ansaripour, Ilia Badanin, Harold Benoit, Emanuela Boros, Nicholas Browning, Fabian Bösch, Maximilian Böther, Niklas Canova, Camille Challier, Clement Charmillot, Jonathan Coles, Jan Deriu, Arnout Devos, Lukas Drescher, Daniil Dzenhaliou, Maud Ehrmann, Dongyang Fan, Simin Fan, Silin Gao, Miguel Gila, María Grandury, Diba Hashemi, Alexander Hoyle, Jiaming Jiang, Mark Klein, Andrei Kucharavy, Anastasiia Kucherenko, Frederike Lübeck, Roman Machacek, Theofilos Manitaras, Andreas Marfurt, Kyle Matoba, Simon Matrenok, Henrique Mendoncça, Fawzi Roberto Mohamed, Syrielle Montariol, Luca Mouchel, Sven Najem-Meyer, Jingwei Ni, Gennaro Oliva, Matteo Pagliardini, Elia Palme, Andrei Panferov, Léo Paoletti, Marco Passerini, Ivan Pavlov, Auguste Poiroux, Kaustubh Ponkshe, Nathan Ranchin, Javi Rando, Mathieu Sauser, Jakhongir Saydaliev, Muhammad Ali Sayfiddinov, Marian Schneider, Stefano Schuppli, Marco Scialanga, Andrei Semenov, Kumar Shridhar, Raghav Singhal, Anna Sotnikova, Alexander Sternfeld, Ayush Kumar Tarun, Paul Teiletche, Jannis Vamvas, Xiaozhe Yao, Hao Zhao Alexander Ilic, Ana Klimovic, Andreas Krause, Caglar Gulcehre, David Rosenthal, Elliott Ash, Florian Tramèr, Joost VandeVondele, Livio Veraldi, Martin Rajman, Thomas Schulthess, Torsten Hoefler, Antoine Bosselut, Martin Jaggi, Imanol Schlag
cs.AI

초록

본 논문에서는 오늘날의 개방형 모델 생태계에서 두 가지 체계적인 단점, 즉 데이터 준수성과 다국어 표현을 해결하기 위해 설계된 완전히 개방형 대규모 언어 모델(LLM) 제품군인 Apertus를 소개한다. 재현 가능한 데이터 파이프라인이나 콘텐츠 소유자 권리에 대한 고려 없이 가중치만 공개하는 기존의 많은 모델과 달리, Apertus 모델은 공개적으로 이용 가능한 데이터만을 사용하여 사전 학습되었으며, robots.txt 제외 사항을 사후적으로 존중하고 비허용적, 유해성, 개인 식별 가능 콘텐츠를 필터링하였다. 기억화 위험을 완화하기 위해 사전 학습 과정에서 Goldfish 목적 함수를 채택하여 데이터의 문자 그대로의 회상을 강력히 억제하면서도 하위 작업 성능을 유지하였다. 또한 Apertus 모델은 1800개 이상의 언어로부터 15T 토큰을 학습하여 다국어 커버리지를 확장하였으며, 사전 학습 데이터의 약 40%를 비영어 콘텐츠에 할당하였다. 8B 및 70B 규모로 공개된 Apertus는 다국어 벤치마크에서 완전히 개방형 모델 중 최신 기술 수준에 근접한 결과를 보이며, 개방형 가중치 모델을 능가하거나 필적하는 성능을 보인다. 모델 가중치 외에도, 데이터 준비 스크립트, 체크포인트, 평가 제품군, 학습 코드 등 개발 주기의 모든 과학적 산출물을 허가형 라이선스로 공개하여 투명한 감사와 확장이 가능하도록 하였다.
English
We present Apertus, a fully open suite of large language models (LLMs) designed to address two systemic shortcomings in today's open model ecosystem: data compliance and multilingual representation. Unlike many prior models that release weights without reproducible data pipelines or regard for content-owner rights, Apertus models are pretrained exclusively on openly available data, retroactively respecting robots.txt exclusions and filtering for non-permissive, toxic, and personally identifiable content. To mitigate risks of memorization, we adopt the Goldfish objective during pretraining, strongly suppressing verbatim recall of data while retaining downstream task performance. The Apertus models also expand multilingual coverage, training on 15T tokens from over 1800 languages, with ~40% of pretraining data allocated to non-English content. Released at 8B and 70B scales, Apertus approaches state-of-the-art results among fully open models on multilingual benchmarks, rivalling or surpassing open-weight counterparts. Beyond model weights, we release all scientific artifacts from our development cycle with a permissive license, including data preparation scripts, checkpoints, evaluation suites, and training code, enabling transparent audit and extension.
PDF92September 22, 2025