Entstehende Eigenschaften in einheitlichem multimodalen VortrainingEmerging Properties in Unified Multimodal Pretraining
Die Vereinheitlichung von multimodalem Verständnis und Generierung hat in modernen proprietären Systemen beeindruckende Fähigkeiten gezeigt. In dieser Arbeit stellen wir BAGEL vor, ein Open-Source-Grundlagenmodell, das nativ multimodales Verständnis und Generierung unterstützt. BAGEL ist ein einheitliches, ausschließlich auf Decodern basierendes Modell, das auf Billionen von Tokens vortrainiert wurde, die aus groß angelegten, verschachtelten Text-, Bild-, Video- und Webdaten kuratiert wurden. Wenn es mit solch vielfältigen, verschachtelten multimodalen Daten skaliert wird, zeigt BAGEL aufkommende Fähigkeiten im komplexen multimodalen Schlussfolgern. Infolgedessen übertrifft es Open-Source-Vereinheitsmodelle sowohl in der multimodalen Generierung als auch im Verständnis über Standard-Benchmarks hinweg deutlich, während es fortgeschrittene multimodale Schlussfolgerungsfähigkeiten wie freie Bildmanipulation, Vorhersage zukünftiger Bildsequenzen, 3D-Manipulation und Weltnavigation zeigt. In der Hoffnung, weitere Möglichkeiten für die multimodale Forschung zu eröffnen, teilen wir die wichtigsten Erkenntnisse, Details zum Vortraining, das Datenkuratierungsprotokoll und stellen unseren Code sowie Checkpoints der Gemeinschaft zur Verfügung. Die Projektseite befindet sich unter https://bagel-ai.org/.