RynnBrain: Offene verkörperte Fundamentalmodelle

Zusammenfassung

Trotz rasanter Fortschritte bei multimodalen Fundamentalmodellen fehlt der Community für verkörperte Intelligenz nach wie vor ein einheitliches, physikalisch fundiertes Grundmodell, das Wahrnehmung, Schlussfolgerung und Planung innerhalb realer raumzeitlicher Dynamiken integriert. Wir stellen RynnBrain vor, ein quelloffenes raumzeitliches Fundamentalmodel für verkörperte Intelligenz. RynnBrain stärkt vier Kernfähigkeiten in einem einheitlichen Rahmen: umfassendes egozentrisches Verständnis, vielfältige raumzeitliche Lokalisierung, physikalisch fundiertes Schlussfolgern und physikbewusste Planung. Die RynnBrain-Familie umfasst drei Fundamentalmodelle in verschiedenen Größen (2B, 8B und 30B-A3B MoE) sowie vier nachtrainierte Varianten, die für nachgelagerte verkörperte Aufgaben (d.h. RynnBrain-Nav, RynnBrain-Plan und RynnBrain-VLA) oder komplexe räumliche Denkaufgaben (d.h. RynnBrain-CoP) maßgeschneidert sind. Bei umfangreichen Auswertungen auf 20 verkörperten Benchmarks und 8 allgemeinen Benchmark für visuelles Verständnis übertreffen unsere RynnBrain-Fundamentalmodelle die vorhandenen Modelle für verkörperte Intelligenz deutlich. Die Suite nachtrainierter Modelle untermauert weiterhin zwei Schlüsselpotenziale des RynnBrain-Fundamentalmodelle: (i) die Ermöglichung physikalisch fundierten Schließens und Planens und (ii) die Funktion als starke vortrainierte Basis, die effizient an verschiedene verkörperte Aufgaben angepasst werden kann.

English

Despite rapid progress in multimodal foundation models, embodied intelligence community still lacks a unified, physically grounded foundation model that integrates perception, reasoning, and planning within real-world spatial-temporal dynamics. We introduce RynnBrain, an open-source spatiotemporal foundation model for embodied intelligence. RynnBrain strengthens four core capabilities in a unified framework: comprehensive egocentric understanding, diverse spatiotemporal localization, physically grounded reasoning, and physics-aware planning. The RynnBrain family comprises three foundation model scales (2B, 8B, and 30B-A3B MoE) and four post-trained variants tailored for downstream embodied tasks (i.e., RynnBrain-Nav, RynnBrain-Plan, and RynnBrain-VLA) or complex spatial reasoning tasks (i.e., RynnBrain-CoP). In terms of extensive evaluations on 20 embodied benchmarks and 8 general vision understanding benchmarks, our RynnBrain foundation models largely outperform existing embodied foundation models by a significant margin. The post-trained model suite further substantiates two key potentials of the RynnBrain foundation model: (i) enabling physically grounded reasoning and planning, and (ii) serving as a strong pretrained backbone that can be efficiently adapted to diverse embodied tasks.

RynnBrain: Offene verkörperte Fundamentalmodelle

RynnBrain: Open Embodied Foundation Models

Zusammenfassung

Support