DataClaw0: Agentische Anpassung multimodaler Daten aus Rohströmen

Zusammenfassung

Massive unstrukturierte multimodale Ströme weisen eine hohe „Datenentropie“ auf, was sowohl die effiziente menschliche Wissensaneignung als auch hochwertiges KI-Post-Training behindert. Bestehende passive Annotationsparadigmen, die stark auf heuristischen Regeln oder allgemeinen VLMs basieren, sind kostspielig, monoton und können die tief in Rohdaten eingebettete prozedurale Logik nicht erschließen. Wir erheben die Datenverarbeitung zu einer erlernbaren Fähigkeit und schlagen einen Paradigmenwechsel hin zum agentenbasierten Daten-Tailoring vor, bei dem Daten aktiv verfeinert und strukturiert werden, um sie an unterschiedliche Nutzer- und Downstream-Intentionen anzupassen. Um den Engpass der Datenknappheit beim Training solch hochrangiger Fähigkeiten zu überwinden, entwerfen wir eine zweistufige Pipeline, die generative semantische Synthese in deterministischen faktischen Ankern (Factual Anchors) verankert und einen groß angelegten Datensatz über fünf zentrale physikalische und digitale Domänen hinweg erzeugt. Darauf aufbauend kombiniert das DataClaw_0-9B-Modell Supervised Fine-Tuning (SFT) mit Group Relative Policy Optimization (GRPO) und erreicht eine robuste Ausrichtung auf komplexe Verfeinerungs- und Tailoring-Intentionen. Um diese Fähigkeit systematisch zu quantifizieren, konstruieren wir DataClaw_0-val, den ersten Benchmark, der der Datenverfeinerung gewidmet ist. Entscheidend ist, dass wir das nachgelagerte Post-Training als ultimativen Validierungsmaßstab verwenden. Auswertungen zur Videogenerierung, echten VQA und GUI-Navigation bestätigen, dass DataClaw_0 maßgeschneiderte Daten mit hoher Informationsdichte liefert und so eine effiziente Modellanpassung an neue Aufgaben unter begrenzten Trainingsdaten ermöglicht. Projektseite: https://czjdsg.github.io/MakeAnyData

English

Massive unstructured multimodal streams suffer from high "data entropy," impeding both efficient human knowledge acquisition and high-quality AI post-training. Existing passive annotation paradigms, heavily reliant on heuristic rules or general VLMs, are costly, monotonous, and fail to unlock the deep procedural logic embedded in raw data. We elevate data processing to a learnable capability, proposing a paradigm shift towards Agentic Data Tailoring, which actively refining and structuring data to align with diverse user and downstream intents. To overcome the data scarcity bottleneck in training such high-order capabilities, we design a two-stage pipeline grounding generative semantic synthesis in deterministic Factual Anchors, yielding a large-scale dataset spanning five core physical and digital domains. Building upon this, DataClaw_0-9B model synergizes Supervised Fine-Tuning (SFT) with Group Relative Policy Optimization (GRPO), achieving robust alignment with complex refinement and tailoring intents. To systematically quantify this capability, we construct DataClaw_0-val, the first benchmark dedicated to data refinement. Crucially, we adopt downstream post-training as the ultimate validation touchstone. Evaluations on video generation, real-world VQA, and GUI navigation confirm that DataClaw_0 delivers high-information-density tailored data, facilitating efficient model adaptation to new tasks under limited training data regimes. Project page: https://czjdsg.github.io/MakeAnyData