DataClaw0: Agentische afstemming van multimodale data uit ruwe datastromen

Samenvatting

Massieve ongestructureerde multimodale stromen kampen met een hoge 'data-entropie', wat zowel efficiënte menselijke kennisverwerving als hoogwaardige AI-natraining belemmert. Bestaande passieve annotatieparadigma's, die sterk afhankelijk zijn van heuristische regels of algemene VLM's, zijn duur, eentonig en slagen er niet in de diepe procedurele logica te ontsluiten die in ruwe data besloten ligt. Wij verheffen gegevensverwerking tot een leerbare capaciteit en stellen een paradigmaverschuiving voor richting Agentische Data Tailoring, die gegevens actief verfijnt en structureert om af te stemmen op diverse gebruikers- en downstream-intenties. Om de schaarste aan gegevens te overwinnen die het trainen van dergelijke hoogwaardige vaardigheden belemmert, ontwerpen we een tweetrapspijplijn die generatieve semantische synthese verankert in deterministische Feitelijke Ankers, wat leidt tot een grootschalige dataset die vijf kerngebieden in de fysieke en digitale wereld omvat. Hierop voortbouwend combineert het DataClaw_0-9B-model Supervised Fine-Tuning (SFT) met Group Relative Policy Optimization (GRPO), wat een robuuste afstemming op complexe verfijnings- en tailing-intenties bewerkstelligt. Om deze capaciteit systematisch te kwantificeren, construeren we DataClaw_0-val, de eerste benchmark die specifiek gericht is op gegevensverfijning. Cruciaal is dat we downstream-natraining hanteren als de ultieme validatietoets. Evaluaties op videogeneratie, real-world VQA en GUI-navigatie bevestigen dat DataClaw_0 hoog-informatiedichte getailorde data levert, wat efficiënte modelaanpassing aan nieuwe taken mogelijk maakt onder regimes met beperkte trainingsdata. Projectpagina: https://czjdsg.github.io/MakeAnyData

English

Massive unstructured multimodal streams suffer from high "data entropy," impeding both efficient human knowledge acquisition and high-quality AI post-training. Existing passive annotation paradigms, heavily reliant on heuristic rules or general VLMs, are costly, monotonous, and fail to unlock the deep procedural logic embedded in raw data. We elevate data processing to a learnable capability, proposing a paradigm shift towards Agentic Data Tailoring, which actively refining and structuring data to align with diverse user and downstream intents. To overcome the data scarcity bottleneck in training such high-order capabilities, we design a two-stage pipeline grounding generative semantic synthesis in deterministic Factual Anchors, yielding a large-scale dataset spanning five core physical and digital domains. Building upon this, DataClaw_0-9B model synergizes Supervised Fine-Tuning (SFT) with Group Relative Policy Optimization (GRPO), achieving robust alignment with complex refinement and tailoring intents. To systematically quantify this capability, we construct DataClaw_0-val, the first benchmark dedicated to data refinement. Crucially, we adopt downstream post-training as the ultimate validation touchstone. Evaluations on video generation, real-world VQA, and GUI navigation confirm that DataClaw_0 delivers high-information-density tailored data, facilitating efficient model adaptation to new tasks under limited training data regimes. Project page: https://czjdsg.github.io/MakeAnyData