DataClaw0 : Personnalisation agentique de données multimodales à partir de flux bruts

Résumé

Les flux multimodaux massifs non structurés souffrent d'une « entropie de données » élevée, entravant à la fois l'acquisition efficace de connaissances humaines et le post-entraînement de haute qualité des IA. Les paradigmes d'annotation passive existants, fortement dépendants de règles heuristiques ou de VLM généraux, sont coûteux, monotones et ne parviennent pas à exploiter la logique procédurale profonde intégrée dans les données brutes. Nous élevons le traitement des données au rang de capacité apprenable, en proposant un changement de paradigme vers un Façonnage Actif des Données par Agent, qui affine et structure activement les données pour les aligner sur diverses intentions d'utilisateurs et en aval. Pour surmonter le goulot d'étranglement de la rareté des données dans l'entraînement de ces capacités de haut niveau, nous concevons un pipeline en deux étapes ancrant la synthèse sémantique générative dans des Ancres Factuelles déterministes, produisant un ensemble de données à grande échelle couvrant cinq domaines physiques et numériques fondamentaux. Sur cette base, le modèle DataClaw_0-9B synergise le Fine-Tuning Supervisé (SFT) avec l'Optimisation Relative des Politiques par Groupe (GRPO), réalisant un alignement robuste avec les intentions complexes de raffinement et de façonnage. Pour quantifier systématiquement cette capacité, nous construisons DataClaw_0-val, le premier benchmark dédié au raffinement des données. Crucialement, nous adoptons le post-entraînement en aval comme pierre de touche ultime de validation. Les évaluations sur la génération vidéo, la VQA du monde réel et la navigation GUI confirment que DataClaw_0 fournit des données façonnées à haute densité d'information, facilitant une adaptation efficace du modèle à de nouvelles tâches sous des régimes de données d'entraînement limités. Page du projet : https://czjdsg.github.io/MakeAnyData

English

Massive unstructured multimodal streams suffer from high "data entropy," impeding both efficient human knowledge acquisition and high-quality AI post-training. Existing passive annotation paradigms, heavily reliant on heuristic rules or general VLMs, are costly, monotonous, and fail to unlock the deep procedural logic embedded in raw data. We elevate data processing to a learnable capability, proposing a paradigm shift towards Agentic Data Tailoring, which actively refining and structuring data to align with diverse user and downstream intents. To overcome the data scarcity bottleneck in training such high-order capabilities, we design a two-stage pipeline grounding generative semantic synthesis in deterministic Factual Anchors, yielding a large-scale dataset spanning five core physical and digital domains. Building upon this, DataClaw_0-9B model synergizes Supervised Fine-Tuning (SFT) with Group Relative Policy Optimization (GRPO), achieving robust alignment with complex refinement and tailoring intents. To systematically quantify this capability, we construct DataClaw_0-val, the first benchmark dedicated to data refinement. Crucially, we adopt downstream post-training as the ultimate validation touchstone. Evaluations on video generation, real-world VQA, and GUI navigation confirm that DataClaw_0 delivers high-information-density tailored data, facilitating efficient model adaptation to new tasks under limited training data regimes. Project page: https://czjdsg.github.io/MakeAnyData