DataClaw0: Personalización Autónoma de Datos Multimodales a partir de Flujos en Bruto

Resumen

Los flujos multimodales masivos no estructurados presentan una alta "entropía de datos", lo que dificulta tanto la adquisición eficiente de conocimiento humano como el post-entrenamiento de alta calidad de la IA. Los paradigmas de anotación pasiva existentes, que dependen en gran medida de reglas heurísticas o VLMs generales, son costosos, monótonos y no logran extraer la lógica procedimental profunda incrustada en los datos brutos. Elevamos el procesamiento de datos a una capacidad aprendible, proponiendo un cambio de paradigma hacia la Adaptación Agentiva de Datos (Agentic Data Tailoring), que refina y estructura activamente los datos para alinearlos con diversas intenciones de usuarios y aplicaciones posteriores. Para superar el cuello de botella de escasez de datos en el entrenamiento de capacidades de tan alto orden, diseñamos un pipeline de dos etapas que fundamenta la síntesis semántica generativa en Anclajes Factuales deterministas, produciendo un conjunto de datos a gran escala que abarca cinco dominios físicos y digitales centrales. Sobre esta base, el modelo DataClaw_0-9B sinergiza el Ajuste Fino Supervisado (SFT) con la Optimización Relativa de Políticas por Grupos (GRPO), logrando una alineación robusta con intenciones complejas de refinamiento y adaptación. Para cuantificar sistemáticamente esta capacidad, construimos DataClaw_0-val, el primer benchmark dedicado al refinamiento de datos. De manera crucial, adoptamos el post-entrenamiento en tareas posteriores como punto de validación definitivo. Las evaluaciones en generación de video, VQA en escenarios reales y navegación en GUI confirman que DataClaw_0 produce datos adaptados de alta densidad informativa, facilitando la adaptación eficiente del modelo a nuevas tareas en regímenes de datos limitados. Página del proyecto: https://czjdsg.github.io/MakeAnyData

English

Massive unstructured multimodal streams suffer from high "data entropy," impeding both efficient human knowledge acquisition and high-quality AI post-training. Existing passive annotation paradigms, heavily reliant on heuristic rules or general VLMs, are costly, monotonous, and fail to unlock the deep procedural logic embedded in raw data. We elevate data processing to a learnable capability, proposing a paradigm shift towards Agentic Data Tailoring, which actively refining and structuring data to align with diverse user and downstream intents. To overcome the data scarcity bottleneck in training such high-order capabilities, we design a two-stage pipeline grounding generative semantic synthesis in deterministic Factual Anchors, yielding a large-scale dataset spanning five core physical and digital domains. Building upon this, DataClaw_0-9B model synergizes Supervised Fine-Tuning (SFT) with Group Relative Policy Optimization (GRPO), achieving robust alignment with complex refinement and tailoring intents. To systematically quantify this capability, we construct DataClaw_0-val, the first benchmark dedicated to data refinement. Crucially, we adopt downstream post-training as the ultimate validation touchstone. Evaluations on video generation, real-world VQA, and GUI navigation confirm that DataClaw_0 delivers high-information-density tailored data, facilitating efficient model adaptation to new tasks under limited training data regimes. Project page: https://czjdsg.github.io/MakeAnyData