DataClaw0: Агентная настройка мультимодальных данных из сырых потоков

Аннотация

Массивные неструктурированные мультимодальные потоки страдают от высокой «энтропии данных», препятствующей как эффективному усвоению знаний человеком, так и высококачественному пост-обучению ИИ. Существующие пассивные парадигмы аннотации, в значительной степени опирающиеся на эвристические правила или общие VLM, являются дорогостоящими, монотонными и не позволяют раскрыть глубинную процедурную логику, заложенную в необработанных данных. Мы возводим обработку данных в ранг обучаемой способности, предлагая смену парадигмы в сторону Агентной Адаптации Данных (Agentic Data Tailoring), которая активно уточняет и структурирует данные для согласования с разнообразными намерениями пользователей и нижестоящих задач. Чтобы преодолеть узкое место дефицита данных при обучении таких высокоуровневых способностей, мы разрабатываем двухэтапный конвейер, обосновывающий генеративный семантический синтез в детерминированных Фактических Якорях (Factual Anchors), что позволяет получить крупномасштабный набор данных, охватывающий пять ключевых физических и цифровых доменов. На этой основе модель DataClaw_0.9B синергетически использует Контролируемую Тонкую Настройку (SFT) и Оптимизацию Групповой Относительной Политики (GRPO), достигая надежного согласования со сложными намерениями по уточнению и адаптации. Для систематической количественной оценки этой способности мы создаем DataClaw_0-val — первый бенчмарк, посвященный уточнению данных. Ключевым моментом является использование нижестоящего пост-обучения в качестве окончательного критерия валидации. Оценки на генерации видео, VQA реального мира и навигации по GUI подтверждают, что DataClaw_0 поставляет адаптированные данные с высокой информационной плотностью, способствуя эффективной адаптации модели к новым задачам в условиях ограниченного объема обучающих данных. Страница проекта: https://czjdsg.github.io/MakeAnyData

English

Massive unstructured multimodal streams suffer from high "data entropy," impeding both efficient human knowledge acquisition and high-quality AI post-training. Existing passive annotation paradigms, heavily reliant on heuristic rules or general VLMs, are costly, monotonous, and fail to unlock the deep procedural logic embedded in raw data. We elevate data processing to a learnable capability, proposing a paradigm shift towards Agentic Data Tailoring, which actively refining and structuring data to align with diverse user and downstream intents. To overcome the data scarcity bottleneck in training such high-order capabilities, we design a two-stage pipeline grounding generative semantic synthesis in deterministic Factual Anchors, yielding a large-scale dataset spanning five core physical and digital domains. Building upon this, DataClaw_0-9B model synergizes Supervised Fine-Tuning (SFT) with Group Relative Policy Optimization (GRPO), achieving robust alignment with complex refinement and tailoring intents. To systematically quantify this capability, we construct DataClaw_0-val, the first benchmark dedicated to data refinement. Crucially, we adopt downstream post-training as the ultimate validation touchstone. Evaluations on video generation, real-world VQA, and GUI navigation confirm that DataClaw_0 delivers high-information-density tailored data, facilitating efficient model adaptation to new tasks under limited training data regimes. Project page: https://czjdsg.github.io/MakeAnyData