CurveBench: Бенчмарк для точного топологического рассуждения над вложенными кривыми Жордана

Аннотация

Мы представляем CurveBench — эталон для иерархических топологических рассуждений на основе визуального ввода. CurveBench содержит 756 изображений попарно непересекающихся кривых Жордана в конфигурациях: простых, полигональных, вдохновлённых топографическими картами, лабиринтообразных и с плотным подсчётом. Каждое изображение снабжено корневым деревом, кодирующим отношения вложенности между плоскими областями. Задача формулируется как структурированное предсказание: по изображению модель должна восстановить полное корневое дерево вложенности, индуцированное кривыми. Несмотря на визуальную простоту задачи, наилучшая из оценённых моделей, Gemini 3.1 Pro, достигает лишь 71,1% точности генерации дерева на CurveBench-Easy и 19,1% на CurveBench-Hard. Мы также демонстрируем полезность эталона посредством тонкой настройки в стиле RLVR визуально-языковых моделей с открытыми весами. Наша обученная модель Qwen3-VL-8B улучшает показатель точности генерации дерева с 2,8% до 33,3% на CurveBench-Easy по сравнению с Qwen-3-VL-8B-Thinking, превосходя GPT-5.4 и Claude Opus 4.5 в рамках нашего протокола оценки. Оставшийся разрыв, особенно на CurveBench-Hard, показывает, что точные топологически-осознанные визуальные рассуждения остаются далёкими от решения.

English

We introduce CurveBench, a benchmark for hierarchical topological reasoning from visual input. CurveBench consists of 756 images of pairwise non-intersecting Jordan curves across easy, polygonal, topographic-inspired, maze-like, and dense counting configurations. Each image is annotated with a rooted tree encoding the containment relations between planar regions. We formulate the task as structured prediction: given an image, a model must recover the full rooted containment tree induced by the curves. Despite the visual simplicity of the task, the strongest evaluated model, Gemini 3.1 Pro, achieves only 71.1\% tree-generation accuracy on CurveBench-Easy and 19.1\% on CurveBench-Hard. We further demonstrate benchmark utility through RLVR-style fine-tuning of open-weight vision-language models. Our trained Qwen3-VL-8B model improves over Qwen-3-VL-8B-Thinking from 2.8\% to 33.3\% tree-generation accuracy on CurveBench-Easy, exceeding GPT-5.4 and Claude Opus 4.5 under our evaluation protocol. The remaining gap, especially on CurveBench-Hard, shows that exact topology-aware visual reasoning remains far from solved.