Ежедневно отобранные исследовательские статьи по ИИ с переводами
Последние достижения в области генеративных моделей видео, такие как Veo-3, продемонстрировали удивительные способности к рассуждению в условиях нулевого обучения, что создает растущую потребность в систематической и надежной оценке. Мы представляем V-ReasonBench — эталонный тест, разработанный для оценки способности к рассуждению на основе видео по четырем ключевым направлениям: структурированное решение задач, пространственное восприятие, вывод на основе паттернов и физическая динамика. Этот тест создан на основе как синтетических, так и реальных последовательностей изображений и предлагает разнообразный набор задач с проверяемыми ответами, которые воспроизводимы, масштабируемы и однозначны. Оценка шести современных моделей видео выявила четкие различия по направлениям, с сильной вариацией в структурированном, пространственном, паттерн-ориентированном и физическом рассуждении. Мы также сравниваем модели видео с мощными моделями изображений, анализируем типичные случаи галлюцинаций и изучаем, как продолжительность видео влияет на рассуждение в рамках цепочки кадров. В целом, V-ReasonBench предлагает унифицированную и воспроизводимую структуру для измерения способности к рассуждению на основе видео и направлен на поддержку разработки моделей с более надежными и согласованными с человеческим мышлением навыками рассуждения.