Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем Ovis2.5 — преемника Ovis2, разработанного для визуального восприятия в нативном разрешении и мощного мультимодального анализа. Ovis2.5 интегрирует трансформер для обработки изображений в их нативном, переменном разрешении, избегая деградации, связанной с фиксированным разрешением и разбиением на фрагменты, и сохраняя как мелкие детали, так и глобальную структуру — что критически важно для визуально насыщенного контента, такого как сложные диаграммы. Для усиления аналитических способностей модель обучается выходить за рамки линейной цепочки рассуждений и выполнять рефлексию, включая самопроверку и исправление. Эта продвинутая функциональность доступна в качестве опционального "режима мышления" на этапе вывода, позволяя пользователям жертвовать задержкой ради повышения точности на сложных входных данных. Модель обучается по комплексной пятиэтапной программе, которая постепенно развивает её навыки. Процесс начинается с базового визуального и мультимодального предобучения, переходит к крупномасштабной настройке на инструкциях и завершается улучшением согласованности и аналитических способностей с использованием DPO и GRPO. Для эффективного масштабирования этих улучшений мы применяем мультимодальную упаковку данных и гибридный параллелизм, что обеспечивает значительное ускорение на всех этапах. Мы выпускаем две модели с открытым исходным кодом: Ovis2.5-9B и Ovis2.5-2B. Последняя продолжает философию Ovis2 "маленькая модель, большая производительность", что делает её идеальной для сценариев с ограниченными ресурсами и работы на устройствах. На мультимодальном рейтинге OpenCompass Ovis2.5-9B в среднем набирает 78.3 балла, что значительно превосходит своего предшественника Ovis2-8B и устанавливает новый стандарт среди открытых MLLM с параметрами менее 40 миллиардов; Ovis2.5-2B набирает 73.9 балла, устанавливая SOTA для своего размера. Помимо общих оценок, Ovis2.5 демонстрирует лидирующие результаты на STEM-бенчмарках, показывает сильные способности в задачах, связанных с заземлением и видео, и достигает SOTA среди открытых моделей своего масштаба в анализе сложных диаграмм.
Понимание длинных повествований и романов представляет собой сложную задачу, обусловленную их запутанными сюжетными линиями и сложными, часто развивающимися отношениями между персонажами и сущностями. Учитывая ограниченные способности крупных языковых моделей (LLM) к рассуждениям в рамках расширенного контекста и высокую вычислительную стоимость, подходы, основанные на извлечении информации, остаются ключевыми на практике. Однако традиционные методы RAG (Retrieval-Augmented Generation) могут оказаться недостаточными из-за их статичного, одношагового процесса извлечения, который часто упускает динамический характер захвата взаимосвязанных отношений в рамках длинного контекста. В данной работе мы предлагаем ComoRAG, основываясь на принципе, что повествовательное рассуждение — это не одноразовый процесс, а динамическое, развивающееся взаимодействие между приобретением новых доказательств и консолидацией прошлых знаний, аналогичное человеческому познанию при рассуждении с использованием сигналов, связанных с памятью в мозге. В частности, при столкновении с тупиком в рассуждениях ComoRAG проходит через итеративные циклы рассуждений, взаимодействуя с динамическим рабочим пространством памяти. В каждом цикле он генерирует зондирующие запросы для разработки новых исследовательских путей, а затем интегрирует извлеченные доказательства новых аспектов в глобальный пул памяти, тем самым способствуя формированию связного контекста для разрешения запроса. На четырех сложных бенчмарках для длинных повествовательных контекстов (200K+ токенов) ComoRAG превосходит сильные базовые методы RAG с последовательным относительным улучшением до 11% по сравнению с самым сильным базовым методом. Дополнительный анализ показывает, что ComoRAG особенно эффективен для сложных запросов, требующих глобального понимания, предлагая принципиально новый, когнитивно мотивированный парадигмальный подход к извлечению информации для понимания длинного контекста с целью поддержки состоятельного рассуждения. Наш код доступен публично по адресу: https://github.com/EternityJune25/ComoRAG.
Мы представляем 4DNeX — первую прямую (feed-forward) архитектуру для генерации 4D-представлений (т.е. динамических 3D-сцен) из одного изображения. В отличие от существующих методов, которые требуют вычислительно затратной оптимизации или многокадровых видеовходов, 4DNeX обеспечивает эффективную сквозную генерацию "изображение-в-4D" за счет дообучения предварительно обученной модели диффузии видео. В частности: 1) для устранения недостатка 4D-данных мы создали 4DNeX-10M — крупномасштабный набор данных с высококачественными 4D-аннотациями, сгенерированными с использованием передовых методов реконструкции; 2) мы вводим унифицированное 6D-представление видео, которое совместно моделирует RGB- и XYZ-последовательности, облегчая структурированное обучение как внешнего вида, так и геометрии; 3) мы предлагаем набор простых, но эффективных стратегий адаптации для перепрофилирования предварительно обученных моделей диффузии видео под задачи 4D-моделирования. 4DNeX генерирует высококачественные динамические облака точек, позволяющие синтезировать видео с новых ракурсов. Многочисленные эксперименты демонстрируют, что 4DNeX превосходит существующие методы генерации 4D по эффективности и обобщаемости, предлагая масштабируемое решение для моделирования "изображение-в-4D" и закладывая основу для генеративных 4D-моделей мира, имитирующих эволюцию динамических сцен.
Мы предлагаем новый подход к генерации изображений, заключающийся в разложении изображения на структурированную последовательность, где каждый элемент последовательности имеет одинаковое пространственное разрешение, но отличается количеством уникальных токенов, что позволяет захватывать различные уровни визуальной детализации. Генерация изображений осуществляется с помощью нашей новой структуры Next Visual Granularity (NVG), которая создает последовательность визуальной детализации, начиная с пустого изображения и постепенно уточняя его, от глобальной композиции до мелких деталей, в структурированной манере. Этот итеративный процесс кодирует иерархическое, слоистое представление, обеспечивая детализированный контроль над процессом генерации на нескольких уровнях детализации. Мы обучаем серию моделей NVG для условной генерации изображений по классам на наборе данных ImageNet и наблюдаем четкую масштабируемость. По сравнению с серией VAR, NVG стабильно превосходит её по показателям FID (3.30 -> 3.03, 2.57 -> 2.44, 2.09 -> 2.06). Мы также проводим обширный анализ, чтобы продемонстрировать возможности и потенциал структуры NVG. Наш код и модели будут опубликованы.
Крупные языковые модели (LLM) демонстрируют впечатляющие результаты в понимании, генерации и рассуждении на естественном языке, а также расширяют возможности мультимодальных моделей. Трансформеры, лежащие в основе современных LLM, обеспечивают надежную базовую архитектуру с отличными масштабируемыми свойствами. Однако традиционная архитектура трансформеров требует значительных вычислительных ресурсов и создает серьезные препятствия для масштабного обучения и практического внедрения. В данном обзоре мы проводим систематический анализ инновационных архитектур LLM, которые устраняют присущие трансформерам ограничения и повышают эффективность. Начиная с языкового моделирования, обзор охватывает основы и технические детали линейных и разреженных методов моделирования последовательностей, эффективных вариантов полного внимания, разреженных смесей экспертов, гибридных архитектур, объединяющих вышеуказанные методы, а также новых диффузионных LLM. Кроме того, мы обсуждаем применение этих методов к другим модальностям и рассматриваем их более широкие последствия для разработки масштабируемых, ресурсоэффективных базовых моделей. Группируя последние исследования в указанные категории, данный обзор представляет схему современных эффективных архитектур LLM, и мы надеемся, что это послужит стимулом для будущих исследований в направлении создания более эффективных и универсальных систем искусственного интеллекта.
Крупные языковые модели (LLM) крайне чувствительны к тонким, не семантическим вариациям в формулировках и форматировании промптов. В данной работе мы представляем первое систематическое исследование 5 методов повышения устойчивости промптов в рамках единой экспериментальной схемы. Мы тестируем эти методы на 8 моделях из семейств Llama, Qwen и Gemma, используя 52 задачи из набора данных Natural Instructions. Наше исследование охватывает методы повышения устойчивости как в рамках тонкой настройки, так и в контекстном обучении, а также проверяет их способность к обобщению при различных типах сдвигов распределения. В заключение мы расширяем анализ на GPT-4.1 и DeepSeek V3, чтобы оценить текущую устойчивость передовых моделей к изменениям формата. Наши результаты предоставляют практические рекомендации относительно относительной эффективности этих методов, позволяя специалистам принимать обоснованные решения для достижения стабильной и надежной работы LLM в реальных приложениях. Код: https://github.com/AIRI-Institute/when-punctuation-matters.
Classifier-free Guidance (CFG) — это широко используемая техника в современных диффузионных моделях для повышения качества выборок и соответствия запросам. Однако, проведя эмпирический анализ на примере моделирования гауссовских смесей с аналитическим решением, мы наблюдаем расхождение между субоптимальными результатами, полученными с помощью CFG, и истинными значениями. Чрезмерная зависимость модели от этих субоптимальных прогнозов часто приводит к семантической несогласованности и низкому качеству выходных данных. Чтобы решить эту проблему, мы сначала эмпирически демонстрируем, что субоптимальные прогнозы модели могут быть эффективно улучшены с использованием подсетей самой модели. Основываясь на этом наблюдении, мы предлагаем S^2-Guidance — новый метод, который использует стохастическое отключение блоков в процессе прямого прохода для создания стохастических подсетей, эффективно направляя модель от потенциально низкокачественных прогнозов к высококачественным результатам. Многочисленные качественные и количественные эксперименты на задачах генерации изображений и видео по тексту показывают, что S^2-Guidance демонстрирует превосходную производительность, стабильно превосходя CFG и другие передовые стратегии управления. Наш код будет опубликован.
Мультимодальные модели достигли значительного прогресса в последние годы. Тем не менее, они продолжают демонстрировать заметные ограничения в пространственном понимании и рассуждении, которые являются фундаментальными способностями для достижения искусственного общего интеллекта. С недавним выпуском GPT-5, предположительно самой мощной на сегодняшний день модели ИИ, настало время оценить, где находятся ведущие модели на пути к пространственному интеллекту. Сначала мы предлагаем всеобъемлющую таксономию пространственных задач, которая объединяет существующие бенчмарки, и обсуждаем сложности обеспечения справедливой оценки. Затем мы оцениваем современные проприетарные и открытые модели на восьми ключевых бенчмарках, затратив более миллиарда токенов. Наше эмпирическое исследование показывает, что (1) GPT-5 демонстрирует беспрецедентную силу в пространственном интеллекте, однако (2) всё ещё отстаёт от человеческой производительности в широком спектре задач. Более того, мы (3) выявляем наиболее сложные проблемы пространственного интеллекта для мультимодальных моделей, и (4) проприетарные модели не демонстрируют решающего преимущества при решении самых сложных задач. Кроме того, мы проводим качественную оценку в разнообразных сценариях, которые интуитивно понятны для людей, но остаются недоступными даже для самых передовых мультимодальных моделей.
Крупные языковые модели (LLM) продемонстрировали впечатляющие способности в изолированных пошаговых задачах, таких как математика и программирование, однако их компетентность в долгосрочном планировании, где решения требуют протяженных, структурированных последовательностей взаимозависимых действий, остается недостаточно изученной. Существующие бенчмарки обычно оценивают LLM через абстрактные или низкоразмерные алгоритмические задачи, не учитывая сложность реалистичных сред планирования. Мы представляем HeroBench — новый бенчмарк, специально разработанный для оценки долгосрочного планирования и структурированного рассуждения в сложных виртуальных мирах, вдохновленных RPG. HeroBench предоставляет тщательно сконструированный набор задач, охватывающих широкий спектр сложностей, симулированную среду для выполнения и проверки планов агентов, а также детализированные аналитические инструменты для оценки производительности моделей. Задачи требуют от моделей формулирования стратегических планов, эффективного сбора ресурсов, освоения необходимых навыков, создания снаряжения и победы над противниками, отражая многоуровневые зависимости и ограничения практических сценариев. Наше масштабное тестирование 25 современных LLM, включая как открытые, так и проприетарные модели, в том числе семейство GPT-5, выявило значительные различия в производительности, редко наблюдаемые в традиционных бенчмарках на рассуждение. Детальный анализ ошибок также выявил конкретные слабости текущих моделей в генерации устойчивых высокоуровневых планов и надежном выполнении структурированных действий. Таким образом, HeroBench не только значительно продвигает оценку рассуждений LLM, но и предоставляет гибкую, масштабируемую основу для будущих исследований в области продвинутого автономного планирования в виртуальных средах.
Последние достижения в области интерактивной генерации видео продемонстрировали потенциал диффузионных моделей как мировых моделей, способных захватывать сложную физическую динамику и интерактивное поведение. Однако существующие интерактивные мировые модели зависят от двунаправленного внимания и длительных шагов вывода, что серьезно ограничивает их производительность в реальном времени. В результате они с трудом моделируют динамику реального мира, где результаты должны мгновенно обновляться на основе исторического контекста и текущих действий. Для решения этой проблемы мы представляем Matrix-Game 2.0 — интерактивную мировую модель, которая генерирует длинные видео на лету с помощью авторегрессивной диффузии за несколько шагов. Наша структура состоит из трех ключевых компонентов: (1) Масштабируемый конвейер производства данных для сред Unreal Engine и GTA5, позволяющий эффективно создавать огромные объемы (около 1200 часов) видеоданных с разнообразными аннотациями взаимодействий; (2) Модуль инъекции действий, который позволяет использовать ввод с клавиатуры и мыши на уровне кадров в качестве интерактивных условий; (3) Дистилляция за несколько шагов, основанная на каузальной архитектуре, для генерации видео в реальном времени и потоковой передачи. Matrix Game 2.0 способен генерировать высококачественные видео продолжительностью в минуты в разнообразных сценах с ультрабыстрой скоростью 25 кадров в секунду. Мы открываем исходные коды и веса модели для продвижения исследований в области интерактивного моделирования миров.
Мы представляем AuriStream, биологически вдохновленную модель для кодирования речи, основанную на двухэтапной структуре, вдохновленной иерархией обработки звука в человеческом слуховом аппарате. На первом этапе исходный аудиосигнал преобразуется в частотно-временное представление, основанное на работе человеческой улитки, из которого извлекаются дискретные кохлеарные токены. На втором этапе применяется авторегрессионная модель последовательностей к этим кохлеарным токенам. AuriStream обучается осмысленным представлениям фонем и слов, а также достигает передового уровня в области лексической семантики. Модель демонстрирует конкурентоспособные результаты на разнообразных задачах из набора SUPERB, связанных с обработкой речи. Дополняя мощные репрезентационные способности AuriStream, модель генерирует продолжения аудиосигналов, которые могут быть визуализированы в спектрограммном пространстве и декодированы обратно в аудио, что позволяет глубже понять предсказания модели. В заключение, мы представляем двухэтапную структуру для обучения репрезентации речи, направленную на развитие более человеко-подобных моделей, эффективно справляющихся с широким спектром задач, связанных с обработкой речи.
Переосвещение видео — это сложная, но важная задача, которая заключается в замене фона в видео с одновременной гармоничной корректировкой освещения на переднем плане. При выполнении этой задачи необходимо сохранять исходные свойства переднего плана, такие как альбедо, и обеспечивать согласованное переосвещение между временными кадрами. В данной статье мы представляем Lumen — сквозную (end-to-end) архитектуру для переосвещения видео, разработанную на основе крупномасштабных моделей генерации видео, которая принимает гибкие текстовые описания для управления освещением и фоном. Учитывая недостаток высококачественных парных видео с одинаковым передним планом в различных условиях освещения, мы создали крупномасштабный набор данных, включающий как реалистичные, так и синтетические видео. Для синтетической области, благодаря обилию 3D-ассетов в сообществе, мы используем передовой движок 3D-рендеринга для создания пар видео в разнообразных окружениях. Для реалистичной области мы применяем симуляцию освещения на основе HDR, чтобы компенсировать недостаток парных видео, снятых в естественных условиях. Опираясь на этот набор данных, мы разработали совместную учебную программу, которая эффективно раскрывает сильные стороны каждой области: физическую согласованность в синтетических видео и обобщённое распределение домена в реалистичных видео. Для реализации этого мы внедряем в модель адаптер, учитывающий домен, чтобы разделить обучение переосвещения и распределения внешнего вида домена. Мы создали комплексный бенчмарк для оценки Lumen вместе с существующими методами, рассматривая сохранение переднего плана и согласованность видео. Экспериментальные результаты показывают, что Lumen эффективно редактирует входные данные, создавая кинематографические видео с согласованным освещением и строгим сохранением переднего плана. Наш проект доступен по ссылке: https://lumen-relight.github.io/
Мы представляем G-CUT3R — новый подход с прямой передачей для управляемой реконструкции 3D-сцен, который улучшает модель CUT3R за счет интеграции априорной информации. В отличие от существующих методов с прямой передачей, которые полагаются исключительно на входные изображения, наш подход использует вспомогательные данные, такие как глубина, калибровки камер или позиции камер, которые обычно доступны в реальных сценариях. Мы предлагаем легковесную модификацию CUT3R, включающую отдельный кодировщик для каждого типа данных для извлечения признаков, которые объединяются с токенами RGB-изображений через нулевую свертку. Этот гибкий дизайн позволяет бесшовно интегрировать любую комбинацию априорной информации в процессе вывода. Оценка на множестве бенчмарков, включая задачи 3D-реконструкции и других многовидовых задач, демонстрирует значительное улучшение производительности, показывая способность эффективно использовать доступные априорные данные при сохранении совместимости с различными входными модальностями.
Мы представляем визуальные подсказки для действий — унифицированное представление действий для генерации видео на основе сложных взаимодействий с высокой степенью свободы (DoF), сохраняя при этом переносимую визуальную динамику между доменами. Генерация видео, управляемая действиями, сталкивается с компромиссом между точностью и общностью: существующие методы, использующие текст, примитивные действия или грубые маски, предлагают общность, но страдают от недостатка точности, в то время как сигналы действий, ориентированные на агента, обеспечивают точность за счет переносимости между доменами. Чтобы сбалансировать точность действий и переносимость динамики, мы предлагаем "визуализировать" действия в виде точных визуальных подсказок как доменно-независимых представлений, которые сохраняют как геометрическую точность, так и адаптивность между доменами для сложных действий; в частности, мы выбираем визуальные скелеты за их универсальность и доступность. Мы предлагаем надежные подходы для построения скелетов из двух источников данных, богатых взаимодействиями — взаимодействий человек-объект (HOI) и манипуляций с ловкими роботами, — что позволяет проводить кросс-доменное обучение генеративных моделей, управляемых действиями. Интегрируя визуальные скелеты в предобученные модели генерации видео с помощью легкой тонкой настройки, мы обеспечиваем точное управление сложными взаимодействиями, сохраняя при этом обучение динамике между доменами. Эксперименты на наборах данных EgoVid, RT-1 и DROID демонстрируют эффективность нашего подхода. Страница проекта: https://zju3dv.github.io/VAP/.
Традиционные подходы к многомодальному обучению требуют дорогостоящего предварительного обучения для согласования визуальных и языковых модальностей, обычно проецируя визуальные признаки в пространство дискретных текстовых токенов. Мы оспариваем оба фундаментальных предположения, лежащих в основе этой парадигмы, предлагая Inverse-LLaVA — новый подход, который полностью устраняет необходимость предварительного обучения согласованию, одновременно инвертируя традиционное направление отображения. Вместо проецирования визуальных признаков в текстовое пространство наш метод отображает текстовые эмбеддинги в непрерывное пространство визуальных представлений и выполняет слияние в промежуточных слоях трансформера. Благодаря избирательным аддитивным компонентам в механизмах внимания мы обеспечиваем динамическую интеграцию визуальных и текстовых представлений без необходимости использования массивных наборов данных для согласования изображений и текста. Комплексные эксперименты на девяти многомодальных бенчмарках демонстрируют тонкие компромиссы в производительности: Inverse-LLaVA достигает значительных улучшений в задачах, требующих интенсивного рассуждения и когнитивных навыков (MM-VET: +0,2%, VizWiz: +1,8%, ScienceQA: +0,2%, когнитивное рассуждение: +27,2%), при этом показывая ожидаемое снижение в задачах восприятия, требующих запоминания визуально-текстовых ассоциаций (распознавание знаменитостей: -49,5%, OCR: -21,3%). Эти результаты предоставляют первые эмпирические доказательства того, что предварительное обучение согласованию не является необходимым для эффективного многомодального обучения, особенно для сложных задач рассуждения. Наша работа устанавливает возможность новой парадигмы, которая сокращает вычислительные требования на 45%, бросает вызов традиционным представлениям о слиянии модальностей и открывает новые направления исследований для эффективных многомодальных архитектур, сохраняющих специфические характеристики модальностей. Наш проект с кодом и дополнительными ресурсами доступен на сайте https://inverse-llava.github.io.
Обучение с подкреплением на основе проверяемых наград (RLVR) стало мощной парадигмой для улучшения больших языковых моделей (LLM), что подтверждается успехом o-серии от OpenAI. В RLVR награды извлекаются из проверяемых сигналов, таких как прохождение модульных тестов в генерации кода или соответствие правильным ответам в математических рассуждениях. Хотя этот подход эффективен, он в значительной степени ограничивает RLVR областями с автоматически проверяемыми результатами. Чтобы преодолеть это, мы расширяем парадигму RLVR на задачи с открытым концом, интегрируя награды на основе рубрик, где тщательно разработанные рубрики служат структурированными, интерпретируемыми моделью критериями для автоматической оценки субъективных результатов. Мы создаем, насколько нам известно, крупнейшую систему рубричных наград на сегодняшний день, включающую более 10 000 рубрик, разработанных людьми, LLM или в результате гибридного сотрудничества человека и LLM. Реализация RL на основе рубрик сопряжена с трудностями; мы решаем эти проблемы с помощью четкой структуры и представляем открытую модель Qwen-30B-A3B, которая демонстрирует значительные улучшения: 1) Всего на 5K+ образцах наша система улучшает результаты на +5,2% на тестах с открытым концом (особенно в гуманитарных науках), превосходя модель DeepSeek-V3 с 671B параметров на +2,4%, сохраняя при этом общие и логические способности. 2) Наш метод обеспечивает детализированный стилистический контроль, используя рубрики как якоря для смягчения "искусственного" тона и создания более человечных и выразительных ответов. Мы делимся ключевыми уроками в построении рубрик, выборе данных и обучении, а также обсуждаем ограничения и будущие релизы.
Машинное "забывание" (Machine Unlearning, MU) направлено на удаление целевых обучающих данных из обученной модели, чтобы удаленные данные больше не влияли на поведение модели, выполняя обязательства "права на забвение" в соответствии с законами о защите данных. Однако мы наблюдаем, что исследователи в этой быстро развивающейся области сталкиваются с трудностями в анализе и понимании поведения различных методов MU, особенно в отношении трех фундаментальных принципов: точности, эффективности и конфиденциальности. В результате они часто полагаются на агрегированные метрики и ситуативные оценки, что затрудняет точное сопоставление компромиссов между методами. Чтобы заполнить этот пробел, мы представляем систему визуальной аналитики Unlearning Comparator, предназначенную для облегчения систематической оценки методов MU. Наша система поддерживает две важные задачи в процессе оценки: сравнение моделей и симуляцию атак. Во-первых, она позволяет пользователю сравнивать поведение двух моделей, например, модели, созданной определенным методом, и базовой модели, переобученной с нуля, на уровнях классов, экземпляров и слоев, чтобы лучше понять изменения, внесенные после "забывания". Во-вторых, наша система симулирует атаки на определение принадлежности (Membership Inference Attacks, MIAs) для оценки конфиденциальности метода, где злоумышленник пытается определить, входили ли определенные образцы данных в исходный обучающий набор. Мы оцениваем нашу систему с помощью кейс-стади, визуально анализируя известные методы MU, и демонстрируем, что она помогает пользователю не только понять поведение моделей, но и получить инсайты, которые могут способствовать улучшению методов MU.
Крупные модели рассуждений (Large Reasoning Models, LRMs) продемонстрировали впечатляющие способности в решении математических задач, что подтверждается существующими тестами, ориентированными исключительно на хорошо определённые проблемы. Однако такая система оценки содержит существенный пробел, поскольку подлинно интеллектуальный агент должен не только решать задачи (как решатель математических тестов), но и уметь запрашивать информацию, когда проблемы содержат недостаточные данные, что позволяет проявлять инициативу в ответах на запросы пользователей. Чтобы устранить этот пробел, мы предлагаем новый набор данных, состоящий из двух типов неполных задач с разнообразным контекстом. На основе этого набора данных наше систематическое тестирование LRM выявило их неспособность активно запрашивать информацию. Кроме того, мы обнаружили поведение, связанное с чрезмерным анализом и галлюцинациями у LRM, а также подчеркнули потенциал и сложности обучения такой способности с помощью контролируемой тонкой настройки. Мы надеемся предложить новые идеи для разработки LRM с подлинным интеллектом, а не просто для решения задач.
Мы исследуем, в какой степени многомодальные большие языковые модели (MLLMs) способны точно определять ориентацию входных изображений, повернутых на 0°, 90°, 180° и 270°. Эта задача требует развитых способностей к визуальному анализу для обнаружения признаков поворота и контекстуализации пространственных отношений внутри изображений, независимо от их ориентации. Для оценки этих способностей MLLMs мы представляем RotBench — ручной бенчмарк из 350 изображений, включающих сцены из повседневной жизни, портреты и пейзажи. Несмотря на относительно простой характер задачи, мы показываем, что несколько современных открытых и проприетарных MLLMs, включая GPT-5, o3 и Gemini-2.5-Pro, не могут надежно определять поворот входных изображений. Предоставление моделям дополнительной информации — включая подписи, карты глубины и другие данные — или использование цепочек рассуждений (chain-of-thought prompting) дает лишь незначительные и нестабильные улучшения. Наши результаты показывают, что большинство моделей способны надежно определять изображения в правильной ориентации (0°), тогда как некоторые модели могут распознавать перевернутые изображения (180°). Ни одна из моделей не может надежно различить повороты на 90° и 270°. Одновременное отображение изображения в разных ориентациях приводит к умеренному улучшению производительности моделей, использующих рассуждения, в то время как модифицированная схема с использованием голосования повышает производительность более слабых моделей. Мы также показываем, что тонкая настройка (fine-tuning) не улучшает способность моделей различать повороты на 90° и 270°, несмотря на значительное улучшение в распознавании изображений, повернутых на 180°. В совокупности эти результаты выявляют значительный разрыв между способностями MLLMs к пространственному анализу и человеческим восприятием в определении поворота изображений.