Ежедневно отобранные исследовательские статьи по ИИ с переводами
Оптимизация больших языковых моделей (LLM) остается критически важной задачей, особенно в условиях, когда масштабирование моделей усугубляет их чувствительность к алгоритмической неточности и нестабильности обучения. Последние достижения в области оптимизаторов улучшили эффективность сходимости за счет ортогонализации импульса, однако страдают от двух ключевых ограничений в отношении устойчивости: размерной хрупкости точности ортогонализации и уязвимости к шуму, вызванному выбросами. Для решения этих проблем устойчивости мы представляем ROOT — робастный ортогонализованный оптимизатор, который повышает стабильность обучения за счет двойного механизма устойчивости. Во-первых, мы разрабатываем размерно-устойчивую схему ортогонализации с использованием адаптивных итераций Ньютона с точно настроенными коэффициентами, адаптированными под конкретные размеры матриц, что обеспечивает стабильную точность в различных архитектурных конфигурациях. Во-вторых, мы вводим оптимизационно-устойчивую структуру на основе проксимальной оптимизации, которая подавляет шум от выбросов, сохраняя при этом значимые направления градиента. Многочисленные эксперименты демонстрируют, что ROOT обеспечивает значительное повышение устойчивости, более быструю сходимость и превосходную итоговую производительность по сравнению с оптимизаторами на основе Muon и Adam, особенно в зашумленных и невыпуклых сценариях. Наша работа устанавливает новую парадигму для создания робастных и точных оптимизаторов, способных справляться со сложностями современных задач обучения крупномасштабных моделей. Код будет доступен по адресу: https://github.com/huawei-noah/noah-research/tree/master/ROOT.
Недавние достижения в области эволюционных вычислений, управляемых крупными языковыми моделями (LLM), в частности, AlphaEvolve (Новиков и др., 2025; Георгиев и др., 2025), продемонстрировали значительные успехи в открытии новых математических конструкций и решении сложных задач оптимизации. Однако высокоуровневые описания в опубликованных работах оставляют многие детали реализации неопределенными, что затрудняет воспроизводимость и дальнейшие исследования. В данном отчете мы представляем GigaEvo — расширяемую открытую платформу, которая позволяет исследователям изучать и экспериментировать с гибридными подходами, сочетающими LLM и эволюционные методы, вдохновленные AlphaEvolve. Наша система предоставляет модульные реализации ключевых компонентов: алгоритмы качества и разнообразия MAP-Elites, асинхронные конвейеры оценки на основе направленных ациклических графов (DAG), операторы мутации, управляемые LLM, с генерацией инсайтов и двунаправленным отслеживанием родословных, а также гибкие стратегии эволюции с использованием множественных островов. Для оценки воспроизводимости и проверки нашей реализации мы тестируем GigaEvo на сложных задачах из статьи AlphaEvolve: размещение треугольников Хейльбронна, упаковка кругов в квадраты и числа поцелуев в многомерных пространствах. Платформа подчеркивает модульность, параллелизм и удобство экспериментирования, обеспечивая быстрое прототипирование через декларативную конфигурацию. Мы предоставляем подробные описания архитектуры системы, решений по реализации и методологии экспериментов для поддержки дальнейших исследований в области эволюционных методов, управляемых LLM. Платформа GigaEvo и весь экспериментальный код доступны по адресу https://github.com/AIRI-Institute/gigaevo-core.
Сегментация медицинских изображений является фундаментальной задачей для биомедицинских исследований. Существующие методы страдают от недостаточной обобщающей способности и требуют трудоемкой ручной разметки для новых клинических применений. Мы представляем MedSAM-3 — модель для сегментации медицинских изображений и видео с текстовыми промптами. Путем дообучения архитектуры Segment Anything Model (SAM) 3 на медицинских изображениях с семантическими концептуальными метками наша модель MedSAM-3 реализует концептуальную сегментацию по промптам (Promptable Concept Segmentation, PCS), позволяя точно выделять анатомические структуры через открытые текстовые описания вместо исключительно геометрических промптов. Дополнительно мы представляем MedSAM-3 Agent — фреймворк, интегрирующий мультимодальные большие языковые модели (Multimodal Large Language Models, MLLMs) для выполнения сложных логических выводов и итеративного уточнения в рамках workflow с агентом в цикле. Комплексные эксперименты на различных модальностях медицинской визуализации, включая рентген, МРТ, УЗИ, КТ и видео, демонстрируют значительное преимущество нашего подхода по сравнению с существующими специализированными и базовыми моделями. Код и модель будут доступны по адресу: https://github.com/Joey-S-Liu/MedSAM3.
Визуально-языковые агенты достигли значительного прогресса в решении разнообразных мультимодальных задач, однако их обучение остается ограниченным недостатками человеческой разметки. Новейшие подходы с самовознаграждением пытаются преодолеть это ограничение, позволяя моделям выступать в роли собственных критиков или поставщиков вознаграждений. Тем не менее, чисто текстовые самооценки испытывают трудности с проверкой сложных шагов визуального рассуждения и часто страдают от галлюцинаций при оценке. Для решения этих проблем, вдохновившись последними достижениями в рассуждениях с использованием инструментов, мы предлагаем Agent0-VL — саморазвивающийся визуально-языковой агент, достигающий непрерывного улучшения за счет инструментально-интегрированных рассуждений. Agent0-VL включает использование инструментов не только в рассуждения, но и в самооценку и самокоррекцию, позволяя модели интроспективно проверять и уточнять свои умозаключения через обоснованный доказательствами анализ. Он объединяет две синергетические роли в рамках одной LVLM: Решателя, выполняющего многошаговые инструментально-интегрированные рассуждения, и Верификатора, генерирующего структурированную обратную связь и детализированные самовознаграждения через инструментально-обоснованную критику. Эти роли взаимодействуют через Самосовершенствующийся Цикл Рассуждений, где инструментальная верификация и обучение с подкреплением совместно выравнивают распределения рассуждений и оценок для стабильного самоулучшения. Благодаря этой эволюции без внешнего вознаграждения Agent0-VL выравнивает свои рассуждения и проверочное поведение без какой-либо человеческой разметки или внешних моделей вознаграждения, достигая непрерывного самосовершенствования. Эксперименты на задачах геометрического решения проблем и визуального научного анализа показывают, что Agent0-VL достигает улучшения на 12,5% по сравнению с базовой моделью. Наш код доступен по адресу https://github.com/aiming-lab/Agent0/Agent0-VL{эта ссылка https URL}.
Сохранение идентичности первого кадра при обеспечении точного управления движением является фундаментальной задачей в анимации изображений человека. Процесс связывания изображения с движением в доминирующей парадигме Reference-to-Video (R2V) игнорирует критические пространственно-временные несовпадения, характерные для реальных приложений, что приводит к таким проблемам, как дрейф идентичности и визуальные артефакты. Мы представляем SteadyDancer — фреймворк на основе парадигмы Image-to-Video (I2V), который обеспечивает гармоничную и связную анимацию и первым надежно гарантирует сохранение первого кадра. Во-первых, мы предлагаем механизм согласования условий для гармонизации двух конфликтующих условий, позволяющий осуществлять точное управление без потери fidelity. Во-вторых, мы разрабатываем синергетические модули модуляции позы для генерации адаптивного и связного представления позы, обладающего высокой совместимостью с референсным изображением. Наконец, мы используем поэтапный конвейер обучения с разделенными целями, который иерархически оптимизирует модель по fidelity движения, визуальному качеству и временной согласованности. Эксперименты показывают, что SteadyDancer достигает передовых результатов как по fidelity внешнего вида, так и по управлению движением, требуя при этом значительно меньше вычислительных ресурсов для обучения по сравнению с аналогичными методами.
В последние годы наблюдается значительный прогресс в области унифицированных мультимодальных моделей, однако фундаментальный вопрос остается открытым: действительно ли понимание способствует генерации? Для исследования этой проблемы мы представляем UniSandbox — развязанную фреймворк-оценку, сочетающуюся с контролируемыми синтетическими наборами данных для предотвращения утечки данных и обеспечения детального анализа. Наши результаты выявляют значительный разрыв между пониманием и генерацией, который проявляется в двух ключевых аспектах: генерации на основе рассуждений и передаче знаний. В частности, для задач генерации рассуждений мы наблюдаем, что явная цепочка мыслей (Chain-of-Thought, CoT) в модуле понимания эффективно устраняет этот разрыв, и дополнительно демонстрируем, что метод самообучения может успешно интериоризировать эту способность, обеспечивая неявные рассуждения в процессе генерации. Кроме того, для задач передачи знаний мы обнаруживаем, что CoT assists процессу генерации, помогая извлекать недавно усвоенные знания, а также выявляем, что архитектуры на основе запросов изначально обладают латентными свойствами, подобными CoT, которые влияют на эту передачу. UniSandbox предоставляет предварительные инсайты для проектирования будущих унифицированных архитектур и стратегий обучения, действительно преодолевающих разрыв между пониманием и генерацией. Код и данные доступны по адресу https://github.com/PKU-YuanGroup/UniSandBox.
Обучение с подкреплением (RL) играет все более важную роль в повышении способностей к рассуждению больших языковых моделей (LLM), однако стабильная и эффективная оптимизация политики остается сложной задачей. Коэффициенты важности на уровне токенов часто демонстрируют высокую дисперсию — явление, усугубляемое в моделях типа Mixture-of-Experts, — что приводит к нестабильным обновлениям. Существующие методы оптимизации политики на основе групп, такие как GSPO и GRPO, смягчают эту проблему с помощью жесткого ограничения (hard clipping), что затрудняет одновременное поддержание стабильности и эффективного обучения. Мы предлагаем метод мягкой адаптивной оптимизации политики (Soft Adaptive Policy Optimization, SAPO), который заменяет жесткое ограничение плавным, управляемым температурой вентилем, который адаптивно ослабляет обновления вне политики (off-policy), сохраняя при этом полезные сигналы обучения. По сравнению с GSPO и GRPO, SAPO является как последовательно-согласованным, так и адаптивным на уровне токенов. Подобно GSPO, SAPO сохраняет согласованность на уровне последовательности, но его мягкое вентилирование формирует непрерывную область доверия, которая избегает хрупкой полосы жесткого ограничения, используемой в GSPO. Когда последовательность содержит несколько токенов с сильным отклонением от политики, GSPO подавляет все градиенты для этой последовательности, тогда как SAPO выборочно понижает вес только проблемных токенов и сохраняет сигнал обучения от близких к политике, повышая эффективность использования данных. По сравнению с GRPO, SAPO заменяет жесткое ограничение на уровне токенов плавным масштабированием, управляемым температурой, что обеспечивает более информативные и стабильные обновления. Эмпирические результаты на эталонных тестах математических рассуждений показывают, что SAPO демонстрирует повышенную стабильность обучения и более высокую производительность Pass@1 при сопоставимых вычислительных бюджетах. Более того, мы используем SAPO для обучения серии моделей Qwen3-VL, демонстрируя, что SAPO обеспечивает последовательное улучшение производительности на разнообразных задачах и для моделей разного размера. В целом, SAPO предоставляет более надежную, масштабируемую и эффективную стратегию оптимизации для RL-обучения LLM.
Предварительно обученные видео-модели усваивают мощные априорные знания для генерации качественного и временно согласованного контента. Хотя эти модели превосходно обеспечивают временную согласованность, их динамика часто ограничена непрерывной природой обучающих данных. Мы выдвигаем гипотезу, что путем внедрения богатого и неограниченного разнообразия контента из изображений в эту согласованную временную структуру можно генерировать наборы изображений, сочетающие как естественные переходы, так и значительно более широкий динамический диапазон. С этой целью мы представляем iMontage — унифицированную структуру, предназначенную для преобразования мощной видео-модели в универсальный генератор изображений. Данная структура принимает и производит наборы изображений переменной длины, объединяя широкий спектр задач генерации и редактирования изображений. Для достижения этого мы предлагаем элегантную и минимально инвазивную стратегию адаптации, дополненную специализированным процессом курирования данных и парадигмой обучения. Такой подход позволяет модели приобрести широкие возможности манипулирования изображениями без ущерба для её бесценных исходных априорных знаний о движении. iMontage демонстрирует превосходные результаты в решении нескольких основных задач типа «многие-ко-многим», не только сохраняя высокую контекстную согласованность между изображениями, но и генерируя сцены с исключительной динамикой, выходящей за рамки традиционных возможностей. С домашней страницей проекта можно ознакомиться по адресу: https://kr1sjfu.github.io/iMontage-web/.
Модели мира становятся фундаментальной парадигмой для масштабируемого и эффективного по данным воплощенного ИИ. В данной работе мы представляем GigaWorld-0 — унифицированную фреймворк-модель мира, разработанную специально в качестве механизма генерации данных для обучения Vision-Language-Action (VLA). GigaWorld-0 объединяет две синергетические компоненты: GigaWorld-0-Video, которая использует крупномасштабную генерацию видео для создания разнообразных, богатых текстурой и временно согласованных последовательностей для воплощенного ИИ при детальном контроле внешнего вида, точки обзора камеры и семантики действий; и GigaWorld-0-3D, которая сочетает 3D-генеративное моделирование, реконструкцию на основе 3D Gaussian Splatting, физически дифференцируемую идентификацию системы и исполняемое планирование движений для обеспечения геометрической согласованности и физического правдоподобия. Их совместная оптимизация позволяет осуществлять масштабируемый синтез данных о воплощенном взаимодействии, которые визуально привлекательны, пространственно согласованы, физически правдоподобны и соответствуют инструкциям. Крупномасштабное обучение становится возможным благодаря нашему эффективному фреймворку GigaTrain, который использует вычисления с точностью FP8 и разреженные механизмы внимания для радикального снижения требований к памяти и вычислительным ресурсам. Мы проводим всесторонние оценки, показывающие, что GigaWorld-0 генерирует высококачественные, разнообразные и управляемые данные по множеству параметров. Ключевой результат заключается в том, что модели VLA (например, GigaBrain-0), обученные на данных, сгенерированных GigaWorld-0, демонстрируют высокую производительность в реальном мире, значительно улучшая обобщающую способность и успешность выполнения задач на физических роботах без какого-либо взаимодействия с реальным миром во время обучения.
Квадратичная сложность полного механизма внимания ограничивает эффективную обработку длинных контекстов в больших языковых моделях (LLM). Разреженное внимание снижает эту вычислительную стоимость, ограничивая каждый запрос подмножеством предыдущих токенов; однако подходы, не требующие дообучения, часто приводят к значительной деградации качества. Нативные методы разреженного внимания (например, NSA, MoBA) смягчают эту проблему, но демонстрируют критический парадокс: они порождают меньшую разреженность внимания, чем модели с полным вниманием, хотя и направлены на его аппроксимацию, что может ограничивать их эффективность. Мы объясняем этот парадокс дефицитом градиентных обновлений: ключевые и value-пары с низким рангом, исключенные в процессе разреженного обучения, не получают ни прямого вклада, ни обратных градиентов и, следовательно, никогда не обучаются должному подавлению. Чтобы преодолеть это ограничение, мы предлагаем SSA (Sparse Sparse Attention) — унифицированную框架 обучения, которая учитывает как разреженное, так и полное внимание и обеспечивает двунаправленное выравнивание на каждом слое. Эта конструкция сохраняет поток градиентов ко всем токенам, одновременно явно побуждая выходы разреженного внимания соответствовать их аналогам с полным вниманием, тем самым способствуя большей разреженности. В результате SSA достигает наилучших результатов при выводе как с разреженным, так и с полным вниманием на нескольких наборах данных для проверки здравого смысла. Более того, SSA позволяет моделям плавно адаптироваться к различным бюджетам разреженности: производительность последовательно улучшается по мере увеличения числа токенов, доступных для внимания, что поддерживает гибкий баланс между вычислениями и производительностью во время вывода. Наконец, мы показываем, что нативное обучение с разреженным вниманием, что удивительно, улучшает экстраполяцию на длинных контекстах за счет смягчения перераспределения значений внимания в «сток-областях», причем SSA демонстрирует наилучшую способность к экстраполяции.
В данной статье представлена HunyuanOCR — коммерческая, открытая и легковесная (1 млрд параметров) визуально-языковая модель (VLM), предназначенная для задач оптического распознавания символов (OCR). Архитектура модели состоит из нативного Vision Transformer (ViT) и легковесной большой языковой модели (LLM), соединенных через MLP-адаптер. HunyuanOCR демонстрирует превосходную производительность, превосходя коммерческие API, традиционные пайплайны и более крупные модели (например, Qwen3-VL-4B). В частности, модель превосходит текущие публичные решения в задачах восприятия (детекция и разбор текста) и преуспевает в семантических задачах (информационное извлечение, перевод текста с изображений), заняв первое место в соревновании ICDAR 2025 DIMT Challenge (трек малых моделей). Кроме того, модель достигает передовых (SOTA) результатов на бенчмарке OCRBench среди VLM с менее чем 3 млрд параметров. HunyuanOCR обеспечивает прорыв в трех ключевых аспектах: 1) **Объединение универсальности и эффективности**: Мы реализовали полную поддержку ключевых возможностей, включая детекцию, разбор текста, информационное извлечение, визуальный вопросно-ответный режим и перевод, в рамках легковесной архитектуры. Это решает проблемы узкоспециализированных «экспертных OCR-моделей» и неэффективных «универсальных VLM». 2) **Упрощенная сквозная архитектура**: Использование чистой сквозной парадигмы устраняет зависимость от модулей предобработки (например, анализа макета). Это фундаментально решает проблему накопления ошибок, характерную для традиционных пайплайнов, и упрощает развертывание системы. 3) **Стратегии на основе данных и обучения с подкреплением**: Мы подтверждаем критическую важность высококачественных данных и впервые в индустрии демонстрируем, что стратегии обучения с подкреплением (RL) обеспечивают значительное улучшение производительности в задачах OCR. HunyuanOCR официально открыта на HuggingFace. Мы также предоставляем высокопроизводительное решение для развертывания на основе vLLM, которое выводит эффективность модели в промышленной эксплуатации на ведущий уровень. Мы надеемся, что данная модель будет способствовать развитию передовых исследований и послужит надежной основой для промышленных приложений.
Современные интерактивные модели видео-мира генерируют эволюцию сцены на основе пользовательских инструкций. Несмотря на впечатляющие результаты, сохраняются два ключевых ограничения. Во-первых, они не полностью используют соответствие между движением сцены, управляемым инструкциями, и лежащей в основе 3D-геометрией, что приводит к структурной нестабильности при изменении точки обзора. Во-вторых, они легко забывают историческую информацию в процессе многошагового взаимодействия, что приводит к накоплению ошибок и прогрессирующему дрейфу семантики и структуры сцены. Для решения этих проблем мы предлагаем MagicWorld — интерактивную модель видео-мира, интегрирующую 3D-геометрические априорные знания и исторический поиск. MagicWorld начинает с единого изображения сцены, использует пользовательские действия для управления динамической эволюцией сцены и авторегрессивно синтезирует непрерывные сцены. Мы представляем Модуль 3D-геометрии с управлением действиями (AG3D), который строит облако точек из первого кадра каждого взаимодействия и соответствующего действия, обеспечивая явные геометрические ограничения для переходов между точками обзора и тем самым повышая структурную согласованность. Дополнительно мы предлагаем механизм поиска по историческому кешу (HCR), который извлекает релевантные исторические кадры в процессе генерации и инжектирует их в качестве conditioning-сигналов, помогая модели использовать информацию о прошлых сценах и снижать накопление ошибок. Результаты экспериментов демонстрируют, что MagicWorld достигает значительного улучшения стабильности и непрерывности сцены на протяжении итераций взаимодействия.
Нормализующие потоки (NF) — это основанные на правдоподобии end-to-end генеративные модели для непрерывных данных, которые в последнее время вновь привлекли внимание благодаря обнадеживающему прогрессу в генерации изображений. Однако в области генерации видео, где пространственно-временная сложность и вычислительные затраты существенно выше, современные системы почти исключительно полагаются на диффузионные модели. В данной работе мы пересматриваем это пространство проектирования, представляя STARFlow-V — видеогенератор на основе нормализующего потока, обладающий значительными преимуществами, такими как сквозное обучение, надежное каузальное прогнозирование и нативная оценка правдоподобия. Развивая недавно предложенный STARFlow, STARFlow-V работает в пространственно-временном латентном пространстве с глобально-локальной архитектурой, которая ограничивает каузальные зависимости глобальным латентным пространством, сохраняя при этом богатые локальные взаимодействия внутри кадра. Это смягчает накопление ошибок во времени — распространенную проблему стандартной авторегрессионной генерации на основе диффузионных моделей. Кроме того, мы предлагаем метод сопоставления потоков и оценок (flow-score matching), который оснащает модель легковесным каузальным шумоподавителем для улучшения согласованности генерации видео авторегрессионным способом. Для повышения эффективности выборки STARFlow-V использует видеоспецифичную схему итераций Якоби, которая преобразует внутренние обновления в параллелизуемые итерации без нарушения причинности. Благодаря инвертируемой структуре та же модель изначально поддерживает задачи генерации видео по тексту, видео по изображению, а также видео по видео. Экспериментально STARFlow-V демонстрирует высокую визуальную точность и временную согласованность при практической пропускной способности выборки по сравнению с диффузионными базовыми методами. Эти результаты, насколько нам известно, впервые свидетельствуют о том, что нормализующие потоки способны на высококачественную авторегрессионную генерацию видео, утверждая их как перспективное направление исследований для построения мировых моделей. Код и сгенерированные примеры доступны по адресу https://github.com/apple/ml-starflow.
Несмотря на прогресс, видео-диффузионные трансформеры по-прежнему плохо обобщаются за пределы длины обучения — проблему, которую мы называем экстраполяцией длины видео. Мы выявили два типа сбоев: периодическое повторение контента, специфичное для модели, и универсальную деградацию качества. Предыдущие работы пытались решить проблему повторения с помощью позиционных кодировок, игнорируя деградацию качества и достигая лишь ограниченной экстраполяции. В данной статье мы пересматриваем эту задачу с более фундаментальной точки зрения: карт внимания, которые напрямую определяют влияние контекста на выходные данные. Мы устанавливаем, что оба типа сбоев имеют единую причину: дисперсию внимания, при которой токены за пределами окна обучения размывают усвоенные паттерны внимания. Это приводит к деградации качества, а повторение возникает как частный случай, когда эта дисперсия структурируется в периодические паттерны внимания, вызванные гармоническими свойствами позиционных кодировок. Основываясь на этом инсайте, мы предлагаем UltraViCo — бесплатный при обучении, plug-and-play метод, который подавляет внимание к токенам за пределами окна обучения с помощью постоянного коэффициента затухания. Одновременно решая обе проблемы, наш метод превосходит широкий набор базовых методов для различных моделей и коэффициентов экстраполяции, увеличивая предел экстраполяции с 2x до 4x. Примечательно, что на 4x экстраполяции он улучшает Dynamic Degree и Imaging Quality на 233% и 40.5% соответственно по сравнению с предыдущим лучшим методом. Более того, наш метод бесшовно обобщается на такие задачи, как управляемый синтез и редактирование видео.
Генеративные модели достигли выдающихся результатов в синтезе RGB-изображений, однако реальные задачи требуют работы с RGBA-данными. Это привело к фрагментированности области: специализированные модели для отдельных задач работают с альфа-каналом, но не обладают универсальностью, тогда как унифицированные многозадачные框架 ограничены RGB-пространством. Для преодоления этого разрыва мы представляем OmniAlpha — первую унифицированную многозадачную генеративную框架 для последовательного синтеза и редактирования RGBA-изображений. Её архитектура включает MSRoPE-BiL, новый метод RoPE с двунаправленно расширяемой осью слоёв для диффузионного трансформера (DiT), что позволяет параллельно обрабатывать несколько входных и целевых RGBA-слоёв. Для обучения框架 мы создали AlphaLayers — новый набор данных из 1000 высококачественных многослойных триплетов, собранных с помощью автоматизированного管道 синтеза и фильтрации. Совместное обучение OmniAlpha на этом наборе данных для 21 разнородной задачи показало, что наш унифицированный подход стабильно превосходит специализированные基线-модели. Особенно впечатляет достижение 84.8% относительного снижения метрики SAD при безмасочном матировании на AIM-500 и победа в более чем 90% случаев в тестах с человеческим оцениванием layer-conditioned completion. Наша работа доказывает, что унифицированная многозадачная модель способна обучать превосходное общее представление для RGBA-данных, открывая путь к созданию более мощных генеративных систем с поддержкой работы со слоями.
Мы представляем ReDirector — новый метод генерации видеоповторов с управлением камерой для динамически снимаемых видео переменной длины. В частности, мы исправляем распространённую ошибку в использовании RoPE (Rotary Position Embedding) в предыдущих работах, выравнивая пространственно-временные позиции входного видео и целевого повтора. Кроме того, мы представляем Rotary Camera Encoding (RoCE) — фазовый сдвиг RoPE, обусловленный параметрами камеры, который фиксирует и интегрирует взаимосвязи между множественными ракурсами внутри и между входным и целевым видео. Благодаря интеграции параметров камеры в RoPE наш метод обобщается на траектории камеры и длины видео за пределами распределения обучающих данных, обеспечивая улучшенную локализацию динамических объектов и сохранение статического фона. Многочисленные эксперименты дополнительно демонстрируют значительное улучшение управляемости камерой, геометрической согласованности и качества видео для различных траекторий и длин.
Хотя современные модели «визуальный язык» (VLM) демонстрируют высокое понимание изображений, их способность «мыслить образами», то есть рассуждать в ходе многошаговых визуальных взаимодействий, остается ограниченной. Мы представляем VISTA-Gym — масштабируемую среду обучения для развития способностей VLM к визуальному рассуждению с интеграцией инструментов. VISTA-Gym унифицирует разнообразные задачи мультимодального reasoning в реальных условиях (всего 7 задач из 13 наборов данных) с помощью стандартизированного интерфейса для визуальных инструментов (например, grounding, parsing), исполняемых циклов взаимодействия, проверяемых сигналов обратной связи и эффективного журналирования траекторий, что позволяет проводить агентное обучение с подкреплением в визуальной среде в больших масштабах. Хотя современные VLM показывают высокие результаты в текстовом reasoning, как проприетарные, так и открытые модели по-прежнему испытывают трудности с выбором, вызовом и координацией инструментов. С помощью VISTA-Gym мы обучаем модель VISTA-R1 чередовать использование инструментов с агентным reasoning посредством многоходового сэмплирования траекторий и сквозного обучения с подкреплением. Экстенсивные эксперименты на 11 публичных benchmarks VQA, требующих интенсивного рассуждения, показывают, что VISTA-R1-8B превосходит современные базовые модели схожего размера на 9.51%–18.72%, что демонстрирует эффективность VISTA-Gym как тренировочной площадки для раскрытия способностей VLM к reasoning с интеграцией инструментов.
Создание реалистичных 3D-городов является фундаментальной задачей для мировых моделей, виртуальной реальности и разработки игр, где идеальная городская сцена должна удовлетворять требованиям стилевого разнообразия, детализации и управляемости. Однако существующие методы не позволяют достичь баланса между творческой гибкостью, обеспечиваемой текстовой генерацией, и возможностью редактирования на уровне объектов, которую предоставляют явные структурные представления. Мы представляем MajutsuCity — адаптивную эстетически и управляемую естественным языком платформу для синтеза структурно согласованных и стилистически разнообразных 3D-городских сцен. MajutsuCity представляет город как композицию управляемых layouts, ассетов и материалов и функционирует через четырехстадийный пайплайн. Для расширения управляемости за пределы начальной генерации мы дополнительно интегрируем MajutsuAgent — интерактивного агента редактирования, основанного на языке, который поддерживает пять операций на уровне объектов. Для обеспечения фотореалистичного и настраиваемого синтеза сцен мы также создали MajutsuDataset — многомодальный датасет высокого качества, содержащий 2D-семантические разметки и карты высот, разнообразные 3D-строительные ассеты, а также отобранные PBR-материалы и скайбоксы, каждый из которых снабжен детальными аннотациями. Параллельно мы разработали практичный набор метрик оценки, охватывающих ключевые аспекты, такие как структурная согласованность, сложность сцены, достоверность материалов и световая атмосфера. Многочисленные эксперименты демонстрируют, что MajutsuCity снижает FID для разметки на 83,7% по сравнению с CityDreamer и на 20,1% по сравнению с CityCraft. Наш метод занимает первое место по всем показателям AQS и RDR, значительно опережая существующие подходы. Эти результаты подтверждают, что MajutsuCity устанавливает новый state-of-the-art в области геометрической точности, стилистической адаптивности и семантической управляемости для генерации 3D-городов. Мы ожидаем, что наша платформа сможет вдохновить новые направления исследований в области генерации 3D-городов. Наш датасет и код будут опубликованы по адресу https://github.com/LongHZ140516/MajutsuCity.
Крупные языковые модели (LLMs) успешно решают сложные задачи, но допускают ошибки в более простых вариантах, что указывает на принципиальное отличие их механизмов получения правильных ответов от человеческого мышления. Для изучения этого разрыва мы синтезировали исследования когнитивной науки в таксономию из 28 когнитивных элементов, охватывающих инварианты рассуждений, метакогнитивный контроль, репрезентации для организации мышления и знаний, а также операции преобразования. Мы представляем детализированную систему оценки и проводим первое крупномасштабное эмпирическое исследование 192 тысяч трасс рассуждений 18 моделей в текстовой, визуальной и аудиальной модальностях, дополненных 54 трассами вербальных протоколов людей, которые делаем общедоступными. Результаты показывают, что модели недостаточно используют когнитивные элементы, коррелирующие с успехом, сводя обработку к жесткому последовательному анализу в плохо структурированных задачах, где критически важны разнообразные репрезентации и метакогнитивный мониторинг. Человеческие трассы демонстрируют бо́льшую абстракцию и концептуальную обработку, тогда как модели ограничиваются поверхностным перебором. Мета-анализ 1.6 тысяч научных работ выявил концентрацию исследовательского сообщества на легко量化емых элементах (последовательная организация: 55%, декомпозиция: 60%) при игнорировании метакогнитивного контроля (самоосознание: 16%), который коррелирует с успехом. Модели обладают поведенческими репертуарами, связанными с успехом, но не применяют их спонтанно. Используя эти закономерности, мы разработали методику оперативного управления рассуждениями, которая автоматически выстраивает успешные структуры, улучшая производительность на сложных задачах до 66.7%. Создавая общий словарь для когнитивной науки и исследований LLM, наш подход позволяет систематически диагностировать сбои в рассуждениях и принципиально развивать модели, мыслящие через устойчивые когнитивные механизмы, а не случайные сокращения, одновременно предоставляя инструменты для масштабной проверки теорий человеческого познания.
Абстрактные рассуждения на основе минимальных примеров остаются нерешенной проблемой для передовых фундаментальных моделей, таких как GPT-5 и Grok 4. Эти модели по-прежнему не способны выводить структурированные правила преобразования из небольшого количества примеров, что является ключевой чертой человеческого интеллекта. Корпус абстракций и рассуждений для искусственного общего интеллекта (ARC-AGI) предоставляет строгий полигон для проверки этой способности, требуя индукции концептуальных правил и их переноса на новые задачи. Большинство существующих методов рассматривают ARC-AGI как чисто текстовую задачу, упуская из виду тот факт, что люди в значительной степени полагаются на визуальную абстракцию при решении подобных головоломок. Однако наши пилотные эксперименты выявили парадокс: наивное представление сеток ARC-AGI в виде изображений ухудшает производительность из-за неточного выполнения правил. Это приводит к нашей центральной гипотезе о том, что зрение и язык обладают комплементарными преимуществами на различных этапах рассуждений: зрение поддерживает глобальную абстракцию паттернов и верификацию, тогда как язык специализируется на формулировании символьных правил и их точном выполнении. Основываясь на этом инсайте, мы представляем две синергетические стратегии: (1) Синергетические рассуждения «зрение-язык» (VLSR), которые декомпозируют ARC-AGI на подзадачи, ориентированные на модальности; и (2) Самокоррекция с переключением модальностей (MSSC), которая использует зрение для проверки текстовых рассуждений с целью внутренней коррекции ошибок. Многочисленные эксперименты демонстрируют, что наш подход обеспечивает улучшение до 4,33% по сравнению с текстовыми базовыми уровнями на различных флагманских моделях и множественных задачах ARC-AGI. Наши результаты позволяют предположить, что объединение визуальной абстракции с лингвистическими рассуждениями является crucial шагом на пути к достижению обобщающего, человеко-подобного интеллекта в будущих фундаментальных моделях. Исходный код будет выпущен в ближайшее время.
Прогресс в области компьютерных агентов (CUA) сдерживался отсутствием крупных и качественных наборов данных, фиксирующих взаимодействие человека с компьютером. В то время как большие языковые модели (LLM) развивались благодаря обилию текстовых данных, сопоставимого корпуса для траекторий CUA не существовало. Для устранения этих пробелов мы представляем FaraGen — новую систему синтетической генерации данных для многошаговых веб-задач. FaraGen способна предлагать разнообразные задачи с часто используемых веб-сайтов, генерировать несколько попыток решения и фильтровать успешные траектории с использованием нескольких верификаторов. Система демонстрирует высокую пропускную способность, выход и разнообразие для многошаговых веб-задач, производя проверенные траектории стоимостью примерно $1 каждая. Мы используем эти данные для обучения Fara-7B — нативной модели CUA, которая воспринимает компьютер исключительно через скриншоты, выполняет действия через предсказанные координаты и достаточно мала для работы на устройстве. Мы выяснили, что Fara-7B превосходит другие модели CUA сопоставимого размера в тестах, таких как WebVoyager, Online-Mind2Web и WebTailBench — наш новый бенчмарк, который лучше отражает недостаточно представленные веб-задачи в существующих тестах. Более того, Fara-7B конкурирует с гораздо более крупными фронтирными моделями, что иллюстрирует ключевые преимущества масштабируемых систем генерации данных в развитии небольших эффективных агентских моделей. Мы публикуем Fara-7B с открытыми весами на Microsoft Foundry и HuggingFace и выпускаем WebTailBench.
В данной работе исследуется задача «Визуальный вопрос — визуальный ответ» (VQ-VA): генерация изображения, а не текста, в ответ на визуальный вопрос — способность, которая недавно появилась в проприетарных системах, таких как NanoBanana и GPT-Image. Чтобы обеспечить эту возможность и для моделей с открытым исходным кодом, мы представляем VQ-VA World, ориентированный на данные фреймворк, построенный на основе агентного пайплайна для целенаправленного масштабируемого сбора данных. Благодаря развертыванию в веб-масштабе, этот пайплайн собирает огромный объем (~1,8 млн) высококачественных чередующихся образцов «изображение-текст» для обучения моделей. Для оценки мы также представляем IntelligentBench, курируемый человеком бенчмарк, который систематически оценивает VQ-VA по аспектам знаний о мире, знаний о дизайне и способности к рассуждению. Обучение на данных VQ-VA World дает значительный эмпирический прирост: оно позволяет LightFusion достичь показателя 53,06 на IntelligentBench, что существенно превосходит лучшие предыдущие открытые базовые модели (а именно, 7,78 у стандартного LightFusion; 1,94 у UniWorld-V1) и значительно сокращает разрыв с ведущими проприетарными системами (например, 81,67 у NanoBanana; 82,64 у GPT-Image). Опубликовав полный набор весов моделей, наборов данных и пайплайнов, мы надеемся стимулировать будущие исследования в области VQ-VA.
Планирование задач является ключевым аспектом для воплощенного ИИ, позволяя агентам следовать инструкциям на естественном языке и эффективно выполнять действия в трехмерных физических мирах. Однако существующие наборы данных часто упрощают планирование задач, игнорируя знания из исследования операций (ИО) и трехмерную пространственную привязку. В данной работе мы предлагаем новую задачу ORS3D — планирование задач с трехмерной привязкой на основе знаний исследования операций, требующую синергии между пониманием языка, пространственной привязкой и оптимизацией эффективности. В отличие от предыдущих подходов, ORS3D требует от агентов минимизации общего времени выполнения за счет использования параллелизуемых подзадач, например, очистки раковины во время работы микроволновой печи. Для содействия исследованиям в области ORS3D мы создали ORS3D-60K — масштабный набор данных, содержащий 60 тыс. составных задач в 4 тыс. реальных сцен. Кроме того, мы предлагаем GRANT — воплощенную мультимодальную большую языковую модель, оснащенную простым, но эффективным механизмом токенов планирования для генерации оптимизированных расписаний задач и обоснованных действий. Экстенсивные эксперименты на ORS3D-60K подтверждают эффективность GRANT в области понимания языка, пространственной привязки и эффективности планирования. Код доступен по адресу https://github.com/H-EmbodVis/GRANT.
Реалистичная генерация 3D-городов является фундаментальной задачей для широкого спектра приложений, включая виртуальную реальность и цифровые двойники. Однако большинство существующих методов полагаются на обучение единой диффузионной модели, что ограничивает их способность генерировать персонализированные и неограниченные городские сцены. В данной статье мы представляем Yo'City — новую агентную архитектуру, которая обеспечивает настраиваемую пользователем и бесконечно расширяемую генерацию 3D-городов за счёт использования возможностей рассуждения и композиции готовых больших моделей. В частности, Yo'City сначала концептуализирует город с помощью стратегии нисходящего планирования, определяя иерархическую структуру «Город — Район — Квартал». Глобальный планировщик определяет общую компоновку и потенциальные функциональные районы, в то время как локальный дизайнер детализирует каждый район описаниями на уровне кварталов. Затем 3D-генерация на уровне квартала достигается с помощью цикла синтеза изометрических изображений «создание — уточнение — оценка», за которым следует генерация 3D из изображений. Для моделирования непрерывной эволюции города Yo'City дополнительно вводит механизм расширения, управляемый пользователем и ориентированный на отношения, который выполняет оптимизацию компоновки с учётом расстояния и семантики на основе графа сцен, обеспечивая пространственно согласованный рост города. Для всесторонней оценки нашего метода мы создали разнообразный эталонный набор данных и разработали шесть многомерных метрик, оценивающих качество генерации с точки зрения семантики, геометрии, текстуры и компоновки. Многочисленные эксперименты демонстрируют, что Yo'City стабильно превосходит существующие передовые методы по всем аспектам оценки.
Генерация с расширением выборки (RAG) расширяет возможности больших языковых моделей (LLM) за счет внешних знаний, но по-прежнему страдает от длинных контекстов и разрозненной оптимизации процессов выборки и генерации. В данной работе мы предлагаем CLaRa (Continuous Latent Reasoning) — унифицированную структуру, которая выполняет сжатие на основе эмбеддингов и совместную оптимизацию в общем непрерывном пространстве. Для получения семантически насыщенных и доступных для выборки сжатых векторов мы представляем SCP — структуру синтеза данных с сохранением ключевой информации, использующую контроль вопросно-ответных пар и парафразов. Затем CLaRa обучает ранжировщик и генератор сквозным образом с помощью единой функции потерь языкового моделирования, где градиенты проходят через оба модуля с использованием дифференцируемой оценки top-k. Теоретически такая унифицированная оптимизация согласует релевантность выборки с качеством ответа. Эксперименты на нескольких вопросно-ответных наборах данных показывают, что CLaRa достигает передовых показателей сжатия и производительности переранжирования, часто превосходя текстовые тонко настроенные базовые модели.
Хотя современные модели генерации видео достигли значительной визуальной достоверности, они часто страдают от отсутствия явной физической управляемости и правдоподобия. Для решения этой проблемы некоторые недавние исследования предприняли попытки направлять генерацию видео с помощью физически корректного рендеринга. Однако эти методы сталкиваются с фундаментальными трудностями в точном моделировании сложных физических свойств и эффективном управлении результирующим физическим поведением на протяженных временных последовательностях. В данной работе мы представляем PhysChoreo — новую архитектуру, способную генерировать видео с разнообразной управляемостью и физической достоверностью из одного изображения. Наш метод состоит из двух этапов: сначала он оценивает статические начальные физические свойства всех объектов на изображении посредством реконструкции физических свойств с учетом частей. Затем, с помощью временно инстуктируемого и физически редактируемого моделирования, он синтезирует высококачественные видео с богатым динамическим поведением и физической достоверностью. Результаты экспериментов показывают, что PhysChoreo способен генерировать видео с разнообразным поведением и физической реалистичностью, превосходя современные методы по нескольким оценочным метрикам.
Редактирование на основе диффузионных моделей позволяет реалистично модифицировать локальные области изображений, что затрудняет обнаружение контента, созданного ИИ. Существующие бенчмарки для детекции AIGC ориентированы на классификацию изображений в целом, упуская из виду локализацию правок, выполненных диффузионными методами. Мы представляем DiffSeg30k — общедоступный набор данных, содержащий 30 тыс. диффузионно-отредактированных изображений с пиксельными аннотациями, предназначенный для решения задач детекции на детальном уровне. DiffSeg30k обладает следующими особенностями: 1) Изображения из реального мира — мы собираем изображения или текстовые промпты из набора COCO для отражения разнообразия реального контента; 2) Разнообразие диффузионных моделей — локальное редактирование с использованием восьми передовых диффузионных моделей; 3) Многошаговое редактирование — каждое изображение подвергается до трёх последовательных правок для имитации реального процесса редактирования; 4) Реалистичные сценарии редактирования — пайплайн на основе визуально-языковой модели автоматически определяет значимые области и генерирует контекстно-зависимые промпты, охватывающие добавления, удаления и изменения атрибутов. DiffSeg30k переводит детекцию AIGC из бинарной классификации в семантическую сегментацию, позволяя одновременно локализовать правки и идентифицировать модели редактирования. Мы тестируем три базовых подхода к сегментации, выявляя существенные сложности в задачах семантической сегментации, особенно в отношении устойчивости к искажениям изображений. Эксперименты также показывают, что модели сегментации, несмотря на обучение для пиксельной локализации, демонстрируют высокую надёжность как классификаторы диффузионных правок на уровне всего изображения, превосходя существующие классификаторы подделок и проявляя значительный потенциал в кросс-генераторной генерализации. Мы полагаем, что DiffSeg30k будет способствовать развитию исследований в области точной локализации контента, созданного ИИ, демонстрируя перспективы и ограничения методов на основе сегментации. DiffSeg30k доступен по адресу: https://huggingface.co/datasets/Chaos2629/Diffseg30k.
Последние достижения в области мультимодальных больших языковых моделей (МБЯМ) и видео-агентских систем значительно улучшили общее понимание видео. Однако при применении к пониманию и обучению на основе научных видео — области, требующей интеграции внешних профессиональных знаний и строгого пошагового рассуждения, — существующие подходы часто оказываются несостоятельными. Чтобы устранить этот пробел, мы предлагаем SciEducator, первую итеративную саморазвивающуюся мульти-агентную систему для научного восприятия видео и образования. Основываясь на классическом цикле Деминга из науки управления, наша конструкция переосмысливает его философию «Планируй-Делай-Изучай-Действуй» в механизм саморазвивающегося рассуждения и обратной связи, который способствует интерпретации сложных научных действий на видео. Более того, SciEducator может создавать мультимодальный образовательный контент, адаптированный под конкретные научные процессы, включая текстовые инструкции, визуальные руководства, аудио-нарративы и интерактивные ссылки. Для поддержки оценки мы создали SciVBench — эталонный набор, состоящий из 500 экспертно проверенных и основанных на литературе вопросно-ответных пар по научной тематике пяти категорий, охватывающих физические, химические и повседневные явления. Многочисленные эксперименты демонстрируют, что SciEducator существенно превосходит ведущие проприетарные МБЯМ (например, Gemini, GPT-4o) и передовые видео-агенты на данном эталоне, устанавливая новую парадигму для сообщества.
Хотя современные модели диффузии для генерации видео по текстовым описаниям (T2V) демонстрируют впечатляющее качество и соответствие промптам, они часто выдают низкоразнообразные результаты при создании нескольких видео для одного и того же текстового запроса. Мы решаем эту проблему, формулируя ее как задачу оптимизации политики на множественном уровне, с целью обучения политики, способной охватывать широкий спектр правдоподобных исходов для заданного промпта. Для этого мы представляем DPP-GRPO — новую структуру для генерации разнообразных видео, которая объединяет теорию детерминантных точечных процессов (DPP) и оптимизацию групповой относительной политики (GRPO) для явного поощрения разнообразия генерируемых результатов. Наша задача превращает разнообразие в явный сигнал, вводя уменьшающуюся отдачу для избыточных образцов (с помощью DPP) и обеспечивая групповую обратную связь по наборам кандидатов (с помощью GRPO). Наша структура является модульной и независимой от модели, она стимулирует разнообразие генерируемых видео по визуальному оформлению, движению камеры и структуре сцены без ущерба для соответствия промпту или перцептивного качества. Мы реализовали наш метод на моделях WAN и CogVideoX и показали, что он последовательно улучшает разнообразие видео в соответствии с передовыми системами оценки, такими как VBench, VideoScore, и исследованиями пользовательских предпочтений. Кроме того, мы публикуем наш код и новый эталонный набор данных, содержащий 30 000 разнообразных промптов, для поддержки будущих исследований.
Генеративные модели для структурированного дизайна лекарств часто ограничены конкретной модальностью, что сужает их общую применимость. Для решения этой проблемы мы представляем FuncBind — фреймворк на основе компьютерного зрения для генерации целеобусловленных всеатомных молекул в различных атомных системах. FuncBind использует нейронные поля для представления молекул в виде непрерывных атомных плотностей и применяет генеративные модели на основе оценки со современными архитектурами, адаптированными из литературы по компьютерному зрению. Эта модально-независимая репрезентация позволяет обучать единую унифицированную модель на разнородных атомных системах — от малых до крупных молекул — и работать с переменным количеством атомов/остатков, включая неканонические аминокислоты. FuncBind демонстрирует конкурентоспособные in silico результаты в генерации малых молекул, макроциклических пептидов и петель комплементарно-определяющих регионов антител, обусловленных целевыми структурами. Кроме того, FuncBind позволил получить in vitro новые антительные связыватели посредством de novo редизайна петли H3 комплементарно-определяющего региона для двух выбранных ко-кристаллических структур. В качестве заключительного вклада мы представляем новый набор данных и бенчмарк для генерации макроциклических пептидов, обусловленных структурой. Код доступен по адресу https://github.com/prescient-design/funcbind.
Крупные языковые модели (LLM) демонстрируют ограниченную компетенцию в прогнозировании социальных, политических и экономических событий. Однако их предсказательная способность резко варьируется в зависимости от структуры предметной области и формулировки промптов. Мы исследуем, как прогностическая производительность меняется для разных семейств моделей на реальных вопросах о событиях, произошедших после даты среза их обучающих данных. Мы анализируем, как контекст, тип вопроса и внешние знания влияют на точность и калибровку прогнозов, а также на то, как добавление фактического новостного контекста меняет формирование убеждений и характер ошибок. Наши результаты показывают, что прогностическая способность крайне нестабильна, поскольку зависит от того, что именно и как мы спрашиваем.
На каких данных следует обучать визуально-языковые модели? Чтобы ответить на этот вопрос, многие усилия по курации данных сосредоточены на качестве набора данных. Однако большинство существующих методов являются (i) офлайн-методами, то есть создают статический набор данных на основе заранее определенных критериев фильтрации, и (ii) концептуально-агностическими, то есть используют фильтры на основе моделей, которые вносят дополнительные смещения в данные. В данной работе мы выходим за рамки таких офлайн-методов, не учитывающих концепты, и предлагаем более гибкую, адаптивную к задаче онлайн-курацию на основе концептов. Наш первый вклад — DataConcept, коллекция из 128 миллионов пар «изображение-текст», собранных из интернета и размеченных с детальной информацией об их концептуальном составе. На основе DataConcept мы представляем Concept-Aware Batch Sampling (CABS) — простую, но эффективную систему пакетной выборки, которая гибко формирует пакеты на лету в соответствии с заданными целевыми распределениями. Мы предлагаем два варианта: (i) максимизацию разнообразия (CABS-DM) для формирования пакетов с широким охватом доступных концептов и (ii) максимизацию частоты (CABS-FM) для формирования пакетов с высокой множественностью объектов. В ходе всесторонней оценки на 28 бенчмарках мы демонстрируем, что наш метод CABS значительно улучшает модели классов CLIP/SigLIP и позволяет получать высокопроизводительные модели. В целом, CABS представляет собой мощную открытую альтернативу проприетарным алгоритмам онлайн-курации данных, позволяя специалистам определять пользовательские распределения концептов для оптимизации под конкретные прикладные задачи.
Получение точной 3D-траектории мяча для настольного тенниса из стандартных моноскопических видео представляет собой сложную задачу, поскольку существующие методы, обученные на синтетических данных, плохо обобщаются на зашумленные и неидеальные детекции мяча и стола в реальных условиях. Это связано в первую очередь с принципиальным отсутствием эталонных 3D-траекторий и аннотаций вращения для видео из реального мира. Для решения этой проблемы мы предлагаем новую двухэтапную систему, которая разделяет задачу на задачу фронтального восприятия и задачу обратного преобразования 2D в 3D. Такое разделение позволяет обучать компоненты фронтальной части с помощью обильной 2D-разметки из нашего нового набора данных TTHQ, в то время как сеть обратного преобразования обучается исключительно на физически корректных синтетических данных. Мы специально модифицировали модель преобразования, чтобы она была устойчива к типичным артефактам реального мира, таким как пропущенные детекции и переменная частота кадров. Интегрируя детектор мяча и детектор ключевых точек стола, наш подход превращает концептуальный метод преобразования в практичное, надежное и высокопроизводительное сквозное приложение для анализа 3D-траектории и вращения мяча в настольном теннисе.