Мы представляем Pangu Ultra — крупную языковую модель (LLM) с 135 миллиардами параметров и плотными трансформерными модулями, обученную на нейронных процессорах Ascend (NPU). Хотя в последние годы область LLM демонстрирует беспрецедентные успехи в увеличении масштаба и возможностей таких моделей, обучение столь крупномасштабной модели по-прежнему связано со значительными оптимизационными и системными сложностями. Для стабилизации процесса обучения мы предлагаем метод нормализации с масштабированием по глубине (depth-scaled sandwich normalization), который эффективно устраняет всплески потерь при обучении глубоких моделей. Мы предварительно обучаем нашу модель на 13,2 триллионах разнообразных и высококачественных токенов и дополнительно улучшаем её способности к рассуждению в процессе пост-обучения. Для эффективного проведения столь масштабного обучения мы используем 8 192 NPU Ascend с рядом системных оптимизаций. Оценки на множестве разнообразных бенчмарков показывают, что Pangu Ultra значительно превосходит современные возможности плотных LLM, таких как Llama 405B и Mistral Large 2, и даже демонстрирует конкурентоспособные результаты по сравнению с DeepSeek-R1, чья разреженная структура модели содержит гораздо больше параметров. Наше исследование демонстрирует, что NPU Ascend способны эффективно и результативно обучать плотные модели с более чем 100 миллиардами параметров. Наша модель и система будут доступны для коммерческих клиентов.
Мы представляем Kimi-VL, эффективную модель с открытым исходным кодом, основанную на архитектуре Mixture-of-Experts (MoE) для обработки визуально-языковых данных (VLM). Эта модель предлагает продвинутые возможности мультимодального мышления, понимания длинных контекстов и мощные агентские функции, активируя при этом всего 2,8 миллиарда параметров в языковом декодере (Kimi-VL-A3B). Kimi-VL демонстрирует высокую производительность в сложных областях: как универсальная VLM, она превосходно справляется с многошаговыми агентскими задачами (например, OSWorld), сопоставимыми с флагманскими моделями. Кроме того, она показывает выдающиеся способности в разнообразных сложных задачах, связанных с обработкой визуально-языковых данных, включая понимание изображений и видео на уровне колледжа, OCR, математическое мышление и анализ множественных изображений. В сравнительных оценках Kimi-VL эффективно конкурирует с передовыми эффективными VLMs, такими как GPT-4o-mini, Qwen2.5-VL-7B и Gemma-3-12B-IT, превосходя GPT-4o в нескольких ключевых областях. Kimi-VL также продвигается в обработке длинных контекстов и четком восприятии. С расширенным контекстным окном в 128K, модель способна обрабатывать разнообразные длинные входные данные, достигая впечатляющих показателей 64,5 на LongVideoBench и 35,1 на MMLongBench-Doc. Ее встроенный кодировщик изображений с нативным разрешением, MoonViT, позволяет модели видеть и понимать сверхвысококачественные визуальные данные, достигая 83,2 на InfoVQA и 34,5 на ScreenSpot-Pro, при этом сохраняя низкие вычислительные затраты для стандартных задач. На основе Kimi-VL мы представляем усовершенствованную версию для длительного мышления: Kimi-VL-Thinking. Эта модель, разработанная с использованием длинных цепочек рассуждений (CoT) под контролируемой тонкой настройкой (SFT) и обучения с подкреплением (RL), демонстрирует мощные способности к долгосрочному мышлению. Она достигает показателей 61,7 на MMMU, 36,8 на MathVision и 71,3 на MathVista, сохраняя компактные 2,8 миллиарда активированных параметров LLM, устанавливая новый стандарт для эффективных мультимодальных моделей мышления. Код и модели доступны публично по адресу https://github.com/MoonshotAI/Kimi-VL.
Sara Vera Marjanović, Arkil Patel, Vaibhav Adlakha, Milad Aghajohari, Parishad BehnamGhader, Mehar Bhatia, Aditi Khandelwal, Austin Kraft, Benno Krojer, Xing Han Lù, Nicholas Meade, Dongchan Shin, Amirhossein Kazemnejad, Gaurav Kamath, Marius Mosbach, Karolina Stańczak, Siva Reddy
855
Крупные модели рассуждений, такие как DeepSeek-R1, знаменуют собой фундаментальный сдвиг в подходе языковых моделей (LLM) к решению сложных задач. Вместо того чтобы напрямую выдавать ответ на заданный вход, DeepSeek-R1 создает детализированные цепочки многошаговых рассуждений, как бы "размышляя" над проблемой перед тем, как предоставить ответ. Этот процесс рассуждения доступен пользователю, что открывает бесконечные возможности для изучения поведения модели в процессе рассуждения и способствует развитию области "Мыслелогии" (Thoughtology). Начиная с таксономии базовых строительных блоков рассуждений DeepSeek-R1, наши анализы исследуют влияние и управляемость длины мысли, обработку длинных или запутанных контекстов, культурные и этические аспекты, а также положение DeepSeek-R1 относительно когнитивных явлений, таких как человеко-подобная обработка языка и моделирование мира. Наши выводы рисуют сложную картину. В частности, мы показываем, что у DeepSeek-R1 существует "оптимальная зона" рассуждений, где дополнительное время на вывод может ухудшить производительность модели. Кроме того, мы обнаруживаем тенденцию DeepSeek-R1 к постоянному возвращению к ранее исследованным формулировкам задач, что препятствует дальнейшему исследованию. Мы также отмечаем серьезные уязвимости в безопасности DeepSeek-R1 по сравнению с её нерассуждающими аналогами, что может также ставить под угрозу безопасность выровненных LLM.
Модели больших языковых моделей (LLM) с архитектурой Mixture-of-Experts (MoE) страдают от существенно неоптимальных путей использования экспертов — наше исследование показывает, что наивный выбор экспертов, усвоенный в процессе предварительного обучения, оставляет удивительный разрыв в точности на 10–20%, который можно улучшить. Вдохновленные этим наблюдением, мы разработали новый класс методов оптимизации на этапе тестирования, которые пересчитывают или "пересмешивают" веса экспертов в различных слоях совместно для каждого тестового примера. Поскольку истинное значение для тестового примера неизвестно, мы предлагаем оптимизировать суррогатную цель, определенную на основе "успешных соседей" примера из эталонного набора данных. Мы вводим три суррогата и алгоритма, основанные на поиске моды, ядерной регрессии и среднем значении потерь для похожих эталонных примеров/задач. Чтобы снизить затраты на оптимизацию всего пути, мы применяем наши алгоритмы только к весам смешения ключевых экспертов в критических слоях, что обеспечивает схожую производительность, но значительно экономит вычисления. Это приводит к "Оптимизации Совместного Пути Ключевых Экспертов в Критических Слоях (C3PO)". Мы применяем C3PO к двум недавним MoE LLM и тестируем на шести широко используемых бенчмарках. Метод стабильно улучшает базовую модель на 7–15% по точности и значительно превосходит популярные методы обучения на этапе тестирования, такие как обучение в контексте и настройка промтов/префиксов. Более того, C3PO позволяет MoE LLM с 1–3 млрд активных параметров превосходить LLM с 7–9 млрд параметров, тем самым усиливая преимущества MoE в эффективности. Наше детальное исследование также дает новые инсайты о достижении улучшений на этапе тестирования для MoE.
Zhong-Yu Li, Ruoyi Du, Juncheng Yan, Le Zhuo, Zhen Li, Peng Gao, Zhanyu Ma, Ming-Ming Cheng
483
Недавние достижения в области диффузионных моделей значительно продвинули различные задачи генерации изображений. Однако текущий основной подход по-прежнему сосредоточен на создании моделей, специфичных для конкретных задач, что ограничивает их эффективность при поддержке широкого спектра различных потребностей. Хотя универсальные модели пытаются устранить это ограничение, они сталкиваются с серьезными проблемами, включая обобщаемость инструкций для задач, подходящие распределения задач и унифицированный архитектурный дизайн. Для решения этих проблем мы предлагаем VisualCloze — универсальную структуру для генерации изображений, которая поддерживает широкий спектр задач в рамках одной области, обобщение на неизвестные задачи, объединение нескольких задач и обратную генерацию. В отличие от существующих методов, которые полагаются на текстовые инструкции для задач, что приводит к неоднозначности задач и слабому обобщению, мы интегрируем визуальное обучение в контексте, позволяя моделям определять задачи на основе визуальных демонстраций. В то же время присущая разреженность распределений визуальных задач затрудняет изучение переносимых знаний между задачами. Для этого мы представляем Graph200K — графовую структуру данных, которая устанавливает различные взаимосвязанные задачи, повышая плотность задач и переносимые знания. Кроме того, мы обнаружили, что наша унифицированная формулировка генерации изображений имеет общую цель с задачей восстановления изображений, что позволяет нам использовать сильные генеративные априорные знания предварительно обученных моделей восстановления без изменения их архитектур.
Yukun Qi, Yiming Zhao, Yu Zeng, Xikun Bao, Wenxuan Huang, Lin Chen, Zehui Chen, Jie Zhao, Zhongang Qi, Feng Zhao
462
Развитие метода цепочки рассуждений (Chain-of-Thought, CoT) значительно расширило возможности крупных языковых моделей (LLM) и крупных моделей, работающих с визуальными и текстовыми данными (LVLM). Однако строгая система оценки для применения CoT в видеоанализе до сих пор отсутствует. Современные тестовые наборы для видео не позволяют адекватно оценить процесс рассуждений и выявить, связаны ли ошибки с недостатками в восприятии или в способности к логическому мышлению. В связи с этим мы представляем VCR-Bench — новый тестовый набор, разработанный для всесторонней оценки способностей LVLM к цепочке рассуждений при работе с видео. VCR-Bench включает 859 видеороликов, охватывающих разнообразный контент и продолжительность, а также 1034 высококачественных пары вопрос-ответ. Каждая пара вручную аннотирована пошаговой цепочкой рассуждений, где каждый шаг помечен для указания его связи с восприятием или логическим мышлением. Кроме того, мы разработали семь различных задач и предложили показатель CoT для оценки всего процесса рассуждений на основе пошагово аннотированных цепочек. Масштабные эксперименты на VCR-Bench выявили существенные ограничения современных LVLM. Даже лучшая модель, o1, достигает лишь 62,8% по показателю CoT и 56,7% точности, в то время как большинство моделей показывают результат ниже 40%. Эксперименты демонстрируют, что большинство моделей хуже справляются с шагами восприятия, чем с шагами рассуждений, что указывает на ключевое слабое место LVLM в обработке временно-пространственной информации для сложного видеоанализа. Сильная положительная корреляция между показателем CoT и точностью подтверждает валидность нашей системы оценки и подчеркивает критическую роль цепочки рассуждений в решении сложных задач видеоанализа. Мы надеемся, что VCR-Bench станет стандартизированной системой оценки и поможет выявить реальные недостатки в решении сложных задач видеоанализа.
Shengyuan Ding, Shenxi Wu, Xiangyu Zhao, Yuhang Zang, Haodong Duan, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Dahua Lin, Jiaqi Wang
342
Способность следовать инструкциям (Instruction Following, IF) измеряет, насколько хорошо мультимодальные большие языковые модели (Multi-modal Large Language Models, MLLMs) понимают, что именно им говорят пользователи, и правильно ли они выполняют эти инструкции. Существующие данные для обучения следованию мультимодальным инструкциям ограничены, тестовые наборы просты и содержат атомарные инструкции, а стратегии оценки недостаточно точны для задач, требующих строгих ограничений на выходные данные. Для решения этой проблемы мы представляем MM-IFEngine — эффективный конвейер для генерации высококачественных пар "изображение-инструкция". Наш конвейер MM-IFEngine создает масштабные, разнообразные и качественные данные для обучения MM-IFInstruct-23k, которые подходят для контролируемой тонкой настройки (Supervised Fine-Tuning, SFT), а также расширяются до MM-IFDPO-23k для оптимизации прямых предпочтений (Direct Preference Optimization, DPO). Мы также представляем MM-IFEval — сложный и разнообразный бенчмарк для оценки следованию мультимодальным инструкциям, который включает (1) ограничения на уровне композиции для выходных ответов и ограничения на уровне восприятия, связанные с входными изображениями, и (2) комплексный конвейер оценки, включающий как правило-ориентированную проверку, так и модель-судию. Мы проводим эксперименты с SFT и DPO и демонстрируем, что тонкая настройка MLLMs на данных MM-IFInstruct-23k и MM-IFDPO-23k приводит к значительному улучшению результатов на различных бенчмарках IF, таких как MM-IFEval (+10,2%), MIA (+7,6%) и IFEval (+12,3%). Полные данные и код для оценки будут опубликованы на https://github.com/SYuan03/MM-IFEngine.
Mustafa Shukor, Enrico Fini, Victor Guilherme Turrisi da Costa, Matthieu Cord, Joshua Susskind, Alaaeldin El-Nouby
292
Создание универсальных моделей, способных эффективно воспринимать мир через мультимодальные сигналы, является давней целью. Современные подходы предполагают интеграцию предварительно обученных компонентов, таких как подключение визуальных кодировщиков к большим языковым моделям (LLM) и продолжение мультимодального обучения. Хотя такие подходы демонстрируют впечатляющую эффективность использования данных, остается открытым вопрос, являются ли архитектуры с поздним слиянием (late-fusion) изначально превосходящими. В данной работе мы пересматриваем архитектурный дизайн нативных мультимодальных моделей (NMM) — тех, которые обучаются с нуля на всех модальностях — и проводим масштабное исследование законов масштабирования, охватывающее 457 обученных моделей с различными архитектурами и обучающими смесями. Наше исследование не выявляет изначального преимущества архитектур с поздним слиянием перед архитектурами с ранним слиянием (early-fusion), которые не зависят от кодировщиков изображений. Напротив, раннее слияние демонстрирует более высокую производительность при меньшем количестве параметров, более эффективно в обучении и проще в развертывании. Вдохновленные высокой производительностью архитектур с ранним слиянием, мы показываем, что включение смеси экспертов (Mixture of Experts, MoE) позволяет моделям изучать модально-специфичные веса, что значительно повышает их эффективность.
3D амодальная сегментация частей — декомпозиция 3D-формы на полные, семантически значимые части, даже при наличии окклюзий, — является сложной, но важной задачей для создания и понимания 3D-контента. Существующие методы 3D-сегментации частей идентифицируют только видимые участки поверхности, что ограничивает их полезность. Вдохновленные 2D амодальной сегментацией, мы вводим эту новую задачу в 3D-область и предлагаем практический двухэтапный подход, решающий ключевые проблемы: восстановление окклюдированной 3D-геометрии, сохранение глобальной согласованности формы и обработка разнообразных форм при ограниченных данных для обучения. Сначала мы используем существующие методы 3D-сегментации частей для получения начальных, неполных сегментов частей. Затем мы представляем HoloPart — новую модель на основе диффузии, которая завершает эти сегменты до полных 3D-частей. HoloPart использует специализированную архитектуру с локальным вниманием для захвата детальной геометрии частей и глобальным вниманием к контексту формы для обеспечения общей согласованности формы. Мы вводим новые бенчмарки на основе наборов данных ABO и PartObjaverse-Tiny и показываем, что HoloPart значительно превосходит современные методы завершения форм. Интегрируя HoloPart с существующими методами сегментации, мы достигаем впечатляющих результатов в 3D амодальной сегментации частей, открывая новые возможности для применения в редактировании геометрии, анимации и назначении материалов.
Xiyao Wang, Zhengyuan Yang, Chao Feng, Hongjin Lu, Linjie Li, Chung-Ching Lin, Kevin Lin, Furong Huang, Lijuan Wang
182
В данной статье мы представляем эффективный метод для улучшения визуального мышления с использованием значительно меньшего количества обучающих выборок, полагаясь исключительно на самообучение без применения дистилляции знаний. Наше ключевое наблюдение заключается в том, что сложность обучающих данных во время тонкой настройки с подкреплением (RFT) имеет решающее значение. Соответственно подобранные сложные выборки могут существенно повысить способности к рассуждению даже при небольшом объеме данных. Несмотря на интуитивную понятность, основная трудность заключается в точной количественной оценке сложности выборок для эффективной фильтрации данных. Для этого мы предлагаем новый способ перепрофилирования метода поиска по дереву Монте-Карло (MCTS). Начиная с отобранных нами 70 тысяч открытых обучающих выборок, мы вводим метод отбора на основе MCTS, который количественно оценивает сложность выборок на основе количества итераций, необходимых визуально-языковым моделям (VLMs) для решения каждой задачи. Этот явный пошаговый анализ в MCTS заставляет модель дольше размышлять и лучше идентифицировать действительно сложные выборки. Мы фильтруем и оставляем 11 тысяч выборок для выполнения RFT на модели Qwen2.5-VL-7B-Instruct, что приводит к созданию нашей финальной модели ThinkLite-VL. Результаты оценки на восьми бенчмарках показывают, что ThinkLite-VL улучшает среднюю производительность Qwen2.5-VL-7B-Instruct на 7%, используя всего 11 тысяч обучающих выборок без дистилляции знаний. Это значительно превосходит все существующие 7B-уровневые модели визуального мышления, а также наши достаточно сопоставимые базовые модели, использующие классические методы отбора, такие как фильтрация на основе точности. Примечательно, что на MathVista модель ThinkLite-VL-7B достигает рекордной точности 75.1, превосходя Qwen2.5-VL-72B, GPT-4o и O1. Наш код, данные и модель доступны по адресу https://github.com/si0wang/ThinkLite-VL.
Genglin Liu, Salman Rahman, Elisa Kreiss, Marzyeh Ghassemi, Saadia Gabriel
182
Мы представляем новую открытую платформу для моделирования социальных сетей MOSAIC, в которой генеративные языковые агенты предсказывают поведение пользователей, такое как лайки, репосты и жалобы на контент. Эта симуляция объединяет агентов на основе больших языковых моделей (LLM) с направленным социальным графом для анализа возникающих обманных поведений и лучшего понимания того, как пользователи определяют достоверность контента в онлайн-социальных сетях. Создавая представления пользователей на основе разнообразных детализированных персонажей, наша система позволяет проводить многопользовательские симуляции, моделирующие распространение контента и динамику вовлеченности в масштабе. В рамках этой платформы мы оцениваем три различные стратегии модерации контента при моделировании распространения дезинформации и обнаруживаем, что они не только снижают распространение недостоверного контента, но и повышают вовлеченность пользователей. Кроме того, мы анализируем траектории популярного контента в наших симуляциях и исследуем, действительно ли аргументированные рассуждения агентов о их социальных взаимодействиях соответствуют их коллективным моделям вовлеченности. Мы открываем исходный код нашего симуляционного программного обеспечения, чтобы стимулировать дальнейшие исследования в области искусственного интеллекта и социальных наук.
Ming Li, Ruiyi Zhang, Jian Chen, Jiuxiang Gu, Yufan Zhou, Franck Dernoncourt, Wanrong Zhu, Tianyi Zhou, Tong Sun
162
Несмотря на существующую эволюцию мультимодальных больших языковых моделей (MLLMs), сохраняется значительное ограничение в их способности к визуальному текстовому заземлению, особенно в изображениях документов, насыщенных текстом. Изображения документов, такие как отсканированные формы и инфографики, подчеркивают ключевые сложности из-за их сложной структуры и текстового содержания. Однако текущие эталонные тесты не полностью охватывают эти сложности, поскольку в основном сосредоточены на визуальном заземлении в естественных изображениях, а не в текстонасыщенных изображениях документов. Чтобы устранить этот пробел, мы представляем TRIG — новую задачу с вновь разработанным набором инструкций для тестирования и улучшения способностей MLLMs к заземлению текстонасыщенных изображений в задачах вопросно-ответной работы с документами. В частности, мы предлагаем конвейер взаимодействия OCR-LLM-человек для создания 800 вручную аннотированных вопросно-ответных пар в качестве эталона и крупномасштабного обучающего набора из 90 синтетических данных, основанных на четырех разнообразных наборах данных. Комплексная оценка различных MLLMs на нашем предложенном эталоне выявляет существенные ограничения в их способности к заземлению на текстонасыщенных изображениях. Кроме того, мы предлагаем два простых и эффективных метода TRIG, основанных на общей настройке инструкций и подключаемых эффективных встраиваниях соответственно. Благодаря тонкой настройке MLLMs на нашем синтетическом наборе данных, они демонстрируют многообещающее улучшение способностей к пространственному рассуждению и заземлению.
Rishubh Parihar, Vaibhav Agrawal, Sachidanand VS, R. Venkatesh Babu
105
Существующие подходы к управлению моделями диффузии для генерации изображений из текста, хотя и мощные, не позволяют осуществлять явный объектно-ориентированный контроль в 3D, такой как точное управление ориентацией объектов. В данной работе мы решаем задачу управления ориентацией множества объектов в моделях диффузии для генерации изображений из текста. Это позволяет создавать разнообразные сцены с несколькими объектами, обеспечивая точный контроль ориентации для каждого из них. Основная идея заключается в том, чтобы дополнить модель диффузии набором ориентационно-зависимых токенов-компасов, по одному для каждого объекта, наряду с текстовыми токенами. Легковесная кодирующая сеть предсказывает эти токены-компасы, принимая на вход ориентацию объекта. Модель обучается на синтетическом наборе данных, состоящем из процедурно сгенерированных сцен, каждая из которых содержит один или два 3D-объекта на простом фоне. Однако прямое обучение такой системы приводит к слабому контролю ориентации и запутыванию объектов. Чтобы устранить это, мы вмешиваемся в процесс генерации и ограничиваем карты кросс-внимания каждого токена-компаса соответствующими областями объектов. Обученная модель способна достичь точного контроля ориентации для а) сложных объектов, не встречавшихся во время обучения, и б) сцен с несколькими объектами, включая более двух объектов, что свидетельствует о сильных обобщающих способностях. Кроме того, при сочетании с методами персонализации наш метод точно контролирует ориентацию нового объекта в различных контекстах. Наш метод демонстрирует передовые результаты в контроле ориентации и согласовании с текстом, что подтверждается обширными оценками и пользовательским исследованием.
Zeren Jiang, Chuanxia Zheng, Iro Laina, Diane Larlus, Andrea Vedaldi
62
Мы представляем Geo4D — метод адаптации моделей диффузии видео для моноскопической 3D-реконструкции динамических сцен. Используя мощный динамический приоритет, заложенный в таких видео-моделях, Geo4D может обучаться исключительно на синтетических данных, при этом демонстрируя отличную обобщаемость на реальные данные в режиме zero-shot. Geo4D предсказывает несколько взаимодополняющих геометрических модальностей, а именно карты точек, глубины и лучей. Для их согласования и объединения, а также для обработки нескольких скользящих окон на этапе вывода, используется новый многомодальный алгоритм выравнивания, что позволяет получать устойчивую и точную 4D-реконструкцию длинных видео. Многочисленные эксперименты на различных бенчмарках показывают, что Geo4D значительно превосходит современные методы оценки глубины видео, включая недавние подходы, такие как MonST3R, которые также разработаны для работы с динамическими сценами.
Современные монокулярные 3D-детекторы ограничены недостаточным разнообразием и масштабом реальных наборов данных. Хотя аугментация данных, безусловно, помогает, особенно сложно генерировать реалистичные, учитывающие контекст сцены аугментированные данные для открытых пространств. Большинство современных подходов к генерации синтетических данных сосредоточено на реалистичности внешнего вида объектов за счет улучшенных техник рендеринга. Однако мы показываем, что то, где и как объекты размещены, не менее важно для обучения эффективных монокулярных 3D-детекторов. Основное препятствие заключается в автоматическом определении реалистичных параметров размещения объектов — включая положение, размеры и ориентацию — при добавлении синтетических объектов в реальные сцены. Для решения этой проблемы мы представляем MonoPlace3D — новую систему, которая учитывает 3D-содержание сцены для создания реалистичных аугментаций. В частности, для заданной фоновой сцены MonoPlace3D обучается распределению вероятностей для правдоподобных 3D-ограничивающих рамок. Затем мы рендерим реалистичные объекты и размещаем их в соответствии с позициями, выбранными из изученного распределения. Наше всестороннее тестирование на двух стандартных наборах данных, KITTI и NuScenes, демонстрирует, что MonoPlace3D значительно повышает точность нескольких существующих монокулярных 3D-детекторов, оставаясь при этом высокоэффективным с точки зрения использования данных.
Artem Zholus, Carl Doersch, Yi Yang, Skanda Koppula, Viorica Patraucean, Xu Owen He, Ignacio Rocco, Mehdi S. M. Sajjadi, Sarath Chandar, Ross Goroshin
52
Отслеживание произвольной точки (Tracking Any Point, TAP) в видео представляет собой сложную задачу компьютерного зрения с множеством приложений в робототехнике, видеомонтаже и 3D-реконструкции. Существующие методы TAP в значительной степени опираются на сложные индуктивные предпосылки и эвристики, специфичные для отслеживания, что ограничивает их универсальность и потенциал для масштабирования. Для решения этих проблем мы представляем TAPNext — новый подход, который формулирует TAP как последовательное декодирование замаскированных токенов. Наша модель является причинно-следственной, работает исключительно в онлайн-режиме и устраняет индуктивные предпосылки, специфичные для отслеживания. Это позволяет TAPNext работать с минимальной задержкой и устраняет необходимость временного окна, требуемого многими современными трекерами. Несмотря на свою простоту, TAPNext достигает нового уровня производительности в отслеживании как среди онлайн-, так и оффлайн-трекеров. Наконец, мы демонстрируем, что многие широко используемые эвристики для отслеживания естественным образом возникают в TAPNext в процессе сквозного обучения.