Ежедневно отобранные исследовательские статьи по ИИ с переводами
Несмотря на быстрый прогресс в терминальных возможностях крупных языковых моделей, стратегии формирования обучающих данных для передовых терминальных агентов остаются в значительной степени нераскрытыми. Мы устраняем этот пробел путем систематического исследования методов инженерии данных для терминальных агентов, внося два ключевыхых вклада: (1) Terminal-Task-Gen — облегченный конвейер генерации синтетических задач, поддерживающий построение заданий на основе зародышей (seed-based) и навыков (skill-based), и (2) комплексный анализ стратегий данных и обучения, включая фильтрацию, обучение по учебному плану (curriculum learning), тренировку на длинных контекстах и масштабируемость. Наш конвейер создает Terminal-Corpus — крупномасштабный открытый набор данных для терминальных задач. Используя этот набор, мы обучаем семейство моделей Nemotron-Terminal, инициализированных на основе Qwen3(8B, 14B, 32B), которые демонстрируют существенный прогресс на Terminal-Bench 2.0: Nemotron-Terminal-8B улучшает результат с 2.5% до 13.0%, Nemotron-Terminal-14B — с 4.0% до 20.2%, а Nemotron-Terminal-32B — с 3.4% до 27.4%, соответствуя производительности значительно более крупных моделей. Для ускорения исследований в этой области мы открываем наши модельные чекпоинты и большую часть синтетических данных по адресу https://huggingface.co/collections/nvidia/nemotron-terminal.
Основываясь на существующем анализе ретривельных головок в больших языковых моделях, мы предлагаем альтернативную фреймворк-архитектуру переранжирования, которая обучает модели оценивать релевантность пассажа и запроса, используя показатели внимания выбранных головок. Этот подход представляет собой листинговое решение, которое использует целостную информацию из всего списка кандидатов в процессе ранжирования. Одновременно он естественным образом генерирует непрерывные оценки релевантности, что позволяет проводить обучение на произвольных наборах данных для поиска без необходимости супервизии по шкале Лайкерта. Наш фреймворк является легковесным и эффективным, требуя для достижения высокой производительности лишь модели небольшого масштаба (например, с 4 миллиардами параметров). Многочисленные эксперименты демонстрируют, что наш метод превосходит существующие передовые поинтвайзные и листинговые системы переранжирования в различных областях, включая Wikipedia и наборы данных с длинными повествованиями. Он также устанавливает новый рекорд на бенчмарке LoCoMo, который оценивает способности к пониманию диалога и использованию памяти. Мы дополнительно показываем, что наш фреймворк поддерживает гибкие расширения. Например, обогащение кандидатных пассажей контекстуальной информацией дополнительно повышает точность ранжирования, а обучение головок внимания из средних слоев повышает эффективность без ущерба для производительности.
Подкрепляемое обучение для агентных мультимодальных моделей часто сталкивается с проблемой коллапса взаимодействия, когда модели учатся сокращать использование инструментов и многошаговые рассуждения, что ограничивает преимущества агентного поведения. Мы представляем PyVision-RL — фреймворк подкрепляемого обучения для открытых мультимодальных моделей, который стабилизирует обучение и поддерживает взаимодействие. Наш подход сочетает стратегию генерации траекторий с передискретизацией, фильтрацией и ранжированием с накопительным вознаграждением за использование инструментов, чтобы предотвратить коллапс и стимулировать многошаговое применение инструментов. Используя унифицированный конвейер обучения, мы разработали PyVision-Image и PyVision-Video для понимания изображений и видео. Для видео-рассуждений PyVision-Video использует контекстное построение по требованию, выборочно сэмплируя релевантные для задачи кадры во время рассуждения, что значительно сокращает использование визуальных токенов. Эксперименты демонстрируют высокую производительность и улучшенную эффективность, подтверждая, что устойчивое взаимодействие и обработка визуальной информации по требованию критически важны для масштабируемых мультимодальных агентов.
Обучение на этапе тестирования (TTT) с привязкой «ключ-значение» в качестве слоя моделирования последовательностей обычно интерпретируется как форма онлайн мета-обучения, которая запоминает соответствие «ключ-значение» во время тестирования. Однако наш анализ выявляет ряд явлений, противоречащих этой интерпретации, основанной на запоминании. Мотивированные этими находками, мы заново исследуем формулировку TTT и показываем, что широкий класс архитектур TTT можно выразить как форму обученного оператора линейного внимания. Помимо объяснения ранее загадочных модельных поведений, эта перспектива дает несколько практических преимуществ: она позволяет проводить принципиальные архитектурные упрощения, допускает полностью параллельные формулировки, сохраняющие производительность при повышении эффективности, и предоставляет систематическую редукцию различных вариантов TTT к стандартной форме линейного внимания. В целом наши результаты переосмысливают TTT не как запоминание на этапе тестирования, а как обученное линейное внимание с расширенной репрезентационной способностью.
Понимание физической структуры является ключевым для практических применений, таких как воплощенные агенты, интерактивный дизайн и манипуляции в долгосрочном горизонте. Однако преобладающие оценки моделей "визуальный язык" (VLM) по-прежнему сосредоточены на агностичных к структуре, одношаговых сценариях (например, VQA), которые не позволяют оценить способность агентов анализировать, как геометрия, контактные и опорные отношения совместно ограничивают возможные действия в динамической среде. Для устранения этого пробела мы представляем эталонный тест Causal Hierarchy of Actions and Interactions (CHAIN) — интерактивный 3D-полигон, управляемый законами физики, предназначенный для оценки способности моделей понимать, планировать и выполнять структурированные последовательности действий, основанные на физических ограничениях. CHAIN смещает фокусировку оценки с пассивного восприятия на активное решение задач, охватывая такие области, как сборка механических головоломок с зацеплением, а также 3D-штабелирование и упаковка. Мы проводим всестороннее исследование современных VLM и диффузионных моделей в единых интерактивных условиях. Наши результаты показывают, что даже лучшие модели по-прежнему испытывают трудности с усвоением физической структуры и причинно-следственных ограничений, часто неспособны вырабатывать надежные долгосрочные планы и не могут устойчиво преобразовывать воспринятую структуру в эффективные действия. Проект доступен по адресу https://social-ai-studio.github.io/CHAIN/.
Мы исследуем эффективную мультивекторную выборку для позднего взаимодействия в произвольных модальностях. Позднее взаимодействие стало доминирующей парадигмой для информационного поиска в тексте, изображениях, визуальных документах и видео, однако его вычислительная стоимость и затраты на хранение растут линейно с длиной документа, что делает его дорогостоящим для коллекций, насыщенных изображениями, видео и аудио. Для преодоления этого ограничения мы исследуем не зависящие от запроса методы сжатия мультивекторных представлений документов при фиксированном бюджете векторов. Мы представляем четыре подхода к сжатию индекса: изменение размера последовательности, токены памяти, иерархическая пулинга и новый метод кластеризации с управлением вниманием (Attention-Guided Clustering, AGC). AGC использует механизм, управляемый вниманием, для идентификации наиболее семантически значимых областей документа в качестве центроидов кластеров и для взвешивания агрегации токенов. Оценивая эти методы на задачах поиска в тексте (BEIR), визуальных документах (ViDoRe) и видео (MSR-VTT, MultiVENT 2.0), мы показываем, что кластеризация с управлением вниманием стабильно превосходит другие параметризованные методы сжатия (изменение размера последовательности и токены памяти), обеспечивает большую гибкость в размере индекса по сравнению с непараметрической иерархической кластеризацией и демонстрирует сопоставимую или улучшенную производительность по сравнению с полным, несжатым индексом. Исходный код доступен по адресу: github.com/hanxiangqin/omni-col-press.
Модели «зрение-язык-действие» (VLA) объединяют восприятие, язык и управление для воплощённых агентов, но сталкиваются со значительными трудностями при практическом развёртывании из-за стремительно растущих требований к вычислительным ресурсам и памяти, особенно по мере масштабирования моделей на более длительные горизонты планирования и использования более крупных архитектур. Для преодоления этих ограничений мы представляем QuantVLA — беcпостовочный (training-free) фреймворк посттренировочной квантизации (PTQ), который, насколько нам известно, является первым подходом PTQ для систем VLA и первым, успешно квантизующим диффузионный трансформер (DiT) в качестве головы действий. QuantVLA включает три масштабно-калиброванных компонента: (1) селективную схему квантизации, которая переводит в целочисленный формат все линейные слои как в языковой модели, так и в DiT, оставляя проекции внимания в формате с плавающей запятой для сохранения исходного расписания операций; (2) согласование температуры внимания — лёгкий механизм масштабирования для каждой головы, который стабилизирует логиты внимания и объединяется с масштабами декантации на этапе вывода; и (3) балансировку выходной головы — калибровку остаточного интерфейса на каждом слое, которая смягчает дрейф энергии после проекции. Фреймворк не требует дополнительного обучения, использует лишь небольшой немаркированный буфер калибровки и поддерживает целочисленные ядра для весов и активаций низкой разрядности, не изменяя архитектуру модели. На репрезентативных моделях VLA в среде LIBERO QuantVLA превосходит показатели успешности выполнения задач полноточных базовых версий, обеспечивает примерно 70% относительной экономии памяти на квантизованных компонентах и даёт ускорение латентности end-to-end вывода в 1.22 раза, предлагая практический путь к масштабируемому воплощённому интеллекту с низкой разрядностью в условиях строгих ограничений по вычислениям, памяти и энергопотреблению.
Агенты глубокого исследования генерируют отчеты аналитического уровня, однако их оценка остается сложной задачей из-за отсутствия единственной эталонной истины и многомерного характера качества исследования. Современные бенчмарки предлагают различные методологии, но страдают от «Иллюзии синтеза»: сильная поверхностная беглость и соответствие цитированию могут маскировать фундаментальные фактические и логические дефекты. Мы характеризуем этот разрыв, вводя таксономию по четырем направлениям, которая выявляет критическое несоответствие возможностей: статические оценщики по своей природе лишены возможностей использования инструментов, необходимых для оценки временной достоверности и фактической точности. Для решения этой проблемы мы предлагаем DREAM (Deep Research Evaluation with Agentic Metrics) — фреймворк, реализующий принцип паритета возможностей за счет того, что сама оценка становится агентной. DREAM структурирует оценку через протокол, сочетающий метрики, не зависящие от запроса, с адаптивными метриками, генерируемыми агентом с возможностью вызова инструментов, что позволяет осуществлять временно-ориентированный охват, обоснованную верификацию и систематические проверки логики. Контролируемые оценки демонстрируют, что DREAM значительно чувствительнее к фактическому и временному устареванию, чем существующие бенчмарки, предлагая масштабируемую парадигму оценки, не требующую эталонов.
Несмотря на недавние успехи диффузионных моделей, изображения, сгенерированные искусственным интеллектом, часто содержат визуальные артефакты, снижающие реалистичность. Хотя более тщательное предварительное обучение и более крупные модели могут уменьшить количество артефактов, нет гарантии их полного устранения, что делает задачу смягчения артефактов крайне важной областью исследований. Предыдущие методы, учитывающие артефакты, опирались на размеченные человеком наборы данных, создание которых дорого и сложно масштабировать, что подчеркивает потребность в автоматизированном подходе для надежного получения аннотированных данных. В данной статье мы предлагаем ArtiAgent — метод, который эффективно создает пары реальных изображений и изображений с внедренными артефактами. Он включает трех агентов: агент восприятия, который распознает и локализует объекты и их части на реальных изображениях; агент синтеза, который внедряет артефакты с помощью инструментов инжекции через новое патч-ориентированное манипулирование эмбеддингами в диффузионном трансформере; и агент курации, который фильтрует синтезированные артефакты и генерирует как локальные, так и глобальные объяснения для каждого экземпляра. С помощью ArtiAgent мы синтезировали 100 тыс. изображений с богатыми аннотациями артефактов и продемонстрировали эффективность и универсальность метода в различных приложениях. Код доступен по ссылке.
Последние достижения в области программирования с ИИ-ассистентами позволили агентам выполнять сложные рабочие процессы через командные интерфейсы. Однако существующие бенчмарки ограничены короткими горизонтами задач, загрязнением данных из-за сканирования GitHub и отсутствием детализированных метрик оценки, что не позволяет строго оценивать способности к долгосрочному планированию и выполнению, критически важные для реальной инженерной разработки. Для устранения этих пробелов мы представляем LongCLI-Bench — комплексный бенчмарк, предназначенный для оценки агентских возможностей в долгосрочных реалистичных задачах. Мы отобрали 20 качественных задач с длинным горизонтом из более чем 1000 заданий по информатике и реальных рабочих процессов, охватывающих четыре инженерные категории: разработка с нуля, добавление функциональности, исправление ошибок и рефакторинг. Мы предлагаем для LongCLI-Bench двухуровневый протокол тестирования, который измеряет выполнение требований (fail-to-pass) и избежание регрессии (pass-to-pass), а также включает пошаговую оценку для точного определения сбоев выполнения. Масштабные эксперименты показывают, что даже передовые агенты достигают в LongCLI-Bench уровня успешного выполнения менее 20%. Пошаговый анализ дополнительно указывает, что большинство задач останавливаются на отметке менее 30% завершённости, что свидетельствует о частых критических сбоях на ранних этапах. Хотя самокоррекция даёт незначительное улучшение, взаимодействие человека и агента через внедрение планов и интерактивное руководство приводит к существенно более высоким результатам. Эти результаты подчёркивают, что будущие исследования должны быть сосредоточены на разработке синергетических рабочих процессов человека и агента параллельно с совершенствованием способностей агентов к планированию и выполнению для преодоления ключевых проблем в выполнении задач с длинным горизонтом.
Большинство эталонных тестов для рекомендательных систем оценивают, насколько хорошо модель имитирует поведение пользователей. Однако в финансовом консультировании наблюдаемые действия могут быть зашумленными или недальновидными в условиях волатильности рынка и могут противоречить долгосрочным целям пользователя. Следовательно, принятие выбора пользователей за единственную истину смешивает поведенческую имитацию с качеством решений. Мы представляем Conv-FinRe, диалоговый и лонгитюдный эталонный тест для рекомендаций по акциям, который оценивает большие языковые модели (LLM) за пределами сопоставления с поведением. Получив вводное интервью, пошаговый рыночный контекст и консультационные диалоги, модели должны формировать ранжирования на фиксированном инвестиционном горизонте. Ключевым моментом является то, что Conv-FinRe предоставляет эталоны с несколькими точками зрения, которые различают описательное поведение и нормативную полезность, основанную на специфических для инвестора предпочтениях риска, что позволяет диагностировать, следует ли LLM рациональному анализу, имитирует ли пользовательский шум или движима рыночным трендом. Мы создали этот тест на основе реальных рыночных данных и траекторий принятия решений человеком, инстанцировали контролируемые консультационные беседы и оценили ряд передовых LLM. Результаты выявляют устойчивое противоречие между рациональным качеством решений и поведенческим соответствием: модели, которые хорошо справляются с ранжированием на основе полезности, часто не соответствуют выбору пользователей, тогда как поведенчески согласованные модели могут переобучаться на краткосрочный шум. Набор данных публично доступен на Hugging Face, а кодовая база — на GitHub.
Ожидается, что LLM-агенты будут функционировать как универсальные системы, способные решать неограниченные пользовательские запросы. В то время как существующие бенчмарки ориентированы на предметно-ориентированные среды для разработки специализированных агентов, оценка универсальных агентов требует более реалистичных условий, которые проверяют их способность работать с множеством навыков и инструментов в рамках единой среды. Мы представляем General AgentBench — бенчмарк, который предоставляет такую унифицированную структуру для оценки общих LLM-агентов в областях поиска, программирования, логического мышления и использования инструментов. Используя General AgentBench, мы систематически изучаем поведение при масштабировании на этапе тестирования в условиях последовательного масштабирования (итеративное взаимодействие) и параллельного масштабирования (сэмплирование множества траекторий). Оценка десяти ведущих LLM-агентов выявила значительное снижение производительности при переходе от предметно-ориентированных оценок к условиям общего агента. Более того, мы обнаружили, что ни одна из методологий масштабирования на практике не приводит к эффективному улучшению производительности из-за двух фундаментальных ограничений: контекстного потолка при последовательном масштабировании и верификационного разрыва при параллельном масштабировании. Код общедоступен по адресу https://github.com/cxcscmu/General-AgentBench.
Масштабирование на этапе тестирования позволяет повысить производительность модели за счёт агрегации стохастических траекторий рассуждений. Однако достижение эффективной по выборке самосогласованности при ограниченном бюджете остаётся нерешённой задачей. Мы представляем PETS (Principled and Efficient Test-Time Self-Consistency) — метод, который инициирует принципиальное изучение распределения траекторий через оптимизационную структуру. Ключевым элементом нашего подхода является показатель самосогласованности — новая метрика, определяемая как согласие с мажоритарным голосованием при бесконечном бюджете. Такая формулировка обеспечивает теоретическое обоснование эффективного по выборке распределения на этапе тестирования и делает его доступным для строгого анализа. Мы исследуем как офлайн-, так и онлайн-сценарии. В офлайн-режиме, где все вопросы известны заранее, мы связываем распределение траекторий с краудсорсингом — классической и хорошо разработанной областью — путём моделирования трасс рассуждений как работников. Этот подход позволяет использовать богатую существующую теорию, обеспечивая теоретические гарантии и эффективный алгоритм распределения на основе мажоритарного голосования. В онлайн-режиме потоковой обработки, где вопросы поступают последовательно и распределение должно выполняться на лету, мы предлагаем новый метод, вдохновлённый офлайн-фреймворком. Наш подход адаптирует бюджеты к сложности вопросов, сохраняя при этом строгие теоретические гарантии и вычислительную эффективность. Эксперименты показывают, что PETS стабильно превосходит равномерное распределение. На GPQA PETS демонстрирует идеальную самосогласованность в обоих сценариях, сокращая бюджет выборки до 75% (офлайн) и 55% (онлайн) по сравнению с равномерным распределением. Код доступен по адресу https://github.com/ZDCSlab/PETS.
Языковые модели-агенты продемонстрировали впечатляющие способности в решении задач, требующих множественных взаимодействий со средой. Однако они остаются уязвимыми в средах, где единственная ошибка часто приводит к невосстановимому сбою, особенно при строгих ограничениях на выполнимость. Мы систематически анализируем существующие агентские фреймворки, определяя неидеальное планирование и стохастическое исполнение как основные причины. Для решения этих проблем мы предлагаем метод TAPE (Tool-guided Adaptive Planning with constrained Execution — адаптивное планирование с инструментальным руководством и ограниченным исполнением). TAPE улучшает способность к планированию за счёт агрегации множества планов в граф и использования внешнего решателя для поиска выполнимого пути. Во время исполнения TAPE применяет декодирование с ограничениями для снижения шума сэмплирования, одновременно адаптивно перепланируя, когда обратная связь от среды отклоняется от целевого состояния. Эксперименты на Sokoban, ALFWorld, MuSiQue и GSM8K-Hard показывают, что TAPE стабильно превосходит существующие фреймворки, с особенно значительным преимуществом в сложных условиях, повышая процент успешных решений в среднем на 21.0 процентных пункта в сложных условиях и на 20.0 процентных пункта для более слабых базовых моделей. Код и данные доступны по ссылке.
Крупные языковые модели (LLM) стабильно улучшают свои показатели благодаря масштабированию цепочек рассуждений (Chain-of-Thought, CoT), однако это сопровождается значительными вычислительными затратами. Для решения данной проблемы в рамках эффективного логического вывода ставится задача стимулирования коротких, но точных траекторий мышления, как правило, с помощью формирования функции вознаграждения в обучении с подкреплением (Reinforcement Learning, RL). В данной работе мы систематически исследуем механизмы эффективного логического вывода в LLM. Для всесторонней оценки мы предлагаем использовать более детализированные метрики, включая распределение длины рассуждений в зависимости от их правильности и производительность в широком диапазоне бюджетов токенов — от 2 тыс. до 32 тыс. Во-первых, мы показываем, что процесс обучения следует двухэтапной парадигме: адаптации длины и уточнения рассуждений. Затем мы проводим масштабные эксперименты (около 0.2 млн GPU-часов) в едином протоколе, декомпозируя обучающие промпты и траектории, формирование вознаграждения и стратегии оптимизации. В частности, ключевым выводом является необходимость обучения на относительно более простых промптах, что обеспечивает плотность позитивных сигналов вознаграждения и, тем самым, предотвращает коллапс длины. При этом усвоенная смещенность в отношении длины может быть перенесена между доменами. Мы обобщаем все полученные результаты в виде ценных инсайтов и практических рекомендаций, а также дополнительно проверяем их на серии моделей Qwen3, масштабируя от 0.6B до 30B параметров, что демонстрирует их надежность и обобщаемость.
Алгоритмы поиска, такие как BM25 и правдоподобие запроса со сглаживанием Дирихле, остаются мощными и эффективными ранжировщиками на первом этапе, однако их улучшение в основном достигалось за счет настройки параметров и человеческой интуиции. Мы исследуем, может ли большая языковая модель, направляемая оценщиком и эволюционным поиском, автоматически обнаруживать усовершенствованные лексические алгоритмы поиска. Мы представляем RankEvolve — настройку эволюции программ на основе AlphaEvolve, в которой кандидатные алгоритмы ранжирования представлены в виде исполняемого кода и итеративно мутируют, рекомбинируются и отбираются на основе эффективности поиска по 12 наборам данных ИП из BEIR и BRIGHT. RankEvolve начинается с двух исходных программ: BM25 и правдоподобия запроса со сглаживанием Дирихле. Разработанные алгоритмы являются новыми, эффективными и демонстрируют многообещающую переносимость на полные тесты BEIR и BRIGHT, а также на TREC DL 19 и 20. Наши результаты позволяют предположить, что эволюция программ на основе LLM под руководством оценщика представляет собой практический путь к автоматическому обнаружению новых алгоритмов ранжирования.
Мы сообщаем о результатах работы Aletheia (Feng et al., 2026b) — агента для математических исследований, работающего на основе Gemini 3 Deep Think, — на первом соревновании FirstProof. В отведённые сроки Aletheia автономно решила 6 задач (2, 5, 7, 8, 9, 10) из 10 по оценке большинства экспертов; отметим, что мнения экспертов разделились только в отношении Задачи 8. В целях полной прозрачности мы поясняем нашу интерпретацию правил FirstProof, раскрываем детали наших экспериментов и процедуры оценки. Исходные промпты и выводы системы доступны по адресу https://github.com/google-deepmind/superhuman/tree/main/aletheia.
Эффективная обработка длинных последовательностей моделями Transformer обычно требует распределения вычислений по акселераторам с помощью контекстного параллелизма. Доминирующие подходы в этом семействе методов, такие как Ring Attention или DeepSpeed Ulysses, позволяют масштабироваться по размерности контекста, но не ориентированы на эффективность использования памяти, что ограничивает длину последовательностей, которые они могут поддерживать. Более продвинутые техники, такие как Fully Pipelined Distributed Transformer или выгрузка активаций, могут дополнительно увеличить возможную длину контекста ценой пропускной способности обучения. В данной статье мы представляем UPipe — простой, но эффективный метод контекстного параллелизма, который выполняет мелкозернистое разбиение на уровне головок внимания. Этот метод значительно сокращает использование памяти активациями самовнимания, преодолевая барьер памяти активаций и открывая возможность работы с гораздо более длинными контекстами. Наш подход сокращает использование памяти промежуточными тензорами в слое внимания до 87,5% для 32-миллиардных Transformers, при этом соответствуя предыдущим методам контекстного параллелизма по скорости обучения. UPipe может поддерживать контекст длиной в 5 миллионов токенов при обучении модели Llama3-8B на одном узле с 8xH100, что более чем на 25% превосходит предыдущие методы.
Языковые модели на основе дискретной диффузии привлекли широкий интерес благодаря своему потенциалу обеспечить более быструю генерацию по сравнению с авторегрессионными моделями. Однако на практике они демонстрируют резкое ухудшение качества сэмплов в режиме малого числа шагов, не оправдывая этих ожиданий. В данной работе мы показываем, что языковые модели, использующие непрерывное шумоподавление на основе потоков, могут превзойти дискретную диффузию как по качеству, так и по скорости. Возвращаясь к основам потоков для дискретных модальностей, мы строим потоковую языковую модель (Flow-based Language Model, FLM), которая выполняет евклидово шумоподавление над one-hot кодировками токенов. Мы показываем, что модель можно обучать, предсказывая очищенные данные с помощью перекрёстной энтропии, где мы вводим простую репараметризацию времени, которая значительно улучшает стабильность обучения и качество генерации. Дистиллируя FLM в её ассоциированное потоковое отображение, мы получаем дистиллированную потоковую модель языка (Distilled Flow Map Language Model, FMLM), способную к генерации за малое число шагов. На языковых наборах данных LM1B и OWT FLM достигает качества генерации, соответствующего современным моделям дискретной диффузии. С FMLM наш подход превосходит последние модели языка с малым числом шагов по всем параметрам, причём одношаговая генерация превышает их качество при 8 шагах. Наша работа ставит под сомнение широко распространённую гипотезу о необходимости дискретных диффузионных процессов для генеративного моделирования над дискретными модальностями и прокладывает путь к ускоренному потоковому моделированию языка в больших масштабах. Код доступен по адресу https://github.com/david3684/flm.
Реальные запросы к ИИ-агентам являются принципиально неполными. Естественная человеческая коммуникация опирается на общий контекст и невысказанные ограничения, которые говорящие ожидают, что слушатели смогут вывести самостоятельно. Современные бенчмарки для агентов проверяют следование явным инструкциям, но не оценивают способность агентов учитывать неявные требования, охватывающие потребности в доступности, границы конфиденциальности, катастрофические риски и контекстные ограничения. Мы представляем Implicit Intelligence — фреймворк для оценки способности ИИ-агентов выйти за рамки следования промптам и стать подлинными исполнителями целей, а также Agent-as-a-World (AaW) — среду, в которой интерактивные миры определяются в человеко-читаемых YAML-файлах и симулируются языковыми моделями. Наши сценарии характеризуются кажущейся простотой пользовательских запросов, скрытой сложностью правильных решений и возможностью обнаружения ограничений через исследование среды. Оценив 16 передовых и открытых моделей на 205 сценариях, мы обнаружили, что даже лучшая модель достигает уровня успеха лишь в 48.3% сценариев, что указывает на значительный потенциал для улучшения в преодолении разрыва между буквальным следованием инструкциям и контекстным рассуждением, подобным человеческому.
Воплощенные большие языковые модели (LLM) наделяют роботов способностью к решению сложных задач, однако они не могут анализировать, что пошло не так и почему, превращая развертывание в последовательность независимых попыток, где ошибки повторяются, а не накапливаются в опыт. Вдохновившись концепцией рефлексивной практики у людей, мы представляем метод рефлексивного планирования в тестовом времени, который объединяет два режима рефлексии: рефлексию в действии, при которой агент использует масштабирование в тестовом времени для генерации и оценки множества кандидатных действий с помощью внутренних размышлений до их выполнения; и рефлексию о действии, которая использует обучение в тестовом времени для обновления как внутренней модели рефлексии, так и политики действий на основе внешних отражений после выполнения. Мы также включаем ретроспективную рефлексию, позволяющую агенту переоценивать ранее принятые решения и выполнять обновления модели с учетом последующей информации для корректного распределения заслуг на длительных горизонтах. Эксперименты на newly-designed бенчмарке Long-Horizon Household и бенчмарке MuJoCo Cupboard Fitting демонстрируют значительное преимущество над базовыми моделями, а абляционные исследования подтверждают комплементарную роль рефлексии в действии и рефлексии о действии. Качественный анализ, включая испытания на реальном роботе, подчеркивает поведенческую коррекцию через рефлексию.
Дискретные токенизаторы изображений стали ключевым компонентом современных систем компьютерного зрения и мультимодальных систем, предоставляя последовательный интерфейс для архитектур на основе трансформеров. Однако большинство существующих подходов остаются в основном оптимизированными для реконструкции и сжатия, часто порождая токены, которые фиксируют локальную текстуру, а не семантическую структуру на уровне объектов. Вдохновленные инкрементальной и композиционной природой человеческой коммуникации, мы представляем COMmunication inspired Tokenization (COMiT) — фреймворк для обучения структурированным дискретным последовательностям визуальных токенов. COMiT конструирует латентное сообщение в рамках фиксированного токенного бюджета, итеративно наблюдая за локализованными областями изображения и рекуррентно обновляя свое дискретное представление. На каждом шаге модель интегрирует новую визуальную информацию, одновременно уточняя и реорганизуя существующую последовательность токенов. После нескольких итераций кодирования итоговое сообщение обусловливает декодер, основанный на согласовании потоков (flow-matching), который восстанавливает полное изображение. Как кодирование, так и декодирование реализованы в рамках единой трансформер-модели и обучаются сквозным образом с использованием комбинации функций потерь на реконструкцию через согласование потоков и на выравнивание семантических представлений. Наши эксперименты демонстрируют, что хотя семантическое выравнивание обеспечивает grounding, внимательное последовательное токенизирование критически важно для формирования интерпретируемой, объектно-ориентированной токенной структуры и существенного улучшения композиционной обобщающей способности и реляционных рассуждений по сравнению с предыдущими методами.
Прогнозирование времени простоя импортных контейнеров (ICDT) является ключевой задачей для повышения производительности контейнерных терминалов, поскольку точные прогнозы позволяют сократить количество перегрузочных операций с контейнерами, выполняемых штабелерами. Достижение этой цели требует точного прогнозирования времени простоя отдельных контейнеров. Однако основные детерминанты времени простоя — информация о владельце и информация о грузе — регистрируются в виде неструктурированного текста, что ограничивает их эффективное использование в моделях машинного обучения. Данное исследование устраняет это ограничение, предлагая совместную框架, интегрирующую генеративный искусственный интеллект (Gen AI) с машинным обучением. Предлагаемая框架 использует Gen AI для стандартизации неструктурированной информации в стандартные международные коды, с динамическим перепрогнозированием, запускаемым обновлениями состояния электронного обмена данными, что позволяет модели машинного обучения точно прогнозировать ICDT. Многочисленные эксперименты, проведенные на реальных данных контейнерного терминала, демонстрируют, что предложенная методология обеспечивает улучшение средней абсолютной ошибки на 13,88% по сравнению с традиционными моделями, не использующими стандартизированную информацию. Более того, применение улучшенных прогнозов к стратегиям штабелирования контейнеров позволяет достичь сокращения количества перестановок до 14,68%, что эмпирически подтверждает потенциал Gen AI для повышения производительности операций на контейнерных терминалах. В целом, данное исследование предоставляет как технические, так и методологические insights по внедрению Gen AI в портовой логистике и демонстрирует его эффективность.
Моделирование движений позвоночника является фундаментальной задачей для понимания биомеханики человека, однако оно остается малоизученным в компьютерном зрении из-за сложной кинематики позвоночника как многозвенной системы и отсутствия крупномасштабных 3D-аннотаций. Мы представляем бионикически осознанный фреймворк симуляции ключевых точек, который дополняет существующие наборы данных о позе человека анатомически корректными 3D-ключевыми точками позвоночника, полученными на основе мускулоскелетного моделирования. Используя этот фреймворк, мы создали первый открытый набор данных SIMSPINE, содержащий разреженные 3D-аннотации позвоночника на уровне позвонков для естественных движений всего тела в условиях многокамерной съемки в помещении без внешних ограничений. Объем набора составляет 2.14 миллиона кадров, что позволяет осуществлять основанное на данных изучение кинематики позвонков по вариациям осанки и преодолевает разрыв между мускулоскелетным моделированием и компьютерным зрением. Кроме того, мы публикуем предобученные базовые модели, включающие дообученные 2D-детекторы, монокулярные модели подъема 3D-позы и пайплайны многовидовой реконструкции, устанавливая единый бенчмарк для бионикически корректной оценки движений позвоночника. В частности, наши 2D-базовики улучшают state-of-the-art с 0.63 до 0.80 AUC в контролируемых условиях и с 0.91 до 0.93 AP для отслеживания позвоночника в естественной среде. Совместно фреймворк симуляции и набор данных SIMSPINE способствуют развитию исследований в области визуальной биомеханики, анализа движений и моделирования цифрового человека, обеспечивая воспроизводимую и анатомически обоснованную 3D-оценку позвоночника в естественных условиях.
Дискретные диффузионные модели с равномерным состоянием превосходно справляются с генерацией за небольшое число шагов и управлением благодаря своей способности к самокоррекции, что делает их предпочтительнее авторегрессионных моделей или моделей маскированной диффузии в таких сценариях. Однако качество их выборки методами ancestral sampling выходит на плато с увеличением количества шагов. Мы представляем семейство сэмплеров «предиктор-корректор» для дискретной диффузии, которые обобщают предыдущие методы и применимы к произвольным процессам шума. В сочетании с диффузией с равномерным состоянием наши сэмплеры превосходят ancestral sampling как в языковом, так и в изображенском моделировании, достигая более низкой перплексии генерации при сопоставимой энтропии униграмм на OpenWebText и лучших показателей FID/IS на CIFAR10. Что важно, в отличие от традиционных сэмплеров, наши методы PC продолжают улучшаться с увеличением числа шагов выборки. В совокупности эти результаты ставят под сомнение предположение о том, что маскированная диффузия — неизбежное будущее диффузионного языкового моделирования. Помимо выборки, мы разработали ресурсосберегающий план обучения для фазы тренировки с гауссовской релаксацией, сократив время обучения на 25% и потребление памяти на 33% по сравнению с Duo при сохранении сопоставимой перплексии на OpenWebText и LM1B и высокой производительности на downstream-задачах. Мы публикуем код, контрольные точки и видеоурок по адресу: https://s-sahoo.com/duo-ch2.
Оптическое распознавание символов (OCR) стремительно развивается благодаря глубокому обучению и мультимодальным моделям, однако большинство методов ориентировано на распространенные системы письма, такие как латиница и китайская иероглифика. Языки этнических меньшинств остаются малоизученными из-за сложных письменностей, дефицита размеченных данных и разнообразия исторических и современных форм, что затрудняет обобщение в условиях ограниченных ресурсов или zero-shot сценариев. Для решения этих проблем мы представляем OmniOCR — универсальную систему для распознавания письменностей этнических меньшинств. OmniOCR использует метод Dynamic Low-Rank Adaptation (Dynamic LoRA) для распределения емкости модели между слоями и письменностями, обеспечивая эффективную адаптацию с сохранением ранее полученных знаний. Регуляризация разреженности отсекает избыточные обновления, гарантируя компактную и эффективную адаптацию без дополнительных вычислительных затрат на инференс. Оценка на наборах данных TibetanMNIST, Шуй, древний Йи и Донгба показывает, что OmniOCR превосходит zero-shot базовые модели и стандартное пост-обучение, достигая наивысшей точности при превосходной параметрической эффективности. По сравнению с современными базовыми моделями точность повышается на 39–66% для этих четырех наборов данных. Код: https://github.com/AIGeeksGroup/OmniOCR.
Крупные визуально-языковые модели (VLM) продемонстрировали значительный потенциал в решении сложных задач визуального понимания благодаря методам итеративной оптимизации. Однако этим моделям обычно не хватает эффективных механизмов самокоррекции, что затрудняет самостоятельное исправление когнитивных искажений. Как следствие, в процессе многократных пересмотров они часто зацикливаются на повторяющихся и неэффективных попытках, не достигая стабильного улучшения качества ответов. Для решения этой проблемы мы предлагаем новую структуру итеративной самокоррекции, наделяющую модель двумя ключевыми способностями: рефлексией возможностей и рефлексией памяти. Данная структура направляет модель сначала на диагностику ошибок и создание плана коррекции через рефлексию возможностей, затем на использование рефлексии памяти для анализа предыдущих попыток с целью избежания повторов и исследования новых решений, и наконец — на оптимизацию ответа путем тщательного повторного рассуждения. Эксперименты на сложном бенчмарке OCRBench v2 показывают, что OCR-Agent превосходит текущую открытую SOTA-модель InternVL3-8B на +2.0 для английского и +1.2 для китайского подмножеств, одновременно достигая наилучших результатов в визуальном понимании (79.9) и логическом выводе (66.5) — опережая даже более крупные дообученные модели. Наш метод демонстрирует, что структурированная рефлексия с самосознанием может значительно повысить устойчивость рассуждений VLM без дополнительного обучения. Код: https://github.com/AIGeeksGroup/OCR-Agent.
Анонимизация текстовых документов представляет собой высококонтекстно-зависимую проблему: оптимальный баланс между защитой приватности и сохранением полезности данных варьируется в зависимости от предметной области, целей конфиденциальности и последующего применения. Однако существующие методы анонимизации опираются на статические, вручную разработанные стратегии, которые не обладают гибкостью для адаптации к разнообразным требованиям и часто не обобщаются на различные домены. Мы представляем адаптивную текстовую анонимизацию — новую постановку задачи, в которой стратегии анонимизации автоматически адаптируются под конкретные требования к приватности и полезности. Предлагается фреймворк для оптимизации промптов под конкретную задачу, который автоматически формирует инструкции по анонимизации для языковых моделей, обеспечивая адаптацию к различным целям приватности, доменам и сценариям использования. Для оценки нашего подхода представлен бенчмарк, охватывающий пять наборов данных с разнородными доменами, ограничениями приватности и целевыми показателями полезности. Во всех оцениваемых сценариях наш фреймворк стабильно достигает лучшего баланса между приватностью и полезностью по сравнению с существующими базовыми методами, сохраняя вычислительную эффективность и демонстрируя результативность на открытых языковых моделях, сопоставимую с производительностью более крупных проприетарных моделей. Кроме того, мы показываем, что наш метод способен обнаруживать новые стратегии анонимизации, исследующие различные точки на границе компромисса между приватностью и полезностью.
Визуальное отображение текста (VTR) остается ключевой проблемой в генерации изображений по тексту, где даже передовые модели часто создают текст со структурными аномалиями, такими как искажения, размытость и смещения. Однако мы обнаружили, что ведущие MLLM и специализированные OCR-модели в значительной степени не способны воспринимать эти структурные аномалии, создавая критическое узкое место как для оценки VTR, так и для RL-оптимизации. В результате даже современные генераторы (например, SeedDream4.0, Qwen-Image) по-прежнему испытывают трудности с воспроизведением структурно точного текста. Для решения этой проблемы мы предлагаем TextPecker — стратегию обучения с подкреплением (RL) с plug-and-play восприятием структурных аномалий, которая снижает уровень шума в reward-сигналах и работает с любым тексто-изобразительным генератором. Для реализации этой возможности мы создали набор данных для распознавания с аннотациями структурных аномалий на уровне символов и разработали синтезирующий движок на основе редактирования штрихов для расширения охвата структурных ошибок. Эксперименты показывают, что TextPecker стабильно улучшает разнообразные тексто-изобразительные модели; даже на хорошо оптимизированном Qwen-Image он обеспечивает значительный средний прирост на 4% в структурной точности и на 8.7% в семантическом соответствии для отображения китайского текста, устанавливая новый state-of-the-art в высокоточной VTR. Наша работа заполняет пробел в оптимизации VTR, предоставляя фундаментальный шаг к надежному и структурно точному визуальному генератору текста.
В данной статье представлен LaS-Comp — бесшовный и категорийно-независимый метод, который использует богатые геометрические априорные знания 3D-фундаментальных моделей для выполнения завершения 3D-форм при работе с разнородными типами частичных наблюдений. Наш вклад трехfold: Во-первых, метод задействует эти мощные генеративные априорные знания для завершения через дополнительную двухэтапную архитектуру: (i) этап явной замены, который сохраняет геометрию частичного наблюдения для обеспечения достоверного завершения; и (ii) этап неявного уточнения, обеспечивающий бесшовные границы между наблюдаемыми и синтезированными областями. Во-вторых, наша framework не требует обучения и совместима с различными 3D-фундаментальными моделями. В-третьих, мы представляем Omni-Comp — комплексный бенчмарк, объединяющий реальные и синтетические данные с разнообразными и сложными частичными паттернами, что позволяет проводить более тщательную и реалистичную оценку. Как количественные, так и качественные эксперименты демонстрируют, что наш метод превосходит предыдущие передовые подходы. Наш код и данные будут доступны по адресу https://github.com/DavidYan2001/LaS-Comp.
Растущий спрос на большие языковые модели (LLMs) требует от систем обслуживания способности обрабатывать множество конкурентных запросов с разнородными целевыми показателями уровня обслуживания (SLO). Это усугубляет проблему блокировки во главе очереди (HoL) в ходе ресурсоемкой фазы предварительного заполнения (prefill), когда длительные запросы монополизируют ресурсы и задерживают выполнение запросов с более высоким приоритетом, что приводит к массовым нарушениям SLO по времени до первого токена (TTFT). Хотя разбиение предварительного заполнения на чанки (chunked prefill) обеспечивает возможность прерывания, оно создает inherentный компромисс между отзывчивостью и пропускной способностью: уменьшение размера чанка улучшает задержку отклика, но снижает вычислительную эффективность, тогда как увеличение размера чанка максимизирует пропускную способность, но усугубляет блокировку. Это требует наличия адаптивного механизма вытеснения. Однако динамическое балансирование гранулярности выполнения и накладных расходов на планирование остается ключевой проблемой. В данной статье мы предлагаем FlowPrefill, систему обслуживания, оптимизированную по TTFT и полезной пропускной способности (goodput), которая разрешает этот конфликт за счет разделения гранулярности вытеснения и частоты планирования. Для достижения адаптивного планирования предварительного заполнения FlowPrefill вводит две ключевые инновации: 1) Вытеснение на уровне операторов (Operator-Level Preemption), которое использует границы операторов для обеспечения прерывания выполнения с мелкой гранулярностью без потерь эффективности, связанных с фиксированным мелким чанкованием; и 2) Событийное планирование (Event-Driven Scheduling), которое инициирует решения по планированию только при событиях поступления или завершения запроса, тем самым обеспечивая эффективную отзывчивость вытеснения при минимизации накладных расходов на управление. Оценка на реальных производственных трассировках показывает, что FlowPrefill повышает максимальную полезную пропускную способность до 5,6 раз по сравнению с современными системами, одновременно удовлетворяя гетерогенным SLO.
Обнаружение данных обучения больших языковых моделей (LLM) обычно формулируется как задача атаки на вывод членства (membership inference attack, MIA). Однако традиционные MIA работают пассивно на фиксированных весах модели, используя логарифмы правдоподобия или сгенерированные тексты. В данной работе мы представляем Активную Атаку на Реконструкцию Данных (Active Data Reconstruction Attack, ADRA) — семейство MIA, которое активно побуждает модель реконструировать заданный текст посредством дообучения. Мы выдвигаем гипотезу, что данные обучения являются более восстанавливаемыми, чем данные, не входящие в набор, и эта разница в их восстанавливаемости может быть использована для вывода членства. Основываясь на результатах, показывающих, что обучение с подкреплением (reinforcement learning, RL) обостряет поведение, уже закодированное в весах, мы используем RL на основе стратегии (on-policy RL) для активного побуждения модели к реконструкции данных путем дообучения политики, инициализированной из целевой модели. Для эффективного использования RL в MIA мы разрабатываем метрики реконструкции и контрастные вознаграждения. Полученные алгоритмы, ADRA и его адаптивный вариант ADRA+, улучшают как реконструкцию, так и обнаружение при наличии пула данных-кандидатов. Эксперименты показывают, что наши методы стабильно превосходят существующие MIA в обнаружении данных предварительного обучения, пост-обучения и дистилляции, со средним улучшением на 10,7% по сравнению с предыдущим лучшим методом. В частности, ADRA+ превосходит Min-K%++ на 18,8% на BookMIA для обнаружения данных предварительного обучения и на 7,6% на AIME для обнаружения данных пост-обучения.