Ежедневно отобранные исследовательские статьи по ИИ с переводами
В последнее время исследования, примером которых служит метод гиперсвязей (HC), расширили устоявшуюся за последнее десятилетие парадигму остаточных связей за счет увеличения ширины остаточного потока и диверсификации шаблонов связности. Однако, хотя это и приводит к значительному росту производительности, такая диверсификация фундаментально нарушает свойство тождественного отображения, присущее остаточной связи, что вызывает серьезную нестабильность обучения, ограничивает масштабируемость и дополнительно создает значительные накладные расходы на доступ к памяти. Для решения этих проблем мы предлагаем метод гиперсвязей с ограничением на многообразие (mHC) — общую архитектуру, которая проецирует пространство остаточных связей HC на определенное многообразие, чтобы восстановить свойство тождественного отображения, одновременно включая строгую оптимизацию инфраструктуры для обеспечения эффективности. Эксперименты показывают, что mHC эффективен для масштабного обучения, обеспечивая ощутимое улучшение производительности и превосходную масштабируемость. Мы ожидаем, что mHC как гибкое и практичное расширение HC внесет вклад в более глубокое понимание топологического проектирования архитектур и укажет перспективные направления для эволюции базовых моделей.
Мы представляем Youtu-LLM — легковесную, но мощную языковую модель, которая сочетает высокую вычислительную эффективность с развитым агентским интеллектом. В отличие от типичных компактных моделей, использующих дистилляцию, Youtu-LLM (1,96 млрд параметров) предобучалась с нуля для системного формирования способностей к рассуждениям и планированию. Ключевые технические достижения заключаются в следующем: (1) Компактная архитектура с поддержкой длинного контекста: Построенная на плотной архитектуре Multi-Latent Attention (MLA) с новой STEM-ориентированной лексикой, Youtu-LLM поддерживает окно контекста длиной 128 тыс. токенов. Эта конструкция обеспечивает надежные длинные контекстные рассуждения и отслеживание состояния при минимальном объеме памяти, что делает модель идеальной для долгосрочных агентских и логических задач. (2) Принципиальный учебный план «Common Sense — STEM — Агент»: Мы собрали масштабный корпус объемом приблизительно 11 трлн токенов и реализовали многоэтапную стратегию обучения. Постепенно смещая распределение данных предобучения от общих знаний к сложным STEM- и агентским задачам, мы обеспечиваем приобретение моделью глубоких когнитивных способностей, а не поверхностного соответствия. (3) Масштабируемое агентское дообучение: Для этапа агентского дообучения мы используем разнообразные схемы построения данных для синтеза богатых и разнообразных траекторий в областях математики, программирования и использования инструментов. Эти высококачественные данные позволяют модели эффективно усваивать поведение планирования и рефлексии. Многочисленные оценки показывают, что Youtu-LLM устанавливает новое состояние искусства для языковых моделей объемом менее 2 млрд параметров. На общих бенчмарках модель демонстрирует конкурентоспособные результаты по сравнению с более крупными моделями, в то время как на специализированных агентских задачах она значительно превосходит существующие SOTA-базисы, подтверждая, что легковесные модели могут обладать сильными внутренними агентскими способностями.
Агентное проектирование требует, чтобы большие языковые модели (LLM) функционировали в реальных условиях на протяжении множества шагов, выполняя действия, наблюдая за результатами и итеративно совершенствуя артефакты. Несмотря на важность этой задачи, в сообществе открытого исходного кода отсутствует продуманная сквозная экосистема для упрощения разработки агентов. Мы представляем Агентную Обучающую Экосистему (ALE) — базовую инфраструктуру, оптимизирующую производственный конвейер для агентных LLM. ALE состоит из трёх компонентов: ROLL — фреймворка пост-обучения для оптимизации весов; ROCK — менеджера песочных сред для генерации траекторий; и iFlow CLI — фреймворка для эффективного контекстного инжиниринга агентов. Мы выпускаем ROME (ROME — очевидно, агентная модель), модель с открытым исходным кодом, основанную на ALE и обученную на более чем миллионе траекторий. Наш подход включает протоколы композиции данных для синтеза сложных поведений и новый алгоритм оптимизации политик, Interaction-based Policy Alignment (IPA), который распределяет кредит на основе семантических фрагментов взаимодействия, а не отдельных токенов, чтобы улучшить стабильность обучения на длинных горизонтах. Эмпирически мы оцениваем ROME в структурированной среде и представляем Terminal Bench Pro — бенчмарк с улучшенным масштабом и контролем за контаминацией. ROME демонстрирует высокую производительность на таких бенчмарках, как SWE-bench Verified и Terminal Bench, что доказывает эффективность инфраструктуры ALE.
Последние достижения в области 3D-реконструкции позволили добиться значительного прогресса в высококачественном захвате сцен на основе плотных мульти-вью изображений, однако они сталкиваются с трудностями при ограниченном количестве входных видов. Для решения этой проблемы были реализованы различные подходы, включая методы регуляризации, семантические априорные данные и геометрические ограничения. Новейшие методы на основе диффузии продемонстрировали существенное улучшение за счет генерации новых видов с новых позиций камеры для дополнения обучающих данных, превзойдя более ранние методы, основанные на регуляризации и априорных знаниях. Несмотря на этот прогресс, мы выявили три ключевых ограничения в этих передовых подходах: недостаточный охват за пределами периферии известных видов, геометрическая несогласованность между сгенерированными видами и вычислительно сложные конвейеры. Мы представляем GaMO (Geometry-aware Multi-view Outpainter) — фреймворк, который переосмысливает реконструкцию по разреженным видам через мульти-вью экспансию. Вместо генерации новых точек обзора GaMO расширяет поле зрения из существующих позиций камеры, что изначально сохраняет геометрическую согласованность, обеспечивая при этом более широкий охват сцены. Наш подход использует мульти-вью кондиционирование и стратегии шумоподавления с учетом геометрии в zero-shot режиме без обучения. Обширные эксперименты на наборах данных Replica и ScanNet++ демонстрируют передовое качество реконструкции для 3, 6 и 9 входных видов, превосходя предыдущие методы по PSNR и LPIPS, при этом достигая 25-кратного ускорения по сравнению с современными методами на основе диффузии и времени обработки менее 10 минут. Страница проекта: https://yichuanh.github.io/GaMO/
Обнаружение аномалий в логах играет ключевую роль в обеспечении безопасности операционных систем. В зависимости от источника сбора данных журналирования в логах фиксируется разнообразная информация, которую можно рассматривать как модальности логов. Исходя из этой предпосылки, унимодальные методы часто оказываются неэффективными, игнорируя разнородность данных логов. В то же время мультимодальные методы не способны адекватно учитывать взаимодействия между этими модальностями. Применяя мультимодальный анализ тональности к задаче обнаружения аномалий в логах, мы предлагаем CoLog — фреймворк, осуществляющий коллаборативное кодирование логов с использованием различных модальностей. CoLog использует коллаборативные трансформеры и многоголовый механизм внимания для изучения взаимодействий между несколькими модальностями, обеспечивая комплексное обнаружение аномалий. Для обработки гетерогенности, вызванной этими взаимодействиями, CoLog включает слой адаптации модальностей, который преобразует репрезентации из различных модальностей логов. Данная методология позволяет CoLog выявлять тонкие паттерны и зависимости в данных, повышая эффективность обнаружения аномалий. Многочисленные эксперименты демонстрируют превосходство CoLog над современными методами. Более того, при обнаружении как точечных, так и коллективных аномалий CoLog достигает средней точности 99,63%, средней полноты 99,59% и среднего F1-показателя 99,61% на семи эталонных наборах данных для обнаружения аномалий в логах. Комплексные возможности обнаружения делают CoLog высоко подходящим для задач кибербезопасности, мониторинга систем и операционной эффективности. CoLog представляет собой значительный прогресс в области обнаружения аномалий в логах, предлагая sophisticated и эффективное решение для выявления точечных и коллективных аномалий через единый фреймворк, а также решение сложных проблем автоматического анализа данных логов. Реализация CoLog доступна по адресу https://github.com/NasirzadehMoh/CoLog.
Последние достижения в области генерации видео по текстовому описанию (Text-to-Video, T2V) позволили добиться высокого визуального качества, однако синтез видео, достоверно следующих законам физики, остается нерешенной задачей. Существующие методы, основанные преимущественно на графике или расширении промптов, плохо обобщаются за пределы простых симулированных сред или не способны к неявному физическому анализу. Проблемой также является нехватка обучающих данных с богатыми физическими взаимодействиями и явлениями. В данной статье мы сначала представляем конвейер создания видео-данных с физическим обогащением PhyAugPipe, который использует визион-языковую модель (VLM) с цепочечным рассуждением для сбора крупномасштабного набора обучающих данных PhyVidGen-135K. Затем мы формулируем принципиальную структуру Physics-aware Groupwise Direct Preference Optimization (PhyGDPO), основанную на групповой вероятностной модели Плэккетта-Льюса для учета холистических предпочтений, выходящих за рамки парных сравнений. В рамках PhyGDPO мы разрабатываем схему Physics-Guided Rewarding (PGR), которая внедряет физические вознаграждения на основе VLM для направления оптимизации в сторону физической согласованности. Мы также предлагаем схему LoRA-Switch Reference (LoRA-SR), которая устраняет необходимость в дублировании эталонных моделей, требующем больших объемов памяти, для эффективного обучения. Эксперименты показывают, что наш метод значительно превосходит современные открытые методы на тестовых наборах PhyGenBench и VideoPhy2. Дополнительные видео-результаты доступны на странице проекта: https://caiyuanhao1998.github.io/project/PhyGDPO. Наш код, модели и данные будут опубликованы по адресу: https://github.com/caiyuanhao1998/Open-PhyGDPO.
Принятие решений в условиях высокой неопределенности требует прогнозирования будущего в ситуации неполной информации. В данной работе мы обучаем языковые модели делать прогнозы по открытым вопросам прогнозирования. Для масштабирования обучающих данных мы синтезируем новые прогностические вопросы на основе глобальных событий из ежедневных новостей, используя полностью автоматизированный и тщательно проработанный метод курации. Мы обучаем модели мышления Qwen3 на нашем наборе данных OpenForesight. Чтобы исключить утечку информации о будущих событиях во время обучения и оценки, мы используем офлайн-корпус новостей как для генерации данных, так и для поиска в нашей системе прогнозирования. Руководствуясь небольшой валидационной выборкой, мы демонстрируем преимущества поиска информации и усовершенствованной функции вознаграждения для обучения с подкреплением (RL). После создания финальной системы прогнозирования мы проводим тестирование на отложенной выборке за период с мая по август 2025 года. Наша специализированная модель OpenForecaster 8B сопоставима по эффективности с гораздо более крупными проприетарными моделями, при этом наше обучение улучшает точность, калибровку и согласованность прогнозов. Мы обнаружили, что улучшения калибровки благодаря обучению прогнозированию обобщаются на популярные бенчмарки. Мы открываем исходный код всех наших моделей, алгоритмов и данных, чтобы сделать исследования по прогнозированию на языковых моделях широкодоступными.
Память служит ключевым связующим звеном между прошлым и будущим, предоставляя как людям, так и системам искусственного интеллекта бесценные концепции и опыт для решения сложных задач. В последних исследованиях автономных агентов все больше внимания уделяется проектированию эффективных процессов работы памяти на основе достижений когнитивной нейронауки. Однако, сталкиваясь с междисциплинарными барьерами, существующие работы испытывают трудности с усвоением сути механизмов человеческой памяти. Для преодоления этого разрыва мы систематически синтезируем междисциплинарные знания о памяти, соединяя инсайты из когнитивной нейронауки с агентами на основе больших языковых моделей (LLM). В частности, мы сначала разъясняем определение и функцию памяти в рамках прогрессивной траектории: от когнитивной нейронауки через LLM к агентам. Затем мы проводим сравнительный анализ таксономии памяти, механизмов хранения и полного жизненного цикла управления с биологической и искусственной точек зрения. После этого мы рассматриваем основные эталонные тесты для оценки памяти агентов. Дополнительно мы исследуем безопасность памяти с двойной перспективы — атаки и защиты. Наконец, мы прогнозируем будущие направления исследований, уделяя особое внимание мультимодальным системам памяти и приобретению навыков.
Модели "зрение-язык-действие" (VLA) обеспечили манипуляции роботов на длительных горизонтах с условиями на языке, однако большинство существующих систем ограничены схватами. Масштабирование VLA-политик на двуручных роботов с высокоподвижными (степеней свободы, DoF) ловкими кистями остается сложной задачей из-за расширенного пространства действий, частых окклюзий "кисть-объект" и стоимости сбора данных с реального робота. Мы представляем GR-Dexter — целостную аппаратно-модельно-данную структуру для универсальных манипуляций на основе VLA на двуручном роботе с ловкими кистями. Наш подход сочетает проектирование компактной 21-DoF роботизированной кисти, интуитивную систему двуручной телеоперации для сбора данных с реального робота и рецепт обучения, использующий траектории телеуправляемого робота вместе с крупномасштабными визуально-языковыми и тщательно отобранными межэмбодиментными наборами данных. По результатам натурных оценок, охватывающих повседневные манипуляции на длительных горизонтах и обобщаемый "pick-and-place", GR-Dexter демонстрирует высокую производительность в домене и повышенную устойчивость к незнакомым объектам и инструкциям. Мы надеемся, что GR-Dexter станет практическим шагом на пути к универсальным манипуляциям роботов с ловкими кистями.
Несмотря на растущие способности к рассуждению современных больших языковых моделей (LLM), их внутренние механизмы в процессе рассуждения остаются малоизученными. Существующие подходы часто опираются на заданные человеком концепции (например, "чрезмерное обдумывание", "рефлексия") на уровне слов для анализа рассуждений контролируемым образом. Однако такие методы ограничены, поскольку невозможно охватить весь спектр потенциальных поведений при рассуждении, многие из которых сложно определить в токенном пространстве. В данной работе мы предлагаем неконтролируемый фреймворк (а именно, RISE: Interpretability поведения рассуждений через разреженный автоэнкодер) для обнаружения векторов рассуждений, которые мы определяем как направления в пространстве активаций, кодирующие различные типы поведения при рассуждении. Сегментируя трассы "цепочки мыслей" на предложенческие "шаги" и обучая разреженные автоэнкодеры (SAE) на активациях уровня шага, мы выявляем разъединенные признаки, соответствующие интерпретируемым типам поведения, таким как рефлексия и возврат. Визуализация и кластерный анализ показывают, что эти поведения занимают разделимые области в пространстве декодера. Более того, целевые вмешательства в векторы, полученные из SAE, позволяют управляемо усиливать или подавлять конкретные типы поведения при рассуждении, изменяя траектории вывода без переобучения. Помимо специфичного для поведения разъединения, SAE захватывают структурные свойства, такие как длина ответа, выявляя кластеры длинных и коротких трасс рассуждений. Что еще интереснее, SAE позволяют обнаруживать новые типы поведения без контроля со стороны человека. Мы демонстрируем возможность управления уверенностью ответа путем идентификации векторов, связанных с уверенностью, в пространстве декодера SAE. Эти результаты подчеркивают потенциал неконтролируемого обнаружения латентных признаков как для интерпретации, так и для управляемого направления рассуждений в LLM.
Классификация респираторных звуков затруднена из-за ограниченного размера, высокого уровня шума и значительного дисбаланса классов в эталонных наборах данных, таких как ICBHI 2017. Хотя модели на основе трансформеров обладают мощными возможностями извлечения признаков, они склонны к переобучению и часто сходятся к острым минимумам в ландшафте функции потерь при обучении на таких ограниченных медицинских данных. Для решения этой проблемы мы предлагаем фреймворк, который улучшает Audio Spectrogram Transformer (AST) с использованием метода минимизации, учитывающего остроту минимума (Sharpness-Aware Minimization, SAM). Вместо простого минимизирования ошибки обучения наш подход оптимизирует геометрию поверхности потерь, направляя модель к более плоским минимумам, которые лучше обобщаются на данные новых пациентов. Мы также реализуем стратегию взвешенной выборки для эффективного устранения дисбаланса классов. Наш метод достигает наилучшего результата в 68.10% на наборе данных ICBHI 2017, превосходя существующие CNN и гибридные базовые модели. Что более важно, достигается чувствительность 68.31%, что является ключевым улучшением для надежного клинического скрининга. Дополнительный анализ с использованием t-SNE и карт внимания подтверждает, что модель обучается robustным, дискриминативным признакам, а не запоминанию фонового шума.
Мы представляем PFP — архитектуру нейронной сети для сжатия длинных видео в короткие контексты с явной целью предобучения: сохранение высокочастотных деталей отдельных кадров в произвольных временных позициях. Базовая модель способна сжимать 20-секундное видео в контекст длиной около 5 тыс. токенов, из которого можно извлекать случайные кадры с перцептивно сохранённым визуальным качеством. Такие предобученные модели могут быть напрямую дообучены в качестве кодировщиков памяти для авторегрессионных видео-моделей, обеспечивая долгосрочную память с низкой контекстной стоимостью и относительно малыми потерями точности. Мы оцениваем работу фреймворка в абляционных экспериментах и обсуждаем компромиссы возможных вариантов нейросетевых архитектур.
Мы представляем SpaceTimePilot — диффузионную модель для видео, которая разделяет пространство и время для управляемого генеративного рендеринга. Получив моноскопическое видео, SpaceTimePilot может независимо изменять точку обзора камеры и последовательность движения в процессе генерации, перерисовывая сцену для непрерывного и произвольного исследования в пространстве и времени. Для этого мы внедряем эффективный механизм анимационного временного кодирования в диффузионный процесс, позволяющий явно управлять последовательностью движения выходного видео относительно исходного. Поскольку ни один набор данных не предоставляет парные видео одной динамической сцены с непрерывными временными вариациями, мы предлагаем простую, но эффективную схему обучения с временным искажением, которая перепрофилирует существующие мультивидные наборы данных для имитации временных различий. Эта стратегия эффективно обучает модель управлению временем и достижению устойчивого разделения пространства-времени. Для дальнейшего повышения точности двойного управления мы вводим два дополнительных компонента: усовершенствованный механизм кондиционирования по камере, позволяющий изменять ее положение с первого кадра, и CamxTime — первый синтетический набор данных для рендеринга с полным покрытием пространства и времени, предоставляющий полностью свободные пространственно-временные траектории видео внутри сцены. Совместное обучение по схеме временного искажения и набору данных CamxTime дает более точное временное управление. Мы оцениваем SpaceTimePilot на реальных и синтетических данных, демонстрируя четкое разделение пространства-времени и превосходные результаты по сравнению с предыдущими работами. Страница проекта: https://zheninghuang.github.io/Space-Time-Pilot/ Код: https://github.com/ZheningHuang/spacetimepilot
Для ведения стратегического диалога агентам необходимо выполнять различные речевые акты, для чего критически важна оценка убеждений. Хотя предыдущие работы часто точно оценивают убеждения, в них отсутствует принципиальный механизм использования этих убеждений в процессе генерации. Мы устраняем этот разрыв, сначала формализуя два ключевых акта — Антагонистический и Согласующий, — и операционализируя их с помощью вероятностных ограничений на то, что агент может сгенерировать. Мы реализуем эту идею в рамках BEDA — системы, которая включает набор мировых состояний, оценщик убеждений и условный генератор, выбирающий речевые акты и формирующий высказывания, согласованные с выведенными убеждениями. В трех сценариях — Условный Хранитель/Грабитель (CKBG, антагонистический), Общие друзья (MF, кооперативный) и CaSiNo (переговоры) — BEDA стабильно превосходит сильные базовые модели: в CKBG она повышает процент успеха как минимум на 5.0 пунктов для всех базовых архитектур и на 20.6 пунктов с GPT-4.1-nano; в Mutual Friends достигается среднее улучшение на 9.3 пункта; а в CaSiNo система достигает оптимальной сделки по сравнению со всеми базовыми моделями. Эти результаты показывают, что представление оценки убеждений в виде ограничений обеспечивает простой и универсальный механизм для надежного стратегического диалога.
Быстрое развитие автономных систем, включая беспилотные автомобили и дроны, обострило потребность в создании подлинного пространственного интеллекта на основе мультимодальных данных бортовых сенсоров. Хотя базовые модели демонстрируют превосходство в условиях работы с одной модальностью, интеграция их возможностей для разнородных сенсоров, таких как камеры и лидары, с целью формирования единого понимания окружения остаётся серьёзной проблемой. В данной статье представлена комплексная система мультимодального предварительного обучения, определяющая ключевой набор методов, способствующих прогрессу в достижении этой цели. Мы анализируем взаимосвязь между фундаментальными характеристиками сенсоров и стратегиями обучения, оценивая роль специализированных наборов данных в обеспечении этих достижений. Нашим основным вкладом является формулировка унифицированной таксономии парадигм предварительного обучения: от базовых методов для одной модальности до сложных унифицированных框架, которые изучают целостные представления для таких сложных задач, как трёхмерное детектирование объектов и семантическое прогнозирование оккупансии. Кроме того, мы исследуем интеграцию текстовых входных данных и представлений оккупансии для обеспечения восприятия в открытом мире и планирования. Наконец, мы определяем критические узкие места, такие как вычислительная эффективность и масштабируемость моделей, и предлагаем дорожную карту по созданию универсальных мультимодальных базовых моделей, способных достичь robustного пространственного интеллекта для реального развёртывания.
Современные видео-языковые модели демонстрируют значительный потенциал в понимании видео, однако по-прежнему испытывают трудности с точным временным позиционированием для восприятия на уровне событий. Мы наблюдаем, что два ключевых фактора понимания видео (а именно, временное позиционирование и текстовая реакция) образуют логическую иерархию: точное позиционирование временных свидетельств закладывает основу для достоверного текстового ответа. Однако существующие подходы обычно решают эти две задачи совместно, без четкой логической структуры, что приводит к субоптимальным целям. Мы решаем эту проблему с позиции факторизованного обучения. Сначала мы предлагаем D²VLM — фреймворк, который развязывает обучение этим двум задачам, одновременно подчеркивая их внутреннюю зависимость. Мы применяем парадигму «сначала позиционирование, затем ответ со ссылкой на свидетельства» и вводим токены свидетельств для их временного позиционирования, что акцентирует захват визуальной семантики на уровне событий, выходя за рамки представления временных меток в существующих работах. Для дальнейшего содействия обучению этим двум задачам мы представляем новый алгоритм факторизованной оптимизации предпочтений (FPO). В отличие от стандартной оптимизации предпочтений, FPO явно включает вероятностное моделирование временного позиционирования в целевую функцию оптимизации, позволяя проводить обучение с подкреплением на основе предпочтений как для временного позиционирования, так и для текстового ответа. Мы также создаем синтетический набор данных для решения проблемы отсутствия подходящих датасетов для факторизованного обучения предпочтениям с явным временным позиционированием. Эксперименты на различных задачах демонстрируют явное преимущество нашего подхода. Наш исходный код доступен по адресу https://github.com/nusnlp/d2vlm.
Модели диффузии демонстрируют высокую способность к захвату полного (условного) распределения данных. Однако из-за недостатка обучения и данных для освоения маловероятных областей модель штрафуется за невозможность генерации высококачественных изображений, соответствующих этим областям. Для повышения качества генерации такие стратегии управления, как классификаторное управление без классификатора (CFG), могут направлять сэмплы в области высокой вероятности на этапе сэмплирования. Тем не менее, стандартный CFG часто приводит к излишне упрощённым или искажённым результатам. С другой стороны, альтернативный подход управления диффузионной моделью через её "плохую" версию ограничен необходимостью тщательного проектирования стратегий деградации, дополнительного обучения и увеличения шагов сэмплирования. В данной работе мы предлагаем простую, но эффективную стратегию — внутреннее управление (IG), которая вводит вспомогательный контроль на промежуточном слое во время обучения и экстраполирует выходы промежуточных и глубоких слоёв для получения генеративных результатов на этапе сэмплирования. Эта простая стратегия обеспечивает значительное улучшение как эффективности обучения, так и качества генерации на различных базовых моделях. На ImageNet 256×256 модель SiT-XL/2+IG достигает FID=5,31 и FID=1,75 на 80 и 800 эпохах соответственно. Более впечатляюще, LightningDiT-XL/1+IG достигает FID=1,34, что значительно превосходит все остальные методы. В сочетании с CFG модель LightningDiT-XL/1+IG устанавливает новый рекорд, достигая state-of-the-art значение FID=1,19.
Сложные задачи логического рассуждения часто включают неявные пространственные, геометрические и структурные взаимосвязи, которые не выражены явно в тексте. Хотя современные модели логического вывода демонстрируют высокие результаты во многих областях, чисто текстовые рассуждения испытывают трудности с представлением глобальных структурных ограничений в сложных сценариях. В данной статье мы представляем FIGR — подход, интегрирующий активное визуальное мышление в многошаговые рассуждения с помощью сквозного обучения с подкреплением. FIGR экстернализирует промежуточные структурные гипотезы путем построения визуальных репрезентаций в процессе решения задач. Адаптивно регулируя момент и способ активации визуального мышления, FIGR обеспечивает более стабильные и последовательные рассуждения о глобальных структурных свойствах, которые сложно выявить только из текста. Эксперименты на сложных математических бенчмарках демонстрируют превосходство FIGR над сильными текстовыми базовыми методами типа "цепочки мыслей". В частности, FIGR улучшает базовую модель на 13.12% на AIME 2025 и на 11.00% на BeyondAIME, что подтверждает эффективность мультимодальных рассуждений с визуальным сопровождением для повышения стабильности и надежности сложных логических выводов.
В данной статье представлена JavisGPT — первая унифицированная мультимодальная большая языковая модель (MLLM) для совместного анализа и генерации аудио-видео контента (Joint Audio-Video, JAV). JavisGPT использует компактную архитектуру «кодировщик–LLM–декодер» с модулем SyncFusion для пространственно-временного объединения аудио и видео, а также синхронизированные обучаемые запросы для связи с предварительно обученным генератором JAV-DiT. Такая конструкция позволяет достичь временной согласованности при понимании и создании видео-аудио контента на основе мультимодальных инструкций. Мы разработали эффективный трёхэтапный конвейер обучения, включающий мультимодальное предварительное обучение, тонкую настройку на аудио-видео данных и масштабированную настройку на инструкциях, чтобы постепенно сформировать способности к мультимодальному анализу и генерации на основе существующих моделей для обработки языка и изображений. Для поддержки этого процесса мы также создали JavisInst-Omni — высококачественный набор данных инструкций, содержащий более 200 тыс. аудио-видео-текстовых диалогов, сгенерированных с помощью GPT-4o и охватывающих разнообразные сценарии анализа и генерации различной сложности. Многочисленные эксперименты на бенчмарках для задач анализа и генерации JAV демонстрируют, что JavisGPT превосходит существующие MLLM, особенно в сложных условиях, требующих временной синхронизации.
Современные системы ИИ используют векторные эмбеддинги, хранимые и обрабатываемые с помощью операций с плавающей запятой. Хотя этот подход эффективен для приближенного поиска схожести, он вносит фундаментальную недетерминированность: идентичные модели, входные данные и код могут давать различные состояния памяти и результаты поиска на разных аппаратных архитектурах (например, x86 против ARM). Это исключает возможность воспроизведения результатов и безопасного развертывания, приводя к скрытому расхождению данных, которое препятствует последующей верификации и нарушает целостность аудиторских следов в регулируемых отраслях. Мы представляем Valori, детерминированную подсистему памяти для ИИ, которая заменяет операции с плавающей запятой на арифметику с фиксированной точкой (Q16.16) и моделирует память как воспроизводимый конечный автомат. Valori гарантирует битовую идентичность состояний памяти, снимков и результатов поиска на разных платформах. Мы демонстрируем, что недетерминированность возникает до индексации или поиска, и показываем, как Valori обеспечивает детерминизм на границе памяти. Наши результаты свидетельствуют, что детерминированная память является необходимой основой для доверенных систем ИИ. Эталонная реализация имеет открытый исходный код и доступна по адресу https://github.com/varshith-Git/Valori-Kernel (архивирована по адресу https://zenodo.org/records/18022660).