HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

20 papers found

mHC: Многообразие-ограниченные гиперсвязи
mHC: Manifold-Constrained Hyper-Connections

Dec 31

ByZhenda Xie, Yixuan Wei, Huanqi Cao, Chenggang Zhao, Chengqi Deng, Jiashi Li, Damai Dai, Huazuo Gao, Jiang Chang, Liang Zhao, Shangyan Zhou, Zhean Xu, Zhengyan Zhang, Wangding Zeng, Shengding Hu, Yuqing Wang, Jingyang Yuan, Lean Wang, Wenfeng Liang

В последнее время исследования, примером которых служит метод гиперсвязей (HC), расширили устоявшуюся за последнее десятилетие парадигму остаточных связей за счет увеличения ширины остаточного потока и диверсификации шаблонов связности. Однако, хотя это и приводит к значительному росту производительности, такая диверсификация фундаментально нарушает свойство тождественного отображения, присущее остаточной связи, что вызывает серьезную нестабильность обучения, ограничивает масштабируемость и дополнительно создает значительные накладные расходы на доступ к памяти. Для решения этих проблем мы предлагаем метод гиперсвязей с ограничением на многообразие (mHC) — общую архитектуру, которая проецирует пространство остаточных связей HC на определенное многообразие, чтобы восстановить свойство тождественного отображения, одновременно включая строгую оптимизацию инфраструктуры для обеспечения эффективности. Эксперименты показывают, что mHC эффективен для масштабного обучения, обеспечивая ощутимое улучшение производительности и превосходную масштабируемость. Мы ожидаем, что mHC как гибкое и практичное расширение HC внесет вклад в более глубокое понимание топологического проектирования архитектур и укажет перспективные направления для эволюции базовых моделей.

Youtu-LLM: Раскрытие нативного агентского потенциала облегченных больших языковых моделей
Youtu-LLM: Unlocking the Native Agentic Potential for Lightweight Large Language Models

Dec 31

ByJunru Lu, Jiarui Qin, Lingfeng Qiao, Yinghui Li, Xinyi Dai, Bo Ke, Jianfeng He, Ruizhi Qiao, Di Yin, Xing Sun, Yunsheng Wu, Yinsong Liu, Shuangyin Liu, Mingkong Tang, Haodong Lin, Jiayi Kuang, Fanxu Meng, Xiaojuan Tang, Yunjia Xi, Junjie Huang, Haotong Yang, Zhenyi Shen, Yangning Li, Qianwen Zhang, Yifei Yu, Siyu An, Junnan Dong, Qiufeng Wang, Jie Wang, Keyu Chen, Wei Wen, Taian Guo, Zhifeng Shen, Daohai Yu, Jiahao Li, Ke Li, Zongyi Li, Xiaoyu Tan

Мы представляем Youtu-LLM — легковесную, но мощную языковую модель, которая сочетает высокую вычислительную эффективность с развитым агентским интеллектом. В отличие от типичных компактных моделей, использующих дистилляцию, Youtu-LLM (1,96 млрд параметров) предобучалась с нуля для системного формирования способностей к рассуждениям и планированию. Ключевые технические достижения заключаются в следующем: (1) Компактная архитектура с поддержкой длинного контекста: Построенная на плотной архитектуре Multi-Latent Attention (MLA) с новой STEM-ориентированной лексикой, Youtu-LLM поддерживает окно контекста длиной 128 тыс. токенов. Эта конструкция обеспечивает надежные длинные контекстные рассуждения и отслеживание состояния при минимальном объеме памяти, что делает модель идеальной для долгосрочных агентских и логических задач. (2) Принципиальный учебный план «Common Sense — STEM — Агент»: Мы собрали масштабный корпус объемом приблизительно 11 трлн токенов и реализовали многоэтапную стратегию обучения. Постепенно смещая распределение данных предобучения от общих знаний к сложным STEM- и агентским задачам, мы обеспечиваем приобретение моделью глубоких когнитивных способностей, а не поверхностного соответствия. (3) Масштабируемое агентское дообучение: Для этапа агентского дообучения мы используем разнообразные схемы построения данных для синтеза богатых и разнообразных траекторий в областях математики, программирования и использования инструментов. Эти высококачественные данные позволяют модели эффективно усваивать поведение планирования и рефлексии. Многочисленные оценки показывают, что Youtu-LLM устанавливает новое состояние искусства для языковых моделей объемом менее 2 млрд параметров. На общих бенчмарках модель демонстрирует конкурентоспособные результаты по сравнению с более крупными моделями, в то время как на специализированных агентских задачах она значительно превосходит существующие SOTA-базисы, подтверждая, что легковесные модели могут обладать сильными внутренними агентскими способностями.

Дайте волю потоку: Агентное конструирование в рок-н-ролле, построение модели ROME в рамках открытой агентной обучающей экосистемы
Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem

Dec 31

ByWeixun Wang, XiaoXiao Xu, Wanhe An, Fangwen Dai, Wei Gao, Yancheng He, Ju Huang, Qiang Ji, Hanqi Jin, Xiaoyang Li, Yang Li, Zhongwen Li, Shirong Lin, Jiashun Liu, Zenan Liu, Tao Luo, Dilxat Muhtar, Yuanbin Qu, Jiaqiang Shi, Qinghui Sun, Yingshui Tan, Hao Tang, Runze Wang, Yi Wang, Zhaoguo Wang, Yanan Wu, Shaopan Xiong, Binchen Xu, Xander Xu, Yuchi Xu, Qipeng Zhang, Xixia Zhang, Haizhou Zhao, Jie Zhao, Shuaibing Zhao, Baihui Zheng, Jianhui Zheng, Suhang Zheng, Yanni Zhu, Mengze Cai, Kerui Cao, Xitong Chen, Yue Dai, Lifan Du, Tao Feng, Tao He, Jin Hu, Yijie Hu, Ziyu Jiang, Cheng Li, Xiang Li, Jing Liang, Chonghuan Liu, ZhenDong Liu, Haodong Mi, Yanhu Mo, Junjia Ni, Shixin Pei, Jingyu Shen, XiaoShuai Song, Cecilia Wang, Chaofan Wang, Kangyu Wang, Pei Wang, Tao Wang, Wei Wang, Ke Xiao, Mingyu Xu, Tiange Xu, Nan Ya, Siran Yang, Jianan Ye, Yaxing Zang, Duo Zhang, Junbo Zhang, Boren Zheng, Wanxi Deng, Ling Pan, Lin Qu, Wenbo Su, Jiamang Wang, Wei Wang, Hu Wei, Minggang Wu, Cheng Yu, Bing Zhao, Zhicheng Zheng, Bo Zheng

Агентное проектирование требует, чтобы большие языковые модели (LLM) функционировали в реальных условиях на протяжении множества шагов, выполняя действия, наблюдая за результатами и итеративно совершенствуя артефакты. Несмотря на важность этой задачи, в сообществе открытого исходного кода отсутствует продуманная сквозная экосистема для упрощения разработки агентов. Мы представляем Агентную Обучающую Экосистему (ALE) — базовую инфраструктуру, оптимизирующую производственный конвейер для агентных LLM. ALE состоит из трёх компонентов: ROLL — фреймворка пост-обучения для оптимизации весов; ROCK — менеджера песочных сред для генерации траекторий; и iFlow CLI — фреймворка для эффективного контекстного инжиниринга агентов. Мы выпускаем ROME (ROME — очевидно, агентная модель), модель с открытым исходным кодом, основанную на ALE и обученную на более чем миллионе траекторий. Наш подход включает протоколы композиции данных для синтеза сложных поведений и новый алгоритм оптимизации политик, Interaction-based Policy Alignment (IPA), который распределяет кредит на основе семантических фрагментов взаимодействия, а не отдельных токенов, чтобы улучшить стабильность обучения на длинных горизонтах. Эмпирически мы оцениваем ROME в структурированной среде и представляем Terminal Bench Pro — бенчмарк с улучшенным масштабом и контролем за контаминацией. ROME демонстрирует высокую производительность на таких бенчмарках, как SWE-bench Verified и Terminal Bench, что доказывает эффективность инфраструктуры ALE.

GaMO: Геометрически осознанное многовидовое диффузионное расширение для 3D-реконструкции по разреженным видам
GaMO: Geometry-aware Multi-view Diffusion Outpainting for Sparse-View 3D Reconstruction

Dec 31

ByYi-Chuan Huang, Hao-Jen Chien, Chin-Yang Lin, Ying-Huan Chen, Yu-Lun Liu

Последние достижения в области 3D-реконструкции позволили добиться значительного прогресса в высококачественном захвате сцен на основе плотных мульти-вью изображений, однако они сталкиваются с трудностями при ограниченном количестве входных видов. Для решения этой проблемы были реализованы различные подходы, включая методы регуляризации, семантические априорные данные и геометрические ограничения. Новейшие методы на основе диффузии продемонстрировали существенное улучшение за счет генерации новых видов с новых позиций камеры для дополнения обучающих данных, превзойдя более ранние методы, основанные на регуляризации и априорных знаниях. Несмотря на этот прогресс, мы выявили три ключевых ограничения в этих передовых подходах: недостаточный охват за пределами периферии известных видов, геометрическая несогласованность между сгенерированными видами и вычислительно сложные конвейеры. Мы представляем GaMO (Geometry-aware Multi-view Outpainter) — фреймворк, который переосмысливает реконструкцию по разреженным видам через мульти-вью экспансию. Вместо генерации новых точек обзора GaMO расширяет поле зрения из существующих позиций камеры, что изначально сохраняет геометрическую согласованность, обеспечивая при этом более широкий охват сцены. Наш подход использует мульти-вью кондиционирование и стратегии шумоподавления с учетом геометрии в zero-shot режиме без обучения. Обширные эксперименты на наборах данных Replica и ScanNet++ демонстрируют передовое качество реконструкции для 3, 6 и 9 входных видов, превосходя предыдущие методы по PSNR и LPIPS, при этом достигая 25-кратного ускорения по сравнению с современными методами на основе диффузии и времени обработки менее 10 минут. Страница проекта: https://yichuanh.github.io/GaMO/

Унифицированная система обнаружения точечных и коллективных аномалий в журналах операционной системы с использованием совместных трансформеров
A unified framework for detecting point and collective anomalies in operating system logs via collaborative transformers

Dec 29

ByMohammad Nasirzadeh, Jafar Tahmoresnezhad, Parviz Rashidi-Khazaee

Обнаружение аномалий в логах играет ключевую роль в обеспечении безопасности операционных систем. В зависимости от источника сбора данных журналирования в логах фиксируется разнообразная информация, которую можно рассматривать как модальности логов. Исходя из этой предпосылки, унимодальные методы часто оказываются неэффективными, игнорируя разнородность данных логов. В то же время мультимодальные методы не способны адекватно учитывать взаимодействия между этими модальностями. Применяя мультимодальный анализ тональности к задаче обнаружения аномалий в логах, мы предлагаем CoLog — фреймворк, осуществляющий коллаборативное кодирование логов с использованием различных модальностей. CoLog использует коллаборативные трансформеры и многоголовый механизм внимания для изучения взаимодействий между несколькими модальностями, обеспечивая комплексное обнаружение аномалий. Для обработки гетерогенности, вызванной этими взаимодействиями, CoLog включает слой адаптации модальностей, который преобразует репрезентации из различных модальностей логов. Данная методология позволяет CoLog выявлять тонкие паттерны и зависимости в данных, повышая эффективность обнаружения аномалий. Многочисленные эксперименты демонстрируют превосходство CoLog над современными методами. Более того, при обнаружении как точечных, так и коллективных аномалий CoLog достигает средней точности 99,63%, средней полноты 99,59% и среднего F1-показателя 99,61% на семи эталонных наборах данных для обнаружения аномалий в логах. Комплексные возможности обнаружения делают CoLog высоко подходящим для задач кибербезопасности, мониторинга систем и операционной эффективности. CoLog представляет собой значительный прогресс в области обнаружения аномалий в логах, предлагая sophisticated и эффективное решение для выявления точечных и коллективных аномалий через единый фреймворк, а также решение сложных проблем автоматического анализа данных логов. Реализация CoLog доступна по адресу https://github.com/NasirzadehMoh/CoLog.

PhyGDPO: Физически осознанная групповая оптимизация прямых предпочтений для физически согласованной генерации видео по тексту
PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation

Dec 31

ByYuanhao Cai, Kunpeng Li, Menglin Jia, Jialiang Wang, Junzhe Sun, Feng Liang, Weifeng Chen, Felix Juefei-Xu, Chu Wang, Ali Thabet, Xiaoliang Dai, Xuan Ju, Alan Yuille, Ji Hou

Последние достижения в области генерации видео по текстовому описанию (Text-to-Video, T2V) позволили добиться высокого визуального качества, однако синтез видео, достоверно следующих законам физики, остается нерешенной задачей. Существующие методы, основанные преимущественно на графике или расширении промптов, плохо обобщаются за пределы простых симулированных сред или не способны к неявному физическому анализу. Проблемой также является нехватка обучающих данных с богатыми физическими взаимодействиями и явлениями. В данной статье мы сначала представляем конвейер создания видео-данных с физическим обогащением PhyAugPipe, который использует визион-языковую модель (VLM) с цепочечным рассуждением для сбора крупномасштабного набора обучающих данных PhyVidGen-135K. Затем мы формулируем принципиальную структуру Physics-aware Groupwise Direct Preference Optimization (PhyGDPO), основанную на групповой вероятностной модели Плэккетта-Льюса для учета холистических предпочтений, выходящих за рамки парных сравнений. В рамках PhyGDPO мы разрабатываем схему Physics-Guided Rewarding (PGR), которая внедряет физические вознаграждения на основе VLM для направления оптимизации в сторону физической согласованности. Мы также предлагаем схему LoRA-Switch Reference (LoRA-SR), которая устраняет необходимость в дублировании эталонных моделей, требующем больших объемов памяти, для эффективного обучения. Эксперименты показывают, что наш метод значительно превосходит современные открытые методы на тестовых наборах PhyGenBench и VideoPhy2. Дополнительные видео-результаты доступны на странице проекта: https://caiyuanhao1998.github.io/project/PhyGDPO. Наш код, модели и данные будут опубликованы по адресу: https://github.com/caiyuanhao1998/Open-PhyGDPO.

Масштабирование открытого рассуждения для прогнозирования будущего
Scaling Open-Ended Reasoning to Predict the Future

Dec 31

ByNikhil Chandak, Shashwat Goel, Ameya Prabhu, Moritz Hardt, Jonas Geiping

Принятие решений в условиях высокой неопределенности требует прогнозирования будущего в ситуации неполной информации. В данной работе мы обучаем языковые модели делать прогнозы по открытым вопросам прогнозирования. Для масштабирования обучающих данных мы синтезируем новые прогностические вопросы на основе глобальных событий из ежедневных новостей, используя полностью автоматизированный и тщательно проработанный метод курации. Мы обучаем модели мышления Qwen3 на нашем наборе данных OpenForesight. Чтобы исключить утечку информации о будущих событиях во время обучения и оценки, мы используем офлайн-корпус новостей как для генерации данных, так и для поиска в нашей системе прогнозирования. Руководствуясь небольшой валидационной выборкой, мы демонстрируем преимущества поиска информации и усовершенствованной функции вознаграждения для обучения с подкреплением (RL). После создания финальной системы прогнозирования мы проводим тестирование на отложенной выборке за период с мая по август 2025 года. Наша специализированная модель OpenForecaster 8B сопоставима по эффективности с гораздо более крупными проприетарными моделями, при этом наше обучение улучшает точность, калибровку и согласованность прогнозов. Мы обнаружили, что улучшения калибровки благодаря обучению прогнозированию обобщаются на популярные бенчмарки. Мы открываем исходный код всех наших моделей, алгоритмов и данных, чтобы сделать исследования по прогнозированию на языковых моделях широкодоступными.

Искусственный интеллект встречает мозг: системы памяти от когнитивной нейронауки до автономных агентов
AI Meets Brain: Memory Systems from Cognitive Neuroscience to Autonomous Agents

Dec 29

ByJiafeng Liang, Hao Li, Chang Li, Jiaqi Zhou, Shixin Jiang, Zekun Wang, Changkai Ji, Zhihao Zhu, Runxuan Liu, Tao Ren, Jinlan Fu, See-Kiong Ng, Xia Liang, Ming Liu, Bing Qin

Память служит ключевым связующим звеном между прошлым и будущим, предоставляя как людям, так и системам искусственного интеллекта бесценные концепции и опыт для решения сложных задач. В последних исследованиях автономных агентов все больше внимания уделяется проектированию эффективных процессов работы памяти на основе достижений когнитивной нейронауки. Однако, сталкиваясь с междисциплинарными барьерами, существующие работы испытывают трудности с усвоением сути механизмов человеческой памяти. Для преодоления этого разрыва мы систематически синтезируем междисциплинарные знания о памяти, соединяя инсайты из когнитивной нейронауки с агентами на основе больших языковых моделей (LLM). В частности, мы сначала разъясняем определение и функцию памяти в рамках прогрессивной траектории: от когнитивной нейронауки через LLM к агентам. Затем мы проводим сравнительный анализ таксономии памяти, механизмов хранения и полного жизненного цикла управления с биологической и искусственной точек зрения. После этого мы рассматриваем основные эталонные тесты для оценки памяти агентов. Дополнительно мы исследуем безопасность памяти с двойной перспективы — атаки и защиты. Наконец, мы прогнозируем будущие направления исследований, уделяя особое внимание мультимодальным системам памяти и приобретению навыков.

Технический отчет GR-Dexter
GR-Dexter Technical Report

Dec 30

ByRuoshi Wen, Guangzeng Chen, Zhongren Cui, Min Du, Yang Gou, Zhigang Han, Liqun Huang, Mingyu Lei, Yunfei Li, Zhuohang Li, Wenlei Liu, Yuxiao Liu, Xiao Ma, Hao Niu, Yutao Ouyang, Zeyu Ren, Haixin Shi, Wei Xu, Haoxiang Zhang, Jiajun Zhang, Xiao Zhang, Liwei Zheng, Weiheng Zhong, Yifei Zhou, Zhengming Zhu, Hang Li

Модели "зрение-язык-действие" (VLA) обеспечили манипуляции роботов на длительных горизонтах с условиями на языке, однако большинство существующих систем ограничены схватами. Масштабирование VLA-политик на двуручных роботов с высокоподвижными (степеней свободы, DoF) ловкими кистями остается сложной задачей из-за расширенного пространства действий, частых окклюзий "кисть-объект" и стоимости сбора данных с реального робота. Мы представляем GR-Dexter — целостную аппаратно-модельно-данную структуру для универсальных манипуляций на основе VLA на двуручном роботе с ловкими кистями. Наш подход сочетает проектирование компактной 21-DoF роботизированной кисти, интуитивную систему двуручной телеоперации для сбора данных с реального робота и рецепт обучения, использующий траектории телеуправляемого робота вместе с крупномасштабными визуально-языковыми и тщательно отобранными межэмбодиментными наборами данных. По результатам натурных оценок, охватывающих повседневные манипуляции на длительных горизонтах и обобщаемый "pick-and-place", GR-Dexter демонстрирует высокую производительность в домене и повышенную устойчивость к незнакомым объектам и инструкциям. Мы надеемся, что GR-Dexter станет практическим шагом на пути к универсальным манипуляциям роботов с ловкими кистями.

Фантастические проявления логического мышления и где их найти: неконтролируемое обнаружение процесса рассуждений
Fantastic Reasoning Behaviors and Where to Find Them: Unsupervised Discovery of the Reasoning Process

Dec 30

ByZhenyu Zhang, Shujian Zhang, John Lambert, Wenxuan Zhou, Zhangyang Wang, Mingqing Chen, Andrew Hard, Rajiv Mathews, Lun Wang

Несмотря на растущие способности к рассуждению современных больших языковых моделей (LLM), их внутренние механизмы в процессе рассуждения остаются малоизученными. Существующие подходы часто опираются на заданные человеком концепции (например, "чрезмерное обдумывание", "рефлексия") на уровне слов для анализа рассуждений контролируемым образом. Однако такие методы ограничены, поскольку невозможно охватить весь спектр потенциальных поведений при рассуждении, многие из которых сложно определить в токенном пространстве. В данной работе мы предлагаем неконтролируемый фреймворк (а именно, RISE: Interpretability поведения рассуждений через разреженный автоэнкодер) для обнаружения векторов рассуждений, которые мы определяем как направления в пространстве активаций, кодирующие различные типы поведения при рассуждении. Сегментируя трассы "цепочки мыслей" на предложенческие "шаги" и обучая разреженные автоэнкодеры (SAE) на активациях уровня шага, мы выявляем разъединенные признаки, соответствующие интерпретируемым типам поведения, таким как рефлексия и возврат. Визуализация и кластерный анализ показывают, что эти поведения занимают разделимые области в пространстве декодера. Более того, целевые вмешательства в векторы, полученные из SAE, позволяют управляемо усиливать или подавлять конкретные типы поведения при рассуждении, изменяя траектории вывода без переобучения. Помимо специфичного для поведения разъединения, SAE захватывают структурные свойства, такие как длина ответа, выявляя кластеры длинных и коротких трасс рассуждений. Что еще интереснее, SAE позволяют обнаруживать новые типы поведения без контроля со стороны человека. Мы демонстрируем возможность управления уверенностью ответа путем идентификации векторов, связанных с уверенностью, в пространстве декодера SAE. Эти результаты подчеркивают потенциал неконтролируемого обнаружения латентных признаков как для интерпретации, так и для управляемого направления рассуждений в LLM.

Геометрически-осознанная оптимизация для классификации респираторных звуков: повышение чувствительности с помощью Audio Spectrogram Transformers, оптимизированных методом SAM
Geometry-Aware Optimization for Respiratory Sound Classification: Enhancing Sensitivity with SAM-Optimized Audio Spectrogram Transformers

Dec 27

ByAtakan Işık, Selin Vulga Işık, Ahmet Feridun Işık, Mahşuk Taylan

Классификация респираторных звуков затруднена из-за ограниченного размера, высокого уровня шума и значительного дисбаланса классов в эталонных наборах данных, таких как ICBHI 2017. Хотя модели на основе трансформеров обладают мощными возможностями извлечения признаков, они склонны к переобучению и часто сходятся к острым минимумам в ландшафте функции потерь при обучении на таких ограниченных медицинских данных. Для решения этой проблемы мы предлагаем фреймворк, который улучшает Audio Spectrogram Transformer (AST) с использованием метода минимизации, учитывающего остроту минимума (Sharpness-Aware Minimization, SAM). Вместо простого минимизирования ошибки обучения наш подход оптимизирует геометрию поверхности потерь, направляя модель к более плоским минимумам, которые лучше обобщаются на данные новых пациентов. Мы также реализуем стратегию взвешенной выборки для эффективного устранения дисбаланса классов. Наш метод достигает наилучшего результата в 68.10% на наборе данных ICBHI 2017, превосходя существующие CNN и гибридные базовые модели. Что более важно, достигается чувствительность 68.31%, что является ключевым улучшением для надежного клинического скрининга. Дополнительный анализ с использованием t-SNE и карт внимания подтверждает, что модель обучается robustным, дискриминативным признакам, а не запоминанию фонового шума.

Сохранение структур кадров при предварительном обучении в авторегрессионном сжатии видеопамяти
Pretraining Frame Preservation in Autoregressive Video Memory Compression

Dec 29

ByLvmin Zhang, Shengqu Cai, Muyang Li, Chong Zeng, Beijia Lu, Anyi Rao, Song Han, Gordon Wetzstein, Maneesh Agrawala

Мы представляем PFP — архитектуру нейронной сети для сжатия длинных видео в короткие контексты с явной целью предобучения: сохранение высокочастотных деталей отдельных кадров в произвольных временных позициях. Базовая модель способна сжимать 20-секундное видео в контекст длиной около 5 тыс. токенов, из которого можно извлекать случайные кадры с перцептивно сохранённым визуальным качеством. Такие предобученные модели могут быть напрямую дообучены в качестве кодировщиков памяти для авторегрессионных видео-моделей, обеспечивая долгосрочную память с низкой контекстной стоимостью и относительно малыми потерями точности. Мы оцениваем работу фреймворка в абляционных экспериментах и обсуждаем компромиссы возможных вариантов нейросетевых архитектур.

SpaceTimePilot: Генеративный рендеринг динамических сцен в пространстве и времени
SpaceTimePilot: Generative Rendering of Dynamic Scenes Across Space and Time

Dec 31

ByZhening Huang, Hyeonho Jeong, Xuelin Chen, Yulia Gryaditskaya, Tuanfeng Y. Wang, Joan Lasenby, Chun-Hao Huang

Мы представляем SpaceTimePilot — диффузионную модель для видео, которая разделяет пространство и время для управляемого генеративного рендеринга. Получив моноскопическое видео, SpaceTimePilot может независимо изменять точку обзора камеры и последовательность движения в процессе генерации, перерисовывая сцену для непрерывного и произвольного исследования в пространстве и времени. Для этого мы внедряем эффективный механизм анимационного временного кодирования в диффузионный процесс, позволяющий явно управлять последовательностью движения выходного видео относительно исходного. Поскольку ни один набор данных не предоставляет парные видео одной динамической сцены с непрерывными временными вариациями, мы предлагаем простую, но эффективную схему обучения с временным искажением, которая перепрофилирует существующие мультивидные наборы данных для имитации временных различий. Эта стратегия эффективно обучает модель управлению временем и достижению устойчивого разделения пространства-времени. Для дальнейшего повышения точности двойного управления мы вводим два дополнительных компонента: усовершенствованный механизм кондиционирования по камере, позволяющий изменять ее положение с первого кадра, и CamxTime — первый синтетический набор данных для рендеринга с полным покрытием пространства и времени, предоставляющий полностью свободные пространственно-временные траектории видео внутри сцены. Совместное обучение по схеме временного искажения и набору данных CamxTime дает более точное временное управление. Мы оцениваем SpaceTimePilot на реальных и синтетических данных, демонстрируя четкое разделение пространства-времени и превосходные результаты по сравнению с предыдущими работами. Страница проекта: https://zheninghuang.github.io/Space-Time-Pilot/ Код: https://github.com/ZheningHuang/spacetimepilot

BEDA: Оценка убеждений как вероятностные ограничения для выполнения стратегических диалоговых актов
BEDA: Belief Estimation as Probabilistic Constraints for Performing Strategic Dialogue Acts

Dec 31

ByHengli Li, Zhaoxin Yu, Qi Shen, Chenxi Li, Mengmeng Wang, Tinglang Wu, Yipeng Kang, Yuxuan Wang, Song-Chun Zhu, Zixia Jia, Zilong Zheng

Для ведения стратегического диалога агентам необходимо выполнять различные речевые акты, для чего критически важна оценка убеждений. Хотя предыдущие работы часто точно оценивают убеждения, в них отсутствует принципиальный механизм использования этих убеждений в процессе генерации. Мы устраняем этот разрыв, сначала формализуя два ключевых акта — Антагонистический и Согласующий, — и операционализируя их с помощью вероятностных ограничений на то, что агент может сгенерировать. Мы реализуем эту идею в рамках BEDA — системы, которая включает набор мировых состояний, оценщик убеждений и условный генератор, выбирающий речевые акты и формирующий высказывания, согласованные с выведенными убеждениями. В трех сценариях — Условный Хранитель/Грабитель (CKBG, антагонистический), Общие друзья (MF, кооперативный) и CaSiNo (переговоры) — BEDA стабильно превосходит сильные базовые модели: в CKBG она повышает процент успеха как минимум на 5.0 пунктов для всех базовых архитектур и на 20.6 пунктов с GPT-4.1-nano; в Mutual Friends достигается среднее улучшение на 9.3 пункта; а в CaSiNo система достигает оптимальной сделки по сравнению со всеми базовыми моделями. Эти результаты показывают, что представление оценки убеждений в виде ограничений обеспечивает простой и универсальный механизм для надежного стратегического диалога.

Формирование пространственного интеллекта: план предварительного обучения автономных систем на мультимодальных данных
Forging Spatial Intelligence: A Roadmap of Multi-Modal Data Pre-Training for Autonomous Systems

Dec 30

BySong Wang, Lingdong Kong, Xiaolu Liu, Hao Shi, Wentong Li, Jianke Zhu, Steven C. H. Hoi

Быстрое развитие автономных систем, включая беспилотные автомобили и дроны, обострило потребность в создании подлинного пространственного интеллекта на основе мультимодальных данных бортовых сенсоров. Хотя базовые модели демонстрируют превосходство в условиях работы с одной модальностью, интеграция их возможностей для разнородных сенсоров, таких как камеры и лидары, с целью формирования единого понимания окружения остаётся серьёзной проблемой. В данной статье представлена комплексная система мультимодального предварительного обучения, определяющая ключевой набор методов, способствующих прогрессу в достижении этой цели. Мы анализируем взаимосвязь между фундаментальными характеристиками сенсоров и стратегиями обучения, оценивая роль специализированных наборов данных в обеспечении этих достижений. Нашим основным вкладом является формулировка унифицированной таксономии парадигм предварительного обучения: от базовых методов для одной модальности до сложных унифицированных框架, которые изучают целостные представления для таких сложных задач, как трёхмерное детектирование объектов и семантическое прогнозирование оккупансии. Кроме того, мы исследуем интеграцию текстовых входных данных и представлений оккупансии для обеспечения восприятия в открытом мире и планирования. Наконец, мы определяем критические узкие места, такие как вычислительная эффективность и масштабируемость моделей, и предлагаем дорожную карту по созданию универсальных мультимодальных базовых моделей, способных достичь robustного пространственного интеллекта для реального развёртывания.

Факторизованное обучение для временно обоснованных видео-языковых моделей
Factorized Learning for Temporally Grounded Video-Language Models

Dec 30

ByWenzheng Zeng, Difei Gao, Mike Zheng Shou, Hwee Tou Ng

Современные видео-языковые модели демонстрируют значительный потенциал в понимании видео, однако по-прежнему испытывают трудности с точным временным позиционированием для восприятия на уровне событий. Мы наблюдаем, что два ключевых фактора понимания видео (а именно, временное позиционирование и текстовая реакция) образуют логическую иерархию: точное позиционирование временных свидетельств закладывает основу для достоверного текстового ответа. Однако существующие подходы обычно решают эти две задачи совместно, без четкой логической структуры, что приводит к субоптимальным целям. Мы решаем эту проблему с позиции факторизованного обучения. Сначала мы предлагаем D²VLM — фреймворк, который развязывает обучение этим двум задачам, одновременно подчеркивая их внутреннюю зависимость. Мы применяем парадигму «сначала позиционирование, затем ответ со ссылкой на свидетельства» и вводим токены свидетельств для их временного позиционирования, что акцентирует захват визуальной семантики на уровне событий, выходя за рамки представления временных меток в существующих работах. Для дальнейшего содействия обучению этим двум задачам мы представляем новый алгоритм факторизованной оптимизации предпочтений (FPO). В отличие от стандартной оптимизации предпочтений, FPO явно включает вероятностное моделирование временного позиционирования в целевую функцию оптимизации, позволяя проводить обучение с подкреплением на основе предпочтений как для временного позиционирования, так и для текстового ответа. Мы также создаем синтетический набор данных для решения проблемы отсутствия подходящих датасетов для факторизованного обучения предпочтениям с явным временным позиционированием. Эксперименты на различных задачах демонстрируют явное преимущество нашего подхода. Наш исходный код доступен по адресу https://github.com/nusnlp/d2vlm.

Управление диффузионным трансформером с помощью его внутренней динамики
Guiding a Diffusion Transformer with the Internal Dynamics of Itself

Dec 30

ByXingyu Zhou, Qifan Li, Xiaobin Hu, Hai Chen, Shuhang Gu

Модели диффузии демонстрируют высокую способность к захвату полного (условного) распределения данных. Однако из-за недостатка обучения и данных для освоения маловероятных областей модель штрафуется за невозможность генерации высококачественных изображений, соответствующих этим областям. Для повышения качества генерации такие стратегии управления, как классификаторное управление без классификатора (CFG), могут направлять сэмплы в области высокой вероятности на этапе сэмплирования. Тем не менее, стандартный CFG часто приводит к излишне упрощённым или искажённым результатам. С другой стороны, альтернативный подход управления диффузионной моделью через её "плохую" версию ограничен необходимостью тщательного проектирования стратегий деградации, дополнительного обучения и увеличения шагов сэмплирования. В данной работе мы предлагаем простую, но эффективную стратегию — внутреннее управление (IG), которая вводит вспомогательный контроль на промежуточном слое во время обучения и экстраполирует выходы промежуточных и глубоких слоёв для получения генеративных результатов на этапе сэмплирования. Эта простая стратегия обеспечивает значительное улучшение как эффективности обучения, так и качества генерации на различных базовых моделях. На ImageNet 256×256 модель SiT-XL/2+IG достигает FID=5,31 и FID=1,75 на 80 и 800 эпохах соответственно. Более впечатляюще, LightningDiT-XL/1+IG достигает FID=1,34, что значительно превосходит все остальные методы. В сочетании с CFG модель LightningDiT-XL/1+IG устанавливает новый рекорд, достигая state-of-the-art значение FID=1,19.

Разберись в этом: Расширяя границы логического мышления с помощью активного визуального анализа
Figure It Out: Improving the Frontier of Reasoning with Active Visual Thinking

Dec 30

ByMeiqi Chen, Fandong Meng, Jie Zhou

Сложные задачи логического рассуждения часто включают неявные пространственные, геометрические и структурные взаимосвязи, которые не выражены явно в тексте. Хотя современные модели логического вывода демонстрируют высокие результаты во многих областях, чисто текстовые рассуждения испытывают трудности с представлением глобальных структурных ограничений в сложных сценариях. В данной статье мы представляем FIGR — подход, интегрирующий активное визуальное мышление в многошаговые рассуждения с помощью сквозного обучения с подкреплением. FIGR экстернализирует промежуточные структурные гипотезы путем построения визуальных репрезентаций в процессе решения задач. Адаптивно регулируя момент и способ активации визуального мышления, FIGR обеспечивает более стабильные и последовательные рассуждения о глобальных структурных свойствах, которые сложно выявить только из текста. Эксперименты на сложных математических бенчмарках демонстрируют превосходство FIGR над сильными текстовыми базовыми методами типа "цепочки мыслей". В частности, FIGR улучшает базовую модель на 13.12% на AIME 2025 и на 11.00% на BeyondAIME, что подтверждает эффективность мультимодальных рассуждений с визуальным сопровождением для повышения стабильности и надежности сложных логических выводов.

JavisGPT: Унифицированная многомодальная большая языковая модель для анализа и генерации озвученного видео
JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation

Dec 28

ByKai Liu, Jungang Li, Yuchong Sun, Shengqiong Wu, Jianzhang Gao, Daoan Zhang, Wei Zhang, Sheng Jin, Sicheng Yu, Geng Zhan, Jiayi Ji, Fan Zhou, Liang Zheng, Shuicheng Yan, Hao Fei, Tat-Seng Chua

В данной статье представлена JavisGPT — первая унифицированная мультимодальная большая языковая модель (MLLM) для совместного анализа и генерации аудио-видео контента (Joint Audio-Video, JAV). JavisGPT использует компактную архитектуру «кодировщик–LLM–декодер» с модулем SyncFusion для пространственно-временного объединения аудио и видео, а также синхронизированные обучаемые запросы для связи с предварительно обученным генератором JAV-DiT. Такая конструкция позволяет достичь временной согласованности при понимании и создании видео-аудио контента на основе мультимодальных инструкций. Мы разработали эффективный трёхэтапный конвейер обучения, включающий мультимодальное предварительное обучение, тонкую настройку на аудио-видео данных и масштабированную настройку на инструкциях, чтобы постепенно сформировать способности к мультимодальному анализу и генерации на основе существующих моделей для обработки языка и изображений. Для поддержки этого процесса мы также создали JavisInst-Omni — высококачественный набор данных инструкций, содержащий более 200 тыс. аудио-видео-текстовых диалогов, сгенерированных с помощью GPT-4o и охватывающих разнообразные сценарии анализа и генерации различной сложности. Многочисленные эксперименты на бенчмарках для задач анализа и генерации JAV демонстрируют, что JavisGPT превосходит существующие MLLM, особенно в сложных условиях, требующих временной синхронизации.

Valori: Детерминированная архитектура памяти для систем искусственного интеллекта
Valori: A Deterministic Memory Substrate for AI Systems

Dec 25

ByVarshith Gudur

Современные системы ИИ используют векторные эмбеддинги, хранимые и обрабатываемые с помощью операций с плавающей запятой. Хотя этот подход эффективен для приближенного поиска схожести, он вносит фундаментальную недетерминированность: идентичные модели, входные данные и код могут давать различные состояния памяти и результаты поиска на разных аппаратных архитектурах (например, x86 против ARM). Это исключает возможность воспроизведения результатов и безопасного развертывания, приводя к скрытому расхождению данных, которое препятствует последующей верификации и нарушает целостность аудиторских следов в регулируемых отраслях. Мы представляем Valori, детерминированную подсистему памяти для ИИ, которая заменяет операции с плавающей запятой на арифметику с фиксированной точкой (Q16.16) и моделирует память как воспроизводимый конечный автомат. Valori гарантирует битовую идентичность состояний памяти, снимков и результатов поиска на разных платформах. Мы демонстрируем, что недетерминированность возникает до индексации или поиска, и показываем, как Valori обеспечивает детерминизм на границе памяти. Наши результаты свидетельствуют, что детерминированная память является необходимой основой для доверенных систем ИИ. Эталонная реализация имеет открытый исходный код и доступна по адресу https://github.com/varshith-Git/Valori-Kernel (архивирована по адресу https://zenodo.org/records/18022660).