Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Восприятие, Рассуждение, Мышление и Планирование: Обзор крупномасштабных мультимодальных моделей рассуждений
Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models

May 8

ByYunxin Li, Zhenyu Liu, Zitao Li, Xuanyu Zhang, Zhenran Xu, Xinyu Chen, Haoyuan Shi, Shenyuan Jiang, Xintong Wang, Jifang Wang, Shouzheng Huang, Xinping Zhao, Borui Jiang, Lanqing Hong, Longyue Wang, Zhuotao Tian, Baoxing Huai, Wenhan Luo, Weihua Luo, Zheng Zhang, Baotian Hu, Min Zhang

185

Рассуждения лежат в основе интеллекта, формируя способность принимать решения, делать выводы и обобщать знания в различных областях. В искусственном интеллекте, по мере того как системы всё чаще функционируют в открытых, неопределённых и мультимодальных средах, рассуждения становятся ключевыми для обеспечения устойчивого и адаптивного поведения. Крупные мультимодальные модели рассуждений (LMRMs) появились как перспективная парадигма, интегрирующая такие модальности, как текст, изображения, аудио и видео, для поддержки сложных способностей к рассуждению и стремясь к достижению всестороннего восприятия, точного понимания и глубокого анализа. По мере развития исследований мультимодальные рассуждения быстро эволюционировали от модульных, восприятие-ориентированных подходов к унифицированным, языко-центричным фреймворкам, которые обеспечивают более согласованное кросс-модальное понимание. Хотя настройка на инструкции и обучение с подкреплением улучшили способности моделей к рассуждению, значительные вызовы остаются в области омни-модальной генерализации, глубины рассуждений и агентного поведения. Для решения этих проблем мы представляем всесторонний и структурированный обзор исследований мультимодальных рассуждений, организованный вокруг четырёхэтапной дорожной карты развития, отражающей меняющиеся философии проектирования и возникающие возможности в этой области. Сначала мы рассматриваем ранние подходы, основанные на задачах-специфичных модулях, где рассуждения были неявно встроены в этапы представления, согласования и слияния. Затем мы анализируем современные методы, объединяющие рассуждения в мультимодальные LLM, с такими достижениями, как мультимодальная цепочка рассуждений (MCoT) и мультимодальное обучение с подкреплением, которые позволяют создавать более богатые и структурированные цепочки рассуждений. Наконец, опираясь на эмпирические данные из сложных бенчмарков и экспериментальных случаев OpenAI O3 и O4-mini, мы обсуждаем концептуальное направление нативных крупных мультимодальных моделей рассуждений (N-LMRMs), которые нацелены на поддержку масштабируемых, агентных и адаптивных рассуждений и планирования в сложных реальных условиях.

Flow-GRPO: Обучение моделей Flow Matching с использованием онлайн-обучения с подкреплением
Flow-GRPO: Training Flow Matching Models via Online RL

May 8

ByJie Liu, Gongye Liu, Jiajun Liang, Yangguang Li, Jiaheng Liu, Xintao Wang, Pengfei Wan, Di Zhang, Wanli Ouyang

Мы представляем Flow-GRPO — первый метод, интегрирующий онлайн-обучение с подкреплением (RL) в модели потокового согласования. Наш подход использует две ключевые стратегии: (1) преобразование ODE в SDE, которое превращает детерминированное обыкновенное дифференциальное уравнение (ODE) в эквивалентное стохастическое дифференциальное уравнение (SDE), сохраняющее маргинальное распределение исходной модели на всех временных шагах, что позволяет проводить статистическую выборку для исследования в RL; и (2) стратегию сокращения шума, которая уменьшает количество шагов удаления шума при обучении, сохраняя при этом исходное количество шагов вывода, что значительно повышает эффективность выборки без ухудшения производительности. Эмпирически Flow-GRPO демонстрирует эффективность в различных задачах генерации изображений из текста. Для сложных композиций модель SD3.5, настроенная с помощью RL, генерирует почти идеальное количество объектов, пространственные отношения и детализированные атрибуты, повышая точность GenEval с 63% до 95%. В визуализации текста точность улучшается с 59% до 92%, что значительно повышает качество генерации текста. Flow-GRPO также достигает существенного прогресса в согласовании с человеческими предпочтениями. Примечательно, что практически не наблюдалось "взлома наград", то есть увеличение наград не происходило за счет снижения качества или разнообразия изображений, и оба параметра оставались стабильными в наших экспериментах.

На пути к мультимодальному универсалу: Общий уровень и общий бенчмарк
On Path to Multimodal Generalist: General-Level and General-Bench

May 7

ByHao Fei, Yuan Zhou, Juncheng Li, Xiangtai Li, Qingshan Xu, Bobo Li, Shengqiong Wu, Yaoting Wang, Junbao Zhou, Jiahao Meng, Qingyu Shi, Zhiyuan Zhou, Liangtao Shi, Minghe Gao, Daoan Zhang, Zhiqi Ge, Weiming Wu, Siliang Tang, Kaihang Pan, Yaobo Ye, Haobo Yuan, Tao Zhang, Tianjie Ju, Zixiang Meng, Shilin Xu, Liyu Jia, Wentao Hu, Meng Luo, Jiebo Luo, Tat-Seng Chua, Shuicheng Yan, Hanwang Zhang

Мультимодальные большие языковые модели (MLLM) в настоящее время переживают стремительный рост, обусловленный передовыми возможностями языковых моделей (LLM). В отличие от более ранних специализированных решений, современные MLLM развиваются в сторону парадигмы мультимодальных универсалов. Изначально ограниченные пониманием множества модальностей, эти модели продвинулись до уровня не только понимания, но и генерации данных в различных модальностях. Их возможности расширились от грубого до детализированного мультимодального понимания и от поддержки ограниченного числа модальностей до произвольных. Хотя существует множество бенчмарков для оценки MLLM, возникает важный вопрос: можно ли просто предположить, что более высокая производительность в различных задачах указывает на более сильные возможности MLLM, приближая нас к искусственному интеллекту уровня человека? Мы утверждаем, что ответ не так прост, как кажется. Этот проект представляет General-Level — оценочную структуру, которая определяет 5 уровней производительности и универсальности MLLM, предлагая методологию для сравнения MLLM и оценки прогресса существующих систем в направлении более устойчивых мультимодальных универсалов и, в конечном итоге, к искусственному общему интеллекту (AGI). В основе структуры лежит концепция Синергии, которая измеряет, сохраняют ли модели согласованные возможности в понимании и генерации, а также в различных модальностях. Для поддержки этой оценки мы представляем General-Bench, который охватывает более широкий спектр навыков, модальностей, форматов и возможностей, включая более 700 задач и 325 800 примеров. Результаты оценки, в которой участвовало более 100 современных MLLM, раскрывают рейтинги возможностей универсалов, подчеркивая сложности достижения подлинного искусственного интеллекта. Мы ожидаем, что этот проект проложит путь для будущих исследований в области мультимодальных базовых моделей следующего поколения, предоставляя надежную инфраструктуру для ускорения реализации AGI. Страница проекта: https://generalist.top/

Создание физически устойчивых и реализуемых конструкций LEGO из текста
Generating Physically Stable and Buildable LEGO Designs from Text

May 8

ByAva Pun, Kangle Deng, Ruixuan Liu, Deva Ramanan, Changliu Liu, Jun-Yan Zhu

Мы представляем LegoGPT — первый подход для генерации физически устойчивых моделей из кубиков LEGO по текстовым запросам. Для достижения этой цели мы создаем крупномасштабный набор данных физически устойчивых дизайнов LEGO вместе с их текстовыми описаниями и обучаем авторегрессивную языковую модель большого масштаба для предсказания следующего кубика через прогнозирование следующего токена. Чтобы повысить устойчивость получаемых конструкций, мы применяем эффективную проверку на валидность и физически осознанный откат во время авторегрессивного вывода, который отсекает невыполнимые предсказания токенов с использованием законов физики и ограничений сборки. Наши эксперименты показывают, что LegoGPT создает устойчивые, разнообразные и эстетически привлекательные дизайны LEGO, которые тесно соответствуют входным текстовым запросам. Мы также разрабатываем текстовый метод текстурирования LEGO для создания цветных и текстурированных моделей. Мы демонстрируем, что наши конструкции могут быть собраны вручную людьми и автоматически роботизированными манипуляторами. Мы также публикуем наш новый набор данных StableText2Lego, содержащий более 47 000 структур LEGO, представляющих более 28 000 уникальных 3D-объектов, сопровождаемых подробными описаниями, а также наш код и модели на сайте проекта: https://avalovelace1.github.io/LegoGPT/.

Сентиентный агент как судья: оценка социального познания высшего порядка в крупных языковых моделях
Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models

May 1

ByBang Zhang, Ruotian Ma, Qingxuan Jiang, Peisong Wang, Jiaqi Chen, Zheng Xie, Xingyu Chen, Yue Wang, Fanghua Ye, Jian Li, Yifan Yang, Zhaopeng Tu, Xiaolong Li

Оценка того, насколько хорошо крупная языковая модель (LLM) понимает человека, а не просто текст, остается открытой проблемой. Чтобы сократить этот разрыв, мы представляем Sentient Agent as a Judge (SAGE) — автоматизированную систему оценки, которая измеряет высшие формы социального познания LLM. SAGE реализует Sentient Agent, который симулирует человеческие эмоциональные изменения и внутренние мысли в процессе взаимодействия, обеспечивая более реалистичную оценку тестируемой модели в многоходовых диалогах. На каждом шаге агент анализирует (i) как изменяются его эмоции, (ii) что он чувствует и (iii) как ему следует ответить, формируя числовую траекторию эмоций и интерпретируемые внутренние мысли. Эксперименты на 100 сценариях поддерживающих диалогов показывают, что итоговый показатель Sentient Emotion Score сильно коррелирует с оценками по шкале Barrett-Lennard Relationship Inventory (BLRI) и метриками эмпатии на уровне высказываний, подтверждая психологическую достоверность. Мы также создали публичный Sentient Leaderboard, охватывающий 18 коммерческих и открытых моделей, который выявляет значительные разрывы (до 4 раз) между передовыми системами (GPT-4o-Latest, Gemini2.5-Pro) и более ранними базовыми моделями, что не отражено в традиционных рейтингах (например, Arena). Таким образом, SAGE предоставляет принципиальный, масштабируемый и интерпретируемый инструмент для отслеживания прогресса в создании по-настоящему эмпатичных и социально адаптированных языковых агентов.

Масштабируемая цепочка рассуждений через эластичное мышление
Scalable Chain of Thoughts via Elastic Reasoning

May 8

ByYuhui Xu, Hanze Dong, Lei Wang, Doyen Sahoo, Junnan Li, Caiming Xiong

Крупные модели рассуждений (LRMs) достигли значительных успехов в решении сложных задач благодаря генерации расширенных цепочек рассуждений (CoT). Однако их неконтролируемая длина вывода создает серьезные проблемы для практического применения, где бюджеты на количество токенов, задержку или вычислительные ресурсы строго ограничены. Мы предлагаем Elastic Reasoning — новый фреймворк для масштабируемых цепочек рассуждений, который явно разделяет процесс рассуждения на две фазы — мышление и решение — с независимо выделенными бюджетами. Во время тестирования Elastic Reasoning отдает приоритет полноте сегментов решения, значительно повышая надежность при жестких ограничениях ресурсов. Для обучения моделей, устойчивых к прерыванию процесса мышления, мы вводим легковесную стратегию rollout с ограниченным бюджетом, интегрированную в GRPO, которая учит модель адаптивно рассуждать, когда процесс мышления прерывается, и эффективно обобщать на неизвестные ограничения бюджета без дополнительного обучения. Эмпирические результаты на математических (AIME, MATH500) и программистских (LiveCodeBench, Codeforces) бенчмарках демонстрируют, что Elastic Reasoning устойчиво работает при строгих ограничениях бюджета, при этом требуя значительно меньших затрат на обучение по сравнению с базовыми методами. Примечательно, что наш подход также генерирует более лаконичные и эффективные рассуждения даже в условиях без ограничений. Elastic Reasoning предлагает принципиальное и практическое решение актуальной задачи управляемого рассуждения в масштабе.

Генерация 3D-сцен: Обзор
3D Scene Generation: A Survey

May 8

ByBeichen Wen, Haozhe Xie, Zhaoxi Chen, Fangzhou Hong, Ziwei Liu

Генерация 3D-сцен направлена на синтез пространственно структурированных, семантически значимых и фотореалистичных сред для таких приложений, как иммерсивные медиа, робототехника, автономное вождение и воплощённый искусственный интеллект. Ранние методы, основанные на процедурных правилах, обеспечивали масштабируемость, но ограничивали разнообразие. Последние достижения в области глубоких генеративных моделей (например, GAN, диффузионные модели) и 3D-представлений (например, NeRF, 3D-гауссовы распределения) позволили изучать распределения реальных сцен, улучшая точность, разнообразие и согласованность видов. Современные подходы, такие как диффузионные модели, объединяют синтез 3D-сцен и фотореализм, переосмысливая генерацию как задачи синтеза изображений или видео. Данный обзор представляет систематический анализ современных подходов, классифицируя их в четыре парадигмы: процедурная генерация, нейронная генерация на основе 3D, генерация на основе изображений и генерация на основе видео. Мы анализируем их технические основы, компромиссы и репрезентативные результаты, а также рассматриваем часто используемые наборы данных, протоколы оценки и приложения. В заключение обсуждаются ключевые проблемы в области генерации, 3D-представлений, данных и аннотаций, а также оценки, и намечаются перспективные направления, включая повышение точности, физически осознанную и интерактивную генерацию, а также унифицированные модели восприятия и генерации. Этот обзор систематизирует последние достижения в генерации 3D-сцен и выделяет перспективные направления на стыке генеративного ИИ, 3D-зрения и воплощённого интеллекта. Для отслеживания текущих разработок мы поддерживаем актуальную страницу проекта: https://github.com/hzxie/Awesome-3D-Scene-Generation.

FG-CLIP: Точное согласование визуальных и текстовых данных на детальном уровне
FG-CLIP: Fine-Grained Visual and Textual Alignment

May 8

ByChunyu Xie, Bin Wang, Fanjing Kong, Jincheng Li, Dawei Liang, Gengshen Zhang, Dawei Leng, Yuhui Yin

Контрастивное предварительное обучение для языка и изображений (CLIP) демонстрирует выдающиеся результаты в мультимодальных задачах, таких как поиск по изображениям и текстам и классификация с нулевым обучением, однако испытывает трудности с детальным пониманием из-за ориентации на грубые короткие описания. Для решения этой проблемы мы предлагаем Fine-Grained CLIP (FG-CLIP), который улучшает детальное понимание за счет трех ключевых инноваций. Во-первых, мы используем крупные мультимодальные модели для генерации 1,6 миллиардов пар длинных описаний и изображений, что позволяет захватывать семантические детали на глобальном уровне. Во-вторых, создается высококачественный набор данных, включающий 12 миллионов изображений и 40 миллионов регион-специфичных ограничивающих рамок, согласованных с детальными описаниями, чтобы обеспечить точные и контекстно-богатые представления. В-третьих, добавляется 10 миллионов сложных негативных примеров для улучшения способности модели различать тонкие семантические различия. Соответствующие методы обучения тщательно разработаны для этих данных. Многочисленные эксперименты показывают, что FG-CLIP превосходит оригинальный CLIP и другие передовые методы в различных задачах, включая детальное понимание, обнаружение объектов с открытым словарем, поиск по изображениям и текстам, а также общие мультимодальные тесты. Эти результаты подчеркивают эффективность FG-CLIP в захвате деталей изображений и улучшении общей производительности модели. Соответствующие данные, код и модели доступны по адресу https://github.com/360CVGroup/FG-CLIP.

X-Reasoner: К универсальным рассуждениям через модальности и области
X-Reasoner: Towards Generalizable Reasoning Across Modalities and Domains

May 6

ByQianchu Liu, Sheng Zhang, Guanghui Qin, Timothy Ossowski, Yu Gu, Ying Jin, Sid Kiblawi, Sam Preston, Mu Wei, Paul Vozila, Tristan Naumann, Hoifung Poon

Недавние проприетарные модели (например, o3) начали демонстрировать мощные способности к мультимодальным рассуждениям. Однако большинство существующих исследований с открытым исходным кодом сосредоточено на обучении моделей, способных рассуждать только на основе текста, с оценками, ограниченными в основном математическими и общедоменными задачами. Поэтому остается неясным, как эффективно расширить способности к рассуждениям за пределы текстового ввода и общих областей. В данной статье исследуется фундаментальный научный вопрос: Являются ли рассуждения обобщаемыми между модальностями и доменами? Наши результаты подтверждают положительный ответ: Пост-обучение на общедоменных текстах может обеспечить такие сильные обобщаемые способности к рассуждениям. Используя это открытие, мы представляем X-Reasoner, модель обработки визуально-языковой информации, пост-обученную исключительно на общедоменных текстах для обобщаемых рассуждений, с использованием двухэтапного подхода: начальной фазы контролируемого тонкого настройки с дистиллированными длинными цепочками рассуждений, за которой следует обучение с подкреплением с проверяемыми вознаграждениями. Эксперименты показывают, что X-Reasoner успешно переносит способности к рассуждениям как в мультимодальные, так и в внедоменные условия, превосходя существующие передовые модели, обученные на внутридоменных и мультимодальных данных, на различных общих и медицинских тестах (Рисунок 1). Кроме того, мы обнаружили, что производительность X-Reasoner в специализированных доменах может быть дополнительно улучшена за счет продолжения обучения на доменно-специфических текстовых данных. На основе этого мы представляем X-Reasoner-Med, медицинскую специализированную версию, которая устанавливает новый стандарт на многочисленных текстовых и мультимодальных медицинских тестах.

PlaceIt3D: Размещение объектов в реальных 3D-сценах с использованием языковых инструкций
PlaceIt3D: Language-Guided Object Placement in Real 3D Scenes

May 8

ByAhmed Abdelreheem, Filippo Aleotti, Jamie Watson, Zawar Qureshi, Abdelrahman Eldesokey, Peter Wonka, Gabriel Brostow, Sara Vicente, Guillermo Garcia-Hernando

Мы представляем новую задачу размещения объектов в реальных 3D-сценах на основе языковых инструкций. Наша модель получает облако точек 3D-сцены, 3D-объект и текстовый запрос, описывающий, где примерно должен быть размещён 3D-объект. Задача заключается в нахождении допустимого места для 3D-объекта, которое соответствует запросу. По сравнению с другими задачами локализации в 3D-сценах на основе языка, такими как привязка, эта задача имеет свои специфические сложности: она неоднозначна, так как имеет множество допустимых решений, и требует анализа 3D-геометрических отношений и свободного пространства. Мы открываем эту задачу, предлагая новый эталонный тест и протокол оценки. Также мы представляем новый набор данных для обучения 3D-языковых моделей на этой задаче, а также первый метод, который служит нетривиальной базовой линией. Мы считаем, что эта сложная задача и наш новый эталонный тест могут стать частью набора тестов, используемых для оценки и сравнения универсальных 3D-языковых моделей.

StreamBridge: Превращение вашей автономной видео-модели большого языка в активного потокового помощника
StreamBridge: Turning Your Offline Video Large Language Model into a Proactive Streaming Assistant

May 8

ByHaibo Wang, Bo Feng, Zhengfeng Lai, Mingze Xu, Shiyu Li, Weifeng Ge, Afshin Dehghan, Meng Cao, Ping Huang

Мы представляем StreamBridge — простую, но эффективную структуру, которая плавно преобразует автономные Video-LLM в модели, способные работать в потоковом режиме. Она решает две фундаментальные проблемы адаптации существующих моделей к онлайн-сценариям: (1) ограниченная способность к многозадачному пониманию в реальном времени и (2) отсутствие механизмов проактивного реагирования. В частности, StreamBridge включает (1) буфер памяти в сочетании со стратегией сжатия с круговым затуханием, поддерживающий длительные многозадачные взаимодействия, и (2) разделённую, лёгкую модель активации, которая может быть легко интегрирована в существующие Video-LLM, обеспечивая непрерывные проактивные ответы. Для дальнейшей поддержки StreamBridge мы создали Stream-IT — масштабный набор данных, адаптированный для потокового понимания видео, включающий чередующиеся видео-текстовые последовательности и разнообразные форматы инструкций. Многочисленные эксперименты показывают, что StreamBridge значительно улучшает способности автономных Video-LLM к потоковому пониманию в различных задачах, превосходя даже проприетарные модели, такие как GPT-4o и Gemini 1.5 Pro. Одновременно с этим он демонстрирует конкурентоспособные или превосходящие результаты на стандартных тестах понимания видео.

Возвращение ценности в RL: улучшение масштабирования на этапе тестирования через объединение LLM-рассуждающих моделей с верификаторами
Putting the Value Back in RL: Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers

May 7

ByKusha Sareen, Morgane M Moss, Alessandro Sordoni, Rishabh Agarwal, Arian Hosseini

Распространенные методы обучения с подкреплением (RL) для тонкой настройки моделей языкового мышления (LLM), такие как GRPO или Leave-one-out PPO, отказываются от изученной функции ценности в пользу эмпирически оцененных возвратов. Это ограничивает масштабирование вычислительных ресурсов на этапе тестирования, которое зависит от использования функции ценности для проверки. В данной работе мы предлагаем RL^V, который расширяет любой «бесценностный» метод RL, совместно обучая LLM как в роли решателя, так и в роли генеративного верификатора с использованием данных, сгенерированных RL, добавляя возможности проверки без значительных накладных расходов. Эмпирически RL^V повышает точность на наборе MATH более чем на 20% при параллельной выборке и обеспечивает 8-32-кратное повышение эффективности вычислительных ресурсов на этапе тестирования по сравнению с базовым методом RL. RL^V также демонстрирует сильные способности к обобщению как для задач от простых к сложным, так и для задач вне домена. Кроме того, RL^V достигает 1.2-1.6-кратного повышения производительности при совместном масштабировании параллельных и последовательных вычислительных ресурсов на этапе тестирования с использованием модели длинного рассуждения R1.

ICon: Вклад в контексте для автоматического выбора данных
ICon: In-Context Contribution for Automatic Data Selection

May 8

ByYixin Yang, Qingxiu Dong, Linli Yao, Fangwei Zhu, Zhifang Sui

Выбор данных для настройки инструкций имеет решающее значение для повышения производительности крупных языковых моделей (LLM) и снижения затрат на обучение. Однако существующие автоматизированные методы выбора либо зависят от вычислительно затратных градиентных метрик, либо от эвристик, разработанных вручную, которые могут не полностью учитывать внутренние свойства данных. В данной статье мы предлагаем In-context Learning for Contribution Measurement (ICon) — новый метод, не требующий вычисления градиентов, который использует неявную природу тонкой настройки в рамках обучения в контексте (ICL) для оценки вклада образцов данных без вычисления градиентов или разработки ручных индикаторов. ICon предоставляет вычислительно эффективную альтернативу градиентным методам и снижает человеческую индуктивную предвзятость, присущую эвристическим подходам. ICon состоит из трех компонентов и идентифицирует данные с высоким вкладом, оценивая изменения производительности при неявном обучении через ICL. Многочисленные эксперименты на трех LLM, охватывающих 12 бенчмарков и 5 парных наборов для оценки, демонстрируют эффективность ICon. Примечательно, что на модели LLaMA3.1-8B, обученной на 15% данных, отобранных с помощью ICon, результаты превосходят полные наборы данных на 5,42 процентных пункта и превышают лучшие показатели широко используемых методов выбора на 2,06 процентных пункта. Мы также анализируем образцы с высоким вкладом, отобранные ICon, которые демонстрируют как разнообразие задач, так и соответствующий уровень сложности, а не только самые сложные из них.

Модели "Зрение-Язык-Действие": концепции, достижения, применения и вызовы
Vision-Language-Action Models: Concepts, Progress, Applications and Challenges

May 7

ByRanjan Sapkota, Yang Cao, Konstantinos I. Roumeliotis, Manoj Karkee

Модели Vision-Language-Action (VLA) представляют собой революционный прорыв в области искусственного интеллекта, направленный на объединение восприятия, понимания естественного языка и воплощённых действий в рамках единой вычислительной системы. Этот фундаментальный обзор предлагает всесторонний синтез последних достижений в области моделей VLA, систематически организованных по пяти тематическим направлениям, которые структурируют ландшафт этой быстро развивающейся области. Мы начинаем с установления концептуальных основ систем VLA, прослеживая их эволюцию от архитектур кросс-модального обучения до универсальных агентов, которые тесно интегрируют модели Vision-Language (VLM), планировщики действий и иерархические контроллеры. Наша методология основывается на строгом подходе к анализу литературы, охватывая более 80 моделей VLA, опубликованных за последние три года. Ключевые области прогресса включают архитектурные инновации, стратегии параметрически эффективного обучения и ускорение вывода в реальном времени. Мы исследуем разнообразные области применения, такие как гуманоидная робототехника, автономные транспортные средства, медицинская и промышленная робототехника, точное земледелие и навигация в дополненной реальности. Обзор также затрагивает основные проблемы, связанные с управлением в реальном времени, представлением мультимодальных действий, масштабируемостью систем, обобщением на неизвестные задачи и рисками этического развёртывания. Опираясь на современные достижения, мы предлагаем целевые решения, включая адаптацию агентного ИИ, кросс-воплощённое обобщение и унифицированное нейро-символическое планирование. В нашей перспективной дискуссии мы намечаем будущую дорожную карту, в которой модели VLA, VLM и агентный ИИ объединяются для создания социально ориентированных, адаптивных и универсальных воплощённых агентов. Эта работа служит фундаментальным справочником для продвижения интеллектуальной робототехники реального мира и искусственного общего интеллекта. >Vision-language-action, Агентный ИИ, ИИ-агенты, Модели Vision-Language

Межъязыковое рассуждение через масштабирование во время тестирования
Crosslingual Reasoning through Test-Time Scaling

May 8

ByZheng-Xin Yong, M. Farid Adilazuarda, Jonibek Mansurov, Ruochen Zhang, Niklas Muennighoff, Carsten Eickhoff, Genta Indra Winata, Julia Kreutzer, Stephen H. Bach, Alham Fikri Aji

Способности к рассуждению крупных языковых моделей в основном изучаются для английского языка, даже когда предобученные модели являются многоязычными. В данной работе мы исследуем, в какой степени тонкая настройка на рассуждения с длинными цепочками мыслей (CoTs) для английского языка может обобщаться на другие языки. Во-первых, мы обнаруживаем, что увеличение вычислительных ресурсов для вывода в моделях, ориентированных на рассуждения на английском языке (RLMs), улучшает математические рассуждения на многих языках, включая языки с ограниченными ресурсами, до такой степени, что они превосходят модели вдвое большего размера. Во-вторых, мы показываем, что, хотя цепочки мыслей в моделях, ориентированных на английский язык, преимущественно на английском, они последовательно следуют шаблону "цитирование и размышление" для рассуждений о цитируемых вводах на других языках. В-третьих, мы открываем эффективную стратегию для управления языком длинных цепочек рассуждений и наблюдаем, что модели рассуждают лучше и эффективнее на языках с большими ресурсами. Наконец, мы отмечаем слабое обобщение рассуждений за пределами домена, особенно от STEM к культурным общеизвестным знаниям, даже для английского языка. В целом, мы демонстрируем потенциал, изучаем механизмы и обозначаем ограничения кросс-лингвистического обобщения масштабирования рассуждений на этапе тестирования для английского языка. Мы заключаем, что практикам следует позволять моделям, ориентированным на английский язык, рассуждать на языках с большими ресурсами, в то время как необходимы дальнейшие исследования для улучшения рассуждений на языках с ограниченными ресурсами и в контекстах за пределами домена.

LiftFeat: Сопоставление локальных признаков с учетом 3D-геометрии
LiftFeat: 3D Geometry-Aware Local Feature Matching

May 6

ByYepeng Liu, Wenpeng Lai, Zhou Zhao, Yuxuan Xiong, Jinchi Zhu, Jun Cheng, Yongchao Xu

Надежное и эффективное сопоставление локальных признаков играет ключевую роль в таких приложениях, как SLAM и визуальная локализация для робототехники. Несмотря на значительный прогресс, извлечение устойчивых и различимых визуальных признаков в условиях резких изменений освещения, областей с низкой текстурой или повторяющихся паттернов остается крайне сложной задачей. В данной статье мы предлагаем новую легковесную сеть под названием LiftFeat, которая повышает устойчивость исходных дескрипторов за счет агрегирования 3D геометрических признаков. В частности, мы сначала используем предварительно обученную модель монохромной оценки глубины для генерации псевдонормалей поверхности, которые контролируют извлечение 3D геометрических признаков на основе предсказанных нормалей поверхности. Затем мы разрабатываем модуль повышения признаков с учетом 3D геометрии, который объединяет признаки нормалей поверхности с исходными 2D дескрипторами. Интеграция таких 3D геометрических признаков усиливает различительную способность 2D описания признаков в экстремальных условиях. Обширные экспериментальные результаты в задачах оценки относительного положения, оценки гомографии и визуальной локализации демонстрируют, что наш LiftFeat превосходит некоторые легковесные современные методы. Код будет доступен по адресу: https://github.com/lyp-deeplearning/LiftFeat.

WaterDrum: Водяной знак для метрики удаления данных в центрированных на данных системах
WaterDrum: Watermarking for Data-centric Unlearning Metric

May 8

ByXinyang Lu, Xinyuan Niu, Gregory Kang Ruey Lau, Bui Thi Cam Nhung, Rachael Hwee Ling Sim, Fanyu Wen, Chuan-Sheng Foo, See-Kiong Ng, Bryan Kian Hsiang Low

Удаление данных в больших языковых моделях (LLM) имеет критическое значение для реальных приложений, где необходимо эффективно устранить влияние частных, защищённых авторским правом или вредоносных данных для некоторых пользователей. Однако существующие метрики удаления, ориентированные на полезность модели, могут неадекватно оценивать степень удаления в реалистичных сценариях, таких как случаи, когда (а) наборы данных для удаления и сохранения содержат семантически схожий контент, (б) переобучение модели с нуля на наборе данных для сохранения непрактично, и/или (в) владелец модели может улучшить метрику удаления без непосредственного выполнения удаления в LLM. В данной статье представлена первая метрика удаления, ориентированная на данные, под названием WaterDrum, которая использует устойчивое текстовое водяное знаки для преодоления этих ограничений. Мы также представляем новые эталонные наборы данных для удаления в LLM, содержащие различные уровни схожих точек данных, которые могут быть использованы для строгой оценки алгоритмов удаления с помощью WaterDrum. Наш код доступен по адресу https://github.com/lululu008/WaterDrum, а новые эталонные наборы данных опубликованы на https://huggingface.co/datasets/Glow-AI/WaterDrum-Ax.

Токены цепочки рассуждений являются переменными компьютерной программы.
Chain-of-Thought Tokens are Computer Program Variables

May 8

ByFangwei Zhu, Peiyi Wang, Zhifang Sui

Метод "цепочки рассуждений" (Chain-of-Thoughts, CoT) требует, чтобы крупные языковые модели (LLM) генерировали промежуточные шаги перед достижением окончательного ответа, и доказал свою эффективность в решении сложных задач, требующих логического мышления. Однако внутренний механизм CoT до сих пор остается в значительной степени неясным. В данной работе мы эмпирически исследуем роль токенов CoT в LLM на двух композиционных задачах: умножении многозначных чисел и динамическом программировании. Хотя CoT необходим для решения этих задач, мы обнаружили, что сохранение только тех токенов, которые хранят промежуточные результаты, позволяет достичь сопоставимой производительности. Более того, мы наблюдаем, что хранение промежуточных результатов в альтернативной латентной форме не влияет на производительность модели. Мы также случайным образом вмешиваемся в некоторые значения в CoT и замечаем, что последующие токены CoT и окончательный ответ изменяются соответствующим образом. Эти результаты позволяют предположить, что токены CoT могут функционировать подобно переменным в компьютерных программах, но с потенциальными недостатками, такими как непреднамеренные упрощения и ограничения вычислительной сложности между токенами. Код и данные доступны по адресу https://github.com/solitaryzero/CoTs_are_Variables.

SIMPLEMIX: Удивительно простой способ смешивания данных off-policy и on-policy в обучении языковых моделей на основе предпочтений
SIMPLEMIX: Frustratingly Simple Mixing of Off- and On-policy Data in Language Model Preference Learning

May 5

ByTianjian Li, Daniel Khashabi

Согласование языковых моделей с человеческими предпочтениями основывается на наборах данных с парными предпочтениями. Хотя некоторые исследования показывают, что данные, собранные в режиме on-policy, стабильно превосходят данные off-policy в обучении предпочтениям, другие указывают, что преимущества данных on-policy могут зависеть от задачи, что подчеркивает необходимость систематического изучения их взаимодействия. В данной работе мы демонстрируем, что данные on-policy и off-policy предлагают взаимодополняющие преимущества в оптимизации предпочтений: данные on-policy особенно эффективны для задач, связанных с логическим мышлением, таких как математика и программирование, в то время как данные off-policy лучше справляются с открытыми задачами, такими как творческое письмо и персонализированные рекомендации. Руководствуясь этими выводами, мы представляем SIMPLEMIX — подход, который объединяет взаимодополняющие преимущества обучения предпочтениям на данных on-policy и off-policy путем простого смешивания этих двух источников данных. Наши эмпирические результаты на различных задачах и бенчмарках показывают, что SIMPLEMIX значительно улучшает согласование языковых моделей. В частности, SIMPLEMIX превосходит on-policy DPO и off-policy DPO в среднем на 6,03% на Alpaca Eval 2.0. Более того, он опережает предыдущие подходы, которые были значительно сложнее в комбинировании данных on-policy и off-policy, такие как HyPO и DPO-Mix-P, в среднем на 3,05%.

BrowseComp-ZH: Оценка способности крупных языковых моделей к веб-серфингу на китайском языке
BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language Models in Chinese

Apr 27

ByPeilin Zhou, Bruce Leon, Xiang Ying, Can Zhang, Yifan Shao, Qichen Ye, Dading Chong, Zhiling Jin, Chenxuan Xie, Meng Cao, Yuxin Gu, Sixin Hong, Jing Ren, Jian Chen, Chao Liu, Yining Hua

По мере того как крупные языковые модели (LLM) превращаются в агентов, использующих инструменты, способность просматривать веб в реальном времени стала ключевым критерием для оценки их компетенции в рассуждениях и поиске информации. Существующие бенчмарки, такие как BrowseComp, сосредоточены на английском языке и игнорируют лингвистические, инфраструктурные и цензурные сложности других крупных информационных экосистем, в первую очередь китайской. Чтобы устранить этот пробел, мы представляем BrowseComp-ZH — высокосложный бенчмарк, специально разработанный для всесторонней оценки LLM-агентов в китайском интернете. BrowseComp-ZH состоит из 289 многошаговых вопросов, охватывающих 11 разнообразных областей. Каждый вопрос создан на основе короткого, объективного и легко проверяемого ответа (например, даты, числа или имени собственного). Для обеспечения высокой сложности вопросов и уникальности ответов применяется двухэтапный протокол контроля качества. Мы тестируем более 20 современных языковых моделей и поисковых систем на предложенном нами BrowseComp-ZH. Несмотря на их сильные разговорные и поисковые способности, большинство моделей демонстрируют серьезные трудности: многие достигают точности ниже 10%, и лишь немногие превышают 20%. Даже лучшая система, DeepResearch от OpenAI, достигает всего 42,9%. Эти результаты демонстрируют значительную сложность BrowseComp-ZH, где успех требует не только эффективных стратегий поиска, но и сложных рассуждений и согласования информации — способностей, которыми современные модели пока не владеют в полной мере. Наш набор данных, руководство по созданию и результаты бенчмарка опубликованы на https://github.com/PALIN2018/BrowseComp-ZH.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Восприятие, Рассуждение, Мышление и Планирование: Обзор крупномасштабных мультимодальных моделей рассуждений
Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models

May 8

185

Flow-GRPO: Обучение моделей Flow Matching с использованием онлайн-обучения с подкреплением
Flow-GRPO: Training Flow Matching Models via Online RL

May 8

ByJie Liu, Gongye Liu, Jiajun Liang, Yangguang Li, Jiaheng Liu, Xintao Wang, Pengfei Wan, Di Zhang, Wanli Ouyang

На пути к мультимодальному универсалу: Общий уровень и общий бенчмарк
On Path to Multimodal Generalist: General-Level and General-Bench

May 7

Создание физически устойчивых и реализуемых конструкций LEGO из текста
Generating Physically Stable and Buildable LEGO Designs from Text

May 8

ByAva Pun, Kangle Deng, Ruixuan Liu, Deva Ramanan, Changliu Liu, Jun-Yan Zhu

Сентиентный агент как судья: оценка социального познания высшего порядка в крупных языковых моделях
Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models

May 1

ByBang Zhang, Ruotian Ma, Qingxuan Jiang, Peisong Wang, Jiaqi Chen, Zheng Xie, Xingyu Chen, Yue Wang, Fanghua Ye, Jian Li, Yifan Yang, Zhaopeng Tu, Xiaolong Li

Масштабируемая цепочка рассуждений через эластичное мышление
Scalable Chain of Thoughts via Elastic Reasoning

May 8

ByYuhui Xu, Hanze Dong, Lei Wang, Doyen Sahoo, Junnan Li, Caiming Xiong

Генерация 3D-сцен: Обзор
3D Scene Generation: A Survey

May 8

ByBeichen Wen, Haozhe Xie, Zhaoxi Chen, Fangzhou Hong, Ziwei Liu

FG-CLIP: Точное согласование визуальных и текстовых данных на детальном уровне
FG-CLIP: Fine-Grained Visual and Textual Alignment

May 8

ByChunyu Xie, Bin Wang, Fanjing Kong, Jincheng Li, Dawei Liang, Gengshen Zhang, Dawei Leng, Yuhui Yin

X-Reasoner: К универсальным рассуждениям через модальности и области
X-Reasoner: Towards Generalizable Reasoning Across Modalities and Domains

May 6

ByQianchu Liu, Sheng Zhang, Guanghui Qin, Timothy Ossowski, Yu Gu, Ying Jin, Sid Kiblawi, Sam Preston, Mu Wei, Paul Vozila, Tristan Naumann, Hoifung Poon

PlaceIt3D: Размещение объектов в реальных 3D-сценах с использованием языковых инструкций
PlaceIt3D: Language-Guided Object Placement in Real 3D Scenes

May 8

ByAhmed Abdelreheem, Filippo Aleotti, Jamie Watson, Zawar Qureshi, Abdelrahman Eldesokey, Peter Wonka, Gabriel Brostow, Sara Vicente, Guillermo Garcia-Hernando

StreamBridge: Превращение вашей автономной видео-модели большого языка в активного потокового помощника
StreamBridge: Turning Your Offline Video Large Language Model into a Proactive Streaming Assistant

May 8

ByHaibo Wang, Bo Feng, Zhengfeng Lai, Mingze Xu, Shiyu Li, Weifeng Ge, Afshin Dehghan, Meng Cao, Ping Huang

Возвращение ценности в RL: улучшение масштабирования на этапе тестирования через объединение LLM-рассуждающих моделей с верификаторами
Putting the Value Back in RL: Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers

May 7

ByKusha Sareen, Morgane M Moss, Alessandro Sordoni, Rishabh Agarwal, Arian Hosseini

ICon: Вклад в контексте для автоматического выбора данных
ICon: In-Context Contribution for Automatic Data Selection

May 8

ByYixin Yang, Qingxiu Dong, Linli Yao, Fangwei Zhu, Zhifang Sui

Модели "Зрение-Язык-Действие": концепции, достижения, применения и вызовы
Vision-Language-Action Models: Concepts, Progress, Applications and Challenges

May 7

ByRanjan Sapkota, Yang Cao, Konstantinos I. Roumeliotis, Manoj Karkee

Межъязыковое рассуждение через масштабирование во время тестирования
Crosslingual Reasoning through Test-Time Scaling

May 8

ByZheng-Xin Yong, M. Farid Adilazuarda, Jonibek Mansurov, Ruochen Zhang, Niklas Muennighoff, Carsten Eickhoff, Genta Indra Winata, Julia Kreutzer, Stephen H. Bach, Alham Fikri Aji

LiftFeat: Сопоставление локальных признаков с учетом 3D-геометрии
LiftFeat: 3D Geometry-Aware Local Feature Matching

May 6

ByYepeng Liu, Wenpeng Lai, Zhou Zhao, Yuxuan Xiong, Jinchi Zhu, Jun Cheng, Yongchao Xu

WaterDrum: Водяной знак для метрики удаления данных в центрированных на данных системах
WaterDrum: Watermarking for Data-centric Unlearning Metric

May 8

ByXinyang Lu, Xinyuan Niu, Gregory Kang Ruey Lau, Bui Thi Cam Nhung, Rachael Hwee Ling Sim, Fanyu Wen, Chuan-Sheng Foo, See-Kiong Ng, Bryan Kian Hsiang Low

Токены цепочки рассуждений являются переменными компьютерной программы.
Chain-of-Thought Tokens are Computer Program Variables

May 8

ByFangwei Zhu, Peiyi Wang, Zhifang Sui

SIMPLEMIX: Удивительно простой способ смешивания данных off-policy и on-policy в обучении языковых моделей на основе предпочтений
SIMPLEMIX: Frustratingly Simple Mixing of Off- and On-policy Data in Language Model Preference Learning

May 5

ByTianjian Li, Daniel Khashabi

BrowseComp-ZH: Оценка способности крупных языковых моделей к веб-серфингу на китайском языке
BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language Models in Chinese

Apr 27

ByPeilin Zhou, Bruce Leon, Xiang Ying, Can Zhang, Yifan Shao, Qichen Ye, Dading Chong, Zhiling Jin, Chenxuan Xie, Meng Cao, Yuxin Gu, Sixin Hong, Jing Ren, Jian Chen, Chao Liu, Yining Hua