Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Any2Caption: Интерпретация любых условий в подписи для управляемой генерации видео
Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation

Mar 31, 2025

Shengqiong Wu, Weicai Ye, Jiahao Wang, Quande Liu, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Shuicheng Yan, Hao Fei, Tat-Seng Chua

774

Для решения проблемы точного интерпретирования пользовательских намерений в современном сообществе генерации видео мы представляем Any2Caption — новую структуру для управляемой генерации видео при любых условиях. Основная идея заключается в разделении различных этапов интерпретации условий от этапа синтеза видео. Используя современные мультимодальные большие языковые модели (MLLMs), Any2Caption интерпретирует разнообразные входные данные — текст, изображения, видео и специализированные сигналы, такие как регион, движение и позиции камеры — в плотные, структурированные описания, которые предоставляют основным генераторам видео более точные указания. Мы также представляем Any2CapIns — крупномасштабный набор данных, содержащий 337 тысяч экземпляров и 407 тысяч условий для настройки инструкций по преобразованию любых условий в описания. Комплексные оценки демонстрируют значительные улучшения нашей системы в управляемости и качестве видео по различным аспектам существующих моделей генерации видео. Страница проекта: https://sqwu.top/Any2Cap/

JudgeLRM: Модели масштабного рассуждения в роли судьи
JudgeLRM: Large Reasoning Models as a Judge

Mar 31, 2025

Nuo Chen, Zhiyuan Hu, Qingyun Zou, Jiaying Wu, Qian Wang, Bryan Hooi, Bingsheng He

616

Возникновение крупных языковых моделей (LLM) в качестве инструментов оценки предлагает масштабируемую альтернативу аннотированию людьми, однако существующие подходы к обучению с учителем (Supervised Fine-Tuning, SFT) для моделей-судей часто оказываются недостаточными в областях, требующих сложного рассуждения. В данной работе мы исследуем, действительно ли судьи на основе LLM выигрывают от улучшенных способностей к рассуждению. Благодаря детальному анализу требований к рассуждению в задачах оценки мы выявляем отрицательную корреляцию между улучшением производительности SFT и долей выборок, требующих сложного рассуждения, что подчеркивает ограничения SFT в таких сценариях. Для решения этой проблемы мы представляем JudgeLRM — семейство LLM, ориентированных на выполнение судейских функций и обученных с использованием обучения с подкреплением (Reinforcement Learning, RL) с вознаграждениями, основанными на результатах судейства. Модели JudgeLRM стабильно превосходят как модели, настроенные с помощью SFT, так и современные модели рассуждения. В частности, JudgeLRM-3B превосходит GPT-4, а JudgeLRM-7B опережает DeepSeek-R1 на 2,79% по показателю F1, особенно выделяясь в задачах судейства, требующих глубокого рассуждения.

Многотокеновое внимание
Multi-Token Attention

Apr 1, 2025

Olga Golovneva, Tianlu Wang, Jason Weston, Sainbayar Sukhbaatar

522

Мягкое внимание (soft attention) является ключевым механизмом, позволяющим большим языковым моделям (LLMs) находить релевантные части в заданном контексте. Однако отдельные веса внимания определяются сходством только одного вектора запроса и ключевого токена. Такое "внимание на один токен" ограничивает объем информации, используемой для выделения релевантной части из остального контекста. Чтобы решить эту проблему, мы предлагаем новый метод внимания — Мультитокенное внимание (Multi-Token Attention, MTA), который позволяет LLMs учитывать веса внимания на основе нескольких векторов запросов и ключей одновременно. Это достигается за счет применения операций свертки к запросам, ключам и головам внимания, что позволяет соседним запросам и ключам влиять на веса внимания друг друга для более точного фокусирования. В результате наш метод может находить релевантный контекст, используя более богатую и детализированную информацию, которая выходит за пределы возможностей одного вектора. В ходе обширных экспериментов мы демонстрируем, что MTA достигает улучшенной производительности на ряде популярных бенчмарков. В частности, он превосходит базовые модели Transformer на стандартных задачах языкового моделирования, а также на задачах, требующих поиска информации в длинных контекстах, где способность нашего метода использовать более богатую информацию оказывается особенно полезной.

Исследование влияния обучения с подкреплением на понимание видео: Анализ данных из SEED-Bench-R1
Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1

Mar 31, 2025

Yi Chen, Yuying Ge, Rui Wang, Yixiao Ge, Lu Qiu, Ying Shan, Xihui Liu

383

Последние достижения в области генерации цепочек рассуждений (Chain of Thought, COT) значительно улучшили способности к логическому мышлению крупных языковых моделей (Large Language Models, LLMs), при этом обучение с подкреплением (Reinforcement Learning, RL) стало эффективным методом пост-обучения. Мультимодальные крупные языковые модели (Multimodal Large Language Models, MLLMs) наследуют этот потенциал рассуждений, но остаются недостаточно изученными в задачах, требующих как восприятия, так и логического мышления. Для решения этой проблемы мы представляем SEED-Bench-R1 — эталонный набор, разработанный для систематической оценки методов пост-обучения MLLMs в контексте понимания видео. Он включает сложные реальные видеоролики и задачи повседневного планирования, представленные в формате вопросов с множественным выбором, требующих развитого восприятия и рассуждений. SEED-Bench-R1 оценивает обобщающую способность через трехуровневую иерархию: внутри распределения, кросс-средовые и кросс-средовые-задачные сценарии, дополненные крупномасштабным набором данных для обучения с легко проверяемыми правильными ответами. Используя Qwen2-VL-Instruct-7B в качестве базовой модели, мы сравниваем RL с контролируемым тонким настраиванием (Supervised Fine-Tuning, SFT), демонстрируя эффективность RL по данным и его превосходство как на задачах внутри распределения, так и на задачах вне распределения, даже превосходя SFT на эталонных тестах общего понимания видео, таких как LongVideoBench. Наш детальный анализ показывает, что RL улучшает визуальное восприятие, но часто генерирует менее логически согласованные цепочки рассуждений. Мы выявляем ключевые ограничения, такие как непоследовательные рассуждения и упущенные визуальные подсказки, и предлагаем будущие улучшения в области базовой модели рассуждений, моделирования вознаграждений и устойчивости RL к шумовым сигналам.

Open-Qwen2VL: Эффективное с точки зрения вычислений предварительное обучение полностью открытых мультимодальных языковых моделей на академических ресурсах
Open-Qwen2VL: Compute-Efficient Pre-Training of Fully-Open Multimodal LLMs on Academic Resources

Apr 1, 2025

Weizhi Wang, Yu Tian, Linjie Yang, Heng Wang, Xifeng Yan

367

Воспроизведение современных методов предварительного обучения мультимодальных больших языковых моделей (MLLM) сталкивается с трудностями на каждом этапе конвейера, включая фильтрацию высококачественных данных, стратегии смешивания мультимодальных данных, методы упаковки последовательностей и фреймворки обучения. Мы представляем Open-Qwen2VL — полностью открытую мультимодальную языковую модель с 2 миллиардами параметров, эффективно предобученную на 29 миллионах пар изображение-текст с использованием всего 442 часов работы GPU A100-40G. Наш подход использует динамическое изменение разрешения изображений от низкого к высокому и упаковку мультимодальных последовательностей для значительного повышения эффективности предварительного обучения. Обучающий набор данных был тщательно отобран с использованием как методов фильтрации на основе MLLM (например, MLM-Filter), так и традиционных методов фильтрации на основе CLIP, что существенно улучшило качество данных и эффективность обучения. Предварительное обучение Open-Qwen2VL проводилось на академическом уровне с использованием 8 GPU A100-40G в UCSB на 5 миллиардах упакованных мультимодальных токенов, что составляет 0,36% от 1,4 триллиона мультимодальных токенов, использованных для предобучения Qwen2-VL. Финальная версия Open-Qwen2VL, настроенная на инструкции, превосходит частично открытую современную MLLM Qwen2-VL-2B на различных мультимодальных бенчмарках, таких как MMBench, SEEDBench, MMstar и MathVista, что свидетельствует о выдающейся эффективности обучения Open-Qwen2VL. Мы открываем все аспекты нашей работы, включая детали эффективного по вычислительным ресурсам и данным обучения, методы фильтрации данных, скрипты упаковки последовательностей, данные предобучения в формате WebDataset, код обучения на основе FSDP, а также базовые и настроенные на инструкции чекпоинты модели. Мы переопределяем понятие "полностью открытой" мультимодальной языковой модели как полное раскрытие: 1) кодовой базы обучения, 2) детальных методов фильтрации данных и 3) всех данных предобучения и контролируемой тонкой настройки, использованных для разработки модели.

CodeARC: Оценка способностей к рассуждению агентов на основе больших языковых моделей для индуктивного синтеза программ
CodeARC: Benchmarking Reasoning Capabilities of LLM Agents for Inductive Program Synthesis

Mar 29, 2025

Anjiang Wei, Tarun Suresh, Jiannan Cao, Naveen Kannan, Yuheng Wu, Kai Yan, Thiago S. F. X. Teixeira, Ke Wang, Alex Aiken

342

Индуктивный синтез программ, или программирование по примерам, требует создания функций на основе пар "вход-выход", которые обобщаются на ранее не встречавшиеся входные данные. Хотя крупные языковые модели показали перспективность в решении задач программирования, управляемых естественным языком, их способность выполнять индуктивный синтез программ изучена недостаточно. Существующие протоколы оценки опираются на статические наборы примеров и тестовые данные, не предоставляя обратной связи в случае некорректно синтезированных функций и не отражая реальные сценарии, такие как обратная разработка. Мы предлагаем CodeARC (Code Abstraction and Reasoning Challenge) — новую оценочную среду, в которой агенты взаимодействуют с скрытой целевой функцией, запрашивая её с новыми входными данными, синтезируя кандидатные функции и итеративно уточняя свои решения с использованием оракула дифференциального тестирования. Этот интерактивный подход побуждает агентов выполнять вызовы функций и самокоррекцию на основе обратной связи. Мы создали первый крупномасштабный бенчмарк для индуктивного синтеза программ общего назначения, включающий 1114 функций. Среди 18 оцененных моделей o3-mini показала наилучший результат с успешностью 52,7%, подчеркивая сложность этой задачи. Тонкая настройка модели LLaMA-3.1-8B-Instruct на тщательно отобранных траекториях синтеза позволяет достичь относительного улучшения производительности до 31%. CodeARC предоставляет более реалистичную и сложную платформу для оценки синтеза программ и индуктивного рассуждения на основе языковых моделей.

Масштабирование обучения визуальным представлениям без использования языка
Scaling Language-Free Visual Representation Learning

Apr 1, 2025

David Fan, Shengbang Tong, Jiachen Zhu, Koustuv Sinha, Zhuang Liu, Xinlei Chen, Michael Rabbat, Nicolas Ballas, Yann LeCun, Amir Bar, Saining Xie

304

Визуальное самообучение (SSL) в настоящее время уступает контрастивному предобучению на основе языка и изображений (CLIP) в мультимодальных задачах, таких как визуальное ответы на вопросы (VQA). Этот мультимодальный разрыв часто объясняется семантикой, вносимой языковым контролем, хотя визуальные SSL и CLIP модели часто обучаются на разных данных. В данной работе мы задаемся вопросом: "Отстают ли визуальные методы самообучения от CLIP из-за отсутствия языкового контроля или различий в обучающих данных?" Мы исследуем этот вопрос, обучая как визуальные SSL, так и CLIP модели на одних и тех же данных MetaCLIP, и используя VQA как разнообразный тестовый стенд для визуальных кодировщиков. В этой контролируемой настройке визуальные SSL модели масштабируются лучше, чем CLIP модели, с точки зрения объема данных и емкости модели, и производительность визуального SSL не насыщается даже после масштабирования до 7 миллиардов параметров. В результате мы наблюдаем, что визуальные SSL методы достигают уровня производительности CLIP на широком спектре задач VQA и классических визуальных тестов. Эти результаты демонстрируют, что чисто визуальное SSL может соответствовать языково-контролируемому визуальному предобучению на больших масштабах, открывая новые возможности для обучения представлений, ориентированных на визуальные данные.

GeometryCrafter: Согласованное восстановление геометрии для видео открытого мира с использованием диффузионных априорных моделей
GeometryCrafter: Consistent Geometry Estimation for Open-world Videos with Diffusion Priors

Apr 1, 2025

Tian-Xing Xu, Xiangjun Gao, Wenbo Hu, Xiaoyu Li, Song-Hai Zhang, Ying Shan

292

Несмотря на значительные достижения в области оценки глубины видео, существующие методы демонстрируют присущие им ограничения в достижении геометрической точности через аффинно-инвариантные предсказания, что ограничивает их применимость в задачах реконструкции и других метрически обоснованных приложениях. Мы предлагаем GeometryCrafter — новый фреймворк, который восстанавливает последовательности карт точек с высокой точностью и временной согласованностью из видео реального мира, что позволяет выполнять точную 3D/4D реконструкцию, оценку параметров камеры и другие приложения, основанные на глубине. В основе нашего подхода лежит вариационный автоэнкодер (VAE) для карт точек, который изучает латентное пространство, независимое от распределений латентных переменных видео, для эффективного кодирования и декодирования карт точек. Используя VAE, мы обучаем диффузионную модель видео для моделирования распределения последовательностей карт точек, обусловленных входными видео. Обширные оценки на различных наборах данных демонстрируют, что GeometryCrafter достигает передовой точности в 3D, временной согласованности и способности к обобщению.

Ландшафт мыслей: Визуализация процесса рассуждения крупных языковых моделей
Landscape of Thoughts: Visualizing the Reasoning Process of Large Language Models

Mar 28, 2025

Zhanke Zhou, Zhaocheng Zhu, Xuan Li, Mikhail Galkin, Xiao Feng, Sanmi Koyejo, Jian Tang, Bo Han

282

Многочисленные применения больших языковых моделей (LLM) основываются на их способности выполнять пошаговые рассуждения. Однако поведение LLM в процессе рассуждений остается плохо изученным, что создает трудности для исследований, разработки и обеспечения безопасности. Чтобы устранить этот пробел, мы представляем "ландшафт мыслей" — первый инструмент визуализации, позволяющий пользователям исследовать пути рассуждений в цепочке мыслей (chain-of-thought) и её производных на любом наборе данных с множественным выбором. В частности, мы представляем состояния в пути рассуждений в виде векторов признаков, которые количественно определяют их расстояния до всех вариантов ответа. Эти признаки затем визуализируются на двумерных графиках с использованием t-SNE. Качественный и количественный анализ с помощью "ландшафта мыслей" эффективно различает сильные и слабые модели, правильные и неправильные ответы, а также различные задачи рассуждений. Он также выявляет нежелательные паттерны рассуждений, такие как низкая согласованность и высокая неопределенность. Кроме того, пользователи могут адаптировать наш инструмент к модели, которая предсказывает наблюдаемое свойство. Мы демонстрируем это преимущество, адаптируя наш инструмент к легковесному верификатору, который оценивает правильность путей рассуждений. Код доступен по адресу: https://github.com/tmlr-group/landscape-of-thoughts.

Z1: Эффективное масштабирование во время тестирования с использованием кода
Z1: Efficient Test-time Scaling with Code

Apr 1, 2025

Zhaojian Yu, Yinghao Wu, Yilun Zhao, Arman Cohan, Xiao-Ping Zhang

263

Крупные языковые модели (LLM) могут достигать улучшенного решения сложных задач за счет масштабирования вычислений во время тестирования, однако это часто связано с увеличением длины контекста и значительными затратами на токены рассуждений. В данной статье мы предлагаем эффективный метод масштабирования во время тестирования, который обучает LLM на траекториях рассуждений, связанных с кодом, что позволяет сократить избыточные токены мышления при сохранении производительности. Во-первых, мы создаем Z1-Code-Reasoning-107K — тщательно отобранный набор данных, содержащий простые и сложные задачи по программированию, сопряженные с их короткими и длинными траекториями решений. Во-вторых, мы представляем новый метод "Сдвинутое окно мышления" для снижения издержек чрезмерного мышления путем удаления ограничивающих контекст тегов (например, <think>. . . </think>) и ограничения количества токенов рассуждений. Обучаясь на данных с длинными и короткими траекториями и оснащенная методом "Сдвинутое окно мышления", наша модель Z1-7B демонстрирует способность адаптировать уровень рассуждений в зависимости от сложности задач и эффективно масштабироваться во время тестирования на различных задачах рассуждений, достигая производительности модели R1-Distill-Qwen-7B при использовании примерно 30% от среднего количества токенов мышления. Примечательно, что Z1-7B, дообученная только на траекториях кода, демонстрирует обобщение на более широкий спектр задач рассуждений (47,5% на GPQA Diamond). Наш анализ эффективного вызова рассуждений также предоставляет ценные инсайты для будущих исследований.

Команда A: Крупная языковая модель, готовая к использованию в корпоративной среде
Command A: An Enterprise-Ready Large Language Model

Apr 1, 2025

Team Cohere, Aakanksha, Arash Ahmadian, Marwan Ahmed, Jay Alammar, Yazeed Alnumay, Sophia Althammer, Arkady Arkhangorodsky, Viraat Aryabumi, Dennis Aumiller, Raphaël Avalos, Zahara Aviv, Sammie Bae, Saurabh Baji, Alexandre Barbet, Max Bartolo, Björn Bebensee, Neeral Beladia, Walter Beller-Morales, Alexandre Bérard, Andrew Berneshawi, Anna Bialas, Phil Blunsom, Matt Bobkin, Adi Bongale, Sam Braun, Maxime Brunet, Samuel Cahyawijaya, David Cairuz, Jon Ander Campos, Cassie Cao, Kris Cao, Roman Castagné, Julián Cendrero, Leila Chan Currie, Yash Chandak, Diane Chang, Giannis Chatziveroglou, Hongyu Chen, Claire Cheng, Alexis Chevalier, Justin T. Chiu, Eugene Cho, Eugene Choi, Eujeong Choi, Tim Chung, Volkan Cirik, Ana Cismaru, Pierre Clavier, Henry Conklin, Lucas Crawhall-Stein, Devon Crouse, Andres Felipe Cruz-Salinas, Ben Cyrus, Daniel D'souza, Hugo Dalla-Torre, John Dang, William Darling, Omar Darwiche Domingues, Saurabh Dash, Antoine Debugne, Théo Dehaze, Shaan Desai, Joan Devassy, Rishit Dholakia, Kyle Duffy, Ali Edalati, Ace Eldeib, Abdullah Elkady, Sarah Elsharkawy, Irem Ergün, Beyza Ermis, Marzieh Fadaee, Boyu Fan, Lucas Fayoux, Yannis Flet-Berliac, Nick Frosst, Matthias Gallé, Wojciech Galuba, Utsav Garg, Matthieu Geist, Mohammad Gheshlaghi Azar, Seraphina Goldfarb-Tarrant, Tomas Goldsack, Aidan Gomez, Victor Machado Gonzaga, Nithya Govindarajan, Manoj Govindassamy, Nathan Grinsztajn, Nikolas Gritsch, Patrick Gu, Shangmin Guo, Kilian Haefeli, Rod Hajjar, Tim Hawes, Jingyi He, Sebastian Hofstätter, Sungjin Hong, Sara Hooker, Tom Hosking, Stephanie Howe, Eric Hu, Renjie Huang, Hemant Jain, Ritika Jain, Nick Jakobi, Madeline Jenkins, JJ Jordan, Dhruti Joshi, Jason Jung, Trushant Kalyanpur, Siddhartha Rao Kamalakara, Julia Kedrzycki, Gokce Keskin, Edward Kim, Joon Kim, Wei-Yin Ko, Tom Kocmi, Michael Kozakov, Wojciech Kryściński, Arnav Kumar Jain, Komal Kumar Teru, Sander Land, Michael Lasby, Olivia Lasche, Justin Lee, Patrick Lewis, Jeffrey Li, Jonathan Li, Hangyu Lin, Acyr Locatelli, Kevin Luong, Raymond Ma, Lukas Mach, Marina Machado, Joanne Magbitang, Brenda Malacara Lopez, Aryan Mann, Kelly Marchisio, Olivia Markham, Alexandre Matton, Alex McKinney, Dominic McLoughlin, Jozef Mokry, Adrien Morisot, Autumn Moulder, Harry Moynehan, Maximilian Mozes, Vivek Muppalla, Lidiya Murakhovska, Hemangani Nagarajan, Alekhya Nandula, Hisham Nasir, Shauna Nehra, Josh Netto-Rosen, Daniel Ohashi, James Owers-Bardsley, Jason Ozuzu, Dennis Padilla, Gloria Park, Sam Passaglia, Jeremy Pekmez, Laura Penstone, Aleksandra Piktus, Case Ploeg, Andrew Poulton, Youran Qi, Shubha Raghvendra, Miguel Ramos, Ekagra Ranjan, Pierre Richemond, Cécile Robert-Michon, Aurélien Rodriguez, Sudip Roy, Laura Ruis, Louise Rust, Anubhav Sachan, Alejandro Salamanca, Kailash Karthik Saravanakumar, Isha Satyakam, Alice Schoenauer Sebag, Priyanka Sen, Sholeh Sepehri, Preethi Seshadri, Ye Shen, Tom Sherborne, Sylvie Chang Shi, Sanal Shivaprasad, Vladyslav Shmyhlo, Anirudh Shrinivason, Inna Shteinbuk, Amir Shukayev, Mathieu Simard, Ella Snyder, Ava Spataru, Victoria Spooner, Trisha Starostina, Florian Strub, Yixuan Su, Jimin Sun, Dwarak Talupuru, Eugene Tarassov, Elena Tommasone, Jennifer Tracey, Billy Trend, Evren Tumer, Ahmet Üstün, Bharat Venkitesh, David Venuto, Pat Verga, Maxime Voisin, Alex Wang, Donglu Wang, Shijian Wang, Edmond Wen, Naomi White, Jesse Willman, Marysia Winkels, Chen Xia, Jessica Xie, Minjie Xu, Bowen Yang, Tan Yi-Chern, Ivan Zhang, Zhenyu Zhao, Zhoujie Zhao

263

В данном отчете мы описываем разработку Command A — мощной крупномасштабной языковой модели, специально созданной для эффективного решения задач в реальных корпоративных сценариях. Command A представляет собой модель, оптимизированную для работы в качестве агента и поддерживающую 23 языка, используемых в глобальном бизнесе. Ее уникальная гибридная архитектура сочетает высокую эффективность с передовой производительностью. Модель предлагает лучшие в своем классе возможности Retrieval Augmented Generation (RAG) с использованием контекстной привязки и инструментов для автоматизации сложных бизнес-процессов. Эти возможности достигаются благодаря децентрализованному подходу к обучению, включающему алгоритмы самообучения и методы слияния моделей. Мы также приводим результаты для модели Command R7B, которая обладает схожими возможностями и архитектурными особенностями с Command A. Веса обеих моделей опубликованы для исследовательских целей. В этом техническом отчете подробно описывается наш оригинальный процесс обучения, а также представлены результаты всесторонней оценки наших моделей на наборе задач, актуальных для корпоративной среды, и публичных бенчмарках, демонстрирующие их превосходную производительность и эффективность.

Агент S2: Композиционная структура "Универсал-Специалист" для агентов использования компьютера
Agent S2: A Compositional Generalist-Specialist Framework for Computer Use Agents

Apr 1, 2025

Saaket Agashe, Kyle Wong, Vincent Tu, Jiachen Yang, Ang Li, Xin Eric Wang

222

Компьютерные агенты автоматизируют цифровые задачи, напрямую взаимодействуя с графическими пользовательскими интерфейсами (GUI) на компьютерах и мобильных устройствах, что открывает значительный потенциал для повышения производительности человека за счет выполнения широкого спектра пользовательских запросов. Однако современные агенты сталкиваются с серьезными проблемами: неточное определение элементов GUI, сложности с планированием задач на длительный горизонт и узкие места в производительности из-за использования единых универсальных моделей для разнообразных когнитивных задач. В связи с этим мы представляем Agent S2 — новый композиционный фреймворк, который распределяет когнитивные обязанности между различными универсальными и специализированными моделями. Мы предлагаем инновационную технику Mixture-of-Grounding для точного определения местоположения элементов GUI и вводим Proactive Hierarchical Planning, динамически уточняющий планы действий на нескольких временных масштабах в ответ на изменяющиеся наблюдения. Оценки показывают, что Agent S2 устанавливает новый уровень производительности (SOTA) на трех известных бенчмарках для компьютерных задач. В частности, Agent S2 демонстрирует относительные улучшения на 18,9% и 32,7% по сравнению с ведущими базовыми агентами, такими как Claude Computer Use и UI-TARS, на 15-шаговой и 50-шаговой оценке OSWorld. Более того, Agent S2 эффективно обобщается на другие операционные системы и приложения, превосходя предыдущие лучшие методы на 52,8% на WindowsAgentArena и на 16,52% на AndroidWorld. Код доступен по адресу https://github.com/simular-ai/Agent-S.

Повторение вместо рассуждения: Почему передовые языковые модели могут не справляться с задачами на уровне начальной школы?
Recitation over Reasoning: How Cutting-Edge Language Models Can Fail on Elementary School-Level Reasoning Problems?

Apr 1, 2025

Kai Yan, Yufei Xu, Zhengyin Du, Xuesong Yao, Zheyu Wang, Xiaowen Guo, Jiecao Chen

2215

Быстрый переход от задач уровня начальной школы к передовым проблемам сложности в бенчмарках для крупных языковых моделей (LLM) в последние годы сотворил чудо для исследователей, заставив поверить, что мы находимся в шаге от превосходства над человеческим интеллектом. Однако действительно ли выдающиеся способности LLM к рассуждению являются проявлением истинного интеллекта по человеческим меркам, или они просто воспроизводят решения, увиденные во время обучения на уровне интернета? Чтобы изучить эту проблему, мы предлагаем RoR-Bench — новый мультимодальный бенчмарк для выявления поведения LLM, связанного с воспроизведением, при решении простых задач на рассуждение, но с условиями, слегка измененными, и проводим эмпирический анализ на основе нашего бенчмарка. Удивительно, но мы обнаружили, что существующие передовые LLM единогласно демонстрируют крайне выраженное поведение воспроизведения: изменив одну фразу в условии, топовые модели, такие как OpenAI-o1 и DeepSeek-R1, могут потерять до 60% производительности на задачах уровня начальной школы по арифметике и логике. Такие результаты являются тревожным сигналом для сообщества LLM, заставляя нас пересмотреть истинный уровень интеллекта передовых языковых моделей.

YourBench: Простые пользовательские наборы для оценки для всех
YourBench: Easy Custom Evaluation Sets for Everyone

Apr 2, 2025

Sumuk Shashidhar, Clémentine Fourrier, Alina Lozovskia, Thomas Wolf, Gokhan Tur, Dilek Hakkani-Tür

213

Эффективная оценка больших языковых моделей (LLM) остается серьезной проблемой, поскольку традиционные статические тесты страдают от насыщения и загрязнения, а человеческие оценки дорогостоящи и медленны. Это затрудняет своевременную или предметно-ориентированную оценку, критически важную для реальных приложений. Мы представляем YourBench — новый открытый фреймворк, который устраняет эти ограничения, позволяя динамически и автоматически генерировать надежные, актуальные и адаптированные к конкретной области тесты без дорогостоящей ручной разметки, напрямую из предоставленных пользователем документов. Мы демонстрируем его эффективность, воспроизведя 7 разнообразных подмножеств MMLU с использованием минимального исходного текста, затратив на это менее 15 долларов США на общие вычислительные ресурсы, при этом полностью сохранив относительные ранги производительности моделей (Spearman Rho = 1), наблюдаемые на оригинальном тесте. Чтобы гарантировать, что YourBench генерирует данные, основанные на предоставленных входных данных, а не на апостериорных параметрических знаниях моделей, мы также представляем Tempora-0325 — новый набор данных, содержащий более 7 тысяч разнообразных документов, опубликованных исключительно после марта 2025 года. Наше всестороннее исследование охватывает 26 современных моделей из 7 основных семейств с различными масштабами (3–671 млрд параметров), чтобы подтвердить качество генерируемых оценок с помощью строгих алгоритмических проверок (например, проверки цитирования) и человеческой оценки. Мы публикуем библиотеку YourBench, набор данных Tempora-0325, более 150 тысяч пар вопросов и ответов на основе Tempora, а также все данные для оценки и вычислительные трассы, чтобы способствовать воспроизводимым исследованиям и дать сообществу возможность создавать специализированные тесты по запросу, способствуя более релевантной и надежной оценке LLM.

К надежным агентам с графическим интерфейсом: обзор
Towards Trustworthy GUI Agents: A Survey

Mar 30, 2025

Yucheng Shi, Wenhao Yu, Wenlin Yao, Wenhu Chen, Ninghao Liu

213

Агенты с графическим интерфейсом (GUI), основанные на крупных фундаментальных моделях, способны взаимодействовать с цифровыми интерфейсами, что открывает возможности для различных приложений, таких как автоматизация веб-задач, навигация на мобильных устройствах и тестирование программного обеспечения. Однако их растущая автономность вызывает серьезные опасения в отношении безопасности, конфиденциальности и надежности. В данном обзоре рассматривается доверие к GUI-агентам в пяти ключевых аспектах: уязвимости в безопасности, надежность в динамических средах, прозрачность и объяснимость, этические аспекты и методологии оценки. Мы также выделяем основные проблемы, такие как уязвимость к атакующим воздействиям, каскадные сбои в последовательном принятии решений и отсутствие реалистичных эталонов для оценки. Эти проблемы не только затрудняют внедрение в реальных условиях, но и требуют комплексных стратегий устранения, выходящих за рамки успешного выполнения задач. По мере расширения использования GUI-агентов становится крайне важным установление надежных стандартов безопасности и ответственных практик разработки. Этот обзор закладывает основу для продвижения доверенных GUI-агентов через систематическое понимание и будущие исследования.

MixerMDM: Обучаемая композиция моделей диффузии человеческих движений
MixerMDM: Learnable Composition of Human Motion Diffusion Models

Apr 1, 2025

Pablo Ruiz-Ponce, German Barquero, Cristina Palmero, Sergio Escalera, José García-Rodríguez

192

Генерация движений человека, управляемая условиями, такими как текстовые описания, представляет собой сложную задачу из-за необходимости в наборах данных, содержащих пары высококачественных движений и соответствующих им условий. Сложность возрастает при стремлении к более точному контролю в процессе генерации. Для решения этой проблемы в предыдущих работах предлагалось комбинировать несколько моделей диффузии движений, предварительно обученных на наборах данных с различными типами условий, что позволяет осуществлять управление с использованием множества условий. Однако предложенные стратегии объединения упускают из виду, что оптимальный способ комбинирования процессов генерации может зависеть от особенностей каждой предварительно обученной генеративной модели, а также от конкретных текстовых описаний. В этом контексте мы представляем MixerMDM — первую обучаемую технику композиции моделей для объединения предварительно обученных моделей диффузии движений человека, управляемых текстовыми условиями. В отличие от предыдущих подходов, MixerMDM предлагает динамическую стратегию смешивания, которая обучается в состязательной манере, чтобы научиться комбинировать процесс удаления шума каждой модели в зависимости от набора условий, управляющих генерацией. Используя MixerMDM для объединения моделей диффузии движений для одного и нескольких человек, мы достигаем детального контроля над динамикой каждого человека в отдельности, а также над общим взаимодействием. Кроме того, мы предлагаем новый метод оценки, который впервые в этой задаче измеряет качество взаимодействия и индивидуальных движений, вычисляя соответствие между смешанными сгенерированными движениями и их условиями, а также способности MixerMDM адаптировать процесс смешивания на протяжении всего процесса удаления шума в зависимости от движений, которые необходимо смешать.

OmniMMI: Комплексный бенчмарк для многомодального взаимодействия в контексте потокового видео
OmniMMI: A Comprehensive Multi-modal Interaction Benchmark in Streaming Video Contexts

Mar 29, 2025

Yuxuan Wang, Yueqian Wang, Bo Chen, Tong Wu, Dongyan Zhao, Zilong Zheng

182

Быстрое развитие мультимодальных языковых моделей (MLLMs), таких как GPT-4o, стимулировало создание Omni-языковых моделей, предназначенных для обработки и активного реагирования на непрерывные потоки мультимодальных данных. Несмотря на их потенциал, оценка их интерактивных возможностей в реальных условиях, особенно в контексте потокового видео, остается серьезной проблемой. В данной работе мы представляем OmniMMI — всеобъемлющий бенчмарк для мультимодального взаимодействия, разработанный специально для OmniLLMs в контексте потокового видео. OmniMMI включает более 1 121 видео и 2 290 вопросов, охватывая две важные, но недостаточно изученные проблемы в существующих видео-бенчмарках: понимание потокового видео и активное рассуждение, распределенные по шести различным подзадачам. Кроме того, мы предлагаем новую архитектуру — Multi-modal Multiplexing Modeling (M4), которая позволяет создать эффективную в плане вывода потоковую модель, способную одновременно видеть, слушать и генерировать.

Использование экономии рассуждений: обзор эффективных методов рассуждений для больших языковых моделей
Harnessing the Reasoning Economy: A Survey of Efficient Reasoning for Large Language Models

Mar 31, 2025

Rui Wang, Hongru Wang, Boyang Xue, Jianhui Pang, Shudong Liu, Yi Chen, Jiahao Qiu, Derek Fai Wong, Heng Ji, Kam-Fai Wong

172

Последние достижения в области больших языковых моделей (LLM) значительно улучшили их способность выполнять сложные задачи рассуждения, переходя от быстрого и интуитивного мышления (Система 1) к медленному и глубокому анализу (Система 2). Хотя рассуждения Системы 2 повышают точность выполнения задач, они часто сопровождаются значительными вычислительными затратами из-за своей медленной природы и неэффективных или избыточных процессов рассуждения. В то же время рассуждения Системы 1 вычислительно эффективны, но приводят к неоптимальным результатам. Следовательно, крайне важно сбалансировать компромисс между производительностью (выгодами) и вычислительными затратами (бюджетами), что порождает концепцию экономии рассуждений. В данном обзоре мы предоставляем всесторонний анализ экономии рассуждений на этапах пост-обучения и инференции LLM, охватывая i) причины неэффективности рассуждений, ii) анализ поведения различных паттернов рассуждений и iii) потенциальные решения для достижения экономии рассуждений. Предлагая практические рекомендации и выделяя открытые проблемы, мы стремимся осветить стратегии улучшения экономии рассуждений LLM, что послужит ценным ресурсом для продвижения исследований в этой развивающейся области. Мы также предоставляем публичный репозиторий для постоянного отслеживания достижений в этой быстро меняющейся сфере.

Когда решать, когда проверять: вычислительно-оптимальное решение задач и генеративная проверка для рассуждений в больших языковых моделях
When To Solve, When To Verify: Compute-Optimal Problem Solving and Generative Verification for LLM Reasoning

Apr 1, 2025

Nishad Singhi, Hritik Bansal, Arian Hosseini, Aditya Grover, Kai-Wei Chang, Marcus Rohrbach, Anna Rohrbach

151

Масштабирование вычислительных ресурсов на этапе тестирования стало ключевой стратегией для улучшения способностей к рассуждению у крупных языковых моделей (LLM), особенно в задачах, таких как решение математических задач. Традиционный подход, называемый Self-Consistency (SC), генерирует несколько решений задачи и выбирает наиболее часто встречающийся ответ с помощью голосования по большинству. Другой распространённый метод предполагает оценку каждого решения с использованием модели вознаграждения (верификатора) и выбор наилучшего. Недавние достижения в области Generative Reward Models (GenRM) переосмысливают верификацию как задачу предсказания следующего токена, что позволяет масштабировать вычисления на этапе вывода по новому направлению. В частности, GenRM генерирует несколько цепочек рассуждений для оценки каждого решения. При ограниченном бюджете на вывод возникает фундаментальный компромисс: стоит ли тратить бюджет на масштабирование решений через SC или генерировать меньше решений и выделять ресурсы на верификацию через GenRM? Чтобы ответить на этот вопрос, мы сравниваем GenRM с SC при фиксированном бюджете на вывод. Интересно, что мы обнаруживаем, что SC более эффективен по вычислительным ресурсам, чем GenRM, для большинства практических бюджетов на вывод в различных моделях и наборах данных. Например, GenRM впервые достигает уровня SC только после использования до 8 раз больше вычислительных ресурсов и требует значительно больше ресурсов для превосходства над ним. Кроме того, мы выводим законы масштабирования вывода для парадигмы GenRM, показывая, что оптимальное распределение вычислительных ресурсов на этапе вывода предпочитает более агрессивное масштабирование генерации решений, чем масштабирование количества верификаций. Наша работа предоставляет практические рекомендации по оптимизации масштабирования на этапе тестирования за счёт баланса между генерацией решений и верификацией. Код доступен по адресу https://github.com/nishadsinghi/sc-genrm-scaling.

Эффективный LLaMA-3.2-Vision за счет сокращения кросс-внимательных визуальных признаков
Efficient LLaMA-3.2-Vision by Trimming Cross-attended Visual Features

Apr 1, 2025

Jewon Lee, Ki-Ung Song, Seungmin Yang, Donguk Lim, Jaeyeon Kim, Wooksu Shin, Bo-Kyeong Kim, Yong Jae Lee, Tae-Ho Kim

152

Сокращение визуальных токенов снижает затраты на вывод, вызванные обширными признаками изображений в крупных моделях визуально-языкового взаимодействия (LVLM). В отличие от соответствующих исследований, которые удаляют токены в LVLM, использующих только самовнимание, наша работа уникально фокусируется на моделях, основанных на перекрестном внимании, которые демонстрируют превосходную производительность. Мы выявили, что размер кэша ключей-значений (KV) для токенов изображений в слоях перекрестного внимания значительно превышает таковой для текстовых токенов в слоях самовнимания, что создает серьезное вычислительное узкое место. Для решения этой проблемы мы используем разреженный характер карт перекрестного внимания, чтобы выборочно удалять избыточные визуальные признаки. Наша модель Trimmed Llama эффективно снижает требования к кэшу KV без необходимости дополнительного обучения. Благодаря сокращению визуальных признаков на 50%, наша модель способна уменьшить задержку вывода и использование памяти, сохраняя при этом соответствие эталонным показателям.

AdaMMS: Объединение моделей для гетерогенных мультимодальных больших языковых моделей с неконтролируемой оптимизацией коэффициентов
AdaMMS: Model Merging for Heterogeneous Multimodal Large Language Models with Unsupervised Coefficient Optimization

Mar 31, 2025

Yiyang Du, Xiaochen Wang, Chi Chen, Jiabo Ye, Yiru Wang, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Zhifang Sui, Maosong Sun, Yang Liu

113

В последнее время методы объединения моделей продемонстрировали значительные возможности в комбинировании навыков для выполнения различных задач на основе нескольких крупных языковых моделей (LLM). В то время как предыдущие методы объединения моделей в основном сосредоточены на объединении однородных моделей с идентичной архитектурой, они сталкиваются с трудностями при работе с мультимодальными крупными языковыми моделями (MLLM), которые обладают внутренней гетерогенностью, включая различия в архитектуре моделей и асимметрию в пространстве параметров. В данной работе мы предлагаем AdaMMS — новый метод объединения моделей, адаптированный для гетерогенных MLLM. Наш метод решает эти задачи в три этапа: отображение, объединение и поиск. В частности, мы сначала разрабатываем функцию отображения между моделями, чтобы применить объединение моделей к MLLM с различной архитектурой. Затем мы применяем линейную интерполяцию к весам моделей для активной адаптации к асимметрии в гетерогенных MLLM. Наконец, на этапе поиска гиперпараметров мы предлагаем неконтролируемый метод выбора гиперпараметров для объединения моделей. Будучи первым методом объединения моделей, способным объединять гетерогенные MLLM без использования размеченных данных, обширные эксперименты на различных комбинациях моделей показали, что AdaMMS превосходит предыдущие методы объединения моделей на различных бенчмарках для задач обработки визуальной и текстовой информации.

m1: Раскрытие потенциала масштабирования во время тестирования для медицинских рассуждений с использованием больших языковых моделей
m1: Unleash the Potential of Test-Time Scaling for Medical Reasoning with Large Language Models

Apr 1, 2025

Xiaoke Huang, Juncheng Wu, Hui Liu, Xianfeng Tang, Yuyin Zhou

102

Масштабирование во время тестирования стало мощной техникой для улучшения способностей крупных языковых моделей к рассуждению. Однако его эффективность в медицинских рассуждениях остается неопределенной, поскольку медицинская область принципиально отличается от математических задач с точки зрения представления знаний и процессов принятия решений. В данной статье мы представляем первое всестороннее исследование масштабирования во время тестирования для медицинских рассуждений и предлагаем m1 — простой, но эффективный подход, который повышает способность модели к медицинским рассуждениям на этапе вывода. Наша оценка на разнообразных медицинских задачах показывает, что масштабирование во время тестирования последовательно улучшает медицинские рассуждения, позволяя легковесным дообученным моделям с менее чем 10 миллиардами параметров устанавливать новые рекорды производительности, в то время как наша 32-миллиардная модель конкурирует с предыдущими медицинскими языковыми моделями масштаба 70 миллиардов. Однако мы выявили оптимальный бюджет токенов для рассуждений, составляющий примерно 4 тысячи, за пределами которого производительность может снижаться из-за "переобдумывания". Принудительное увеличение бюджета, которое расширяет вычисления во время тестирования через итеративные запросы, помогает моделям перепроверять ответы, но не обязательно улучшает общую производительность в медицинских вопросах и ответах, а в некоторых случаях даже вносит ошибки в ранее правильные ответы. Наш пошаговый анализ выявляет недостаточные медицинские знания как ключевое узкое место, препятствующее дальнейшему улучшению производительности через масштабирование во время тестирования. Мы обнаруживаем, что увеличение масштаба данных, улучшение их качества и расширение емкости модели последовательно усиливают закрепление медицинских знаний, позволяя продолжать улучшение производительности, особенно на сложных медицинских тестах, где меньшие модели достигают насыщения. Эти результаты подчеркивают фундаментальные различия между медицинскими и математическими рассуждениями в языковых моделях, указывая на то, что обогащение медицинских знаний, а не только увеличение глубины рассуждений, является ключевым для реализации преимуществ масштабирования во время тестирования.

Масштабирование на этапе вывода для сложных задач: текущее состояние и перспективы развития
Inference-Time Scaling for Complex Tasks: Where We Stand and What Lies Ahead

Mar 31, 2025

Vidhisha Balachandran, Jingya Chen, Lingjiao Chen, Shivam Garg, Neel Joshi, Yash Lara, John Langford, Besmira Nushi, Vibhav Vineet, Yue Wu, Safoora Yousefi

102

Масштабирование на этапе вывода может улучшить способности крупных языковых моделей (LLM) решать сложные задачи, требующие пошагового подхода. Хотя увеличение длины генерируемых промежуточных записей (scratchpads) доказало свою эффективность для математических задач, более широкое влияние этого подхода на другие типы задач остается менее изученным. В данной работе мы исследуем преимущества и ограничения методов масштабирования на девяти современных моделях и восьми сложных задачах, включая математические и STEM-рассуждения, планирование календаря, NP-сложные задачи, навигацию и пространственное мышление. Мы сравниваем традиционные модели (например, GPT-4o) с моделями, доработанными для масштабирования на этапе вывода (например, o1), с использованием протоколов оценки, включающих повторные вызовы моделей — как независимые, так и последовательные с обратной связью. Эти оценки позволяют приблизить нижние и верхние границы производительности, а также потенциал для будущих улучшений каждой модели, будь то за счет улучшенного обучения или систем многомодельного вывода. Наш обширный эмпирический анализ показывает, что преимущества масштабирования на этапе вывода варьируются в зависимости от задач и уменьшаются с ростом сложности проблемы. Кроме того, простое увеличение количества токенов не всегда приводит к повышению точности в таких сложных условиях. Результаты множества независимых запусков традиционных моделей с использованием идеальных верификаторов показывают, что для некоторых задач эти модели могут достичь производительности, близкой к средней производительности современных наиболее продвинутых моделей рассуждений. Однако для других задач сохраняется значительный разрыв в производительности, даже при очень высоких уровнях масштабирования. Обнадеживает то, что все модели демонстрируют значительные улучшения, когда вывод дополнительно масштабируется с использованием идеальных верификаторов или сильной обратной связи, что указывает на значительный потенциал для будущих улучшений.

Reasoning-SQL: Обучение с подкреплением с частичными вознаграждениями, адаптированными под SQL, для улучшенного преобразования текста в SQL с использованием логического рассуждения
Reasoning-SQL: Reinforcement Learning with SQL Tailored Partial Rewards for Reasoning-Enhanced Text-to-SQL

Mar 29, 2025

Mohammadreza Pourreza, Shayan Talaei, Ruoxi Sun, Xingchen Wan, Hailong Li, Azalia Mirhoseini, Amin Saberi, Sercan "O. Arik

Text-to-SQL — это сложная задача, включающая множество рассуждений, таких как понимание естественного языка, анализ структуры базы данных и точное формирование SQL-запросов. Существующие подходы часто полагаются на ручные пути рассуждений с индуктивными предубеждениями, что может ограничивать их общую эффективность. Вдохновленные недавними успехами моделей, усиленных рассуждениями, таких как DeepSeek R1 и OpenAI o1, которые эффективно используют самоисследование, основанное на вознаграждении, для улучшения способностей к рассуждению и обобщению, мы предлагаем новый набор частичных вознаграждений, специально разработанных для задачи Text-to-SQL. Наш набор включает в себя связывание схемы, обратную связь от ИИ, сходство n-грамм и проверку синтаксиса, что явно направлено на решение проблемы разреженности вознаграждений, характерной для обучения с подкреплением (RL). Используя оптимизацию политики на основе группового относительного сравнения (GRPO), наш подход явно стимулирует большие языковые модели (LLM) развивать внутренние навыки рассуждения, необходимые для точного формирования SQL-запросов. На моделях разного размера мы демонстрируем, что обучение только с подкреплением с использованием предложенных нами вознаграждений стабильно достигает более высокой точности и превосходного обобщения по сравнению с тонкой настройкой с учителем (SFT). Примечательно, что наша 14B-параметрическая модель, обученная с подкреплением, значительно превосходит более крупные проприетарные модели, например, o3-mini на 4% и Gemini-1.5-Pro-002 на 3% на бенчмарке BIRD. Эти результаты подчеркивают эффективность предложенной нами RL-обучающей структуры с частичными вознаграждениями для повышения как точности, так и способностей к рассуждению в задачах Text-to-SQL.

Chapter-Llama: Эффективное разделение на главы в часовых видео с использованием языковых моделей
Chapter-Llama: Efficient Chaptering in Hour-Long Videos with LLMs

Mar 31, 2025

Lucas Ventura, Antoine Yang, Cordelia Schmid, Gül Varol

Мы решаем задачу разбиения видео на главы, то есть разделения длинного видео на смысловые части и генерации соответствующих заголовков глав. Хотя автоматическое разбиение на главы изучено недостаточно, оно имеет потенциал для эффективной навигации и поиска контента в длинных видео. В данной статье мы достигаем высоких результатов в разбиении на главы для часовых видео, эффективно решая задачу в текстовой области с помощью нашей системы 'Chapter-Llama'. В частности, мы используем предобученную крупную языковую модель (LLM) с большим контекстным окном и подаем на вход (i) транскрипты речи и (ii) описания кадров видео вместе с соответствующими временными метками. Учитывая неэффективность полного описания всех кадров, мы предлагаем легковесную стратегию выбора кадров, основанную на содержании транскриптов речи, и экспериментально демонстрируем её значительные преимущества. Мы обучаем LLM выводить временные метки для границ глав, а также свободные заголовки глав. Этот простой, но мощный подход позволяет обрабатывать часовые видео за один прямой проход. Наши результаты показывают существенные улучшения (например, 45.3 против 26.7 по F1-метрике) по сравнению с современными методами на новом бенчмарке VidChapters-7M. Для содействия дальнейшим исследованиям мы публикуем наш код и модели на странице проекта.

Выявление недостатков знаний языковых моделей в масштабных базах знаний
Discovering Knowledge Deficiencies of Language Models on Massive Knowledge Base

Mar 30, 2025

Linxin Song, Xuwei Ding, Jieyu Zhang, Taiwei Shi, Ryotaro Shimizu, Rahul Gupta, Yang Liu, Jian Kang, Jieyu Zhao

Крупные языковые модели (LLM) обладают впечатляющими лингвистическими способностями, но часто не могут достоверно сохранять фактические знания, что приводит к галлюцинациям и ненадежным результатам. Исчерпывающая оценка недостатков знаний LLM на основе полномасштабных баз знаний является вычислительно непосильной задачей, особенно для моделей с закрытыми весами. Мы предлагаем стохастический метод восхождения ошибок (SEA) — масштабируемую и эффективную структуру для выявления недостатков знаний (ошибок) в LLM с закрытыми весами при строгом ограничении на количество запросов. Вместо наивного исследования всех возможных знаний SEA формулирует процесс обнаружения ошибок как стохастическую оптимизацию: итеративно извлекает новые кандидаты с высокой вероятностью ошибок, используя семантическое сходство с ранее обнаруженными сбоями. Для повышения эффективности и охвата поиска SEA применяет иерархическое извлечение на уровне документов и абзацев, а также строит направленный ациклический граф отношений для моделирования распространения ошибок и выявления систематических режимов сбоев. Экспериментально SEA обнаруживает в 40,7 раз больше ошибок знаний, чем Automated Capability Discovery, и на 26,7% больше, чем AutoBencher, при этом снижая стоимость на одну ошибку в 599 и 9 раз соответственно. Человеческая оценка подтверждает высокое качество сгенерированных вопросов, а анализ абляции и сходимости подтверждает вклад каждого компонента SEA. Дополнительный анализ обнаруженных ошибок выявляет коррелированные паттерны сбоев в семействах LLM и повторяющиеся недостатки, подчеркивая необходимость лучшего охвата данных и целенаправленной тонкой настройки в будущем развитии LLM.

ManipTrans: Эффективный перенос навыков ловкого двуручного манипулирования с использованием остаточного обучения
ManipTrans: Efficient Dexterous Bimanual Manipulation Transfer via Residual Learning

Mar 27, 2025

Kailin Li, Puhao Li, Tengyu Liu, Yuyang Li, Siyuan Huang

Человеческие руки играют ключевую роль во взаимодействии, что стимулирует растущие исследования в области ловкого роботизированного манипулирования. Алгоритмы воплощённого ИИ, основанные на данных, требуют точных, масштабных и человекообразных последовательностей манипуляций, которые сложно получить с помощью традиционного обучения с подкреплением или телеоперации в реальном мире. Для решения этой проблемы мы представляем ManipTrans — новый двухэтапный метод для эффективного переноса навыков двуручного взаимодействия человека на ловкие роботизированные руки в симуляции. ManipTrans сначала предварительно обучает универсальный имитатор траекторий для воспроизведения движений руки, а затем дообучает специфический остаточный модуль с учётом ограничений взаимодействия, что позволяет эффективно изучать и точно выполнять сложные двуручные задачи. Эксперименты показывают, что ManipTrans превосходит современные методы по показателям успешности, точности и эффективности. Используя ManipTrans, мы переносим несколько наборов данных о взаимодействии руки с объектами на роботизированные руки, создавая DexManipNet — масштабный набор данных, включающий ранее не исследованные задачи, такие как закрывание колпачка ручки и откручивание крышки бутылки. DexManipNet состоит из 3,3 тысяч эпизодов роботизированного манипулирования и легко расширяем, что способствует дальнейшему обучению стратегий для ловких рук и позволяет внедрять их в реальных условиях.

DiET-GS: Устранение размытия движения в 3D-гауссовом сплайтинге с использованием диффузионного априори и потоков событий
DiET-GS: Diffusion Prior and Event Stream-Assisted Motion Deblurring 3D Gaussian Splatting

Mar 31, 2025

Seungjun Lee, Gim Hee Lee

Восстановление четких 3D-представлений из размытых многовидовых изображений является давней проблемой в компьютерном зрении. Современные работы пытаются улучшить синтез высококачественных новых видов из размытия движения, используя камеры на основе событий, которые обладают высоким динамическим диапазоном и микросекундным временным разрешением. Однако они часто достигают субоптимального визуального качества, либо восстанавливая неточные цвета, либо теряя мелкие детали. В данной статье мы представляем DiET-GS — метод устранения размытия движения в 3DGS с использованием диффузионного априори и потока событий. Наш подход эффективно использует как поток событий без размытия, так и диффузионный априори в двухэтапной стратегии обучения. В частности, мы вводим новую структуру для ограничения 3DGS с помощью двойного интеграла событий, что позволяет достичь как точного цвета, так и четких деталей. Кроме того, мы предлагаем простую технику для использования диффузионного априори с целью дальнейшего улучшения деталей краев. Качественные и количественные результаты на синтетических и реальных данных демонстрируют, что наш DiET-GS способен создавать значительно более качественные новые виды по сравнению с существующими базовыми методами. Страница проекта доступна по адресу: https://diet-gs.github.io.

MB-ORES: Многомодульный объектный анализатор для визуального связывания в дистанционном зондировании
MB-ORES: A Multi-Branch Object Reasoner for Visual Grounding in Remote Sensing

Mar 31, 2025

Karim Radouane, Hanane Azzag, Mustapha lebbah

Мы предлагаем унифицированную структуру, которая объединяет задачи обнаружения объектов (OD) и визуального заземления (VG) для изображений дистанционного зондирования (RS). Для поддержки классического OD и создания интуитивного априори для задачи VG мы дообучаем детектор объектов с открытым множеством классов, используя данные с референсными выражениями, представляя это как частично контролируемую задачу OD. На первом этапе мы строим графовое представление каждого изображения, включающее запросы объектов, эмбеддинги классов и локации предложений. Затем наша архитектура, ориентированная на задачу, обрабатывает этот граф для выполнения задачи VG. Модель состоит из: (i) многоканальной сети, которая интегрирует пространственные, визуальные и категориальные признаки для генерации предложений, ориентированных на задачу, и (ii) сети рассуждений об объектах, которая назначает вероятности для предложений, за которыми следует механизм мягкого выбора для окончательной локализации целевого объекта. Наша модель демонстрирует превосходную производительность на наборах данных OPT-RSVG и DIOR-RSVG, достигая значительных улучшений по сравнению с современными методами, сохраняя при этом классические возможности OD. Код будет доступен в нашем репозитории: https://github.com/rd20karim/MB-ORES.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Any2Caption: Интерпретация любых условий в подписи для управляемой генерации видео
Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation

Mar 31, 2025

Shengqiong Wu, Weicai Ye, Jiahao Wang, Quande Liu, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Shuicheng Yan, Hao Fei, Tat-Seng Chua

774

JudgeLRM: Модели масштабного рассуждения в роли судьи
JudgeLRM: Large Reasoning Models as a Judge

Mar 31, 2025

Nuo Chen, Zhiyuan Hu, Qingyun Zou, Jiaying Wu, Qian Wang, Bryan Hooi, Bingsheng He

616

Многотокеновое внимание
Multi-Token Attention

Apr 1, 2025

Olga Golovneva, Tianlu Wang, Jason Weston, Sainbayar Sukhbaatar

522

Исследование влияния обучения с подкреплением на понимание видео: Анализ данных из SEED-Bench-R1
Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1

Mar 31, 2025

Yi Chen, Yuying Ge, Rui Wang, Yixiao Ge, Lu Qiu, Ying Shan, Xihui Liu

383

Open-Qwen2VL: Эффективное с точки зрения вычислений предварительное обучение полностью открытых мультимодальных языковых моделей на академических ресурсах
Open-Qwen2VL: Compute-Efficient Pre-Training of Fully-Open Multimodal LLMs on Academic Resources

Apr 1, 2025

Weizhi Wang, Yu Tian, Linjie Yang, Heng Wang, Xifeng Yan

367

CodeARC: Оценка способностей к рассуждению агентов на основе больших языковых моделей для индуктивного синтеза программ
CodeARC: Benchmarking Reasoning Capabilities of LLM Agents for Inductive Program Synthesis

Mar 29, 2025

Anjiang Wei, Tarun Suresh, Jiannan Cao, Naveen Kannan, Yuheng Wu, Kai Yan, Thiago S. F. X. Teixeira, Ke Wang, Alex Aiken

342

Масштабирование обучения визуальным представлениям без использования языка
Scaling Language-Free Visual Representation Learning

Apr 1, 2025

David Fan, Shengbang Tong, Jiachen Zhu, Koustuv Sinha, Zhuang Liu, Xinlei Chen, Michael Rabbat, Nicolas Ballas, Yann LeCun, Amir Bar, Saining Xie

304

GeometryCrafter: Согласованное восстановление геометрии для видео открытого мира с использованием диффузионных априорных моделей
GeometryCrafter: Consistent Geometry Estimation for Open-world Videos with Diffusion Priors

Apr 1, 2025

Tian-Xing Xu, Xiangjun Gao, Wenbo Hu, Xiaoyu Li, Song-Hai Zhang, Ying Shan

292

Ландшафт мыслей: Визуализация процесса рассуждения крупных языковых моделей
Landscape of Thoughts: Visualizing the Reasoning Process of Large Language Models

Mar 28, 2025

Zhanke Zhou, Zhaocheng Zhu, Xuan Li, Mikhail Galkin, Xiao Feng, Sanmi Koyejo, Jian Tang, Bo Han

282

Z1: Эффективное масштабирование во время тестирования с использованием кода
Z1: Efficient Test-time Scaling with Code

Apr 1, 2025

Zhaojian Yu, Yinghao Wu, Yilun Zhao, Arman Cohan, Xiao-Ping Zhang

263

Команда A: Крупная языковая модель, готовая к использованию в корпоративной среде
Command A: An Enterprise-Ready Large Language Model

Apr 1, 2025

263

Агент S2: Композиционная структура "Универсал-Специалист" для агентов использования компьютера
Agent S2: A Compositional Generalist-Specialist Framework for Computer Use Agents

Apr 1, 2025

Saaket Agashe, Kyle Wong, Vincent Tu, Jiachen Yang, Ang Li, Xin Eric Wang

222

Повторение вместо рассуждения: Почему передовые языковые модели могут не справляться с задачами на уровне начальной школы?
Recitation over Reasoning: How Cutting-Edge Language Models Can Fail on Elementary School-Level Reasoning Problems?

Apr 1, 2025

Kai Yan, Yufei Xu, Zhengyin Du, Xuesong Yao, Zheyu Wang, Xiaowen Guo, Jiecao Chen

2215

YourBench: Простые пользовательские наборы для оценки для всех
YourBench: Easy Custom Evaluation Sets for Everyone

Apr 2, 2025

Sumuk Shashidhar, Clémentine Fourrier, Alina Lozovskia, Thomas Wolf, Gokhan Tur, Dilek Hakkani-Tür

213

К надежным агентам с графическим интерфейсом: обзор
Towards Trustworthy GUI Agents: A Survey

Mar 30, 2025

Yucheng Shi, Wenhao Yu, Wenlin Yao, Wenhu Chen, Ninghao Liu

213

MixerMDM: Обучаемая композиция моделей диффузии человеческих движений
MixerMDM: Learnable Composition of Human Motion Diffusion Models

Apr 1, 2025

Pablo Ruiz-Ponce, German Barquero, Cristina Palmero, Sergio Escalera, José García-Rodríguez

192

OmniMMI: Комплексный бенчмарк для многомодального взаимодействия в контексте потокового видео
OmniMMI: A Comprehensive Multi-modal Interaction Benchmark in Streaming Video Contexts

Mar 29, 2025

Yuxuan Wang, Yueqian Wang, Bo Chen, Tong Wu, Dongyan Zhao, Zilong Zheng

182

Использование экономии рассуждений: обзор эффективных методов рассуждений для больших языковых моделей
Harnessing the Reasoning Economy: A Survey of Efficient Reasoning for Large Language Models

Mar 31, 2025

Rui Wang, Hongru Wang, Boyang Xue, Jianhui Pang, Shudong Liu, Yi Chen, Jiahao Qiu, Derek Fai Wong, Heng Ji, Kam-Fai Wong

172

Когда решать, когда проверять: вычислительно-оптимальное решение задач и генеративная проверка для рассуждений в больших языковых моделях
When To Solve, When To Verify: Compute-Optimal Problem Solving and Generative Verification for LLM Reasoning

Apr 1, 2025

Nishad Singhi, Hritik Bansal, Arian Hosseini, Aditya Grover, Kai-Wei Chang, Marcus Rohrbach, Anna Rohrbach

151

Эффективный LLaMA-3.2-Vision за счет сокращения кросс-внимательных визуальных признаков
Efficient LLaMA-3.2-Vision by Trimming Cross-attended Visual Features

Apr 1, 2025

Jewon Lee, Ki-Ung Song, Seungmin Yang, Donguk Lim, Jaeyeon Kim, Wooksu Shin, Bo-Kyeong Kim, Yong Jae Lee, Tae-Ho Kim

152

AdaMMS: Объединение моделей для гетерогенных мультимодальных больших языковых моделей с неконтролируемой оптимизацией коэффициентов
AdaMMS: Model Merging for Heterogeneous Multimodal Large Language Models with Unsupervised Coefficient Optimization

Mar 31, 2025

Yiyang Du, Xiaochen Wang, Chi Chen, Jiabo Ye, Yiru Wang, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Zhifang Sui, Maosong Sun, Yang Liu

113

m1: Раскрытие потенциала масштабирования во время тестирования для медицинских рассуждений с использованием больших языковых моделей
m1: Unleash the Potential of Test-Time Scaling for Medical Reasoning with Large Language Models

Apr 1, 2025

Xiaoke Huang, Juncheng Wu, Hui Liu, Xianfeng Tang, Yuyin Zhou

102

Масштабирование на этапе вывода для сложных задач: текущее состояние и перспективы развития
Inference-Time Scaling for Complex Tasks: Where We Stand and What Lies Ahead

Mar 31, 2025

Vidhisha Balachandran, Jingya Chen, Lingjiao Chen, Shivam Garg, Neel Joshi, Yash Lara, John Langford, Besmira Nushi, Vibhav Vineet, Yue Wu, Safoora Yousefi

102

Reasoning-SQL: Обучение с подкреплением с частичными вознаграждениями, адаптированными под SQL, для улучшенного преобразования текста в SQL с использованием логического рассуждения
Reasoning-SQL: Reinforcement Learning with SQL Tailored Partial Rewards for Reasoning-Enhanced Text-to-SQL

Mar 29, 2025

Mohammadreza Pourreza, Shayan Talaei, Ruoxi Sun, Xingchen Wan, Hailong Li, Azalia Mirhoseini, Amin Saberi, Sercan "O. Arik

Chapter-Llama: Эффективное разделение на главы в часовых видео с использованием языковых моделей
Chapter-Llama: Efficient Chaptering in Hour-Long Videos with LLMs

Mar 31, 2025

Lucas Ventura, Antoine Yang, Cordelia Schmid, Gül Varol

Выявление недостатков знаний языковых моделей в масштабных базах знаний
Discovering Knowledge Deficiencies of Language Models on Massive Knowledge Base

Mar 30, 2025

Linxin Song, Xuwei Ding, Jieyu Zhang, Taiwei Shi, Ryotaro Shimizu, Rahul Gupta, Yang Liu, Jian Kang, Jieyu Zhao

ManipTrans: Эффективный перенос навыков ловкого двуручного манипулирования с использованием остаточного обучения
ManipTrans: Efficient Dexterous Bimanual Manipulation Transfer via Residual Learning

Mar 27, 2025

Kailin Li, Puhao Li, Tengyu Liu, Yuyang Li, Siyuan Huang

DiET-GS: Устранение размытия движения в 3D-гауссовом сплайтинге с использованием диффузионного априори и потоков событий
DiET-GS: Diffusion Prior and Event Stream-Assisted Motion Deblurring 3D Gaussian Splatting

Mar 31, 2025

Seungjun Lee, Gim Hee Lee

MB-ORES: Многомодульный объектный анализатор для визуального связывания в дистанционном зондировании
MB-ORES: A Multi-Branch Object Reasoner for Visual Grounding in Remote Sensing

Mar 31, 2025

Karim Radouane, Hanane Azzag, Mustapha lebbah