HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

24 papers found

MemGovern: Повышение эффективности код-агентов за счет обучения на управляемом человеческом опыте
MemGovern: Enhancing Code Agents through Learning from Governed Human Experiences

Jan 11

ByQihao Wang, Ziming Cheng, Shuo Zhang, Fan Liu, Rui Xu, Heng Lian, Kunyi Wang, Xiaoming Yu, Jianghao Yin, Sen Hu, Yue Hu, Shaolei Zhang, Yanbing Liu, Ronghao Chen, Huacan Wang

В то время как автономные агенты программной инженерии меняют парадигмы программирования, они в настоящее время страдают от ограничения «закрытого мира»: они пытаются исправлять ошибки с нуля или только с использованием локального контекста, игнорируя огромный исторический человеческий опыт, доступный на таких платформах, как GitHub. Доступ к этому опыту «открытого мира» затруднен из-за неструктурированной и фрагментированной природы реальных данных систем отслеживания проблем. В этой статье мы представляем MemGovern — фреймворк, предназначенный для управления и преобразования сырых данных GitHub в полезную для агентов эмпирическую память. MemGovern использует управление опытом для преобразования человеческого опыта в удобные для агентов карты опыта и представляет стратегию агентского поиска опыта, которая позволяет осуществлять логически управляемое извлечение человеческих экспертных знаний. Создав 135 000 управляемых карт опыта, MemGovern добивается значительного повышения производительности, улучшая показатель успешного решения задач в SWE-bench Verified на 4,65%. Будучи подходом типа plug-in, MemGovern предлагает решение для создания удобной для агентов инфраструктуры памяти.

Атрибуция движения для генерации видео
Motion Attribution for Video Generation

Jan 13

ByXindi Wu, Despoina Paschalidou, Jun Gao, Antonio Torralba, Laura Leal-Taixé, Olga Russakovsky, Sanja Fidler, Jonathan Lorraine

Несмотря на быстрый прогресс моделей генерации видео, роль данных в формировании движения остается малоизученной. Мы представляем Motive (MOTIon attribution for Video gEneration) — ориентированный на движение, градиентный фреймворк атрибуции данных, который масштабируется для современных больших наборов видео-данных высокого качества и соответствующих моделей. Мы используем его для изучения того, какие клипы дообучения улучшают или ухудшают временную динамику. Motive изолирует временную динамику от статического внешнего вида с помощью масок потерь, взвешенных по движению, что позволяет эффективно и масштабируемо вычислять влияние, специфичное для движения. В моделях текст-видео Motive идентифицирует клипы, которые сильно влияют на движение, и направляет курацию данных, улучшающую временную согласованность и физическую правдоподобность. С помощью данных с высоким влиянием, отобранных Motive, наш метод улучшает как плавность движения, так и степень динамики в VBench, достигая 74.1% уровня предпочтения человеком по сравнению с предварительно обученной базовой моделью. Насколько нам известно, это первая система, которая атрибутирует движение, а не визуальное представление в генеративных моделях видео, и использует это для курации данных дообучения.

Солнечный открытый технический отчет
Solar Open Technical Report

Jan 11

BySungrae Park, Sanghoon Kim, Jungho Cho, Gyoungjin Gim, Dawoon Jung, Mikyoung Cha, Eunhae Choo, Taekgyu Hong, Minbyul Jeong, SeHwan Joo, Minsoo Khang, Eunwon Kim, Minjeong Kim, Sujeong Kim, Yunsu Kim, Hyeonju Lee, Seunghyun Lee, Sukyung Lee, Siyoung Park, Gyungin Shin, Inseo Song, Wonho Song, Seonghoon Yang, Seungyoun Yi, Sanghoon Yoon, Jeonghyun Ko, Seyoung Song, Keunwoo Choi, Hwalsuk Lee, Sunghun Kim, Du-Seong Chang, Kyunghyun Cho, Junsuk Choe, Hwaran Lee, Jae-Gil Lee, KyungTae Lim, Alice Oh

Мы представляем Solar Open — 102-миллиардную двуязычную модель смеси экспертов (Mixture-of-Experts), разработанную для языков с ограниченными ресурсами. Solar Open демонстрирует системную методологию создания конкурентоспособных больших языковых моделей, решая три взаимосвязанные задачи. Во-первых, для эффективного обучения в условиях недостатка данных по таким языкам мы синтезировали 4,5 триллиона токенов высококачественных, узкоспециализированных и ориентированных на обучение с подкреплением данных. Во-вторых, мы организовали эти данные с помощью прогрессивного учебного плана, совместно оптимизирующего состав, пороги качества и охват предметных областей на 20 триллионах токенов. В-третьих, для развития способностей к логическому рассуждению с помощью масштабируемого обучения с подкреплением мы применили предложенный нами фреймворк SnapPO для эффективной оптимизации. По результатам тестирования на английском и корейском языках Solar Open демонстрирует конкурентоспособную производительность, подтверждая эффективность данной методологии для развития ИИ в условиях ограниченных языковых ресурсов.

KnowMe-Bench: Бенчмарк для оценки понимания личности в контексте долгосрочных цифровых компаньонов
KnowMe-Bench: Benchmarking Person Understanding for Lifelong Digital Companions

Jan 8

ByTingyu Wu, Zhisheng Chen, Ziyan Weng, Shuhe Wang, Chenglong Li, Shuo Zhang, Sen Hu, Silin Wu, Qizhen Lan, Huacan Wang, Ronghao Chen

Существующие бенчмарки долгосрочной памяти в основном используют многотурные диалоги или синтетические истории пользователей, что делает производительность поиска несовершенным показателем для понимания личности. Мы представляем \BenchName, публично доступный бенчмарк, построенный на основе развернутых автобиографических нарративов, где действия, контекст и внутренние мысли предоставляют плотные доказательства для выведения устойчивых мотиваций и принципов принятия решений. \BenchName~реконструирует каждый нарратив в ориентированный на флешбэки, привязанный ко времени поток и оценивает модели с помощью вопросов, связанных с доказательствами и охватывающих фактологическое припоминание, атрибуцию субъективных состояний и рассуждения на уровне принципов. На разнообразных нарративных источниках системы с поисковым усилением в основном улучшают фактологическую точность, в то время как ошибки сохраняются в отношении временно обоснованных объяснений и выводов более высокого уровня, что подчеркивает необходимость механизмов памяти, выходящих за рамки поиска. Наши данные находятся в KnowMeBench{https://github.com/QuantaAlpha/KnowMeBench}.

Министрал 3
Ministral 3

Jan 13

ByAlexander H. Liu, Kartik Khandelwal, Sandeep Subramanian, Victor Jouault, Abhinav Rastogi, Adrien Sadé, Alan Jeffares, Albert Jiang, Alexandre Cahill, Alexandre Gavaudan, Alexandre Sablayrolles, Amélie Héliou, Amos You, Andy Ehrenberg, Andy Lo, Anton Eliseev, Antonia Calvi, Avinash Sooriyarachchi, Baptiste Bout, Baptiste Rozière, Baudouin De Monicault, Clémence Lanfranchi, Corentin Barreau, Cyprien Courtot, Daniele Grattarola, Darius Dabert, Diego de las Casas, Elliot Chane-Sane, Faruk Ahmed, Gabrielle Berrada, Gaëtan Ecrepont, Gauthier Guinet, Georgii Novikov, Guillaume Kunsch, Guillaume Lample, Guillaume Martin, Gunshi Gupta, Jan Ludziejewski, Jason Rute, Joachim Studnia, Jonas Amar, Joséphine Delas, Josselin Somerville Roberts, Karmesh Yadav, Khyathi Chandu, Kush Jain, Laurence Aitchison, Laurent Fainsin, Léonard Blier, Lingxiao Zhao, Louis Martin, Lucile Saulnier, Luyu Gao, Maarten Buyl, Margaret Jennings, Marie Pellat, Mark Prins, Mathieu Poirée, Mathilde Guillaumin, Matthieu Dinot, Matthieu Futeral, Maxime Darrin, Maximilian Augustin, Mia Chiquier, Michel Schimpf, Nathan Grinsztajn, Neha Gupta, Nikhil Raghuraman, Olivier Bousquet, Olivier Duchenne, Patricia Wang, Patrick von Platen, Paul Jacob, Paul Wambergue, Paula Kurylowicz, Pavankumar Reddy Muddireddy, Philomène Chagniot, Pierre Stock, Pravesh Agrawal, Quentin Torroba, Romain Sauvestre, Roman Soletskyi, Rupert Menneer, Sagar Vaze, Samuel Barry, Sanchit Gandhi, Siddhant Waghjale, Siddharth Gandhi, Soham Ghosh, Srijan Mishra, Sumukh Aithal, Szymon Antoniak, Teven Le Scao, Théo Cachet, Theo Simon Sorg, Thibaut Lavril, Thiziri Nait Saada, Thomas Chabal, Thomas Foubert, Thomas Robert, Thomas Wang, Tim Lawson, Tom Bewley, Tom Bewley, Tom Edwards, Umar Jamil, Umberto Tomasini, Valeriia Nemychnikova, Van Phung, Vincent Maladière, Virgile Richard, Wassim Bouaziz, Wen-Ding Li, William Marshall, Xinghui Li, Xinyu Yang, Yassine El Ouahidi, Yihan Wang, Yunhao Tang, Zaccharie Ramzi

Мы представляем серию Ministral 3 — семейство параметрически эффективных плотных языковых моделей, разработанных для вычислений и приложений с ограниченной памятью, доступное в трёх размерах: 3B, 8B и 14B параметров. Для каждого размера модели мы выпускаем три варианта: предобученную базовую модель общего назначения, модель с дообучением на инструкциях и модель для рассуждений, предназначенную для решения сложных задач. Кроме того, мы представляем наш метод получения моделей Ministral 3 с помощью каскадной дистилляции — итеративной прореживания и продолжения обучения с применением техники дистилляции. Каждая модель обладает возможностями понимания изображений, и все они распространяются под лицензией Apache 2.0.

ArenaRL: Масштабирование обучения с подкреплением для открытых агентов посредством турнирного относительного ранжирования
ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking

Jan 10

ByQiang Zhang, Boli Chen, Fanrui Zhang, Ruixue Ding, Shihang Wang, Qiuchen Wang, Yinfeng Huang, Haonan Zhang, Rongxiang Zhu, Pengyong Wang, Ailin Ren, Xin Li, Pengjun Xie, Jiawei Liu, Ning Guo, Jingren Zhou, Zheng-Jun Zha

Обучение с подкреплением значительно повысило производительность агентов на основе больших языковых моделей (LLM) при выполнении задач с проверяемыми результатами, однако оно по-прежнему испытывает трудности с открытыми задачами для агентов, имеющими обширные пространства решений (например, сложное планирование путешествий). Из-за отсутствия объективной эталонной истины для таких задач современные алгоритмы RL в значительной степени полагаются на модели вознаграждения, которые присваивают отдельным ответам скалярные оценки. Мы утверждаем, что такое поточечное оценивание страдает от присущего ему *коллапса дискриминации*: модель вознаграждения с трудом различает subtle преимущества среди различных траекторий, в результате чего оценки внутри группы сжимаются в узкий диапазон. Следовательно, эффективный сигнал вознаграждения начинает доминироваться шумом от модели вознаграждения, что приводит к стагнации оптимизации. Для решения этой проблемы мы предлагаем ArenaRL — парадигму обучения с подкреплением, которая переходит от поточечного скалярного оценивания к относительному ранжированию внутри группы. ArenaRL вводит механизм попарной оценки, учитывающий процесс, и использует многоуровневые рубрики для присвоения траекториям детализированных относительных оценок. Кроме того, мы создаем внутригрупповую адверсарную арену и разрабатываем турнирную схему ранжирования для получения стабильных сигналов преимущества. Эмпирические результаты подтверждают, что построенная схема с выбыванием после поражения с заданными начальными условиями достигает почти эквивалентной точности оценки преимущества по сравнению с полными попарными сравнениями со сложностью O(N²), при этом работая со сложностью всего O(N), находя оптимальный баланс между эффективностью и точностью. Более того, для решения проблемы отсутствия benchmarks полного цикла для открытых агентов мы создали Open-Travel и Open-DeepResearch — два высококачественных benchmarks, характеризующихся комплексным конвейером, охватывающим SFT, RL-обучение и многомерную оценку. Многочисленные эксперименты показывают, что ArenaRL существенно превосходит стандартные RL-базисы, позволяя агентам на основе LLM генерировать более надежные решения для сложных реальных задач.

ShowUI-π: Потоковые генеративные модели как ловкие руки графического интерфейса
ShowUI-π: Flow-based Generative Models as GUI Dexterous Hands

Dec 31

BySiyuan Hu, Kevin Qinghong Lin, Mike Zheng Shou

Создание интеллектуальных агентов, способных к ловкому манипулированию, является ключевым для достижения человеко-подобной автоматизации как в робототехнике, так и в цифровых средах. Однако существующие GUI-агенты полагаются на дискретные предсказания кликов (x,y), что исключает свободные, замкнутые траектории (например, перетаскивание ползунка прогресса), требующие непрерывного восприятия и корректировки в реальном времени. В данной работе мы разрабатываем ShowUI-π — первую потоковую генеративную модель в качестве ловкой руки для GUI, обладающую следующими особенностями: (i) Единые Дискретно-Непрерывные Действия, объединяющие дискретные клики и непрерывные перетаскивания в рамках общей модели, что обеспечивает гибкую адаптацию к различным режимам взаимодействия; (ii) Потоковое Генерирование Действий для моделирования перетаскивания, которое предсказывает инкрементные перемещения курсора на основе непрерывных визуальных наблюдений с помощью легковесного эксперта действий, гарантируя плавные и стабильные траектории; (iii) Данные для Обучения Перетаскиванию и Бенчмарк, где мы вручную собираем и синтезируем 20 тыс. траекторий перетаскивания в пяти областях (например, PowerPoint, Adobe Premiere Pro) и представляем ScreenDrag — бенчмарк с комплексными онлайн- и офлайн-протоколами оценки для проверки способностей GUI-агентов к перетаскиванию. Наши эксперименты показывают, что проприетарные GUI-агенты по-прежнему испытывают трудности с ScreenDrag (например, Operator набирает 13.27 баллов, а лучший Gemini-2.5-CUA достигает 22.18). В то же время ShowUI-π достигает результата в 26.98 баллов, имея всего 450 млн параметров, что подчеркивает как сложность задачи, так и эффективность нашего подхода. Мы надеемся, что эта работа продвинет развитие GUI-агентов в сторону человеко-подобного ловкого управления в цифровом мире. Код доступен по адресу https://github.com/showlab/showui-pi.

Многопроходная генерация диалогов, ориентированная на пользователя, с использованием инструментов в масштабе
User-Oriented Multi-Turn Dialogue Generation with Tool Use at scale

Jan 13

ByJungho Cho, Minbyul Jeong, Sungrae Park

Недавний парадигмальный сдвиг в сторону больших моделей рассуждений (LRM) как автономных агентов усилил потребность в sophisticated, многоходовых возможностях использования инструментов. Однако существующие наборы данных и подходы к их генерации ограничены статическими, предопределенными наборами инструментов, которые не масштабируются до сложности открытого взаимодействия человека и агента. Чтобы решить эту проблему, мы изначально разработали фреймворк для автоматизированной генерации масштабируемых целеориентированных многократных диалогов, используя симулятор на основе LRM для динамического создания высокоценных, предметно-ориентированных инструментов решения поставленных задач. Однако мы наблюдаем, что чисто целеориентированный дизайн часто приводит к траекториям «исключительно решения задач», где агент достигает цели с минимальным взаимодействием, не генерируя многоходовые беседы, характерные для реальных сценариев. Чтобы устранить этот разрыв, мы переходим к пользователь-ориентированной парадигме симуляции. Разделяя генерацию задач и специализированный симулятор пользователя, имитирующий поведенческие правила человека — такие как инкрементное формулирование запросов и пошаговая обратная связь — мы способствуем созданию более аутентичных, продолжительных многократных диалогов, отражающих итеративную природу решения проблем в реальном мире. Наш конвейер генерации функционирует как универсальный модуль plug-and-play, способный инициировать генерацию из любого состояния, обеспечивая высокую масштабируемость при создании обширных данных по использованию инструментов. Более того, позволяя выполнять несколько задач в рамках одной траектории, он производит высокоплотный набор данных, отражающий многогранные требования реального взаимодействия человека и агента.

MemoBrain: Исполнительная память как агентный мозг для рассуждений
MemoBrain: Executive Memory as an Agentic Brain for Reasoning

Jan 12

ByHongjin Qian, Zhao Cao, Zheng Liu

Сложные рассуждения в рамках инструментально-расширенных агентов по своей природе являются долгосрочными, что приводит к накоплению цепочек рассуждений и временных артефактов инструментов, перегружая ограниченный рабочий контекст больших языковых моделей. Без явных механизмов памяти такое накопление нарушает логическую непрерывность и подрывает соответствие задачи. Это определяет память не как вспомогательный вопрос эффективности, а как ключевой компонент для поддержания последовательных, целенаправленных рассуждений на длительных горизонтах. Мы предлагаем MemoBrain, исполнительную модель памяти для инструментально-расширенных агентов, которая создает зависимую от контекста память о шагах рассуждений, фиксируя важные промежуточные состояния и их логические связи. Функционируя как второй пилот совместно с агентом рассуждений, MemoBrain организует прогресс рассуждений без блокировки выполнения и активно управляет рабочим контекстом. В частности, модель удаляет недействительные шаги, сворачивает завершенные подтраектории и сохраняет компактный, высокозначимый каркас рассуждений в рамках фиксированного бюджета контекста. В совокупности эти механизмы обеспечивают явный когнитивный контроль над траекториями рассуждений вместо пассивного накопления контекста. Мы оцениваем MemoBrain на сложных долгосрочных бенчмарках, включая GAIA, WebWalker и BrowseComp-Plus, демонстрируя стабильное улучшение по сравнению с сильными базовыми методами.

3AM: Сегментация чего угодно с геометрической согласованностью в видео
3AM: Segment Anything with Geometric Consistency in Videos

Jan 13

ByYang-Che Sun, Cheng Sun, Chin-Yang Lin, Fu-En Yang, Min-Hung Chen, Yen-Yu Lin, Yu-Lun Liu

Методы видеосегментации объектов, такие как SAM2, демонстрируют высокую производительность благодаря архитектурам на основе памяти, но сталкиваются с трудностями при значительных изменениях ракурса из-за зависимости от признаков внешнего вида. Традиционные методы 3D-сегментации экземпляров решают проблему согласованности ракурса, но требуют данных о позе камеры, карт глубины и дорогостоящей предварительной обработки. Мы представляем 3AM — усовершенствование на этапе обучения, которое интегрирует 3D-ориентированные признаки из MUSt3R в SAM2. Наш легковесный модуль слияния признаков (Feature Merger) объединяет многоуровневые признаки MUSt3R, кодирующие неявное геометрическое соответствие. В сочетании с признаками внешнего вида SAM2 модель достигает геометрически согласованного распознавания, основанного как на пространственном положении, так и на визуальном сходстве. Мы предлагаем стратегию выборки с учетом поля зрения, обеспечивающую наблюдение за пространственно согласованными областями объекта для надежного обучения 3D-соответствию. Ключевым моментом является то, что наш метод на этапе вывода требует только RGB-входные данные, без необходимости в позах камеры или предварительной обработке. На сложных наборах данных с широкобазовым движением (ScanNet++, Replica) 3AM существенно превосходит SAM2 и его расширения, достигая 90,6% IoU и 71,7% Positive IoU на Selected Subset из ScanNet++, улучшая показатели передовых методов VOS на +15,9 и +30,4 пункта соответственно. Страница проекта: https://jayisaking.github.io/3AM-Page/

Дихотомия уверенности: анализ и коррекция ошибок калибровки в агентах, использующих инструменты
The Confidence Dichotomy: Analyzing and Mitigating Miscalibration in Tool-Use Agents

Jan 12

ByWeihao Xuan, Qingcheng Zeng, Heli Qi, Yunze Xiao, Junjue Wang, Naoto Yokoya

Автономные агенты на основе больших языковых моделей (БЯМ) стремительно развиваются для решения многошаговых задач, однако обеспечение их надежности остается критически важной проблемой. Фундаментальной основой такой надежности является калибровка — способность агента выражать уверенность, которая достоверно отражает его реальную производительность. Хотя калибровка хорошо изучена для статических моделей, ее динамика в инструментальных рабочих процессах агентов остается малоисследованной. В данной работе мы систематически исследуем вербализованную калибровку у агентов, использующих инструменты, и выявляем фундаментальную дихотомию уверенности, обусловленную типом инструмента. В частности, наше пилотное исследование показывает, что инструменты поиска доказательств (например, веб-поиск) систематически вызывают сильную избыточную уверенность из-за присущего шума в извлекаемой информации, в то время как инструменты верификации (например, интерпретаторы кода) способны обосновывать рассуждения с помощью детерминированной обратной связи и смягчать ошибки калибровки. Для устойчивого улучшения калибровки across типам инструментов мы предлагаем framework тонкой настройки с подкрепляющим обучением (ПО), который совместно оптимизирует точность решения задач и калибровку, поддерживаемый комплексным бенчмарком дизайнов вознаграждений. Мы демонстрируем, что обученные нами агенты не только достигают превосходной калибровки, но и проявляют robustную генерализацию — от локальных тренировочных сред к зашумленным веб-условиям и к другим областям, таким как математические рассуждения. Наши результаты подчеркивают необходимость domain-specific стратегий калибровки для агентов, использующих инструменты. В более широком смысле данная работа закладывает основу для создания самосознательных агентов, способных достоверно сообщать о неопределенности в ответственных развертываниях в реальном мире.

Параллельное декодирование с контекстом экспертов для поискового расширенного генеративного моделирования
Parallel Context-of-Experts Decoding for Retrieval Augmented Generation

Jan 13

ByGiulio Corallo, Paolo Papotti

Технология генерации с расширением выборкой данных сталкивается с компромиссом: объединение документов в длинный промпт позволяет осуществлять междокументные рассуждения, но создает узкие места на этапе предварительного заполнения, тогда как раздельное кэширование ключей и значений документов обеспечивает скорость, но нарушает междокументное взаимодействие. Мы предлагаем декодирование с параллельным контекстом экспертов (Pced) — не требующую дообучения архитектуру, которая переносит агрегацию свидетельств из механизма внимания на этап декодирования. Pced рассматривает retrieved-документы как изолированных «экспертов», синхронизируя их предсказания с помощью нового правила контрастного декодирования с учетом выборки, которое взвешивает логиты экспертов относительно априорного распределения модели. Данный подход восстанавливает возможности междокументных рассуждений без построения общего механизма внимания между документами.

SnapGen++: Раскрытие потенциала диффузионных трансформеров для эффективной генерации высококачественных изображений на периферийных устройствах
SnapGen++: Unleashing Diffusion Transformers for Efficient High-Fidelity Image Generation on Edge Devices

Jan 13

ByDongting Hu, Aarush Gupta, Magzhan Gabidolla, Arpit Sahni, Huseyin Coskun, Yanyu Li, Yerlan Idelbayev, Ahsan Mahmood, Aleksei Lebedev, Dishani Lahiri, Anujraaj Goyal, Ju Hu, Mingming Gong, Sergey Tulyakov, Anil Kag

Последние достижения в области диффузионных трансформеров (DiT) установили новые стандарты в генерации изображений, однако их практическое применение на устройствах остается непрактичным из-за высоких вычислительных затрат и требований к памяти. В данной работе мы представляем эффективную архитектуру DiT, адаптированную для мобильных и периферийных устройств, которая обеспечивает качество генерации на уровне трансформеров при строгих ограничениях ресурсов. Наша разработка объединяет три ключевых компонента. Во-первых, мы предлагаем компактную архитектуру DiT с адаптивным глобально-локальным механизмом разреженного внимания, который балансирует моделирование глобального контекста и сохранение локальных деталей. Во-вторых, мы представляем эластичную框架у обучения, которая совместно оптимизирует под-архитектуры DiT различной мощности в рамках единой суперсети, позволяя одной модели динамически адаптироваться для эффективного вывода на разном оборудовании. Наконец, мы разработали дистилляцию с согласованием распределений на основе знаний — поэтапный конвейер дистилляции, который интегрирует цель DMD с передачей знаний от учительских моделей с малым числом шагов, обеспечивая генерацию высокой точности с низкой задержкой (например, за 4 шага), пригодную для использования на устройствах в реальном времени. В совокупности эти достижения позволяют создавать масштабируемые, эффективные и качественные диффузионные модели для развертывания на разнообразном оборудовании.

ViDoRe V3: Комплексная оценка генерации с расширением поиска в сложных реальных сценариях
ViDoRe V3: A Comprehensive Evaluation of Retrieval Augmented Generation in Complex Real-World Scenarios

Jan 13

ByAntónio Loison, Quentin Macé, Antoine Edy, Victor Xing, Tom Balough, Gabriel Moreira, Bo Liu, Manuel Faysse, Céline Hudelot, Gautier Viaud

Конвейеры генерации с расширением выборки (RAG) должны решать задачи, выходящие за рамки простого извлечения единичных документов, такие как интерпретация визуальных элементов (таблицы, диаграммы, изображения), синтез информации из нескольких документов и обеспечение точного указания источников. Существующие бенчмарки не отражают эту сложность, часто фокусируясь на текстовых данных, понимании одиночных документов или изолированной оценке извлечения и генерации. Мы представляем ViDoRe v3 — комплексный мультимодальный бенчмарк для RAG, включающий многотипные запросы к коллекциям визуально насыщенных документов. Он охватывает 10 наборов данных из различных профессиональных областей, состоящих из ~26 000 страниц документов, сопряженных с 3 099 проверенными человеком запросами, каждый из которых доступен на 6 языках. Благодаря 12 000 часам усилий по человеческой разметке мы предоставляем высококачественные аннотации для релевантности поиска, локализации ограничивающих рамок и проверенных эталонных ответов. Наша оценка современных RAG-конвейеров показывает, что визуальные модели поиска превосходят текстовые, модели с поздним взаимодействием и текстовый реранкинг существенно улучшают производительность, а гибридные или чисто визуальные контексты повышают качество генерации ответов. Однако современные модели по-прежнему испытывают трудности с нетекстовыми элементами, открытыми запросами и точной визуальной привязкой. Для стимулирования прогресса в решении этих задач бенчмарк выпущен под коммерчески разрешительной лицензией по адресу https://hf.co/vidore.

Выравнивание текста, кода и визуализации: многокритериальная система обучения с подкреплением для генерации визуализаций по текстовому описанию
Aligning Text, Code, and Vision: A Multi-Objective Reinforcement Learning Framework for Text-to-Visualization

Jan 8

ByMizanur Rahman, Mohammed Saidul Islam, Md Tahmid Rahman Laskar, Shafiq Joty, Enamul Hoque

Системы Text-to-Visualization (Text2Vis) преобразуют запросы на естественном языке к табличным данным в краткие ответы и исполняемые визуализации. Хотя закрытые LLM генерируют рабочий код, результирующие диаграммы часто страдают от недостаточной семантической согласованности и ясности — качеств, которые можно оценить только после выполнения кода. Модели с открытым исходным кодом справляются еще хуже, часто производя неисполняемый или визуально неудовлетворительный результат. Хотя контролируемое тонкое обучение (SFT) может улучшить исполняемость кода, оно не способно повысить общее качество визуализации, поскольку традиционная функция потерь SFT не учитывает обратную связь после выполнения. Чтобы устранить этот пробел, мы предлагаем RL-Text2Vis — первую систему генерации Text2Vis на основе обучения с подкреплением. Построенный на основе Group Relative Policy Optimization (GRPO), наш метод использует новую многокритериальную функцию вознаграждения, которая совместно оптимизирует текстовую точность, корректность кода и качество визуализации с использованием обратной связи после выполнения. Обучив модели Qwen2.5 (7B и 14B), RL-Text2Vis достигает относительного улучшения качества диаграмм на 22% по сравнению с GPT-4o на бенчмарке Text2Vis и повышает процент успешного выполнения кода с 78% до 97% относительно базового zero-shot подхода. Наши модели значительно превосходят сильные zero-shot и контролируемые базовые уровни, а также демонстрируют robustную генерализацию на внешних наборах данных, таких как VIS-Eval и NVBench. Эти результаты подтверждают эффективность GRPO как стратегии для структурированного мультимодального вывода в задаче генерации визуализаций. Наш код доступен по адресу https://github.com/vis-nlp/RL-Text2Vis.

UM-Text: Унифицированная мультимодальная модель для понимания изображений
UM-Text: A Unified Multimodal Model for Image Understanding

Jan 13

ByLichen Ma, Xiaolong Fu, Gaojing Zhou, Zipeng Guo, Ting Zhu, Yichun Liu, Yu Shi, Jason Li, Junshi Huang

Благодаря быстрому прогрессу в области генерации изображений, визуальное редактирование текста с использованием инструкций на естественном языке привлекает все больше внимания. Основная задача заключается в полном понимании инструкции и исходного изображения для генерации визуального текста, стилистически согласованного с изображением. Предыдущие методы часто включали сложные этапы указания содержания текста и атрибутов, таких как размер шрифта, цвет и компоновка, без учета стилевой согласованности с исходным изображением. Для решения этой проблемы мы предлагаем UM-Text — унифицированную мультимодальную модель для контекстного понимания и визуального редактирования текста по инструкциям на естественном языке. В частности, мы внедряем визуальную языковую модель (VLM) для обработки инструкции и исходного изображения, что позволяет детально проектировать содержание текста и компоновку на основе контекстной информации. Для генерации точного и гармоничного изображения визуального текста мы дополнительно предлагаем UM-Encoder для объединения эмбеддингов различной условной информации, где комбинация автоматически настраивается VLM в соответствии с входной инструкцией. В процессе обучения мы предлагаем функцию потерь региональной согласованности для более эффективного контроля генерации глифов в латентном и RGB-пространстве и разрабатываем специальную трехэтапную стратегию обучения для дальнейшего повышения производительности модели. Кроме того, мы представляем UM-DATA-200K — масштабный набор данных изображений визуального текста в разнообразных сценах для обучения моделей. Многочисленные качественные и количественные результаты на нескольких публичных бенчмарках демонстрируют, что наш метод достигает передовых показателей.

Первый день агента: оценка обучения, исследования и планирования в рабочих сценариях
The Agent's First Day: Benchmarking Learning, Exploration, and Scheduling in the Workplace Scenarios

Jan 13

ByDaocheng Fu, Jianbiao Mei, Rong Wu, Xuemeng Yang, Jia Xu, Ding Wang, Pinlong Cai, Yong Liu, Licheng Wen, Botian Shi

Быстрое развитие мультимодальных больших языковых моделей (MLLM) способствовало автоматизации рабочих процессов, однако существующие исследования в основном ориентированы на достижение верхних границ производительности в статических средах, игнорируя устойчивость для стохастического развертывания в реальных условиях. Мы выделяем три ключевые проблемы: динамическое планирование задач, активное исследование в условиях неопределенности и непрерывное обучение на основе опыта. Для преодоления этого разрыва мы представляем динамическую среду оценки , которая симулирует "стажера"-агента, непрерывно исследующего новую обстановку. В отличие от традиционных бенчмарков, оценивает агентов по трем направлениям: (1) контекстно-зависимое планирование потоковых задач с различными приоритетами; (2) осмотрительное получение информации для снижения галлюцинаций через активное исследование; и (3) непрерывное развитие путем дистилляции обобщенных стратегий из основанных на правилах, динамически генерируемых задач. Эксперименты показывают, что современные агенты обладают значительными недостатками в динамических средах, особенно в активном исследовании и непрерывном обучении. Наша работа создает основу для оценки надежности агентов, смещая фокус оценки со статических тестов на реалистичные, ориентированные на производство сценарии. Наши коды доступны по адресу https://github.com/KnowledgeXLab/EvoEnv.

VLingNav: Навигация в физическом окружении с адаптивным логическим выводом и визуально-ассистируемой лингвистической памятью
VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory

Jan 13

ByShaoan Wang, Yuanfei Luo, Xingyu Chen, Aocheng Luo, Dongyue Li, Chang Liu, Sheng Chen, Yangang Zhang, Junzhi Yu

Модели VLA продемонстрировали многообещающий потенциал в навигации с воплощенным агентом, объединяя восприятие и планирование и наследуя сильные способности к обобщению крупных языково-визуальных моделей. Однако большинство существующих моделей VLA полагаются на реактивные отображения непосредственно от наблюдений к действиям, не обладая явными возможностями логического вывода и устойчивой памятью, необходимыми для сложных задач навигации с длительным горизонтом планирования. Для решения этих проблем мы предлагаем VLingNav — модель VLA для навигации с воплощенным агентом, основанную на лингвистически обусловленной когниции. Во-первых, вдохновившись теорией двойственного процесса человеческого познания, мы вводим адаптивный механизм цепи рассуждений, который динамически активирует явное логическое рассуждение только при необходимости, позволяя агенту плавно переключаться между быстрым интуитивным выполнением и медленным обдуманным планированием. Во-вторых, для обработки пространственных зависимостей с длительным горизонтом мы разрабатываем визуально-вспомогательный лингвистический модуль памяти, который создает устойчивую кросс-модальную семантическую память, позволяя агенту вспоминать прошлые наблюдения для предотвращения повторного исследования и выявлять тенденции перемещения в динамических средах. Что касается методики обучения, мы создали Nav-AdaCoT-2.9M — крупнейший на сегодняшний день набор данных по навигации с воплощенным агентом, содержащий аннотации логических рассуждений и обогащенный адаптивными аннотациями цепи рассуждений, которые индуцируют парадигму рассуждения, способную адаптировать как момент, так и предмет для размышлений. Кроме того, мы включаем этап обучения с подкреплением под руководством онлайн-эксперта, позволяя модели превзойти чистое имитационное обучение и приобрести более устойчивое, самостоятельно исследуемое навигационное поведение. Многочисленные эксперименты демонстрируют, что VLingNav достигает наилучших результатов в широком спектре бенчмарков навигации с воплощенным агентом. Примечательно, что VLingNav переносится на реальные роботизированные платформы в режиме zero-shot, выполняя различные навигационные задачи и демонстрируя высокую степень междоменной и межзадачной обобщающей способности.

Сквозная замена персонажей в видео без структурного руководства
End-to-End Video Character Replacement without Structural Guidance

Jan 13

ByZhengbo Xu, Jie Ma, Ziheng Wang, Zhan Peng, Jun Liang, Jing Li

Управляемая замена персонажей в видео с использованием предоставленного пользователем идентификатора остается сложной проблемой из-за отсутствия парных видеоданных. Предыдущие работы в основном опирались на парадигму, основанную на реконструкции, которая требует масок сегментации для каждого кадра и явных структурных ориентиров (например, скелетона, карты глубины). Однако эта зависимость серьезно ограничивает их обобщающую способность в сложных сценариях, включающих окклюзии, взаимодействия персонажа с объектами, нестандартные позы или сложное освещение, что часто приводит к визуальным артефактам и временной несогласованности. В данной статье мы предлагаем MoCha, новаторскую архитектуру, которая обходит эти ограничения, требуя лишь одну произвольную маску кадра. Для эффективной адаптации многомодального входного условия и усиления идентичности лица мы вводим условие-зависимый RoPE (Rotary Position Embedding) и используем этап пост-обучения на основе обучения с подкреплением (RL). Кроме того, для преодоления дефицита качественных парных данных для обучения мы предлагаем комплексный конвейер построения данных. В частности, мы разрабатываем три специализированных набора данных: высокодетализированный рендеренный набор данных, созданный с помощью Unreal Engine 5 (UE5), набор данных, управляемый выражением лиц, синтезированный современными техниками анимации портретов, и аугментированный набор данных, полученный из существующих пар видео-маска. Многочисленные эксперименты демонстрируют, что наш метод существенно превосходит существующие передовые подходы. Мы опубликуем код для содействия дальнейшим исследованиям. Более подробная информация доступна на странице нашего проекта: orange-3dv-team.github.io/MoCha.

VideoLoom: Видео-большая языковая модель для совместного пространственно-временного понимания
VideoLoom: A Video Large Language Model for Joint Spatial-Temporal Understanding

Jan 12

ByJiapeng Shi, Junke Wang, Zuyao You, Bo He, Zuxuan Wu

В данной статье представлена VideoLoom — унифицированная большая языковая модель для видео (Video LLM), предназначенная для совместного пространственно-временного анализа. Для развития способностей к точной пространственной и временной локализации мы создали LoomData-8.7k, антропоцентрический видео-датасет с темпорально привязанными и пространственно локализованными описаниями. Благодаря этому VideoLoom демонстрирует наилучшие или высококонкурентные результаты на различных пространственных и временных бенчмарках (например, 63.1 J&F на ReVOS для сегментации объектов по ссылке в видео и 48.3 R1@0.7 на Charades-STA для временной привязки). Кроме того, мы представляем LoomBench — новый бенчмарк, состоящий из темпоральных, пространственных и композиционных видео-вопросных пар, который позволяет проводить комплексную оценку Video LLM с различных сторон. В совокупности эти разработки предлагают универсальный и эффективный инструментарий для совместного пространственно-временного анализа видео, устанавливая новый стандарт в области мультимодального искусственного интеллекта.

EpiCaR: Осознание неизвестного как ключевой фактор улучшения способности к рассуждению в больших языковых моделях
EpiCaR: Knowing What You Don't Know Matters for Better Reasoning in LLMs

Jan 11

ByJewon Yeom, Jaewon Sok, Seonghyeon Park, Jeongjae Park, Taesup Kim

Повышение способностей крупных языковых моделей (LLM) к логическим рассуждениям в значительной степени опиралось на итеративное самообучение с данными, сгенерированными моделью. Хотя существующие подходы эффективно повышают точность, они в основном подкрепляют успешные пути рассуждений, что влечет за собой существенные затраты на калибровку: модели становятся излишне уверенными и теряют способность представлять неопределенность. Этот сбой был охарактеризован как форма коллапса модели при согласовании, когда прогностические распределения вырождаются в сторону точечных оценок с низкой дисперсией. Мы решаем эту проблему, переосмысливая обучение рассуждениям как эпистемическую задачу обучения, в которой модели должны научиться не только тому, *как* рассуждать, но и тому, *когда* их рассуждениям можно доверять. Мы предлагаем эпистемически-калиброванные рассуждения (EpiCaR) в качестве целевой функции обучения, которая совместно оптимизирует производительность рассуждений и калибровку, и реализуем ее в рамках итеративной процедуры контролируемой тонкой настройки с использованием явных сигналов самооценки. Эксперименты на семействах моделей Llama-3 и Qwen-3 демонстрируют, что наш подход достигает парето-превосходства над стандартными базовыми методами как по точности, так и по калибровке, особенно в моделях с достаточной способностью к рассуждениям (например, 3B+). Данная框架 эффективно обобщается на математические рассуждения вне распределения (GSM8K) и генерацию кода (MBPP). В конечном счете, наш подход позволяет в 3 раза сократить вычислительные затраты на вывод, достигая производительности STaR при K=30 всего с K=10 сэмплами в достаточно мощных моделях.

JudgeRLVR: Сначала оценить, затем генерировать для эффективных рассуждений
JudgeRLVR: Judge First, Generate Second for Efficient Reasoning

Jan 13

ByJiangshan Duo, Hanyu Li, Hailin Zhang, Yudong Wang, Sujian Li, Liang Zhao

Обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) стало стандартной парадигмой для логических рассуждений в больших языковых моделях. Однако оптимизация исключительно на правильность конечного ответа часто заставляет модели прибегать к бесцельному, многословному исследованию, когда они полагаются на тактику исчерпывающего перебора, а не на структурированное планирование для достижения решений. Хотя эвристические ограничения, такие как штрафы за длину, могут снизить многословие, они часто обрезают важные шаги рассуждений, создавая сложный компромисс между эффективностью и верифицируемостью. В данной статье мы утверждаем, что дискриминативная способность является предпосылкой для эффективной генерации: научившись отличать верные решения, модель может усвоить направляющий сигнал, который сокращает пространство поиска. Мы предлагаем JudgeRLVR, двухэтапную парадигму «сначала оценить, затем сгенерировать». На первом этапе мы обучаем модель оценивать ответы-решения с верифицируемыми ответами. На втором этапе мы дообучаем ту же модель с помощью стандартного генеративного RLVR, инициализированного из состояния «оценщика». По сравнению с базовым RLVR, использующим те же обучающие данные из математической области, JudgeRLVR достигает лучшего компромисса между качеством и эффективностью для модели Qwen3-30B-A3B: на внутрипредметных математических задачах она демонстрирует прирост средней точности примерно на +3,7 пункта при сокращении средней длины генерации на 42%; на внешних бенчмарках она показывает улучшение средней точности примерно на +4,5 пункта, что свидетельствует о повышенной способности к обобщению.

К созданию всестороннего поэтапного бенчмаркинга больших языковых моделей в области проверки фактов
Towards Comprehensive Stage-wise Benchmarking of Large Language Models in Fact-Checking

Jan 6

ByHongzhan Lin, Zixin Chen, Zhiqi Shen, Ziyang Luo, Zhen Ye, Jing Ma, Tat-Seng Chua, Guandong Xu

Крупные языковые модели (LLM) все чаще развертываются в реальных системах проверки фактов, однако существующие оценки сосредоточены преимущественно на верификации утверждений и упускают из виду более широкий рабочий процесс проверки, включая извлечение утверждений и поиск доказательств. Эта узкая направленность не позволяет современным тестовым наборам выявлять системные сбои в рассуждениях, фактологические «слепые зоны» и проблемы устойчивости современных LLM. Чтобы заполнить этот пробел, мы представляем FactArena — полностью автоматизированную арен-стиль систему оценки, которая проводит всестороннее поэтапное тестирование LLM по всему конвейеру проверки фактов. FactArena интегрирует три ключевых компонента: (i) управляемый LLM процесс проверки фактов, стандартизирующий декомпозицию утверждений, поиск доказательств через инструментально-расширенное взаимодействие и прогнозирование вердикта на основе обоснования; (ii) арен-стиль механизм судейства, руководствующийся унифицированными эталонными правилами для обеспечения беспристрастного и последовательного парного сравнения разнородными судейскими агентами; и (iii) управляемый ареной модуль эволюции утверждений, который адаптивно генерирует более сложные и семантически контролируемые утверждения для исследования фактологической устойчивости LLM за пределами фиксированных исходных данных. На примере 16 передовых LLM, охватывающих семь модельных семейств, FactArena демонстрирует стабильные и интерпретируемые рейтинги. Наш анализ также выявляет значительные расхождения между точностью статической верификации утверждений и компетентностью сквозной проверки фактов, подчеркивая необходимость холистической оценки. Предлагаемая система предлагает масштабируемую и надежную парадигму для диагностики фактологического мышления LLM, руководства будущей разработкой моделей и обеспечения надежного развертывания LLM в критически важных для безопасности приложениях проверки фактов.

GeoMotionGPT: Геометрически-согласованное понимание движения с помощью больших языковых моделей
GeoMotionGPT: Geometry-Aligned Motion Understanding with Large Language Models

Jan 12

ByZhankai Ye, Bofan Li, Yukai Jin, Shuoqiu Li, Wei Wang, Yanfu Zhang, Shangqian Gao, Xin Liu

Дискретная токенизация движений недавно позволила большим языковым моделям (LLM) выступать в качестве универсальных основ для понимания движений и семантического анализа, связывающего движения и язык. Однако существующие подходы обычно разделяют квантование движений и обучение семантическим представлениям, связывая их лишь через идентификаторы токенов. Такой метод не позволяет эффективно согласовать внутреннюю геометрию пространства движений с пространством векторных представлений, что ограничивает способность LLM к тонкому семантическому анализу движений. Мы полагаем, что выравнивание наиболее эффективно, когда обе модальности имеют единую геометрическую основу. Поэтому вместо того, чтобы заставлять LLM заново восстанавливать сложную геометрию между токенами движений, мы предлагаем новую архитектуру, которая явно обеспечивает ортогональность как для кодовой книги движений, так и для пространства векторных представлений LLM, гарантируя, что их реляционные структуры естественно отражают друг друга. В частности, мы используем квантизатор только с декодером и Gumbel-Softmax для дифференцируемого обучения и сбалансированного использования кодовой книги. Для связи модальностей применяется разреженная проекция, которая отображает коды движений в пространство векторных представлений LLM с сохранением ортогональности. Наконец, двухэтапный график ортонормальной регуляризации накладывает мягкие ограничения во время обучения токенизатора и тонкой настройки LLM для поддержания геометрического выравнивания без ущерба для семантической адаптации. Многочисленные эксперименты на наборе данных HumanML3D показывают, что наша архитектура обеспечивает 20% прирост производительности по сравнению с современными методами, подтверждая, что единая геометрическая основа эффективно расширяет возможности LLM для тонкого семантического анализа движений.