HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

57 papers found

QeRL: За пределами эффективности — обучение с подкреплением с улучшенной квантованием для больших языковых моделей
QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs

Oct 13

ByWei Huang, Yi Ge, Shuai Yang, Yicheng Xiao, Huizi Mao, Yujun Lin, Hanrong Ye, Sifei Liu, Ka Chun Cheung, Hongxu Yin, Yao Lu, Xiaojuan Qi, Song Han, Yukang Chen

164

Мы представляем QeRL — фреймворк для обучения с подкреплением (Reinforcement Learning, RL) с использованием квантования, предназначенный для крупных языковых моделей (LLM). Хотя RL критически важен для развития способностей LLM к рассуждению, он требует значительных ресурсов, включая большой объем памяти GPU и длительные этапы rollout. QeRL решает эти проблемы, сочетая квантование NVFP4 с адаптацией низкого ранга (Low-Rank Adaptation, LoRA), что ускоряет этап rollout в RL и снижает нагрузку на память. Помимо повышения эффективности, наши исследования показывают, что шум квантования увеличивает энтропию политики, улучшая исследование и способствуя обнаружению более эффективных стратегий в процессе RL. Для дальнейшей оптимизации исследования QeRL вводит механизм адаптивного шума квантования (Adaptive Quantization Noise, AQN), который динамически регулирует уровень шума во время обучения. Эксперименты демонстрируют, что QeRL обеспечивает ускорение этапа rollout более чем в 1,5 раза. Более того, это первый фреймворк, который позволяет проводить RL-обучение модели LLM с 32 миллиардами параметров на одном GPU H100 с 80 ГБ памяти, обеспечивая общее ускорение RL-обучения. Он также достигает более быстрого роста наград и более высокой итоговой точности по сравнению с 16-битными LoRA и QLoRA, при этом соответствуя производительности полной тонкой настройки на математических бенчмарках, таких как GSM8K (90,8%) и MATH 500 (77,4%) для модели с 7 миллиардами параметров. Эти результаты подтверждают, что QeRL является эффективным и производительным фреймворком для RL-обучения в LLM.

Диффузионные трансформаторы с автоэнкодерами представлений
Diffusion Transformers with Representation Autoencoders

Oct 13

ByBoyang Zheng, Nanye Ma, Shengbang Tong, Saining Xie

157

Латентное генеративное моделирование, при котором предобученный автокодировщик отображает пиксели в латентное пространство для процесса диффузии, стало стандартной стратегией для диффузионных трансформеров (DiT). Однако компонент автокодировщика практически не эволюционировал. Большинство DiT продолжают полагаться на оригинальный VAE-кодировщик, который вводит несколько ограничений: устаревшие архитектурные основы, компрометирующие простоту архитектуры, низкоразмерные латентные пространства, ограничивающие информационную емкость, и слабые представления, возникающие из-за чисто реконструкционного обучения, что в конечном итоге ограничивает качество генерации. В данной работе мы исследуем замену VAE на предобученные кодировщики представлений (например, DINO, SigLIP, MAE), объединенные с обученными декодерами, формируя то, что мы называем Автокодировщиками Представлений (RAE). Эти модели обеспечивают как высококачественную реконструкцию, так и семантически богатые латентные пространства, позволяя использовать масштабируемую архитектуру на основе трансформеров. Поскольку эти латентные пространства обычно высокоразмерны, ключевой задачей является обеспечение эффективной работы диффузионных трансформеров в них. Мы анализируем источники этой сложности, предлагаем теоретически обоснованные решения и подтверждаем их эмпирически. Наш подход достигает более быстрой сходимости без вспомогательных потерь на выравнивание представлений. Используя вариант DiT, оснащенный легковесной и широкой DDT-головой, мы достигаем сильных результатов генерации изображений на ImageNet: 1.51 FID при разрешении 256x256 (без управления) и 1.13 как при 256x256, так и при 512x512 (с управлением). RAE предлагает явные преимущества и должен стать новым стандартом для обучения диффузионных трансформеров.

Уточнение скрытых состояний при декодировании: улучшение диффузионных языковых моделей через уточнение состояний убеждений
Latent Refinement Decoding: Enhancing Diffusion-Based Language Models by Refining Belief States

Oct 13

ByQinglin Zhu, Yizhen Yao, Runcong Zhao, Yanzheng Xiang, Amrutha Saseendran, Chen Jin, Philip Alexander Teare, Bin Liang, Yulan He, Lin Gui

Авторегрессионные (AR) модели остаются стандартом для генерации естественного языка, но по-прежнему страдают от высокой задержки из-за строго последовательного декодирования. Недавние подходы, вдохновленные диффузией, такие как LlaDA и Dream, смягчают эту проблему, генерируя текст параллельно, однако они имеют два ключевых ограничения: потерю информации, так как предсказательные распределения для незавершенных токенов отбрасываются на каждом шаге, и преждевременное принятие решений, когда локальные решения принимаются без достаточной глобальной координации. Мы представляем Latent Refinement Decoding (LRD) — двухэтапную структуру с Latent Refinement и Predictive Feedback Loop. На первом этапе сохраняются замаскированные позиции как распределенные смеси предсказанных токенов и маскирующего эмбеддинга, что позволяет модели формировать более глобально согласованные представления. На втором этапе постепенно фиксируются уверенные токены, в то время как неопределенные остаются для итеративной обратной связи. Динамика KL-дивергенции обеспечивает принципиальный и надежный критерий для сходимости и ранней остановки. Эксперименты в области программирования (HumanEval +6.3, MBPP +2.6) и логического мышления (GSM8K +2.9, MATH500 +3.8) показывают, что LRD повышает точность, обеспечивая ускорение до 10.6 раз, что делает его мощной и универсальной альтернативой для параллельной генерации последовательностей.

OmniVideoBench: в направлении оценки аудиовизуального понимания для Omni MLLMs
OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

Oct 12

ByCaorui Li, Yu Chen, Yiyan Ji, Jin Xu, Zhenyu Cui, Shihao Li, Yuanxing Zhang, Jiafu Tang, Zhenghao Song, Dingling Zhang, Ying He, Haoxiang Liu, Yuxuan Wang, Qiufeng Wang, Zhenhe Wu, Jiehui Luo, Zhiyu Pan, Weihao Xie, Chenchen Zhang, Zhaohui Wang, Jiayi Tian, Yanghai Wang, Zhe Cao, Minxin Dai, Ke Wang, Runzhe Wen, Yinghao Ma, Yaning Pan, Sungkyun Chang, Termeh Taheri, Haiwen Xia, Christos Plachouras, Emmanouil Benetos, Yizhi Li, Ge Zhang, Jian Yang, Tianhao Peng, Zili Wang, Minghao Liu, Junran Peng, Zhaoxiang Zhang, Jiaheng Liu

Последние достижения в области мультимодальных больших языковых моделей (MLLMs) продемонстрировали значительный потенциал в понимании видео. Однако существующие тестовые наборы не позволяют всесторонне оценить синергетические способности к рассуждению, охватывающие аудио и визуальные модальности, часто игнорируя одну из них или интегрируя их логически непоследовательно. Чтобы устранить этот пробел, мы представляем OmniVideoBench — масштабный и тщательно разработанный тестовый набор, предназначенный для оценки синергетического понимания аудио и визуальной информации с акцентом на взаимодополняемость модальностей и логическую согласованность. В частности, OmniVideoBench включает 1000 высококачественных пар вопрос-ответ (QA), каждая из которых снабжена пошаговыми траекториями рассуждений, полученными из 628 разнообразных видео длительностью от нескольких секунд до 30 минут и вручную проверенными для гарантии полной корректности и уникальности. Более того, OmniVideoBench охватывает 13 тщательно разработанных типов вопросов, включая временное рассуждение, пространственную локализацию, подсчет, причинно-следственный вывод, суммирование и другие, тем самым охватывая ключевые задачи понимания видео. Оценка нескольких MLLMs на OmniVideoBench выявила значительный разрыв между производительностью моделей и человеческим рассуждением, причем модели с открытым исходным кодом существенно отстают от своих закрытых аналогов, что подчеркивает сложность подлинного аудиовизуального рассуждения. Мы выпустим OmniVideoBench для стимулирования разработки MLLMs с более сильными и обобщаемыми способностями к рассуждению.

RLFR: Расширение обучения с подкреплением для языковых моделей с использованием среды потоков
RLFR: Extending Reinforcement Learning for LLMs with Flow Environment

Oct 11

ByJinghao Zhang, Naishan Zheng, Ruilin Li, Dongzhou Cheng, Zheming Liang, Feng Zhao, Jiaqi Wang

Обучение с подкреплением с верифицируемыми наградами (RLVR) недавно стало перспективной основой для улучшения способностей к рассуждению в больших языковых моделях (LLM). Однако политика, оптимизированная с использованием бинарной верификации, склонна упускать потенциально ценные исследования в траектории рассуждений. Учитывая высокую стоимость аннотирования эталонных моделей наград за процесс (PRM), в последних работах предпринимаются попытки использования вспомогательных сигналов для формирования наград за процессные токены, включая энтропию и правдоподобие, собранные из пространства логитов. В данной работе мы предлагаем новый подход к формированию RLVR с использованием наград, основанных на потоках, извлеченных из латентного пространства, и представляем RLFR, где поля потоков латентных состояний модели строятся либо на основе высококачественных данных вне политики, либо на данных отбора с отклонением в рамках политики, а отклонения скоростей латентных состояний политики в этих полях количественно оцениваются для использования в качестве сигнала награды. RLFR впервые демонстрирует, что хорошо установленное поле потоков может быть надежной средой для сбора сигналов наград, подчеркивая, что выразительное латентное пространство остается недостаточно изученным. Более того, RLFR способен сжимать любые данные экспертов вне политики для использования в качестве эталона для формирования сигналов наград, и мы показываем, что эффективная контекстная зависимость, сжатая в скрытых состояниях, используется вместо обозначений на уровне отдельных токенов для понимания контекста. Эксперименты на языковых и мультимодальных бенчмарках для рассуждений демонстрируют надежность наград, основанных на потоках, и предлагают перспективную парадигму для формирования наград с использованием вспомогательных сигналов.

Фокус на восприятии токенов для мультимодального обучения с подкреплением
Spotlight on Token Perception for Multimodal Reinforcement Learning

Oct 10

BySiyuan Huang, Xiaoye Qu, Yafu Li, Yun Luo, Zefeng He, Daizong Liu, Yu Cheng

Хотя обучение с подкреплением с верифицируемыми наградами (RLVR) продвинуло способности к рассуждению крупных визуально-языковых моделей (LVLMs), большинство существующих методов в мультимодальном рассуждении упускают критическую роль визуального восприятия в процессе оптимизации RLVR. В данной статье мы предпринимаем новаторское исследование мультимодального RLVR через новую перспективу восприятия токенов, которая измеряет визуальную зависимость каждого сгенерированного токена. С помощью детального анализа процессов цепочки рассуждений (CoT) мы выявляем два ключевых наблюдения: во-первых, восприятие токенов в траектории rollout распределено разреженно, где лишь небольшая часть токенов имеет высокую визуальную зависимость для визуально обоснованных рассуждений; во-вторых, разные траектории демонстрируют значительное расхождение в их общей визуальной зависимости. На основе этих наблюдений мы предлагаем Визуально-Восприимчивую Оптимизацию Политик (VPPO), новый алгоритм градиента политики, который явно использует восприятие токенов для уточнения сигнала обучения. В частности, VPPO достигает этого с помощью двойного механизма: она перевзвешивает преимущество траектории по её общей визуальной зависимости и фокусирует обновления политики исключительно на восприимчиво важных токенах. На комплексном наборе из восьми тестов на восприятие и рассуждение VPPO демонстрирует значительные улучшения по сравнению с ведущими моделями, настроенными с помощью RL, причём её эффективность последовательно подтверждается на масштабах моделей 7B и 32B. Наши результаты не только устанавливают новую перспективу анализа мультимодального RLVR на уровне токенов, но и представляют новую и эффективную стратегию оптимизации, которая значительно улучшает мультимодальные способности к рассуждению LVLMs.

InternSVG: К унификации задач SVG с использованием мультимодальных больших языковых моделей
InternSVG: Towards Unified SVG Tasks with Multimodal Large Language Models

Oct 13

ByHaomin Wang, Jinhui Yin, Qi Wei, Wenguang Zeng, Lixin Gu, Shenglong Ye, Zhangwei Gao, Yaohui Wang, Yanting Zhang, Yuanqi Li, Yanwen Guo, Wenhai Wang, Kai Chen, Yu Qiao, Hongjie Zhang

Моделирование SVG в общем случае остается сложной задачей из-за фрагментированных наборов данных, ограниченной переносимости методов между задачами и трудностей обработки структурной сложности. В ответ на это мы используем мощные возможности трансфера и обобщения мультимодальных больших языковых моделей (MLLM) для достижения унифицированного моделирования в задачах понимания, редактирования и генерации SVG. Мы представляем семейство InternSVG — интегрированный набор данных, бенчмарков и моделей. В его основе лежит SAgoge, самый крупный и всеобъемлющий мультимодальный набор данных для задач SVG, включающий как статичную графику, так и динамические анимации. Он охватывает иконки, длинные последовательности иллюстраций, научные диаграммы и динамические анимации, поддерживая задачи различного уровня сложности и предоставляя более глубокие иерархии с более богатыми атрибутами по сравнению с предыдущими наборами данных. На основе этого ресурса мы представляем SArena, сопутствующий бенчмарк с полным набором определений задач и стандартизированной оценкой, которая соответствует областям и спектру сложности, охватываемым SAgoge. Опираясь на эти основы, мы предлагаем InternSVG — унифицированную MLLM для понимания, редактирования и генерации SVG, использующую специальные токены для SVG, инициализацию вложений на основе субслов и двухэтапную стратегию обучения, которая переходит от коротких статических SVG к длинным последовательностям иллюстраций и сложным анимациям. Эта унифицированная формулировка способствует положительному трансферу и улучшает общую производительность. Эксперименты на SArena и предыдущих бенчмарках подтверждают, что InternSVG достигает значительных улучшений и стабильно превосходит ведущие открытые и проприетарные аналоги.

Разоблачение обучения с подкреплением в агентном рассуждении
Demystifying Reinforcement Learning in Agentic Reasoning

Oct 13

ByZhaochen Yu, Ling Yang, Jiaru Zou, Shuicheng Yan, Mengdi Wang

Недавно появление агентного обучения с подкреплением (RL) продемонстрировало, что RL также может эффективно улучшать способность крупных языковых моделей (LLM) к агентному рассуждению, однако ключевые принципы проектирования и оптимальные практики остаются неясными. В данной работе мы проводим всестороннее и систематическое исследование, чтобы раскрыть суть обучения с подкреплением в контексте агентного рассуждения с трех ключевых перспектив: данные, алгоритм и режим рассуждения. Мы выделяем наши основные выводы: (i) Замена сшитых синтетических траекторий реальными сквозными траекториями использования инструментов обеспечивает гораздо более сильную инициализацию SFT; высокодиверсифицированные, учитывающие модель наборы данных поддерживают исследование и значительно улучшают производительность RL. (ii) Методы, способствующие исследованию, имеют решающее значение для агентного RL, такие как ограничение высоких значений, формирование наград для длинных последовательностей и поддержание достаточной энтропии политики, что может повысить эффективность обучения. (iii) Стратегия обдумывания с меньшим количеством вызовов инструментов превосходит частые вызовы инструментов или многословное саморассуждение, улучшая эффективность использования инструментов и итоговую точность. В совокупности эти простые практики последовательно улучшают агентное рассуждение и эффективность обучения, достигая сильных результатов на сложных бенчмарках с меньшими моделями и устанавливая практическую основу для будущих исследований агентного RL. Помимо этих эмпирических выводов, мы также вносим вклад в виде высококачественного набора данных для сквозного агентного SFT и высококачественного набора данных для RL, демонстрируя эффективность наших идей в повышении способности LLM к агентному рассуждению на четырех сложных бенчмарках, включая AIME2024/AIME2025, GPQA-Diamond и LiveCodeBench-v6. С использованием наших рекомендаций модели размером 4B также могут достичь превосходной производительности в агентном рассуждении по сравнению с моделями размером 32B. Код и модели: https://github.com/Gen-Verse/Open-AgentRL.

DiT360: Генерация высококачественных панорамных изображений с использованием гибридного обучения
DiT360: High-Fidelity Panoramic Image Generation via Hybrid Training

Oct 13

ByHaoran Feng, Dizhe Zhang, Xiangtai Li, Bo Du, Lu Qi

В данной работе мы представляем DiT360 — фреймворк на основе DiT, который выполняет гибридное обучение на перспективных и панорамных данных для генерации панорамных изображений. Проблемы сохранения геометрической точности и фотореализма в качестве генерации мы связываем с отсутствием крупномасштабных, высококачественных панорамных данных из реального мира, что отличает наш подход, ориентированный на данные, от предыдущих методов, сосредоточенных на проектировании моделей. В основе DiT360 лежат несколько ключевых модулей для междоменных преобразований и внутридоменного расширения, применяемых как на уровне изображений до VAE, так и на уровне токенов после VAE. На уровне изображений мы интегрируем междоменные знания через руководство перспективными изображениями и панорамное уточнение, что улучшает воспринимаемое качество, одновременно регулируя разнообразие и фотореализм. На уровне токенов применяется гибридное обучение в нескольких модулях, включая циклическое заполнение для непрерывности границ, потерю по углу рыскания для устойчивости к вращению и потерю по кубу для осознания искажений. Многочисленные эксперименты на задачах текста-в-панораму, восстановления и расширения изображений демонстрируют, что наш метод обеспечивает лучшую согласованность границ и точность изображений по одиннадцати количественным метрикам. Наш код доступен по адресу https://github.com/Insta360-Research-Team/DiT360.

AVoCaDO: Аудиовизуальный генератор видеоподписей, управляемый временной оркестровкой
AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration

Oct 12

ByXinlong Chen, Yue Ding, Weihong Lin, Jingyun Hua, Linli Yao, Yang Shi, Bozhou Li, Yuanxing Zhang, Qiang Liu, Pengfei Wan, Liang Wang, Tieniu Tan

Аудиовизуальное создание субтитров для видео направлено на генерацию семантически насыщенных описаний с временным согласованием визуальных и звуковых событий, что способствует как пониманию, так и созданию видео. В данной статье мы представляем AVoCaDO — мощный аудиовизуальный генератор субтитров, основанный на временной координации аудио- и визуальных модальностей. Мы предлагаем двухэтапный процесс пост-обучения: (1) AVoCaDO SFT, который дообучает модель на новом наборе данных, содержащем 107 тысяч высококачественных, временно согласованных аудиовизуальных субтитров; и (2) AVoCaDO GRPO, который использует специализированные функции вознаграждения для дальнейшего улучшения временной согласованности и точности диалогов, одновременно регулируя длину субтитров и предотвращая коллапс. Экспериментальные результаты показывают, что AVoCaDO значительно превосходит существующие открытые модели на четырех бенчмарках аудиовизуального создания субтитров, а также демонстрирует конкурентоспособные результаты на бенчмарках VDC и DREAM-1K в условиях использования только визуальных данных.

BrowserAgent: Создание веб-агентов с действиями для просмотра веб-страниц, вдохновленными поведением человека
BrowserAgent: Building Web Agents with Human-Inspired Web Browsing Actions

Oct 12

ByZhengbo Zhang, Zhiheng Lyu, Junhao Gong, Hongzhu Yi, Xinming Wang, Yuxuan Zhou, Jiabing Yang, Ping Nie, Yan Huang, Wenhu Chen

Эффективное решение реальных задач с использованием больших языковых моделей (LLM) всё больше зависит от их способности взаимодействовать с динамическими веб-средами и автономно получать внешнюю информацию. Хотя недавние исследования, такие как Search-R1 и WebDancer, демонстрируют высокую производительность в решении веб-задач, они сильно полагаются на дополнительные инструменты для преобразования интерактивной веб-среды в статический текстовый контент. Это контрастирует с поведением человека при просмотре веб-страниц, которое включает разнообразные взаимодействия с браузером, такие как прокрутка, клики и ввод текста. В данной статье мы предлагаем BrowserAgent — более интерактивного агента, который решает сложные задачи с помощью действий, вдохновлённых поведением человека в браузере. BrowserAgent работает напрямую с исходными веб-страницами через Playwright, используя набор предопределённых действий браузера. Мы применяем двухэтапное обучение (Supervised Fine-Tuning (SFT) и Rejection Fine-Tuning (RFT)) для улучшения способностей модели к обобщению. Несмотря на использование значительно меньшего объёма обучающих данных по сравнению с Search-R1, BrowserAgent демонстрирует более конкурентоспособные результаты в различных задачах Open-QA. Кроме того, мы вводим явный механизм памяти для хранения ключевых выводов между шагами, что дополнительно улучшает способности модели к рассуждению в задачах с длительным горизонтом. Примечательно, что BrowserAgent-7B может достичь улучшения примерно на 20% по сравнению с Search-R1 в задачах многошагового QA, таких как HotpotQA, 2Wiki и Bamboogle. Эти результаты указывают на то, что BrowserAgent может служить более продвинутой основой для создания более интерактивных и масштабируемых веб-агентов.

Не просто тонко настраивайте агента, настраивайте окружение.
Don't Just Fine-tune the Agent, Tune the Environment

Oct 11

BySiyuan Lu, Zechuan Wang, Hongxuan Zhang, Qintong Wu, Leilei Gan, Chenyi Zhuang, Jinjie Gu, Tao Lin

Агенты на основе больших языковых моделей (LLM) демонстрируют значительный потенциал для выполнения сложных многошаговых задач с использованием инструментов, однако их разработка часто затрудняется крайней нехваткой высококачественных обучающих данных. Настройка с учителем (SFT) на синтетических данных приводит к переобучению, тогда как стандартное обучение с подкреплением (RL) сталкивается с критической проблемой "холодного старта" и нестабильностью обучения. Для решения этих проблем мы представляем Environment Tuning — новый подход к обучению, который позволяет агентам осваивать сложные поведения непосредственно на основе экземпляров задач, без использования заранее собранных экспертных траекторий. Environment Tuning организует процесс обучения через структурированный учебный план, модификацию среды, предоставляющую корректирующую обратную связь, и детализированные награды за прогресс, что обеспечивает стабильное и эффективное исследование. Используя всего 400 экземпляров задач из бенчмарка Berkeley Function-Calling Leaderboard (BFCL), наш метод не только достигает конкурентоспособных результатов на распределении данных, но и демонстрирует превосходную обобщающую способность на новых данных, преодолевая характерный для SFT-подходов сбой производительности. Наша работа представляет собой смену парадигмы: от настройки с учителем на статических траекториях к динамическому исследованию, основанному на взаимодействии со средой, прокладывая путь для обучения более устойчивых и эффективных в использовании данных агентов.

DocReward: Модель оценки документов для структурирования и стилизации
DocReward: A Document Reward Model for Structuring and Stylizing

Oct 13

ByJunpeng Liu, Yuzhong Zhao, Bowen Cao, Jiayu Ding, Yilin Jia, Tengchao Lv, Yupan Huang, Shaohan Huang, Nan Yang, Li Dong, Lei Cui, Tao Ge, Xun Wang, Huitian Jiao, Sun Mao, FNU Kartik, Si-Qing Chen, Wai Lam, Furu Wei

Последние достижения в области агентных рабочих процессов позволили автоматизировать такие задачи, как создание профессиональных документов. Однако они в основном сосредоточены на текстовом качестве, пренебрегая визуальной структурой и стилем, которые имеют решающее значение для удобочитаемости и привлекательности. Этот пробел возникает главным образом из-за отсутствия подходящих моделей вознаграждения, которые могли бы направлять агентные рабочие процессы на создание документов с более сильной структурной и стилистической качественностью. Для решения этой проблемы мы предлагаем DocReward — модель вознаграждения для документов, которая оценивает документы на основе их структуры и стиля. Мы создали многодоменный набор данных DocPair, состоящий из 117 тысяч пар документов, охватывающих 32 домена и 267 типов документов, каждый из которых включает документ с высоким и низким уровнем профессионализма, имеющий идентичное содержание, но различающийся структурой и стилем. Это позволяет модели оценивать профессионализм комплексно и независимо от текстового качества. DocReward обучается с использованием функции потерь Брэдли-Терри для оценки документов, штрафуя предсказания, противоречащие аннотированному ранжированию. Для оценки производительности моделей вознаграждения мы создали тестовый набор данных, содержащий наборы документов, ранжированные высокообразованными экспертами. Примечательно, что DocReward превосходит GPT-4o и GPT-5 по точности на 30,6 и 19,4 процентных пункта соответственно, демонстрируя свое превосходство над базовыми моделями. В рамках внешней оценки генерации документов DocReward достигает значительно более высокой доли побед — 60,8%, по сравнению с 37,7% у GPT-5, что подтверждает его полезность в направлении генеративных агентов на создание документов, предпочитаемых людьми.

Создание базового защитного механизма для универсальных агентных систем с использованием синтетических данных
Building a Foundational Guardrail for General Agentic Systems via Synthetic Data

Oct 10

ByYue Huang, Hang Hua, Yujun Zhou, Pengcheng Jing, Manish Nagireddy, Inkit Padhi, Greta Dolcetti, Zhangchen Xu, Subhajit Chaudhury, Ambrish Rawat, Liubov Nedoshivina, Pin-Yu Chen, Prasanna Sattigeri, Xiangliang Zhang

Хотя агенты на основе крупных языковых моделей (LLM) способны планировать многошаговые задачи, вмешательство на этапе планирования — до выполнения каких-либо действий — часто является самым безопасным способом предотвращения вреда, поскольку определенные риски могут привести к серьезным последствиям, если их реализовать. Однако существующие защитные механизмы в основном работают постфактум, что сложно масштабировать и оставляет мало возможностей для контролируемого надзора на уровне плана. Чтобы решить эту проблему, мы выделяем три ключевых пробела в текущих исследованиях: пробел в данных, пробел в моделях и пробел в оценке. Для устранения пробела в данных мы представляем AuraGen — управляемый механизм, который (i) синтезирует безопасные траектории, (ii) внедряет риски с категориальной маркировкой и калиброванной сложностью и (iii) фильтрует выходные данные с помощью автоматизированной модели вознаграждения, создавая большие и надежные корпуса для обеспечения безопасности до выполнения. Для устранения пробела в моделях-защитниках мы предлагаем базовый защитный механизм Safiron, сочетающий адаптер для кросс-планирования с компактной моделью-защитником. Адаптер унифицирует различные форматы входных данных, а Safiron выявляет рискованные случаи, присваивает типы рисков и генерирует обоснования; обученный в два этапа с использованием широко исследованного набора данных, Safiron демонстрирует устойчивую передачу знаний в различных условиях. Для устранения пробела в оценке мы выпускаем Pre-Exec Bench — реалистичный бенчмарк, охватывающий разнообразные инструменты и ветвящиеся траектории, который измеряет обнаружение, детальную категоризацию, объяснение и обобщение между планировщиками в сценариях, проверенных людьми. Многочисленные эксперименты демонстрируют стабильные преимущества предложенного защитного механизма по сравнению с сильными базовыми моделями на Pre-Exec Bench, а анализ дополнительно выделяет практические рекомендации, предоставляя практический шаблон для создания более безопасных агентских систем.

ACADREASON: Исследование границ моделей рассуждений на примере академических исследовательских задач
ACADREASON: Exploring the Limits of Reasoning Models with Academic Research Problems

Oct 13

ByXin Gui, King Zhu, JinCheng Ren, Qianben Chen, Zekun Moore Wang, Yizhi LI, Xinpeng Liu, Xiaowan Li, Wenli Ren, Linyu Miao, Tianrui Qin, Ziqi Shu, He Zhu, Xiangru Tang, Dingfeng Shi, Jiaheng Liu, Yuchen Eleanor Jiang, Minghao Liu, Ge Zhang, Wangchunshu Zhou

В последние годы фокус исследований в области больших языковых моделей (LLM) и агентов постепенно смещается от демонстрации новых возможностей к сложным рассуждениям и решению сложных задач. Однако существующие методы оценки в основном сосредоточены на математических/программных соревнованиях или общих задачах, тогда как существующие междисциплинарные академические тесты недостаточно глубоки с точки зрения рассуждений, оставляя область без строгого эталона для высокоуровневого мышления. Чтобы заполнить этот пробел, мы представляем тест Acadreason, разработанный для оценки способности LLM и агентов приобретать и рассуждать на основе академических знаний. Он состоит из 50 экспертно аннотированных академических задач, охватывающих пять областей, требующих глубокого мышления: информатика, экономика, право, математика и философия. Все вопросы взяты из ведущих публикаций последних лет и проходят строгую аннотацию и контроль качества, чтобы гарантировать их сложность и возможность ответа. Мы провели систематическую оценку более чем 10 популярных LLM и агентов. Результаты показывают, что большинство LLM набрали менее 20 баллов, а даже передовая модель GPT-5 достигла лишь 16 баллов. Хотя агенты показали более высокие результаты, ни один из них не превысил 40 баллов. Это демонстрирует текущий разрыв в возможностях между LLM и агентами в задачах сверхинтеллектуального академического исследования и подчеркивает сложность теста Acadreason.

GAR: Генеративно-состязательное обучение с подкреплением для формального доказательства теорем
GAR: Generative Adversarial Reinforcement Learning for Formal Theorem Proving

Oct 13

ByRuida Wang, Jiarui Yao, Rui Pan, Shizhe Diao, Tong Zhang

Решение математических задач с использованием проверяемых языков, таких как Lean, оказало значительное влияние как на математическое, так и на компьютерное научное сообщество. Современные передовые модели часто обучаются с использованием дорогостоящего онлайн-обучения с подкреплением (Reinforcement Learning, RL) или итераций с участием экспертов. Однако эти подходы опираются на фиксированные наборы задач, что приводит к неэффективному обучению и ограничивает способность модели решать сложные проблемы. Чтобы преодолеть эти ограничения, мы предлагаем GAR: Generative Adversarial Reinforcement learning — комплексную структуру обучения с подкреплением, которая совместно обучает генератор задач и решатель в рамках состязательного цикла. GAR вводит механизм неявного обучения по учебному плану, который согласовывает сложность задач с развивающимися возможностями решателя. Это повышает эффективность обучения и позволяет достичь более высоких результатов в доказательстве сложных теорем. Эксперименты показывают, что при обучении с использованием GAR модели Goedel-Prover-V2-8B и DeepSeek-Prover-V2-7B демонстрируют среднее относительное улучшение в метрике pass@32 на 4,20% на тестовом наборе MiniF2F-Test, в то время как показатель pass@32 для DeepSeek-Prover-V2 на ProofNet-Test увеличивается с 22,58% до 25,81%. Помимо формального доказательства, GAR устанавливает общую парадигму обучения с подкреплением для совместной эволюции генерации задач и их решения в проверяемых средах.

Создание адаптивного математического рассуждения
Making Mathematical Reasoning Adaptive

Oct 6

ByZhejian Lai, Xiang Geng, Zhijun Wang, Yang Bai, Jiahuan Li, Rongxiang Weng, Jingang Wang, Xuezhi Cao, Xunliang Cai, Shujian Huang

Математическое рассуждение является ключевым показателем интеллекта больших языковых моделей (LLM). Однако существующие LLM демонстрируют недостатки в устойчивости и обобщаемости. В данной статье эти недостатки связываются с ложными рассуждениями, то есть с генерацией ответов на основе поверхностных признаков. Для решения этой проблемы мы предлагаем фреймворк AdaR, который обеспечивает адаптивное рассуждение, при котором модели опираются на логику решения задач для генерации ответов. AdaR синтезирует логически эквивалентные запросы путем изменения значений переменных и обучает модели с использованием RLVR на этих данных, чтобы наказывать ложную логику и поощрять адаптивную. Для повышения качества данных мы извлекаем логику решения задачи из исходного запроса и генерируем соответствующий ответ путем выполнения кода, после чего применяем проверку на корректность. Экспериментальные результаты показывают, что AdaR улучшает устойчивость и обобщаемость, достигая значительного прогресса в математическом рассуждении при сохранении высокой эффективности данных. Анализ указывает на то, что синтез данных и RLVR работают согласованно, обеспечивая адаптивное рассуждение в LLM. Последующие анализы выявляют ключевые идеи проектирования, касающиеся влияния критических факторов и применимости для обучения LLM. Наш проект доступен по адресу https://github.com/LaiZhejian/AdaR.

FinAuditing: Многодокументный эталонный набор данных с финансовой таксономической структурой для оценки языковых моделей
FinAuditing: A Financial Taxonomy-Structured Multi-Document Benchmark for Evaluating LLMs

Oct 10

ByYan Wang, Keyi Wang, Shanshan Yang, Jaisal Patel, Jeff Zhao, Fengran Mo, Xueqing Peng, Lingfei Qian, Jimin Huang, Guojun Xiong, Xiao-Yang Liu, Jian-Yun Nie

Сложность Общепринятых принципов бухгалтерского учёта (GAAP) и иерархическая структура отчётов, составленных на языке eXtensible Business Reporting Language (XBRL), делают автоматизацию и проверку финансового аудита всё более трудной задачей. Хотя крупные языковые модели (LLM) продемонстрировали высокие способности в понимании неструктурированного текста, их способность к рассуждению над структурированными, взаимозависимыми и таксономически обусловленными финансовыми документами остаётся в значительной степени неисследованной. Чтобы заполнить этот пробел, мы представляем FinAuditing — первый таксономически выровненный, учитывающий структуру, многодокументный бенчмарк для оценки LLM в задачах финансового аудита. Созданный на основе реальных отчётов XBRL, соответствующих US-GAAP, FinAuditing определяет три взаимодополняющих подзадачи: FinSM для семантической согласованности, FinRE для реляционной согласованности и FinMR для численной согласованности, каждая из которых направлена на отдельный аспект структурированного аудиторского рассуждения. Мы также предлагаем унифицированную систему оценки, интегрирующую метрики поиска, классификации и рассуждения для этих подзадач. Масштабные эксперименты с нулевым обучением на 13 современных LLM показывают, что текущие модели демонстрируют нестабильные результаты в семантическом, реляционном и математическом измерениях, с падением точности до 60–90% при рассуждении над иерархическими многодокументными структурами. Наши результаты выявляют систематические ограничения современных LLM в таксономически обоснованном финансовом рассуждении и устанавливают FinAuditing в качестве основы для разработки надёжных, учитывающих структуру и соответствующих нормативным требованиям систем финансового интеллекта. Бенчмарк-набор данных доступен на Hugging Face.

Vlaser: Модель "Видение-Язык-Действие" с синергетическим воплощённым рассуждением
Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning

Oct 13

ByGanlin Yang, Tianyi Zhang, Haoran Hao, Weiyun Wang, Yibin Liu, Dehui Wang, Guanzhou Chen, Zijian Cai, Junting Chen, Weijie Su, Wengang Zhou, Yu Qiao, Jifeng Dai, Jiangmiao Pang, Gen Luo, Wenhai Wang, Yao Mu, Zhi Hou

Хотя значительные исследования были сосредоточены на разработке способностей к воплощенному рассуждению с использованием моделей "Визия-Язык" (Vision-Language Models, VLMs) или интеграции продвинутых VLMs в модели "Визия-Язык-Действие" (Vision-Language-Action, VLA) для сквозного управления роботами, лишь немногие работы непосредственно затрагивают критический разрыв между рассуждениями на основе VLMs и обучением политик VLA. В данной работе мы делаем первый шаг к объединению воплощенного рассуждения с обучением политик VLA, представляя Vlaser — модель "Визия-Язык-Действие" с синергетической способностью к воплощенному рассуждению, которая представляет собой базовую модель "Визия-Язык", предназначенную для интеграции высокоуровневого рассуждения с низкоуровневым управлением для воплощенных агентов. Построенная на основе высококачественного набора данных Vlaser-6M, модель Vlaser демонстрирует наилучшие результаты на ряде бенчмарков для воплощенного рассуждения, включая пространственное рассуждение, воплощенное заземление, воплощенные вопросы и ответы, а также планирование задач. Кроме того, мы систематически исследуем, как различные инициализации VLMs влияют на контролируемую тонкую настройку VLA, предлагая новые идеи для смягчения сдвига домена между данными предварительного обучения интернет-масштаба и данными для обучения политик, специфичных для воплощенных систем. На основе этих идей наш подход достигает наилучших результатов на бенчмарке WidowX и конкурентоспособных показателей на бенчмарке Google Robot.

GIR-Bench: Универсальный бенчмарк для генерации изображений с использованием логического рассуждения
GIR-Bench: Versatile Benchmark for Generating Images with Reasoning

Oct 13

ByHongxiang Li, Yaowei Li, Bin Lin, Yuwei Niu, Yuhang Yang, Xiaoshuang Huang, Jiayin Cai, Xiaolong Jiang, Yao Hu, Long Chen

Унифицированные мультимодальные модели объединяют способность к рассуждению крупных языковых моделей с пониманием и генерацией изображений, демонстрируя значительный потенциал для развития продвинутого мультимодального интеллекта. Однако в сообществе до сих пор отсутствует строгий бенчмарк, ориентированный на рассуждения, который бы систематически оценивал согласованность между пониманием и генерацией, а также их потенциал обобщения в сложных визуальных задачах. В связи с этим мы представляем GIR-Bench — комплексный бенчмарк, который оценивает унифицированные модели с трех взаимодополняющих перспектив. Во-первых, мы исследуем согласованность понимания и генерации (GIR-Bench-UGC), проверяя, могут ли модели последовательно использовать одни и те же знания в задачах понимания и генерации. Во-вторых, мы изучаем, способны ли модели выполнять генерацию изображений на основе текста, ориентированную на рассуждения, которая требует применения логических ограничений и неявных знаний для создания достоверного визуального контента (GIR-Bench-T2I). В-третьих, мы оцениваем, могут ли модели справляться с многошаговыми рассуждениями в задачах редактирования (GIR-Bench-Edit). Для каждого подмножества мы тщательно разрабатываем специализированные оценочные конвейеры, адаптированные для конкретных задач. Это позволяет проводить детальную и интерпретируемую оценку, минимизируя предвзятость, присущую распространенной парадигме MLLM-as-a-Judge. Обширные эксперименты с различными унифицированными моделями и системами, ориентированными исключительно на генерацию, показали, что, хотя унифицированные модели более способны к решению задач, требующих рассуждений, между их пониманием и генерацией сохраняется значительный разрыв. Данные и код для GIR-Bench доступны по адресу https://hkust-longgroup.github.io/GIR-Bench{https://hkust-longgroup.github.io/GIR-Bench}.

AdaViewPlanner: Адаптация моделей диффузии видео для планирования точек обзора в 4D-сценах
AdaViewPlanner: Adapting Video Diffusion Models for Viewpoint Planning in 4D Scenes

Oct 12

ByYu Li, Menghan Xia, Gongye Liu, Jianhong Bai, Xintao Wang, Conglang Zhang, Yuxuan Lin, Ruihang Chu, Pengfei Wan, Yujiu Yang

Последние модели преобразования текста в видео (Text-to-Video, T2V) продемонстрировали мощные возможности в визуальной симуляции геометрии реального мира и физических законов, что указывает на их потенциал в качестве неявных моделей мира. Вдохновленные этим, мы исследуем возможность использования априорных знаний о генерации видео для планирования точек обзора на основе заданных 4D-сцен, поскольку видео внутренне сопровождают динамические сцены с естественными точками обзора. Для этого мы предлагаем двухэтапную парадигму адаптации предварительно обученных моделей T2V для предсказания точек обзора в совместимом формате. Сначала мы внедряем представление 4D-сцены в предварительно обученную модель T2V через адаптивную ветвь обучения, где 4D-сцена не зависит от точки обзора, а сгенерированное видео визуально встраивает точки обзора. Затем мы формулируем извлечение точки обзора как процесс денизинга внешних параметров камеры, управляемый гибридными условиями. В частности, на предварительно обученную модель T2V добавляется ветвь диффузии внешних параметров камеры, которая принимает сгенерированное видео и 4D-сцену в качестве входных данных. Экспериментальные результаты показывают превосходство нашего предложенного метода над существующими конкурентами, а исследования с исключением компонентов подтверждают эффективность наших ключевых технических решений. В некоторой степени эта работа доказывает потенциал моделей генерации видео для взаимодействия с 4D-сценами в реальном мире.

SPG: Сэндвич-метод градиента политики для маскированных диффузионных языковых моделей
SPG: Sandwiched Policy Gradient for Masked Diffusion Language Models

Oct 10

ByChenyu Wang, Paria Rashidinejad, DiJia Su, Song Jiang, Sid Wang, Siyan Zhao, Cai Zhou, Shannon Zejiang Shen, Feiyu Chen, Tommi Jaakkola, Yuandong Tian, Bo Liu

Диффузионные большие языковые модели (dLLMs) становятся эффективной альтернативой авторегрессивным моделям благодаря их способности декодировать несколько токенов параллельно. Однако согласование dLLM с человеческими предпочтениями или задачами, специфичными для вознаграждений, с помощью обучения с подкреплением (RL), является сложной задачей, поскольку их невычислимая логарифмическая вероятность исключает прямое применение стандартных методов градиента политики. Хотя предыдущие работы используют суррогаты, такие как нижняя граница доказательства (ELBO), эти односторонние аппроксимации могут вносить значительную погрешность в градиент политики. Для решения этой проблемы мы предлагаем метод "Сэндвич-градиент политики" (SPG), который использует как верхнюю, так и нижнюю границу истинной логарифмической вероятности. Эксперименты показывают, что SPG значительно превосходит базовые методы, основанные на ELBO или одношаговой оценке. В частности, SPG улучшает точность по сравнению с современными методами RL для dLLM на 3,6% в GSM8K, 2,6% в MATH500, 18,4% в Countdown и 27,0% в Sudoku.

О эпистемической неопределенности визуальных токенов для галлюцинаций объектов в крупных визуально-языковых моделях
On Epistemic Uncertainty of Visual Tokens for Object Hallucinations in Large Vision-Language Models

Oct 10

ByHoigi Seo, Dong Un Kang, Hyunjin Cho, Joohoon Lee, Se Young Chun

Крупные модели, объединяющие обработку изображений и текста (LVLMs), которые интегрируют визуальный кодировщик (VE) с большой языковой моделью, достигли значительных успехов в решении различных задач. Однако в LVLMs по-прежнему существуют важные проблемы, такие как галлюцинации объектов, когда модель генерирует описания объектов, отсутствующих на входном изображении. В данной работе мы утверждаем, что неопределенные визуальные токены внутри VE являются ключевым фактором, способствующим возникновению галлюцинаций объектов. Наш статистический анализ показал, что существует положительная корреляция между визуальными токенами с высокой эпистемической неопределенностью и частотой возникновения галлюцинаций. Кроме того, мы теоретически и эмпирически демонстрируем, что визуальные токены в ранних слоях VE, которые демонстрируют значительные отклонения представлений при малых адверсарных возмущениях, указывают на высокую эпистемическую неопределенность. На основе этих выводов мы предлагаем простую, но эффективную стратегию для снижения галлюцинаций объектов, модифицируя только VE. Наш метод включает прокси-метод с адверсарными возмущениями для эффективного выявления неопределенных визуальных токенов и метод маскирования этих неопределенных визуальных токенов в процессе самовнимания в средних слоях VE, что подавляет их влияние на визуальное кодирование и, таким образом, уменьшает галлюцинации. Многочисленные эксперименты показывают, что наш метод значительно снижает галлюцинации объектов в LVLMs и может синергетически работать с другими существующими подходами.

CodePlot-CoT: Математическое визуальное рассуждение через мышление с использованием изображений, управляемых кодом
CodePlot-CoT: Mathematical Visual Reasoning by Thinking with Code-Driven Images

Oct 13

ByChengqi Duan, Kaiyue Sun, Rongyao Fang, Manyuan Zhang, Yan Feng, Ying Luo, Yufang Liu, Ke Wang, Peng Pei, Xunliang Cai, Hongsheng Li, Yi Ma, Xihui Liu

Последние достижения в области больших языковых моделей (LLM) и визуально-языковых моделей (VLM) продемонстрировали значительный прогресс в математических рассуждениях, однако они по-прежнему сталкиваются с критическим ограничением при решении задач, требующих визуальной поддержки, таких как построение вспомогательных линий или графиков функций. Большинство LLM и VLM ограничены текстовыми цепочками рассуждений, в то время как мультимодальные унифицированные модели, способные генерировать чередующийся текст и изображения, не обладают необходимой точностью и управляемостью для таких задач. Для решения этой проблемы мы предлагаем CodePlot-CoT, код-ориентированную парадигму цепочки рассуждений (Chain-of-Thought) для "мышления с изображениями" в математике. Наш подход использует VLM для генерации текстовых рассуждений, а также исполняемого кода построения графиков, который затем визуализируется в виде изображений как "визуальная мысль" для решения математических задач. Для достижения этой цели мы сначала создаем Math-VR, первый крупномасштабный двуязычный набор данных и бенчмарк для математических задач с визуальными рассуждениями, содержащий 178 тысяч образцов. Во-вторых, для создания высококачественных обучающих данных мы разрабатываем современный конвертер изображений в код, специализированный для преобразования сложных математических графиков в код. Наконец, используя эти данные, мы обучаем модель CodePlot-CoT для решения математических задач. Экспериментальные результаты показывают, что наша модель демонстрирует увеличение производительности до 21% по сравнению с базовой моделью на нашем новом бенчмарке, полностью подтверждая эффективность предложенной код-ориентированной парадигмы рассуждений. Наша работа открывает новое направление для мультимодальных математических рассуждений и предоставляет сообществу первый крупномасштабный набор данных, комплексный бенчмарк и мощный подход для решения таких задач. Для содействия будущим исследованиям мы делаем наши наборы данных, код и предобученные модели общедоступными по адресу https://github.com/HKU-MMLab/Math-VR-CodePlot-CoT.

SwarmSys: Децентрализованные агенты, вдохновленные роевым интеллектом, для масштабируемого и адаптивного принятия решений
SwarmSys: Decentralized Swarm-Inspired Agents for Scalable and Adaptive Reasoning

Oct 11

ByRuohao Li, Hongjun Liu, Leyi Zhao, Zisu Li, Jiawei Li, Jiajun Jiang, Linning Xu, Chen Zhao, Mingming Fan, Chen Liang

Агенты на основе больших языковых моделей (LLM) продемонстрировали выдающиеся способности к рассуждению. Однако существующие многозадачные фреймворки часто полагаются на фиксированные роли или централизованное управление, что ограничивает масштабируемость и адаптивность в задачах долгосрочного рассуждения. Мы представляем SwarmSys — замкнутую фреймворк-систему для распределенного многозадачного рассуждения, вдохновленную роевым интеллектом. Координация в SwarmSys возникает благодаря итеративному взаимодействию между тремя специализированными ролями: Исследователями, Работниками и Валидаторами, которые циклически проходят этапы исследования, эксплуатации и проверки. Для обеспечения масштабируемого и адаптивного взаимодействия мы интегрируем адаптивные профили агентов и событий, вероятностное сопоставление на основе эмбеддингов и механизм подкрепления, вдохновленный феромонами, что поддерживает динамическое распределение задач и самоорганизующуюся сходимость без глобального контроля. В задачах символического рассуждения, синтеза исследований и научного программирования SwarmSys стабильно превосходит базовые подходы, улучшая как точность, так и стабильность рассуждений. Эти результаты подчеркивают, что координация, вдохновленная роевым интеллектом, представляет собой перспективную парадигму для масштабируемого, устойчивого и адаптивного многозадачного рассуждения, предполагая, что масштабирование координации может конкурировать с масштабированием моделей в развитии интеллекта LLM.

Stable Video Infinity: Генерация видео бесконечной длины с переработкой ошибок
Stable Video Infinity: Infinite-Length Video Generation with Error Recycling

Oct 10

ByWuyang Li, Wentao Pan, Po-Chien Luan, Yang Gao, Alexandre Alahi

Мы представляем Stable Video Infinity (SVI), способный генерировать видео бесконечной длины с высокой временной согласованностью, правдоподобными переходами между сценами и управляемыми сюжетными линиями. В то время как существующие методы для создания длинных видео пытаются смягчить накопленные ошибки с помощью ручных антидрейфовых техник (например, модифицированного планировщика шума или привязки кадров), они остаются ограниченными экстраполяцией по одному запросу, создавая однородные сцены с повторяющимися движениями. Мы выявили, что фундаментальная проблема выходит за рамки накопления ошибок и заключается в критическом несоответствии между предположением при обучении (работа с чистыми данными) и реальностью авторегрессивного тестирования (условие на основе самостоятельно сгенерированных, подверженных ошибкам выходов). Чтобы преодолеть этот разрыв, SVI включает в себя Error-Recycling Fine-Tuning — новый тип эффективного обучения, который перерабатывает ошибки, сгенерированные Diffusion Transformer (DiT), в обучающие подсказки, тем самым побуждая DiT активно идентифицировать и исправлять свои собственные ошибки. Это достигается за счет внедрения, сбора и сохранения ошибок через замкнутый цикл переработки, авторегрессивно обучаясь на основе обратной связи с внедренными ошибками. В частности, мы (i) внедряем исторические ошибки, допущенные DiT, чтобы вмешиваться в чистые входные данные, моделируя траектории с накопленными ошибками в потоковом сопоставлении; (ii) эффективно аппроксимируем предсказания с помощью одношаговой двунаправленной интеграции и вычисляем ошибки через остатки; (iii) динамически сохраняем ошибки в памяти воспроизведения на дискретизированных временных шагах, которые повторно используются для новых входных данных. SVI способен масштабировать видео от секунд до бесконечной длительности без дополнительных затрат на вывод, оставаясь совместимым с разнообразными условиями (например, аудио, скелет и текстовые потоки). Мы оцениваем SVI на трех тестовых наборах, включая согласованные, творческие и условные сценарии, тщательно проверяя его универсальность и передовую роль.

Генерация высокоточных симулированных данных для обучения роботизированному манипулированию в реальных условиях с нулевым опытом с использованием гауссовского сплайнинга
High-Fidelity Simulated Data Generation for Real-World Zero-Shot Robotic Manipulation Learning with Gaussian Splatting

Oct 12

ByHaoyu Zhao, Cheng Zeng, Linghao Zhuang, Yaxi Zhao, Shengke Xue, Hao Wang, Xingyue Zhao, Zhongyu Li, Kehan Li, Siteng Huang, Mingxiu Chen, Xin Li, Deli Zhao, Hua Zou

Масштабируемость обучения роботов фундаментально ограничена значительными затратами и трудоемкостью сбора данных в реальном мире. Хотя симулированные данные предлагают масштабируемую альтернативу, они часто не обобщаются на реальный мир из-за существенных различий в визуальном представлении, физических свойствах и взаимодействиях объектов. Для решения этой проблемы мы предлагаем RoboSimGS, новый фреймворк Real2Sim2Real, который преобразует многовидовые изображения реального мира в масштабируемые, высокоточные и физически интерактивные симуляционные среды для манипуляций роботов. Наш подход воссоздает сцены с использованием гибридного представления: 3D Gaussian Splatting (3DGS) захватывает фотореалистичный вид окружения, в то время как примитивы мешей для интерактивных объектов обеспечивают точное физическое моделирование. Ключевым моментом является использование Multi-modal Large Language Model (MLLM) для автоматизации создания физически правдоподобных, сочлененных объектов. MLLM анализирует визуальные данные, чтобы вывести не только физические свойства (например, плотность, жесткость), но и сложные кинематические структуры (например, шарниры, направляющие) объектов. Мы демонстрируем, что политики, обученные исключительно на данных, сгенерированных RoboSimGS, успешно переносятся из симуляции в реальный мир (zero-shot sim-to-real transfer) в разнообразных задачах манипуляции. Более того, данные из RoboSimGS значительно улучшают производительность и способность к обобщению современных методов (SOTA). Наши результаты подтверждают, что RoboSimGS является мощным и масштабируемым решением для преодоления разрыва между симуляцией и реальностью.

FastHMR: Ускоренное восстановление человеческого меша за счет слияния токенов и слоев с декодированием на основе диффузии
FastHMR: Accelerating Human Mesh Recovery via Token and Layer Merging with Diffusion Decoding

Oct 13

BySoroush Mehraban, Andrea Iaboni, Babak Taati

Недавние трансформаторные модели для восстановления трехмерной сетки человеческого тела (3D Human Mesh Recovery, HMR) достигли высоких результатов, но часто страдают от высокой вычислительной сложности и избыточности из-за глубоких архитектур трансформаторов и излишних токенов. В данной статье мы представляем две стратегии объединения, специфичные для HMR: объединение слоев с ограничением по ошибке (Error-Constrained Layer Merging, ECLM) и объединение токенов на основе маски (Mask-guided Token Merging, Mask-ToMe). ECLM выборочно объединяет слои трансформаторов, которые оказывают минимальное влияние на среднюю ошибку положения суставов (Mean Per Joint Position Error, MPJPE), в то время как Mask-ToMe фокусируется на объединении фоновых токенов, которые мало влияют на итоговый прогноз. Для дальнейшего устранения возможного снижения производительности, вызванного объединением, мы предлагаем диффузионный декодер, который учитывает временной контекст и использует априорные знания о позах, полученные из крупномасштабных наборов данных захвата движения. Эксперименты на нескольких бенчмарках показывают, что наш метод обеспечивает ускорение до 2,3 раза при незначительном улучшении производительности по сравнению с базовым подходом.

ReLook: Визуально-обоснованное обучение с подкреплением с мультимодальным LLM-критиком для агентного веб-кодирования
ReLook: Vision-Grounded RL with a Multimodal LLM Critic for Agentic Web Coding

Oct 13

ByYuhang Li, Chenchen Zhang, Ruilin Lv, Ao Liu, Ken Deng, Yuanxing Zhang, Jiaheng Liu, Wiggin Zhou, Bo Zhou

Хотя крупные языковые модели (LLM) превосходно справляются с генерацией алгоритмического кода, они испытывают трудности в разработке интерфейсов, где корректность оценивается по отображаемым пикселям и взаимодействию. Мы представляем ReLook — агентную, основанную на визуальном восприятии систему обучения с подкреплением, которая позволяет агенту замкнуть устойчивый цикл "генерация–диагностика–уточнение", используя мультимодальную языковую модель (MLLM) в качестве инструмента. Во время обучения агент использует MLLM в цикле как визуального критика, оценивающего код на основе скриншотов, и как источник практической, основанной на визуальном восприятии обратной связи; строгое правило нулевого вознаграждения за невалидные рендеры обеспечивает рендеринг и предотвращает "взлом" системы вознаграждений. Чтобы избежать коллапса поведения, мы вводим Принудительную Оптимизацию — строгое правило принятия, допускающее только улучшающие изменения, что приводит к монотонному улучшению траекторий. На этапе вывода мы разделяем критика и запускаем легковесный цикл самокоррекции без критика, сохраняя задержку на уровне базового декодирования, при этом сохраняя большую часть достигнутых улучшений. На трех широко используемых бенчмарках ReLook стабильно превосходит сильные базовые модели в генерации интерфейсного кода, основанной на визуальном восприятии, подчеркивая преимущества агентного восприятия, визуальных вознаграждений и разделения обучения и вывода.

Самообучающиеся агенты на основе больших языковых моделей во время тестирования
Self-Improving LLM Agents at Test-Time

Oct 9

ByEmre Can Acikgoz, Cheng Qian, Heng Ji, Dilek Hakkani-Tür, Gokhan Tur

Один из подходов к тонкой настройке языковых моделей (LM) основывается на создании больших обучающих наборов данных, исходя из предположения, что высокая количественная и качественная разнородность позволит моделям обобщать знания для новых задач после обучения. На практике сбор больших наборов данных неэффективен, а их обучение чрезмерно дорого; что хуже, нет гарантии, что итоговая модель будет справляться со сложными сценариями или лучше обобщать. Более того, существующие методы редко оценивают, предоставляет ли обучающий образец новую информацию или является избыточным по отношению к уже усвоенным знаниям модели, что приводит к ненужным затратам. В данной работе мы исследуем новый метод самосовершенствования на этапе тестирования для создания более эффективных и обобщаемых агентных LM "на лету". Предложенный алгоритм можно свести к трем шагам: (i) сначала он идентифицирует образцы, с которыми модель испытывает трудности (самоосознание), (ii) затем генерирует похожие примеры на основе обнаруженных неопределенных образцов (самоаугментация данных) и (iii) использует эти вновь созданные образцы для тонкой настройки на этапе тестирования (самосовершенствование). Мы изучаем два варианта этого подхода: Самосовершенствование на этапе тестирования (TT-SI), где та же модель генерирует дополнительные обучающие примеры из своих неопределенных случаев и затем обучается на них, и сравниваем его с Дистилляцией на этапе тестирования (TT-D), где более мощная модель генерирует похожие примеры для неопределенных случаев, позволяя ученику адаптироваться с использованием дистиллированного надзора. Эмпирические оценки на различных бенчмарках для агентов показывают, что TT-SI улучшает производительность с абсолютным приростом точности на +5,48% в среднем по всем бенчмаркам и превосходит другие стандартные методы обучения, при этом используя в 68 раз меньше обучающих образцов. Наши результаты подчеркивают перспективность TT-SI, демонстрируя потенциал алгоритмов самосовершенствования на этапе тестирования как новой парадигмы для создания более способных агентов, стремящихся к самоэволюции.

Адаптивное обучение, ориентированное на навыки
Skill-Targeted Adaptive Training

Oct 11

ByYinghui He, Abhishek Panigrahi, Yong Lin, Sanjeev Arora

Языковые модели часто демонстрируют незначительное или отсутствующее улучшение (т.е. "насыщение") при обучении с помощью стандартного контролируемого тонкого настройки (SFT) на данных, похожих на те, что они видели в обучающем наборе (например, MATH). Мы представляем новую стратегию тонкого настройки, STAT, для обучения такой модели-студента, используя метакогнитивные способности более мощной крупной языковой модели (LLM) в качестве учителя. Учитель использует набор данных задачи для создания списка навыков, необходимых для выполнения задачи, а затем маркирует каждую точку данных требуемыми навыками (Didolkar et al., 2024). Наблюдая за ответами студента, учитель создает профиль недостающих навыков, отслеживая, как часто студент не смог применить каждый навык в своих ответах. Мы используем эту идею для построения модифицированного обучающего набора одним из двух способов. В STAT-Sel учитель использует существующий набор обучающих примеров, но адаптивно перевзвешивает их в соответствии с профилем недостающих навыков. В STAT-Syn учитель синтезирует дополнительные примеры, включающие недостающие навыки. В ходе обширных экспериментов на моделях Llama и Qwen наши методы обеспечивают улучшение до 7,5% на MATH, тогда как SFT дает лишь ограниченные улучшения. Кроме того, STAT повышает производительность на тестах вне распределения (например, AIME24/25, AMC23 и т.д.) в среднем на 4,6%. Важно отметить, что мы обнаружили, что STAT дополняет обучение с подкреплением через GRPO (Shao et al., 2024): после того, как модель улучшена с помощью STAT для устранения пробелов в навыках, GRPO продолжает добавлять дополнительные улучшения. Мы заключаем, что адаптивное обучение, ориентированное на навыки, должно значительно улучшить текущие обучающие процессы. Наш код доступен по адресу: https://github.com/princeton-pli/STAT.

Атакующий ходит вторым: более мощные адаптивные атаки обходят защиты от взлома LLM и инъекций в промпты
The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against Llm Jailbreaks and Prompt Injections

Oct 10

ByMilad Nasr, Nicholas Carlini, Chawin Sitawarin, Sander V. Schulhoff, Jamie Hayes, Michael Ilie, Juliette Pluto, Shuang Song, Harsh Chaudhari, Ilia Shumailov, Abhradeep Thakurta, Kai Yuanqing Xiao, Andreas Terzis, Florian Tramèr

Как следует оценивать устойчивость защитных механизмов языковых моделей? Современные защиты от взлома (jailbreaks) и инъекций в промпты (которые направлены на предотвращение получения вредоносных знаний или удаленного запуска вредоносных действий соответственно) обычно оцениваются либо на основе статичного набора вредоносных строк атак, либо против вычислительно слабых методов оптимизации, которые не были разработаны с учетом конкретной защиты. Мы утверждаем, что такой процесс оценки является ошибочным. Вместо этого защиты следует оценивать против адаптивных атакующих, которые явно изменяют свою стратегию атаки, чтобы противостоять дизайну защиты, при этом затрачивая значительные ресурсы на оптимизацию своей цели. Систематически настраивая и масштабируя общие методы оптимизации — градиентный спуск, обучение с подкреплением, случайный поиск и исследование с участием человека — мы обходим 12 недавних защит (основанных на разнообразных методах) с успешностью атак выше 90% для большинства; что важно, большинство этих защит изначально сообщали о почти нулевой успешности атак. Мы считаем, что будущие работы по защите должны учитывать более сильные атаки, подобные описанным нами, чтобы делать надежные и убедительные заявления об устойчивости.

HUME: Измерение разрыва в производительности между человеком и моделью в задаче текстового эмбеддинга
HUME: Measuring the Human-Model Performance Gap in Text Embedding Task

Oct 11

ByAdnan El Assadi, Isaac Chung, Roman Solomatin, Niklas Muennighoff, Kenneth Enevoldsen

Сравнение производительности человека и моделей предоставляет ценный взгляд на понимание сильных сторон и ограничений моделей эмбиддингов, выделяя области, где они преуспевают, и где они не способны уловить смысл и нюансы. Однако такие сравнения редко проводятся, поскольку производительность человека в задачах эмбиддинга сложно измерить. Чтобы заполнить этот пробел, мы представляем HUME: Фреймворк для оценки текстовых эмбиддингов человеком. В то время как фреймворки, такие как MTEB, предоставляют широкую оценку моделей, они не включают надежных оценок человеческой производительности, что ограничивает интерпретируемость результатов моделей. Мы измеряем производительность человека на 16 наборах данных MTEB, охватывающих задачи ранжирования, классификации, кластеризации и семантического текстового сходства для лингвистически разнообразных языков с высоким и низким уровнем ресурсов. Люди достигают средней производительности 77,6% по сравнению с 80,1% у лучшей модели эмбиддингов, хотя вариация значительна: модели демонстрируют почти максимальную производительность на некоторых наборах данных, но испытывают трудности на других, что указывает на проблемы с наборами данных и выявляет недостатки в языках с низким уровнем ресурсов. Мы предоставляем базовые показатели человеческой производительности, инсайты о закономерностях сложности задач и расширяемый фреймворк оценки, который позволяет более осмысленно интерпретировать результаты моделей и информирует разработку как моделей, так и бенчмарков. Наш код, набор данных и таблица лидеров доступны публично по адресу https://github.com/embeddings-benchmark/mteb.

PEAR: Фазовая энтропийно-осознанная награда для эффективного рассуждения
PEAR: Phase Entropy Aware Reward for Efficient Reasoning

Oct 9

ByChen Huang, Wei Lu, Wenxuan Zhang

Крупные модели рассуждений (Large Reasoning Models, LRMs) демонстрируют впечатляющие результаты в выполнении сложных задач, генерируя подробные объяснения в виде цепочек рассуждений (chain-of-thought, CoT). Однако такие ответы часто оказываются избыточно длинными, содержат повторяющиеся шаги рассуждений, что увеличивает затраты на вывод и снижает удобство использования. Управление длиной генерируемых рассуждений без ущерба для точности остается открытой проблемой. В результате систематического эмпирического анализа мы выявили устойчивую положительную корреляцию между энтропией модели и длиной ответа на различных этапах рассуждений в разных LRM: фаза мышления характеризуется более высокой энтропией, что отражает исследовательский характер длинных ответов, тогда как фаза финального ответа демонстрирует более низкую энтропию, указывая на детерминированное решение. Это наблюдение позволяет предположить, что энтропия на разных этапах рассуждений может служить инструментом для балансировки краткости и производительности. На основе этого инсайта в данной работе представлен механизм вознаграждения Phase Entropy Aware Reward (PEAR), который учитывает энтропию, зависящую от фазы, в дизайне вознаграждения. Вместо равномерного подхода ко всем токенам PEAR штрафует избыточную энтропию на этапе мышления и допускает умеренное исследование на этапе финального ответа, что побуждает модели генерировать краткие цепочки рассуждений, сохраняя достаточную гибкость для корректного решения задачи. Это позволяет адаптивно управлять длиной ответа без использования явных целевых показателей длины или жестких правил усечения. Эксперименты на четырех бенчмарках показывают, что PEAR последовательно сокращает длину ответов, сохраняя конкурентоспособную точность на различных масштабах моделей. Кроме того, PEAR демонстрирует высокую устойчивость к данным, выходящим за пределы обучающего распределения (out-of-distribution, OOD). Наш код доступен по адресу: https://github.com/iNLP-Lab/PEAR.

Ловушка персонализации: как память пользователя изменяет эмоциональное рассуждение в крупных языковых моделях
The Personalization Trap: How User Memory Alters Emotional Reasoning in LLMs

Oct 10

ByXi Fang, Weijie Xu, Yuchong Zhang, Stephanie Eckman, Scott Nickleach, Chandan K. Reddy

Когда ИИ-ассистент помнит, что Сара — мать-одиночка, работающая на двух работах, интерпретирует ли он её стресс иначе, чем если бы она была состоятельным руководителем? По мере того как персонализированные ИИ-системы всё чаще включают долгосрочную память о пользователях, понимание того, как эта память влияет на эмоциональное рассуждение, становится критически важным. Мы исследуем, как память о пользователях влияет на эмоциональный интеллект в крупных языковых моделях (LLM), оценивая 15 моделей на тестах эмоционального интеллекта, проверенных людьми. Мы обнаруживаем, что идентичные сценарии, связанные с разными профилями пользователей, приводят к систематически различным эмоциональным интерпретациям. В проверенных сценариях, независимых от пользователей, и при разнообразных профилях пользователей в нескольких высокопроизводительных LLM наблюдались систематические предубеждения, где профили с привилегиями получали более точные эмоциональные интерпретации. Более того, LLM демонстрируют значительные различия в понимании эмоций и задачах предоставления поддерживающих рекомендаций в зависимости от демографических факторов, что указывает на то, что механизмы персонализации могут встраивать социальные иерархии в эмоциональное рассуждение моделей. Эти результаты подчеркивают ключевую проблему для ИИ с расширенной памятью: системы, разработанные для персонализации, могут непреднамеренно усиливать социальное неравенство.

LikePhys: Оценка интуитивного понимания физики в моделях диффузии видео через предпочтение правдоподобия
LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference

Oct 13

ByJianhao Yuan, Fabio Pizzati, Francesco Pinto, Lars Kunze, Ivan Laptev, Paul Newman, Philip Torr, Daniele De Martini

Понимание интуитивной физики в моделях диффузии видео играет ключевую роль в создании универсальных симуляторов физически правдоподобных миров. Однако точная оценка такой способности остается сложной задачей из-за трудности разделения корректности физики и визуального качества в генерации. Для решения этой проблемы мы представляем LikePhys — метод, не требующий обучения, который оценивает интуитивную физику в моделях диффузии видео, различая физически корректные и невозможные видео с использованием задачи удаления шума как суррогата правдоподобия на основе ELBO на специально подготовленном наборе данных из пар "корректные-некорректные". Тестируя на нашем бенчмарке из двенадцати сценариев, охватывающих четыре области физики, мы показываем, что наша метрика оценки, Ошибка Предпочтения Правдоподобия (PPE), демонстрирует сильное соответствие с человеческими предпочтениями, превосходя современные базовые методы оценки. Затем мы систематически оцениваем понимание интуитивной физики в текущих моделях диффузии видео. Наше исследование также анализирует, как дизайн модели и настройки вывода влияют на понимание интуитивной физики, и выделяет вариации способностей в зависимости от физических законов. Эмпирические результаты показывают, что, несмотря на трудности текущих моделей с сложной и хаотической динамикой, наблюдается четкая тенденция улучшения понимания физики по мере увеличения емкости модели и настроек вывода.

InfiniHuman: Бесконечное создание 3D-моделей человека с точным контролем
InfiniHuman: Infinite 3D Human Creation with Precise Control

Oct 13

ByYuxuan Xue, Xianghui Xie, Margaret Kostyrko, Gerard Pons-Moll

Создание реалистичных и управляемых 3D-аватаров человека представляет собой давнюю задачу, особенно когда требуется охватить широкий диапазон атрибутов, таких как этническая принадлежность, возраст, стили одежды и детализированные формы тела. Сбор и аннотирование крупномасштабных наборов данных о людях для обучения генеративных моделей является чрезмерно дорогостоящим и ограниченным в масштабе и разнообразии. Основной вопрос, который мы рассматриваем в этой статье, заключается в следующем: Можно ли использовать существующие базовые модели для генерации теоретически неограниченных, богато аннотированных 3D-данных о людях? Мы представляем InfiniHuman, фреймворк, который синергетически использует эти модели для создания богато аннотированных данных о людях с минимальными затратами и теоретически неограниченной масштабируемостью. Мы предлагаем InfiniHumanData, полностью автоматизированный конвейер, который использует модели обработки изображений и текста для создания крупномасштабного мультимодального набора данных. Пользовательское исследование показывает, что наши автоматически сгенерированные идентичности неотличимы от рендеров сканированных данных. InfiniHumanData содержит 111 тысяч идентичностей, охватывающих беспрецедентное разнообразие. Каждая идентичность аннотирована многоуровневыми текстовыми описаниями, многовидовыми RGB-изображениями, детализированными изображениями одежды и параметрами формы тела SMPL. На основе этого набора данных мы предлагаем InfiniHumanGen, генеративный конвейер на основе диффузионных моделей, который учитывает текст, форму тела и элементы одежды. InfiniHumanGen позволяет быстро, реалистично и точно управляемо генерировать аватары. Многочисленные эксперименты демонстрируют значительные улучшения по сравнению с современными методами в визуальном качестве, скорости генерации и управляемости. Наш подход позволяет генерировать высококачественные аватары с детализированным управлением на практически неограниченном масштабе через практичное и доступное решение. Мы опубликуем автоматизированный конвейер генерации данных, полный набор данных InfiniHumanData и модели InfiniHumanGen по адресу https://yuxuan-xue.com/infini-human.

От данных к вознаграждениям: взгляд на метод максимального правдоподобия через призму двухуровневой оптимизации
From Data to Rewards: a Bilevel Optimization Perspective on Maximum Likelihood Estimation

Oct 8

ByAbdelhakim Benechehab, Gabriel Singer, Corentin Léger, Youssef Attia El Hili, Giuseppe Paolo, Albert Thomas, Maurizio Filippone, Balázs Kégl

Генеративные модели составляют основу современного машинного обучения, лежа в основе передовых систем в области обработки текста, компьютерного зрения и мультимодальных приложений. Хотя метод максимального правдоподобия традиционно служил доминирующей парадигмой обучения, последние исследования выявили его ограничения, особенно в обобщении и уязвимости к катастрофическому забыванию по сравнению с методами обучения с подкреплением, такими как методы градиента политики. Однако эти подходы зависят от явных сигналов вознаграждения, которые часто недоступны на практике, оставляя открытой фундаментальную проблему согласования генеративных моделей, когда доступны только высококачественные наборы данных. В данной работе мы решаем эту задачу с помощью двухуровневой оптимизации, где функция вознаграждения рассматривается как переменная оптимизации внешнего уровня, а целевая функция градиента политики определяет внутренний уровень. Затем мы проводим теоретический анализ этой задачи оптимизации в доступной для анализа постановке и извлекаем идеи, которые, как мы показываем, обобщаются на такие приложения, как табличная классификация и обучение с подкреплением на основе моделей. Мы публикуем код по адресу https://github.com/abenechehab/nll_to_po.

VER: Vision Expert Transformer для обучения роботов через дистилляцию фундаментальных моделей и динамическую маршрутизацию
VER: Vision Expert Transformer for Robot Learning via Foundation Distillation and Dynamic Routing

Oct 6

ByYixiao Wang, Mingxiao Huo, Zhixuan Liang, Yushi Du, Lingfeng Sun, Haotian Lin, Jinghuan Shang, Chensheng Peng, Mohit Bansal, Mingyu Ding, Masayoshi Tomizuka

Предобученные базовые модели компьютерного зрения (VFMs) способствуют развитию робототехнического обучения за счет богатых визуальных представлений, однако отдельные VFMs обычно демонстрируют высокую эффективность только в узких областях, что ограничивает их универсальность для различных задач. Объединение нескольких VFMs в единое представление для политики может смягчить это ограничение, но часто приводит к негибкому выбору признаков, специфичных для задачи, и требует дорогостоящего полного переобучения для интеграции знаний, связанных с робототехникой. Мы предлагаем VER (Vision Expert Transformer) — трансформер для обучения роботов. На этапе предобучения VER объединяет несколько VFMs в библиотеку визуальных экспертов. Затем он дообучает только легковесную маршрутизирующую сеть (менее 0,4% параметров) для динамического выбора экспертов, релевантных задаче, из предобученной библиотеки для последующих робототехнических задач. Мы также вводим метод Patchwise Expert Routing с Curriculum Top-K Annealing для повышения гибкости и точности динамического выбора экспертов. Кроме того, VER поддерживает параметрически эффективное дообучение для масштабируемого использования экспертов и адаптивной интеграции знаний, связанных с робототехникой. На 17 разнообразных робототехнических задачах и с использованием нескольких голов политики VER демонстрирует наилучшие результаты. Мы обнаружили, что VER уменьшает выбросы с большими нормами в областях, не релевантных задаче (например, фон), и фокусируется на критически важных для задачи областях. Визуализации и коды доступны по ссылке: https://yixiaowang7.github.io/ver_page/.

RePro: Обучение языковых моделей для достоверного повторного использования веб-контента в предобучении
RePro: Training Language Models to Faithfully Recycle the Web for Pretraining

Oct 12

ByZichun Yu, Chenyan Xiong

Высококачественные данные для предварительного обучения — это ископаемое топливо для больших языковых моделей (LLM), однако его запасы для передовых моделей истощаются. В данной статье мы представляем RePro — новый метод переработки веб-данных, который обучает относительно небольшую языковую модель с использованием обучения с подкреплением для генерации эффективных и точных перефразировок данных для предварительного обучения. В частности, мы разработали одну награду за качество и три награды за точность, оптимизируя модель-перефразировщик для преобразования исходных данных в высококачественные перефразировки с сохранением их основной семантики и структуры. В нашем эксперименте мы обучили 4-миллиардный перефразировщик для переработки 72 миллиардов токенов, взятых из DCLM-RefinedWeb. Результаты предварительного обучения на моделях с 400 миллионами и 1,4 миллиарда параметров показывают, что RePro обеспечивает относительное улучшение точности на 4,7%–14,0% по сравнению с базовым подходом, использующим только исходные данные, на 22 задачах. RePro также превосходит ReWire — современный метод переработки веб-данных, который использует 70-миллиардный перефразировщик, а также базовый подход с исходными данными, увеличенными в 4 раза. Эксперименты с различным объемом переработанных данных подчеркивают, что RePro повышает эффективность использования исходных данных в 2–3 раза. Индивидуальный и распределенный анализ подтверждает, что RePro сохраняет больше критически важной информации и точнее отражает характеристики исходных данных по сравнению с методами, основанными на запросах. В совокупности эти результаты демонстрируют, что RePro предоставляет эффективный и контролируемый путь для использования «ископаемого топлива» предварительного обучения LLM. Мы открываем исходный код, модель-перефразировщик и переработанные данные по адресу https://github.com/cxcscmu/RePro.

oMeBench: К созданию надежного бенчмаркинга языковых моделей в области установления органических механизмов и рассуждений
oMeBench: Towards Robust Benchmarking of LLMs in Organic Mechanism Elucidation and Reasoning

Oct 9

ByRuiling Xu, Yifan Zhang, Qingyun Wang, Carl Edwards, Heng Ji

Органические механизмы реакций представляют собой последовательные элементарные реакции, в ходе которых реагенты образуют промежуточные соединения и продукты, и они являются основополагающими для понимания химической реакционной способности и проектирования новых молекул и реакций. Хотя крупные языковые модели (LLM) продемонстрировали потенциал в решении химических задач, таких как проектирование синтеза, остается неясным, в какой степени это отражает подлинные способности к химическому рассуждению, то есть умение генерировать корректные промежуточные соединения, поддерживать химическую согласованность и следовать логически последовательным многоступенчатым путям. Мы решаем эту проблему, представляя oMeBench — первый крупномасштабный, экспертно проверенный эталонный тест для рассуждений о механизмах органических реакций в органической химии. Он включает более 10 000 аннотированных механистических шагов с промежуточными соединениями, метками типов и оценками сложности. Кроме того, для более точной оценки возможностей LLM и обеспечения детализированной оценки мы предлагаем oMeS — динамическую систему оценки, которая сочетает логику на уровне шагов и химическое сходство. Мы анализируем производительность современных LLM, и наши результаты показывают, что, хотя текущие модели демонстрируют перспективную химическую интуицию, они испытывают трудности с корректным и последовательным многоступенчатым рассуждением. Примечательно, что использование стратегии промптинга и дообучения специализированной модели на нашем предложенном наборе данных повышает производительность на 50% по сравнению с ведущей закрытой моделью. Мы надеемся, что oMeBench послужит строгой основой для продвижения систем ИИ к подлинному химическому рассуждению.

World-To-Image: Основание генерации изображений из текста с использованием знаний о мире, управляемых агентом
World-To-Image: Grounding Text-to-Image Generation with Agent-Driven World Knowledge

Oct 5

ByMoo Hyun Son, Jintaek Oh, Sun Bin Mun, Jaechul Roh, Sehyun Choi

Хотя модели преобразования текста в изображение (Text-to-Image, T2I) способны синтезировать изображения высокого качества, их производительность значительно снижается при работе с новыми или выходящими за пределы распределения (out-of-distribution, OOD) объектами из-за ограничений встроенных знаний. Мы представляем World-To-Image — новую концепцию, которая устраняет этот разрыв, обогащая генерацию T2I знаниями о мире, получаемыми с помощью агентов. Мы разработали агента, который динамически осуществляет поиск в интернете для извлечения изображений концепций, неизвестных базовой модели. Эта информация затем используется для оптимизации мультимодальных запросов, направляя мощные генеративные модели на точный синтез. Важно отметить, что наша оценка выходит за рамки традиционных метрик, используя современные методы, такие как LLMGrader и ImageReward, для измерения истинной семантической точности. Наши эксперименты показывают, что World-To-Image значительно превосходит современные методы как в семантическом соответствии, так и в визуальной эстетике, достигая улучшения точности соответствия запросу на +8,1% на нашем специально разработанном бенчмарке NICE. Наша концепция достигает этих результатов с высокой эффективностью менее чем за три итерации, прокладывая путь для T2I-систем, которые могут лучше отражать постоянно меняющийся реальный мир. Демонстрационный код доступен по ссылке: https://github.com/mhson-kyle/World-To-Image.

Мультимодальная интернализация политики для диалоговых агентов
Multimodal Policy Internalization for Conversational Agents

Oct 10

ByZhenhailong Wang, Jiateng Liu, Amin Fazel, Ritesh Sarkhel, Xing Fan, Xiang Li, Chenlei Guo, Heng Ji, Ruhi Sarikaya

Современные диалоговые агенты, такие как ChatGPT и Alexa+, опираются на предопределенные политики, которые задают метаданные, стили ответов и правила использования инструментов. По мере того как эти системы на основе больших языковых моделей (LLM) расширяются для поддержки разнообразных бизнес-запросов и запросов пользователей, такие политики, часто реализуемые в виде контекстных подсказок, становятся все более сложными и объемными, что затрудняет их точное соблюдение и приводит к значительным фиксированным вычислительным затратам. С появлением мультимодальных агентов политики, регулирующие визуальное и мультимодальное поведение, становятся критически важными, но остаются недостаточно изученными. Предыдущие работы по сжатию подсказок в основном сокращают шаблоны задач и примеры, тогда как существующие исследования по согласованию политик сосредоточены только на текстовых правилах безопасности. Мы представляем задачу Multimodal Policy Internalization (MPI), которая заключается в интериоризации сложных мультимодальных политик в параметры модели, что позволяет улучшить следование политикам без их включения в процесс вывода. MPI ставит уникальные задачи в области данных и алгоритмов. Мы создаем два набора данных, охватывающих синтетические и реальные задачи принятия решений и использования инструментов, и предлагаем TriMPI — трехэтапную структуру обучения. TriMPI сначала внедряет знания о политиках через непрерывное предварительное обучение, затем выполняет контролируемую дообучение и, наконец, применяет PolicyRollout — расширение в стиле GRPO для обучения с подкреплением, которое дополняет прогоны ответами, учитывающими политики, для обоснованного исследования. TriMPI демонстрирует значительные улучшения в точности, обобщаемости и устойчивости к забыванию. Будучи первой работой по интериоризации мультимодальных политик, мы предоставляем наборы данных, рецепты обучения и всесторонние оценки для стимулирования будущих исследований. Страница проекта: https://mikewangwzhl.github.io/TriMPI.

LLaMAX2: Ваша модель с улучшенным переводом также демонстрирует высокие результаты в задачах логического рассуждения
LLaMAX2: Your Translation-Enhanced Model also Performs Well in Reasoning

Oct 10

ByChangjiang Gao, Zixian Huang, Jingyang Gong, Shujian Huang, Lei Li, Fei Yuan

Общие крупные языковые модели (LLM) демонстрируют высокие результаты в задачах логического рассуждения, однако модели, оптимизированные для перевода, испытывают трудности в таких задачах. Для решения этой проблемы мы предлагаем новый подход к улучшению перевода, который начинается с инструктивных моделей и применяет выборочную настройку слоев только на параллельных данных. Следуя этому подходу, мы представляем модели Qwen3-XPlus, которые демонстрируют значительное улучшение качества перевода как для языков с высоким, так и с низким уровнем ресурсов, достигая показателей 15+ spBLEU и 40+ xComet для языков с низким уровнем ресурсов, таких как суахили. Интересно, что обучение только на небольших параллельных наборах данных позволяет Qwen3-XPlus добиться среднего улучшения на 1+ балл в 7 многоязычных задачах, сохраняя при этом уровень мастерства, сопоставимый с инструктивной моделью Qwen3 в 15 популярных наборах данных для логического рассуждения. Эта работа предлагает перспективный подход к многоязычному улучшению, значительно снижая сложность и повышая доступность для более широкого круга языков. Код и модель доступны публично.

История больших языковых моделей и индуцированных малых прокси: масштабируемые агенты для извлечения знаний
A Tale of LLMs and Induced Small Proxies: Scalable Agents for Knowledge Mining

Oct 1

BySipeng Zhang, Longfei Yun, Zilong Wang, Jingbo Shang, Letian Peng

В основе Deep Research лежит извлечение знаний — задача структурирования информации из огромных объемов неструктурированного текста в ответ на пользовательские запросы. Крупные языковые модели (LLM) превосходно справляются с интерпретацией таких запросов, но их масштабное развертывание чрезмерно дорого, в то время как традиционные конвейеры классификаторов и экстракторов остаются эффективными, но хрупкими и неспособными обобщать новые задачи. Мы представляем Falconer — совместную платформу, которая объединяет агентное рассуждение LLM с легковесными прокси-моделями для масштабируемого извлечения знаний. В Falconer LLM выступают в роли планировщиков, разбивающих пользовательские запросы на исполняемые конвейеры, и в роли аннотаторов, генерирующих данные для обучения небольших прокси-моделей. Платформа объединяет классификацию и извлечение в две атомарные операции — get label и get span, что позволяет одной модели, следующей инструкциям, заменить множество специализированных компонентов. Для оценки согласованности между прокси-моделями, созданными Falconer, и аннотациями, предоставленными людьми и крупными моделями, мы разработали новые бенчмарки, охватывающие как планирование, так и сквозное выполнение. Эксперименты показывают, что Falconer близко соответствует точности современных LLM в следовании инструкциям, при этом снижая стоимость вывода до 90% и ускоряя масштабное извлечение знаний более чем в 20 раз, предлагая эффективную и масштабируемую основу для Deep Research.

Адаптивное негативное управление с использованием VLM для креативной генерации
VLM-Guided Adaptive Negative Prompting for Creative Generation

Oct 12

ByShelly Golan, Yotam Nitzan, Zongze Wu, Or Patashnik

Генерация творческого контента представляет собой синтез новых, удивительных и ценных образцов, которые отражают намерения пользователя, но не могут быть заранее предсказаны. Эта задача направлена на расширение человеческого воображения, позволяя открывать визуальные концепции, существующие в неизведанных пространствах между знакомыми областями. Хотя модели диффузии текст-изображение преуспевают в создании фотореалистичных сцен, точно соответствующих запросам пользователя, они всё ещё испытывают трудности с генерацией по-настоящему нового контента. Существующие подходы для повышения творческой генерации либо полагаются на интерполяцию признаков изображений, что ограничивает исследование предопределёнными категориями, либо требуют трудоёмких процедур, таких как оптимизация встраиваний или тонкая настройка модели. Мы предлагаем метод VLM-Guided Adaptive Negative-Prompting, который не требует обучения и работает на этапе вывода, способствуя творческой генерации изображений при сохранении валидности создаваемого объекта. Наш подход использует модель "визуальный язык" (VLM), которая анализирует промежуточные результаты процесса генерации и адаптивно направляет его в сторону от традиционных визуальных концепций, стимулируя появление новых и удивительных результатов. Мы оцениваем творчество через новизну и валидность, используя статистические метрики в пространстве встраиваний CLIP. В ходе обширных экспериментов мы демонстрируем стабильное улучшение творческой новизны с минимальными вычислительными затратами. Более того, в отличие от существующих методов, которые в основном генерируют отдельные объекты, наш подход распространяется на сложные сценарии, такие как создание согласованных наборов творческих объектов и сохранение творчества в рамках сложных композиционных запросов. Наш метод легко интегрируется в существующие конвейеры диффузии, предлагая практический путь для создания творческих результатов, выходящих за рамки ограничений текстовых описаний.

Графовые диффузионные трансформаторы — это контекстные проектировщики молекул.
Graph Diffusion Transformers are In-Context Molecular Designers

Oct 9

ByGang Liu, Jie Chen, Yihan Zhu, Michael Sun, Tengfei Luo, Nitesh V Chawla, Meng Jiang

Обучение в контексте позволяет крупным моделям адаптироваться к новым задачам на основе нескольких примеров, однако в молекулярном дизайне этот подход показал ограниченный успех. Существующие базы данных, такие как ChEMBL, содержат молекулярные свойства, охватывающие миллионы биологических тестов, однако размеченные данные для каждого свойства остаются скудными. Чтобы устранить это ограничение, мы представляем диффузионные модели, обусловленные демонстрациями (DemoDiff), которые определяют контекст задачи с помощью небольшого набора примеров молекул и их оценок вместо текстовых описаний. Эти демонстрации направляют денойзинговый трансформер для генерации молекул, соответствующих целевым свойствам. Для масштабируемого предобучения мы разработали новый молекулярный токенизатор с кодированием пар узлов (Node Pair Encoding), который представляет молекулы на уровне мотивов, требуя в 5,5 раз меньше узлов. Мы собрали набор данных, содержащий миллионы контекстных задач из различных источников, охватывающих как лекарства, так и материалы, и предобучили на нем модель с 0,7 миллиардами параметров. На 33 задачах дизайна в шести категориях DemoDiff соответствует или превосходит языковые модели, в 100–1000 раз более крупные, и достигает среднего ранга 3,63 по сравнению с 5,25–10,20 для специализированных подходов. Эти результаты позиционируют DemoDiff как фундаментальную модель для молекулярного дизайна в контексте. Наш код доступен по адресу https://github.com/liugangcode/DemoDiff.

Технический отчет AndesVL: Эффективная мобильная мультимодальная большая языковая модель
AndesVL Technical Report: An Efficient Mobile-side Multimodal Large Language Model

Oct 13

ByZhiwei Jin, Xiaohui Song, Nan Wang, Yafei Liu, Chao Li, Xin Li, Ruichen Wang, Zhihao Li, Qi Qi, Long Cheng, Dongze Hao, Quanlong Zheng, Yanhao Zhang, Haobo Ji, Jian Ma, Zhitong Zheng, Zhenyi Lin, Haolin Deng, Xin Zou, Xiaojie Yin, Ruilin Wang, Liankai Cai, Haijing Liu, Yuqing Qiu, Ke Chen, Zixian Li, Chi Xie, Huafei Li, Chenxing Li, Chuangchuang Wang, Kai Tang, Zhiguang Zhu, Kai Tang, Wenmei Gao, Rui Wang, Jun Wu, Chao Liu, Qin Xie, Chen Chen, Haonan Lu

В последние годы облачные MLLM, такие как QwenVL, InternVL, GPT-4o, Gemini и Claude Sonnet, продемонстрировали выдающуюся производительность с огромными размерами моделей, достигающими сотен миллиардов параметров, что значительно превосходит ограничения по памяти, энергопотреблению и вычислительной мощности устройств на границе сети, таких как мобильные телефоны. В данной статье представлен AndesVL — набор мобильных MLLM с параметрами от 0,6 до 4 миллиардов, основанных на LLM Qwen3 и различных визуальных кодировщиках. Мы подробно описываем архитектуры моделей, процесс обучения и данные, используемые для обучения AndesVL, который демонстрирует первоклассные результаты на широком спектре открытых бенчмарков, включая такие области, как понимание текстовых изображений, рассуждения и математика, понимание множества изображений, общие задачи визуального вопросно-ответного взаимодействия (VQA), снижение галлюцинаций, многоязычное понимание и задачи, связанные с графическими интерфейсами пользователя (GUI), по сравнению с современными моделями аналогичного масштаба. Кроме того, мы представляем подход 1+N LoRA.

ViSurf: Визуальное обучение с учителем и подкреплением для точной настройки крупных моделей обработки изображений и текста
ViSurf: Visual Supervised-and-Reinforcement Fine-Tuning for Large Vision-and-Language Models

Oct 12

ByYuqi Liu, Liangyu Chen, Jiazhen Liu, Mingkang Zhu, Zhisheng Zhong, Bei Yu, Jiaya Jia

Типичные посттренировочные парадигмы для крупных моделей, объединяющих зрение и язык (Large Vision-and-Language Models, LVLMs), включают контролируемую тонкую настройку (Supervised Fine-Tuning, SFT) и обучение с подкреплением с проверяемыми наградами (Reinforcement Learning with Verifiable Rewards, RLVR). SFT использует внешнее руководство для внедрения новых знаний, тогда как RLVR применяет внутреннее подкрепление для улучшения способностей к рассуждению и общей производительности. Однако наш анализ показывает, что SFT часто приводит к субоптимальной производительности, в то время как RLVR испытывает трудности с задачами, выходящими за пределы внутренней базы знаний модели. Для устранения этих ограничений мы предлагаем ViSurf (Visual Supervised-and-Reinforcement Fine-Tuning), унифицированную посттренировочную парадигму, которая интегрирует преимущества как SFT, так и RLVR в рамках одного этапа. Мы анализируем вывод целей SFT и RLVR для установления цели ViSurf, предоставляя унифицированный взгляд на эти две парадигмы. Основная идея ViSurf заключается во внедрении эталонных меток в процесс RLVR, что обеспечивает одновременное внешнее управление и внутреннее подкрепление. Кроме того, мы вводим три новые стратегии управления наградами для стабилизации и оптимизации процесса обучения. Многочисленные эксперименты на различных тестовых наборах демонстрируют эффективность ViSurf, превосходящей как отдельные SFT и RLVR, так и двухэтапный подход SFT → RLVR. Подробный анализ подтверждает эти результаты, подтверждая обоснованность вывода и принципов проектирования ViSurf.

IVEBench: Современный набор тестов для оценки редактирования видео с использованием инструкций
IVEBench: Modern Benchmark Suite for Instruction-Guided Video Editing Assessment

Oct 13

ByYinan Chen, Jiangning Zhang, Teng Hu, Yuxiang Zeng, Zhucun Xue, Qingdong He, Chengjie Wang, Yong Liu, Xiaobin Hu, Shuicheng Yan

Редактирование видео на основе инструкций стало быстро развивающимся направлением исследований, открывающим новые возможности для интуитивного преобразования контента, но также представляющим значительные вызовы для систематической оценки. Существующие бенчмарки для редактирования видео не обеспечивают адекватной оценки методов, основанных на инструкциях, и дополнительно страдают от ограниченного разнообразия исходных данных, узкого охвата задач и неполных метрик оценки. Чтобы устранить эти ограничения, мы представляем IVEBench — современный набор бенчмарков, специально разработанный для оценки редактирования видео на основе инструкций. IVEBench включает разнообразную базу данных из 600 высококачественных исходных видео, охватывающих семь семантических измерений, с длительностью от 32 до 1024 кадров. Он также содержит 8 категорий задач редактирования с 35 подкатегориями, чьи инструкции генерируются и уточняются с использованием крупных языковых моделей и экспертной проверки. Ключевым аспектом является то, что IVEBench устанавливает трехмерный протокол оценки, охватывающий качество видео, соответствие инструкциям и достоверность видео, интегрируя как традиционные метрики, так и оценки на основе мультимодальных крупных языковых моделей. Масштабные эксперименты демонстрируют эффективность IVEBench в тестировании передовых методов редактирования видео на основе инструкций, показывая его способность обеспечивать всесторонние и согласованные с человеческим восприятием результаты оценки.

Сквозь призму LiDAR: Аннотационный конвейер, обогащенный признаками и учитывающий неопределенности, для сегментации наземных облаков точек
Through the Perspective of LiDAR: A Feature-Enriched and Uncertainty-Aware Annotation Pipeline for Terrestrial Point Cloud Segmentation

Oct 8

ByFei Zhang, Rob Chancia, Josie Clapp, Amirhossein Hassanzadeh, Dimah Dera, Richard MacKenzie, Jan van Aardt

Точная семантическая сегментация облаков точек, полученных с помощью наземного лазерного сканирования (TLS), ограничена высокой стоимостью ручной аннотации. Мы предлагаем полуавтоматизированный подход, учитывающий неопределенность, который объединяет сферическую проекцию, обогащение признаков, ансамблевое обучение и целенаправленную аннотацию для снижения затрат на маркировку при сохранении высокой точности. Наш метод проецирует 3D-точки на 2D-сферическую сетку, обогащает пиксели мультиисточниковыми признаками и обучает ансамбль сегментационных сетей для генерации псевдо-меток и карт неопределенности, последние из которых направляют аннотацию неоднозначных областей. 2D-результаты обратно проецируются в 3D, создавая плотно аннотированные облака точек, поддерживаемые трехкомпонентной визуализационной системой (2D-карты признаков, 3D-цветные облака точек и компактные виртуальные сферы) для быстрой сортировки и руководства рецензента. Используя этот подход, мы создаем Mangrove3D — набор данных для семантической сегментации TLS мангровых лесов. Мы также оцениваем эффективность данных и важность признаков, чтобы ответить на два ключевых вопроса: (1) сколько аннотированных данных требуется и (2) какие признаки наиболее значимы. Результаты показывают, что производительность стабилизируется после ~12 аннотированных сканирований, геометрические признаки вносят наибольший вклад, а компактные девятиканальные наборы данных захватывают почти всю дискриминативную способность, при этом среднее значение Intersection over Union (mIoU) достигает около 0,76. Наконец, мы подтверждаем обобщаемость нашей стратегии обогащения признаков с помощью кросс-датасетных тестов на ForestSemantic и Semantic3D. Наши вклады включают: (i) надежный, учитывающий неопределенность подход к аннотации TLS с инструментами визуализации; (ii) набор данных Mangrove3D; и (iii) эмпирические рекомендации по эффективности данных и важности признаков, что позволяет масштабировать высококачественную сегментацию облаков точек TLS для экологического мониторинга и других задач. Набор данных и скрипты обработки доступны публично по адресу https://fz-rit.github.io/through-the-lidars-eye/.

CoBia: Сконструированные диалоги могут выявить скрытые социальные предубеждения в языковых моделях
CoBia: Constructed Conversations Can Trigger Otherwise Concealed Societal Biases in LLMs

Oct 10

ByNafiseh Nikeghbal, Amir Hossein Kargaran, Jana Diesner

Улучшения в построении моделей, включая усиленные защитные механизмы, позволяют крупным языковым моделям (LLM) всё чаще проходить стандартные проверки на безопасность. Однако LLM иногда проявляют вредоносное поведение, например, выражают расистские взгляды, в ходе диалогов. Для систематического анализа этого явления мы представляем CoBia — набор лёгких атак, которые позволяют уточнить условия, при которых LLM отклоняются от нормативного или этического поведения в беседах. CoBia создаёт искусственный диалог, в котором модель высказывает предвзятое утверждение о социальной группе. Затем мы оцениваем, способна ли модель восстановиться после сфабрикованного предвзятого утверждения и отвергнуть предвзятые последующие вопросы. Мы тестируем 11 открытых и проприетарных LLM на их выходные данные, связанные с шестью социально-демографическими категориями, важными для индивидуальной безопасности и справедливого обращения: пол, раса, религия, национальность, сексуальная ориентация и другие. Наша оценка основана на устоявшихся метриках предвзятости для LLM, и мы сравниваем результаты с суждениями людей, чтобы определить надёжность и согласованность LLM. Результаты показывают, что целенаправленно созданные диалоги надёжно выявляют усиление предвзятости, и что LLM часто не способны отвергнуть предвзятые последующие вопросы в ходе диалога. Такое стресс-тестирование подчёркивает глубоко укоренившиеся предубеждения, которые могут проявляться в процессе взаимодействия. Код и материалы доступны по адресу https://github.com/nafisenik/CoBia.

Являются ли крупные модели рассуждений прерываемыми?
Are Large Reasoning Models Interruptible?

Oct 13

ByTsung-Han Wu, Mihran Miroyan, David M. Chan, Trevor Darrell, Narges Norouzi, Joseph E. Gonzalez

Крупные модели рассуждений (Large Reasoning Models, LRMs) демонстрируют высокие результаты в сложных задачах рассуждения, но традиционно оцениваются в статических условиях "замороженного мира": предполагается, что ответы модели формируются мгновенно, а контекст запроса остается неизменным на протяжении всего времени генерации ответа. Хотя это предположение в целом справедливо для краткосрочных задач, оно перестает работать в современных задачах рассуждения, таких как ассистирующее программирование, где модели могут тратить часы на обдумывание проблемы, а код может значительно измениться с момента начала рассуждений до финального вывода модели. В данной работе мы подвергаем сомнению предположение о "замороженном мире" и оцениваем устойчивость LRM в двух реалистичных динамических сценариях: прерываниях, которые проверяют качество частичных выводов модели при ограниченных ресурсах, и динамическом контексте, который тестирует способность модели адаптироваться к изменениям в процессе работы. На тестах по математике и программированию, требующих длительных рассуждений, статические оценки систематически переоценивают устойчивость: даже передовые LRM, демонстрирующие высокую точность в статических условиях, могут непредсказуемо ошибаться при прерываниях или изменении контекста, при этом производительность может снижаться до 60%, если обновления вносятся на поздних этапах рассуждения. Наш анализ также выявляет несколько новых типов ошибок, включая утечку рассуждений, когда модели сворачивают процесс рассуждения в финальный ответ при прерывании; панику, когда под давлением времени модели полностью отказываются от рассуждений и возвращают неверные ответы; и неуверенность в себе, когда производительность ухудшается при попытке учесть обновленную информацию.

Скрытая ДНК JavaScript, сгенерированного LLM: структурные паттерны обеспечивают высокую точность атрибуции авторства
The Hidden DNA of LLM-Generated JavaScript: Structural Patterns Enable High-Accuracy Authorship Attribution

Oct 12

ByNorbert Tihanyi, Bilel Cherif, Richard A. Dubniczky, Mohamed Amine Ferrag, Tamás Bisztray

В данной статье мы представляем первое крупномасштабное исследование, посвящённое вопросу о том, может ли код JavaScript, сгенерированный крупными языковыми моделями (LLM), раскрыть, какая именно модель его создала, что позволяет надёжно устанавливать авторство и идентифицировать модели. С быстрым ростом использования ИИ для генерации кода атрибуция играет критическую роль в обнаружении уязвимостей, маркировке вредоносного контента и обеспечении подотчётности. В то время как методы обнаружения ИИ-сгенерированного кода обычно рассматривают ИИ как единую категорию, мы показываем, что отдельные LLM оставляют уникальные стилистические следы, даже среди моделей, принадлежащих к одному семейству или имеющих одинаковый размер параметров. Для этого мы представляем LLM-NodeJS — набор данных, содержащий 50 000 бэкенд-программ на Node.js, созданных 20 крупными языковыми моделями. Каждая программа имеет четыре преобразованных варианта, что даёт в общей сложности 250 000 уникальных образцов JavaScript, а также два дополнительных представления (JSIR и AST) для разнообразных исследовательских задач. Используя этот набор данных, мы сравниваем традиционные классификаторы машинного обучения с тонко настроенными трансформерными энкодерами и представляем CodeT5-JSA — специализированную архитектуру, основанную на модели CodeT5 с 770 миллионами параметров, из которой удалён декодер и добавлен модифицированный классификационный слой. Она достигает точности 95,8% в задачах атрибуции на пять классов, 94,6% — на десять классов и 88,5% — на двадцать классов, превосходя другие протестированные модели, такие как BERT, CodeBERT и Longformer. Мы демонстрируем, что классификаторы улавливают более глубокие стилистические закономерности в потоке данных и структуре программы, а не полагаются на поверхностные признаки. В результате атрибуция остаётся эффективной даже после искажения кода, удаления комментариев и значительных преобразований. В поддержку открытой науки и воспроизводимости мы публикуем набор данных LLM-NodeJS, скрипты для обучения в Google Colab и все сопутствующие материалы на GitHub: https://github.com/LLM-NodeJS-dataset.

Pathology-CoT: Обучение визуального агента с цепочкой рассуждений на основе экспертного анализа полных изображений слайдов в диагностике
Pathology-CoT: Learning Visual Chain-of-Thought Agent from Expert Whole Slide Image Diagnosis Behavior

Oct 6

BySheng Wang, Ruiming Wu, Charles Herndon, Yihang Liu, Shunsuke Koga, Jeanne Shen, Zhi Huang

Диагностика изображения целого среза представляет собой интерактивный, многоэтапный процесс, включающий изменения увеличения и перемещение между полями зрения. Хотя современные базовые модели в патологии демонстрируют высокую эффективность, практические агентные системы, которые решают, какое поле исследовать дальше, регулируют увеличение и предоставляют объяснимые диагнозы, всё ещё отсутствуют. Основным препятствием являются данные: масштабируемый, клинически ориентированный надзор за поведением экспертов при просмотре, которое является неявным и основанным на опыте, не описанным в учебниках или онлайн, и поэтому отсутствует в обучении крупных языковых моделей. Мы представляем AI Session Recorder, который работает со стандартными программами просмотра WSI, незаметно записывая рутинную навигацию и преобразуя логи просмотра в стандартизированные поведенческие команды (осмотр или беглый просмотр на определённых увеличениях) и ограничивающие рамки. Лёгкий процесс проверки с участием человека превращает рациональные объяснения, сгенерированные ИИ, в набор данных Pathology-CoT — форму парного надзора "куда смотреть" и "почему это важно", создаваемого примерно в шесть раз быстрее. Используя эти поведенческие данные, мы создаём Pathologist-o3 — двухэтапного агента, который сначала предлагает области интереса, а затем выполняет рассуждения, основанные на поведении. В задаче обнаружения метастазов в лимфатических узлах желудочно-кишечного тракта он достиг точности 84,5%, полноты 100,0% и точности классификации 75,4%, превзойдя современную модель OpenAI o3 и демонстрируя обобщаемость на различных архитектурах. Насколько нам известно, это одна из первых агентных систем в патологии, основанных на поведении. Преобразуя повседневные логи просмотра в масштабируемый, проверенный экспертами надзор, наш подход делает агентную патологию практичной и прокладывает путь к клиническому ИИ, ориентированному на человека и способному к обновлению.

Загадочный случай фактического (не)соответствия между краткими и развернутыми ответами языковых моделей
The Curious Case of Factual (Mis)Alignment between LLMs' Short- and Long-Form Answers

Oct 13

BySaad Obaid ul Islam, Anne Lauscher, Goran Glavaš

Крупные языковые модели (LLM) могут правильно ответить на вопрос «Когда родился Эйнштейн?», но не предоставить ту же дату при написании текста о жизни Эйнштейна, что выявляет фундаментальную несогласованность в том, как модели обращаются к фактическим знаниям в зависимости от сложности задачи. Хотя модели демонстрируют впечатляющую точность на тестах по ответам на фактические вопросы, разрыв в надежности между простыми и сложными запросами остается плохо изученным, что подрывает их доверительность. В данной работе мы представляем метод Short-Long Form Alignment for Factual Question Answering (SLAQ) — контролируемую оценочную структуру, которая сравнивает ответы LLM на одни и те же фактические вопросы, заданные (а) изолированно (короткая форма) и (б) встроенные в сложные запросы (длинная форма). Исследуя 16 LLM на 600 запросах, мы обнаруживаем систематическое несоответствие ответов на соответствующие короткие и длинные запросы. Мы также выявляем потерю точности, зависящую от позиции, и эффекты инерции, когда последовательные правильные или неправильные ответы создают самоподдерживающиеся паттерны. С помощью механистического анализа мы обнаруживаем, что согласованные факты активируют перекрывающиеся внутренние компоненты модели, и что метрики, основанные на механистическом сходстве, могут предсказывать согласованность ответов на короткие и длинные запросы с точностью до 78%. Наша работа устанавливает фактологическую согласованность в зависимости от сложности запроса как важный аспект доверительности LLM и ставит под сомнение текущие оценочные практики, которые неявно предполагают, что хорошая производительность на простых фактологических запросах подразумевает надежность и в более сложных задачах поиска знаний.

MultiCOIN: Мультимодальное управляемое промежуточное видео
MultiCOIN: Multi-Modal COntrollable Video INbetweening

Oct 9

ByMaham Tanveer, Yang Zhou, Simon Niklaus, Ali Mahdavi Amiri, Hao Zhang, Krishna Kumar Singh, Nanxuan Zhao

Видеоинтерполяция создает плавные и естественные переходы между двумя кадрами изображения, что делает ее незаменимым инструментом для видеомонтажа и синтеза длинных видеороликов. Существующие работы в этой области не способны генерировать крупные, сложные или детализированные движения. В частности, они не могут учитывать разнообразие пользовательских намерений и, как правило, не обеспечивают точного контроля над деталями промежуточных кадров, что приводит к несоответствию с творческим замыслом. Чтобы устранить эти пробелы, мы представляем MultiCOIN — фреймворк для видеоинтерполяции, который позволяет использовать мультимодальные элементы управления, включая переходы и слои глубины, траектории движения, текстовые подсказки и целевые области для локализации движения, достигая баланса между гибкостью, удобством использования и точностью для детализированной интерполяции видео. Для этого мы используем архитектуру Diffusion Transformer (DiT) в качестве нашей модели генерации видео благодаря ее доказанной способности создавать высококачественные длинные видеоролики. Чтобы обеспечить совместимость между DiT и нашими мультимодальными элементами управления, мы преобразуем все элементы управления движением в общее разреженное и удобное для пользователя представление на основе точек, которое используется как вход для видео/шума. Кроме того, чтобы учитывать разнообразие элементов управления, которые работают на разных уровнях детализации и влияния, мы разделяем элементы управления контентом и движением на две ветви для кодирования необходимых признаков перед управлением процессом удаления шума, что приводит к двум генераторам: один для движения, а другой для контента. Наконец, мы предлагаем поэтапную стратегию обучения, чтобы гарантировать, что наша модель плавно осваивает мультимодальные элементы управления. Многочисленные качественные и количественные эксперименты демонстрируют, что мультимодальные элементы управления позволяют создавать более динамичный, настраиваемый и контекстуально точный визуальный нарратив.