Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем QeRL — фреймворк для обучения с подкреплением (Reinforcement Learning, RL) с использованием квантования, предназначенный для крупных языковых моделей (LLM). Хотя RL критически важен для развития способностей LLM к рассуждению, он требует значительных ресурсов, включая большой объем памяти GPU и длительные этапы rollout. QeRL решает эти проблемы, сочетая квантование NVFP4 с адаптацией низкого ранга (Low-Rank Adaptation, LoRA), что ускоряет этап rollout в RL и снижает нагрузку на память. Помимо повышения эффективности, наши исследования показывают, что шум квантования увеличивает энтропию политики, улучшая исследование и способствуя обнаружению более эффективных стратегий в процессе RL. Для дальнейшей оптимизации исследования QeRL вводит механизм адаптивного шума квантования (Adaptive Quantization Noise, AQN), который динамически регулирует уровень шума во время обучения. Эксперименты демонстрируют, что QeRL обеспечивает ускорение этапа rollout более чем в 1,5 раза. Более того, это первый фреймворк, который позволяет проводить RL-обучение модели LLM с 32 миллиардами параметров на одном GPU H100 с 80 ГБ памяти, обеспечивая общее ускорение RL-обучения. Он также достигает более быстрого роста наград и более высокой итоговой точности по сравнению с 16-битными LoRA и QLoRA, при этом соответствуя производительности полной тонкой настройки на математических бенчмарках, таких как GSM8K (90,8%) и MATH 500 (77,4%) для модели с 7 миллиардами параметров. Эти результаты подтверждают, что QeRL является эффективным и производительным фреймворком для RL-обучения в LLM.
Латентное генеративное моделирование, при котором предобученный автокодировщик отображает пиксели в латентное пространство для процесса диффузии, стало стандартной стратегией для диффузионных трансформеров (DiT). Однако компонент автокодировщика практически не эволюционировал. Большинство DiT продолжают полагаться на оригинальный VAE-кодировщик, который вводит несколько ограничений: устаревшие архитектурные основы, компрометирующие простоту архитектуры, низкоразмерные латентные пространства, ограничивающие информационную емкость, и слабые представления, возникающие из-за чисто реконструкционного обучения, что в конечном итоге ограничивает качество генерации. В данной работе мы исследуем замену VAE на предобученные кодировщики представлений (например, DINO, SigLIP, MAE), объединенные с обученными декодерами, формируя то, что мы называем Автокодировщиками Представлений (RAE). Эти модели обеспечивают как высококачественную реконструкцию, так и семантически богатые латентные пространства, позволяя использовать масштабируемую архитектуру на основе трансформеров. Поскольку эти латентные пространства обычно высокоразмерны, ключевой задачей является обеспечение эффективной работы диффузионных трансформеров в них. Мы анализируем источники этой сложности, предлагаем теоретически обоснованные решения и подтверждаем их эмпирически. Наш подход достигает более быстрой сходимости без вспомогательных потерь на выравнивание представлений. Используя вариант DiT, оснащенный легковесной и широкой DDT-головой, мы достигаем сильных результатов генерации изображений на ImageNet: 1.51 FID при разрешении 256x256 (без управления) и 1.13 как при 256x256, так и при 512x512 (с управлением). RAE предлагает явные преимущества и должен стать новым стандартом для обучения диффузионных трансформеров.
Авторегрессионные (AR) модели остаются стандартом для генерации естественного языка, но по-прежнему страдают от высокой задержки из-за строго последовательного декодирования. Недавние подходы, вдохновленные диффузией, такие как LlaDA и Dream, смягчают эту проблему, генерируя текст параллельно, однако они имеют два ключевых ограничения: потерю информации, так как предсказательные распределения для незавершенных токенов отбрасываются на каждом шаге, и преждевременное принятие решений, когда локальные решения принимаются без достаточной глобальной координации. Мы представляем Latent Refinement Decoding (LRD) — двухэтапную структуру с Latent Refinement и Predictive Feedback Loop. На первом этапе сохраняются замаскированные позиции как распределенные смеси предсказанных токенов и маскирующего эмбеддинга, что позволяет модели формировать более глобально согласованные представления. На втором этапе постепенно фиксируются уверенные токены, в то время как неопределенные остаются для итеративной обратной связи. Динамика KL-дивергенции обеспечивает принципиальный и надежный критерий для сходимости и ранней остановки. Эксперименты в области программирования (HumanEval +6.3, MBPP +2.6) и логического мышления (GSM8K +2.9, MATH500 +3.8) показывают, что LRD повышает точность, обеспечивая ускорение до 10.6 раз, что делает его мощной и универсальной альтернативой для параллельной генерации последовательностей.
Последние достижения в области мультимодальных больших языковых моделей (MLLMs) продемонстрировали значительный потенциал в понимании видео. Однако существующие тестовые наборы не позволяют всесторонне оценить синергетические способности к рассуждению, охватывающие аудио и визуальные модальности, часто игнорируя одну из них или интегрируя их логически непоследовательно. Чтобы устранить этот пробел, мы представляем OmniVideoBench — масштабный и тщательно разработанный тестовый набор, предназначенный для оценки синергетического понимания аудио и визуальной информации с акцентом на взаимодополняемость модальностей и логическую согласованность. В частности, OmniVideoBench включает 1000 высококачественных пар вопрос-ответ (QA), каждая из которых снабжена пошаговыми траекториями рассуждений, полученными из 628 разнообразных видео длительностью от нескольких секунд до 30 минут и вручную проверенными для гарантии полной корректности и уникальности. Более того, OmniVideoBench охватывает 13 тщательно разработанных типов вопросов, включая временное рассуждение, пространственную локализацию, подсчет, причинно-следственный вывод, суммирование и другие, тем самым охватывая ключевые задачи понимания видео. Оценка нескольких MLLMs на OmniVideoBench выявила значительный разрыв между производительностью моделей и человеческим рассуждением, причем модели с открытым исходным кодом существенно отстают от своих закрытых аналогов, что подчеркивает сложность подлинного аудиовизуального рассуждения. Мы выпустим OmniVideoBench для стимулирования разработки MLLMs с более сильными и обобщаемыми способностями к рассуждению.
Обучение с подкреплением с верифицируемыми наградами (RLVR) недавно стало перспективной основой для улучшения способностей к рассуждению в больших языковых моделях (LLM). Однако политика, оптимизированная с использованием бинарной верификации, склонна упускать потенциально ценные исследования в траектории рассуждений. Учитывая высокую стоимость аннотирования эталонных моделей наград за процесс (PRM), в последних работах предпринимаются попытки использования вспомогательных сигналов для формирования наград за процессные токены, включая энтропию и правдоподобие, собранные из пространства логитов. В данной работе мы предлагаем новый подход к формированию RLVR с использованием наград, основанных на потоках, извлеченных из латентного пространства, и представляем RLFR, где поля потоков латентных состояний модели строятся либо на основе высококачественных данных вне политики, либо на данных отбора с отклонением в рамках политики, а отклонения скоростей латентных состояний политики в этих полях количественно оцениваются для использования в качестве сигнала награды. RLFR впервые демонстрирует, что хорошо установленное поле потоков может быть надежной средой для сбора сигналов наград, подчеркивая, что выразительное латентное пространство остается недостаточно изученным. Более того, RLFR способен сжимать любые данные экспертов вне политики для использования в качестве эталона для формирования сигналов наград, и мы показываем, что эффективная контекстная зависимость, сжатая в скрытых состояниях, используется вместо обозначений на уровне отдельных токенов для понимания контекста. Эксперименты на языковых и мультимодальных бенчмарках для рассуждений демонстрируют надежность наград, основанных на потоках, и предлагают перспективную парадигму для формирования наград с использованием вспомогательных сигналов.
Хотя обучение с подкреплением с верифицируемыми наградами (RLVR) продвинуло способности к рассуждению крупных визуально-языковых моделей (LVLMs), большинство существующих методов в мультимодальном рассуждении упускают критическую роль визуального восприятия в процессе оптимизации RLVR. В данной статье мы предпринимаем новаторское исследование мультимодального RLVR через новую перспективу восприятия токенов, которая измеряет визуальную зависимость каждого сгенерированного токена. С помощью детального анализа процессов цепочки рассуждений (CoT) мы выявляем два ключевых наблюдения: во-первых, восприятие токенов в траектории rollout распределено разреженно, где лишь небольшая часть токенов имеет высокую визуальную зависимость для визуально обоснованных рассуждений; во-вторых, разные траектории демонстрируют значительное расхождение в их общей визуальной зависимости. На основе этих наблюдений мы предлагаем Визуально-Восприимчивую Оптимизацию Политик (VPPO), новый алгоритм градиента политики, который явно использует восприятие токенов для уточнения сигнала обучения. В частности, VPPO достигает этого с помощью двойного механизма: она перевзвешивает преимущество траектории по её общей визуальной зависимости и фокусирует обновления политики исключительно на восприимчиво важных токенах. На комплексном наборе из восьми тестов на восприятие и рассуждение VPPO демонстрирует значительные улучшения по сравнению с ведущими моделями, настроенными с помощью RL, причём её эффективность последовательно подтверждается на масштабах моделей 7B и 32B. Наши результаты не только устанавливают новую перспективу анализа мультимодального RLVR на уровне токенов, но и представляют новую и эффективную стратегию оптимизации, которая значительно улучшает мультимодальные способности к рассуждению LVLMs.
Моделирование SVG в общем случае остается сложной задачей из-за фрагментированных наборов данных, ограниченной переносимости методов между задачами и трудностей обработки структурной сложности. В ответ на это мы используем мощные возможности трансфера и обобщения мультимодальных больших языковых моделей (MLLM) для достижения унифицированного моделирования в задачах понимания, редактирования и генерации SVG. Мы представляем семейство InternSVG — интегрированный набор данных, бенчмарков и моделей. В его основе лежит SAgoge, самый крупный и всеобъемлющий мультимодальный набор данных для задач SVG, включающий как статичную графику, так и динамические анимации. Он охватывает иконки, длинные последовательности иллюстраций, научные диаграммы и динамические анимации, поддерживая задачи различного уровня сложности и предоставляя более глубокие иерархии с более богатыми атрибутами по сравнению с предыдущими наборами данных. На основе этого ресурса мы представляем SArena, сопутствующий бенчмарк с полным набором определений задач и стандартизированной оценкой, которая соответствует областям и спектру сложности, охватываемым SAgoge. Опираясь на эти основы, мы предлагаем InternSVG — унифицированную MLLM для понимания, редактирования и генерации SVG, использующую специальные токены для SVG, инициализацию вложений на основе субслов и двухэтапную стратегию обучения, которая переходит от коротких статических SVG к длинным последовательностям иллюстраций и сложным анимациям. Эта унифицированная формулировка способствует положительному трансферу и улучшает общую производительность. Эксперименты на SArena и предыдущих бенчмарках подтверждают, что InternSVG достигает значительных улучшений и стабильно превосходит ведущие открытые и проприетарные аналоги.
Недавно появление агентного обучения с подкреплением (RL) продемонстрировало, что RL также может эффективно улучшать способность крупных языковых моделей (LLM) к агентному рассуждению, однако ключевые принципы проектирования и оптимальные практики остаются неясными. В данной работе мы проводим всестороннее и систематическое исследование, чтобы раскрыть суть обучения с подкреплением в контексте агентного рассуждения с трех ключевых перспектив: данные, алгоритм и режим рассуждения. Мы выделяем наши основные выводы: (i) Замена сшитых синтетических траекторий реальными сквозными траекториями использования инструментов обеспечивает гораздо более сильную инициализацию SFT; высокодиверсифицированные, учитывающие модель наборы данных поддерживают исследование и значительно улучшают производительность RL. (ii) Методы, способствующие исследованию, имеют решающее значение для агентного RL, такие как ограничение высоких значений, формирование наград для длинных последовательностей и поддержание достаточной энтропии политики, что может повысить эффективность обучения. (iii) Стратегия обдумывания с меньшим количеством вызовов инструментов превосходит частые вызовы инструментов или многословное саморассуждение, улучшая эффективность использования инструментов и итоговую точность. В совокупности эти простые практики последовательно улучшают агентное рассуждение и эффективность обучения, достигая сильных результатов на сложных бенчмарках с меньшими моделями и устанавливая практическую основу для будущих исследований агентного RL. Помимо этих эмпирических выводов, мы также вносим вклад в виде высококачественного набора данных для сквозного агентного SFT и высококачественного набора данных для RL, демонстрируя эффективность наших идей в повышении способности LLM к агентному рассуждению на четырех сложных бенчмарках, включая AIME2024/AIME2025, GPQA-Diamond и LiveCodeBench-v6. С использованием наших рекомендаций модели размером 4B также могут достичь превосходной производительности в агентном рассуждении по сравнению с моделями размером 32B. Код и модели: https://github.com/Gen-Verse/Open-AgentRL.
В данной работе мы представляем DiT360 — фреймворк на основе DiT, который выполняет гибридное обучение на перспективных и панорамных данных для генерации панорамных изображений. Проблемы сохранения геометрической точности и фотореализма в качестве генерации мы связываем с отсутствием крупномасштабных, высококачественных панорамных данных из реального мира, что отличает наш подход, ориентированный на данные, от предыдущих методов, сосредоточенных на проектировании моделей. В основе DiT360 лежат несколько ключевых модулей для междоменных преобразований и внутридоменного расширения, применяемых как на уровне изображений до VAE, так и на уровне токенов после VAE. На уровне изображений мы интегрируем междоменные знания через руководство перспективными изображениями и панорамное уточнение, что улучшает воспринимаемое качество, одновременно регулируя разнообразие и фотореализм. На уровне токенов применяется гибридное обучение в нескольких модулях, включая циклическое заполнение для непрерывности границ, потерю по углу рыскания для устойчивости к вращению и потерю по кубу для осознания искажений. Многочисленные эксперименты на задачах текста-в-панораму, восстановления и расширения изображений демонстрируют, что наш метод обеспечивает лучшую согласованность границ и точность изображений по одиннадцати количественным метрикам. Наш код доступен по адресу https://github.com/Insta360-Research-Team/DiT360.
Аудиовизуальное создание субтитров для видео направлено на генерацию семантически насыщенных описаний с временным согласованием визуальных и звуковых событий, что способствует как пониманию, так и созданию видео. В данной статье мы представляем AVoCaDO — мощный аудиовизуальный генератор субтитров, основанный на временной координации аудио- и визуальных модальностей. Мы предлагаем двухэтапный процесс пост-обучения: (1) AVoCaDO SFT, который дообучает модель на новом наборе данных, содержащем 107 тысяч высококачественных, временно согласованных аудиовизуальных субтитров; и (2) AVoCaDO GRPO, который использует специализированные функции вознаграждения для дальнейшего улучшения временной согласованности и точности диалогов, одновременно регулируя длину субтитров и предотвращая коллапс. Экспериментальные результаты показывают, что AVoCaDO значительно превосходит существующие открытые модели на четырех бенчмарках аудиовизуального создания субтитров, а также демонстрирует конкурентоспособные результаты на бенчмарках VDC и DREAM-1K в условиях использования только визуальных данных.
Эффективное решение реальных задач с использованием больших языковых моделей (LLM) всё больше зависит от их способности взаимодействовать с динамическими веб-средами и автономно получать внешнюю информацию. Хотя недавние исследования, такие как Search-R1 и WebDancer, демонстрируют высокую производительность в решении веб-задач, они сильно полагаются на дополнительные инструменты для преобразования интерактивной веб-среды в статический текстовый контент. Это контрастирует с поведением человека при просмотре веб-страниц, которое включает разнообразные взаимодействия с браузером, такие как прокрутка, клики и ввод текста. В данной статье мы предлагаем BrowserAgent — более интерактивного агента, который решает сложные задачи с помощью действий, вдохновлённых поведением человека в браузере. BrowserAgent работает напрямую с исходными веб-страницами через Playwright, используя набор предопределённых действий браузера. Мы применяем двухэтапное обучение (Supervised Fine-Tuning (SFT) и Rejection Fine-Tuning (RFT)) для улучшения способностей модели к обобщению. Несмотря на использование значительно меньшего объёма обучающих данных по сравнению с Search-R1, BrowserAgent демонстрирует более конкурентоспособные результаты в различных задачах Open-QA. Кроме того, мы вводим явный механизм памяти для хранения ключевых выводов между шагами, что дополнительно улучшает способности модели к рассуждению в задачах с длительным горизонтом. Примечательно, что BrowserAgent-7B может достичь улучшения примерно на 20% по сравнению с Search-R1 в задачах многошагового QA, таких как HotpotQA, 2Wiki и Bamboogle. Эти результаты указывают на то, что BrowserAgent может служить более продвинутой основой для создания более интерактивных и масштабируемых веб-агентов.
Агенты на основе больших языковых моделей (LLM) демонстрируют значительный потенциал для выполнения сложных многошаговых задач с использованием инструментов, однако их разработка часто затрудняется крайней нехваткой высококачественных обучающих данных. Настройка с учителем (SFT) на синтетических данных приводит к переобучению, тогда как стандартное обучение с подкреплением (RL) сталкивается с критической проблемой "холодного старта" и нестабильностью обучения. Для решения этих проблем мы представляем Environment Tuning — новый подход к обучению, который позволяет агентам осваивать сложные поведения непосредственно на основе экземпляров задач, без использования заранее собранных экспертных траекторий. Environment Tuning организует процесс обучения через структурированный учебный план, модификацию среды, предоставляющую корректирующую обратную связь, и детализированные награды за прогресс, что обеспечивает стабильное и эффективное исследование. Используя всего 400 экземпляров задач из бенчмарка Berkeley Function-Calling Leaderboard (BFCL), наш метод не только достигает конкурентоспособных результатов на распределении данных, но и демонстрирует превосходную обобщающую способность на новых данных, преодолевая характерный для SFT-подходов сбой производительности. Наша работа представляет собой смену парадигмы: от настройки с учителем на статических траекториях к динамическому исследованию, основанному на взаимодействии со средой, прокладывая путь для обучения более устойчивых и эффективных в использовании данных агентов.
Последние достижения в области агентных рабочих процессов позволили автоматизировать такие задачи, как создание профессиональных документов. Однако они в основном сосредоточены на текстовом качестве, пренебрегая визуальной структурой и стилем, которые имеют решающее значение для удобочитаемости и привлекательности. Этот пробел возникает главным образом из-за отсутствия подходящих моделей вознаграждения, которые могли бы направлять агентные рабочие процессы на создание документов с более сильной структурной и стилистической качественностью. Для решения этой проблемы мы предлагаем DocReward — модель вознаграждения для документов, которая оценивает документы на основе их структуры и стиля. Мы создали многодоменный набор данных DocPair, состоящий из 117 тысяч пар документов, охватывающих 32 домена и 267 типов документов, каждый из которых включает документ с высоким и низким уровнем профессионализма, имеющий идентичное содержание, но различающийся структурой и стилем. Это позволяет модели оценивать профессионализм комплексно и независимо от текстового качества. DocReward обучается с использованием функции потерь Брэдли-Терри для оценки документов, штрафуя предсказания, противоречащие аннотированному ранжированию. Для оценки производительности моделей вознаграждения мы создали тестовый набор данных, содержащий наборы документов, ранжированные высокообразованными экспертами. Примечательно, что DocReward превосходит GPT-4o и GPT-5 по точности на 30,6 и 19,4 процентных пункта соответственно, демонстрируя свое превосходство над базовыми моделями. В рамках внешней оценки генерации документов DocReward достигает значительно более высокой доли побед — 60,8%, по сравнению с 37,7% у GPT-5, что подтверждает его полезность в направлении генеративных агентов на создание документов, предпочитаемых людьми.
Хотя агенты на основе крупных языковых моделей (LLM) способны планировать многошаговые задачи, вмешательство на этапе планирования — до выполнения каких-либо действий — часто является самым безопасным способом предотвращения вреда, поскольку определенные риски могут привести к серьезным последствиям, если их реализовать. Однако существующие защитные механизмы в основном работают постфактум, что сложно масштабировать и оставляет мало возможностей для контролируемого надзора на уровне плана. Чтобы решить эту проблему, мы выделяем три ключевых пробела в текущих исследованиях: пробел в данных, пробел в моделях и пробел в оценке. Для устранения пробела в данных мы представляем AuraGen — управляемый механизм, который (i) синтезирует безопасные траектории, (ii) внедряет риски с категориальной маркировкой и калиброванной сложностью и (iii) фильтрует выходные данные с помощью автоматизированной модели вознаграждения, создавая большие и надежные корпуса для обеспечения безопасности до выполнения. Для устранения пробела в моделях-защитниках мы предлагаем базовый защитный механизм Safiron, сочетающий адаптер для кросс-планирования с компактной моделью-защитником. Адаптер унифицирует различные форматы входных данных, а Safiron выявляет рискованные случаи, присваивает типы рисков и генерирует обоснования; обученный в два этапа с использованием широко исследованного набора данных, Safiron демонстрирует устойчивую передачу знаний в различных условиях. Для устранения пробела в оценке мы выпускаем Pre-Exec Bench — реалистичный бенчмарк, охватывающий разнообразные инструменты и ветвящиеся траектории, который измеряет обнаружение, детальную категоризацию, объяснение и обобщение между планировщиками в сценариях, проверенных людьми. Многочисленные эксперименты демонстрируют стабильные преимущества предложенного защитного механизма по сравнению с сильными базовыми моделями на Pre-Exec Bench, а анализ дополнительно выделяет практические рекомендации, предоставляя практический шаблон для создания более безопасных агентских систем.
В последние годы фокус исследований в области больших языковых моделей (LLM) и агентов постепенно смещается от демонстрации новых возможностей к сложным рассуждениям и решению сложных задач. Однако существующие методы оценки в основном сосредоточены на математических/программных соревнованиях или общих задачах, тогда как существующие междисциплинарные академические тесты недостаточно глубоки с точки зрения рассуждений, оставляя область без строгого эталона для высокоуровневого мышления. Чтобы заполнить этот пробел, мы представляем тест Acadreason, разработанный для оценки способности LLM и агентов приобретать и рассуждать на основе академических знаний. Он состоит из 50 экспертно аннотированных академических задач, охватывающих пять областей, требующих глубокого мышления: информатика, экономика, право, математика и философия. Все вопросы взяты из ведущих публикаций последних лет и проходят строгую аннотацию и контроль качества, чтобы гарантировать их сложность и возможность ответа. Мы провели систематическую оценку более чем 10 популярных LLM и агентов. Результаты показывают, что большинство LLM набрали менее 20 баллов, а даже передовая модель GPT-5 достигла лишь 16 баллов. Хотя агенты показали более высокие результаты, ни один из них не превысил 40 баллов. Это демонстрирует текущий разрыв в возможностях между LLM и агентами в задачах сверхинтеллектуального академического исследования и подчеркивает сложность теста Acadreason.
Решение математических задач с использованием проверяемых языков, таких как Lean, оказало значительное влияние как на математическое, так и на компьютерное научное сообщество. Современные передовые модели часто обучаются с использованием дорогостоящего онлайн-обучения с подкреплением (Reinforcement Learning, RL) или итераций с участием экспертов. Однако эти подходы опираются на фиксированные наборы задач, что приводит к неэффективному обучению и ограничивает способность модели решать сложные проблемы. Чтобы преодолеть эти ограничения, мы предлагаем GAR: Generative Adversarial Reinforcement learning — комплексную структуру обучения с подкреплением, которая совместно обучает генератор задач и решатель в рамках состязательного цикла. GAR вводит механизм неявного обучения по учебному плану, который согласовывает сложность задач с развивающимися возможностями решателя. Это повышает эффективность обучения и позволяет достичь более высоких результатов в доказательстве сложных теорем. Эксперименты показывают, что при обучении с использованием GAR модели Goedel-Prover-V2-8B и DeepSeek-Prover-V2-7B демонстрируют среднее относительное улучшение в метрике pass@32 на 4,20% на тестовом наборе MiniF2F-Test, в то время как показатель pass@32 для DeepSeek-Prover-V2 на ProofNet-Test увеличивается с 22,58% до 25,81%. Помимо формального доказательства, GAR устанавливает общую парадигму обучения с подкреплением для совместной эволюции генерации задач и их решения в проверяемых средах.
Математическое рассуждение является ключевым показателем интеллекта больших языковых моделей (LLM). Однако существующие LLM демонстрируют недостатки в устойчивости и обобщаемости. В данной статье эти недостатки связываются с ложными рассуждениями, то есть с генерацией ответов на основе поверхностных признаков. Для решения этой проблемы мы предлагаем фреймворк AdaR, который обеспечивает адаптивное рассуждение, при котором модели опираются на логику решения задач для генерации ответов. AdaR синтезирует логически эквивалентные запросы путем изменения значений переменных и обучает модели с использованием RLVR на этих данных, чтобы наказывать ложную логику и поощрять адаптивную. Для повышения качества данных мы извлекаем логику решения задачи из исходного запроса и генерируем соответствующий ответ путем выполнения кода, после чего применяем проверку на корректность. Экспериментальные результаты показывают, что AdaR улучшает устойчивость и обобщаемость, достигая значительного прогресса в математическом рассуждении при сохранении высокой эффективности данных. Анализ указывает на то, что синтез данных и RLVR работают согласованно, обеспечивая адаптивное рассуждение в LLM. Последующие анализы выявляют ключевые идеи проектирования, касающиеся влияния критических факторов и применимости для обучения LLM. Наш проект доступен по адресу https://github.com/LaiZhejian/AdaR.
Сложность Общепринятых принципов бухгалтерского учёта (GAAP) и иерархическая структура отчётов, составленных на языке eXtensible Business Reporting Language (XBRL), делают автоматизацию и проверку финансового аудита всё более трудной задачей. Хотя крупные языковые модели (LLM) продемонстрировали высокие способности в понимании неструктурированного текста, их способность к рассуждению над структурированными, взаимозависимыми и таксономически обусловленными финансовыми документами остаётся в значительной степени неисследованной. Чтобы заполнить этот пробел, мы представляем FinAuditing — первый таксономически выровненный, учитывающий структуру, многодокументный бенчмарк для оценки LLM в задачах финансового аудита. Созданный на основе реальных отчётов XBRL, соответствующих US-GAAP, FinAuditing определяет три взаимодополняющих подзадачи: FinSM для семантической согласованности, FinRE для реляционной согласованности и FinMR для численной согласованности, каждая из которых направлена на отдельный аспект структурированного аудиторского рассуждения. Мы также предлагаем унифицированную систему оценки, интегрирующую метрики поиска, классификации и рассуждения для этих подзадач. Масштабные эксперименты с нулевым обучением на 13 современных LLM показывают, что текущие модели демонстрируют нестабильные результаты в семантическом, реляционном и математическом измерениях, с падением точности до 60–90% при рассуждении над иерархическими многодокументными структурами. Наши результаты выявляют систематические ограничения современных LLM в таксономически обоснованном финансовом рассуждении и устанавливают FinAuditing в качестве основы для разработки надёжных, учитывающих структуру и соответствующих нормативным требованиям систем финансового интеллекта. Бенчмарк-набор данных доступен на Hugging Face.
Хотя значительные исследования были сосредоточены на разработке способностей к воплощенному рассуждению с использованием моделей "Визия-Язык" (Vision-Language Models, VLMs) или интеграции продвинутых VLMs в модели "Визия-Язык-Действие" (Vision-Language-Action, VLA) для сквозного управления роботами, лишь немногие работы непосредственно затрагивают критический разрыв между рассуждениями на основе VLMs и обучением политик VLA. В данной работе мы делаем первый шаг к объединению воплощенного рассуждения с обучением политик VLA, представляя Vlaser — модель "Визия-Язык-Действие" с синергетической способностью к воплощенному рассуждению, которая представляет собой базовую модель "Визия-Язык", предназначенную для интеграции высокоуровневого рассуждения с низкоуровневым управлением для воплощенных агентов. Построенная на основе высококачественного набора данных Vlaser-6M, модель Vlaser демонстрирует наилучшие результаты на ряде бенчмарков для воплощенного рассуждения, включая пространственное рассуждение, воплощенное заземление, воплощенные вопросы и ответы, а также планирование задач. Кроме того, мы систематически исследуем, как различные инициализации VLMs влияют на контролируемую тонкую настройку VLA, предлагая новые идеи для смягчения сдвига домена между данными предварительного обучения интернет-масштаба и данными для обучения политик, специфичных для воплощенных систем. На основе этих идей наш подход достигает наилучших результатов на бенчмарке WidowX и конкурентоспособных показателей на бенчмарке Google Robot.
Унифицированные мультимодальные модели объединяют способность к рассуждению крупных языковых моделей с пониманием и генерацией изображений, демонстрируя значительный потенциал для развития продвинутого мультимодального интеллекта. Однако в сообществе до сих пор отсутствует строгий бенчмарк, ориентированный на рассуждения, который бы систематически оценивал согласованность между пониманием и генерацией, а также их потенциал обобщения в сложных визуальных задачах. В связи с этим мы представляем GIR-Bench — комплексный бенчмарк, который оценивает унифицированные модели с трех взаимодополняющих перспектив. Во-первых, мы исследуем согласованность понимания и генерации (GIR-Bench-UGC), проверяя, могут ли модели последовательно использовать одни и те же знания в задачах понимания и генерации. Во-вторых, мы изучаем, способны ли модели выполнять генерацию изображений на основе текста, ориентированную на рассуждения, которая требует применения логических ограничений и неявных знаний для создания достоверного визуального контента (GIR-Bench-T2I). В-третьих, мы оцениваем, могут ли модели справляться с многошаговыми рассуждениями в задачах редактирования (GIR-Bench-Edit). Для каждого подмножества мы тщательно разрабатываем специализированные оценочные конвейеры, адаптированные для конкретных задач. Это позволяет проводить детальную и интерпретируемую оценку, минимизируя предвзятость, присущую распространенной парадигме MLLM-as-a-Judge. Обширные эксперименты с различными унифицированными моделями и системами, ориентированными исключительно на генерацию, показали, что, хотя унифицированные модели более способны к решению задач, требующих рассуждений, между их пониманием и генерацией сохраняется значительный разрыв. Данные и код для GIR-Bench доступны по адресу https://hkust-longgroup.github.io/GIR-Bench{https://hkust-longgroup.github.io/GIR-Bench}.
Последние модели преобразования текста в видео (Text-to-Video, T2V) продемонстрировали мощные возможности в визуальной симуляции геометрии реального мира и физических законов, что указывает на их потенциал в качестве неявных моделей мира. Вдохновленные этим, мы исследуем возможность использования априорных знаний о генерации видео для планирования точек обзора на основе заданных 4D-сцен, поскольку видео внутренне сопровождают динамические сцены с естественными точками обзора. Для этого мы предлагаем двухэтапную парадигму адаптации предварительно обученных моделей T2V для предсказания точек обзора в совместимом формате. Сначала мы внедряем представление 4D-сцены в предварительно обученную модель T2V через адаптивную ветвь обучения, где 4D-сцена не зависит от точки обзора, а сгенерированное видео визуально встраивает точки обзора. Затем мы формулируем извлечение точки обзора как процесс денизинга внешних параметров камеры, управляемый гибридными условиями. В частности, на предварительно обученную модель T2V добавляется ветвь диффузии внешних параметров камеры, которая принимает сгенерированное видео и 4D-сцену в качестве входных данных. Экспериментальные результаты показывают превосходство нашего предложенного метода над существующими конкурентами, а исследования с исключением компонентов подтверждают эффективность наших ключевых технических решений. В некоторой степени эта работа доказывает потенциал моделей генерации видео для взаимодействия с 4D-сценами в реальном мире.
Диффузионные большие языковые модели (dLLMs) становятся эффективной альтернативой авторегрессивным моделям благодаря их способности декодировать несколько токенов параллельно. Однако согласование dLLM с человеческими предпочтениями или задачами, специфичными для вознаграждений, с помощью обучения с подкреплением (RL), является сложной задачей, поскольку их невычислимая логарифмическая вероятность исключает прямое применение стандартных методов градиента политики. Хотя предыдущие работы используют суррогаты, такие как нижняя граница доказательства (ELBO), эти односторонние аппроксимации могут вносить значительную погрешность в градиент политики. Для решения этой проблемы мы предлагаем метод "Сэндвич-градиент политики" (SPG), который использует как верхнюю, так и нижнюю границу истинной логарифмической вероятности. Эксперименты показывают, что SPG значительно превосходит базовые методы, основанные на ELBO или одношаговой оценке. В частности, SPG улучшает точность по сравнению с современными методами RL для dLLM на 3,6% в GSM8K, 2,6% в MATH500, 18,4% в Countdown и 27,0% в Sudoku.
Крупные модели, объединяющие обработку изображений и текста (LVLMs), которые интегрируют визуальный кодировщик (VE) с большой языковой моделью, достигли значительных успехов в решении различных задач. Однако в LVLMs по-прежнему существуют важные проблемы, такие как галлюцинации объектов, когда модель генерирует описания объектов, отсутствующих на входном изображении. В данной работе мы утверждаем, что неопределенные визуальные токены внутри VE являются ключевым фактором, способствующим возникновению галлюцинаций объектов. Наш статистический анализ показал, что существует положительная корреляция между визуальными токенами с высокой эпистемической неопределенностью и частотой возникновения галлюцинаций. Кроме того, мы теоретически и эмпирически демонстрируем, что визуальные токены в ранних слоях VE, которые демонстрируют значительные отклонения представлений при малых адверсарных возмущениях, указывают на высокую эпистемическую неопределенность. На основе этих выводов мы предлагаем простую, но эффективную стратегию для снижения галлюцинаций объектов, модифицируя только VE. Наш метод включает прокси-метод с адверсарными возмущениями для эффективного выявления неопределенных визуальных токенов и метод маскирования этих неопределенных визуальных токенов в процессе самовнимания в средних слоях VE, что подавляет их влияние на визуальное кодирование и, таким образом, уменьшает галлюцинации. Многочисленные эксперименты показывают, что наш метод значительно снижает галлюцинации объектов в LVLMs и может синергетически работать с другими существующими подходами.
Последние достижения в области больших языковых моделей (LLM) и визуально-языковых моделей (VLM) продемонстрировали значительный прогресс в математических рассуждениях, однако они по-прежнему сталкиваются с критическим ограничением при решении задач, требующих визуальной поддержки, таких как построение вспомогательных линий или графиков функций. Большинство LLM и VLM ограничены текстовыми цепочками рассуждений, в то время как мультимодальные унифицированные модели, способные генерировать чередующийся текст и изображения, не обладают необходимой точностью и управляемостью для таких задач. Для решения этой проблемы мы предлагаем CodePlot-CoT, код-ориентированную парадигму цепочки рассуждений (Chain-of-Thought) для "мышления с изображениями" в математике. Наш подход использует VLM для генерации текстовых рассуждений, а также исполняемого кода построения графиков, который затем визуализируется в виде изображений как "визуальная мысль" для решения математических задач. Для достижения этой цели мы сначала создаем Math-VR, первый крупномасштабный двуязычный набор данных и бенчмарк для математических задач с визуальными рассуждениями, содержащий 178 тысяч образцов. Во-вторых, для создания высококачественных обучающих данных мы разрабатываем современный конвертер изображений в код, специализированный для преобразования сложных математических графиков в код. Наконец, используя эти данные, мы обучаем модель CodePlot-CoT для решения математических задач. Экспериментальные результаты показывают, что наша модель демонстрирует увеличение производительности до 21% по сравнению с базовой моделью на нашем новом бенчмарке, полностью подтверждая эффективность предложенной код-ориентированной парадигмы рассуждений. Наша работа открывает новое направление для мультимодальных математических рассуждений и предоставляет сообществу первый крупномасштабный набор данных, комплексный бенчмарк и мощный подход для решения таких задач. Для содействия будущим исследованиям мы делаем наши наборы данных, код и предобученные модели общедоступными по адресу https://github.com/HKU-MMLab/Math-VR-CodePlot-CoT.
Агенты на основе больших языковых моделей (LLM) продемонстрировали выдающиеся способности к рассуждению. Однако существующие многозадачные фреймворки часто полагаются на фиксированные роли или централизованное управление, что ограничивает масштабируемость и адаптивность в задачах долгосрочного рассуждения. Мы представляем SwarmSys — замкнутую фреймворк-систему для распределенного многозадачного рассуждения, вдохновленную роевым интеллектом. Координация в SwarmSys возникает благодаря итеративному взаимодействию между тремя специализированными ролями: Исследователями, Работниками и Валидаторами, которые циклически проходят этапы исследования, эксплуатации и проверки. Для обеспечения масштабируемого и адаптивного взаимодействия мы интегрируем адаптивные профили агентов и событий, вероятностное сопоставление на основе эмбеддингов и механизм подкрепления, вдохновленный феромонами, что поддерживает динамическое распределение задач и самоорганизующуюся сходимость без глобального контроля. В задачах символического рассуждения, синтеза исследований и научного программирования SwarmSys стабильно превосходит базовые подходы, улучшая как точность, так и стабильность рассуждений. Эти результаты подчеркивают, что координация, вдохновленная роевым интеллектом, представляет собой перспективную парадигму для масштабируемого, устойчивого и адаптивного многозадачного рассуждения, предполагая, что масштабирование координации может конкурировать с масштабированием моделей в развитии интеллекта LLM.
Мы представляем Stable Video Infinity (SVI), способный генерировать видео бесконечной длины с высокой временной согласованностью, правдоподобными переходами между сценами и управляемыми сюжетными линиями. В то время как существующие методы для создания длинных видео пытаются смягчить накопленные ошибки с помощью ручных антидрейфовых техник (например, модифицированного планировщика шума или привязки кадров), они остаются ограниченными экстраполяцией по одному запросу, создавая однородные сцены с повторяющимися движениями. Мы выявили, что фундаментальная проблема выходит за рамки накопления ошибок и заключается в критическом несоответствии между предположением при обучении (работа с чистыми данными) и реальностью авторегрессивного тестирования (условие на основе самостоятельно сгенерированных, подверженных ошибкам выходов). Чтобы преодолеть этот разрыв, SVI включает в себя Error-Recycling Fine-Tuning — новый тип эффективного обучения, который перерабатывает ошибки, сгенерированные Diffusion Transformer (DiT), в обучающие подсказки, тем самым побуждая DiT активно идентифицировать и исправлять свои собственные ошибки. Это достигается за счет внедрения, сбора и сохранения ошибок через замкнутый цикл переработки, авторегрессивно обучаясь на основе обратной связи с внедренными ошибками. В частности, мы (i) внедряем исторические ошибки, допущенные DiT, чтобы вмешиваться в чистые входные данные, моделируя траектории с накопленными ошибками в потоковом сопоставлении; (ii) эффективно аппроксимируем предсказания с помощью одношаговой двунаправленной интеграции и вычисляем ошибки через остатки; (iii) динамически сохраняем ошибки в памяти воспроизведения на дискретизированных временных шагах, которые повторно используются для новых входных данных. SVI способен масштабировать видео от секунд до бесконечной длительности без дополнительных затрат на вывод, оставаясь совместимым с разнообразными условиями (например, аудио, скелет и текстовые потоки). Мы оцениваем SVI на трех тестовых наборах, включая согласованные, творческие и условные сценарии, тщательно проверяя его универсальность и передовую роль.
Масштабируемость обучения роботов фундаментально ограничена значительными затратами и трудоемкостью сбора данных в реальном мире. Хотя симулированные данные предлагают масштабируемую альтернативу, они часто не обобщаются на реальный мир из-за существенных различий в визуальном представлении, физических свойствах и взаимодействиях объектов. Для решения этой проблемы мы предлагаем RoboSimGS, новый фреймворк Real2Sim2Real, который преобразует многовидовые изображения реального мира в масштабируемые, высокоточные и физически интерактивные симуляционные среды для манипуляций роботов. Наш подход воссоздает сцены с использованием гибридного представления: 3D Gaussian Splatting (3DGS) захватывает фотореалистичный вид окружения, в то время как примитивы мешей для интерактивных объектов обеспечивают точное физическое моделирование. Ключевым моментом является использование Multi-modal Large Language Model (MLLM) для автоматизации создания физически правдоподобных, сочлененных объектов. MLLM анализирует визуальные данные, чтобы вывести не только физические свойства (например, плотность, жесткость), но и сложные кинематические структуры (например, шарниры, направляющие) объектов. Мы демонстрируем, что политики, обученные исключительно на данных, сгенерированных RoboSimGS, успешно переносятся из симуляции в реальный мир (zero-shot sim-to-real transfer) в разнообразных задачах манипуляции. Более того, данные из RoboSimGS значительно улучшают производительность и способность к обобщению современных методов (SOTA). Наши результаты подтверждают, что RoboSimGS является мощным и масштабируемым решением для преодоления разрыва между симуляцией и реальностью.
Недавние трансформаторные модели для восстановления трехмерной сетки человеческого тела (3D Human Mesh Recovery, HMR) достигли высоких результатов, но часто страдают от высокой вычислительной сложности и избыточности из-за глубоких архитектур трансформаторов и излишних токенов. В данной статье мы представляем две стратегии объединения, специфичные для HMR: объединение слоев с ограничением по ошибке (Error-Constrained Layer Merging, ECLM) и объединение токенов на основе маски (Mask-guided Token Merging, Mask-ToMe). ECLM выборочно объединяет слои трансформаторов, которые оказывают минимальное влияние на среднюю ошибку положения суставов (Mean Per Joint Position Error, MPJPE), в то время как Mask-ToMe фокусируется на объединении фоновых токенов, которые мало влияют на итоговый прогноз. Для дальнейшего устранения возможного снижения производительности, вызванного объединением, мы предлагаем диффузионный декодер, который учитывает временной контекст и использует априорные знания о позах, полученные из крупномасштабных наборов данных захвата движения. Эксперименты на нескольких бенчмарках показывают, что наш метод обеспечивает ускорение до 2,3 раза при незначительном улучшении производительности по сравнению с базовым подходом.
Хотя крупные языковые модели (LLM) превосходно справляются с генерацией алгоритмического кода, они испытывают трудности в разработке интерфейсов, где корректность оценивается по отображаемым пикселям и взаимодействию. Мы представляем ReLook — агентную, основанную на визуальном восприятии систему обучения с подкреплением, которая позволяет агенту замкнуть устойчивый цикл "генерация–диагностика–уточнение", используя мультимодальную языковую модель (MLLM) в качестве инструмента. Во время обучения агент использует MLLM в цикле как визуального критика, оценивающего код на основе скриншотов, и как источник практической, основанной на визуальном восприятии обратной связи; строгое правило нулевого вознаграждения за невалидные рендеры обеспечивает рендеринг и предотвращает "взлом" системы вознаграждений. Чтобы избежать коллапса поведения, мы вводим Принудительную Оптимизацию — строгое правило принятия, допускающее только улучшающие изменения, что приводит к монотонному улучшению траекторий. На этапе вывода мы разделяем критика и запускаем легковесный цикл самокоррекции без критика, сохраняя задержку на уровне базового декодирования, при этом сохраняя большую часть достигнутых улучшений. На трех широко используемых бенчмарках ReLook стабильно превосходит сильные базовые модели в генерации интерфейсного кода, основанной на визуальном восприятии, подчеркивая преимущества агентного восприятия, визуальных вознаграждений и разделения обучения и вывода.
Один из подходов к тонкой настройке языковых моделей (LM) основывается на создании больших обучающих наборов данных, исходя из предположения, что высокая количественная и качественная разнородность позволит моделям обобщать знания для новых задач после обучения. На практике сбор больших наборов данных неэффективен, а их обучение чрезмерно дорого; что хуже, нет гарантии, что итоговая модель будет справляться со сложными сценариями или лучше обобщать. Более того, существующие методы редко оценивают, предоставляет ли обучающий образец новую информацию или является избыточным по отношению к уже усвоенным знаниям модели, что приводит к ненужным затратам. В данной работе мы исследуем новый метод самосовершенствования на этапе тестирования для создания более эффективных и обобщаемых агентных LM "на лету". Предложенный алгоритм можно свести к трем шагам: (i) сначала он идентифицирует образцы, с которыми модель испытывает трудности (самоосознание), (ii) затем генерирует похожие примеры на основе обнаруженных неопределенных образцов (самоаугментация данных) и (iii) использует эти вновь созданные образцы для тонкой настройки на этапе тестирования (самосовершенствование). Мы изучаем два варианта этого подхода: Самосовершенствование на этапе тестирования (TT-SI), где та же модель генерирует дополнительные обучающие примеры из своих неопределенных случаев и затем обучается на них, и сравниваем его с Дистилляцией на этапе тестирования (TT-D), где более мощная модель генерирует похожие примеры для неопределенных случаев, позволяя ученику адаптироваться с использованием дистиллированного надзора. Эмпирические оценки на различных бенчмарках для агентов показывают, что TT-SI улучшает производительность с абсолютным приростом точности на +5,48% в среднем по всем бенчмаркам и превосходит другие стандартные методы обучения, при этом используя в 68 раз меньше обучающих образцов. Наши результаты подчеркивают перспективность TT-SI, демонстрируя потенциал алгоритмов самосовершенствования на этапе тестирования как новой парадигмы для создания более способных агентов, стремящихся к самоэволюции.
Языковые модели часто демонстрируют незначительное или отсутствующее улучшение (т.е. "насыщение") при обучении с помощью стандартного контролируемого тонкого настройки (SFT) на данных, похожих на те, что они видели в обучающем наборе (например, MATH). Мы представляем новую стратегию тонкого настройки, STAT, для обучения такой модели-студента, используя метакогнитивные способности более мощной крупной языковой модели (LLM) в качестве учителя. Учитель использует набор данных задачи для создания списка навыков, необходимых для выполнения задачи, а затем маркирует каждую точку данных требуемыми навыками (Didolkar et al., 2024). Наблюдая за ответами студента, учитель создает профиль недостающих навыков, отслеживая, как часто студент не смог применить каждый навык в своих ответах. Мы используем эту идею для построения модифицированного обучающего набора одним из двух способов. В STAT-Sel учитель использует существующий набор обучающих примеров, но адаптивно перевзвешивает их в соответствии с профилем недостающих навыков. В STAT-Syn учитель синтезирует дополнительные примеры, включающие недостающие навыки. В ходе обширных экспериментов на моделях Llama и Qwen наши методы обеспечивают улучшение до 7,5% на MATH, тогда как SFT дает лишь ограниченные улучшения. Кроме того, STAT повышает производительность на тестах вне распределения (например, AIME24/25, AMC23 и т.д.) в среднем на 4,6%. Важно отметить, что мы обнаружили, что STAT дополняет обучение с подкреплением через GRPO (Shao et al., 2024): после того, как модель улучшена с помощью STAT для устранения пробелов в навыках, GRPO продолжает добавлять дополнительные улучшения. Мы заключаем, что адаптивное обучение, ориентированное на навыки, должно значительно улучшить текущие обучающие процессы. Наш код доступен по адресу: https://github.com/princeton-pli/STAT.
Как следует оценивать устойчивость защитных механизмов языковых моделей? Современные защиты от взлома (jailbreaks) и инъекций в промпты (которые направлены на предотвращение получения вредоносных знаний или удаленного запуска вредоносных действий соответственно) обычно оцениваются либо на основе статичного набора вредоносных строк атак, либо против вычислительно слабых методов оптимизации, которые не были разработаны с учетом конкретной защиты. Мы утверждаем, что такой процесс оценки является ошибочным. Вместо этого защиты следует оценивать против адаптивных атакующих, которые явно изменяют свою стратегию атаки, чтобы противостоять дизайну защиты, при этом затрачивая значительные ресурсы на оптимизацию своей цели. Систематически настраивая и масштабируя общие методы оптимизации — градиентный спуск, обучение с подкреплением, случайный поиск и исследование с участием человека — мы обходим 12 недавних защит (основанных на разнообразных методах) с успешностью атак выше 90% для большинства; что важно, большинство этих защит изначально сообщали о почти нулевой успешности атак. Мы считаем, что будущие работы по защите должны учитывать более сильные атаки, подобные описанным нами, чтобы делать надежные и убедительные заявления об устойчивости.
Сравнение производительности человека и моделей предоставляет ценный взгляд на понимание сильных сторон и ограничений моделей эмбиддингов, выделяя области, где они преуспевают, и где они не способны уловить смысл и нюансы. Однако такие сравнения редко проводятся, поскольку производительность человека в задачах эмбиддинга сложно измерить. Чтобы заполнить этот пробел, мы представляем HUME: Фреймворк для оценки текстовых эмбиддингов человеком. В то время как фреймворки, такие как MTEB, предоставляют широкую оценку моделей, они не включают надежных оценок человеческой производительности, что ограничивает интерпретируемость результатов моделей. Мы измеряем производительность человека на 16 наборах данных MTEB, охватывающих задачи ранжирования, классификации, кластеризации и семантического текстового сходства для лингвистически разнообразных языков с высоким и низким уровнем ресурсов. Люди достигают средней производительности 77,6% по сравнению с 80,1% у лучшей модели эмбиддингов, хотя вариация значительна: модели демонстрируют почти максимальную производительность на некоторых наборах данных, но испытывают трудности на других, что указывает на проблемы с наборами данных и выявляет недостатки в языках с низким уровнем ресурсов. Мы предоставляем базовые показатели человеческой производительности, инсайты о закономерностях сложности задач и расширяемый фреймворк оценки, который позволяет более осмысленно интерпретировать результаты моделей и информирует разработку как моделей, так и бенчмарков. Наш код, набор данных и таблица лидеров доступны публично по адресу https://github.com/embeddings-benchmark/mteb.
Крупные модели рассуждений (Large Reasoning Models, LRMs) демонстрируют впечатляющие результаты в выполнении сложных задач, генерируя подробные объяснения в виде цепочек рассуждений (chain-of-thought, CoT). Однако такие ответы часто оказываются избыточно длинными, содержат повторяющиеся шаги рассуждений, что увеличивает затраты на вывод и снижает удобство использования. Управление длиной генерируемых рассуждений без ущерба для точности остается открытой проблемой. В результате систематического эмпирического анализа мы выявили устойчивую положительную корреляцию между энтропией модели и длиной ответа на различных этапах рассуждений в разных LRM: фаза мышления характеризуется более высокой энтропией, что отражает исследовательский характер длинных ответов, тогда как фаза финального ответа демонстрирует более низкую энтропию, указывая на детерминированное решение. Это наблюдение позволяет предположить, что энтропия на разных этапах рассуждений может служить инструментом для балансировки краткости и производительности. На основе этого инсайта в данной работе представлен механизм вознаграждения Phase Entropy Aware Reward (PEAR), который учитывает энтропию, зависящую от фазы, в дизайне вознаграждения. Вместо равномерного подхода ко всем токенам PEAR штрафует избыточную энтропию на этапе мышления и допускает умеренное исследование на этапе финального ответа, что побуждает модели генерировать краткие цепочки рассуждений, сохраняя достаточную гибкость для корректного решения задачи. Это позволяет адаптивно управлять длиной ответа без использования явных целевых показателей длины или жестких правил усечения. Эксперименты на четырех бенчмарках показывают, что PEAR последовательно сокращает длину ответов, сохраняя конкурентоспособную точность на различных масштабах моделей. Кроме того, PEAR демонстрирует высокую устойчивость к данным, выходящим за пределы обучающего распределения (out-of-distribution, OOD). Наш код доступен по адресу: https://github.com/iNLP-Lab/PEAR.
Когда ИИ-ассистент помнит, что Сара — мать-одиночка, работающая на двух работах, интерпретирует ли он её стресс иначе, чем если бы она была состоятельным руководителем? По мере того как персонализированные ИИ-системы всё чаще включают долгосрочную память о пользователях, понимание того, как эта память влияет на эмоциональное рассуждение, становится критически важным. Мы исследуем, как память о пользователях влияет на эмоциональный интеллект в крупных языковых моделях (LLM), оценивая 15 моделей на тестах эмоционального интеллекта, проверенных людьми. Мы обнаруживаем, что идентичные сценарии, связанные с разными профилями пользователей, приводят к систематически различным эмоциональным интерпретациям. В проверенных сценариях, независимых от пользователей, и при разнообразных профилях пользователей в нескольких высокопроизводительных LLM наблюдались систематические предубеждения, где профили с привилегиями получали более точные эмоциональные интерпретации. Более того, LLM демонстрируют значительные различия в понимании эмоций и задачах предоставления поддерживающих рекомендаций в зависимости от демографических факторов, что указывает на то, что механизмы персонализации могут встраивать социальные иерархии в эмоциональное рассуждение моделей. Эти результаты подчеркивают ключевую проблему для ИИ с расширенной памятью: системы, разработанные для персонализации, могут непреднамеренно усиливать социальное неравенство.
Понимание интуитивной физики в моделях диффузии видео играет ключевую роль в создании универсальных симуляторов физически правдоподобных миров. Однако точная оценка такой способности остается сложной задачей из-за трудности разделения корректности физики и визуального качества в генерации. Для решения этой проблемы мы представляем LikePhys — метод, не требующий обучения, который оценивает интуитивную физику в моделях диффузии видео, различая физически корректные и невозможные видео с использованием задачи удаления шума как суррогата правдоподобия на основе ELBO на специально подготовленном наборе данных из пар "корректные-некорректные". Тестируя на нашем бенчмарке из двенадцати сценариев, охватывающих четыре области физики, мы показываем, что наша метрика оценки, Ошибка Предпочтения Правдоподобия (PPE), демонстрирует сильное соответствие с человеческими предпочтениями, превосходя современные базовые методы оценки. Затем мы систематически оцениваем понимание интуитивной физики в текущих моделях диффузии видео. Наше исследование также анализирует, как дизайн модели и настройки вывода влияют на понимание интуитивной физики, и выделяет вариации способностей в зависимости от физических законов. Эмпирические результаты показывают, что, несмотря на трудности текущих моделей с сложной и хаотической динамикой, наблюдается четкая тенденция улучшения понимания физики по мере увеличения емкости модели и настроек вывода.
Создание реалистичных и управляемых 3D-аватаров человека представляет собой давнюю задачу, особенно когда требуется охватить широкий диапазон атрибутов, таких как этническая принадлежность, возраст, стили одежды и детализированные формы тела. Сбор и аннотирование крупномасштабных наборов данных о людях для обучения генеративных моделей является чрезмерно дорогостоящим и ограниченным в масштабе и разнообразии. Основной вопрос, который мы рассматриваем в этой статье, заключается в следующем: Можно ли использовать существующие базовые модели для генерации теоретически неограниченных, богато аннотированных 3D-данных о людях? Мы представляем InfiniHuman, фреймворк, который синергетически использует эти модели для создания богато аннотированных данных о людях с минимальными затратами и теоретически неограниченной масштабируемостью. Мы предлагаем InfiniHumanData, полностью автоматизированный конвейер, который использует модели обработки изображений и текста для создания крупномасштабного мультимодального набора данных. Пользовательское исследование показывает, что наши автоматически сгенерированные идентичности неотличимы от рендеров сканированных данных. InfiniHumanData содержит 111 тысяч идентичностей, охватывающих беспрецедентное разнообразие. Каждая идентичность аннотирована многоуровневыми текстовыми описаниями, многовидовыми RGB-изображениями, детализированными изображениями одежды и параметрами формы тела SMPL. На основе этого набора данных мы предлагаем InfiniHumanGen, генеративный конвейер на основе диффузионных моделей, который учитывает текст, форму тела и элементы одежды. InfiniHumanGen позволяет быстро, реалистично и точно управляемо генерировать аватары. Многочисленные эксперименты демонстрируют значительные улучшения по сравнению с современными методами в визуальном качестве, скорости генерации и управляемости. Наш подход позволяет генерировать высококачественные аватары с детализированным управлением на практически неограниченном масштабе через практичное и доступное решение. Мы опубликуем автоматизированный конвейер генерации данных, полный набор данных InfiniHumanData и модели InfiniHumanGen по адресу https://yuxuan-xue.com/infini-human.
Генеративные модели составляют основу современного машинного обучения, лежа в основе передовых систем в области обработки текста, компьютерного зрения и мультимодальных приложений. Хотя метод максимального правдоподобия традиционно служил доминирующей парадигмой обучения, последние исследования выявили его ограничения, особенно в обобщении и уязвимости к катастрофическому забыванию по сравнению с методами обучения с подкреплением, такими как методы градиента политики. Однако эти подходы зависят от явных сигналов вознаграждения, которые часто недоступны на практике, оставляя открытой фундаментальную проблему согласования генеративных моделей, когда доступны только высококачественные наборы данных. В данной работе мы решаем эту задачу с помощью двухуровневой оптимизации, где функция вознаграждения рассматривается как переменная оптимизации внешнего уровня, а целевая функция градиента политики определяет внутренний уровень. Затем мы проводим теоретический анализ этой задачи оптимизации в доступной для анализа постановке и извлекаем идеи, которые, как мы показываем, обобщаются на такие приложения, как табличная классификация и обучение с подкреплением на основе моделей. Мы публикуем код по адресу https://github.com/abenechehab/nll_to_po.
Предобученные базовые модели компьютерного зрения (VFMs) способствуют развитию робототехнического обучения за счет богатых визуальных представлений, однако отдельные VFMs обычно демонстрируют высокую эффективность только в узких областях, что ограничивает их универсальность для различных задач. Объединение нескольких VFMs в единое представление для политики может смягчить это ограничение, но часто приводит к негибкому выбору признаков, специфичных для задачи, и требует дорогостоящего полного переобучения для интеграции знаний, связанных с робототехникой. Мы предлагаем VER (Vision Expert Transformer) — трансформер для обучения роботов. На этапе предобучения VER объединяет несколько VFMs в библиотеку визуальных экспертов. Затем он дообучает только легковесную маршрутизирующую сеть (менее 0,4% параметров) для динамического выбора экспертов, релевантных задаче, из предобученной библиотеки для последующих робототехнических задач. Мы также вводим метод Patchwise Expert Routing с Curriculum Top-K Annealing для повышения гибкости и точности динамического выбора экспертов. Кроме того, VER поддерживает параметрически эффективное дообучение для масштабируемого использования экспертов и адаптивной интеграции знаний, связанных с робототехникой. На 17 разнообразных робототехнических задачах и с использованием нескольких голов политики VER демонстрирует наилучшие результаты. Мы обнаружили, что VER уменьшает выбросы с большими нормами в областях, не релевантных задаче (например, фон), и фокусируется на критически важных для задачи областях. Визуализации и коды доступны по ссылке: https://yixiaowang7.github.io/ver_page/.
Высококачественные данные для предварительного обучения — это ископаемое топливо для больших языковых моделей (LLM), однако его запасы для передовых моделей истощаются. В данной статье мы представляем RePro — новый метод переработки веб-данных, который обучает относительно небольшую языковую модель с использованием обучения с подкреплением для генерации эффективных и точных перефразировок данных для предварительного обучения. В частности, мы разработали одну награду за качество и три награды за точность, оптимизируя модель-перефразировщик для преобразования исходных данных в высококачественные перефразировки с сохранением их основной семантики и структуры. В нашем эксперименте мы обучили 4-миллиардный перефразировщик для переработки 72 миллиардов токенов, взятых из DCLM-RefinedWeb. Результаты предварительного обучения на моделях с 400 миллионами и 1,4 миллиарда параметров показывают, что RePro обеспечивает относительное улучшение точности на 4,7%–14,0% по сравнению с базовым подходом, использующим только исходные данные, на 22 задачах. RePro также превосходит ReWire — современный метод переработки веб-данных, который использует 70-миллиардный перефразировщик, а также базовый подход с исходными данными, увеличенными в 4 раза. Эксперименты с различным объемом переработанных данных подчеркивают, что RePro повышает эффективность использования исходных данных в 2–3 раза. Индивидуальный и распределенный анализ подтверждает, что RePro сохраняет больше критически важной информации и точнее отражает характеристики исходных данных по сравнению с методами, основанными на запросах. В совокупности эти результаты демонстрируют, что RePro предоставляет эффективный и контролируемый путь для использования «ископаемого топлива» предварительного обучения LLM. Мы открываем исходный код, модель-перефразировщик и переработанные данные по адресу https://github.com/cxcscmu/RePro.
Органические механизмы реакций представляют собой последовательные элементарные реакции, в ходе которых реагенты образуют промежуточные соединения и продукты, и они являются основополагающими для понимания химической реакционной способности и проектирования новых молекул и реакций. Хотя крупные языковые модели (LLM) продемонстрировали потенциал в решении химических задач, таких как проектирование синтеза, остается неясным, в какой степени это отражает подлинные способности к химическому рассуждению, то есть умение генерировать корректные промежуточные соединения, поддерживать химическую согласованность и следовать логически последовательным многоступенчатым путям. Мы решаем эту проблему, представляя oMeBench — первый крупномасштабный, экспертно проверенный эталонный тест для рассуждений о механизмах органических реакций в органической химии. Он включает более 10 000 аннотированных механистических шагов с промежуточными соединениями, метками типов и оценками сложности. Кроме того, для более точной оценки возможностей LLM и обеспечения детализированной оценки мы предлагаем oMeS — динамическую систему оценки, которая сочетает логику на уровне шагов и химическое сходство. Мы анализируем производительность современных LLM, и наши результаты показывают, что, хотя текущие модели демонстрируют перспективную химическую интуицию, они испытывают трудности с корректным и последовательным многоступенчатым рассуждением. Примечательно, что использование стратегии промптинга и дообучения специализированной модели на нашем предложенном наборе данных повышает производительность на 50% по сравнению с ведущей закрытой моделью. Мы надеемся, что oMeBench послужит строгой основой для продвижения систем ИИ к подлинному химическому рассуждению.
Хотя модели преобразования текста в изображение (Text-to-Image, T2I) способны синтезировать изображения высокого качества, их производительность значительно снижается при работе с новыми или выходящими за пределы распределения (out-of-distribution, OOD) объектами из-за ограничений встроенных знаний. Мы представляем World-To-Image — новую концепцию, которая устраняет этот разрыв, обогащая генерацию T2I знаниями о мире, получаемыми с помощью агентов. Мы разработали агента, который динамически осуществляет поиск в интернете для извлечения изображений концепций, неизвестных базовой модели. Эта информация затем используется для оптимизации мультимодальных запросов, направляя мощные генеративные модели на точный синтез. Важно отметить, что наша оценка выходит за рамки традиционных метрик, используя современные методы, такие как LLMGrader и ImageReward, для измерения истинной семантической точности. Наши эксперименты показывают, что World-To-Image значительно превосходит современные методы как в семантическом соответствии, так и в визуальной эстетике, достигая улучшения точности соответствия запросу на +8,1% на нашем специально разработанном бенчмарке NICE. Наша концепция достигает этих результатов с высокой эффективностью менее чем за три итерации, прокладывая путь для T2I-систем, которые могут лучше отражать постоянно меняющийся реальный мир. Демонстрационный код доступен по ссылке: https://github.com/mhson-kyle/World-To-Image.
Современные диалоговые агенты, такие как ChatGPT и Alexa+, опираются на предопределенные политики, которые задают метаданные, стили ответов и правила использования инструментов. По мере того как эти системы на основе больших языковых моделей (LLM) расширяются для поддержки разнообразных бизнес-запросов и запросов пользователей, такие политики, часто реализуемые в виде контекстных подсказок, становятся все более сложными и объемными, что затрудняет их точное соблюдение и приводит к значительным фиксированным вычислительным затратам. С появлением мультимодальных агентов политики, регулирующие визуальное и мультимодальное поведение, становятся критически важными, но остаются недостаточно изученными. Предыдущие работы по сжатию подсказок в основном сокращают шаблоны задач и примеры, тогда как существующие исследования по согласованию политик сосредоточены только на текстовых правилах безопасности. Мы представляем задачу Multimodal Policy Internalization (MPI), которая заключается в интериоризации сложных мультимодальных политик в параметры модели, что позволяет улучшить следование политикам без их включения в процесс вывода. MPI ставит уникальные задачи в области данных и алгоритмов. Мы создаем два набора данных, охватывающих синтетические и реальные задачи принятия решений и использования инструментов, и предлагаем TriMPI — трехэтапную структуру обучения. TriMPI сначала внедряет знания о политиках через непрерывное предварительное обучение, затем выполняет контролируемую дообучение и, наконец, применяет PolicyRollout — расширение в стиле GRPO для обучения с подкреплением, которое дополняет прогоны ответами, учитывающими политики, для обоснованного исследования. TriMPI демонстрирует значительные улучшения в точности, обобщаемости и устойчивости к забыванию. Будучи первой работой по интериоризации мультимодальных политик, мы предоставляем наборы данных, рецепты обучения и всесторонние оценки для стимулирования будущих исследований. Страница проекта: https://mikewangwzhl.github.io/TriMPI.
Общие крупные языковые модели (LLM) демонстрируют высокие результаты в задачах логического рассуждения, однако модели, оптимизированные для перевода, испытывают трудности в таких задачах. Для решения этой проблемы мы предлагаем новый подход к улучшению перевода, который начинается с инструктивных моделей и применяет выборочную настройку слоев только на параллельных данных. Следуя этому подходу, мы представляем модели Qwen3-XPlus, которые демонстрируют значительное улучшение качества перевода как для языков с высоким, так и с низким уровнем ресурсов, достигая показателей 15+ spBLEU и 40+ xComet для языков с низким уровнем ресурсов, таких как суахили. Интересно, что обучение только на небольших параллельных наборах данных позволяет Qwen3-XPlus добиться среднего улучшения на 1+ балл в 7 многоязычных задачах, сохраняя при этом уровень мастерства, сопоставимый с инструктивной моделью Qwen3 в 15 популярных наборах данных для логического рассуждения. Эта работа предлагает перспективный подход к многоязычному улучшению, значительно снижая сложность и повышая доступность для более широкого круга языков. Код и модель доступны публично.
В основе Deep Research лежит извлечение знаний — задача структурирования информации из огромных объемов неструктурированного текста в ответ на пользовательские запросы. Крупные языковые модели (LLM) превосходно справляются с интерпретацией таких запросов, но их масштабное развертывание чрезмерно дорого, в то время как традиционные конвейеры классификаторов и экстракторов остаются эффективными, но хрупкими и неспособными обобщать новые задачи. Мы представляем Falconer — совместную платформу, которая объединяет агентное рассуждение LLM с легковесными прокси-моделями для масштабируемого извлечения знаний. В Falconer LLM выступают в роли планировщиков, разбивающих пользовательские запросы на исполняемые конвейеры, и в роли аннотаторов, генерирующих данные для обучения небольших прокси-моделей. Платформа объединяет классификацию и извлечение в две атомарные операции — get label и get span, что позволяет одной модели, следующей инструкциям, заменить множество специализированных компонентов. Для оценки согласованности между прокси-моделями, созданными Falconer, и аннотациями, предоставленными людьми и крупными моделями, мы разработали новые бенчмарки, охватывающие как планирование, так и сквозное выполнение. Эксперименты показывают, что Falconer близко соответствует точности современных LLM в следовании инструкциям, при этом снижая стоимость вывода до 90% и ускоряя масштабное извлечение знаний более чем в 20 раз, предлагая эффективную и масштабируемую основу для Deep Research.
Генерация творческого контента представляет собой синтез новых, удивительных и ценных образцов, которые отражают намерения пользователя, но не могут быть заранее предсказаны. Эта задача направлена на расширение человеческого воображения, позволяя открывать визуальные концепции, существующие в неизведанных пространствах между знакомыми областями. Хотя модели диффузии текст-изображение преуспевают в создании фотореалистичных сцен, точно соответствующих запросам пользователя, они всё ещё испытывают трудности с генерацией по-настоящему нового контента. Существующие подходы для повышения творческой генерации либо полагаются на интерполяцию признаков изображений, что ограничивает исследование предопределёнными категориями, либо требуют трудоёмких процедур, таких как оптимизация встраиваний или тонкая настройка модели. Мы предлагаем метод VLM-Guided Adaptive Negative-Prompting, который не требует обучения и работает на этапе вывода, способствуя творческой генерации изображений при сохранении валидности создаваемого объекта. Наш подход использует модель "визуальный язык" (VLM), которая анализирует промежуточные результаты процесса генерации и адаптивно направляет его в сторону от традиционных визуальных концепций, стимулируя появление новых и удивительных результатов. Мы оцениваем творчество через новизну и валидность, используя статистические метрики в пространстве встраиваний CLIP. В ходе обширных экспериментов мы демонстрируем стабильное улучшение творческой новизны с минимальными вычислительными затратами. Более того, в отличие от существующих методов, которые в основном генерируют отдельные объекты, наш подход распространяется на сложные сценарии, такие как создание согласованных наборов творческих объектов и сохранение творчества в рамках сложных композиционных запросов. Наш метод легко интегрируется в существующие конвейеры диффузии, предлагая практический путь для создания творческих результатов, выходящих за рамки ограничений текстовых описаний.
Обучение в контексте позволяет крупным моделям адаптироваться к новым задачам на основе нескольких примеров, однако в молекулярном дизайне этот подход показал ограниченный успех. Существующие базы данных, такие как ChEMBL, содержат молекулярные свойства, охватывающие миллионы биологических тестов, однако размеченные данные для каждого свойства остаются скудными. Чтобы устранить это ограничение, мы представляем диффузионные модели, обусловленные демонстрациями (DemoDiff), которые определяют контекст задачи с помощью небольшого набора примеров молекул и их оценок вместо текстовых описаний. Эти демонстрации направляют денойзинговый трансформер для генерации молекул, соответствующих целевым свойствам. Для масштабируемого предобучения мы разработали новый молекулярный токенизатор с кодированием пар узлов (Node Pair Encoding), который представляет молекулы на уровне мотивов, требуя в 5,5 раз меньше узлов. Мы собрали набор данных, содержащий миллионы контекстных задач из различных источников, охватывающих как лекарства, так и материалы, и предобучили на нем модель с 0,7 миллиардами параметров. На 33 задачах дизайна в шести категориях DemoDiff соответствует или превосходит языковые модели, в 100–1000 раз более крупные, и достигает среднего ранга 3,63 по сравнению с 5,25–10,20 для специализированных подходов. Эти результаты позиционируют DemoDiff как фундаментальную модель для молекулярного дизайна в контексте. Наш код доступен по адресу https://github.com/liugangcode/DemoDiff.
В последние годы облачные MLLM, такие как QwenVL, InternVL, GPT-4o, Gemini и Claude Sonnet, продемонстрировали выдающуюся производительность с огромными размерами моделей, достигающими сотен миллиардов параметров, что значительно превосходит ограничения по памяти, энергопотреблению и вычислительной мощности устройств на границе сети, таких как мобильные телефоны. В данной статье представлен AndesVL — набор мобильных MLLM с параметрами от 0,6 до 4 миллиардов, основанных на LLM Qwen3 и различных визуальных кодировщиках. Мы подробно описываем архитектуры моделей, процесс обучения и данные, используемые для обучения AndesVL, который демонстрирует первоклассные результаты на широком спектре открытых бенчмарков, включая такие области, как понимание текстовых изображений, рассуждения и математика, понимание множества изображений, общие задачи визуального вопросно-ответного взаимодействия (VQA), снижение галлюцинаций, многоязычное понимание и задачи, связанные с графическими интерфейсами пользователя (GUI), по сравнению с современными моделями аналогичного масштаба. Кроме того, мы представляем подход 1+N LoRA.
Типичные посттренировочные парадигмы для крупных моделей, объединяющих зрение и язык (Large Vision-and-Language Models, LVLMs), включают контролируемую тонкую настройку (Supervised Fine-Tuning, SFT) и обучение с подкреплением с проверяемыми наградами (Reinforcement Learning with Verifiable Rewards, RLVR). SFT использует внешнее руководство для внедрения новых знаний, тогда как RLVR применяет внутреннее подкрепление для улучшения способностей к рассуждению и общей производительности. Однако наш анализ показывает, что SFT часто приводит к субоптимальной производительности, в то время как RLVR испытывает трудности с задачами, выходящими за пределы внутренней базы знаний модели. Для устранения этих ограничений мы предлагаем ViSurf (Visual Supervised-and-Reinforcement Fine-Tuning), унифицированную посттренировочную парадигму, которая интегрирует преимущества как SFT, так и RLVR в рамках одного этапа. Мы анализируем вывод целей SFT и RLVR для установления цели ViSurf, предоставляя унифицированный взгляд на эти две парадигмы. Основная идея ViSurf заключается во внедрении эталонных меток в процесс RLVR, что обеспечивает одновременное внешнее управление и внутреннее подкрепление. Кроме того, мы вводим три новые стратегии управления наградами для стабилизации и оптимизации процесса обучения. Многочисленные эксперименты на различных тестовых наборах демонстрируют эффективность ViSurf, превосходящей как отдельные SFT и RLVR, так и двухэтапный подход SFT → RLVR. Подробный анализ подтверждает эти результаты, подтверждая обоснованность вывода и принципов проектирования ViSurf.
Редактирование видео на основе инструкций стало быстро развивающимся направлением исследований, открывающим новые возможности для интуитивного преобразования контента, но также представляющим значительные вызовы для систематической оценки. Существующие бенчмарки для редактирования видео не обеспечивают адекватной оценки методов, основанных на инструкциях, и дополнительно страдают от ограниченного разнообразия исходных данных, узкого охвата задач и неполных метрик оценки. Чтобы устранить эти ограничения, мы представляем IVEBench — современный набор бенчмарков, специально разработанный для оценки редактирования видео на основе инструкций. IVEBench включает разнообразную базу данных из 600 высококачественных исходных видео, охватывающих семь семантических измерений, с длительностью от 32 до 1024 кадров. Он также содержит 8 категорий задач редактирования с 35 подкатегориями, чьи инструкции генерируются и уточняются с использованием крупных языковых моделей и экспертной проверки. Ключевым аспектом является то, что IVEBench устанавливает трехмерный протокол оценки, охватывающий качество видео, соответствие инструкциям и достоверность видео, интегрируя как традиционные метрики, так и оценки на основе мультимодальных крупных языковых моделей. Масштабные эксперименты демонстрируют эффективность IVEBench в тестировании передовых методов редактирования видео на основе инструкций, показывая его способность обеспечивать всесторонние и согласованные с человеческим восприятием результаты оценки.
Точная семантическая сегментация облаков точек, полученных с помощью наземного лазерного сканирования (TLS), ограничена высокой стоимостью ручной аннотации. Мы предлагаем полуавтоматизированный подход, учитывающий неопределенность, который объединяет сферическую проекцию, обогащение признаков, ансамблевое обучение и целенаправленную аннотацию для снижения затрат на маркировку при сохранении высокой точности. Наш метод проецирует 3D-точки на 2D-сферическую сетку, обогащает пиксели мультиисточниковыми признаками и обучает ансамбль сегментационных сетей для генерации псевдо-меток и карт неопределенности, последние из которых направляют аннотацию неоднозначных областей. 2D-результаты обратно проецируются в 3D, создавая плотно аннотированные облака точек, поддерживаемые трехкомпонентной визуализационной системой (2D-карты признаков, 3D-цветные облака точек и компактные виртуальные сферы) для быстрой сортировки и руководства рецензента. Используя этот подход, мы создаем Mangrove3D — набор данных для семантической сегментации TLS мангровых лесов. Мы также оцениваем эффективность данных и важность признаков, чтобы ответить на два ключевых вопроса: (1) сколько аннотированных данных требуется и (2) какие признаки наиболее значимы. Результаты показывают, что производительность стабилизируется после ~12 аннотированных сканирований, геометрические признаки вносят наибольший вклад, а компактные девятиканальные наборы данных захватывают почти всю дискриминативную способность, при этом среднее значение Intersection over Union (mIoU) достигает около 0,76. Наконец, мы подтверждаем обобщаемость нашей стратегии обогащения признаков с помощью кросс-датасетных тестов на ForestSemantic и Semantic3D. Наши вклады включают: (i) надежный, учитывающий неопределенность подход к аннотации TLS с инструментами визуализации; (ii) набор данных Mangrove3D; и (iii) эмпирические рекомендации по эффективности данных и важности признаков, что позволяет масштабировать высококачественную сегментацию облаков точек TLS для экологического мониторинга и других задач. Набор данных и скрипты обработки доступны публично по адресу https://fz-rit.github.io/through-the-lidars-eye/.
Улучшения в построении моделей, включая усиленные защитные механизмы, позволяют крупным языковым моделям (LLM) всё чаще проходить стандартные проверки на безопасность. Однако LLM иногда проявляют вредоносное поведение, например, выражают расистские взгляды, в ходе диалогов. Для систематического анализа этого явления мы представляем CoBia — набор лёгких атак, которые позволяют уточнить условия, при которых LLM отклоняются от нормативного или этического поведения в беседах. CoBia создаёт искусственный диалог, в котором модель высказывает предвзятое утверждение о социальной группе. Затем мы оцениваем, способна ли модель восстановиться после сфабрикованного предвзятого утверждения и отвергнуть предвзятые последующие вопросы. Мы тестируем 11 открытых и проприетарных LLM на их выходные данные, связанные с шестью социально-демографическими категориями, важными для индивидуальной безопасности и справедливого обращения: пол, раса, религия, национальность, сексуальная ориентация и другие. Наша оценка основана на устоявшихся метриках предвзятости для LLM, и мы сравниваем результаты с суждениями людей, чтобы определить надёжность и согласованность LLM. Результаты показывают, что целенаправленно созданные диалоги надёжно выявляют усиление предвзятости, и что LLM часто не способны отвергнуть предвзятые последующие вопросы в ходе диалога. Такое стресс-тестирование подчёркивает глубоко укоренившиеся предубеждения, которые могут проявляться в процессе взаимодействия. Код и материалы доступны по адресу https://github.com/nafisenik/CoBia.
Крупные модели рассуждений (Large Reasoning Models, LRMs) демонстрируют высокие результаты в сложных задачах рассуждения, но традиционно оцениваются в статических условиях "замороженного мира": предполагается, что ответы модели формируются мгновенно, а контекст запроса остается неизменным на протяжении всего времени генерации ответа. Хотя это предположение в целом справедливо для краткосрочных задач, оно перестает работать в современных задачах рассуждения, таких как ассистирующее программирование, где модели могут тратить часы на обдумывание проблемы, а код может значительно измениться с момента начала рассуждений до финального вывода модели. В данной работе мы подвергаем сомнению предположение о "замороженном мире" и оцениваем устойчивость LRM в двух реалистичных динамических сценариях: прерываниях, которые проверяют качество частичных выводов модели при ограниченных ресурсах, и динамическом контексте, который тестирует способность модели адаптироваться к изменениям в процессе работы. На тестах по математике и программированию, требующих длительных рассуждений, статические оценки систематически переоценивают устойчивость: даже передовые LRM, демонстрирующие высокую точность в статических условиях, могут непредсказуемо ошибаться при прерываниях или изменении контекста, при этом производительность может снижаться до 60%, если обновления вносятся на поздних этапах рассуждения. Наш анализ также выявляет несколько новых типов ошибок, включая утечку рассуждений, когда модели сворачивают процесс рассуждения в финальный ответ при прерывании; панику, когда под давлением времени модели полностью отказываются от рассуждений и возвращают неверные ответы; и неуверенность в себе, когда производительность ухудшается при попытке учесть обновленную информацию.
В данной статье мы представляем первое крупномасштабное исследование, посвящённое вопросу о том, может ли код JavaScript, сгенерированный крупными языковыми моделями (LLM), раскрыть, какая именно модель его создала, что позволяет надёжно устанавливать авторство и идентифицировать модели. С быстрым ростом использования ИИ для генерации кода атрибуция играет критическую роль в обнаружении уязвимостей, маркировке вредоносного контента и обеспечении подотчётности. В то время как методы обнаружения ИИ-сгенерированного кода обычно рассматривают ИИ как единую категорию, мы показываем, что отдельные LLM оставляют уникальные стилистические следы, даже среди моделей, принадлежащих к одному семейству или имеющих одинаковый размер параметров. Для этого мы представляем LLM-NodeJS — набор данных, содержащий 50 000 бэкенд-программ на Node.js, созданных 20 крупными языковыми моделями. Каждая программа имеет четыре преобразованных варианта, что даёт в общей сложности 250 000 уникальных образцов JavaScript, а также два дополнительных представления (JSIR и AST) для разнообразных исследовательских задач. Используя этот набор данных, мы сравниваем традиционные классификаторы машинного обучения с тонко настроенными трансформерными энкодерами и представляем CodeT5-JSA — специализированную архитектуру, основанную на модели CodeT5 с 770 миллионами параметров, из которой удалён декодер и добавлен модифицированный классификационный слой. Она достигает точности 95,8% в задачах атрибуции на пять классов, 94,6% — на десять классов и 88,5% — на двадцать классов, превосходя другие протестированные модели, такие как BERT, CodeBERT и Longformer. Мы демонстрируем, что классификаторы улавливают более глубокие стилистические закономерности в потоке данных и структуре программы, а не полагаются на поверхностные признаки. В результате атрибуция остаётся эффективной даже после искажения кода, удаления комментариев и значительных преобразований. В поддержку открытой науки и воспроизводимости мы публикуем набор данных LLM-NodeJS, скрипты для обучения в Google Colab и все сопутствующие материалы на GitHub: https://github.com/LLM-NodeJS-dataset.
Диагностика изображения целого среза представляет собой интерактивный, многоэтапный процесс, включающий изменения увеличения и перемещение между полями зрения. Хотя современные базовые модели в патологии демонстрируют высокую эффективность, практические агентные системы, которые решают, какое поле исследовать дальше, регулируют увеличение и предоставляют объяснимые диагнозы, всё ещё отсутствуют. Основным препятствием являются данные: масштабируемый, клинически ориентированный надзор за поведением экспертов при просмотре, которое является неявным и основанным на опыте, не описанным в учебниках или онлайн, и поэтому отсутствует в обучении крупных языковых моделей. Мы представляем AI Session Recorder, который работает со стандартными программами просмотра WSI, незаметно записывая рутинную навигацию и преобразуя логи просмотра в стандартизированные поведенческие команды (осмотр или беглый просмотр на определённых увеличениях) и ограничивающие рамки. Лёгкий процесс проверки с участием человека превращает рациональные объяснения, сгенерированные ИИ, в набор данных Pathology-CoT — форму парного надзора "куда смотреть" и "почему это важно", создаваемого примерно в шесть раз быстрее. Используя эти поведенческие данные, мы создаём Pathologist-o3 — двухэтапного агента, который сначала предлагает области интереса, а затем выполняет рассуждения, основанные на поведении. В задаче обнаружения метастазов в лимфатических узлах желудочно-кишечного тракта он достиг точности 84,5%, полноты 100,0% и точности классификации 75,4%, превзойдя современную модель OpenAI o3 и демонстрируя обобщаемость на различных архитектурах. Насколько нам известно, это одна из первых агентных систем в патологии, основанных на поведении. Преобразуя повседневные логи просмотра в масштабируемый, проверенный экспертами надзор, наш подход делает агентную патологию практичной и прокладывает путь к клиническому ИИ, ориентированному на человека и способному к обновлению.
Крупные языковые модели (LLM) могут правильно ответить на вопрос «Когда родился Эйнштейн?», но не предоставить ту же дату при написании текста о жизни Эйнштейна, что выявляет фундаментальную несогласованность в том, как модели обращаются к фактическим знаниям в зависимости от сложности задачи. Хотя модели демонстрируют впечатляющую точность на тестах по ответам на фактические вопросы, разрыв в надежности между простыми и сложными запросами остается плохо изученным, что подрывает их доверительность. В данной работе мы представляем метод Short-Long Form Alignment for Factual Question Answering (SLAQ) — контролируемую оценочную структуру, которая сравнивает ответы LLM на одни и те же фактические вопросы, заданные (а) изолированно (короткая форма) и (б) встроенные в сложные запросы (длинная форма). Исследуя 16 LLM на 600 запросах, мы обнаруживаем систематическое несоответствие ответов на соответствующие короткие и длинные запросы. Мы также выявляем потерю точности, зависящую от позиции, и эффекты инерции, когда последовательные правильные или неправильные ответы создают самоподдерживающиеся паттерны. С помощью механистического анализа мы обнаруживаем, что согласованные факты активируют перекрывающиеся внутренние компоненты модели, и что метрики, основанные на механистическом сходстве, могут предсказывать согласованность ответов на короткие и длинные запросы с точностью до 78%. Наша работа устанавливает фактологическую согласованность в зависимости от сложности запроса как важный аспект доверительности LLM и ставит под сомнение текущие оценочные практики, которые неявно предполагают, что хорошая производительность на простых фактологических запросах подразумевает надежность и в более сложных задачах поиска знаний.
Видеоинтерполяция создает плавные и естественные переходы между двумя кадрами изображения, что делает ее незаменимым инструментом для видеомонтажа и синтеза длинных видеороликов. Существующие работы в этой области не способны генерировать крупные, сложные или детализированные движения. В частности, они не могут учитывать разнообразие пользовательских намерений и, как правило, не обеспечивают точного контроля над деталями промежуточных кадров, что приводит к несоответствию с творческим замыслом. Чтобы устранить эти пробелы, мы представляем MultiCOIN — фреймворк для видеоинтерполяции, который позволяет использовать мультимодальные элементы управления, включая переходы и слои глубины, траектории движения, текстовые подсказки и целевые области для локализации движения, достигая баланса между гибкостью, удобством использования и точностью для детализированной интерполяции видео. Для этого мы используем архитектуру Diffusion Transformer (DiT) в качестве нашей модели генерации видео благодаря ее доказанной способности создавать высококачественные длинные видеоролики. Чтобы обеспечить совместимость между DiT и нашими мультимодальными элементами управления, мы преобразуем все элементы управления движением в общее разреженное и удобное для пользователя представление на основе точек, которое используется как вход для видео/шума. Кроме того, чтобы учитывать разнообразие элементов управления, которые работают на разных уровнях детализации и влияния, мы разделяем элементы управления контентом и движением на две ветви для кодирования необходимых признаков перед управлением процессом удаления шума, что приводит к двум генераторам: один для движения, а другой для контента. Наконец, мы предлагаем поэтапную стратегию обучения, чтобы гарантировать, что наша модель плавно осваивает мультимодальные элементы управления. Многочисленные качественные и количественные эксперименты демонстрируют, что мультимодальные элементы управления позволяют создавать более динамичный, настраиваемый и контекстуально точный визуальный нарратив.