Ежедневно отобранные исследовательские статьи по ИИ с переводами
Обучение с подкреплением с верифицируемыми наградами (RLVR) стало мощным подходом для улучшения способностей к рассуждению у крупных языковых моделей (LLM), хотя его механизмы пока недостаточно изучены. В данной работе мы предпринимаем новаторское исследование RLVR через новую перспективу паттернов энтропии токенов, всесторонне анализируя, как различные токены влияют на производительность рассуждений. Изучая паттерны энтропии токенов в цепочке рассуждений (CoT), мы наблюдаем, что лишь небольшая часть токенов демонстрирует высокую энтропию, и эти токены выступают в качестве критических точек ветвления, направляющих модель по различным путям рассуждений. Кроме того, исследование того, как паттерны энтропии изменяются в процессе обучения RLVR, показывает, что RLVR в значительной степени сохраняет паттерны энтропии базовой модели, в основном корректируя энтропию высокоэнтропийных токенов. Эти результаты подчеркивают значимость высокоэнтропийных токенов (т.е. токенов ветвления) для RLVR. В конечном итоге мы улучшаем RLVR, ограничивая обновления градиента политики токенами ветвления, и обнаруживаем результат, выходящий за рамки правила 80/20: использование всего 20% токенов при сохранении производительности, сопоставимой с полными обновлениями градиента на базовой модели Qwen3-8B, и значительное превосходство над полными обновлениями градиента на моделях Qwen3-32B (+11.04 на AIME'25 и +7.71 на AIME'24) и Qwen3-14B (+4.79 на AIME'25 и +5.21 на AIME'24), что указывает на сильную тенденцию к масштабированию. В то же время обучение исключительно на 80% токенов с наименьшей энтропией приводит к заметному снижению производительности. Эти результаты свидетельствуют о том, что эффективность RLVR в основном обусловлена оптимизацией высокоэнтропийных токенов, которые определяют направления рассуждений. В совокупности наши результаты подчеркивают потенциал понимания RLVR через призму энтропии токенов и оптимизации RLVR за счет использования высокоэнтропийных токенов меньшинства для дальнейшего улучшения рассуждений LLM.
Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), предобученные на крупномасштабных мультимодальных наборах данных, кодируют богатые визуальные и лингвистические знания, что делает их мощной основой для робототехники. Вместо обучения роботизированных политик с нуля современные подходы адаптируют VLMs в модели, объединяющие зрение, язык и действие (Vision-Language-Action, VLA), которые обеспечивают восприятие и управление на основе естественного языка. Однако существующие VLA-модели, как правило, обладают огромными размерами — часто с миллиардами параметров — что приводит к высоким затратам на обучение и ограниченной применимости в реальных условиях. Кроме того, они полагаются на академические и промышленные наборы данных, игнорируя растущую доступность данных, собранных сообществом с использованием доступных роботизированных платформ. В данной работе мы представляем SmolVLA — компактную, эффективную и ориентированную на сообщество VLA-модель, которая значительно снижает затраты как на обучение, так и на выполнение, сохраняя при этом конкурентоспособную производительность. SmolVLA разработана для обучения на одном графическом процессоре (GPU) и развертывания на потребительских GPU или даже CPU. Для дальнейшего повышения отзывчивости мы внедряем асинхронный стек выполнения, разделяющий прогнозирование восприятия и действий от их выполнения, что позволяет достичь более высокой частоты управления за счет генерации действий порциями. Несмотря на компактный размер, SmolVLA демонстрирует производительность, сопоставимую с VLA-моделями, которые в 10 раз больше. Мы оцениваем SmolVLA на ряде симулированных и реальных роботизированных тестов и публикуем весь код, предобученные модели и данные для обучения.
Мы представляем Reasoning Gym (RG) — библиотеку сред для обучения с подкреплением, ориентированных на задачи логического рассуждения с верифицируемыми наградами. Она включает более 100 генераторов данных и верификаторов, охватывающих такие области, как алгебра, арифметика, вычисления, когнитивные задачи, геометрия, теория графов, логика и различные популярные игры. Ключевым нововведением является возможность генерации практически бесконечных объемов обучающих данных с регулируемой сложностью, в отличие от большинства существующих наборов данных для рассуждений, которые обычно фиксированы. Такой подход к процедурной генерации позволяет проводить непрерывную оценку на различных уровнях сложности. Наши экспериментальные результаты демонстрируют эффективность RG как для оценки, так и для обучения с подкреплением моделей логического рассуждения.
Мультимодальные крупные языковые модели (MLLMs) демонстрируют перспективные способности в задачах рассуждения, однако всё ещё испытывают трудности с решением сложных проблем, требующих явного самоанализа и самокоррекции, особенно в сравнении с их унимодальными текстовыми аналогами. Существующие методы рефлексии являются упрощёнными и не способны генерировать содержательную и полезную обратную связь, поскольку способности к рассуждению и объём знаний предварительно обученных моделей в значительной степени фиксируются на этапе начального обучения. Для преодоления этих ограничений мы предлагаем метод Multimodal Self-Reflection enhanced reasoning with Group Relative Policy Optimization (SRPO) — двухэтапную структуру обучения с подкреплением (RL), ориентированную на рефлексию и специально разработанную для улучшения способностей мультимодальных языковых моделей к рассуждению. На первом этапе мы создаём высококачественный набор данных, сфокусированный на рефлексии, под руководством продвинутой MLLM, которая генерирует анализ на основе первоначальных ответов, чтобы помочь модели политики обучаться как рассуждению, так и самоанализу. На втором этапе мы вводим новый механизм вознаграждения в рамках структуры GRPO, который поощряет лаконичную и когнитивно значимую рефлексию, избегая избыточности. Многочисленные эксперименты на нескольких мультимодальных бенчмарках для рассуждений, включая MathVista, MathVision, MathVerse и MMMU-Pro, с использованием моделей Qwen-2.5-VL-7B и Qwen-2.5-VL-32B, демонстрируют, что SRPO значительно превосходит современные модели, достигая заметного улучшения как в точности рассуждений, так и в качестве рефлексии.
Обучение крупных языковых моделей (LLM) сопряжено с трудностями из-за их огромного масштаба и гетерогенных архитектур. Хотя адаптивные оптимизаторы, такие как AdamW, помогают справляться с вариациями градиентов, они всё ещё сталкиваются с проблемами эффективной и точной оценки скорости обучения для каждого параметра, что приводит к нестабильности обучения, медленной сходимости и плохой совместимости с методами параметрически эффективной тонкой настройки (PEFT). В данной работе представлен метод Scaling with Gradient Grouping (SGG), обёртка для оптимизатора, которая улучшает оценку адаптивной скорости обучения за счёт динамической группировки и масштабирования для каждой группы. SGG сначала группирует статистики градиентов в каждом слое в кластеры, а затем применяет масштабирование для каждого кластера, чтобы калибровать скорость обучения для каждого параметра, тем самым накладывая коллективные ограничения на уровне групп, сохраняя при этом точную адаптацию для каждого параметра. Эксперименты на различных бенчмарках для (M)LLM показывают, что SGG легко интегрируется с существующими оптимизаторами и обеспечивает стабильные улучшения и более быструю сходимость по сравнению с базовыми методами для моделей различных размеров. Его стабильность при различных размерах батчей и скоростях обучения делает SGG надёжным выбором для оптимизации LLM.
Последние достижения в области диффузионных моделей для генерации видео из текста позволили добиться высококачественного синтеза видео, однако управляемая генерация остается сложной задачей, особенно при ограниченных данных и вычислительных ресурсах. Существующие методы тонкой настройки для условной генерации часто полагаются на внешние кодировщики или модификации архитектуры, что требует больших наборов данных и обычно ограничивается пространственно выровненными условиями, снижая гибкость и масштабируемость. В данной работе мы представляем Temporal In-Context Fine-Tuning (TIC-FT) — эффективный и универсальный подход для адаптации предобученных диффузионных моделей видео к разнообразным задачам условной генерации. Основная идея заключается в объединении условий и целевых кадров вдоль временной оси с добавлением промежуточных буферных кадров с постепенно увеличивающимся уровнем шума. Эти буферные кадры обеспечивают плавные переходы, согласуя процесс тонкой настройки с временной динамикой предобученной модели. TIC-FT не требует изменений архитектуры и демонстрирует высокую производительность даже при использовании всего 10–30 обучающих образцов. Мы проверяем наш метод на различных задачах, включая генерацию видео из изображений и видео-в-видео, используя крупномасштабные базовые модели, такие как CogVideoX-5B и Wan-14B. Многочисленные эксперименты показывают, что TIC-FT превосходит существующие базовые подходы как по точности соблюдения условий, так и по визуальному качеству, оставаясь при этом высокоэффективным как в обучении, так и в процессе вывода. Дополнительные результаты доступны по ссылке: https://kinam0252.github.io/TIC-FT/.
Крупные языковые модели (LLM) позволяют агентам выполнять сложные рассуждения и принимать решения через свободные языковые взаимодействия. Однако в открытых языковых средах действий (например, переговоры или игры с задаванием вопросов) пространство действий может быть сформулировано как совместное распределение токенов, что приводит к экспоненциально большому пространству действий. Выборка действий в таком пространстве может привести к крайне редким наградам, что вызывает высокую дисперсию наград, затрудняя эффективное обучение с подкреплением (RL). Для решения этой проблемы мы предлагаем метод ARIA, который агрегирует награды в пространстве намерений для обеспечения эффективного обучения языковых агентов. ARIA стремится проецировать естественные языковые действия из высокоразмерного пространства совместного распределения токенов в низкоразмерное пространство намерений, где семантически схожие действия группируются и получают общие награды. Такая агрегация наград с учетом намерений снижает дисперсию наград, уплотняя сигналы наград и способствуя лучшей оптимизации политик. Многочисленные эксперименты показывают, что ARIA не только значительно снижает дисперсию градиента политики, но и обеспечивает существенный прирост производительности в среднем на 9.95% в четырех последующих задачах, стабильно превосходя базовые методы как оффлайн, так и онлайн RL.
Реальные воплощённые агенты сталкиваются с задачами долгосрочного характера, которые характеризуются высокоуровневыми целями, требующими многошаговых решений, выходящих за рамки единичных действий. Успешное выполнение таких задач требует как высокоуровневого планирования (т.е. декомпозиции целей на подзадачи), так и низкоуровневого управления движением (т.е. генерации точных действий робота). Хотя существующие модели "визуальный язык-действие" (VLA) и иерархические архитектуры демонстрируют потенциал в задачах воплощённого интеллекта, первые часто испытывают трудности в планировании, а вторые могут страдать от проблем координации, что снижает их производительность. Мы представляем новую унифицированную VLA-структуру для задач долгосрочного характера, названную LoHoVLA, которая преодолевает эти ограничения. LoHoVLA использует крупную предобученную модель "визуальный язык" (VLM) в качестве основы для совместной генерации языковых и акционных токенов, предназначенных для создания подзадач и предсказания действий робота соответственно. Это общее представление способствует лучшей обобщаемости между задачами. Кроме того, LoHoVLA включает иерархический механизм замкнутого управления для минимизации ошибок, возникающих как на высокоуровневом планировании, так и на низкоуровневом управлении. Для обучения LoHoVLA мы представляем LoHoSet — набор данных, созданный на основе симулятора Ravens, содержащий 20 задач долгосрочного характера, каждая из которых включает 1000 экспертных демонстраций, состоящих из визуальных наблюдений, лингвистических целей, подзадач и действий робота. Экспериментальные результаты показывают, что LoHoVLA значительно превосходит как иерархические, так и стандартные VLA-подходы в задачах долгосрочного характера в симуляторе Ravens. Эти результаты подчеркивают перспективность унифицированных архитектур для продвижения обобщаемого воплощённого интеллекта.
В последнее время мощные возможности ChatGPT-4o в области генерации изображений из текста привели к растущему признанию нативных мультимодальных больших языковых моделей. Однако их мультимодальные возможности по-прежнему ограничены изображениями и текстом. Между тем, помимо изображений, способность понимать и генерировать 3D-контент не менее важна. Чтобы восполнить этот пробел, мы предлагаем ShapeLLM-Omni — нативную 3D-большую языковую модель, способную понимать и генерировать 3D-объекты и текст в любой последовательности. Сначала мы обучаем 3D-векторно-квантованный вариационный автоэнкодер (VQVAE), который отображает 3D-объекты в дискретное латентное пространство для достижения эффективного и точного представления и реконструкции форм. На основе 3D-осознанных дискретных токенов мы инновационно создаем крупномасштабный непрерывный набор данных для обучения под названием 3D-Alpaca, охватывающий генерацию, понимание и редактирование, что предоставляет богатые ресурсы для будущих исследований и обучения. Наконец, выполняя обучение модели Qwen-2.5-vl-7B-Instruct на основе инструкций на наборе данных 3D-Alpaca. Наша работа представляет собой эффективную попытку расширения мультимодальных моделей базовыми 3D-возможностями, что способствует будущим исследованиям в области нативного 3D-искусственного интеллекта. Страница проекта: https://github.com/JAMESYJL/ShapeLLM-Omni
Применение основанного на правилах обучения с подкреплением (RL) к мультимодальным большим языковым моделям (MLLMs) ставит уникальные задачи и может приводить к отклонениям от результатов, полученных в текстовых доменах, особенно для задач, требующих интенсивного восприятия. В данной статье представлено всестороннее исследование визуального RL, основанного на правилах, с использованием пазлов в качестве структурированной экспериментальной платформы. Пазлы предоставляют встроенную истинную метку, регулируемую сложность и требуют сложного принятия решений, что делает их идеальными для данного исследования. Наши результаты выявили несколько ключевых выводов: Во-первых, MLLMs, изначально показывающие результаты, близкие к случайным на самых простых пазлах, достигают почти идеальной точности и обобщаются на сложные, ранее не встречавшиеся конфигурации после тонкой настройки. Во-вторых, обучение на пазлах может способствовать обобщению на другие визуальные задачи, причем эффективность зависит от конкретных конфигураций задач. В-третьих, MLLMs способны обучаться и обобщаться как с явным, так и без явного рассуждения, хотя модели с открытым исходным кодом чаще предпочитают прямой ответ. В результате, даже при обучении для пошагового рассуждения, они могут игнорировать процесс мышления при выводе окончательного ответа. В-четвертых, мы наблюдаем, что сложные паттерны рассуждения, по-видимому, являются предсуществующими, а не возникающими, причем их частота увеличивается с обучением и сложностью задачи. Наконец, наши результаты демонстрируют, что RL обеспечивает более эффективное обобщение, чем контролируемая тонкая настройка (SFT), а начальная фаза "холодного старта" SFT может препятствовать последующей оптимизации RL. Хотя эти наблюдения основаны на пазлах и могут варьироваться для других визуальных задач, данное исследование вносит ценный вклад в общее понимание визуального RL, основанного на правилах, и его потенциала в мультимодальном обучении. Код доступен по адресу: https://github.com/zifuwanggg/Jigsaw-R1.
Последние достижения в области моделей диффузии видео продемонстрировали значительный потенциал для генерации данных, используемых в принятии решений роботами, при этом условия траекторий обеспечивают более детализированный контроль. Однако существующие методы, основанные на траекториях, в основном сосредоточены на движении отдельных объектов и испытывают трудности с захватом взаимодействия нескольких объектов, что имеет решающее значение в сложных манипуляциях роботов. Это ограничение возникает из-за переплетения множества признаков в перекрывающихся областях, что приводит к снижению визуальной точности. Для решения этой проблемы мы представляем RoboMaster, новый фреймворк, который моделирует динамику взаимодействия объектов через совместную формулировку траекторий. В отличие от предыдущих методов, которые декомпозируют объекты, наша основная идея заключается в декомпозиции процесса взаимодействия на три подэтапа: предварительное взаимодействие, взаимодействие и последующее взаимодействие. Каждый этап моделируется с использованием признаков доминирующего объекта, а именно манипулятора робота на этапах предварительного и последующего взаимодействия и управляемого объекта во время взаимодействия, что позволяет устранить недостаток слияния признаков нескольких объектов, присутствующий в предыдущих работах. Для дальнейшего обеспечения семантической согласованности объектов на протяжении всего видео мы включаем латентные представления, учитывающие внешний вид и форму объектов. Многочисленные эксперименты на сложном наборе данных Bridge V2, а также оценки в реальных условиях демонстрируют, что наш метод превосходит существующие подходы, устанавливая новый уровень производительности в генерации видео с управлением траекториями для манипуляций роботов.
Обучение с подкреплением (RL) стало популярной парадигмой для обучения крупных языковых моделей (LLM), особенно для задач, связанных с рассуждениями. Эффективное RL для LLM требует масштабной параллелизации и создает острую необходимость в эффективных системах обучения. Большинство существующих крупномасштабных RL-систем для LLM являются синхронными, чередуя генерацию и обучение в пакетном режиме, где траектории в каждом пакете обучения генерируются одной и той же (или последней) моделью. Это стабилизирует RL-обучение, но приводит к значительной неэффективности на системном уровне. Генерация должна ждать завершения самого длинного вывода в пакете перед обновлением модели, что приводит к неполной загрузке GPU. Мы представляем AReaL, полностью асинхронную RL-систему, которая полностью разделяет генерацию и обучение. Рабочие процессы генерации в AReaL непрерывно создают новые выводы без ожидания, в то время как рабочие процессы обучения обновляют модель, как только собран пакет данных. AReaL также включает набор оптимизаций на системном уровне, что значительно повышает использование GPU. Для стабилизации RL-обучения AReaL балансирует нагрузку между рабочими процессами генерации и обучения, чтобы контролировать устаревание данных, и использует модифицированный вариант PPO, учитывающий устаревание, для более эффективной обработки устаревших обучающих выборок. Эксперименты на тестах по математическим и программным рассуждениям показывают, что AReaL достигает ускорения обучения до 2.57 раз по сравнению с лучшими синхронными системами при том же количестве GPU и сопоставимой или даже улучшенной итоговой производительности. Код AReaL доступен по адресу https://github.com/inclusionAI/AReaL/.
Крупные мультимодальные модели (LMMs) продемонстрировали высокую производительность в различных задачах, связанных с обработкой визуальных и текстовых данных. Однако они часто испытывают трудности с всесторонним пониманием данных дистанционного зондирования Земли (EO), что критически важно для мониторинга окружающей среды и воздействия человеческой деятельности на нее. В данной работе мы представляем EarthMind — новую визуально-языковую платформу для многоуровневого и мультисенсорного анализа данных EO. EarthMind включает два ключевых компонента: (1) Пространственное внимание с подсказками (SAP), которое перераспределяет внимание внутри LMM для улучшения понимания на уровне пикселей; и (2) Кросс-модальное слияние, которое выравнивает разнородные модальности в общем пространстве и адаптивно перевзвешивает токены на основе их информационной плотности для эффективного объединения. Для оценки мультисенсорного слияния мы предлагаем EarthMind-Bench — комплексный бенчмарк, содержащий более 2000 аннотированных человеком пар "изображение-вопрос" с использованием данных от различных сенсоров, охватывающих широкий спектр задач восприятия и логического анализа. Многочисленные эксперименты подтверждают эффективность EarthMind. Модель достигает наилучших результатов на EarthMind-Bench, превосходя GPT-4o, несмотря на свой относительно небольшой размер (4B). Кроме того, EarthMind превосходит существующие методы на нескольких публичных бенчмарках EO, демонстрируя свой потенциал для решения как многоуровневых, так и мультисенсорных задач в рамках единой платформы.
Законы масштабирования сыграли ключевую роль в последних достижениях в области машинного обучения, обеспечивая предсказуемое увеличение производительности моделей в зависимости от их размера, объема вычислений и объема данных. Одновременно рост вычислительных затрат на искусственный интеллект стимулировал развитие методов сжатия моделей, таких как квантование и разрежение, которые призваны смягчить высокие вычислительные требования, связанные с обучением и выводом на крупных масштабах. В данной статье исследуется взаимодействие между законами масштабирования и форматами сжатия, а также рассматривается возможность создания универсальной структуры масштабирования, способной точно предсказывать производительность моделей при обучении на различных сжатых представлениях, таких как разреженные, скалярно-квантованные, разреженно-квантованные или даже векторно-квантованные форматы. Основные вклады работы включают проверку общей формулировки закона масштабирования и демонстрацию её применимости как для отдельных, так и для комбинированных типов сжатия. На основе этого главным результатом является теоретическое и эмпирическое доказательство существования простой метрики "емкости", основанной на способности представления аппроксимировать случайные гауссовские данные, которая может надежно предсказывать эффективность параметров для множества сжатых представлений. С практической точки зрения, мы расширяем нашу формулировку для прямого сравнения потенциала точности различных сжатых форматов и для разработки более эффективных алгоритмов обучения на разреженно-квантованных форматах.
Существующие крупные языковые модели (LLM) сталкиваются с трудностями при выполнении сложных инструкций, особенно когда присутствуют и организованы в параллельные, цепочечные и ветвящиеся структуры множественные ограничения. Интуитивное решение, а именно цепочка рассуждений (CoT), ожидается как универсальный способ улучшения возможностей LLM. Однако мы обнаружили, что стандартный CoT оказывает негативное влияние на производительность из-за поверхностного шаблона рассуждений, который просто перефразирует инструкции. Он не способен раскрыть композицию ограничений для определения их взаимосвязей на различных уровнях иерархии типов и измерений. В связи с этим мы предлагаем систематический метод для повышения эффективности LLM в работе со сложными инструкциями, стимулируя рассуждения для масштабирования вычислений во время тестирования. Во-первых, мы основываемся на декомпозиции сложных инструкций в рамках существующих таксономий и предлагаем воспроизводимый метод сбора данных. Во-вторых, мы используем обучение с подкреплением (RL) с проверяемыми сигналами вознаграждения, ориентированными на правила, чтобы развивать рассуждения, специально предназначенные для выполнения инструкций. Мы устраняем поверхностный, несущественный характер рассуждений при сложных инструкциях с помощью контрастного анализа на уровне выборок для более эффективного применения CoT. Также мы используем клонирование поведения экспертов для облегчения устойчивого сдвига распределения от быстромыслящих LLM к умелым рассуждающим моделям. Обширные оценки на семи комплексных бенчмарках подтверждают валидность предложенного метода, где LLM с 1,5 млрд параметров достигает улучшения на 11,74%, демонстрируя производительность, сопоставимую с LLM с 8 млрд параметров. Коды и данные доступны по адресу https://github.com/yuleiqin/RAIF.
Моделирование вознаграждения является ключевым этапом в создании безопасных базовых моделей при применении обучения с подкреплением на основе человеческой обратной связи (RLHF) для согласования крупных языковых моделей (LLM). Однако моделирование вознаграждения, основанное на модели Брэдли-Терри (BT), предполагает глобальную функцию вознаграждения, что не позволяет учесть изначально разнообразные и неоднородные человеческие предпочтения. Такое упрощение ограничивает способность LLM поддерживать персонализацию и плюралистическое согласование. Теоретически мы показываем, что когда человеческие предпочтения следуют смешанному распределению различных подгрупп, единая модель BT имеет неустранимую ошибку. Хотя существующие решения, такие как многозадачное обучение с детализированными аннотациями, помогают решить эту проблему, они являются затратными и ограничены предопределенными атрибутами, не позволяя полностью охватить богатство человеческих ценностей. В данной работе мы представляем MiCRo, двухэтапную структуру, которая улучшает обучение персонализированным предпочтениям, используя крупномасштабные наборы данных бинарных предпочтений без необходимости явных детализированных аннотаций. На первом этапе MiCRo вводит контекстно-зависимый подход к моделированию смесей для учета разнообразных человеческих предпочтений. На втором этапе MiCRo интегрирует стратегию онлайн-маршрутизации, которая динамически адаптирует веса смесей в зависимости от конкретного контекста для разрешения неоднозначности, что позволяет эффективно и масштабируемо адаптировать предпочтения с минимальным дополнительным контролем. Эксперименты на нескольких наборах данных предпочтений демонстрируют, что MiCRo эффективно учитывает разнообразные человеческие предпочтения и значительно улучшает персонализацию в последующих задачах.
Быстрое развитие технологий генерации контента с использованием искусственного интеллекта (AIGC) в визуальных областях привело к созданию высокореалистичных синтетических изображений и видео, что стало возможным благодаря сложным генеративным архитектурам, таким как диффузионные модели. Хотя эти прорывы открывают значительные возможности, они одновременно вызывают серьезные опасения относительно подлинности и целостности контента. Многие современные методы обнаружения AIGC работают как черные ящики в виде бинарных классификаторов, что ограничивает их интерпретируемость, и ни один из подходов не поддерживает обнаружение как изображений, так и видео в единой системе. Это двойное ограничение снижает прозрачность моделей, уменьшает их надежность и затрудняет практическое применение. Для решения этих проблем мы представляем IVY-FAKE — новый, унифицированный и масштабный набор данных, специально разработанный для объяснимого мультимодального обнаружения AIGC. В отличие от предыдущих эталонных наборов, которые страдают от фрагментированного охвата модальностей и редких аннотаций, IVY-FAKE содержит более 150 000 богато аннотированных обучающих примеров (изображений и видео) и 18 700 тестовых примеров, каждый из которых сопровождается подробным естественно-языковым объяснением, выходящим за рамки простых бинарных меток. На основе этого мы предлагаем Ivy Explainable Detector (IVY-XDETECTOR) — унифицированную архитектуру для обнаружения и объяснения AIGC, которая одновременно выполняет объяснимое обнаружение как для изображений, так и для видео. Наша унифицированная модель, объединяющая визуальные и языковые данные, демонстрирует наилучшие результаты на нескольких эталонных тестах для обнаружения изображений и видео, подчеркивая значительные достижения, обеспеченные нашим набором данных и архитектурой модели. Наши данные доступны публично по адресу: https://huggingface.co/datasets/AI-Safeguard/Ivy-Fake.
Метод Chain-of-Thought (CoT) позволяет крупным языковым моделям (LLM) выполнять сложные рассуждения, включая задачи информационного поиска (IR). Однако он часто приводит к "переосмыслению", когда модели генерируют избыточно длинные и семантически повторяющиеся цепочки рассуждений с минимальной или нулевой пользой. Мы выделяем две ключевые проблемы в IR: избыточные траектории, которые возвращаются к схожим состояниям, и ошибочные рассуждения, отклоняющиеся от намерений пользователя. Для решения этих проблем мы предлагаем State Machine Reasoning (SMR) — основанный на переходах фреймворк для рассуждений, состоящий из дискретных действий (Refine, Rerank, Stop), которые поддерживают раннюю остановку и детализированный контроль. Эксперименты на наборах данных BEIR и BRIGHT показывают, что SMR улучшает производительность поиска (nDCG@10) на 3,4%, одновременно сокращая использование токенов на 74,4%. Метод обобщается для различных LLM и систем поиска без необходимости специфической настройки для конкретных задач, предлагая практическую альтернативу традиционному CoT-рассуждению. Код и подробности доступны по адресу https://github.com/ldilab/SMR.
Прямое обучение крупных языковых моделей (LLM) для многоагентных систем (MAS) остается сложной задачей из-за сложного моделирования вознаграждений, динамических взаимодействий агентов и высоких требований к обобщению. В данной работе исследуется, могут ли методы пост-обучения, в частности, контролируемое тонкое настройка (SFT) и обучение с подкреплением с проверяемыми вознаграждениями (RLVR), эффективно обобщаться на многоагентные сценарии. Мы используем экономическое мышление в качестве тестовой платформы, опираясь на его прочные основы в математике и теории игр, потребность в структурированном аналитическом мышлении и его актуальность для реальных приложений, таких как дизайн рынков, распределение ресурсов и анализ политики. Мы представляем Recon (Reasoning like an ECONomist), открытую LLM с 7 миллиардами параметров, пост-обученную на тщательно отобранном наборе данных из 2100 высококачественных задач экономического мышления. Комплексная оценка на тестах экономического мышления и многоагентных играх показывает явные улучшения в структурированном мышлении и экономической рациональности. Эти результаты подчеркивают перспективность пост-обучения, ориентированного на конкретную область, для улучшения мышления и согласованности агентов, проливая свет на роли SFT и RL в формировании поведения модели. Код доступен по адресу https://github.com/MasterZhou1/Recon.
Редактирование изображений является важной задачей в компьютерной графике, компьютерном зрении и визуальных эффектах, причем современные методы на основе диффузии позволяют достигать быстрых и качественных результатов. Однако редактирование, требующее значительных структурных изменений, таких как нежесткие деформации, модификация объектов или генерация контента, остается сложной задачей. Существующие подходы, выполняющие редактирование за несколько шагов, часто создают артефакты, такие как нерелевантные текстуры, или не могут сохранить ключевые атрибуты исходного изображения (например, позу). Мы представляем Cora — новый фреймворк для редактирования, который устраняет эти ограничения за счет введения коррекции шума с учетом соответствий и интерполированных карт внимания. Наш метод выравнивает текстуры и структуры между исходным и целевым изображениями через семантическое соответствие, обеспечивая точный перенос текстур и генерацию нового контента при необходимости. Cora предоставляет контроль над балансом между генерацией и сохранением контента. Многочисленные эксперименты показывают, что как количественно, так и качественно Cora превосходит другие методы в сохранении структуры, текстур и идентичности при различных типах редактирования, включая изменение позы, добавление объектов и уточнение текстур. Пользовательские исследования подтверждают, что Cora обеспечивает превосходные результаты, превосходя альтернативные подходы.
На основе крупной языковой модели (LLM) веб-браузерный агент управляет браузерами подобно человеку и предлагает высоко прозрачный путь к автоматизации широкого спектра повседневных задач. По мере того как веб-агенты становятся всё более способными и демонстрируют мастерство в выполнении общих задач веб-навигации, возникает важный вопрос: могут ли они выйти за рамки обычного просмотра и надёжно справляться с утомительными и сложными задачами, которые люди часто избегают выполнять сами? В данной статье мы представляем WebChoreArena — новый полностью воспроизводимый бенчмарк, включающий 532 тщательно отобранные задачи, предназначенные для расширения возможностей WebArena за пределы обычного просмотра до более трудоёмких и монотонных задач. WebChoreArena систематически интегрирует три ключевых вызова: (i) задачи с большим объёмом памяти, требующие точного извлечения значительного количества информации из наблюдений, (ii) вычислительные задачи, требующие точного математического рассуждения, и (iii) задачи долговременной памяти, требующие запоминания информации на протяжении нескольких веб-страниц. Построенный на основе четырёх полностью воспроизводимых и широко используемых симуляционных сред WebArena, WebChoreArena обеспечивает строгую воспроизводимость и позволяет проводить честные, прямые сравнения с установленным бенчмарком WebArena, предоставляя ключевые инсайты о прогрессе агентов. Наши экспериментальные результаты показывают, что по мере эволюции LLM, представленных GPT-4o, Claude 3.7 Sonnet и Gemini 2.5 Pro, наблюдаются значительные улучшения производительности на WebChoreArena. Эти результаты свидетельствуют о том, что WebChoreArena хорошо подходит для измерения прогресса современных LLM с большей ясностью. Тем не менее, результаты также указывают на то, что даже с Gemini 2.5 Pro остаётся значительный простор для улучшений по сравнению с WebArena, подчёркивая повышенную сложность задач, предлагаемых WebChoreArena.
Современные системы искусственного интеллекта (ИИ) имеют фиксированные архитектуры, разработанные человеком, и не способны к автономному и непрерывному самосовершенствованию. Однако прогресс в области ИИ может быть автоматизирован. При безопасной реализации это ускорит развитие ИИ и позволит нам быстрее воспользоваться его преимуществами. Метаобучение может автоматизировать открытие новых алгоритмов, но ограничено улучшениями первого порядка и человеческим проектированием подходящего пространства поиска. Машина Гёделя предложила теоретическую альтернативу: самоулучшающийся ИИ, который многократно модифицирует себя доказательно полезным образом. К сожалению, доказательство того, что большинство изменений приносят чистую пользу, на практике невозможно. Мы представляем Машину Дарвина-Гёделя (DGM), самоулучшающуюся систему, которая итеративно модифицирует собственный код (тем самым улучшая и свою способность изменять код) и эмпирически проверяет каждое изменение с использованием тестовых заданий по программированию. Вдохновлённая дарвиновской эволюцией и исследованиями открытости, DGM поддерживает архив созданных программных агентов. Она расширяет архив, выбирая агента из него и используя базовую модель для создания новой, интересной версии выбранного агента. Это открытое исследование формирует растущее дерево разнообразных, высококачественных агентов и позволяет параллельно исследовать множество различных путей в пространстве поиска. Эмпирически DGM автоматически улучшает свои способности в программировании (например, инструменты редактирования кода, управление длинными контекстными окнами, механизмы рецензирования), повышая производительность на SWE-bench с 20,0% до 50,0% и на Polyglot с 14,2% до 30,7%. Кроме того, DGM значительно превосходит базовые подходы без самоулучшения или открытого исследования. Все эксперименты проводились с соблюдением мер безопасности (например, изоляция, контроль со стороны человека). DGM представляет собой важный шаг к самоулучшающемуся ИИ, способному собирать свои собственные ступени на пути к бесконечным инновациям.
Модели обработки визуальной информации и языка (VLMs) должны эффективно выполнять мультимодальные рассуждения и принимать логически последовательные решения, что крайне важно для таких задач, как понимание диаграмм и решение пространственных задач. Однако текущие VLMs испытывают недостаток в крупномасштабных и хорошо структурированных наборах данных для обучения. Чтобы устранить этот пробел, мы предлагаем VisualSphinx — первый в своем роде крупномасштабный синтетический набор данных для обучения визуальному логическому рассуждению. Для решения задачи синтеза изображений с привязкой к ответам мы предлагаем конвейер синтеза изображений на основе правил, который извлекает и расширяет правила головоломок из исходных вопросов и генерирует код для синтеза изображений с привязкой к ответам для сборки образцов головоломок. Эксперименты показывают, что VLMs, обученные с использованием GRPO на VisualSphinx, выигрывают от логической последовательности и читаемости нашего набора данных и демонстрируют улучшенную производительность в задачах логического рассуждения. Улучшенные способности к рассуждению, развитые с помощью VisualSphinx, также способствуют решению других задач, таких как алгебраическое, арифметическое и геометрическое рассуждение.
Негативное управление — явное подавление нежелательных атрибутов — остается фундаментальной проблемой в диффузионных моделях, особенно в режимах выборки с малым количеством шагов. Хотя метод Classifier-Free Guidance (CFG) хорошо работает в стандартных условиях, он терпит неудачу при агрессивном сжатии шагов выборки из-за расходящихся предсказаний между положительными и отрицательными ветвями. Мы представляем Normalized Attention Guidance (NAG) — эффективный механизм, не требующий обучения, который применяет экстраполяцию в пространстве внимания с L1-нормализацией и уточнением. NAG восстанавливает эффективное негативное управление там, где CFG терпит крах, сохраняя при этом точность. В отличие от существующих подходов, NAG обобщается на различные архитектуры (UNet, DiT), режимы выборки (малошаговые, многошаговые) и модальности (изображения, видео), функционируя как универсальный плагин с минимальными вычислительными затратами. В ходе обширных экспериментов мы демонстрируем последовательные улучшения в согласованности текста (CLIP Score), точности (FID, PFID) и воспринимаемом человеком качестве (ImageReward). Наши исследования по абляции подтверждают каждый компонент дизайна, а пользовательские исследования подтверждают значительное предпочтение выходных данных, управляемых NAG. Как модель-агностический подход на этапе вывода, не требующий повторного обучения, NAG обеспечивает легкое негативное управление для всех современных диффузионных фреймворков — псевдокод приведен в Приложении!
Диффузионные языковые модели представляют собой убедительную альтернативу авторегрессивным (AR) моделям, обеспечивая параллельную и контролируемую генерацию. Среди этого семейства моделей Маскированные Диффузионные Модели (MDMs) демонстрируют наилучшую производительность, но всё же уступают AR-моделям по перплексии и не обладают ключевыми функциями эффективности на этапе вывода, такими как кэширование ключей и значений (KV). В данной работе мы представляем Eso-LMs — новое семейство моделей, объединяющее подходы AR и MDM, что позволяет плавно интерполировать их перплексии, преодолевая при этом их ограничения. Eso-LMs устанавливают новый эталон на стандартных тестах языкового моделирования. Важно отметить, что мы **впервые внедряем KV-кэширование для MDMs**, сохраняя при этом возможность параллельной генерации, что значительно повышает эффективность вывода. В сочетании с оптимизированным графиком выборки наш метод обеспечивает до **65-кратного** ускорения вывода по сравнению с классическими MDMs и до **4-кратного** ускорения по сравнению с предыдущими полуавторегрессивными подходами. Код и контрольные точки модели доступны на странице проекта: [http://s-sahoo.github.io/Eso-LMs](http://s-sahoo.github.io/Eso-LMs).
Проект Open Whisper-style Speech Models (OWSM) разработал серию полностью открытых базовых моделей для обработки речи с использованием академических ресурсов, однако их обучающие данные остаются недостаточными. В данной работе мы улучшаем OWSM, интегрируя YODAS — крупномасштабный набор данных, собранный из интернета и распространяемый под лицензией Creative Commons. Однако включение YODAS сопряжено с трудностями из-за его неструктурированности, что приводит к таким проблемам, как некорректные языковые метки и несоответствия между аудио и текстом. Для решения этих задач мы разработали масштабируемый конвейер очистки данных с использованием общедоступных инструментов, получив набор данных, содержащий 166 000 часов речи на 75 языках. Наша новая серия моделей OWSM v4, обученная на этом обработанном наборе данных вместе с существующими данными OWSM, значительно превосходит предыдущие версии на мультиязычных тестах. Наши модели даже соответствуют или превосходят передовые промышленные модели, такие как Whisper и MMS, в различных сценариях. Мы опубликуем очищенные данные YODAS, предобученные модели и все связанные скрипты через инструментарий ESPnet.
Предыдущие исследования изучали применение мультимодальных больших языковых моделей (MLLM) для понимания 3D-сцен путем их интерпретации как видеопоследовательностей. Эти подходы, как правило, зависят от комплексных входных данных 3D, таких как облака точек или реконструированные карты вида с высоты птичьего полета (BEV). В нашей работе мы продвигаем эту область, улучшая способность MLLM понимать и рассуждать в 3D-пространствах непосредственно на основе видеоданных, без необходимости дополнительных 3D-входов. Мы предлагаем новый и эффективный метод — Video-3D Geometry Large Language Model (VG LLM). Наш подход использует 3D визуальный геометрический кодировщик, который извлекает априорную 3D-информацию из видеопоследовательностей. Эта информация интегрируется с визуальными токенами и передается в MLLM. Многочисленные эксперименты показали, что наш метод достиг значительных улучшений в различных задачах, связанных с пониманием 3D-сцен и пространственным рассуждением, при этом обучение происходит непосредственно на основе видеоисточников. Примечательно, что наша 4B-модель, которая не использует явные 3D-данные, демонстрирует конкурентоспособные результаты по сравнению с существующими передовыми методами и даже превосходит Gemini-1.5-Pro в оценках VSI-Bench.
Последние достижения в области генеративного искусственного интеллекта и крупных языковых моделей (LLM) позволили создавать высокореалистичный синтетический контент, что вызывает опасения относительно его потенциального злонамеренного использования, такого как дезинформация и манипуляции. Более того, обнаружение машинно-сгенерированного текста (MGT) остается сложной задачей из-за отсутствия надежных эталонных тестов, оценивающих обобщение на реальные сценарии. В данной работе мы представляем подход для проверки устойчивости современных детекторов MGT (например, Mage, Radar, LLM-DetectAIve) к лингвистически обоснованным атакам. Чтобы усложнить задачу детекторам, мы дообучаем языковые модели с использованием оптимизации прямых предпочтений (DPO), чтобы сместить стиль MGT в сторону текстов, написанных человеком (HWT). Это эксплуатирует зависимость детекторов от стилистических подсказок, делая новые поколения текстов более сложными для обнаружения. Кроме того, мы анализируем лингвистические изменения, вызванные выравниванием, и какие признаки используются детекторами для выявления MGT. Наши результаты показывают, что детекторы могут быть легко обмануты с использованием относительно небольшого количества примеров, что приводит к значительному снижению производительности обнаружения. Это подчеркивает важность улучшения методов обнаружения и повышения их устойчивости к незнакомым текстам в рамках той же предметной области.
Крупные языковые модели (LLM), обученные с использованием обучения с подкреплением с верифицируемой наградой (RLVR), достигли прорывов в задачах с явной и автоматизируемой проверкой, таких как программирование и решение математических задач. Однако применение RLVR в автоматизации проектирования электроники (EDA), в частности для автоматической генерации языков описания аппаратуры (HDL), таких как Verilog, из спецификаций на естественном языке (NL), сталкивается с тремя ключевыми проблемами: отсутствие автоматизированных и точных сред верификации, недостаток высококачественных пар NL-код и высокая вычислительная стоимость RLVR. В связи с этим мы представляем CodeV-R1 — фреймворк RLVR для обучения LLM, генерирующих Verilog. Во-первых, мы разработали генератор тестовых стендов на основе правил, который выполняет надежную проверку эквивалентности по сравнению с эталонными образцами. Во-вторых, мы предлагаем метод синтеза данных с обратной связью, который связывает фрагменты Verilog из открытых источников с NL-описаниями, сгенерированными LLM, проверяет согласованность код-NL-код с помощью созданного тестового стенда и отфильтровывает неэквивалентные примеры для получения высококачественного набора данных. В-третьих, мы используем двухэтапный конвейер обучения "дистилляция, затем RL": дистилляция для начального развития способностей к рассуждению, за которой следует адаптивный DAPO — наш новый алгоритм RLVR, который может снизить стоимость обучения за счет адаптивной регулировки частоты выборки. Полученная модель, CodeV-R1-7B, достигает 68,6% и 72,9% pass@1 на VerilogEval v2 и RTLLM v1.1 соответственно, превосходя предыдущие передовые результаты на 12~20%, при этом соответствуя или даже превышая производительность 671B DeepSeek-R1. Мы опубликуем нашу модель, конвейер обучения и набор данных для содействия исследованиям в сообществах EDA и LLM.
Открытые бенчмарки играют ключевую роль в оценке и развитии больших языковых моделей, обеспечивая воспроизводимость и прозрачность. Однако их доступность делает их вероятной мишенью для загрязнения тестовых наборов данных. В данной работе мы представляем DyePack — фреймворк, который использует атаки с использованием бэкдоров для выявления моделей, обучавшихся на тестовых наборах бенчмарков, без необходимости доступа к функции потерь, логитам или любым внутренним деталям модели. Подобно тому, как банки добавляют красящие пакеты в свои деньги, чтобы пометить грабителей, DyePack добавляет образцы с бэкдорами в тестовые данные, чтобы пометить модели, которые обучались на них. Мы предлагаем принципиальный дизайн, включающий несколько бэкдоров со стохастическими целями, что позволяет точно вычислять уровень ложноположительных срабатываний (FPR) при пометке каждой модели. Это гарантированно предотвращает ложные обвинения, предоставляя при этом убедительные доказательства для каждого обнаруженного случая загрязнения. Мы оцениваем DyePack на пяти моделях в рамках трех наборов данных, охватывающих как задачи с множественным выбором, так и задачи открытой генерации. Для задач с множественным выбором он успешно обнаруживает все загрязненные модели с гарантированным FPR, достигающим всего 0,000073% на MMLU-Pro и 0,000017% на Big-Bench-Hard при использовании восьми бэкдоров. Для задач открытой генерации он демонстрирует хорошую обобщаемость и выявляет все загрязненные модели на Alpaca с гарантированным уровнем ложноположительных срабатываний всего 0,127% при использовании шести бэкдоров.
Эффективность токенизации играет ключевую роль в производительности и стоимости больших языковых моделей (LLM), однако большинство моделей полагаются на статические токенизаторы, оптимизированные для универсальных корпусов. Фиксированные словари этих токенизаторов часто не адаптируются к доменно- или языково-специфичным данным, что приводит к увеличению длины токеновых последовательностей и росту вычислительных затрат. Мы представляем zip2zip — фреймворк, который позволяет LLM динамически адаптировать словарь токенов во время инференса, что приводит к уменьшению количества генерируемых токенов и, как следствие, к ускорению инференса. zip2zip состоит из трёх ключевых компонентов: (1) токенизатора на основе сжатия Лемпеля-Зива-Велча (LZW), который динамически сжимает токены в повторно используемые "гипертокены"; (2) слоя эмбеддингов, который вычисляет эмбеддинги для вновь образованных гипертокенов в режиме реального времени; и (3) варианта каузального языкового моделирования, который обучает модель работать с гипертокенизированными, сжатыми последовательностями. Мы показываем, что существующую LLM можно адаптировать под zip2zip за 10 GPU-часов с помощью параметрически эффективного тонкого обучения. Полученные zip2zip LLM эффективно учатся использовать гипертокены во время инференса, сокращая длину входных и выходных последовательностей на 20–60%, что приводит к значительному улучшению задержки инференса.
Диалоговые системы, ориентированные на задачи, часто сталкиваются с трудностями, когда высказывания пользователей кажутся семантически завершенными, но не содержат необходимой структурной информации для выполнения соответствующих действий системы. Это происходит потому, что пользователи часто не до конца понимают свои собственные потребности, в то время как системы требуют точного определения намерений. Современные агенты на основе больших языковых моделей (LLM) не могут эффективно различать лингвистически завершенные и контекстуально активируемые выражения, не имея фреймворков для совместного формирования намерений. Мы представляем STORM — фреймворк, моделирующий динамику асимметричной информации в ходе диалогов между UserLLM (с полным внутренним доступом) и AgentLLM (с наблюдаемым поведением). STORM создает аннотированные корпуса, фиксирующие траектории выражений и скрытые когнитивные переходы, что позволяет систематически анализировать развитие совместного понимания. Наши вклады включают: (1) формализацию обработки асимметричной информации в диалоговых системах; (2) моделирование формирования намерений с отслеживанием эволюции совместного понимания; и (3) метрики оценки, измеряющие внутренние когнитивные улучшения наряду с выполнением задач. Эксперименты с четырьмя языковыми моделями показывают, что умеренная неопределенность (40-60%) может превосходить полную прозрачность в определенных сценариях, причем специфические для моделей паттерны указывают на необходимость пересмотра оптимальной полноты информации в человеко-ИИ взаимодействии. Эти результаты способствуют пониманию динамики асимметричного рассуждения и информируют проектирование диалоговых систем с калиброванной неопределенностью.
Дистилляция моделей стала важным инструментом для создания компактных, развертываемых языковых моделей, сохраняющих возможности более крупных систем. Однако широкое внедрение вызывает опасения относительно устойчивости к враждебным манипуляциям. В данной работе исследуется уязвимость дистиллированных моделей к внедрению предвзятого контента злоумышленниками в процессе обучения. Мы демонстрируем, что злоумышленники могут внедрить тонкие предубеждения в модели-учителя через минимальное отравление данных, которые передаются моделям-ученикам и значительно усиливаются. Мы предлагаем два режима распространения: Ненаправленное Распространение, где предубеждение влияет на множество задач, и Направленное Распространение, сосредоточенное на конкретных задачах при сохранении нормального поведения в остальных случаях. Всего с 25 отравленными образцами (0,25% уровня отравления) модели-ученики генерируют предвзятые ответы в 76,9% случаев в направленных сценариях — это выше, чем 69,4% у моделей-учителей. При ненаправленном распространении враждебные предубеждения появляются в 6–29 раз чаще в моделях-учениках на неизвестных задачах. Мы подтверждаем результаты для шести типов предубеждений (целевая реклама, фишинговые ссылки, манипуляции с нарративами, небезопасные практики программирования), различных методов дистилляции и модальностей, включая генерацию текста и кода. Наша оценка выявляет недостатки современных защитных механизмов — фильтрации по перплексии, систем обнаружения предубеждений и фреймворков автооценки на основе LLM — против таких атак. Результаты раскрывают значительные уязвимости в безопасности дистиллированных моделей, подчеркивая необходимость специализированных мер защиты. Мы предлагаем практические принципы проектирования для создания эффективных стратегий смягчения враждебных предубеждений.
Понимание аномалий в видео (Video Anomaly Understanding, VAU) играет ключевую роль в таких приложениях, как умные города, системы безопасности и наблюдения, а также системы предупреждения о катастрофах. Однако эта задача остается сложной из-за необходимости точного пространственно-временного восприятия и устойчивого рассуждения в условиях неопределенности. Несмотря на прогресс в области обнаружения аномалий, существующие методы часто недостаточно интерпретируемы и испытывают трудности с учетом причинно-следственных и контекстных аспектов аномальных событий. Эта проблема усугубляется отсутствием комплексных эталонов для оценки способности к рассуждению в сценариях с аномалиями. Для решения обеих задач мы представляем VAU-R1 — ресурсоэффективную платформу, основанную на мультимодальных больших языковых моделях (Multimodal Large Language Models, MLLMs), которая улучшает рассуждение об аномалиях с помощью тонкой настройки с подкреплением (Reinforcement Fine-Tuning, RFT). Кроме того, мы предлагаем VAU-Bench — первый эталонный набор данных, ориентированный на цепочку рассуждений (Chain-of-Thought) для анализа аномалий в видео, включающий вопросы с множественным выбором, подробные обоснования, временные аннотации и описательные подписи. Экспериментальные результаты показывают, что VAU-R1 значительно повышает точность ответов на вопросы, временную привязку и согласованность рассуждений в различных контекстах. Вместе наш метод и эталонный набор данных закладывают прочную основу для интерпретируемого и осознанного понимания аномалий в видео. Наш код доступен по адресу https://github.com/GVCLab/VAU-R1.
Детоксификация, задача переписывания вредоносного языка в нетоксичный текст, становится все более важной на фоне растущего распространения токсичного контента в интернете. Однако высококачественные параллельные наборы данных для детоксификации, особенно для языка ненависти, остаются редкими из-за затрат и чувствительности, связанных с аннотированием человеком. В данной статье мы предлагаем новый подход с использованием LLM (языковой модели) в цикле, основанный на GPT-4o-mini для автоматизированной детоксификации. Сначала мы воспроизводим конвейер ParaDetox, заменяя человеческих аннотаторов на LLM, и показываем, что LLM работает сопоставимо с аннотированием человеком. На основе этого мы создаем PARADEHATE, крупномасштабный параллельный набор данных, специально предназначенный для детоксификации языка ненависти. Мы публикуем PARADEHATE как эталонный набор, содержащий более 8 тысяч пар текстов (ненависть/без ненависти), и оцениваем широкий спектр базовых методов. Результаты экспериментов показывают, что модели, такие как BART, дообученные на PARADEHATE, достигают лучших показателей в точности стиля, сохранении содержания и беглости, демонстрируя эффективность текстов, сгенерированных LLM для детоксификации, как масштабируемой альтернативы аннотированию человеком.
Генерация с использованием извлечения информации (Retrieval-Augmented Generation, RAG) улучшает актуальность и достоверность ответов. Однако существующие методы оценки редко проверяют, насколько хорошо такие системы справляются с реальными шумами, конфликтами между внутренним и внешним извлеченным контекстом или быстро меняющимися фактами. Мы представляем Оценку устойчивости с учетом извлечения (Retrieval-Aware Robustness Evaluation, RARE) — унифицированную структуру и масштабный эталонный тест, который совместно проверяет устойчивость к изменениям в запросах и документах на динамических, чувствительных ко времени корпусах. Одной из ключевых особенностей RARE является синтезирующий конвейер, управляемый графом знаний (RARE-Get), который автоматически извлекает одношаговые и многошаговые связи из специализированного корпуса и генерирует многоуровневые наборы вопросов без ручного вмешательства. Используя этот конвейер, мы создаем набор данных (RARE-Set), охватывающий 400 экспертных документов, чувствительных ко времени, в области финансов, экономики и политики, а также 48 322 вопроса, распределение которых изменяется по мере изменения исходных источников. Для количественной оценки устойчивости мы формализуем метрики устойчивости, учитывающие извлечение (RARE-Met), которые фиксируют способность модели оставаться корректной или восстанавливаться при систематическом изменении запросов, документов или результатов извлечения из реального мира. Наши результаты показывают, что системы RAG демонстрируют удивительную уязвимость к изменениям, причем устойчивость к изменениям в документах неизменно остается самым слабым местом независимо от размера или архитектуры генератора. Системы RAG также демонстрируют более низкую устойчивость на многошаговых запросах по сравнению с одношаговыми во всех областях.
Крупные языковые модели (LLM) всё чаще оцениваются на задачах с выбором одного правильного ответа из нескольких вариантов, однако многие реальные задачи требуют выявления всех правильных ответов из предложенного набора. Эта способность остаётся недостаточно изученной. Мы представляем SATA-BENCH — первый специализированный бенчмарк для оценки LLM на вопросах типа "Выберите все подходящие варианты" (SATA) в различных областях, включая понимание текста, право и биомедицину. Наша оценка 27 моделей с открытым исходным кодом и проприетарных моделей выявила значительный разрыв: даже самая сильная модель достигает точности всего 41,8% по точному совпадению, что демонстрирует неспособность LLM надёжно определять все правильные ответы. Мы обнаружили, что эта слабость обусловлена двумя основными проблемами: предвзятостью выбора — модели склонны отдавать предпочтение определённым вариантам независимо от содержания, и предвзятостью количества — модели не могут предсказать правильное число ответов. Для решения этих проблем мы предлагаем Choice Funnel — стратегию декодирования, которая сочетает устранение смещения токенов с адаптивным пороговым отбором, чтобы направлять модели на полное и точное определение ответов. Choice Funnel достигает до 29% большего точного совпадения по сравнению с конкурирующими базовыми методами, одновременно снижая стоимость вывода более чем на 64%. Наши результаты выявляют фундаментальные ограничения современных LLM и представляют новую структуру для диагностики и улучшения многовариантного рассуждения. Мы публикуем SATA-BENCH и Choice Funnel для содействия развитию LLM в направлении устойчивого принятия решений в реалистичных приложениях с множеством ответов.
Редактирование 3D-объектов с использованием текстовых инструкций направлено на точное изменение семантически значимых локальных областей 3D-моделей, что имеет большой потенциал для различных практических применений, от 3D-игр до кинопроизводства. Существующие методы обычно следуют парадигме, не учитывающей различия между видами: они редактируют 2D-проекции без разбора и проецируют их обратно в 3D-пространство. Однако такие подходы игнорируют различные межвидовые зависимости, что приводит к несогласованному редактированию в нескольких проекциях. В данном исследовании мы утверждаем, что идеальное согласованное 3D-редактирование может быть достигнуто с помощью прогрессивной парадигмы, которая распространяет семантику редактирования с наиболее значимого для редактирования вида на менее значимые. В частности, мы предлагаем Pro3D-Editor — новую структуру, которая включает в себя Primary-view Sampler, Key-view Render и Full-view Refiner. Primary-view Sampler динамически выбирает и редактирует наиболее значимый для редактирования вид в качестве основного. Key-view Render точно распространяет семантику редактирования с основного вида на другие ключевые виды с помощью адаптации Mixture-of-View-Experts Low-Rank (MoVE-LoRA). Full-view Refiner редактирует и уточняет 3D-объект на основе изменённых многовидовых проекций. Многочисленные эксперименты демонстрируют, что наш метод превосходит существующие подходы по точности редактирования и пространственной согласованности.
Растущие вычислительные затраты и ограниченные ресурсы подчеркивают критическую необходимость в обучении с ограниченным бюджетом итераций, которое направлено на достижение оптимального обучения в рамках заранее заданных бюджетов итераций. Хотя графики изменения скорости обучения фундаментально определяют производительность различных сетей и задач, особенно в сценариях с ограниченным бюджетом итераций, их проектирование остается в значительной степени эвристическим, не имеющим теоретических оснований. Кроме того, оптимальный график изменения скорости обучения требует обширного подбора методом проб и ошибок, что делает процесс обучения неэффективным. В данной работе мы предлагаем унифицированный график, учитывающий бюджет (Unified Budget-Aware, UBA), — теоретически обоснованный график изменения скорости обучения, который стабильно превосходит широко используемые графики среди различных архитектур и задач при разных ограниченных бюджетах обучения. Сначала мы устраняем разрыв, создавая новую оптимизационную структуру, учитывающую бюджет обучения, которая явно учитывает устойчивость к вариациям кривизны ландшафта. Из этой структуры мы выводим график UBA, управляемый единственным гиперпараметром varphi, который обеспечивает компромисс между гибкостью и простотой, устраняя необходимость в численной оптимизации для каждой сети. Более того, мы устанавливаем теоретическую связь между varphi и числом обусловленности, добавляя интерпретацию и обоснование нашему подходу. Кроме того, мы доказываем сходимость для различных значений varphi. Мы предлагаем практические рекомендации по его выбору на основе теоретического анализа и эмпирических результатов. Обширные экспериментальные результаты показывают, что UBA стабильно превосходит широко используемые графики в различных задачах обработки изображений и текста, охватывающих архитектуры сетей (например, ResNet, OLMo) и масштабы, при разных бюджетах итераций обучения.
Данная статья устраняет ключевые пробелы в оценке языковых моделей для арабского языка, предлагая всеобъемлющие теоретические рекомендации и представляя новую структуру оценки. Сначала мы анализируем существующие наборы данных для оценки арабского языка, выявляя значительные проблемы в лингвистической точности, культурной согласованности и методологической строгости. Для преодоления этих ограничений в крупных языковых моделях (LLM) мы представляем Arabic Depth Mini Dataset (ADMD) — тщательно отобранную коллекцию из 490 сложных вопросов, охватывающих десять основных областей (42 поддомена, см. Рисунок 1). Используя ADMD, мы оцениваем пять ведущих языковых моделей: GPT-4, Claude 3.5 Sonnet, Gemini Flash 1.5, CommandR 100B и Qwen-Max. Наши результаты выявляют значительные различия в производительности моделей в различных областях, особенно в задачах, требующих глубокого культурного понимания и специализированных знаний. Claude 3.5 Sonnet продемонстрировал наивысшую общую точность — 30%, показав относительную силу в математической теории на арабском языке, арабской лингвистике и исламских темах. Эта работа предоставляет как теоретические основы, так и практические рекомендации для улучшения оценки языковых моделей арабского языка, подчеркивая важность культурной компетентности наряду с техническими возможностями.
Данная статья устраняет ключевые пробелы в оценке языковых моделей для арабского языка, предлагая всеобъемлющие теоретические рекомендации и представляя новую структуру оценки. Сначала мы анализируем существующие наборы данных для оценки арабского языка, выявляя значительные проблемы в лингвистической точности, культурной согласованности и методологической строгости. Для преодоления этих ограничений в крупных языковых моделях (LLM) мы представляем Arabic Depth Mini Dataset (ADMD) — тщательно отобранную коллекцию из 490 сложных вопросов, охватывающих десять основных областей (42 поддомена, см. Рисунок 1). Используя ADMD, мы оцениваем пять ведущих языковых моделей: GPT-4, Claude 3.5 Sonnet, Gemini Flash 1.5, CommandR 100B и Qwen-Max. Наши результаты выявляют значительные различия в производительности моделей в различных областях, особенно в задачах, требующих глубокого культурного понимания и специализированных знаний. Claude 3.5 Sonnet продемонстрировал наивысшую общую точность — 30%, показав относительную силу в математической теории на арабском языке, арабской лингвистике и исламских темах. Эта работа предоставляет как теоретические основы, так и практические рекомендации для улучшения оценки языковых моделей арабского языка, подчеркивая важность культурной компетентности наряду с техническими возможностями.
Генерация изображений из текста, включающего сложные и новые композиции объектов, остается серьезной проблемой для современных моделей преобразования текста в изображение (T2I). Хотя существующие методы, основанные на макетах, улучшают расположение объектов с использованием пространственных ограничений и 2D-макетов, они часто не справляются с учетом 3D-позиционирования и жертвуют качеством и согласованностью. В данной работе мы представляем ComposeAnything — новый фреймворк для улучшения композиционной генерации изображений без необходимости переобучения существующих T2I-моделей. Наш подход сначала использует способности крупных языковых моделей (LLM) к цепочечным рассуждениям для создания 2.5D-семантических макетов из текста, состоящих из 2D-ограничивающих рамок объектов, обогащенных информацией о глубине и детальными описаниями. На основе этого макета мы генерируем грубую композицию объектов, учитывающую пространство и глубину, которая отражает задуманную композицию и служит сильным и интерпретируемым априорным значением, заменяющим стохастическую инициализацию шума в диффузионных T2I-моделях. Этот априор направляет процесс удаления шума через усиление априорных данных объектов и пространственно-контролируемое удаление шума, что позволяет бесшовно генерировать композиционные объекты и согласованные фоны, одновременно позволяя уточнять неточные априорные данные. ComposeAnything превосходит современные методы на бенчмарках T2I-CompBench и NSR-1K для запросов с 2D/3D-пространственными композициями, большим количеством объектов и сюрреалистическими композициями. Человеческие оценки также подтверждают, что наша модель генерирует высококачественные изображения, композиции которых точно отражают текст.
В данной статье мы представляем задачу Online Multimodal Conversational Response Generation (OMCRG), которая направлена на онлайн-генерацию синхронизированных вербальных и невербальных реакций слушателя, обусловленных мультимодальным вводом говорящего. OMCRG отражает естественные диадические взаимодействия и ставит новые задачи в достижении синхронизации между генерируемыми аудио и мимическими реакциями слушателя. Для решения этих задач мы инновационно вводим текст в качестве промежуточной модальности, чтобы связать аудио и мимические реакции. Мы предлагаем OmniResponse, мультимодальную большую языковую модель (MLLM), которая авторегрессивно генерирует высококачественные мультимодальные реакции слушателя. OmniResponse использует предварительно обученную языковую модель, усиленную двумя новыми компонентами: Chrono-Text, который временно привязывает генерируемые текстовые токены, и TempoVoice, управляемый онлайн-модуль синтеза речи, который производит речь, синхронизированную с мимическими реакциями. Для поддержки дальнейших исследований OMCRG мы представляем ResponseNet, новый набор данных, включающий 696 высококачественных диадических взаимодействий с синхронизированными разделенными экранами видео, многоканальным аудио, транскриптами и аннотациями мимического поведения. Комплексные оценки, проведенные на ResponseNet, демонстрируют, что OmniResponse значительно превосходит базовые модели по семантическому содержанию речи, аудиовизуальной синхронизации и качеству генерации.
Крупные языковые модели (LLM) достигли значительных успехов в выполнении сложных задач на рассуждение, однако их выводы остаются вычислительно неэффективными. Мы наблюдаем общий сбой в работе многих популярных LLM — чрезмерное обдумывание (overthinking), когда модели генерируют избыточные и второстепенные цепочки рассуждений даже для простых запросов. Недавние работы пытались устранить это, устанавливая фиксированные бюджеты токенов, однако это может привести к недостаточному обдумыванию (underthinking), особенно в более сложных задачах. Эмпирический анализ показывает, что эта неэффективность часто связана с нечеткими стратегиями решения задач. Чтобы формализовать это, мы разработали теоретическую модель BBAM (Bayesian Budget Allocation Model), которая моделирует рассуждение как последовательность подвопросов с различной степенью неопределенности, и ввели метрику E^3 для учета компромисса между точностью и вычислительной эффективностью. На основе теоретических результатов BBAM мы предлагаем Plan-and-Budget — модель-независимую структуру для тестирования, которая разбивает сложные запросы на подвопросы и распределяет бюджеты токенов на основе предполагаемой сложности с использованием адаптивного планирования. Plan-and-Budget повышает эффективность рассуждений в различных задачах и моделях, достигая улучшения точности до +70%, сокращения токенов на -39% и улучшения E^3 на +187,5%. Примечательно, что она позволяет меньшей модели (DS-Qwen-32B) достичь эффективности более крупной модели (DS-LLaMA-70B), демонстрируя способность Plan-and-Budget устранять разрыв в производительности без переобучения. Наш код доступен по адресу anonymous.4open.science/r/P-and-B-6513/.
Несколько исследований изучили механизмы работы больших языковых моделей (LLM) в задачах программирования, но большинство из них сосредоточились на языках программирования (ЯП) в монолингвальной среде. В данной работе мы исследуем взаимосвязь между несколькими ЯП и английским языком в концептуальном пространстве LLM. Мы выполняем задачу перевода с использованием нескольких примеров для 21 пары ЯП с использованием двух моделей на основе Llama. Декодируя эмбеддинги промежуточных слоев в ходе этой задачи, мы наблюдаем, что концептуальное пространство ближе к английскому языку (включая ключевые слова ЯП) и присваивает высокие вероятности токенам английского языка во второй половине промежуточных слоев. Мы анализируем активации нейронов для 11 ЯП и английского языка, обнаруживая, что, хотя языково-специфичные нейроны в основном сосредоточены в нижних слоях, те, которые уникальны для каждого ЯП, имеют тенденцию появляться в верхних слоях. Для ЯП, которые сильно выровнены с несколькими другими ЯП, идентификация языково-специфичных нейронов невозможна. Эти ЯП также склонны иметь больший набор ключевых слов по сравнению с другими ЯП и находятся ближе к концептуальному пространству модели независимо от входного/выходного ЯП в задаче перевода. Наши результаты дают представление о том, как LLM внутренне представляют ЯП, раскрывая структурные закономерности в концептуальном пространстве модели. Код доступен по адресу https://github.com/cisnlp/code-specific-neurons.
Мы представляем SealQA — новый эталонный тест для оценки языковых моделей, усиленных поиском, на задачах поиска фактов, где веб-поиск дает противоречивые, зашумленные или бесполезные результаты. SealQA представлен в трех вариантах: (1) Seal-0 (основной) и (2) Seal-Hard, которые оценивают точность фактов и способности к рассуждению, причем Seal-0 фокусируется на наиболее сложных вопросах, где чат-модели (например, GPT-4.1) обычно достигают точности, близкой к нулю; и (3) LongSeal, который расширяет SealQA для тестирования рассуждений в длинных контекстах с использованием нескольких документов в условиях "иголки в стоге сена". Наша оценка выявляет критические ограничения современных моделей: даже передовые крупные языковые модели (LLM) показывают низкие результаты во всех вариантах SealQA. На Seal-0 передовые агентные модели, оснащенные инструментами, такими как o3 и o4-mini, достигают точности всего 17,1% и 6,3% соответственно, несмотря на максимальные усилия в рассуждениях. Мы обнаружили, что продвинутые модели рассуждений, такие как DeepSeek-R1-671B и o3-mini, крайне уязвимы к зашумленным результатам поиска. Примечательно, что увеличение вычислительных ресурсов во время тестирования не приводит к надежному улучшению результатов для o3-mini, o4-mini и o3, причем производительность часто выходит на плато или даже снижается на ранних этапах. Кроме того, хотя современные модели меньше подвержены проблеме "потерянности в середине", они все же не могут надежно идентифицировать релевантные документы в LongSeal при наличии множества отвлекающих факторов. Для содействия будущим исследованиям мы публикуем SealQA по адресу huggingface.co/datasets/vtllms/sealqa.
Крупные языковые модели (LLM) недавно начали применяться для задач прогнозирования, причём некоторые работы утверждают, что эти системы соответствуют или превосходят человеческие показатели. В данной статье мы утверждаем, что научному сообществу следует с осторожностью относиться к таким выводам, поскольку оценка прогнозирующих способностей LLM сопряжена с уникальными трудностями. Мы выделяем две основные категории проблем: (1) сложность доверия к результатам оценки из-за различных форм временной утечки данных и (2) трудности экстраполяции результатов оценки на реальные задачи прогнозирования. С помощью систематического анализа и конкретных примеров из предыдущих работ мы показываем, как недостатки в оценке могут вызывать сомнения в текущих и будущих заявлениях о производительности. Мы утверждаем, что для уверенной оценки прогнозирующих способностей LLM необходимы более строгие методологии оценки.
Метод Distribution Matching Distillation (DMD) успешно применялся к диффузионным моделям для генерации изображений из текста, таким как Stable Diffusion (SD) 1.5. Однако базовый DMD сталкивается с трудностями сходимости при работе с крупномасштабными моделями на основе потоков, такими как SD 3.5 и FLUX. В данной статье мы сначала анализируем проблемы, возникающие при применении базового DMD к крупномасштабным моделям. Затем, чтобы преодолеть вызовы масштабируемости, мы предлагаем метод неявного выравнивания распределений (Implicit Distribution Alignment, IDA) для регуляризации расстояния между распределением генератора и поддельным распределением. Кроме того, мы предлагаем внутрисегментное руководство (Intra-Segment Guidance, ISG) для перераспределения важности временных шагов из модели учителя. С использованием только IDA, DMD сходится для SD 3.5; при совместном использовании IDA и ISG, DMD сходится для SD 3.5 и FLUX.1 dev. В сочетании с другими улучшениями, такими как масштабированные модели дискриминатора, наша итоговая модель, названная SenseFlow, демонстрирует превосходную производительность в дистилляции как для диффузионных моделей генерации изображений из текста, таких как SDXL, так и для моделей на основе потоков, таких как SD 3.5 Large и FLUX. Исходный код будет доступен по адресу https://github.com/XingtongGe/SenseFlow.
Нейронные аудиокодеки достигли значительных успехов в эффективном преобразовании исходных аудиоволн в дискретные токенные представления, что является основой для современных генеративных моделей аудио. Однако большинство существующих кодеков оптимизированы в первую очередь для качества реконструкции, часто в ущерб пригодности закодированных токенов для последующего моделирования. Стремясь преодолеть это ограничение, мы представляем MagiCodec — новый однослойный потоковый аудиокодек на основе трансформеров. MagiCodec разработан с использованием многоэтапного процесса обучения, включающего инъекцию гауссовского шума и регуляризацию латентного пространства, что явно направлено на повышение семантической выразительности генерируемых кодов при сохранении высокой точности реконструкции. Мы аналитически выводим эффект инъекции шума в частотной области, демонстрируя его эффективность в ослаблении высокочастотных компонентов и обеспечении устойчивой токенизации. Многочисленные экспериментальные оценки показывают, что MagiCodec превосходит современные кодеки как по качеству реконструкции, так и по результатам в последующих задачах. Примечательно, что токены, созданные MagiCodec, демонстрируют распределения, подобные закону Ципфа, что наблюдается в естественных языках, тем самым улучшая совместимость с генеративными архитектурами на основе языковых моделей. Код и предобученные модели доступны по адресу https://github.com/Ereboas/MagiCodec.
Модели языка с усилением поиска (Retrieval-Augmented Language Models, RALMs) представляют собой классическую парадигму, в которой модели улучшают свои генеративные способности за счет использования внешних знаний, извлекаемых с помощью специализированного модуля. Последние достижения в области агентных технологий позволяют крупным языковым моделям (Large Language Models, LLMs) автономно использовать инструменты для поиска, планирования и рассуждений. Хотя существующие методы, основанные на обучении, демонстрируют перспективные результаты, их агентные возможности ограничены внутренними характеристиками данных, специфичных для задач, используемых в процессе обучения. Для дальнейшего улучшения универсальной поисковой способности агентов мы предлагаем новую структуру предварительного обучения, MaskSearch. На этапе предварительного обучения мы вводим задачу предсказания маски с усилением поиска (Retrieval Augmented Mask Prediction, RAMP), в которой модель учится использовать поисковые инструменты для заполнения замаскированных фрагментов на большом объеме данных предварительного обучения, тем самым приобретая универсальные способности к поиску и рассуждению для LLMs. После этого модель обучается на последующих задачах для достижения дополнительного улучшения. Мы применяем как контролируемую тонкую настройку (Supervised Fine-tuning, SFT), так и обучение с подкреплением (Reinforcement Learning, RL). Для SFT мы комбинируем методы, основанные на агентах и дистилляции, для генерации обучающих данных, начиная с мультиагентной системы, состоящей из планировщика, переписчика, наблюдателя, и заканчивая саморазвивающейся учительской моделью. Для RL мы используем DAPO в качестве структуры обучения и применяем гибридную систему вознаграждений, состоящую из вознаграждений за ответы и вознаграждений за формат. Дополнительно мы вводим подход поэтапного обучения, который позволяет модели постепенно обучаться от более простых к более сложным примерам в зависимости от количества замаскированных фрагментов. Мы оцениваем эффективность нашей структуры в сценарии открытого домена с многошаговым ответом на вопросы. В ходе обширных экспериментов мы демонстрируем, что MaskSearch значительно улучшает производительность поисковых агентов на основе LLM как на внутридоменных, так и на внедоменных последующих задачах.
По мере того как крупные языковые модели (LLM) всё глубже интегрируются в жизнь людей и всё больше влияют на принятие решений, крайне важно оценить, проявляют ли они субъективные предпочтения, мнения и убеждения, и в какой степени. Эти тенденции могут быть следствием предубеждений, заложенных в моделях, которые способны формировать их поведение, влиять на советы и рекомендации, предлагаемые пользователям, и потенциально укреплять определённые точки зрения. В данной статье представлен опросник Preference, Opinion, and Belief survey (POBs), разработанный для оценки субъективных склонностей LLM в социальных, культурных, этических и личных сферах. Мы применили наш бенчмарк для оценки ведущих открытых и закрытых LLM, измеряя такие желаемые свойства, как надёжность, нейтральность и согласованность. Кроме того, мы исследовали влияние увеличения вычислительных ресурсов на этапе тестирования, используя механизмы рассуждения и саморефлексии, на эти показатели. Хотя эти механизмы эффективны в других задачах, наши результаты показывают, что в нашей области они дают лишь ограниченные улучшения. Более того, мы выявили, что новые версии моделей становятся менее согласованными и более склонными к определённым точкам зрения, что указывает на слепое пятно и вызывает обеспокоенность. POBS: https://ibm.github.io/POBS
Мы представляем Frankentexts — новый тип длинных повествований, создаваемых крупными языковыми моделями (LLM) при крайнем ограничении, согласно которому большинство токенов (например, 90%) должны быть дословно скопированы из человеческих текстов. Эта задача представляет собой сложный тест на управляемую генерацию, требующий от моделей выполнения письменного задания, интеграции разрозненных текстовых фрагментов и создания при этом связного повествования. Для генерации Frankentexts мы инструктируем модель создавать черновик, выбирая и комбинируя фрагменты, написанные человеком, а затем итеративно дорабатывать его, сохраняя заданный пользователем уровень копирования. Мы оцениваем полученные Frankentexts по трем критериям: качество текста, соблюдение инструкций и обнаруживаемость. Gemini-2.5-Pro демонстрирует удивительно хорошие результаты в этой задаче: 81% Frankentexts являются связными и 100% соответствуют заданию. Примечательно, что до 59% таких текстов ошибочно классифицируются детекторами, такими как Pangram, как написанные человеком, что выявляет ограничения современных детекторов ИИ-текстов. Человеческие аннотаторы иногда могут распознать Frankentexts по резким сменам тона и несогласованности грамматики между сегментами, особенно в более длинных текстах. Помимо представления сложной задачи генерации, Frankentexts стимулируют обсуждение создания эффективных детекторов для этой новой серой зоны авторства, предоставляют данные для обучения моделей обнаружения смешанного авторства и служат полигоном для изучения процессов совместного написания текстов человеком и ИИ.
Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), согласованные с общими человеческими целями, такими как безопасность и отсутствие галлюцинаций, стали ценными помощниками в решении визуальных задач. Однако люди с различным опытом и образованием могут по-разному воспринимать одну и ту же ситуацию. В результате у них могут возникать персонализированные ожидания от помощников на основе VLMs. Это подчеркивает острую необходимость согласования таких помощников с персонализированным ситуативным восприятием для оказания помощи в реальных условиях. Для изучения этой проблемы мы сначала упрощаем её, характеризуя индивидов на основе социологического концепта "Ролевого набора" (Role-Set). Затем мы предлагаем оценивать действия индивидов, чтобы проверить, достигнута ли персонализированная согласованность. Далее мы создаем эталонный набор данных под названием PCogAlignBench, который включает 18 тысяч примеров и 20 индивидов с различными ролевыми наборами. Наконец, мы представляем фреймворк PCogAlign, который строит модель вознаграждения, учитывающую восприятие и основанную на действиях, для персонализированного согласования. Результаты экспериментов и оценки людьми подтверждают надежность PCogAlignBench и эффективность предложенного нами фреймворка PCogAlign. Мы опубликуем созданный эталонный набор данных и код на платформе https://github.com/NLPGM/PCogAlign.
Недавние исследования показали, что контролируемая тонкая настройка крупных языковых моделей (LLM) на небольшом количестве высококачественных наборов данных может привести к значительному улучшению способностей к рассуждению. Однако полная тонкая настройка (Full FT), хотя и мощная, требует значительных вычислительных ресурсов и подвержена переобучению и катастрофическому забыванию, особенно при ограниченном объеме данных. Разреженная тонкая настройка, которая ранее демонстрировала заметные успехи за счет обновления лишь небольшого подмножества параметров модели, предлагает перспективный компромисс между эффективностью и производительностью. Тем не менее, в эпоху LLM она отстает из-за сложности идентификации параметров, действительно критически важных для рассуждений. В данной работе мы утверждаем, что веса с наибольшей величиной после низкоранговой аппроксимации являются критически важными для тонкой настройки, и называем их Главными Весами. Удивительно, что хотя разреженная настройка на основе величины параметров показывает низкую эффективность в качестве базового подхода для тонкой настройки LLM, она становится высокоэффективной после снижения ранга. Эти наблюдения вдохновили наш метод: Разреженная Тонкая Настройка с Учетом Низкого Ранга (LIFT). LIFT обновляет только 5% Главных Весов на протяжении всего обучения и стабильно демонстрирует лучшие результаты в задачах на рассуждение по сравнению с Full FT, сохраняя при этом эффективность использования памяти на уровне популярных методов параметрически эффективной настройки. В дополнение к высокой производительности в целевых областях, таких как арифметические рассуждения, LIFT также сохраняет до 20% больше знаний из исходной области по сравнению с Full FT и LoRA. Наш код доступен по адресу: https://github.com/zihanghliu/LIFT.
Понимание социально-экономических условий городской среды через визуальные данные представляет собой сложную, но крайне важную задачу для устойчивого городского развития и планирования политики. В данной работе мы представляем CityLens — всеобъемлющий бенчмарк, разработанный для оценки способностей крупных языково-визуальных моделей (LLVM) в прогнозировании социально-экономических показателей на основе спутниковых изображений и панорамных снимков улиц. Мы создали мультимодальный набор данных, охватывающий 17 городов по всему миру и включающий 6 ключевых областей: экономика, образование, преступность, транспорт, здравоохранение и экология, что отражает многогранность городской жизни. На основе этого набора данных мы определили 11 задач прогнозирования и использовали три парадигмы оценки: прямое предсказание метрик, нормализованная оценка метрик и регрессия на основе признаков. Мы протестировали 17 современных LLVM на этих задачах. Наши результаты показывают, что, хотя LLVM демонстрируют перспективные перцептивные и аналитические способности, они всё ещё имеют ограничения в прогнозировании социально-экономических показателей городской среды. CityLens предоставляет унифицированную структуру для диагностики этих ограничений и направления будущих усилий в использовании LLVM для понимания и прогнозирования социально-экономических паттернов городской среды. Наши коды и наборы данных открыты для использования по адресу https://github.com/tsinghua-fib-lab/CityLens.
В данной статье исследуется ключевое проектное решение в практике массового многоязычного непрерывного предварительного обучения — включение параллельных данных. В частности, изучается влияние данных двуязычного перевода на адаптацию моделей семейства Llama3 к 500 языкам в рамках массового многоязычного подхода. Для этого создается корпус MaLA, содержащий данные более чем для 2500 языковых пар. Впоследствии разрабатывается набор EMMA-500 Llama 3, состоящий из четырех массово многоязычных моделей, которые непрерывно предварительно обучаются на основе моделей семейства Llama 3 с использованием разнообразных данных объемом до 671 млрд токенов, и исследуется влияние непрерывного предварительного обучения с использованием или без использования данных двуязычного перевода. Комплексная оценка по 7 задачам и 12 тестам демонстрирует, что двуязычные данные способствуют улучшению языкового переноса и производительности, особенно для языков с ограниченными ресурсами. Мы открываем доступ к корпусу MaLA, артефактам набора EMMA-500 Llama 3, коду и сгенерированным моделям.
Расшифровка непрерывной речи на основе нейронных сигналов остается серьезной задачей на стыке нейронауки и искусственного интеллекта. Мы представляем Neuro2Semantic, новую структуру, которая восстанавливает семантическое содержание воспринимаемой речи на основе внутричерепных записей электроэнцефалограммы (iEEG). Наш подход состоит из двух этапов: сначала адаптер на основе LSTM согласовывает нейронные сигналы с предварительно обученными текстовыми эмбеддингами; затем корректирующий модуль генерирует непрерывный, естественный текст непосредственно из этих согласованных эмбеддингов. Этот гибкий метод преодолевает ограничения предыдущих подходов к расшифровке и позволяет создавать неограниченный текст. Neuro2Semantic демонстрирует высокую производительность даже при наличии всего 30 минут нейронных данных, превосходя современный метод в условиях ограниченного объема данных. Эти результаты подчеркивают потенциал для практического применения в интерфейсах мозг-компьютер и технологиях нейронной расшифровки.
Бинауральный рендеринг направлен на синтез бинаурального звука, имитирующего естественное восприятие, на основе монофонического аудио и расположения источника звука и слушателя. Хотя для решения этой задачи было предложено множество методов, они сталкиваются с проблемами качества рендеринга и возможностью потокового вывода. Синтез высококачественного бинаурального звука, неотличимого от реальных записей, требует точного моделирования бинауральных сигналов, реверберации помещения и окружающих звуков. Кроме того, практические приложения требуют потокового вывода. Для решения этих задач мы предлагаем фреймворк потокового синтеза бинауральной речи на основе сопоставления потоков, названный BinauralFlow. Мы рассматриваем бинауральный рендеринг как задачу генерации, а не регрессии, и разрабатываем условную модель сопоставления потоков для создания высококачественного звука. Кроме того, мы разрабатываем причинную архитектуру U-Net, которая оценивает текущий аудиокадр исключительно на основе прошлой информации, чтобы адаптировать генеративные модели для потокового вывода. Наконец, мы вводим непрерывный конвейер вывода, включающий потоковые операции STFT/ISTFT, буферный банк, решатель средней точки и ранний график пропуска для улучшения непрерывности и скорости рендеринга. Количественные и качественные оценки демонстрируют превосходство нашего метода над современными подходами. Перцептивное исследование дополнительно показывает, что наша модель практически неотличима от реальных записей с частотой ошибок 42%.
Несмотря на прогресс в области рассуждений и планирования моделей, подобных R1, крупные языковые модели (LLM) по-прежнему испытывают трудности с задачами, требующими точных вычислений, символьных манипуляций, оптимизации и алгоритмического мышления, где текстовые рассуждения уступают строгости выполнения кода. Ключевой проблемой является обеспечение способности LLM решать, когда использовать текстовые рассуждения, а когда — генерацию кода. Хотя OpenAI обучает модели вызывать интерпретатор кода по мере необходимости, в публичных исследованиях отсутствуют рекомендации по адаптации предварительно обученных LLM для эффективного использования кода и обобщения на разнообразные задачи. Мы представляем R1-Code-Interpreter — расширение текстовой LLM, обученной с помощью многошагового контролируемого тонкого настройки (SFT) и обучения с подкреплением (RL), для автономной генерации множества запросов кода в процессе пошагового рассуждения. Мы подготовили 144 задачи на рассуждение и планирование (107 для обучения, 37 для тестирования), каждая из которых содержит более 200 разнообразных вопросов. Мы тонко настраиваем модели Qwen-2.5 (3B/7B/14B), используя различные стратегии SFT и RL, исследуя различные форматы ответов, модели с рассуждениями и без них, холодный и теплый старт, GRPO против PPO, а также маскированные и немаскированные выходы кода. В отличие от предыдущих работ по RL в узких областях, мы обнаруживаем, что обучение с использованием интерпретатора кода значительно сложнее из-за высокой разнородности задач и дороговизны выполнения кода, что подчеркивает критическую роль этапа SFT. Наша итоговая модель, R1-CI-14B, повышает среднюю точность на 37 тестовых задачах с 44,0% до 64,1%, превосходя GPT-4o (только текст: 58,6%) и приближаясь к GPT-4o с интерпретатором кода (70,9%), благодаря возникающему поведению самопроверки через генерацию кода. Наборы данных, коды и модели доступны по адресам https://github.com/yongchao98/R1-Code-Interpreter и https://huggingface.co/yongchao98.
Мультимодальные большие языковые модели (MLLMs) демонстрируют высокую производительность в задачах, таких как визуальное ответы на вопросы, однако остается неясным, основывается ли их рассуждение больше на запомненных знаниях о мире или на визуальной информации, присутствующей во входном изображении. Чтобы исследовать это, мы представляем Visual CounterFact — новый набор данных визуально реалистичных контрфактических примеров, которые ставят априорные знания о мире (например, красная клубника) в прямое противоречие с визуальным входом (например, синяя клубника). Используя Visual CounterFact, мы показываем, что предсказания моделей изначально отражают запомненные априорные знания, но смещаются в сторону визуальных данных в средних и поздних слоях. Эта динамика раскрывает конкуренцию между двумя модальностями, причем визуальный вход в конечном итоге перевешивает априорные знания во время оценки. Чтобы управлять этим поведением, мы предлагаем векторы управления Pixels Versus Priors (PvP) — механизм для контроля выходов модели в сторону либо знаний о мире, либо визуального входного сигнала через вмешательства на уровне активаций. В среднем PvP успешно смещает 92,5% предсказаний цвета и 74,6% предсказаний размера от априорных знаний к контрфактическим данным. Вместе эти результаты предлагают новые инструменты для интерпретации и управления фактическим поведением в мультимодальных моделях.
Получение крупномасштабных данных эмоциональной речи с высокой степенью согласованности остается сложной задачей для синтеза речи. В данной статье представлен MIKU-PAL — полностью автоматизированный мультимодальный конвейер для извлечения высокосогласованной эмоциональной речи из немаркированных видеоданных. Используя алгоритмы обнаружения и отслеживания лиц, мы разработали автоматическую систему анализа эмоций на основе мультимодальной большой языковой модели (MLLM). Наши результаты показывают, что MIKU-PAL способен достичь точности на уровне человека (68,5% на MELD) и превосходной согласованности (0,93 по шкале Флейсса), при этом будучи значительно дешевле и быстрее, чем ручная разметка. Благодаря высококачественной, гибкой и согласованной разметке MIKU-PAL, мы можем аннотировать детализированные категории эмоций речи до 26 типов, что подтверждается человеческими аннотаторами с 83% оценкой рациональности. На основе предложенной системы мы также выпустили детализированный набор данных эмоциональной речи MIKU-EmoBench (131,2 часа) в качестве нового эталона для эмоционального преобразования текста в речь и визуального клонирования голоса.
В данной работе исследуется адаптация к целевому домену без доступа к исходным данным (Source-Free Domain Adaptation, SFDA). Предложены новая техника аугментации Shuffle PatchMix (SPM) и инновационная стратегия перевзвешивания для повышения производительности. SPM перемешивает и смешивает фрагменты изображений, создавая разнообразные и сложные аугментации, в то время как стратегия перевзвешивания уделяет приоритетное внимание надежным псевдометкам, чтобы снизить уровень шума в метках. Эти методы особенно эффективны на небольших наборах данных, таких как PACS, где переобучение и шум в псевдометках представляют большую угрозу. Достигнуты результаты, превосходящие современные подходы, на трех основных бенчмарках: PACS, VisDA-C и DomainNet-126. В частности, на PACS наблюдаются улучшения на 7,3% (с 79,4% до 86,7%) и 7,2% в условиях одного и нескольких целевых доменов соответственно, в то время как на DomainNet-126 и VisDA-C достигнуты приросты на 2,8% и 0,7%. Сочетание продвинутой аугментации и надежного перевзвешивания псевдометок устанавливает новый стандарт для SFDA. Код доступен по адресу: https://github.com/PrasannaPulakurthi/SPM.
Эффективная компиляция квантовых операций остается серьезным препятствием для масштабирования квантовых вычислений. Современные передовые методы достигают низкой ошибки компиляции за счет комбинации алгоритмов поиска с оптимизацией параметров на основе градиентов, однако они требуют длительного времени выполнения и множественных обращений к квантовому оборудованию или дорогостоящим классическим симуляциям, что делает их масштабирование непрактичным. В последнее время в качестве альтернативы появились модели машинного обучения, хотя они пока ограничены дискретными наборами вентилей. В данной работе мы представляем мультимодальную модель денизинга на основе диффузии, которая одновременно генерирует структуру схемы и ее непрерывные параметры для компиляции целевого унитарного оператора. Модель использует два независимых процесса диффузии: один для выбора дискретных вентилей и другой для предсказания параметров. Мы проводим тестирование модели в различных экспериментах, анализируя точность метода при различном числе кубитов, глубине схем и пропорциях параметризованных вентилей. Наконец, используя быструю генерацию схем, мы создаем большие наборы данных для конкретных операций и применяем их для извлечения ценных эвристик, которые могут помочь в открытии новых инсайтов в синтезе квантовых схем.