Ежедневно отобранные исследовательские статьи по ИИ с переводами
Подход RLVR (обучение с подкреплением с верифицируемыми вознаграждениями) предлагает надежный механизм для улучшения математических рассуждений в больших моделях. Однако мы выявляем систематическую недостаточность внимания к более сложным задачам в существующих методах как с алгоритмической, так и с точки зрения данных, несмотря на их важность для совершенствования недостаточно развитых способностей. Алгоритмически, широко используемая оптимизация групповой относительной политики (GRPO) страдает от имплицитного дисбаланса, при котором величина обновлений политики ниже для более сложных задач. С точки зрения данных, подходы к аугментации в основном перефразируют вопросы для повышения разнообразия, не систематически увеличивая внутреннюю сложность. Для решения этих проблем мы предлагаем двухуровневую структуру MathForge для улучшения математических рассуждений, нацеленную на сложные задачи с обеих перспектив, которая включает алгоритм Difficulty-Aware Group Policy Optimization (DGPO) и стратегию Multi-Aspect Question Reformulation (MQR). В частности, DGPO сначала исправляет имплицитный дисбаланс в GRPO с помощью сбалансированной по сложности оценки группового преимущества и дополнительно приоритизирует сложные задачи с помощью взвешивания на уровне вопросов, учитывающего сложность. Тем временем MQR переформулирует вопросы по нескольким аспектам для увеличения сложности при сохранении исходного правильного ответа. В целом, MathForge формирует синергетический цикл: MQR расширяет границы данных, а DGPO эффективно обучается на аугментированных данных. Многочисленные эксперименты показывают, что MathForge значительно превосходит существующие методы в различных задачах математических рассуждений. Код и аугментированные данные доступны по адресу https://github.com/AMAP-ML/MathForge.
Мы представляем LingBot-World — симулятор мира с открытым исходным кодом, созданный на основе генерации видео. Позиционируемый как модель мира высшего класса, LingBot-World обладает следующими характеристиками. (1) Он обеспечивает высокую детализацию и устойчивую динамику в широком спектре сред, включая реалистичные, научные контексты, мультипликационные стили и другие. (2) Он позволяет достигать минутного горизонта прогнозирования при сохранении контекстной согласованности во времени, что также известно как «долговременная память». (3) Он поддерживает интерактивность в реальном времени, достигая задержки менее 1 секунды при генерации 16 кадров в секунду. Мы предоставляем открытый доступ к коду и модели, чтобы сократить разрыв между технологиями с открытым и закрытым исходным кодом. Мы уверены, что наш релиз расширит возможности сообщества для практического применения в таких областях, как создание контента, игровая индустрия и обучение роботов.
Мы представляем Innovator-VL — научную мультимодальную большую языковую модель, разработанную для углубления понимания и способности к рассуждению в различных научных областях при сохранении высокой производительности на общих визуальных задачах. В противовес тенденции полагаться на масштабное предметно-ориентированное предварительное обучение и непрозрачные конвейеры, наша работа демонстрирует, что принципиально продуманный дизайн обучения и прозрачная методология позволяют достичь высокой научной интеллектуальности при существенно сокращенных требованиях к данным. (i) Во-первых, мы предлагаем полностью прозрачный, воспроизводимый от начала до конца конвейер обучения, охватывающий сбор данных, их очистку, предварительную обработку, контролируемое тонкое настраивание, обучение с подкреплением и оценку, вместе с детальными рецептами оптимизации. Это способствует систематическому расширению сообществом. (ii) Во-вторых, Innovator-VL демонстрирует замечательную эффективность использования данных, достигая конкурентоспособных результатов на различных научных задачах с использованием менее пяти миллионов отобранных образцов без масштабного предварительного обучения. Эти результаты подчеркивают, что эффективные рассуждения могут быть достигнуты за счет принципиального отбора данных, а не безразборного масштабирования. (iii) В-третьих, Innovator-VL показывает сильную способность к обобщению, демонстрируя конкурентоспособную производительность на общих визуальных, мультимодальных логических и научных тестах. Это указывает на то, что научная специализация может быть интегрирована в единую модель без ущерба для общецелевых возможностей. Наш опыт свидетельствует, что эффективные, воспроизводимые и высокопроизводительные научные мультимодальные модели могут быть созданы даже без крупномасштабных данных, что закладывает практическую основу для будущих исследований.
Мы представляем DeepSeek-OCR 2 для исследования возможности применения нового энкодера DeepEncoder V2, способного динамически переупорядочивать визуальные токены на основе семантики изображения. Традиционные модели «визуальный язык» (VLMs) неизменно обрабатывают визуальные токены в жестком порядке растеризации (слева направо, сверху вниз) с фиксированным позиционным кодированием при подаче в большие языковые модели (LLMs). Однако это противоречит человеческому визуальному восприятию, которое следует гибким, но семантически связным паттернам сканирования, управляемым внутренними логическими структурами. В частности, для изображений со сложной компоновкой человеческое зрение демонстрирует последовательную обработку, основанную на причинно-следственных связях. Вдохновленные этим когнитивным механизмом, мы разработали DeepEncoder V2, чтобы наделить энкодер способностями к каузальным рассуждениям, позволяя ему интеллектуально переупорядочивать визуальные токены до интерпретации содержимого на основе LLM. Данная работа исследует новую парадигму: может ли понимание 2D-изображений быть эффективно достигнуто с помощью двух каскадированных структур 1D каузальных рассуждений, предлагая таким образом новый архитектурный подход с потенциалом для достижения подлинного 2D-мышления. Код и веса модели общедоступны по адресу http://github.com/deepseek-ai/DeepSeek-OCR-2.
Методы обучения с подкреплением позволяют крупным языковым моделям функционировать в качестве интеллектуальных агентов, однако их обучение для решения задач с длинным горизонтом планирования остается сложной проблемой из-за недостатка высококачественных траекторий, особенно в условиях ограниченных ресурсов. Существующие подходы обычно наращивают объем сэмплирования и неразборчиво распределяют вычислительные ресурсы между промежуточными шагами. Такие попытки по своей сути приводят к значительным затратам вычислительного бюджета на тривиальные шаги, не гарантируя при этом качества образцов. Для решения этой проблемы мы предлагаем Spark (Strategic Policy-Aware exploRation via Key-state dynamic branching) — новую архитектуру, которая выборочно ветвится на критических состояниях принятия решений для ресурсоэффективного исследования. Ключевая идея заключается в активации адаптивного ветвящегося исследования в критических точках принятия решений для поиска перспективных траекторий, что позволяет достичь точного распределения ресурсов, отдающего приоритет качеству сэмплирования перед слепым охватом. Данный подход использует внутренние сигналы принятия решений агентом для снижения зависимости от априорных знаний, позволяя агенту автономно расширять исследование и достигать более высокой обобщающей способности. Эксперименты на разнообразных задачах (например, воплощенное планирование) демонстрируют, что Spark достигает превосходных показателей успешности при значительно меньшем объеме обучающих данных, проявляя robustную обобщающую способность даже в непредвиденных сценариях.
Векторные представления языковых моделей часто содержат линейные направления, соответствующие концепциям высокого уровня. В данной работе мы исследуем динамику этих представлений: как они эволюционируют вдоль данных направлений в контексте (смоделированных) диалогов. Мы обнаруживаем, что линейные представления могут кардинально меняться в ходе диалога; например, информация, представленная как фактическая в начале разговора, может интерпретироваться как не-фактическая в его конце, и наоборот. Эти изменения зависят от содержания: хотя представления релевантной для диалога информации могут меняться, общая информация обычно сохраняется. Данные изменения устойчивы даже для направлений, отделяющих фактичность от более поверхностных паттернов ответов, и наблюдаются в различных семействах моделей и на разных слоях модели. Для изменения представлений не требуются диалоги, сгенерированные самой моделью; даже воспроизведение сценария диалога, написанного совершенно другой моделью, может вызывать схожие изменения. Однако адаптация значительно слабее при простом наличии в контексте научно-фантастического рассказа, явно обозначенного как таковой. Мы также показываем, что управление вдоль репрезентационного направления может иметь радикально разные эффекты в различные моменты диалога. Эти результаты согласуются с идеей, что представления могут эволюционировать в ответ на исполнение моделью определенной роли, заданной диалогом. Наши выводы могут создавать проблемы для интерпретируемости и управления — в частности, они подразумевают, что использование статических интерпретаций признаков или направлений, либо проб, предполагающих постоянное соответствие определенного диапазона признаков конкретному истинному значению, может вводить в заблуждение. Однако такая репрезентационная динамика также указывает на новые перспективные направления исследований для понимания того, как модели адаптируются к контексту.
Крупные языковые модели все чаще проходят последующее обучение с подкреплением в верифицируемых областях, таких как программирование и математика. Однако современные методы обучения с подкреплением с верифицируемыми вознаграждениями (RLVR) обучаются только на основе скалярной награды за каждую попытку, что создает серьезную проблему распределения заслуг. Многие верифицируемые среды фактически предоставляют богатую текстовую обратную связь, такую как ошибки времени выполнения или оценки проверяющей системы, которая объясняет, почему попытка не удалась. Мы формализуем эту задачу как обучение с подкреплением с богатой обратной связью и представляем метод оптимизации политики с самодистилляцией (SDPO), который преобразует токенизированную обратную связь в плотный обучающий сигнал без привлечения внешнего учителя или явной модели вознаграждения. SDPO рассматривает текущую модель, conditioned на обратной связи, в качестве самоучителя и дистиллирует ее информированные обратной связью предсказания следующих токенов обратно в политику. Таким образом, SDPO использует способность модели ретроспективно идентифицировать собственные ошибки в контексте. В задачах научного мышления, использования инструментов и соревновательного программирования на LiveCodeBench v6 метод SDPO демонстрирует повышение эффективности использования данных и итоговой точности по сравнению с сильными базовыми методами RLVR. Примечательно, что SDPO также превосходит базовые методы в стандартных средах RLVR, которые возвращают только скалярную обратную связь, за счет использования успешных прогонов в качестве неявной обратной связи для неудачных попыток. Наконец, применение SDPO к отдельным задачам во время тестирования ускоряет нахождение решения в сложных задачах с бинарным вознаграждением, достигая той же вероятности обнаружения, что и best-of-k сэмплирование или многошаговые диалоги, но с трехкратным сокращением числа попыток.
Несмотря на синтаксическую беглость больших языковых моделей (LLM), обеспечение их логической корректности в областях с высокими ставками остается фундаментальной проблемой. Мы представляем нейросимволический фреймворк, который объединяет LLM с SMT-солверами для генерации верифицируемых ответов посредством итеративного уточнения. Наш подход декомпозирует выводы LLM на атомарные утверждения, автоматически формализует их в логику первого порядка и проверяет их логическую согласованность с помощью автоматического доказательства теорем. Мы вводим три ключевых нововведения: (1) консенсус нескольких моделей через проверку формальной семантической эквивалентности для обеспечения согласованности на уровне логики, устраняющий синтаксическую предвзятость метрик поверхностной формы, (2) семантическую маршрутизацию, которая направляет различные типы утверждений к соответствующим стратегиям верификации: символическим солверам для логических утверждений и ансамблям LLM для здравого смысла, и (3) точную локализацию логических ошибок через минимальные корректирующие подмножества (MCS), которые определяют точное подмножество утверждений для исправления, преобразуя бинарные сигналы сбоя в практическую обратную связь. Наш фреймворк классифицирует утверждения по их логическому статусу и агрегирует множественные сигналы верификации в единую оценку с дисперсионным штрафом. Система итеративно уточняет ответы, используя структурированную обратную связь, до достижения критериев приемки или сходимости. Этот гибридный подход обеспечивает формальные гарантии там, где это возможно, и консенсусную верификацию в остальных случаях, способствуя развитию доверенного ИИ. На модели GPT-OSS-120B фреймворк VERGE демонстрирует среднее улучшение производительности на 18.7% при сходимости на наборе бенчмарков мышления по сравнению с одношаговыми подходами.
Агенты с графическим интерфейсом пользователя (GUI) демонстрируют значительный потенциал для выполнения реальных задач моделями-основами, революционизируя человеко-компьютерное взаимодействие и повышая производительность труда. В данном отчете мы представляем OmegaUse — универсальную модель GUI-агента для автономного выполнения задач на мобильных и настольных платформах, поддерживающую сценарии работы с компьютером и телефоном. Создание эффективной модели GUI-агента зависит от двух факторов: (1) высококачественных данных и (2) эффективных методов обучения. Для их решения мы предлагаем тщательно разработанный конвейер построения данных и развязанную парадигму обучения. Для построения данных мы используем тщательно отобранные открытые наборы данных и представляем новую автоматизированную систему синтеза, интегрирующую нисходящее автономное исследование с нисходящей генерацией на основе таксономии для создания синтетических данных высокой точности. В обучении, чтобы лучше использовать эти данные, мы применяем двухэтапную стратегию: контролируемую тонкую настройку (SFT) для установления базового синтаксиса взаимодействия с последующей групповой относительной оптимизацией политики (GRPO) для улучшения пространственного позиционирования и последовательного планирования. Для баланса между вычислительной эффективностью и агентскими рассуждениями OmegaUse построена на основе архитектуры смеси экспертов (MoE). Для оценки кроссплатформенных возможностей в автономном режиме мы представляем OS-Nav — набор тестов, охватывающих несколько операционных систем: ChiM-Nav для китайской мобильной среды Android и Ubu-Nav, ориентированный на рутинные взаимодействия с настольной системой Ubuntu. Масштабные эксперименты показывают, что OmegaUse демонстрирует высокую конкурентоспособность на существующих GUI-бенчмарках, достигая наилучшего результата в 96,3% на ScreenSpot-V2 и ведущего показателя успешности шагов в 79,1% на AndroidControl. OmegaUse также показывает высокие результаты на OS-Nav, достигая 74,24% успешности шагов на ChiM-Nav и 55,9% средней успешности на Ubu-Nav.
Агенты с открытыми весами для программирования должны обладать фундаментальным преимуществом перед закрытыми системами: их можно специализировать под приватные кодобазы, кодируя информацию, специфичную для репозитория, непосредственно в их весах. Однако стоимость и сложность обучения до сих пор делали это преимущество теоретическим. Мы показываем, что теперь это практично. Мы представляем Soft-Verified Efficient Repository Agents (SERA) — эффективный метод обучения программирующих агентов, который позволяет быстро и дешево создавать агентов, специализированных под приватные кодобазы. Используя только контролируемое дообучение (SFT), SERA достигает наилучших результатов среди полностью открытых моделей (открытые данные, метод, код), соответствуя производительности передовых моделей с открытыми весами, таких как Devstral-Small-2. Создание моделей SERA в 26 раз дешевле, чем обучение с подкреплением, и в 57 раз дешевле, чем предыдущие методы с синтетическими данными, для достижения эквивалентной производительности. Наш метод, Soft Verified Generation (SVG), генерирует тысячи траекторий из одного репозитория кода. В сочетании с экономической эффективностью это позволяет специализироваться на приватных кодобазах. Помимо специализации на репозиториях, мы применяем SVG к более крупному корпусу кодобаз, генерируя более 200 000 синтетических траекторий. Мы используем этот набор данных для детального анализа законов масштабирования, проведения абляционных исследований и анализа смешивающих факторов при обучении программирующих агентов. В целом, мы считаем, что наша работа значительно ускорит исследования в области открытых программирующих агентов и продемонстрирует преимущество моделей с открытым исходным кодом, которые могут адаптироваться под приватные кодобазы. Мы выпускаем SERA как первую модель в серии Open Coding Agents от Ai2, вместе со всем нашим кодом, данными и интеграцией с Claude Code для поддержки научного сообщества.
Пространство задач, связанных с агностическим апсемплингом признаков, стало перспективной областью исследований, направленной на эффективное создание более плотных признаков из предварительно обученных визуальных моделей. Эти методы служат сокращённым путём для получения плотных признаков с гораздо меньшими затратами, обучаясь отображать низкоразрешенные признаки в их высокоразрешенные версии. В то время как ранние работы в этой области использовали итеративные подходы к апсемплингу, более поздние исследования перешли к методам на основе кросс-внимания, которые рискуют столкнуться с теми же проблемами масштабируемости эффективности, что и исходные модели, признаки которых они повышают. В данной работе мы показываем, что итеративные методы апсемплинга всё ещё могут конкурировать с методами на основе кросс-внимания; более того, они способны достигать передовых результатов при более низких вычислительных затратах на вывод. Мы предлагаем UPLiFT — архитектуру для Универсальных Пиксельно-плотных Облегчённых Преобразований Признаков. Также мы предлагаем эффективный оператор Локального Аттендера для преодоления ограничений предыдущих итеративных методов апсемплинга признаков. Этот оператор использует альтернативную формулировку аттеншн-пулинга, полностью определённую на локальной области. Мы демонстрируем, что наш Локальный Аттендер позволяет UPLiFT сохранять стабильность признаков на протяжении всего процесса апсемплинга, обеспечивая передовую производительность при более низких затратах на вывод по сравнению с существующими пиксельно-плотными апсемплерами признаков. Кроме того, мы применяем UPLiFT к генеративным задачам и показываем, что он достигает конкурентоспособных результатов с современными моделями Сопряжённого Согласования Потоков для апсемплинга признаков VAE. В целом, UPLiFT предлагает универсальный и эффективный подход к созданию более плотных признаков.
Несмотря на десятилетия исследований реверберирующей речи, сравнение методов остается затруднительным, поскольку большинство корпусов не имеют акустических аннотаций для каждого файла или предоставляют ограниченную документацию для воспроизведения. Мы представляем RIR-Mega-Speech — корпус объемом приблизительно 117,5 часов, созданный путем свертки высказываний из LibriSpeech с примерно 5000 смоделированных импульсных характеристик помещений из коллекции RIR-Mega. Каждый файл включает значения RT60, соотношения прямого и реверберирующего сигнала (DRR) и индекса разборчивости (C₅₀), вычисленные из исходной импульсной характеристики с использованием четко определенных, воспроизводимых процедур. Мы также предоставляем скрипты для повторного создания набора данных и воспроизведения всех оценочных результатов. Используя модель Whisper small на 1500 парных высказываниях, мы измерили WER в 5,20% (95% ДИ: 4,69–5,78) для чистой речи и 7,70% (7,04–8,35) для реверберирующих версий, что соответствует парному увеличению на 2,50 процентных пункта (2,06–2,98). Это представляет собой относительное ухудшение на 48%. WER монотонно возрастает с увеличением RT60 и уменьшается с ростом DRR, что согласуется с предыдущими перцептивными исследованиями. Хотя основной вывод о том, что реверберация ухудшает распознавание, хорошо установлен, мы стремимся предоставить сообществу стандартизированный ресурс, в котором акустические условия прозрачны, а результаты могут быть проверены независимо. Репозиторий включает инструкции по повторному сборке одной командой для сред Windows и Linux.
Мультимодальное обнаружение сарказма (MSD) направлено на выявление сарказма в парах "изображение-текст" путем моделирования семантических несоответствий между модальностями. Существующие методы часто используют рассогласование кросс-модальных эмбеддингов для обнаружения неконсистентности, но испытывают трудности, когда визуальный и текстовый контент слабо связаны или семантически опосредованы. В то время как современные подходы задействуют большие языковые модели (LLM) для генерации признаков сарказма, присущее разнообразие и субъективность этих генераций часто вносят шум. Для преодоления этих ограничений мы предлагаем Сеть Генеративного Сравнения Рассогласований (GDCNet). Данная архитектура фиксирует кросс-модальные конфликты, используя сгенерированные мультимодальными LLM (MLLM) описательные, фактически обоснованные подписи к изображениям в качестве стабильных семантических якорей. В частности, GDCNet вычисляет семантические и сентиментные расхождения между сгенерированным объективным описанием и исходным текстом, параллельно измеряя визуально-текстовую соответственность. Эти признаки рассогласования затем объединяются с визуальными и текстовыми представлениями через управляемый модуль для адаптивного балансирования вклада модальностей. Многочисленные эксперименты на бенчмарках MSD демонстрируют превосходную точность и устойчивость GDCNet, устанавливая новый state-of-the-art на бенчмарке MMSD2.0.
Обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) существенно улучшило способности крупных языковых моделей (LLM) к рассуждению, однако обучение часто останавливается по мере насыщения задач. Мы определяем ключевую проблему как плохую доступность информативных неудач: сигналы для обучения существуют, но редко встречаются при стандартных прогонах. Для решения этой проблемы мы предлагаем *обусловливание префиксами неудач* — простой и эффективный метод обучения на насыщенных задачах. Вместо того чтобы начинать с исходного вопроса, наш подход перераспределяет исследование, обусловливая обучение префиксами, полученными из редких некорректных траекторий рассуждений, тем самым exposing модель к состояниям, склонным к неудачам. Мы наблюдаем, что обусловливание префиксами неудач дает прирост производительности, сопоставимый с обучением на задачах средней сложности, при сохранении токенной эффективности. Кроме того, мы анализируем устойчивость модели и обнаруживаем, что наш метод снижает деградацию производительности при вводящих в заблуждение префиксах неудач, хотя и с умеренным компромиссом в части следования корректным ранним рассуждениям. Наконец, мы демонстрируем, что итеративный подход, обновляющий префиксы неудач в процессе обучения, позволяет получить дополнительный прирост после выхода производительности на плато. В целом, наши результаты позволяют предположить, что обусловливание префиксами неудач предлагает эффективный путь для продления RLVR-обучения на насыщенных задачах.
Автоматическое распознавание речи с атрибуцией говорящего (ASR) в условиях многопользовательской среды остается серьезной проблемой. Хотя некоторые подходы демонстрируют высокую производительность при дообучении на конкретных доменах, лишь немногие системы хорошо обобщаются на данные из других доменов. Наша предыдущая работа, Diarization-Conditioned Whisper (DiCoW), использует выходные данные диаризации речи в качестве кондиционирующей информации и, при минимальном дообучении, показала высокую производительность в многоязычных и многодоменных сценариях. В данной статье мы устраняем ключевое ограничение DiCoW: неоднозначность в масках "Тишина-Цель-Нецель-Перекрытие" (STNO), когда два или более полностью перекрывающихся говорящих могут иметь почти идентичные условия кондиционирования, несмотря на различающиеся транскрипции. Мы представляем SE-DiCoW (Self-Enrolled Diarization-Conditioned Whisper), который использует выход диаризации для локализации сегмента регистрации в любом месте разговора, где целевой говорящий наиболее активен. Этот сегмент регистрации используется в качестве фиксированного условия посредством кросс-внимания на каждом слое энкодера. Мы дополнительно улучшаем DiCoW за счет усовершенствованной сегментации данных, инициализации модели и аугментации. В совокупности эти усовершенствования приводят к значительному прогрессу: SE-DiCoW снижает макроусредненный tcpWER на 52.4% по сравнению с исходным DiCoW на бенчмарке EMMA MT-ASR.
Последние достижения в области логического вывода больших языковых моделей (LLM) все в большей степени определяются совершенствованием функций потерь после обучения и стратегий согласования. Однако стандартные парадигмы обучения с подкреплением (RL), такие как Group Relative Policy Optimization (GRPO), остаются ограниченными статической унификацией: единообразным сэмплированием промптов и фиксированным количеством прогонов (rollouts) на промпт. Для гетерогенных данных логического вывода с тяжелыми хвостами это создает структурные неэффективности, приводящие к растрате вычислительных ресурсов на уже решенные шаблоны при недостаточном обучении на длинном хвосте сложных задач. Для решения этой проблемы мы предлагаем Multi-Adversary Group Distributionally Robust Optimization (GDRO) — оптимизационную среду, которая выходит за рамки моделей с равномерным выводом за счет динамической адаптации распределения обучения. Мы представляем Онлайн-классификатор сложности, который разделяет промпты на динамические группы сложности pass@k. Затем мы предлагаем две независимые GDRO-игры для пост-обучения: (1) Prompt-GDRO, которая использует EMA-дебиазированный мультипликативно-взвешенный бандитский сэмплер для таргетирования интенсивной границы сложности и повышения веса устойчиво сложных групп без частотного смещения; и (2) Rollout-GDRO, которая использует контроллер теневых цен для перераспределения прогонов между группами, максимизируя снижение дисперсии градиента на сложных задачах при фиксированном среднем бюджете (вычислительно-нейтральном). Мы предоставляем гарантии отсутствия сожаления для обоих контроллеров, а также анализ прокси-дисперсии, обосновывающий квадратично-оптимальное распределение прогонов для Rollout-GDRO. Мы проверяем нашу среду на наборе данных DAPO 14.1k с использованием моделей Qwen3-Base. Prompt-GDRO и Rollout-GDRO демонстрируют средний относительный прирост +10,6% и +10,1% соответственно в точности pass@8 для масштабов 1,7B, 4B и 8B по сравнению с базовым GRPO. Качественный анализ показывает emergence учебного плана: адверсарии переносят ресурсы на развивающийся фронтир логического вывода, повышая производительность модели.
Для социально чувствительных задач, таких как обнаружение языка вражды, качество объяснений больших языковых моделей (LLM) крайне важно для таких факторов, как доверие пользователей и соответствие модели. Хотя prompting с использованием персон (Persona Prompting, PP) всё чаще применяется для направления модели в сторону пользовательской генерации, его влияние на обоснования моделей остаётся малоизученным. Мы исследуем, как варьируются обоснования, генерируемые LLM, при условии их настройки на различные симулированные демографические персоны. Используя наборы данных с аннотированными пословными обоснованиями, мы измеряем согласие с человеческими разметками от различных демографических групп и оцениваем влияние PP на смещение модели и соответствие человеческим оценкам. Наша оценка, проведенная на трёх LLM, выявила три ключевых результата: (1) PP улучшает классификацию в наиболее субъективной задаче (обнаружение языка вражды), но ухудшает качество обоснований. (2) Симитированные персоны не соответствуют своим реальным демографическим аналогам, а высокое межперсональное согласие показывает, что модели устойчивы к значительному управлению. (3) Модели демонстрируют устойчивые демографические смещения и сильную тенденцию к чрезмерному помечанию контента как вредоносного, независимо от PP. Наши результаты выявляют критический компромисс: хотя PP может улучшить классификацию в социально-чувствительных задачах, это часто достигается ценой качества обоснований и не позволяет смягчить базовые смещения, что требует осторожности в его применении.
Скетчинг предоставляет интуитивный способ передачи динамического замысла при создании анимации (т.е. того, как элементы изменяются во времени и пространстве), что делает его естественным средством для автоматического создания контента. Однако существующие подходы часто ограничивают эскизы фиксированными командными токенами или предопределенными визуальными формами, упуская из виду их свободную природу и центральную роль человека в формировании замысла. Чтобы решить эту проблему, мы представляем парадигму взаимодействия, в которой пользователи передают динамический замысел модели «визуальный вход-текст» посредством свободного скетчинга, реализованную здесь в виде рабочего процесса от раскадровки к моушн-графике. Мы разрабатываем интерфейс и улучшаем его в ходе трехэтапного исследования с участием 24 человек. Исследование показывает, как эскизы передают движение с минимальными затратами, как их присущая неоднозначность требует вовлечения пользователей для уточнения и как эскизы могут визуально направлять процесс доработки видео. Наши результаты раскрывают потенциал взаимодействия скетчей и ИИ для преодоления разрыва между замыслом и результатом и демонстрируют его применимость для 3D-анимации и генерации видео.
Растущая потребность в развертывании робототехнических систем реального времени требует быстрого и выполняемого на устройстве вывода для моделей «зрение-язык-действие» (VLA). В литературе по VLA эффективность широко изучалась на уровне токенов, например, путем прореживания визуальных токенов. В отличие от этого, систематическое сокращение количества трансформаторных слоев получило ограниченное внимание и, насколько нам известно, не исследовалось для потоковых VLA-моделей в контексте дистилляции знаний. В данной работе мы предлагаем Shallow-pi — принципиальную структуру дистилляции знаний, которая агрессивно сокращает глубину трансформатора как в базовой VLM-архитектуре, так и в потоковом модуле действий, сжимая модель с 18 до 6 слоев. Shallow-pi обеспечивает более чем двукратное ускорение вывода с падением абсолютной точности менее чем на один процент в стандартных тестах на манипуляцию, устанавливая наилучшие показатели среди сокращенных VLA-моделей. Ключевым моментом является то, что мы проверяем наш подход в ходе экспериментов в промышленных масштабах в реальных условиях на Jetson Orin и Jetson Thor для различных роботизированных платформ, включая гуманоидные системы, в сложных и динамичных сценариях манипулирования.