Ежедневно отобранные исследовательские статьи по ИИ с переводами
Методы интерпретируемости в последнее время привлекают значительное внимание, особенно в контексте крупных языковых моделей, позволяя получить представление о лингвистических представлениях, обнаружении ошибок и поведении моделей, таких как галлюцинации и повторения. Однако эти методы остаются недостаточно изученными в области автоматического распознавания речи (ASR), несмотря на их потенциал для улучшения как производительности, так и интерпретируемости систем ASR. В данной работе мы адаптируем и систематически применяем устоявшиеся методы интерпретируемости, такие как logit lens, линейное зондирование и активационное патчинг, чтобы исследовать, как акустическая и семантическая информация развивается по слоям в системах ASR. Наши эксперименты выявляют ранее неизвестные внутренние динамики, включая специфические взаимодействия между кодировщиком и декодировщиком, ответственные за повторяющиеся галлюцинации и семантические смещения, закодированные глубоко в акустических представлениях. Эти инсайты демонстрируют преимущества расширения и применения методов интерпретируемости к распознаванию речи, открывая перспективные направления для будущих исследований по улучшению прозрачности и устойчивости моделей.
Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), часто страдают от визуальных галлюцинаций, когда они говорят о том, чего на самом деле нет на изображении, и языковых сокращений, когда они пропускают визуальную часть и полагаются только на текстовые априорные данные. Эти проблемы возникают из-за того, что большинство методов пост-обучения для VLMs основываются на простом сопоставлении проверяемых ответов и контролируют только конечные выходы, оставляя промежуточное визуальное рассуждение без явного руководства. В результате VLMs получают скудные визуальные сигналы и часто учатся отдавать приоритет языковому рассуждению перед визуальным восприятием. Чтобы смягчить это, некоторые существующие методы добавляют визуальный контроль с использованием аннотаций, созданных людьми, или дистиллированных меток от внешних крупных моделей. Однако аннотации, созданные людьми, требуют больших трудозатрат и дорогостоящи, а внешние сигналы не могут адаптироваться к изменяющейся политике, что вызывает сдвиги в распределении, которые могут привести к "взлому наград". В данной статье мы представляем Vision-SR1, метод самонаграждения, который улучшает визуальное рассуждение без использования внешнего визуального контроля с помощью обучения с подкреплением. Vision-SR1 разбивает рассуждение VLM на два этапа: визуальное восприятие и языковое рассуждение. Сначала модель побуждается создавать самодостаточные визуальные восприятия, которые достаточны для ответа на вопрос без обращения к исходному изображению. Чтобы проверить эту самодостаточность, та же модель VLM затем повторно побуждается выполнить языковое рассуждение, используя только сгенерированное восприятие в качестве входных данных для вычисления награды. Эта самонаграда сочетается с контролем над конечными выходными данными, обеспечивая сбалансированный сигнал обучения, который укрепляет как визуальное восприятие, так и языковое рассуждение. Наши эксперименты показывают, что Vision-SR1 улучшает визуальное рассуждение, смягчает визуальные галлюцинации и снижает зависимость от языковых сокращений в различных задачах, связанных с зрением и языком.
Автономные агенты для графических пользовательских интерфейсов (GUI) сталкиваются с серьезными вызовами в специализированных областях, таких как научные вычисления, где требуются как долгосрочное планирование, так и точное выполнение задач. Существующие подходы страдают от компромисса: универсальные агенты преуспевают в планировании, но плохо справляются с выполнением, тогда как специализированные агенты демонстрируют противоположную слабость. Современные композиционные фреймворки пытаются устранить этот разрыв, объединяя планировщик и исполнителя, но они, как правило, статичны и не поддаются обучению, что препятствует адаптации на основе опыта. Это является критическим ограничением, учитывая недостаток высококачественных данных в научных областях. Для решения этих проблем мы представляем CODA — новый обучаемый композиционный фреймворк, который интегрирует универсальный планировщик (Cerebrum) со специализированным исполнителем (Cerebellum), обучаемым через двухэтапный процесс. На первом этапе, Специализация, мы применяем подход GRPO с разделением для обучения эксперта-планировщика для каждого научного приложения отдельно, используя небольшой набор траекторий задач в качестве начальной точки. На втором этапе, Обобщение, мы объединяем все успешные траектории от специализированных экспертов для создания консолидированного набора данных, который затем используется для контролируемого тонкого обучения финального планировщика. Это наделяет CODA как надежным выполнением, так и кросс-доменным обобщением. Оценка на четырех сложных приложениях из бенчмарка ScienceBoard показывает, что CODA значительно превосходит базовые подходы и устанавливает новый уровень среди моделей с открытым исходным кодом.
В последнее время генерация интерактивных видео с цифровыми людьми привлекает широкое внимание и демонстрирует значительный прогресс. Однако создание практической системы, способной взаимодействовать с разнообразными входными сигналами в реальном времени, остается сложной задачей для существующих методов, которые часто сталкиваются с высокой задержкой, значительными вычислительными затратами и ограниченной управляемостью. В данной работе мы представляем авторегрессивную структуру генерации видео, которая обеспечивает интерактивное мультимодальное управление и низкозадержную экстраполяцию в потоковом режиме. С минимальными изменениями стандартной модели большого языка (LLM) наша структура принимает мультимодальные кодировки условий, включая аудио, позы и текст, и выводит пространственно и семантически согласованные представления для управления процессом удаления шума в диффузионной головке. Для поддержки этого мы создали крупномасштабный набор данных диалогов объемом около 20 000 часов из различных источников, предоставляющий богатые сценарии для обучения. Мы также представляем глубокий компрессионный автокодировщик с коэффициентом сжатия до 64 раз, что эффективно снижает нагрузку на долгосрочный вывод авторегрессивной модели. Многочисленные эксперименты в области дуплексных диалогов, многоязычного синтеза человека и интерактивной модели мира подчеркивают преимущества нашего подхода в низкой задержке, высокой эффективности и детализированной мультимодальной управляемости.
Модели Vision-Language-Action (VLA) адаптируют крупные архитектуры для обработки визуальных и языковых данных, чтобы преобразовывать изображения и инструкции в действия робота. Однако преобладающие декодеры VLA либо генерируют действия авторегрессивно в фиксированном порядке слева направо, либо используют непрерывные диффузионные или flow matching головы за пределами основной архитектуры, что требует специализированного обучения и итеративной выборки, что препятствует созданию унифицированной и масштабируемой архитектуры. Мы представляем Discrete Diffusion VLA — единую трансформерную политику, которая моделирует дискретизированные фрагменты действий с помощью дискретной диффузии и обучается с тем же кросс-энтропийным целевым функционалом, что и базовая VLM архитектура. Этот подход сохраняет парадигму прогрессивного уточнения, характерную для диффузии, оставаясь при этом совместимым с интерфейсом дискретных токенов VLM. Наш метод обеспечивает адаптивный порядок декодирования, который сначала разрешает простые элементы действий, а затем более сложные, и использует вторичное повторное маскирование для пересмотра неопределенных предсказаний на этапах уточнения, что улучшает согласованность и позволяет эффективно исправлять ошибки. Этот унифицированный декодер сохраняет предварительно обученные приоритеты для визуальных и языковых данных, поддерживает параллельное декодирование, устраняет авторегрессивное узкое место и сокращает количество вычислений функций. Discrete Diffusion VLA достигает 96,3% среднего SR на LIBERO, 71,2% визуального соответствия на SimplerEnv Fractal и 49,3% общего результата на SimplerEnv Bridge, превосходя как авторегрессивные, так и непрерывные диффузионные базовые модели. Эти результаты показывают, что декодер действий на основе дискретной диффузии поддерживает точное моделирование действий и согласованное обучение, закладывая основу для масштабирования VLA на более крупные модели и наборы данных.
Недавние исследования показали, что метод "Цепочки рассуждений" (Chain-of-Thought, CoT) часто приносит ограниченные улучшения в задачах, требующих мягкого рассуждения, таких как аналитическое и здравомыслящее рассуждение. Кроме того, CoT может быть несоответствующим фактическому процессу рассуждения модели. Мы исследуем динамику и достоверность CoT в задачах мягкого рассуждения на моделях, настроенных на инструкции, специализированных на рассуждениях и дистиллированных для рассуждений. Наши результаты выявляют различия в том, как эти модели используют CoT, и показывают, что влияние CoT и его достоверность не всегда согласованы.
Последние достижения в области генерации текста в аудио (TTA) преуспевают в синтезе коротких аудиоклипов, но сталкиваются с трудностями при создании длинных повествовательных аудио, которые требуют временной согласованности и композиционного мышления. Чтобы устранить этот пробел, мы предлагаем AudioStory, унифицированную платформу, которая интегрирует большие языковые модели (LLM) с системами TTA для создания структурированных длинных аудиоповествований. AudioStory обладает мощными возможностями генерации с учетом инструкций. Она использует LLM для декомпозиции сложных повествовательных запросов на временно упорядоченные подзадачи с контекстными подсказками, обеспечивая согласованные переходы между сценами и сохранение эмоционального тона. AudioStory имеет две привлекательные особенности: (1) Разделенный механизм связывания: AudioStory разделяет взаимодействие LLM и диффузора на два специализированных компонента, а именно запрос на семантическое согласование внутри событий и остаточный запрос для сохранения согласованности между событиями. (2) Сквозное обучение: Объединяя понимание инструкций и генерацию аудио в рамках единой сквозной платформы, AudioStory устраняет необходимость в модульных обучающих конвейерах, одновременно усиливая синергию между компонентами. Кроме того, мы создали эталонный набор данных AudioStory-10K, охватывающий различные области, такие как анимированные звуковые ландшафты и повествования с естественными звуками. Многочисленные эксперименты демонстрируют превосходство AudioStory как в генерации отдельных аудио, так и в создании повествовательных аудио, превосходя предыдущие базовые модели TTA как в способности следовать инструкциям, так и в качестве звучания. Наш код доступен по адресу https://github.com/TencentARC/AudioStory.
Диффузионные языковые модели (DLM) недавно появились как альтернатива авторегрессивным подходам, предлагая параллельную генерацию последовательностей и гибкий порядок токенов. Однако их вывод остается медленнее, чем у авторегрессивных моделей, в основном из-за затрат на двунаправленное внимание и большого количества шагов уточнения, необходимых для получения высококачественных результатов. В данной работе мы выделяем и используем недооцененное свойство DLM — раннюю сходимость ответов: во многих случаях правильный ответ может быть внутренне идентифицирован на половине шагов до финального декодирования, как при полуавторегрессивных, так и при случайных схемах повторного маскирования. Например, на GSM8K и MMLU до 97% и 99% примеров соответственно могут быть декодированы корректно, используя только половину шагов уточнения. Основываясь на этом наблюдении, мы представляем Prophet — бесплатный быстрый метод декодирования, который позволяет реализовать раннее декодирование. В частности, Prophet динамически решает, продолжать ли уточнение или перейти к «полному декодированию» (т.е. декодировать все оставшиеся токены за один шаг), используя разрыв уверенности между двумя лучшими кандидатами на предсказание в качестве критерия. Он легко интегрируется в существующие реализации DLM, требует минимальных накладных расходов и не нуждается в дополнительном обучении. Эмпирические оценки LLaDA-8B и Dream-7B на множестве задач показывают, что Prophet сокращает количество шагов декодирования до 3,4 раз при сохранении высокого качества генерации. Эти результаты переосмысливают декодирование DLM как проблему определения момента остановки выборки и демонстрируют, что ранняя сходимость декодирования предоставляет простой, но мощный механизм для ускорения вывода DLM, дополняя существующие методы ускорения. Наш код доступен публично по адресу https://github.com/pixeli99/Prophet.
Метод Multi-Token Prediction (MTP) был предложен в качестве вспомогательной задачи для улучшения предсказания следующего токена (NTP) при обучении языковых моделей, однако он демонстрирует неоднозначные результаты и уступает в стандартных NLP-бенчмарках. Мы утверждаем, что точное предсказание будущих токенов в MTP является слишком сложной задачей для вспомогательной функции потерь. Вместо этого мы предлагаем Token Order Prediction (TOP), который обучает модели упорядочивать предстоящие токены по их близости, используя функцию потерь, основанную на обучении ранжированию. TOP требует только одного дополнительного слоя для преобразования токенов в сравнении с несколькими трансформерными слоями в MTP. Мы предобучаем модели с 340 млн, 1,8 млрд и 7 млрд параметров, используя задачи NTP, MTP и TOP. Результаты на восьми стандартных NLP-бенчмарках показывают, что TOP в целом превосходит как NTP, так и MTP, даже в масштабе. Наш код доступен по адресу https://github.com/zaydzuhri/token-order-prediction.
По мере того как модели всё чаще используют многошаговые стратегии рассуждений для решения сложных задач, контроль логической корректности этих промежуточных шагов становится важной исследовательской проблемой. Модели пошагового вознаграждения решают эту задачу, предоставляя обратную связь на каждом этапе, но текущие подходы имеют два основных недостатка: они обычно функционируют как классификаторы, не предоставляя объяснений, и их зависимость от контролируемой тонкой настройки на статических наборах данных ограничивает обобщаемость. Вдохновлённые последними достижениями, мы переосмысливаем моделирование пошагового вознаграждения, превращая его из задачи классификации в задачу рассуждения. Мы предлагаем генеративного судью, который анализирует шаги рассуждений модели политики (т.е., мета-рассуждения), выводя промежуточные токены мышления перед вынесением окончательного вердикта. Наша модель, StepWiser, обучается с использованием обучения с подкреплением на основе относительных результатов прогонов. Мы показываем, что она обеспечивает (i) более высокую точность оценки промежуточных шагов по сравнению с существующими методами; (ii) может использоваться для улучшения модели политики во время обучения; и (iii) улучшает поиск на этапе вывода.
Прогресс в области дистанционной фотоплетизмографии (rPPG) ограничен ключевыми проблемами существующих общедоступных наборов данных: их небольшой размер, проблемы конфиденциальности, связанные с видеозаписями лиц, и отсутствие разнообразия условий. В данной статье представлен новый комплексный крупномасштабный набор данных с многокамерной видеосъемкой для rPPG и оценки биомаркеров здоровья. Наш набор данных включает 3600 синхронизированных видеозаписей от 600 испытуемых, сделанных в различных условиях (в состоянии покоя и после физической нагрузки) с использованием нескольких потребительских камер под разными углами. Для обеспечения многомодального анализа физиологических состояний каждая запись сопровождается сигналом PPG с частотой 100 Гц и расширенными метриками здоровья, такими как электрокардиограмма, артериальное давление, биомаркеры, температура, насыщение кислородом, частота дыхания и уровень стресса. Используя эти данные, мы обучаем эффективную модель rPPG и сравниваем её качество с существующими подходами в кросс-датасетных сценариях. Публичный выпуск нашего набора данных и модели должен значительно ускорить прогресс в разработке медицинских ассистентов на основе ИИ.
Смартфоны предоставляют пользователям значительные удобства, но также позволяют устройствам активно записывать различные типы личной информации. Существующие смартфонные агенты, основанные на мультимодальных больших языковых моделях (MLLM), достигли впечатляющих результатов в автоматизации различных задач. Однако, как следствие, этим агентам предоставляется значительный доступ к конфиденциальной личной информации пользователей в процессе работы. Чтобы получить глубокое понимание осведомленности о конфиденциальности этих агентов, мы представляем первый крупномасштабный бенчмарк, охватывающий 7 138 сценариев, насколько нам известно. Кроме того, для контекста конфиденциальности в сценариях мы аннотируем его тип (например, учетные данные), уровень чувствительности и местоположение. Затем мы тщательно тестируем семь доступных популярных смартфонных агентов. Наши результаты показывают, что почти все протестированные агенты демонстрируют неудовлетворительную осведомленность о конфиденциальности (RA), с производительностью ниже 60% даже при наличии явных подсказок. В целом, закрытые агенты показывают лучшие способности в области конфиденциальности, чем открытые, и Gemini 2.0-flash достигает наилучшего результата с RA 67%. Мы также обнаружили, что способность агентов обнаруживать конфиденциальность сильно связана с уровнем чувствительности сценария, то есть сценарии с более высоким уровнем чувствительности, как правило, легче идентифицировать. Мы надеемся, что эти результаты вдохновят исследовательское сообщество на переосмысление несбалансированного компромисса между полезностью и конфиденциальностью в отношении смартфонных агентов. Наш код и бенчмарк доступны по адресу https://zhixin-l.github.io/SAPA-Bench.
Оценка того, насколько последовательно модели, работающие с визуальными и языковыми данными (VLMs), рассуждают в различных представлениях, является сложной задачей, поскольку сравнение модальностей обычно осложняется различиями в задачах и асимметрией информации. Мы представляем SEAM — эталонный набор данных, который объединяет семантически эквивалентные входные данные в четырех областях, где существуют стандартизированные текстовые и визуальные обозначения. Используя различные системы обозначений для разных модальностей, в отличие от пар изображение-текст, основанных на OCR, SEAM обеспечивает строгую сравнительную оценку текстово-символических и визуально-пространственных способностей VLMs. На примере 21 современной модели мы наблюдаем систематический дисбаланс модальностей: визуальное восприятие часто отстает от языкового по общей производительности, несмотря на то, что задачи содержат семантически эквивалентную информацию, а согласованность между модальностями относительно низка. Наш анализ ошибок выявляет две основные причины: сбои в восприятии текста из-за токенизации в обозначениях области и сбои в визуальном восприятии, вызывающие галлюцинации. Мы также показываем, что наши результаты в значительной степени устойчивы к визуальным преобразованиям. SEAM создает контролируемую, семантически эквивалентную среду для измерения и улучшения модально-независимого рассуждения.
Генерация движений играет ключевую роль в анимации виртуальных персонажей и воплощённых агентов. Хотя современные методы, основанные на текстовых описаниях, достигли значительных успехов, они часто сталкиваются с трудностями в достижении точного соответствия между лингвистическими описаниями и семантикой движений, а также с неэффективностью медленного, многошагового вывода. Для решения этих проблем мы представляем TMR++ Aligned Preference Optimization (TAPO) — инновационную структуру, которая согласует тонкие вариации движений с текстовыми модификаторами и включает итеративные корректировки для усиления семантической привязки. Чтобы дополнительно обеспечить синтез в реальном времени, мы предлагаем MotionFLUX — высокоскоростную структуру генерации, основанную на детерминированном согласованном потоке. В отличие от традиционных диффузионных моделей, требующих сотен шагов удаления шума, MotionFLUX строит оптимальные транспортные пути между распределениями шума и пространствами движений, что способствует синтезу в реальном времени. Линеаризованные вероятностные пути снижают необходимость в многошаговой выборке, характерной для последовательных методов, значительно ускоряя время вывода без ущерба для качества движений. Экспериментальные результаты показывают, что вместе TAPO и MotionFLUX образуют единую систему, превосходящую современные подходы как по семантической согласованности, так и по качеству движений, одновременно ускоряя скорость генерации. Код и предобученные модели будут опубликованы.
Способность исследовать и синтезировать знания является ключевой для человеческого мастерства и прогресса. Новый класс систем обещает реализовать эти захватывающие возможности через генеративный синтез исследований, выполняя поиск в реальном времени в интернете и объединяя найденные источники в длинные, цитируемые обзоры. Однако оценка таких систем остается открытой проблемой: существующие тесты для вопросно-ответных систем сосредоточены на кратких фактологических ответах, в то время как экспертно-курируемые наборы данных рискуют устареть и подвергнуться загрязнению данных. Оба подхода не учитывают сложность и изменчивый характер реальных задач синтеза исследований. В данной работе мы представляем DeepScholar-bench — живой тест и целостную автоматизированную систему оценки, предназначенную для оценки генеративного синтеза исследований. DeepScholar-bench берет запросы из недавних высококачественных статей на ArXiv и фокусируется на реальной задаче синтеза исследований: создании разделов "Связанные работы" статьи путем поиска, синтеза и цитирования предыдущих исследований. Наша система оценки целостно оценивает производительность по трем ключевым направлениям: синтез знаний, качество поиска и проверяемость. Мы также разрабатываем DeepScholar-base — эталонный конвейер, эффективно реализованный с использованием API LOTUS. Используя систему DeepScholar-bench, мы проводим систематическую оценку предыдущих открытых систем, поисковых ИИ, OpenAI DeepResearch и DeepScholar-base. Мы обнаруживаем, что DeepScholar-base устанавливает сильный базовый уровень, достигая конкурентоспособной или более высокой производительности, чем каждый из других методов. Мы также обнаруживаем, что DeepScholar-bench далек от насыщения, ни одна система не превышает 19% по всем метрикам. Эти результаты подчеркивают сложность DeepScholar-bench, а также его важность для прогресса в направлении ИИ-систем, способных к генеративному синтезу исследований. Мы делаем наш код доступным по адресу https://github.com/guestrin-lab/deepscholar-bench.
Обслуживание больших языковых моделей (LLM) — это задача, требующая значительных ресурсов GPU, с которой традиционные системы автоматического масштабирования справляются плохо, особенно в контексте современных архитектур с разделением на этапы Prefill-Decode (P/D). Этот архитектурный сдвиг, несмотря на свою мощь, вносит серьезные операционные сложности, включая неэффективное использование гетерогенного оборудования, сетевые узкие места и критический дисбаланс между этапами предварительного заполнения (prefill) и декодирования (decode). Мы представляем HeteroScale — скоординированную систему автоматического масштабирования, которая решает ключевые проблемы обслуживания в архитектурах с разделением P/D. HeteroScale сочетает в себе планировщик, учитывающий топологию и адаптирующийся к ограничениям гетерогенного оборудования и сети, с новой метрической политикой, разработанной на основе первого крупномасштабного эмпирического исследования сигналов автоматического масштабирования в производственной среде. Используя единую надежную метрику для совместного масштабирования пулов prefill и decode, HeteroScale поддерживает архитектурный баланс, обеспечивая при этом эффективное и адаптивное управление ресурсами. Развернутая в крупномасштабной производственной среде на десятках тысяч GPU, HeteroScale доказала свою эффективность, увеличив среднюю загрузку GPU на значительные 26,6 процентных пункта и сэкономив сотни тысяч GPU-часов ежедневно, при этом строго соблюдая целевые показатели уровня обслуживания.
Фундаментальные модели для моделирования материалов быстро развиваются, но их обучение остается дорогостоящим, что часто делает передовые методы недоступными для многих исследовательских групп. Мы представляем Nequix — компактный E(3)-эквивариантный потенциал, который сочетает упрощенный дизайн NequIP с современными практиками обучения, включая эквивариантную нормализацию слоев по среднеквадратичному отклонению и оптимизатор Muon, чтобы сохранить точность при значительном снижении вычислительных затрат. Разработанный на основе JAX, Nequix содержит 700 тысяч параметров и был обучен за 500 часов на GPU A100. На тестах Matbench-Discovery и MDR Phonon Nequix занимает третье место в общем рейтинге, при этом требуя менее четверти затрат на обучение по сравнению с большинством других методов, и обеспечивает скорость вывода на порядок быстрее, чем текущая модель, занимающая первое место. Мы публикуем веса модели и полностью воспроизводимую кодовую базу по адресу https://github.com/atomicarchitects/nequix.
В данной статье выявляется и анализируется новый класс уязвимостей в системах агентов, основанных на протоколе Model Context Protocol (MCP). Описывается и демонстрируется цепочка атак, показывающая, как безобидные, индивидуально авторизованные задачи могут быть организованы для создания вредоносных эмерджентных поведений. С помощью систематического анализа с использованием фреймворка MITRE ATLAS мы демонстрируем, как 95 агентов, имеющих доступ к нескольким сервисам, включая автоматизацию браузера, финансовый анализ, отслеживание местоположения и развертывание кода, могут объединять легитимные операции в сложные последовательности атак, выходящие за пределы границ безопасности любого отдельного сервиса. Эти упражнения "красной команды" исследуют, отсутствуют ли в текущих архитектурах MCP междоменные меры безопасности, необходимые для обнаружения или предотвращения широкого класса композиционных атак. Мы представляем эмпирические доказательства конкретных цепочек атак, которые достигают целевого вреда через оркестрацию сервисов, включая утечку данных, манипуляции с финансами и компрометацию инфраструктуры. Эти результаты показывают, что фундаментальное предположение безопасности об изоляции сервисов не работает, когда агенты могут координировать действия в нескольких доменах, создавая экспоненциально растущую поверхность атаки с каждым дополнительным функционалом. Это исследование предоставляет базовый экспериментальный фреймворк, который оценивает не то, могут ли агенты выполнять задачи из бенчмарка MCP, а то, что происходит, когда они выполняют их слишком хорошо и оптимизируют действия в нескольких сервисах способами, нарушающими человеческие ожидания и ограничения безопасности. Мы предлагаем три конкретных направления экспериментов с использованием существующего набора бенчмарков MCP.