Ежедневно отобранные исследовательские статьи по ИИ с переводами
Подготовка данных направлена на очистку исходных наборов данных от шума, выявление межнаборовых взаимосвязей и извлечение из них ценной информации, что крайне важно для широкого спектра данныхо-ориентированных приложений. Стимулируемая (i) растущим спросом на данные, готовые к использованию в приложениях (например, для аналитики, визуализации, принятия решений), (ii) все более мощными методами LLM и (iii) появлением инфраструктур, облегчающих гибкое построение агентов (например, с использованием Databricks Unity Catalog), методы, усиленные LLM, быстро становятся трансформационной и потенциально доминирующей парадигмой для подготовки данных. На основе анализа сотен недавних публикаций, данная статья представляет систематический обзор этой развивающейся области, фокусируясь на использовании методов LLM для подготовки данных к разнообразным последующим задачам. Во-первых, мы характеризуем фундаментальный сдвиг парадигмы — от основанных на правилах, специфичных для модели конвейеров к промпт-управляемым, контекстно-осведомленным и агентским рабочим процессам подготовки. Далее мы вводим задаче-ориентированную таксономию, которая организует область на три основные задачи: очистка данных (например, стандартизация, обработка ошибок, импутация), интеграция данных (например, сопоставление сущностей, сопоставление схем) и обогащение данных (например, аннотирование данных, профилирование). Для каждой задачи мы рассматриваем репрезентативные методы и выделяем их соответствующие преимущества (например, улучшенная обобщающая способность, семантическое понимание) и ограничения (например, запретительная стоимость масштабирования LLM, сохраняющиеся галлюцинации даже у продвинутых агентов, несоответствие между передовыми методами и слабой оценкой). Кроме того, мы анализируем широко используемые наборы данных и метрики оценки (эмпирическая часть). Наконец, мы обсуждаем открытые исследовательские проблемы и намечаем перспективную дорожную карту, подчеркивающую масштабируемые LLM-данные системы, принципиальные проекты для надежных агентских рабочих процессов и robustные протоколы оценки.
В последнее время фокус возможностей больших языковых моделей (LLM) сместился с однократной генерации кода на агентскую разработку программного обеспечения — парадигму, в рамках которой модели автономно навигируют, редактируют и тестируют сложные репозитории. Хотя посттренировочные методы стали де-факто стандартом для код-агентов, **агентская мид-тренировка** — мид-тренировка (MT) на масштабных данных, имитирующих реальные агентские workflow, — остаётся критически малоизученной из-за значительных ресурсных затрат, несмотря на то, что предлагает более масштабируемый путь к закладке фундаментальных агентских поведений по сравнению с опорой исключительно на дорогостоящее обучение с подкреплением. Ключевой проблемой для реализации эффективной агентской мид-тренировки является несоответствие распределений между статичными тренировочными данными и динамичной, богатой обратной связью средой реальной разработки. Чтобы решить эту проблему, мы представляем систематическое исследование агентской мид-тренировки, устанавливая как принципы синтеза данных, так и методологию обучения для эффективного развития агентов в масштабе. Центральным элементом нашего подхода являются **агент-нативные данные** — супервизия, состоящая из двух взаимодополняющих типов траекторий: **контекстуально-нативных траекторий**, которые сохраняют полный поток информации, воспринимаемый агентом, обеспечивая широкое покрытие и разнообразие; и **средово-нативных траекторий**, собранных из исполняемых репозиториев, где наблюдения проистекают из реальных вызовов инструментов и запусков тестов, что обеспечивает глубину и аутентичность взаимодействия. Мы проверяем агентские способности модели на `SWE-Bench Verified`. Мы демонстрируем наше превосходство над предыдущим открытым рецептом мид-тренировки для разработки ПО `Kimi-Dev` в двух посттренировочных конфигурациях с выровненной базовой моделью и агентским каркасом, при этом используя менее половины токенов мид-тренировки (73,1 млрд). Помимо относительного преимущества, наши лучшие модели на 32B и 72B параметров достигают показателей успешного разрешения задач в **56,1%** и **58,5%** соответственно, что является ...
Последние достижения в области генерации видео позволили создать модели, способные синтезировать впечатляющий визуальный контент по простым текстовым запросам. Однако эти модели испытывают трудности с созданием длинных, связных повествований на основе высокоуровневых концепций, таких как диалоги, что выявляет «семантический разрыв» между творческой идеей и её кинематографическим воплощением. Чтобы преодолеть этот разрыв, мы представляем новую сквозную агентскую систему для генерации видео по диалогам. Ключевым элементом нашей системы является ScripterAgent — модель, обученная преобразовывать общий диалог в детализированный, исполняемый кинематографический сценарий. Для этого мы создали ScriptBench, новый масштабный бенчмарк с богатым мультимодальным контекстом, размеченный с помощью экспертно-управляемого пайплайна. Сгенерированный сценарий затем направляет DirectorAgent, который оркестрирует передовые видео-модели, используя стратегию непрерывной генерации между сценами для обеспечения долгосрочной связности. Наше комплексное оценивание, включающее AI-агент CriticAgent и новую метрику визуально-сценарного соответствия (Visual-Script Alignment, VSA), показывает, что наша система значительно повышает верность сценарию и временную целостность для всех протестированных видео-моделей. Кроме того, наш анализ выявляет ключевой компромисс в современных передовых моделях между визуальной зрелищностью и строгим следованием сценарию, что даёт ценные инсайты для будущего автоматизированного кинопроизводства.
Хотя синтетические данные доказали свою эффективность для улучшения научных рассуждений в текстовой сфере, мультимодальные рассуждения по-прежнему ограничены сложностью синтеза научно строгих изображений. Существующие модели преобразования текста в изображение (T2I) часто выдают визуально правдоподобные, но научно некорректные результаты, что приводит к устойчивому расхождению между визуальной составляющей и логикой, ограничивающему их ценность для последующих рассуждений. Мотивированные недавними достижениями в моделях T2I нового поколения, мы проводим систематическое исследование синтеза научных изображений, охватывающее парадигмы генерации, оценку и последующее использование. Мы анализируем как прямую генерацию на основе пикселей, так и программный синтез, и предлагаем ImgCoder — логически управляемую структуру, которая следует явному рабочему процессу «понять — спланировать — запрограммировать» для повышения структурной точности. Для строгой оценки научной корректности мы представляем SciGenBench, который оценивает сгенерированные изображения на основе информационной полезности и логической достоверности. Наша оценка выявляет систематические режимы сбоев в пиксельных моделях и подчеркивает фундаментальный компромисс между выразительностью и точностью. Наконец, мы показываем, что дообучение больших мультимодальных моделей (LMM) на тщательно проверенных синтетических научных изображениях приводит к устойчивому улучшению рассуждений, с потенциальными тенденциями масштабирования, аналогичными текстовой области, что подтверждает высокоточный научный синтез как жизнеспособный путь к раскрытию массовых мультимодальных способностей к рассуждению.
Может ли модель научиться преодолевать собственное плато обучения? Методы обучения с подкреплением для тонкой настройки крупных моделей рассуждений заходят в тупик на наборах данных с низкими начальными показателями успеха и, следовательно, малым обучающим сигналом. Мы исследуем фундаментальный вопрос: Может ли предобученная большая языковая модель использовать скрытые знания для генерации автоматизированного учебного плана для задач, которые она не может решить? Чтобы изучить это, мы разработали SOAR: структуру для самосовершенствования, предназначенную для выявления этих педагогических сигналов с помощью мета-обучения с подкреплением. Учительская копия модели предлагает синтетические задачи для ученической копии и получает вознаграждение за ее улучшение на небольшом подмножестве сложных проблем. Ключевым моментом является то, что SOAR основывает учебный план на измеряемом прогрессе ученика, а не на внутренних косвенных вознаграждениях. Наше исследование на самых сложных подмножествах математических бенчмарков (успех 0/128) выявляет три основных результата. Во-первых, мы показываем, что возможно реализовать двухуровневое мета-обучение с подкреплением, которое открывает обучение при разреженных бинарных вознаграждениях, за счет обострения скрытой способности предобученных моделей генерировать полезные промежуточные шаги. Во-вторых, обоснованные вознаграждения превосходят схемы с внутренними вознаграждениями, использовавшиеся в предыдущих работах по самосовершенствованию LLM, надежно избегая нестабильности и коллапса разнообразия, которые для них типичны. В-третьих, анализ сгенерированных вопросов показывает, что структурное качество и корректность постановки задачи более критичны для прогресса в обучении, чем правильность решения. Наши результаты позволяют предположить, что способность генерировать полезные промежуточные шаги не требует изначальной возможности фактически решать сложные задачи, прокладывая принципиальный путь для преодоления плато в рассуждениях без привлечения дополнительных курируемых данных.
Квадратичная сложность стандартных механизмов внимания создает серьезное ограничение масштабируемости для больших языковых моделей (LLM) в сценариях с длинным контекстом. Хотя гибридные стратегии внимания, сочетающие разреженное и полное внимание в рамках одной модели, предлагают жизнеспособное решение, они обычно используют статические коэффициенты вычислений (т.е. фиксированные пропорции разреженного и полного внимания) и не адаптируются к различной чувствительности к разреженности downstream-задач во время вывода. Для решения этой проблемы мы предлагаем Elastic Attention — метод, позволяющий модели динамически регулировать общую разреженность на основе входных данных. Это достигается за счет интеграции легковесного Маршрутизатора Внимания в предварительно обученную модель, который динамически назначает каждому голову внимания различные вычислительные режимы. Всего за 12 часов обучения на 8 GPU A800 наш метод позволяет моделям достигать как высокой производительности, так и эффективного вывода. Эксперименты на трех бенчмарках с длинным контекстом для широко используемых LLM демонстрируют превосходство нашего метода.
Современная область генерации изображений разделена на авторегрессионные (AR) модели, работающие с дискретными токенами, и диффузионные модели, использующие непрерывные латентные переменные. Этот раскол, уходящий корнями в различие между VQ-VAE и VAE, препятствует унифицированному моделированию и объективному сравнительному анализу. Конечное скалярное квантование (FSQ) предлагает теоретический мост, однако классический FSQ страдает от критического недостатка: его равномерное квантование может вызывать коллапс активаций. Это несоответствие вынуждает идти на компромисс между точностью реконструкции и информационной эффективностью. В данной работе мы разрешаем эту дилемму, просто заменяя функцию активации в исходном FSQ на отображение, согласованное с распределением, для обеспечения равномерного априорного распределения. Названный iFSQ, этот простой стратегический шаг требует всего одной строки кода, но математически гарантирует как оптимальное использование интервалов квантования, так и точность восстановления. Используя iFSQ в качестве контролируемого эталона, мы выявили два ключевых insight'а: (1) Оптимальный баланс между дискретными и непрерывными представлениями достигается при примерно 4 битах на размерность. (2) При идентичных ограничениях на реконструкцию AR-модели демонстрируют быструю начальную сходимость, тогда как диффузионные модели достигают более высокого потолка производительности, что позволяет предположить, что строгая последовательная упорядоченность может ограничивать верхние границы качества генерации. Наконец, мы расширяем наш анализ, адаптируя Выравнивание Представлений (REPA) для AR-моделей, получая LlamaGen-REPA. Код доступен по адресу https://github.com/Tencent-Hunyuan/iFSQ
Современные генераторы видео по-прежнему испытывают трудности с моделированием сложной физической динамики, часто не достигая физического реализма. Существующие подходы решают эту проблему с помощью внешних верификаторов или дополнительного обучения на аугментированных данных, что требует больших вычислительных затрат и все же ограничено в передаче мелкодетализированного движения. В данной работе мы представляем самоуточняющую выборку видео — простой метод, который использует предварительно обученный генератор видео, обученный на крупномасштабных наборах данных, в качестве собственного уточнителя. Интерпретируя генератор как денизующий автоэнкодер, мы обеспечиваем итеративное уточнение во внутреннем цикле во время вывода без каких-либо внешних верификаторов или дополнительного обучения. Мы также вводим стратегию уточнения, учитывающую неопределенность, которая выборочно улучшает области на основе самосогласованности, что предотвращает артефакты, вызванные избыточным уточнением. Эксперименты на передовых генераторах видео демонстрируют значительное улучшение согласованности движения и соответствия физическим законам, достигая более 70% предпочтения человеком по сравнению со стандартным сэмплером и сэмплером на основе управления.
Хотя оценка агентов сместилась в сторону задач с длительным горизонтом, большинство бенчмарков по-прежнему делают акцент на локальном, пошаговом рассуждении, а не на глобальной ограниченной оптимизации (например, временных и финансовых бюджетах), требующей подлинной способности к планированию. В то же время существующие бенчмарки для планирования с помощью БОП недостаточно отражают активный сбор информации и мелкогранулярные локальные ограничения, характерные для реальных условий. Для решения этой проблемы мы представляем DeepPlanning — сложный бенчмарк для практического долгосрочного планирования агентов. Он включает задачи планирования многодневных путешествий и многопродуктовых покупок, которые требуют проактивного получения информации, локального ограниченного рассуждения и глобальной ограниченной оптимизации. Оценки на DeepPlanning показывают, что даже передовые агентские БОП испытывают трудности с этими проблемами, что подчеркивает важность надежных явных моделей рассуждений и параллельного использования инструментов для достижения лучшего баланса между эффективностью и производительностью. Анализ ошибок также указывает на перспективные направления для улучшения агентских БОП в задачах длительного планирования. Мы открываем исходный код и данные для поддержки будущих исследований.
Пространственное визуальное восприятие является фундаментальным требованием для приложений в физическом мире, таких как автономное вождение и манипуляции роботов, что обусловлено необходимостью взаимодействия с трехмерными средами. Получение метрической глубины, выровненной по пикселям, с помощью камер RGB-D было бы наиболее целесообразным способом, однако этому обычно препятствуют ограничения аппаратного обеспечения и сложные условия съемки, особенно при наличии зеркальных или лишенных текстуры поверхностей. В данной работе мы утверждаем, что неточности датчиков глубины можно рассматривать как «маскированные» сигналы, которые по своей природе отражают лежащие в основе геометрические неопределенности. Основываясь на этой идее, мы представляем LingBot-Depth — модель завершения глубины, которая использует визуальный контекст для уточнения карт глубины посредством моделирования маскированной глубины и включает автоматизированный конвейер курирования данных для масштабируемого обучения. Обнадеживает, что наша модель превосходит камеры RGB-D высшего класса как по точности определения глубины, так и по охвату пикселей. Результаты экспериментов на ряде последующих задач также свидетельствуют о том, что LingBot-Depth обеспечивает согласованное латентное представление для модальностей RGB и глубины. Мы публикуем код, контрольные точки и 3 миллиона пар RGB-глубина (включая 2 миллиона реальных и 1 миллион синтезированных данных) для сообщества, занимающегося пространственным восприятием.
В данном отчете представлена система VibeVoice-ASR — универсальная система речевого понимания, построенная на основе VibeVoice и предназначенная для решения сохраняющихся проблем фрагментации контекста и многопользовательской сложности в длинных аудиозаписях (например, совещаниях, подкастах), которые остаются актуальными, несмотря на недавние достижения в области распознавания коротких речевых фрагментов. В отличие от традиционных конвейерных подходов, основанных на разбиении аудио на сегменты, VibeVoice-ASR поддерживает однопроходную обработку аудиоданных длительностью до 60 минут. Она объединяет автоматическое распознавание речи, диаризацию говорящих и временную разметку в единую задачу сквозной генерации. Кроме того, VibeVoice-ASR поддерживает более 50 языков, не требует явной установки языка и нативно обрабатывает код-свитчинг внутри и между высказываниями. Также мы представляем механизм инжекции контекста на основе промптов, который позволяет пользователям предоставлять специализированный контекст, что значительно повышает точность распознавания узкоспециализированной терминологии и разрешения неоднозначности полифонических символов.
Появление постоянно активных персональных ИИ-ассистентов, работающих на базе носимых в течение всего дня устройств, таких как умные очки, требует нового уровня контекстного понимания, выходящего за рамки коротких изолированных событий и охватывающего непрерывный, продольный поток эгоцентричного видео. Реализация этой концепции требует прогресса в области долгосрочного понимания видео, где системы должны интерпретировать и запоминать визуальную и аудиоинформацию, охватывающую дни или даже недели. Существующие методы, включая большие языковые модели и генерацию с расширением поиска, ограничены узкими окнами контекста и неспособны выполнять композиционные, многошаговые рассуждения над очень длинными видеопотоками. В данной работе мы решаем эти проблемы с помощью EGAgent — усовершенствованной агентской архитектуры, основанной на графах сцен с сущностями, которые представляют людей, места, объекты и их взаимосвязи во времени. Наша система оснащает агента-планировщика инструментами для структурированного поиска и рассуждений по этим графам, а также гибридными возможностями визуального и аудиопоиска, обеспечивая детальные, кросс-модальные и временно согласованные рассуждения. Эксперименты на наборах данных EgoLifeQA и Video-MME (Long) показывают, что наш метод достигает наилучших результатов на EgoLifeQA (57,5%) и конкурентоспособных результатов на Video-MME (Long) (74,1%) для сложных задач понимания продольного видео.
Универсальные модели эмбеддингов продемонстрировали высокую производительность при текстовом поиске, но остаются неоптимальными для поиска в таблицах, где сильно структурированное содержание приводит к семантическому сжатию и несоответствию между запросом и таблицей. Новейшие методы ретривельной аугментации на основе больших языковых моделей (LLM) смягчают эту проблему путем генерации синтетических запросов, однако они часто полагаются на эвристический выбор частей таблиц и редко используют эти синтетические запросы в качестве обучающих данных для улучшения модели эмбеддингов. Мы представляем CGPT — фреймворк для обучения, который улучшает поиск в таблицах за счет использования обучающих данных, сгенерированных LLM. CGPT строит семантически разнообразные частичные таблицы путем кластеризации табличных экземпляров с помощью K-средних и выборки из разных кластеров для расширения семантического охвата. Затем LLM генерирует синтетические запросы для этих частичных таблиц, которые используются в контрастном обучении с жесткими негативными примерами для доработки модели эмбеддингов. Эксперименты на четырех публичных бенчмарках (MimoTable, OTTQA, FetaQA и E2E-WTQ) показывают, что CGPT стабильно превосходит базовые методы поиска, включая QGpT, со средним улучшением R@1 на 16,54%. В условиях единого мультидоменного корпуса CGPT дополнительно демонстрирует сильную кросс-доменную обобщающую способность и остается эффективным даже при использовании меньших LLM для генерации синтетических запросов. Эти результаты указывают на то, что семантически направленное построение частичных таблиц в сочетании с контрастным обучением на данных от LLM обеспечивает эффективную и масштабируемую парадигму для поиска в крупномасштабных таблицах. Наш код доступен по адресу https://github.com/yumeow0122/CGPT.
Восприятие и взаимодействие в реальном мире по своей природе мультимодальны и включают не только язык, но также зрение и речь, что стимулирует разработку «универсальных» (Omni) MLLM, поддерживающих как мультимодальные входы, так и мультимодальные выходы. Хотя появился ряд универсальных MLLM, большинство существующих систем по-прежнему полагаются на дополнительные экспертные компоненты для достижения мультимодального генерации, что ограничивает простоту унифицированного обучения и вывода. Авторегрессионное (AR) моделирование с единым потоком токенов, единой целью предсказания следующего токена и единым декодером является элегантной и масштабируемой основой в текстовой области. Руководствуясь этим, мы представляем AR-Omni — унифицированную модель типа «любой-к-любому» в авторегрессионной парадигме, не использующую каких-либо экспертных декодеров. AR-Omni поддерживает авторегрессионную генерацию текста и изображений, а также потоковую генерацию речи, используя единственный Transformer-декодер. Мы также решаем три практические проблемы унифицированного AR-моделирования: дисбаланс модальностей с помощью перевзвешивания потерь с учетом задачи, визуальную точность с помощью легковесной функции перцептивного выравнивания на уровне токенов для токенов изображения и компромисс между стабильностью и креативностью с помощью механизма декодирования с конечным состоянием. Экспериментально показано, что AR-Omni достигает высокого качества работы во всех трех модальностях, оставаясь при этом системой реального времени, с коэффициентом реального времени 0.88 для генерации речи.
Данные временных рядов повсеместно распространены в реальных сценариях и имеют критически важное значение для таких приложений, как управление энергопотреблением и контроль трафика. Следовательно, способность рассуждать о временных рядах является фундаментальным навыком для моделей-универсалов для решения практических задач. Однако это измерение заметно отсутствует в существующих бенчмарках для моделей-универсалов. Чтобы заполнить этот пробел, мы представляем TSRBench — комплексный мультимодальный бенчмарк, предназначенный для стресс-тестирования всего спектра способностей к рассуждению о временных рядах. TSRBench характеризуется: i) разнообразным набором из 4125 задач из 14 областей, классифицированных по 4 основным направлениям: Восприятие, Рассуждение, Прогнозирование и Принятие решений; ii) 15 заданиями из 4 направлений, оценивающими ключевые способности к рассуждению (например, числовое рассуждение). В ходе масштабных экспериментов мы оценили более 30 ведущих проприетарных и открытых больших языковых моделей (LLM), визуально-языковых моделей (VLM) и специализированных моделей для временных рядов (TSLLM) в рамках TSRBench. Наши результаты показывают, что: i) законы масштабирования работают для восприятия и рассуждения, но нарушаются для прогнозирования; ii) сильное рассуждение не гарантирует точного контекстно-зависимого прогнозирования, что указывает на разрыв между семантическим пониманием и численным предсказанием; iii) несмотря на комплементарный характер текстовых и визуальных представлений временных рядов в качестве входных данных, современные мультимодальные модели не способны эффективно объединять их для взаимного повышения производительности. TSRBench предоставляет стандартизированную платформу для оценки, которая не только выявляет существующие проблемы, но и предлагает ценные insights для развития моделей-универсалов. Наш код и набор данных доступны по адресу https://tsrbench.github.io/.
Крупномасштабные модели генерации видео продемонстрировали эмерджентную физическую согласованность, что позиционирует их в качестве потенциальных моделей мира. Однако сохраняется разрыв между современными «бессостоятельными» видеоархитектурами и классическими теориями моделей мира, ориентированными на состояние. Данная работа преодолевает этот разрыв, предлагая новую таксономию, основанную на двух столпах: Построение Состояния и Моделирование Динамики. Мы классифицируем построение состояния на имплицитные парадигмы (управление контекстом) и эксплицитные парадигмы (латентное сжатие), в то время как моделирование динамики анализируется через интеграцию знаний и архитектурную реформулировку. Кроме того, мы выступаем за переход в оценке моделей от визуального правдоподобия к функциональным бенчмаркам, тестирующим физическую устойчивость и каузальные рассуждения. В заключение мы определяем два ключевых направления: повышение устойчивости за счет данных и сжатого правдоподобия, а также развитие каузальности через развязывание латентных факторов и интеграцию априорных знаний для рассуждений. Решая эти задачи, область может эволюционировать от генерации визуально правдоподобных видео к созданию robustных универсальных симуляторов мира.
Генерация видео служит краеугольным камнем для построения мировых моделей, где мультимодальный контекстный вывод является определяющим тестом способностей. В этой связи мы представляем SkyReels-V3 — условную модель генерации видео, построенную на основе унифицированной мультимодальной структуры контекстного обучения с диффузионными трансформерами. Модель SkyReels-V3 поддерживает три основные генеративные парадигмы в единой архитектуре: синтез видео по референсным изображениям, расширение видео на основе видео и генерацию видео с аудио-гидом. (i) Модель генерации видео по референсным изображениям предназначена для создания высококачественных видео с сохранением идентичности объекта, временной согласованности и нарративной целостности. Для улучшения соответствия референсу и композиционной стабильности мы разработали комплексный конвейер обработки данных, использующий кросс-кадровое сопоставление, редактирование изображений и семантическое переписывание, что эффективно устраняет артефакты копирования. При обучении применяется гибридная стратегия работы с изображениями и видео в сочетании с совместной оптимизацией мульти-разрешения для повышения обобщающей способности и устойчивости в различных сценариях. (ii) Модель расширения видео интегрирует моделирование пространственно-временной согласованности с масштабным пониманием видео, обеспечивая как бесшовное продолжение одиночного кадра, так и интеллектуальное переключение между несколькими кадрами с профессиональными кинематографическими паттернами. (iii) Модель говорящего аватара поддерживает генерацию видео на уровне минут с аудио-условием за счёт обучения паттернов вставки первого и последнего кадров и реконструкции парадигм вывода ключевых кадров. На основе обеспечения визуального качества была оптимизирована синхронизация аудио и видео. Многочисленные оценки демонстрируют, что SkyReels-V3 достигает передовых или близких к передовым результатов по ключевым метрикам, включая визуальное качество, следование инструкциям и специфические аспектные метрики, приближаясь к ведущим закрытым системам. Github: https://github.com/SkyworkAI/SkyReels-V3.
Извлечение таблиц — это задача поиска наиболее релевантных таблиц из крупномасштабных корпусов по естественно-языковым запросам. Однако структурные и семантические расхождения между неструктурированным текстом и структурированными таблицами делают выравнивание эмбеддингов особенно сложным. Современные методы, такие как QGpT, пытаются обогатить семантику таблиц за счет генерации синтетических запросов, но они по-прежнему полагаются на грубую выборку частичных таблиц и простые стратегии слияния, что ограничивает семантическое разнообразие и препятствует эффективному выравниванию запросов и таблиц. Мы предлагаем STAR (Semantic Table Representation) — легковесный фреймворк, улучшающий семантическое представление таблиц за счет семантической кластеризации и взвешенного слияния. STAR сначала применяет K-means кластеризацию с учетом заголовков для группировки семантически схожих строк и выбирает репрезентативные центроидные экземпляры для построения разнообразной частичной таблицы. Затем генерируются кластер-специфичные синтетические запросы для комплексного охвата семантического пространства таблицы. Наконец, STAR использует взвешенные стратегии слияния для интеграции эмбеддингов таблиц и запросов, обеспечивая тонкое семантическое выравнивание. Данная конструкция позволяет STAR захватывать комплементарную информацию из структурированных и текстовых источников, повышая выразительность табличных представлений. Эксперименты на пяти бенчмарках показывают, что STAR стабильно достигает более высокого показателя Recall по сравнению с QGpT на всех наборах данных, демонстрируя эффективность семантической кластеризации и адаптивного взвешенного слияния для построения устойчивых табличных представлений. Наш код доступен по адресу https://github.com/adsl135789/STAR.
Универсальные LLM-агенты часто проходят пост-обучение на узком наборе сред, но развертываются в гораздо более широких, невиданных ранее доменах. В данной работе мы исследуем проблему пост-обучения агентов в условиях, когда итоговые тестовые домены неизвестны. В частности, мы анализируем, какие свойства сред обучения с подкреплением (RL) и варианты моделирования оказывают наибольшее влияние на производительность вне домена. Во-первых, мы выявляем две оси свойств среды, которые сильно коррелируют с кросс-доменной обобщающей способностью: (i) насыщенность состояния информацией, то есть объем информации, которую агенту необходимо обработать из состояния, и (ii) сложность планирования, оцениваемая через достижимость цели и длину траектории при базовой политике. Примечательно, что реалистичность домена и текстовое сходство не являются основными факторами; например, простой домен Sokoban в виде сетки приводит к еще более сильному обобщению в SciWorld, чем более реалистичный ALFWorld. Мотивированные этими выводами, мы далее показываем, что увеличение только насыщенности состояния информацией уже может эффективно повысить кросс-доменную устойчивость. Мы предлагаем метод рандомизации, который требует малых затрат и широко применим: добавление в состояние небольшого количества отвлекающих, не связанных с целью признаков, чтобы сделать его богаче без изменения задачи. Помимо свойств самой среды, мы также исследуем несколько вариантов моделирования: (a) предварительное обучение с учителем (SFT) или дообучение в середине процесса помогает предотвратить катастрофическое забывание во время RL, но подрывает обобщение на домены, не включенные в смесь данных для дообучения; и (b) включение пошагового мышления во время RL, хотя и не всегда улучшает производительность внутри домена, играет ключевую роль в сохранении способности к обобщению.
Благодаря использованию дистилляции от нескольких учителей, агломеративные визуальные архитектуры предоставляют единую студенческую модель, которая сохраняет и улучшает уникальные возможности нескольких учителей. В данном техническом отчете мы описываем последний выпуск семейства моделей C-RADIO — C-RADIOv4, который основан на AM-RADIO/RADIOv2.5 по дизайну и предлагает значительное улучшение ключевых downstream-задач при той же вычислительной сложности. Мы выпускаем варианты моделей -SO400M (412 млн параметров) и -H (631 млн), обученные с обновленным набором учителей: SigLIP2, DINOv3 и SAM3. Помимо улучшения ключевых метрик и новых возможностей, полученных за счет имитации SAM3, семейство моделей C-RADIOv4 дополнительно улучшает поддержку любого разрешения, возвращает опцию ViTDet для значительного повышения эффективности при высоком разрешении и сопровождается разрешительной лицензией.
Глубокие поисковые агенты, предназначенные для ответов на сложные вопросы, требующие рассуждений по множеству документов, могут значительно ускорить процесс поиска информации. Сбор человеческих аннотаций для этой задачи является чрезмерно дорогостоящим из-за длинных и сложных траекторий исследования. Мы предлагаем агентный конвейер, который автоматически генерирует высококачественные пары "вопрос-ответ" для глубокого поиска с контролируемой сложностью для заданного корпуса и целевого уровня трудности. Наш конвейер SAGE состоит из генератора данных, который предлагает пары "вопрос-ответ", и поискового агента, который пытается решить сгенерированный вопрос и предоставляет обратную связь по выполнению для генератора данных. Два компонента взаимодействуют в течение нескольких раундов, чтобы итеративно улучшать пары "вопрос-ответ" до достижения целевого уровня сложности. Наша внутренняя оценка показывает, что SAGE генерирует вопросы, требующие разнообразных стратегий рассуждений, при этом значительно повышая корректность и сложность генерируемых данных. Наша внешняя оценка демонстрирует до 23% относительного улучшения производительности на популярных бенчмарках глубокого поиска при обучении агентов на наших синтетических данных. Дополнительные эксперименты показывают, что агенты, обученные на наших данных, могут адаптироваться от поиска в фиксированном корпусе к поиску в Google во время вывода без дополнительного обучения.
Многие модели «Vision-Language-Action» (VLA) преобразуют фрагменты изображений в одномерную последовательность токенов, что ослабляет двумерные пространственные связи, необходимые для точного манипулирования. Мы представляем IVRA — легковесный метод, не требующий дообучения, который улучшает пространственное понимание за счет использования признаков сходства, уже доступных во встроенном визионном энкодере модели, без необходимости во внешнем энкодере или переобучении. IVRA выборочно внедряет эти сигналы сходства в слой языковой модели, где находятся признаки на уровне экземпляров. Такое вмешательство на этапе вывода перестраивает взаимодействия визуальных токенов и лучше сохраняет геометрическую структуру, оставляя все параметры модели неизменными. Мы демонстрируем универсальность IVRA, применяя ее к различным архитектурам VLA (LLaRA, OpenVLA и FLOWER) на симулированных бенчмарках, охватывающих как 2D, так и 3D манипулирование (VIMA и LIBERO), а также на различных задачах с реальными роботами. На 2D VIMA IVRA улучшает средний показатель успеха на +4,2% по сравнению с базовой LLaRA в условиях ограниченности данных. На 3D LIBERO метод обеспечивает стабильный прирост по сравнению с базовыми OpenVLA и FLOWER, включая улучшения, когда точность базовой модели близка к насыщению (с 96,3% до 97,1%). Весь код и модели будут опубликованы в открытом доступе. Визуализации доступны по адресу: jongwoopark7978.github.io/IVRA
Традиционные агентные системы часто оказываются неэффективными в открытых средах, где распределение задач непрерывно меняется, а внешний контроль ограничен. Их зависимость от статичных наборов инструментов или офлайн-обучения не успевает за этими динамическими изменениями, оставляя границы возможностей системы жесткими и неизвестными. Для решения этой проблемы мы предлагаем парадигму In-Situ Self-Evolving (эволюционирующей на месте). Этот подход рассматривает последовательные взаимодействия с задачами как непрерывный поток опыта, позволяя системе преобразовывать краткосрочную обратную связь по выполнению в долгосрочные, многократно используемые возможности без доступа к эталонным меткам. В рамках данной парадигмы мы определяем эволюцию инструментов как ключевой путь для расширения возможностей, поскольку она предоставляет проверяемые бинарные сигналы обратной связи. В рамках этого подхода мы разработали агент Yunjue — систему, которая итеративно синтезирует, оптимизирует и повторно использует инструменты для решения вновь возникающих задач. Для оптимизации эффективности эволюции мы дополнительно вводим стратегию Parallel Batch Evolution (параллельного пакетного развития). Эмпирические оценки на пяти разнородных бенчмарках в условиях нулевого старта демонстрируют значительное улучшение производительности по сравнению с проприетарными базовыми системами. Кроме того, дополнительные оценки с теплым стартом подтверждают, что накопленные общие знания могут быть бесшовно перенесены в новые области. Наконец, мы предлагаем новую метрику для мониторинга сходимости эволюции, которая служит аналогом функции потерь при обучении в традиционной оптимизации. Мы открываем исходный код нашей системы, трассировки её работы и evolved-инструменты для содействия будущим исследованиям в области устойчивого, саморазвивающегося интеллекта.
Выравнивание больших языковых моделей (LLM) направлено на согласование их выходных данных с человеческими предпочтениями, а персонализированное выравнивание дополнительно адаптирует модели под индивидуальных пользователей. Это основано на персонализированных моделях вознаграждения, которые фиксируют специфичные для пользователя предпочтения и автоматически предоставляют индивидуализированную обратную связь. Однако разработка таких моделей сталкивается с двумя ключевыми проблемами: недостатком обратной связи от отдельных пользователей и необходимостью эффективной адаптации к новым, незнакомым пользователям. Мы полагаем, что для решения этих ограничений необходим парадигмальный сдвиг от подгонки под данные для изучения предпочтений пользователя к изучению самого процесса адаптации предпочтений. Чтобы реализовать это, мы предлагаем Мета-Моделирование Вознаграждения (Meta Reward Modeling, MRM), которое переформулирует задачу персонализированного моделирования вознаграждения как проблему мета-обучения. В частности, мы представляем модель вознаграждения каждого пользователя как взвешенную комбинацию базовых функций вознаграждения и оптимизируем инициализацию этих весов с помощью фреймворка в стиле MAML (Model-Agnostic Meta-Learning) для обеспечения быстрой адаптации при ограниченной обратной связи. Для обеспечения устойчивости мы вводим Целевую Функцию Робастной Персонализации (Robust Personalization Objective, RPO), которая уделяет больше внимания пользователям, чьи предпочтения сложнее изучить, в процессе мета-оптимизации. Многочисленные эксперименты на наборах данных персонализированных предпочтений подтверждают, что MRM улучшает персонализацию в условиях ограниченного количества данных, повышает устойчивость к особенностям пользователей и последовательно превосходит базовые методы.
Несмотря на растущее внедрение больших языковых моделей (LLM) в научно-исследовательские процессы, автоматизированная поддержка академического ребаттла — ключевого этапа академической коммуникации и рецензирования — остаётся в значительной степени неисследованной. Существующие подходы обычно полагаются на стандартные LLM или простые конвейеры обработки, которые испытывают трудности с пониманием длинного контекста и часто не способны создавать целевые и убедительные ответы. В данной статье мы предлагаем DRPG, агентный фреймворк для автоматического генерации академического ребаттла, который работает в четыре этапа: декомпозиция рецензий на атомарные замечания, извлечение релевантных доказательств из статьи, планирование стратегий ребаттла и генерация ответов в соответствии с планом. Примечательно, что планировщик в DRPG достигает точности свыше 98% в определении наиболее feasible направления ребаттла. Эксперименты на данных из топовых конференций демонстрируют, что DRPG значительно превосходит существующие конвейеры для ребаттла и достигает производительности выше среднего человеческого уровня, используя модель размером всего 8B параметров. Наш анализ также показывает эффективность архитектуры планировщика и её ценность для предоставления многоперспективных и объяснимых рекомендаций. Мы также продемонстрировали, что DRPG хорошо работает в более сложной многотуровой постановке задачи. Эти результаты подчеркивают эффективность DRPG и его потенциал для предоставления высококачественного контента для ребаттла и поддержки масштабирования академических дискуссий. Код для данной работы доступен по адресу https://github.com/ulab-uiuc/DRPG-RebuttalAgent.
Одной из наиболее примечательных особенностей глобальных дискретных диффузионных языковых моделей является их глобальная двунаправленная контекстная способность. Однако существующие исследования блочной диффузии склонны вводить авторегрессионные априорные предположения, которые, хотя и предоставляют преимущества, могут приводить к потере моделями этой глобальной связности на макроуровне. Чтобы восстановить глобальное контекстное понимание, сохраняя преимущества полуавторегрессионной парадигмы, мы предлагаем метод Diffusion in Diffusion — фреймворк «черновик-затем-уточнение», предназначенный для преодоления проблем необратимости и близорукости, присущих блочным диффузионным моделям. Наш подход сначала использует блочную диффузию для быстрого создания черновиков с помощью небольших блоков, а затем уточняет эти черновики посредством глобальной двунаправленной диффузии с увеличенным двунаправленным рецептивным полем. Мы используем повторное маскирование на основе уверенности (snapshot confidence remasking) для идентификации наиболее критичных токенов, требующих модификации, и применяем обучение с混合 масштабов (mix-scale training) для расширения глобальных возможностей блочной диффузионной модели. Экспериментальные результаты демонстрируют, что наш подход устанавливает новый эталон для дискретных диффузионных моделей на наборе данных OpenWebText. Используя всего 26% бюджета тонкой настройки базовых моделей, мы снижаем перплексию генерации с 25.7 до 21.9, значительно сокращая разрыв в производительности с авторегрессионными моделями.
Кодовое переключение является широко распространенной практикой среди многоязычного большинства мирового населения, однако существующие бенчмарки недостаточно точно отражают его сложность в повседневной коммуникации. Мы представляем PingPong — бенчмарк для естественных многопользовательских диалогов с кодовым переключением, охватывающий пять вариантов языковых комбинаций, включая некоторые трехъязычные. Наш набор данных состоит из созданных человеком бесед между 2–4 участниками, демонстрирующих аутентичную многопоточную структуру, где реплики часто отсылают к более ранним точкам диалога. Мы показываем, что наши данные значительно более естественны и структурно разнообразны по сравнению с машинно-сгенерированными аналогами, предлагая больший разброс в длине сообщений, доминировании говорящих и дистанции между репликами. На основе этих диалогов мы определяем три практические задачи: вопросно-ответные системы, суммаризация диалогов и тематическая классификация. Оценка нескольких современных языковых моделей на PingPong показывает, что их производительность на смешанных языковых входных данных остается ограниченной, что подчеркивает настоятельную необходимость в создании более устойчивых NLP-систем, способных учитывать сложности реального многоязычного дискурса.
Точная расшифровка и диаризация говорящих в разговорах между детьми и взрослыми имеют решающее значение для исследований в области развития и клинической практики. Однако ручная разметка требует много времени и сложно масштабируется. Существующие автоматизированные системы обычно полагаются на каскадные конвейеры, включающие диаризацию говорящих и распознавание речи, что может приводить к распространению ошибок. В данной статье представлена единая end-to-end система, которая расширяет архитектуру кодера-декодера Whisper для совместного моделирования ASR и диаризации ролей говорящих (ребенок/взрослый). Предлагаемый подход интегрирует: (i) схему обучения с сериализованным выводом, которая генерирует метки говорящих и временные метки начала/окончания речи, (ii) легковесный модуль диаризации на уровне кадров, который улучшает дискриминативные представления говорящих в энкодере, (iii) подавление пауз, управляемое диаризацией, для повышения временной точности, и (iv) процедуру принудительного декодирования на основе конечного автомата, гарантирующую структурно корректные выходные данные. Комплексные оценки на двух наборах данных демонстрируют последовательное и существенное улучшение по сравнению с двумя каскадными базовыми методами, достигая более низкого уровня ошибок по словам в условиях перекрывающейся речи и показывая конкурентоспособную точность диаризации как для моделей Whisper-small, так и Whisper-large. Эти результаты подчеркивают эффективность и практическую полезность предложенной框架 совместного моделирования для создания надежных, атрибутированных по говорящим расшифровок детско-взрослых взаимодействий в масштабе. Код и веса моделей находятся в открытом доступе.
Модели со смесью экспертов (MoE) обычно предобучаются с явными ограничениями балансировки нагрузки, чтобы обеспечить статистически сбалансированное распределение данных между экспертами. Несмотря на это, мы наблюдаем, что даже хорошо обученные MoE-модели демонстрируют значительный дисбаланс в маршрутизации. Такое поведение, возможно, является естественным — и даже желательным, — поскольку несбалансированная маршрутизация позволяет моделям концентрировать предметные знания в подмножестве экспертов. Экспертный параллелизм (EP) предназначен для масштабирования MoE-моделей путем распределения экспертов по нескольким устройствам, но при этом он основывается на мало обсуждаемом предположении о сбалансированной маршрутизации. При экстремальном дисбалансе EP может направлять непропорционально большое количество токенов к небольшому числу экспертов, что приводит к вычислительным и память-ограниченным сбоям на перегруженных устройствах во время пост-обучения или вывода, когда явная балансировка нагрузки часто неприменима. Мы предлагаем Экспертный Параллелизм с Наименьшей Нагрузкой (LLEP) — новый алгоритм EP, который динамически перенаправляет избыточные токены и связанные с ними параметры экспертов с перегруженных устройств на недогруженные. Это гарантирует, что все устройства завершают свои задачи в рамках минимальной совокупной задержки с учетом ограничений памяти. На различных масштабах моделей LLEP обеспечивает до 5-кратного ускорения и 4-кратного снижения пикового использования памяти по сравнению со стандартным EP. Это позволяет ускорить пост-обучение и вывод с более высокой пропускной способностью, например, для модели gpt-oss-120b ускорение составляет примерно в 1,9 раза. Мы подкрепляем наш метод обширным теоретическим анализом и всесторонними эмпирическими оценками, включая абляционные исследования. Эти результаты выявляют ключевые компромиссы и позволяют создать принципиальную основу для аппаратно-специфической настройки гиперпараметров для достижения оптимальной производительности.
Эффективное управление ключево-значимым (KV) кэшем имеет решающее значение для практического развертывания больших языковых моделей (LLM), однако существующие методы сжатия часто связаны с компромиссом между снижением производительности и вычислительными затратами. Мы предлагаем новый метод вытеснения KV-кэша на основе гейтинга для LLM с замороженными весами, который обеспечивает высокие коэффициенты сжатия при пренебрежимо малых вычислительных затратах. Наш подход вводит легковесные гейт-модули с механизмом sink-attention для идентификации и сохранения критически важных KV-пар и бесшовно интегрируется как на этапе предзаполнения (prefill), так и на этапе декодирования. Предложенный алгоритм обучения гейтов опирается на прямые проходы LLM, избегая дорогостоящего обратного распространения ошибки, и достигает сильной обобщающей способности на задачах за счет агендо-независимой реконструкционной цели. Масштабные эксперименты на семействах моделей Qwen2.5-1M, Qwen3 и Gemma3 показывают, что наш метод сохраняет практически безпотерьную производительность при вытеснении до 70% KV-кэша. Результаты согласованы для широкого спектра задач, включая понимание длинного контекста, понимание кода и математические рассуждения, что демонстрирует универсальность нашего подхода.
Крупные языковые модели всё чаще оптимизируются для глубоких рассуждений, ставя во главу угла корректное выполнение сложных задач, а не общие беседы. Мы исследуем, создаёт ли эта ориентация на вычисления "тоннельное зрение", игнорирующее безопасность в критических ситуациях. Мы представляем MortalMATH — набор из 150 сценариев, в которых пользователи запрашивают помощь с алгеброй, одновременно описывая всё более угрожающие жизни чрезвычайные ситуации (например, симптомы инсульта, свободное падение). Мы обнаружили резкий поведенческий раскол: модели общего назначения (такие как Llama-3.1) успешно отказываются решать математическую задачу, чтобы отреагировать на опасность. В отличие от них, специализированные модели для рассуждений (такие как Qwen-3-32b и GPT-5-nano) часто полностью игнорируют чрезвычайную ситуацию, сохраняя уровень выполнения задачи свыше 95%, в то время как пользователь описывает приближение смерти. Более того, вычислительное время, необходимое для рассуждений, вносит опасные задержки: до 15 секунд до того, как может быть предложена какая-либо помощь. Эти результаты позволяют предположить, что обучение моделей неуклонно стремиться к правильным ответам может ненамеренно привести к утрате "инстинктов выживания", необходимых для безопасного применения.
Проектирование пользовательских интерфейсов (UI) является критически важным этапом при запуске продуктов, создании портфолио или персонализации проектов, однако конечные пользователи без опыта в дизайне часто испытывают трудности с формулированием своих намерений и доверием к дизайнерским решениям. Существующие инструменты, основанные на примерах, либо способствуют широкому исследованию, что может привести к перегрузке и отклонению от первоначального замысла, либо требуют адаптации единичного примера, что грозит фиксацией на одном дизайне. Мы представляем UI Remix — интерактивную систему, поддерживающую дизайн мобильных интерфейсов через рабочий процесс, управляемый примерами. Благодаря многомодальной модели с расширением генерации за счет извлечения данных (MMRAG), UI Remix позволяет осуществлять итеративный поиск, выбор и адаптацию примеров как на глобальном (целый интерфейс), так и на локальном (компонент) уровне. Для укрепления доверия система предоставляет прозрачные указания на источники, такие как рейтинги, количество загрузок и информация о разработчике. В эмпирическом исследовании с участием 24 конечных пользователей UI Remix значительно улучшил способность участников достигать своих дизайнерских целей, способствовал эффективной итерации и поощрял исследование альтернативных решений. Участники также отметили, что прозрачность источников повысила их уверенность в адаптации примеров. Наши результаты указывают на новые направления для систем с ИИ-поддержкой, основанных на примерах, которые позволяют конечным пользователям проектировать с большим контролем, доверием и открытостью к исследованию.
Матрицы внимания являются фундаментальным элементом исследований транссформеров, поддерживая широкий спектр приложений, включая интерпретируемость, визуализацию, манипуляцию и дистилляцию. Однако большинство существующих анализов сосредоточены на отдельных головах или слоях внимания, не учитывая глобальное поведение модели. Хотя предыдущие работы расширяли формализации внимания на множество голов посредством усреднения и матричных умножений или включали такие компоненты, как нормализация и FFN-блоки, единое и полное представление, охватывающее все блоки трансформера, до сих пор отсутствует. Мы устраняем этот пробел, представляя TensorLens — новую формализацию, которая описывает весь трансформер как единый линейный оператор, зависящий от входных данных и выраженный через тензор внимания-взаимодействий высокого порядка. Этот тензор совместно кодирует внимание, FFN-блоки, функции активации, нормализацию и остаточные связи, предлагая теоретически согласованное и выразительное линейное представление вычислений модели. TensorLens имеет теоретическое обоснование, и наша эмпирическая проверка показывает, что он дает более богатые представления, чем предыдущие методы агрегации внимания. Наши эксперименты демонстрируют, что тензор внимания может служить мощной основой для разработки инструментов, направленных на интерпретируемость и понимание модели. Наш код прилагается в качестве дополнения.
Поисковые агенты на основе больших языковых моделей (LLM) все чаще используются для многошаговых задач поиска информации, однако в сообществе информационного поиска (IR) отсутствует эмпирическое понимание того, как разворачиваются агентские поисковые сессии и как используется полученная информация. В данной статье представлен крупномасштабный анализ логов агентского поиска, основанный на 14,44 млн поисковых запросов (3,97 млн сессий), собранных из DeepResearchGym — открытого API для поиска, доступного внешним агентским клиентам. Мы сегментируем логи, присваиваем сессиям интенты на уровне всей сессии и помечаем шаги реформулировки запросов с помощью LLM-аннотирования, а также предлагаем показатель CTAR (Context-driven Term Adoption Rate) для количественной оценки того, можно ли проследить происхождение новых терминов в запросе из ранее полученных доказательств. Наш анализ выявляет характерные поведенческие паттерны. Во-первых, более 90% многоходовых сессий содержат не более десяти шагов, а 89% интервалов между шагами составляют менее одной минуты. Во-вторых, поведение варьируется в зависимости от интента. Сессии с поиском фактов демонстрируют высокую повторяемость, которая со временем возрастает, в то время как сессии, требующие рассуждений, поддерживают более широкое исследование. В-третьих, агенты повторно используют доказательства на разных шагах. В среднем 54% вновь вводимых терминов запроса появляются в накопленном контексте доказательств, причем вклад вносят и более ранние шаги, а не только самое последнее получение данных. Результаты позволяют предположить, что агентский поиск может выиграть от ранней остановки с учетом повторений, адаптивных под интент бюджетов на получение данных и явного отслеживания контекста между шагами. Мы планируем опубликовать анонимизированные логи для поддержки будущих исследований.
Подкрепляющее обучение (ПО) продемонстрировало многообещающие результаты в задачах активного управления течениями (АУТ), однако прогресс в этой области остается сложно оцениваемым, поскольку существующие исследования опираются на разнородные схемы наблюдения и управления, численные установки и протоколы оценки. Современные бенчмарки АУТ пытаются решить эти проблемы, но сильно зависят от внешних решателей вычислительной гидродинамики (CFD), не являются полностью дифференцируемыми и предоставляют ограниченную поддержку 3D и многоагентных систем. Для преодоления этих ограничений мы представляем FluidGym — первый автономный, полностью дифференцируемый набор бенчмарков для ПО в АУТ. Построенный полностью на PyTorch поверх GPU-ускоренного решателя PICT, FluidGym работает в едином стеке Python, не требует внешнего CFD-программного обеспечения и предоставляет стандартизированные протоколы оценки. Мы представляем базовые результаты с алгоритмами PPO и SAC и публикуем все среды, наборы данных и обученные модели в качестве общедоступных ресурсов. FluidGym позволяет проводить систематическое сравнение методов управления, создает масштабируемую основу для будущих исследований в области управления течениями на основе обучения и доступен по адресу https://github.com/safe-autonomous-systems/fluidgym.
По мере того как мультимодальные большие языковые модели (MLLM) приобретают более мощные способности к рассуждению для обработки сложных инструкций с несколькими изображениями, этот прогресс может создавать новые риски безопасности. Мы исследуем эту проблему, представляя MIR-SafetyBench — первый бенчмарк, ориентированный на безопасность многомодальных рассуждений, который состоит из 2676 примеров, охватывающих таксономию из 9 типов отношений между изображениями. Наши масштабные оценки 19 MLLM выявляют тревожную тенденцию: модели с более продвинутыми способностями к работе с несколькими изображениями могут быть более уязвимы в рамках MIR-SafetyBench. Помимо показателей успешности атак, мы обнаруживаем, что многие ответы, помеченные как безопасные, являются поверхностными, часто обусловленными непониманием или уклончивыми, неопределенными ответами. Мы также наблюдаем, что небезопасные генерации в среднем демонстрируют более низкую энтропию внимания по сравнению с безопасными. Эта внутренняя характеристика указывает на возможный риск того, что модели могут чрезмерно фокусироваться на решении задачи, пренебрегая ограничениями безопасности. Наш код и данные доступны по адресу https://github.com/thu-coai/MIR-SafetyBench.
Визуальное сжатие токенов широко применяется для повышения эффективности логического вывода больших визуально-языковых моделей (LVLM), что позволяет их развертывание в сценариях с критичными к задержкам и ограниченными ресурсами. Однако существующие работы в основном сосредоточены на эффективности и производительности, в то время как вопросы безопасности визуального сжатия токенов остаются в значительной степени неисследованными. В данной работе мы впервые показываем, что визуальное сжатие токенов существенно снижает устойчивость LVLM: модели, демонстрирующие надежность при несжатом выводе, становятся крайне уязвимыми после включения сжатия. Эти уязвимости являются специфичными для состояния: режимы сбоев возникают только в условиях сжатия и полностью исчезают при его отключении, что делает их особенно скрытыми и трудными для диагностики. Анализируя ключевые этапы процесса сжатия, мы идентифицируем нестабильность ранжирования важности токенов как основную причину этого снижения устойчивости. Незначительные и незаметные возмущения могут существенно изменить ранжирование токенов, в результате чего механизм сжатия ошибочно отбрасывает критически важную для задачи информацию и в конечном итоге приводит к сбою модели. Руководствуясь этим наблюдением, мы предлагаем атаку, осведомленную о сжатии (Compression-Aware Attack, CAA), для систематического изучения и эксплуатации данной уязвимости. CAA напрямую нацелена на механизм выбора токенов и вызывает сбои исключительно при сжатом выводе. Мы также расширяем этот подход до более реалистичных условий черного ящика и представляем Transfer CAA, где ни целевая модель, ни конфигурация сжатия не доступны. Мы дополнительно оцениваем потенциальные методы защиты и обнаруживаем, что они обеспечивают лишь ограниченную защиту. Многочисленные эксперименты на различных моделях, наборах данных и методах сжатия показывают, что визуальное сжатие токенов значительно подрывает устойчивость, выявляя ранее упускавшийся из виду компромисс между эффективностью и безопасностью.
Надежность больших языковых моделей (LLM) в высокорисковых областях, таких как здравоохранение, право и научные открытия, часто подвергается риску из-за галлюцинаций. Эти сбои обычно происходят из двух источников: галлюцинации, обусловленные данными, и галлюцинации, обусловленные рассуждениями. Однако существующие методы обнаружения обычно решают лишь одну проблему и опираются на специфические для задачи эвристики, что ограничивает их обобщаемость для сложных сценариев. Чтобы преодолеть эти ограничения, мы представляем Границу Риска Галлюцинаций — унифицированную теоретическую основу, которая формально разлагает риск галлюцинаций на компоненты, обусловленные данными и рассуждениями, связанные соответственно с несоответствиями на этапе обучения и нестабильностями на этапе вывода. Это обеспечивает принципиальную основу для анализа того, как возникают и развиваются галлюцинации. Основываясь на этом, мы представляем HalluGuard, оценку на основе NTK, которая использует индуцированную геометрию и захваченные представления NTK для совместного выявления галлюцинаций, обусловленных данными и рассуждениями. Мы оцениваем HalluGuard на 10 разнообразных бенчмарках, 11 конкурентоспособных базовых методах и 9 популярных архитектурах LLM, стабильно достигая передовых результатов в обнаружении разнообразных форм галлюцинаций LLM.
RouteMoA — это эффективная фреймворк смеси агентов (Mixture-of-Agents, MoA) с динамической маршрутизацией. Она использует легковесный скорер для первоначального отбора кандидатов путем прогнозирования их производительности на основе запроса, что позволяет сузить круг кандидатов до перспективного подмножества без выполнения полноценного вывода. Затем смесь судей уточняет эти оценки с помощью легковесной само- и перекрестной оценки на основе уже имеющихся выходных данных моделей, обеспечивая апостериорную коррекцию без дополнительных вычислений. Наконец, механизм ранжирования моделей производит окончательный отбор, балансируя между производительностью, стоимостью и задержкой. RouteMoA превосходит стандартный MoA в различных задачах и при разных размерах пула моделей, сокращая затраты на 89,8% и задержку на 63,6% в крупномасштабном пуле моделей.
Текстурный 3D-морфинг направлен на создание плавных и правдоподобных переходов между двумя 3D-объектами с сохранением как структурной целостности, так и детализированного внешнего вида. Эта способность важна не только для развития исследований в области 3D-генерации, но и для практического применения в анимации, редактировании и создании цифрового контента. Существующие подходы либо работают непосредственно с геометрией, что ограничивает их морфингом только формы без учёта текстур, либо переносят стратегии 2D-интерполяции в 3D, что часто приводит к семантической неоднозначности, структурному несоответствию и размытию текстур. Эти проблемы подчеркивают необходимость совместного сохранения геометрической согласованности, выравнивания текстур и устойчивости на протяжении всего процесса перехода. Для решения этой задачи мы предлагаем Interp3D — новую беспараметрическую архитектуру для текстурного 3D-морфинга. Она использует генеративные априорные знания и применяет принцип прогрессивного выравнивания для обеспечения как геометрической точности, так и текстурной согласованности. Начиная с семантически выровненной интерполяции в пространстве условий, Interp3D обеспечивает структурную согласованность через интерполяцию структуры с направлением SLAT (Structured Latent) и завершает процесс передачей деталей внешнего вида посредством мелкозернистого текстурирования. Для всесторонней оценки мы создали специализированный набор данных Interp3DData с градацией уровней сложности и провели оценку результатов генерации по критериям точности, плавности переходов и правдоподобия. Как количественные метрики, так и экспертные оценки демонстрируют значительные преимущества нашего подхода по сравнению с предыдущими методами. Исходный код доступен по адресу https://github.com/xiaolul2/Interp3D.