Ежедневно отобранные исследовательские статьи по ИИ с переводами
Крупные языковые модели (LLM) генерируют беглые и сложные результаты, но часто не способны распознать собственные ошибки и галлюцинации. Существующие подходы обычно полагаются на внешние оценки, согласованность множественных выборок или текстовую самокритику, что требует дополнительных вычислений или слабо коррелирует с истинной правильностью. Мы задаемся вопросом: могут ли LLM предсказывать собственные сбои, анализируя внутренние состояния в процессе вывода? Мы представляем Gnosis — легковесный механизм самосознания, который позволяет замороженным LLM выполнять внутреннюю самопроверку путем декодирования сигналов из скрытых состояний и паттернов внимания. Gnosis пассивно наблюдает внутренние следы, сжимает их в дескрипторы с фиксированным бюджетом и предсказывает правильность с пренебрежимо малыми вычислительными затратами, добавляя всего ~5M параметров и работая независимо от длины последовательности. В задачах математических рассуждений, открытых вопросно-ответных систем и академических тестов на знания, на замороженных архитектурах от 1.7B до 20B параметров, Gnosis последовательно превосходит сильные внутренние базовые линии и крупные внешние системы оценки как по точности, так и по калибровке. Более того, метод обобщается zero-shot на частичные генерации, позволяя осуществлять раннее обнаружение ошибочных траекторий и вычислятельно-осознанное управление. Эти результаты демонстрируют, что надежные сигналы правильности имманентно присущи процессу генерации и могут быть эффективно извлечены без внешнего контроля.
Мы представляем NextFlow — унифицированный авторегрессионный трансформер с декодером, обученный на 6 триллионах перемежающихся текстово-визуальных дискретных токенов. Благодаря использованию единого визуального представления в рамках унифицированной авторегрессионной архитектуры, NextFlow изначально активирует возможности мультимодального понимания и генерации, раскрывая способности редактирования изображений, создания перемежающегося контента и генерации видео. Учитывая различную природу модальностей — где текст строго последователен, а изображения по своей сути иерархичны — мы сохраняем прогнозирование следующего токена для текста, но применяем прогнозирование следующего масштаба для визуальной генерации. Это отличает наш подход от традиционных методов растрового сканирования, позволяя генерировать изображения размером 1024×1024 всего за 5 секунд — на порядки быстрее, чем сопоставимые AR-модели. Мы решаем проблему нестабильности многомасштабной генерации с помощью надежной методики обучения. Кроме того, мы представляем стратегию префиксного тюнинга для обучения с подкреплением. Эксперименты демонстрируют, что NextFlow достигает передовых показателей среди унифицированных моделей и конкурирует со специализированными диффузионными моделями по визуальному качеству.
В данном техническом отчете представлена K-EXAONE — крупномасштабная многоязычная языковая модель, разработанная LG AI Research. K-EXAONE построена на архитектуре Mixture-of-Experts с общим количеством 236 млрд параметров, из которых во время вывода активируется 23 млрд параметров. Модель поддерживает контекстное окно объемом 256 тыс. токенов и охватывает шесть языков: корейский, английский, испанский, немецкий, японский и вьетнамский. Мы оценили K-EXAONE по комплексному набору тестов, охватывающих способности к логическому мышлению, агентскому поведению, общие знания, а также корейскую и многоязычную компетенции. По результатам этих оценок K-EXAONE демонстрирует производительность, сопоставимую с открытыми моделями аналогичного размера. K-EXAONE, созданная для развития искусственного интеллекта во имя улучшения жизни, позиционируется как мощная проприетарная фундаментальная модель ИИ для широкого спектра промышленных и исследовательских применений.
Замена лиц в видео (Video Face Swapping, VFS) требует бесшовного внедрения исходной идентичности в целевое видео при тщательном сохранении исходной позы, выражения, освещения, фона и динамической информации. Существующие методы испытывают трудности с поддержанием сходства идентичности и сохранением атрибутов при обеспечении временной согласованности. Для решения этой задачи мы предлагаем комплексную структуру для бесшовного переноса преимуществ замены лиц на изображениях (Image Face Swapping, IFS) в видеодомен. Сначала мы представляем новый конвейер данных SyncID-Pipe, который предварительно обучает синтезатор видео с привязкой к идентичности и комбинирует его с моделями IFS для построения двунаправленных ID-четверок для явного контроля. На основе парных данных мы предлагаем первую структуру на основе диффузионного трансформера DreamID-V, использующую ключевой модуль Modality-Aware Conditioning для дискриминативного внедрения условий из нескольких моделей. Одновременно мы предлагаем механизм Synthetic-to-Real Curriculum и стратегию обучения с подкреплением на основе когерентности идентичности (Identity-Coherence Reinforcement Learning) для повышения визуального реализма и согласованности идентичности в сложных сценариях. Для решения проблемы ограниченности бенчмарков мы представляем IDBench-V — комплексный бенчмарк, охватывающий разнообразные сцены. Многочисленные эксперименты демонстрируют, что DreamID-V превосходит современные методы и дополнительно проявляет исключительную универсальность, позволяя бесшовно адаптироваться к различным задачам, связанным с заменой.
В области визуальной генерации доминируют три парадигмы: авторегрессионные (AR) модели, диффузионные модели и визуальные авторегрессионные (VAR) модели. В отличие от AR и диффузионных моделей, VAR-модели оперируют гетерогенными входными структурами на различных шагах генерации, что порождает серьезные асинхронные конфликты политик. Эта проблема становится особенно острой в сценариях обучения с подкреплением (RL), приводя к нестабильному обучению и субоптимальному согласованию. Для её решения мы предлагаем новую структуру, улучшающую Оптимизацию Относительной Политики Групп (GRPO) за счет явного управления этими конфликтами. Наш метод интегрирует три синергетических компонента: 1) стабилизирующую промежуточную награду для управления генерацией на ранних стадиях; 2) схему динамического перевзвешивания временных шагов для точного распределения заслуг; и 3) новый алгоритм распространения масок, основанный на принципах Обучения с Обратной Связью по Награде (ReFL), предназначенный для изоляции эффектов оптимизации как в пространственном, так и во временном измерениях. Наш подход демонстрирует значительное улучшение качества образцов и соответствия целевым показателям по сравнению с базовой моделью GRPO, обеспечивая надежную и эффективную оптимизацию для VAR-моделей.
Тонкая настройка диффузионных моделей с помощью онлайн-обучения с подкреплением (ОП) продемонстрировала значительный потенциал для улучшения соответствия между текстом и изображением. Однако, поскольку точное определение эталонной целевой функции для визуальных задач остается сложной проблемой, модели часто оптимизируются с использованием суррогатной функции вознаграждения, которая лишь частично отражает истинную цель. Это несоответствие часто приводит к эксплуатации вознаграждения, когда суррогатные оценки растут, в то время как реальное качество изображений ухудшается, а разнообразие генераций коллапсирует. Хотя стандартные решения добавляют регуляризацию относительно референсной политики, чтобы предотвратить эксплуатацию вознаграждения, они жертвуют эффективностью использования выборок и препятствуют исследованию новых областей с высоким вознаграждением, поскольку референсная политика обычно является субоптимальной. Для решения конкурирующих требований эффективности выборок, эффективного исследования и смягчения эксплуатации вознаграждения мы предлагаем GARDO — универсальную структуру, совместимую с различными алгоритмами ОП. Наше ключевое наблюдение заключается в том, что регуляризацию не нужно применять повсеместно; вместо этого, выборочное штрафование подмножества выборок, демонстрирующих высокую неопределенность, является высокоэффективным. Для решения проблемы исследования GARDO вводит адаптивный механизм регуляризации, в котором референсная модель периодически обновляется в соответствии с возможностями онлайн-политики, обеспечивая актуальную цель регуляризации. Для решения проблемы коллапса мод в ОП GARDO усиливает вознаграждение для высококачественных выборок, которые также демонстрируют высокое разнообразие, поощряя покрытие мод без дестабилизации процесса оптимизации. Многочисленные эксперименты с различными суррогатными вознаграждениями и на независимых метриках последовательно показывают, что GARDO смягчает эксплуатацию вознаграждения и повышает разнообразие генераций без ущерба для эффективности выборок или исследования, что подчеркивает его эффективность и надежность.
Мы представляем VINO — унифицированный визуальный генератор, выполняющий создание и редактирование изображений и видео в рамках единой архитектуры. Вместо использования специализированных моделей для каждой задачи или независимых модулей для каждой модальности, VINO применяет общий диффузионный каркас, который conditionируется на тексте, изображениях и видео, что позволяет решать широкий спектр задач визуального создания и редактирования в одной модели. В частности, VINO объединяет визуально-языковую модель (VLM) с Мультимодальным Диффузионным Трансформером (MMDiT), где мультимодальные входные данные кодируются в виде перемежающихся conditioning-токенов и затем используются для управления диффузионным процессом. Такая конструкция поддерживает мульти-референсное grounding-закрепление, выполнение длинных инструкций и согласованное сохранение идентичности в статическом и динамическом контенте, избегая при этом модально-специфичных архитектурных компонентов. Для обучения такой унифицированной системы мы предлагаем многоэтапный pipeline обучения, который постепенно расширяет базовую модель генерации видео до унифицированного многозадачного генератора, способного работать как с изображениями, так и с видео на входе и выходе. На разнообразных бенчмарках генерации и редактирования VINO демонстрирует высокое визуальное качество, точное следование инструкциям, улучшенное сохранение референсов и атрибутов, а также более контролируемое редактирование с несколькими идентичностями. Наши результаты указывают на практический путь к масштабируемой унифицированной визуальной генерации и перспективность перемежающихся in-context вычислений как основы для универсального визуального творчества.
Грандиозная задача обеспечения устойчивого крупномасштабного понимания 3D-визуальной геометрии скована непримиримыми противоречиями между требованиями масштабируемости и долгосрочной стабильности. Хотя автономные модели, такие как VGGT, демонстрируют впечатляющие способности в области геометрии, их пакетная природа делает их непригодными для работы в реальном времени. Потоковые архитектуры, изначально предназначенные для решения этой задачи, оказались несостоятельными. Существующие методы либо не поддерживают поистине бесконечные временные горизонты входных данных, либо страдают от катастрофического дрейфа в длинных последовательностях. Мы разрешаем эту давнюю дилемму с помощью InfiniteVGGT — каузального трансформера визуальной геометрии, который реализует концепцию скользящей памяти через ограниченный, но адаптивный и постоянно выразительный KV-кэш. Используя это, мы разрабатываем стратегию прореживания, не требующую дообучения и независимую от механизма внимания, которая интеллектуально отбрасывает устаревшую информацию, эффективно «перекатывая» память вперед с каждым новым кадром. Полностью совместимый с FlashAttention, InfiniteVGGT наконец снимает это противоречие, обеспечивая потоковую обработку с бесконечным горизонтом и превосходя существующие потоковые методы по долгосрочной стабильности. Главным испытанием для такой системы является её производительность на поистине бесконечном горизонте — возможность, которую до сих пор было невозможно строго проверить из-за отсутствия сверхдолгосрочных непрерывных бенчмарков. Чтобы заполнить этот критический пробел, мы представляем бенчмарк Long3D, который впервые позволяет провести строгую оценку непрерывного оценивания 3D-геометрии на последовательностях длиной около 10 000 кадров. Это создает окончательную платформу для оценки будущих исследований в области долгосрочного понимания 3D-геометрии. Код доступен по адресу: https://github.com/AutoLab-SAI-SJTU/InfiniteVGGT
Мы исследуем возможность обработки сколь угодно длинных промптов большими языковыми моделями (LLM) через призму масштабирования на этапе вывода. Предлагается стратегия вывода под названием Рекурсивные языковые модели (RLM), которая рассматривает длинные промпты как часть внешней среды и позволяет LLM программно анализировать, декомпозировать и рекурсивно вызывать себя для фрагментов промпта. Мы обнаружили, что RLM успешно обрабатывают входные данные, превышающие контекстные окна модели на два порядка величины, и даже для более коротких промптов значительно превосходят по качеству базовые LLM и распространенные каркасы для работы с длинным контекстом в четырех различных задачах, при этом имея сопоставимые (или более низкие) затраты на один запрос.
Данная работа представляет Falcon-H1R — 7-миллиардную модель, оптимизированную для логических рассуждений, которая демонстрирует возможность достижения конкурентоспособных результатов в этой области с помощью малых языковых моделей (SLM). Falcon-H1R выделяется своей параметрической эффективностью, стабильно соответствуя или превосходя современные (SOTA) модели для рассуждений, которые в 2–7 раз больше, на различных наборах данных, требующих интенсивных логических выводов. Эти результаты подчеркивают важность тщательного отбора данных и целенаправленных стратегий обучения (посредством как эффективного SFT, так и масштабирования с подкреплением) для достижения значительного прироста производительности без увеличения размера модели. Более того, Falcon-H1R расширяет трехмерные границы эффективности рассуждений, сочетая более быстрый вывод (благодаря гибридно-параллельному архитектурному проектированию), эффективность использования токенов и повышенную точность. Эта уникальная комбинация делает Falcon-H1R-7B практическим фундаментом для масштабирования продвинутых систем логического вывода, особенно в сценариях, требующих генерации обширных цепочек рассуждений (chain-of-thoughts) и параллельного масштабирования на этапе тестирования. Используя недавно представленный подход DeepConf, Falcon-H1R достигает наивысшей эффективности масштабирования на этапе тестирования, предлагая существенное улучшение как по точности, так и по вычислительным затратам. В результате Falcon-H1R демонстрирует, что компактные модели, благодаря целенаправленному обучению и архитектурным решениям, могут обеспечивать надежную и масштабируемую производительность в задачах логического вывода.
Мы представляем Talk2Move — диффузионную систему на основе обучения с подкреплением (RL) для пространственного преобразования объектов в сценах по текстовым инструкциям. Пространственное манипулирование объектами в сцене с помощью естественного языка представляет сложность для мультимодальных систем генерации. В то время как существующие методы текстового редактирования могут изменять внешний вид или стиль, они испытывают трудности с выполнением геометрических преобразований на уровне объектов — таких как перемещение, вращение или масштабирование — из-за недостатка парного обучения и ограничений пиксельной оптимизации. Talk2Move использует оптимизацию групповой относительной политики (GRPO) для исследования геометрических действий через разнообразные сценарии, сгенерированные из входных изображений и легковесных текстовых вариаций, что устраняет необходимость в дорогостоящих парных данных. Модель с пространственным вознаграждением согласует геометрические преобразования с лингвистическим описанием, а внеполитическая пошаговая оценка и активное сэмплирование шагов повышают эффективность обучения за счет концентрации на информативных этапах преобразования. Кроме того, мы разрабатываем объектно-ориентированные пространственные вознаграждения, которые напрямую оценивают смещение, вращение и масштабирование, обеспечивая интерпретируемые и согласованные преобразования. Эксперименты на специально созданных бенчмарках показывают, что Talk2Move достигает точных, последовательных и семантически достоверных преобразований объектов, превосходя существующие подходы текстового редактирования как по пространственной точности, так и по согласованности сцены.
Хотя оценка достоверности является перспективным направлением для снижения галлюцинаций в больших языковых моделях (LLM), текущие исследования в основном сосредоточены на однораундовых сценариях. Динамика уверенности модели в многотурных диалогах, где контекст накапливается, а неоднозначность постепенно разрешается, остаётся в значительной степени неисследованной. Надёжная оценка достоверности в многотурных сценариях критически важна для многих прикладных задач, таких как автономные агенты и системы с участием человека. Данная работа представляет первое систематическое исследование оценки достоверности в многотурных взаимодействиях, устанавливая формальную схему оценки, основанную на двух ключевых требованиях: калибровке на каждом шаге и монотонности уверенности по мере поступления дополнительной информации. Для этого мы вводим новые метрики, включая нормированную по длине ожидаемую ошибку калибровки (InfoECE), и новую парадигму «Загадчик-Отгадчик» для генерации контролируемых наборов данных для оценки. Наши эксперименты показывают, что широко используемые методы оценки достоверности плохо справляются с калибровкой и монотонностью в многотурных диалогах. Мы предлагаем P(Sufficient) — зонд на основе логитов, который демонстрирует сравнительно лучшую производительность, хотя задача ещё далека от решения. Наша работа закладывает методологическую основу для разработки более надёжных и доверенных диалоговых агентов.
Хотя большие языковые модели (LLM) являются мощными инструментами для получения эмбеддингов, их применение в сценариях без обучения сталкивается с двумя структурными проблемами: каузальное внимание ограничивает доступ ранних токенов к последующему контексту, а целевая функция предсказания следующего токена смещает представления в сторону генерации, а не семантического сжатия. Для преодоления этих ограничений мы предлагаем KV-Embedding — фреймворк, активирующий скрытый репрезентативный потенциал замороженных LLM. Наш метод основан на наблюдении, что ключевые и ценностные (KV) состояния финального токена на каждом слое кодируют сжатое представление последовательности. Перенаправляя эти состояния в качестве префикса, мы обеспечиваем всем токенам доступ к контексту уровня последовательности за один прямой проход. Для обеспечения модельно-независимой применимости мы вводим автоматизированную стратегию выбора слоя на основе внутренней размерности. Оценки на benchmark MTEB для архитектур Qwen, Mistral и Llama показывают, что KV-Embedding превосходит существующие беспобучающие базовые методы до 10%, сохраняя при этом стабильную производительность на последовательностях длиной до 4096 токенов. Эти результаты демонстрируют, что манипуляция внутренними состояниями предлагает эффективную альтернативу модификации входных данных, и мы надеемся, что данная работа стимулирует дальнейшее исследование внутренних механизмов LLM для обучения представлений.
Мы представляем метод CPPO (Contrastive Perception Policy Optimization) для тонкой настройки визуально-языковых моделей (VLMs). Хотя обучение с подкреплением (RL) способствовало прогрессу в области рассуждений языковых моделей, его расширение на мультимодальные рассуждения требует улучшения как перцептивных, так и логических аспектов. Предыдущие работы решали эту задачу в основном с помощью явных перцептивных вознаграждений, однако разделение перцептивных и логических токенов является сложной задачей, требующей привлечения дополнительных больших языковых моделей (LLM), данных с размеченными истинными значениями, принудительного разделения восприятия и рассуждений в модели политики или применения вознаграждений ко всем выходным токенам без разбора. CPPO решает эту проблему путем обнаружения перцептивных токенов через анализ сдвигов энтропии в выходах модели при подаче искаженных входных изображений. Затем CPPO расширяет целевую функцию RL с помощью Контрастной Перцептивной Потери (CPL), которая обеспечивает согласованность выходов при информационно-сохраняющих искажениях и чувствительность — при информационно-удаляющих. Эксперименты показывают, что CPPO превосходит предыдущие методы с перцептивным вознаграждением, при этом не требуя дополнительных моделей, что делает обучение более эффективным и масштабируемым.
Восстановление трехмерной сетки человека из многовидовых изображений сталкивается с фундаментальной проблемой: реальные наборы данных содержат неидеальные эталонные разметки, которые вносят смещение в обучение моделей, в то время как синтетические данные с точными разметками страдают от междоменного разрыва. В данной статье мы предлагаем DiffProxy — новую архитектуру, которая генерирует согласованные по множеству viewpoints прокси-модели человека для восстановления сетки. Ключевая идея DiffProxy заключается в использовании генеративных априорных знаний на основе диффузионных моделей для преодоления разрыва между синтетическим обучением и обобщением на реальные данные. Основные инновации включают: (1) механизм многокритериального кондиционирования для генерации согласованных по видам и выровненных по пикселям прокси-моделей человека; (2) модуль refinement кистей, использующий гибкие визуальные подсказки для улучшения локальных деталей; и (3) метод масштабирования на этапе тестирования с учетом неопределенности, повышающий устойчивость к сложным случаям в процессе оптимизации. Данные решения обеспечивают эффективное использование преимуществ точных синтетических разметок и генеративных возможностей диффузионного пайплайна в процессе восстановления сетки. Обученная исключительно на синтетических данных, DiffProxy демонстрирует наилучшие результаты на пяти реальных бенчмарках, показывая высокую zero-shot обобщающую способность, особенно в сложных сценариях с окклюзиями и частичными обзорами. Страница проекта: https://wrk226.github.io/DiffProxy.html
По мере внедрения больших языковых моделей в критически важные корпоративные приложения — от здравоохранения до финансов — обеспечение соблюдения специфических политик организаций стало насущной необходимостью. Однако существующие оценки безопасности сосредоточены исключительно на универсальных рисках. Мы представляем COMPASS (Company/Organization Policy Alignment Assessment) — первую систематическую методологию для оценки соблюдения LLM разрешительных и запретительных политик организаций. Применяя COMPASS к восьми различным отраслевым сценариям, мы создали и проверили 5920 запросов, которые тестируют как рутинное соответствие, так и устойчивость к адверсарным атакам через стратегически спроектированные пограничные случаи. Оценивая семь современных моделей, мы выявили фундаментальную асимметрию: модели надежно обрабатывают легитимные запросы (точность >95%), но катастрофически не справляются с применением запретов, отклоняя лишь 13–40% нарушений запретительного списка в адверсарных сценариях. Эти результаты демонстрируют, что современные LLM не обладают достаточной надежностью для развертывания в политически-критичных сферах, что утверждает COMPASS в качестве необходимой системы оценки для обеспечения безопасности ИИ в организациях.
Полуавтоматическая семантическая сегментация изображений дистанционного зондирования (ДЗ) предлагает перспективное решение для снижения трудоемкости исчерпывающей разметки, однако она фундаментально сталкивается с дрейфом псевдометок — явлением, когда ошибки накапливаются в процессе обучения из-за confirmation bias. В данной работе мы предлагаем Co2S, стабильную полуавтоматическую框架 сегментации ДЗ, которая синергетически объединяет априорные знания моделей «визуальный язык» и самообучающихся моделей. В частности, мы создаем гетерогенную архитектуру с двумя студентами, состоящую из двух различных базовых визуальных моделей на основе ViT, инициализированных предобученными CLIP и DINOv3, чтобы смягчить накопление ошибок и дрейф псевдометок. Для эффективного включения этих различных априорных знаний вводится механизм совместного явно-неявного семантического руководства, который использует текстовые эмбеддинги и обучаемые запросы для обеспечения явного и неявного руководства на уровне классов соответственно, что совместно повышает семантическую согласованность. Кроме того, разработана стратегия совместного слияния глобально-локальных признаков для эффективного объединения глобальной контекстной информации, захватываемой CLIP, с локальными деталями, производимыми DINOv3, что позволяет модели генерировать высокоточные результаты сегментации. Многочисленные эксперименты на шести популярных наборах данных демонстрируют превосходство предложенного метода, который стабильно достигает ведущей производительности при различных протоколах разбиения и в разнообразных сценариях. Страница проекта доступна по адресу https://xavierjiezou.github.io/Co2S/.
Мы представляем SWE-Lego — метод supervised fine-tuning (SFT), разработанный для достижения передовых результатов в решении задач программной инженерии (SWE). В отличие от распространенных подходов, основанных на сложных парадигмах обучения (например, mid-training, SFT, обучение с подкреплением и их комбинациях), мы исследуем, как расширить возможности облегченного подхода, использующего только SFT для SWE-задач. SWE-Lego состоит из трех основных компонентов, ключевые выводы по которым суммируются следующим образом: 1) набор данных SWE-Lego, включающий 32 тыс. высококачественных примеров задач и 18 тыс. проверенных траекторий, сочетающий реальные и синтетические данные для взаимного дополнения по качеству и количеству; 2) усовершенствованная процедура SFT с маскированием ошибок и обучением по нарастающей сложности, которая достоверно улучшает качество действий и общую производительность. Эмпирические результаты показывают, что даже только с этими двумя компонентами SFT позволяет моделям SWE-Lego достичь передовых результатов среди моделей сопоставимого размера с открытым исходным кодом на SWE-bench Verified: SWE-Lego-Qwen3-8B достигает 42,2%, а SWE-Lego-Qwen3-32B — 52,6%. 3) Мы дополнительно оцениваем и улучшаем масштабирование на этапе тестирования (TTS), построенное на основе SFT. Благодаря хорошо обученному верификатору производительность моделей SWE-Lego может быть значительно повышена — например, с 42,2% до 49,6% и с 52,6% до 58,8% при TTS@16 для моделей на 8 млрд и 32 млрд параметров соответственно.
Оценка новизны является критически важной, но сложной задачей в рецензировании, поскольку рецензенты должны оценивать представленные работы в контексте обширной и быстро развивающейся научной литературы. В данном отчете представлена система OpenNovelty — агентная система на основе больших языковых моделей (LLM) для прозрачного, основанного на доказательствах анализа новизны. Система функционирует в четыре этапа: (1) извлечение основной задачи и заявлений о вкладе для генерации поисковых запросов; (2) поиск релевантных предыдущих работ на основе извлеченных запросов с помощью семантической поисковой системы; (3) построение иерархической таксономии работ, связанных с основной задачей, и проведение полнотекстовых сравнений на уровне вклада для каждого заявления; и (4) синтез всех анализов в структурированный отчет о новизне с явными цитированиями и фрагментами доказательств. В отличие от наивных подходов на основе LLM, OpenNovelty обосновывает все оценки на найденных реальных статьях, обеспечивая проверяемость суждений. Мы развернули нашу систему на более чем 500 заявках ICLR 2026, и все отчеты общедоступны на нашем сайте; предварительный анализ показывает, что система способна выявлять релевантные предыдущие работы, включая близко связанные статьи, которые авторы могли упустить. OpenNovelty призвана предоставить научному сообществу масштабируемый инструмент, способствующий справедливому, последовательному и доказательно обоснованному рецензированию.
Мы представляем материомузыку как генеративную систему, связывающую иерархические структуры материи с композиционной логикой музыки. В белках, паутинах и динамике пламени вибрационные и архитектурные принципы повторяются в виде тональных иерархий, гармонических последовательностей и крупной музыкальной формы. Используя обратимые преобразования — от молекулярных спектров к музыкальным тонам и от трёхмерных сетей к играбельным инструментам — мы показываем, как звук функционирует в качестве научного зонда, осуществляя эпистемическую инверсию, при которой слушание становится способом видения, а музыкальная композиция — чертежом материи. Эти отображения раскрывают глубину времени: паттерны, берущие начало в фемтосекундных молекулярных вибрациях или миллиардолетних эволюционных историях, становятся слышимыми. Мы постулируем, что новизна в науке и искусстве возникает, когда ограничения не могут быть удовлетворены в рамках существующих степеней свободы, вынуждая расширять пространство жизнеспособных конфигураций. Селективная несовершенность служит механизмом, восстанавливающим баланс между связностью и адаптивностью. Количественное подтверждение приходит из исчерпывающего перечисления всех 2^12 музыкальных ладов, которое показывает, что культурно значимые системы группируются в коридоре средней энтропии и средней дефектности, что напрямую соответствует оптимуму Холла-Петча, где промежуточная плотность дефектов максимизирует прочность материала. Итерация этих отображений создает продуктивные столкновения человеческого творчества и физики, порождая новую информацию, когда музыкальные структуры сталкиваются с эволюционными ограничениями. Мы демонстрируем, как роевые ИИ-модели сочиняют музыку, проявляющую человеко-подобные структурные сигнатуры, такие как small-world связность, модульная интеграция, дальнодействующая когерентность, что указывает путь за пределы интерполяции к изобретению. Мы показываем, что наука и искусство являются генеративными актами созидания миров в условиях ограничений, где вибрация служит общим грамматическим принципом, организующим структуру на всех масштабах.
Мультианнотированная сегментация медицинских изображений является важной исследовательской задачей, но требует размеченных наборов данных, сбор которых сопряжен с высокими затратами. Дерматоскопическая визуализация кожных поражений позволяет экспертам-людям и системам ИИ наблюдать морфологические структуры, которые невозможно различить на стандартных клинических фотографиях. Однако в настоящее время не существует крупномасштабных общедоступных наборов данных для мультианнотированной сегментации кожных поражений (SLS), содержащих разметку от разных аннотаторов для дерматоскопических изображений. Мы представляем ISIC MultiAnnot++ — крупный публичный набор данных для мультианнотированной сегментации кожных поражений на изображениях из архива ISIC. Финальный набор данных содержит 17 684 маски сегментации, охватывающих 14 967 дерматоскопических изображений, причем 2 394 изображения имеют от 2 до 5 сегментаций на каждое, что делает его крупнейшим общедоступным набором данных SLS. Кроме того, включены метаданные о сегментации, включая уровень квалификации аннотаторов и используемый инструмент разметки, что открывает возможности для исследований таких тем, как моделирование предпочтений конкретных аннотаторов при сегментации и анализ их метаданных. Мы предоставляем анализ характеристик этого набора данных, курированные разделы данных и консенсусные маски сегментации.
Модели гео-основ (Geo-Foundation Models, GFMs) доказали свою эффективность в различных последующих приложениях, включая задачи семантической сегментации, классификации и регрессии. Однако в случае картирования наводнений с использованием набора данных Sen1Flood11 в качестве последующей задачи GFMs не превосходят базовую модель U-Net, что указывает на ограничение модели в захвате критически важных локальных особенностей. Для решения этой проблемы мы представляем Prithvi-Complementary Adaptive Fusion Encoder (CAFE), который интегрирует предобученный энкодер GFM Prithvi с параллельным остаточным ветвлением на основе CNN, усиленным модулями сверточной внимательности (Convolutional Attention Modules, CAM). Prithvi-CAFE позволяет проводить быструю и эффективную дообучку с помощью адаптеров в Prithvi и выполняет многомасштабное, многоуровневое слияние с признаками CNN, захватывая критически важные локальные детали при сохранении длинных дистанционных зависимостей. Мы достигли наилучших результатов на двух комплексных наборах данных для картирования наводнений: Sen1Flood11 и FloodPlanet. На тестовых данных Sen1Flood11 Prithvi-CAFE (IoU 83.41) превзошел оригинальный Prithvi (IoU 82.50) и другие основные GFMs (TerraMind 82.90, DOFA 81.54, spectralGPT: 81.02). Улучшение еще более заметно на отложенном тестовом участке, где Prithvi-CAFE достиг IoU 81.37 по сравнению с базовым U-Net (70.57) и оригинальным Prithvi (72.42). На наборе данных FloodPlanet Prithvi-CAFE также превзошел базовый U-Net и другие GFMs, достигнув IoU 64.70 по сравнению с U-Net (60.14), Terramind (62.33), DOFA (59.15) и Prithvi 2.0 (61.91). Наша предлагаемая простая, но эффективная архитектура Prithvi-CAFE демонстрирует значительный потенциал для улучшения задач сегментации, где многоканальные и многомодальные данные предоставляют дополнительную информацию, а локальные детали имеют критическое значение. Код доступен по адресу: https://github.com/Sk-2103/Prithvi-CAFE.
По мере того как агентам на основе больших языковых моделей (LLM) все чаще поручают принятие автономных решений с высокими ставками, прозрачность их процессов рассуждения становится критически важной проблемой безопасности. Хотя prompting по цепочке мыслей (CoT) позволяет агентам генерировать удобочитаемые трассировки рассуждений, остается неясным, являются ли эти трассы подлинными генеративными драйверами вывода модели или же всего лишь постфактумными рационализациями. Мы представляем Project Ariadne — новую рамку объяснимого ИИ (XAI), которая использует структурные причинно-следственные модели (SCM) и контрафактическую логику для аудита причинной целостности агентских рассуждений. В отличие от существующих методов интерпретируемости, опирающихся на поверхностное текстовое сходство, Project Ariadne выполняет жесткие интервенции (do-исчисление) на промежуточные узлы рассуждений — систематически инвертируя логику, отрицая посылки и опровергая фактологические утверждения — для измерения причинной чувствительности (φ) конечного ответа. Наше эмпирическое оценивание передовых моделей выявляет устойчивый Разрыв Достоверности. Мы определяем и обнаруживаем широко распространенный режим сбоя, названный Причинным Разъединением, при котором агенты демонстрируют плотность нарушений (ρ) до 0.77 в фактологических и научных областях. В этих случаях агенты приходят к идентичным выводам, несмотря на противоречивую внутреннюю логику, что доказывает, что их трассировки рассуждений функционируют как «Театр Рассуждений», в то время как принятие решений управляется латентными параметрическими априорными убеждениями. Наши результаты позволяют предположить, что современные агентские архитектуры изначально склонны к недостоверным объяснениям, и мы предлагаем Оценку Ариадны в качестве нового эталона для согласования заявленной логики с действиями модели.
Диффузионные модели для генерации изображений по тексту могут создавать вредоносный или защищенный авторским правом контент, что стимулирует исследования по удалению концептов. Однако существующие подходы в основном сосредоточены на удалении концептов из текстовых промптов, упуская из виду другие модальности ввода, которые становятся все более важными в реальных приложениях, таких как редактирование изображений и персонализированная генерация. Эти модальности могут стать поверхностями для атак, когда удаленные концепты вновь проявляются, несмотря на защитные меры. Чтобы заполнить этот пробел, мы представляем M-ErasureBench — новую мультимодальную систему оценки, которая систематически тестирует методы удаления концептов в трех модальностях ввода: текстовые промпты, обученные эмбеддинги и инвертированные латентные представления. Для двух последних мы оцениваем как белый, так и черный ящик, получая пять сценариев оценки. Наш анализ показывает, что существующие методы демонстрируют высокую эффективность удаления против текстовых промптов, но в значительной степени терпят неудачу при работе с обученными эмбеддингами и инвертированными латентными представлениями, где уровень воспроизведения концептов (Concept Reproduction Rate, CRR) превышает 90% в настройке белого ящика. Для устранения этих уязвимостей мы предлагаем IRECE (Inference-time Robustness Enhancement for Concept Erasure) — подключаемый модуль, который локализует целевые концепты с помощью кросс-внимания и возмущает связанные латентные представления в процессе денойзинга. Эксперименты показывают, что IRECE последовательно восстанавливает robustness, снижая CRR до 40% в наиболее сложном сценарии инверсии латентных представлений с белым ящиком, при этом сохраняя визуальное качество. Насколько нам известно, M-ErasureBench представляет собой первый всесторонний бенчмарк для оценки удаления концептов за пределами текстовых промптов. Вместе с IRECE наш бенчмарк предлагает практические средства защиты для создания более надежных защищенных генеративных моделей.