Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем SAM 3D — генеративную модель для визуально обоснованной 3D-реконструкции объектов, которая предсказывает геометрию, текстуру и компоновку по одному изображению. SAM 3D особенно эффективна при работе с естественными изображениями, где обычны окклюзия и захламленность сцены, а визуальные контекстные подсказки играют более важную роль. Мы достигаем этого с помощью конвейера аннотирования с участием человека и модели, который обеспечивает разметку формы, текстуры и позы объектов, создавая визуально обоснованные данные для 3D-реконструкции в беспрецедентном масштабе. Обучение на этих данных происходит в современной многоэтапной системе, сочетающей синтетическое предварительное обучение с адаптацией к реальным условиям, что позволяет преодолеть «барьер данных» в 3D. Наш метод демонстрирует значительное преимущество над последними разработками, показывая как минимум 5:1 соотношение предпочтений в тестах с участием людей для реальных объектов и сцен. Мы опубликуем наш код и веса модели, онлайн-демонстрацию, а также новый сложный бенчмарк для 3D-реконструкции объектов в неконтролируемых условиях.
Агенты больших языковых моделей (LLМ), часто обучаемые с подкреплением (RL), ограничены зависимостью от данных, курируемых человеком, что сужает масштабируемость и привязывает ИИ к человеческим знаниям. Существующие фреймворки саморазвития предлагают альтернативу, но обычно ограничены врожденными возможностями модели и однораундовыми взаимодействиями, что препятствует разработке сложных учебных планов, включающих использование инструментов или динамические рассуждения. Мы представляем Agent0 — полностью автономный фреймворк, который развивает высокопроизводительных агентов без внешних данных посредством многошаговой коэволюции и бесшовной интеграции инструментов. Agent0 устанавливает симбиотическое соревнование между двумя агентами, инициализированными из одной базовой LLМ: агентом-разработчиком учебного плана, который предлагает все более сложные фронтирные задачи, и агентом-исполнителем, который учится их решать. Мы интегрируем внешние инструменты для расширения способностей исполнителя к решению задач; это улучшение, в свою очередь, стимулирует агента-разработчика создавать более сложные, учитывающие инструменты задания. Посредством этого итеративного процесса Agent0 устанавливает самоподкрепляющийся цикл, непрерывно производящий высококачественные учебные планы. Эмпирически Agent0 существенно повышает способности к рассуждению, улучшая модель Qwen3-8B-Base на 18% в математических рассуждениях и на 24% в общих бенчмарках на рассуждение. Код доступен по адресу https://github.com/aiming-lab/Agent0.
Какую роль играет первый кадр в моделях генерации видео? Традиционно он рассматривается как пространственно-временная отправная точка видео, просто "семя" для последующей анимации. В данной работе мы раскрываем принципиально иной взгляд: видео-модели неявно трактуют первый кадр как концептуальный буфер памяти, который сохраняет визуальные сущности для их последующего повторного использования в процессе генерации. Опираясь на это понимание, мы демонстрируем возможность достижения устойчивой и обобщенной кастомизации видеоконтента в различных сценариях, используя всего 20–50 обучающих примеров без изменения архитектуры или масштабного дообучения. Это раскрывает мощную, недооцененную способность моделей генерации видео к созданию видео на основе референсов.
Последние достижения в области моделей рассуждений продемонстрировали впечатляющий успех в текстовой и визуальной областях благодаря расширенным цепочкам мыслей. Однако в аудио-языковых моделях сохраняется загадочный феномен: они стабильно показывают лучшие результаты при минимальных или отсутствующих рассуждениях, что поднимает фундаментальный вопрос — может ли аудиоинтеллект действительно выиграть от продуманного мышления? Мы представляем Step-Audio-R1 — первую модель аудиорассуждений, которая успешно раскрывает способности к рассуждению в аудиодомене. Благодаря предложенной нами структуре Modality-Grounded Reasoning Distillation (MGRD) Step-Audio-R1 обучается генерировать релевантные аудио цепочки рассуждений, которые действительно основаны на акустических особенностях, а не создают несвязанные домыслы. Наша модель демонстрирует мощные возможности аудиорассуждений, превосходя Gemini 2.5 Pro и достигая производительности, сопоставимой с передовой моделью Gemini 3 Pro в комплексных тестах на понимание и рассуждение в аудио, охватывающих речь, окружающие звуки и музыку. Эти результаты показывают, что рассуждение является передаваемой способностью между модальностями при соответствующем закреплении, превращая расширенное обдумывание из недостатка в мощный инструмент для аудиоинтеллекта. Установив первую успешную модель аудиорассуждений, Step-Audio-R1 открывает новые пути для создания truly мультимодальных систем рассуждений, которые глубоко мыслят across всеми сенсорными модальностями.
Несмотря на значительный прогресс, мультимодальные базовые модели по-прежнему демонстрируют удивительные недостатки в области пространственного интеллекта. В данной работе мы исследуем масштабирование мультимодальных базовых моделей для развития пространственного интеллекта в рамках семейства SenseNova-SI, построенного на проверенных мультимодальных основах, включая модели визуального понимания (такие как Qwen3-VL и InternVL3) и унифицированные модели понимания и генерации (например, Bagel). Мы применяем принципиальный подход к созданию высокопроизводительного и устойчивого пространственного интеллекта путем систематического формирования SenseNova-SI-8M: восьми миллионов разнообразных примеров данных в рамках строгой таксономии пространственных способностей. SenseNova-SI демонстрирует беспрецедентную производительность на широком спектре бенчмарков пространственного интеллекта: 68,7% на VSI-Bench, 43,3% на MMSI, 85,6% на MindCube, 54,6% на ViewSpatial и 50,1% на SITE, сохраняя при этом высокий уровень общего мультимодального понимания (например, 84,9% на MMBench-En). Что более важно, мы анализируем влияние масштабирования данных, обсуждаем ранние признаки возникающих обобщающих способностей, обеспечиваемых обучением на разнообразных данных, анализируем риск переобучения и языковых сокращений, представляем предварительное исследование пространственных рассуждений по цепочке и проверяем потенциал применения на практике. SenseNova-SI является продолжающимся проектом, и данный отчет будет регулярно обновляться. Все вновь обученные мультимодальные базовые модели публикуются в открытом доступе для содействия дальнейшим исследованиям в этом направлении.
Последние достижения в области генеративных моделей видео, такие как Veo-3, продемонстрировали удивительные способности к рассуждению в условиях нулевого обучения, что создает растущую потребность в систематической и надежной оценке. Мы представляем V-ReasonBench — эталонный тест, разработанный для оценки способности к рассуждению на основе видео по четырем ключевым направлениям: структурированное решение задач, пространственное восприятие, вывод на основе паттернов и физическая динамика. Этот тест создан на основе как синтетических, так и реальных последовательностей изображений и предлагает разнообразный набор задач с проверяемыми ответами, которые воспроизводимы, масштабируемы и однозначны. Оценка шести современных моделей видео выявила четкие различия по направлениям, с сильной вариацией в структурированном, пространственном, паттерн-ориентированном и физическом рассуждении. Мы также сравниваем модели видео с мощными моделями изображений, анализируем типичные случаи галлюцинаций и изучаем, как продолжительность видео влияет на рассуждение в рамках цепочки кадров. В целом, V-ReasonBench предлагает унифицированную и воспроизводимую структуру для измерения способности к рассуждению на основе видео и направлен на поддержку разработки моделей с более надежными и согласованными с человеческим мышлением навыками рассуждения.
Хотя языковые модели нашли широкое применение во многих реальных задачах, генерация видео в значительной степени остается ограниченной сферой развлечений. Мотивируясь присущей видео способностью демонстрировать информацию о физическом мире, которую трудно передать только языком (например, представьте обучение человека завязывать галстук, используя лишь текст), мы выявили недостаточно используемую возможность расширить видео как новую модальность ответа для задачи предсказания следующего события (Next-Event Prediction, NEP), формализованную как Video-Next-Event Prediction (VNEP). В то время как установленная задача NEP принимает на вход видео с процедурным или прогностическим вопросом и предсказывает следующее событие в текстовой форме, VNEP требует динамических видео-ответов. Этот переход от «рассказа» к «показу» открывает более интуитивные и кастомизированные ответы для процедурного обучения и творческого исследования. Однако эта задача остается сложной для существующих моделей, поскольку требует понимания мультимодального ввода, рассуждений, обусловленных инструкциями, и генерации видео с визуальной и семантической согласованностью. Для решения этой проблемы мы представляем VANS — модель, которая использует обучение с подкреплением для согласования Vision-Language Model (VLM) с Video Diffusion Model (VDM) для задачи VNEP. Основой VANS является наш предложенный метод Joint-GRPO, который координирует работу VLM и VDM как единого целого. Руководствуясь общей функцией вознаграждения на их соответствующие выходы, он оптимизирует VLM для генерации captions (текстовых описаний), которые являются одновременно точными и удобными для визуализации, и направляет VDM на генерацию видео, которые достоверно отражают эти описания и входной визуальный контекст. Для обеспечения такого обучения мы создали VANS-Data-100K — специализированный набор данных для задачи VNEP. Эксперименты на процедурных и прогностических бенчмарках демонстрируют, что VANS достигает state-of-the-art результатов как в предсказании видео-событий, так и в визуализации. Код доступен по адресу https://github.com/KlingTeam/VANS.
Обучение семейства больших языковых моделей, ориентированных на различные масштабы и цели развертывания, является чрезмерно дорогостоящим, поскольку требует отдельных циклов обучения для каждого размера модели. Недавние работы по сжатию моделей с помощью прунинга и дистилляции знаний позволили снизить эти затраты; однако данный процесс по-прежнему требует сотен миллиардов токенов для обучения каждой сжатой модели. В данной статье мы представляем Nemotron Elastic — фреймворк для создания LLM, ориентированных на логические рассуждения, включая гибридные архитектуры Mamba-Attention, который позволяет встраивать несколько вложенных подмоделей в одну родительскую модель, каждая из которых оптимизирована для различных конфигураций и бюджетов развертывания. Каждая из этих подмоделей разделяет веса с родительской моделью и может быть извлечена zero-shot во время развертывания без дополнительного обучения или тонкой настройки. Мы обеспечиваем эту функциональность с помощью сквозного обучения маршрутизатора, тесно связанного с двухэтапным учебным планом, специально разработанным для моделей логического вывода. Дополнительно мы представляем групповую эластификацию SSM с сохранением структурных ограничений Mamba, гетерогенную эластификацию MLP, нормализованную оценку важности слоев на основе MSE для улучшения выбора глубины и дистилляцию знаний, позволяющую одновременную оптимизацию для нескольких бюджетов. Мы применяем Nemotron Elastic к модели Nemotron Nano V2 12B, одновременно создавая модели на 9B и 6B параметров, используя всего 110B токенов обучения; это приводит к сокращению затрат более чем в 360 раз по сравнению с обучением семейств моделей с нуля и примерно в 7 раз по сравнению с современными методами сжатия. Каждая из вложенных моделей демонстрирует точность на уровне или выше современных аналогов. Более того, в отличие от других методов сжатия, вложенная природа нашего подхода позволяет создать модель рассуждений «много-в-одном», которая имеет постоянный объем памяти при развертывании независимо от количества моделей в семействе.
Мы представляем MiMo-Embodied — первую кросстемпоральную базовую модель с открытым исходным кодом, которая успешно интегрирует и демонстрирует наилучшие результаты как в области автономного вождения, так и в воплощённом искусственном интеллекте. MiMo-Embodied устанавливает новые рекорды на 17 тестах воплощённого ИИ по планированию задач, предсказанию аффордансов и пространственному пониманию, одновременно превосходя конкурентов на 12 тестах автономного вождения по восприятию окружения, прогнозированию состояния и планированию траектории. При решении этих задач модель значительно опережает существующие открытые, проприетарные и специализированные базовые решения. Наши результаты показывают, что благодаря многоэтапному обучению, тщательно отобранным данным и тонкой настройке методом цепочек рассуждений и обучения с подкреплением, эти две области демонстрируют сильный позитивный перенос и взаимно усиливают друг друга. Мы предоставляем детальный анализ архитектуры модели и методик обучения для содействия дальнейшим исследованиям. Код и модели доступны по адресу https://github.com/XiaomiMiMo/MiMo-Embodied.
Модели «Vision-Language-Action» (VLA) демонстрируют высокую эффективность в задачах роботизированного манипулирования, однако их возможности ограничены сильной зависимостью от экспертных демонстраций, что приводит к смещению в сторону демонстрационных данных и снижает общую производительность. Обучение с подкреплением (RL) является ключевой стратегией пост-обучения для преодоления этих ограничений, однако современные методы VLA-RL, включая подходы на основе групповой оптимизации, страдают от сильной разреженности вознаграждений. Опора на бинарные индикаторы успеха приводит к потере ценной информации из неудачных траекторий и низкой эффективности обучения. Для решения этой проблемы мы предлагаем Self-Referential Policy Optimization (SRPO) — новую RL-структуру для VLA-моделей. SRPO устраняет необходимость во внешних демонстрациях или ручном проектировании вознаграждений, используя успешные траектории самой модели, сгенерированные в рамках текущей обучающей выборки, в качестве самореференции. Это позволяет назначать прогрессивное вознаграждение для неудачных попыток. Ключевым нововведением является использование латентных представлений мира для робастной оценки поведенческого прогресса. Вместо reliance на сырые пиксели или необходимости доменно-специфичной донастройки мы используем сжатые, переносимые кодировки из латентного пространства модели мира. Эти представления естественным образом capture закономерности прогресса в различных средах, обеспечивая точное и обобщённое сравнение траекторий. Эмпирические оценки на бенчмарке LIBERO подтверждают эффективность SRPO. Начиная с базового supervised-уровня в 48.9% успеха, SRPO достигает нового state-of-the-art результата в 99.2% успеха всего за 200 шагов RL, что соответствует относительному улучшению на 103% без какого-либо дополнительного контроля. Кроме того, SRPO демонстрирует значительную робастность, улучшая производительность на 167% в бенчмарке LIBERO-Plus.
Больницы и системы здравоохранения зависят от операционных решений, определяющих поток пациентов, стоимость и качество медицинской помощи. Несмотря на высокие показатели в области медицинских знаний и диалоговых тестов, базовые модели, обученные на общих текстах, могут не обладать специализированными знаниями, необходимыми для таких операционных решений. Мы представляем Lang1 — семейство моделей (от 100 млн до 7 млрд параметров), предварительно обученных на специализированном корпусе, объединяющем 80 млрд клинических токенов из электронных медицинских карт (ЭМК) NYU Langone Health и 627 млрд токенов из интернета. Для строгой оценки Lang1 в реальных условиях мы разработали реалистичный медицинский бенчмарк (ReMedE), основанный на 668 331 записях ЭМК и оценивающий пять ключевых задач: прогнозирование повторной госпитализации в течение 30 дней, прогнозирование смертности в течение 30 дней, продолжительность пребывания, кодирование коморбидности и прогнозирование отказа в страховых выплатах. В условиях zero-shot как общецелевые, так и специализированные модели показывают низкие результаты по четырем из пяти задач (36,6%–71,7% AUROC), за исключением прогнозирования смертности. После дообучения Lang1-1B превосходит дообученные общецелевые модели размером до 70 раз больше и zero-shot модели размером до 671 раза больше, улучшая AUROC на 3,64%–6,75% и 1,66%–23,66% соответственно. Мы также наблюдали кросс-задачное масштабирование: совместное дообучение по нескольким задачам привело к улучшению результатов по другим задачам. Lang1-1B эффективно адаптируется к условиям вне распределения данных, включая другие клинические задачи и внешние системы здравоохранения. Наши результаты показывают, что прогностические возможности для работы больниц требуют явного контролируемого дообучения, и что этот процесс становится более эффективным при предварительном обучении на доменно-специфичных данных ЭМК. Наши выводы подтверждают формирующуюся точку зрения, что специализированные большие языковые модели могут конкурировать с общецелевыми моделями в специализированных задачах, и демонстрируют, что эффективный ИИ для систем здравоохранения требует комбинации предварительного обучения в предметной области, контролируемого дообучения и оценки в реальных условиях за пределами суррогатных бенчмарков.
Нейронные системы информационного поиска демонстрируют превосходные результаты для языков с большими ресурсами, однако остаются малоизученными для морфологически богатых языков с ограниченными ресурсами, таких как турецкий. В настоящее время в турецком информационном поиске доминируют плотные би-энкодеры, в то время как модели с поздним взаимодействием — сохраняющие токенные представления для точного сопоставления — не были систематически оценены. Мы представляем TurkColBERT, первый комплексный бенчмарк, сравнивающий плотные энкодеры и модели с поздним взаимодействием для поиска на турецком языке. Наш двухэтапный конвейер адаптации дообучает английские и многоязычные энкодеры на задачах турецкого NLI/STS, а затем преобразует их в ColBERT-стильные модели поиска с использованием PyLate, обученной на MS MARCO-TR. Мы оцениваем 10 моделей на пяти турецких наборах данных BEIR, охватывающих научную, финансовую и аргументативную области. Результаты демонстрируют высокую параметрическую эффективность: модель colbert-hash-nano-tr с 1.0 млн параметров в 600 раз меньше, чем плотный энкодер turkish-e5-large с 600 млн параметров, сохраняя при этом более 71% его средней mAP. Модели с поздним взаимодействием, которые в 3–5 раз меньше плотных энкодеров, значительно превосходят их; ColmmBERT-base-TR показывает прирост до +13.8% mAP в предметно-ориентированных задачах. Для производственной готовости мы сравниваем алгоритмы индексирования: MUVERA+Rerank в 3.33 раза быстрее, чем PLAID, и обеспечивает относительное увеличение mAP на +1.7%. Это позволяет достичь поиска с низкой задержкой: ColmmBERT-base-TR демонстрирует время обработки запроса 0.54 мс при использовании MUVERA. Мы публикуем все контрольные точки, конфигурации и скрипты оценки. Ограничения включают зависимость от наборов данных умеренного размера (≤50K документов) и переведенных бенчмарков, которые могут не полностью отражать реальные условия поиска на турецком языке; необходимы более масштабные оценки MUVERA.
Мы представляем NaTex — фреймворк для нативной генерации текстур, который предсказывает цвет текстуры непосредственно в 3D-пространстве. В отличие от предыдущих подходов, основанных на запекании 2D-изображений с нескольких ракурсов, синтезированных геометрически-условными моделями мультивидовой диффузии (MVD), NaTex избегает ряда присущих MVD-конвейеру ограничений. К ним относятся сложности обработки загороженных областей, требующих дорисовки, достижения точного совмещения сетки и текстуры вдоль границ, а также поддержания межвидовой согласованности и целостности как содержания, так и интенсивности цвета. NaTex предлагает новую парадигму, решающую указанные проблемы за счет рассмотрения текстуры как плотного цветового облака точек. Руководствуясь этой идеей, мы предлагаем латентную цветовую диффузию, которая включает геометрически-осведомленный VAE для цветового облака точек и диффузионный трансформер (DiT) с множественным управлением, полностью обученные с нуля на 3D-данных для реконструкции и генерации текстур. Для обеспечения точного выравнивания мы вводим нативный геометрический контроль, который обусловливает DiT прямой 3D-пространственной информацией через позиционные эмбеддинги и геометрические латенты. Мы совместно проектируем архитектуру VAE-DiT, где геометрические латенты извлекаются с помощью выделенной геометрической ветви, тесно связанной с цветовым VAE, что обеспечивает детальное поверхностное руководство, сохраняющее строгое соответствие с текстурой. Благодаря этим решениям NaTex демонстрирует высокую производительность, значительно превосходя предыдущие методы по согласованности текстур и точности выравнивания. Более того, NaTex также проявляет сильные способности к обобщению, либо без дообучения, либо с простой настройкой, для различных прикладных задач, таких как генерация материалов, уточнение текстур, а также сегментация частей и их текстурирование.
Последние достижения в области визуальной генерации все активнее исследуют интеграцию возможностей логического вывода. Существующие подходы включают текстовое рассуждение (т.н. "размышление") либо до (как предварительное планирование), либо после (как последующее уточнение) процесса генерации, однако им не хватает интерактивного мультимодального взаимодействия в реальном времени в ходе самой генерации. В данном предварительном исследовании мы представляем Thinking-while-Generating (TwiG) — первую чередующуюся структуру, которая позволяет совместно развивать текстовые рассуждения на протяжении всего процесса визуальной генерации. По мере постепенного создания визуального контента текстовые рассуждения встраиваются в процесс, чтобы направлять формирование последующих локальных областей и анализировать уже синтезированные. Такое динамическое взаимодействие позволяет получать более контекстно-осознанные и семантически насыщенные визуальные результаты. Для раскрытия потенциала данного подхода мы исследуем три стратегии: zero-shot prompting, контролируемое тонкое обучение (SFT) на нашем специально созданном наборе данных TwiG-50K и обучение с подкреплением (RL) с помощью кастомизированной стратегии TwiG-GRPO, каждая из которых дает уникальное представление о динамике чередующихся рассуждений. Мы надеемся, что эта работа вдохновит на дальнейшие исследования в области интеграции текстовых рассуждений для улучшения визуальной генерации. Код будет доступен по адресу: https://github.com/ZiyuGuo99/Thinking-while-Generating.
Мы представляем TimeViper — гибридную визуально-языковую модель, предназначенную для решения задач понимания длинных видео. Обработка длинных видео требует как эффективной архитектуры модели, так и действенного механизма работы с протяженными временными контекстами. Для этой цели TimeViper использует гибридный бэкбон Mamba-Transformer, сочетающий эффективность моделей пространства состояний с выразительностью механизмов внимания. Благодаря этой гибридной конструкции мы выявили феномен агрегации информации от визуальных токенов к текстовым, при котором информация постепенно перетекает от визуальных токенов к текстовым с увеличением глубины большой языковой модели, что приводит к значительной избыточности визуальных токенов. Руководствуясь этим наблюдением, мы предлагаем TransV — модуль передачи информации токенов, который переносит и сжимает визуальные токены в инструкционные токены, сохраняя при этом возможности мультимодального понимания. Такая конструкция позволяет TimeViper обрабатывать часовые видео продолжительностью свыше 10 000 кадров. Многочисленные эксперименты на различных бенчмарках демонстрируют, что TimeViper конкурирует с передовыми моделями, одновременно увеличивая количество обрабатываемых кадров. Мы также анализируем поведение внимания в слоях Mamba и Transformer, предлагая новые insights для интерпретируемости гибридных моделей. Данная работа представляет собой начальный шаг в направлении разработки, интерпретации и сжатия гибридных архитектур Mamba-Transformer.
Развертка UV преобразует трехмерные поверхности в двумерные с минимальными искажениями, что часто требует декомпозиции сложной поверхности на множество сегментов (чартов). Несмотря на обширные исследования, существующие методы UV-развертки часто сталкиваются с трудностями при работе с AI-генерируемыми сетками, которые обычно зашумлены, имеют неровную поверхность и плохую обусловленность. Эти методы часто производят сильно фрагментированные чарты и неоптимальные границы, что приводит к артефактам и затрудняет последующие задачи. Мы представляем PartUV — конвейер UV-развертки на основе частей, который генерирует значительно меньшее количество чартов, выровненных по семантическим частям, при сохранении низкого уровня искажений. Построенный на основе современного метода декомпозиции на части PartField, основанного на машинном обучении, PartUV сочетает в себе декомпозицию на семантические части высокого уровня с новыми геометрическими эвристиками в рамках нисходящей рекурсивной структуры. Метод гарантирует, что искажения каждого чарта остаются ниже заданного пользователем порога, одновременно минимизируя общее количество чартов. Конвейер интегрирует и расширяет алгоритмы параметризации и упаковки, включает специальную обработку немногообразных и вырожденных сеток и широко распараллелен для обеспечения эффективности. По результатам оценки на четырех разнородных наборах данных, включая рукотворные объекты, CAD-модели, AI-генерируемые и распространенные формы, PartUV превосходит существующие инструменты и современные нейросетевые методы по количеству чартов и длине швов, демонстрирует сопоставимый уровень искажений, показывает высокий процент успеха на сложных сетках и открывает возможности для новых приложений, таких как упаковка мульти-тайлов для отдельных частей. Страница проекта доступна по адресу https://www.zhaoningwang.com/PartUV.
Сегментация хирургических видео играет ключевую роль в компьютерно-ассистируемой хирургии, обеспечивая точную локализацию и отслеживание инструментов и тканей. Интерактивные модели сегментации видеообъектов (iVOS), такие как Segment Anything Model 2 (SAM2), предлагают гибкость на основе промптов по сравнению с методами, использующими предопределенные категории, однако сталкиваются с трудностями в хирургических сценариях из-за доменного разрыва и ограниченного долгосрочного трекинга. Для преодоления этих ограничений мы создали SA-SV — крупнейший бенчмарк для хирургической iVOS с инстанс-разметкой в пространственно-временном контексте (масклеты), охватывающий восемь типов операций (61 тыс. кадров, 1,6 тыс. масклетов), что позволяет проводить комплексную разработку и оценку долгосрочного трекинга и обобщения с нулевым сэмплированием. На основе SA-SV мы предлагаем SAM2S — фреймворк-модель, расширяющую возможности SAM2 для хирургической iVOS за счет: (1) DiveMem, обучаемого механизма разнообразной памяти для устойчивого долгосрочного трекинга; (2) темпорального семантического обучения для понимания инструментов; и (3) устойчивого к неоднозначности обучения для снижения влияния противоречий в разметке из мульти-источниковых наборов данных. Масштабные эксперименты демонстрируют, что дообучение на SA-SV обеспечивает значительный прирост производительности: SAM2 улучшает показатель average J\&F на 12,99 по сравнению с базовой версией. SAM2S дополнительно повышает результат до 80,42 average J\&F, превосходя базовую и дообученную версии SAM2 на 17,10 и 4,11 пунктов соответственно, при сохранении инференса в реальном времени (68 FPS) и высокой способности к обобщению с нулевым сэмплированием. Код и набор данных будут доступны по адресу https://jinlab-imvr.github.io/SAM2S.
Длительное обучение крупных языковых моделей (LLM) требует поддержания стабильного исследования, чтобы предотвратить коллапс модели в субоптимальные режимы поведения. Энтропия играет ключевую роль в этом контексте, поскольку она управляет исследованием и помогает избежать преждевременной сходимости к субоптимальным решениям. Однако существующие методы обучения с подкреплением не способны поддерживать соответствующий уровень энтропии, поскольку процесс обучения включает смесь позитивных и негативных примеров, каждый из которых по-разному влияет на энтропию на различных шагах. Для решения этой проблемы мы предлагаем метод стабилизации энтропии с помощью пропорционально-интегрального регулятора (EntroPIC) — новый подход, который адаптивно корректирует влияние позитивных и негативных примеров за счёт динамической настройки коэффициентов их потерь. Этот метод стабилизирует энтропию на протяжении всего обучения, обеспечивая эффективное исследование и устойчивый прогресс. Мы предоставляем всесторонний теоретический анализ для сценариев обучения как на политике, так и вне политики, демонстрируя, что EntroPIC эффективно управляет энтропией при масштабном обучении LLM. Результаты экспериментов показывают, что наш метод успешно поддерживает желаемые уровни энтропии, обеспечивая стабильное и оптимальное RL-обучение для языковых моделей.
Трансформерные архитектуры широко применяются в системах последовательных рекомендаций, однако их использование в финансовых услугах (ФУ) создает уникальные практические и модельные проблемы для рекомендаций в реальном времени. К ним относятся: а) длинные последовательности пользовательских взаимодействий (неявных и явных) в цифровых и физических каналах, создающие временно неоднородный контекст; б) наличие множества взаимосвязанных продуктов требует скоординированных моделей для поддержки различных рекламных размещений и персонализированных лент при балансировании конкурирующих бизнес-целей. Мы предлагаем FinTRec — трансформерный фреймворк, решающий эти проблемы и операционные задачи в ФУ. Хотя древовидные модели традиционно предпочтительны в ФУ благодаря их интерпретируемости и соответствию регуляторным требованиям, наше исследование демонстрирует, что FinTRec предлагает жизнеспособный и эффективный переход к трансформерным архитектурам. Посредством исторического моделирования и корреляции с живыми A/B-тестами мы показываем, что FinTRec стабильно превосходит промышленную древовидную базовую модель. Унифицированная архитектура, донастроенная для адаптации к продукту, позволяет осуществлять кросс-продуктовый обмен сигналами, снижает стоимость обучения и технический долг, одновременно улучшая оффлайн-производительность для всех продуктов. Насколько нам известно, это первое комплексное исследование унифицированного последовательного рекомендательного моделирования в ФУ, учитывающее как технические, так и бизнес-аспекты.
Точность линейного пробирования на ImageNet-1K остается стандартным косвенным показателем качества визуальных представлений, однако она больше не предсказывает производительность на научных изображениях. Для 46 современных контрольных точек моделей компьютерного зрения точность ImageNet top-1 объясняет лишь 34% дисперсии на задачах экологии и некорректно ранжирует 30% моделей с точностью выше 75%. Мы представляем BioBench — открытый эталонный тест для экологической визуализации, который учитывает то, что упускает ImageNet. BioBench объединяет 9 публично доступных прикладных задач, 4 таксономических царства и 6 модальностей получения данных (RGB с дронов, веб-видео, микрофотографии, фото in-situ и образцов, кадры с фотоловушек), всего 3,1 млн изображений. Единый Python API загружает данные, обучает легковесные классификаторы на замороженных backbone-архитектурах и сообщает сбалансированную по классам макро-F1 (плюс доменные метрики для FishNet и FungiCLEF); оценка моделей ViT-L занимает 6 часов на GPU A6000. BioBench предоставляет новый сигнал для компьютерного зрения в экологии и шаблонный рецепт для создания надежных эталонов ИИ для науки в любой области. Код и предсказания доступны по адресу https://github.com/samuelstevens/biobench, а результаты — на https://samuelstevens.me/biobench.
Хотя современные большие визуально-языковые модели (LVLM) демонстрируют мощные способности к мультимодальным рассуждениям, они часто выдают нефактические или галлюцинированные ответы, поскольку чрезмерно полагаются на лингвистические априорные представления, а не на визуальные свидетельства. Это ограничение подчеркивает отсутствие количественной меры того, насколько активно эти модели используют визуальную информацию в процессе reasoning. Мы предлагаем фреймворк Draft and Refine (DnR) — агентскую систему, управляемую метрикой использования, обусловленной вопросом. Данная метрика количественно оценивает зависимость модели от визуальных данных путем построения карты релевантности, обусловленной запросом, для локализации релевантных вопросу сигналов, а затем измеряет степень зависимости с помощью вероятностного маскирования, управляемого релевантностью. Руководствуясь этой метрикой, агент DnR уточняет первоначальный черновик ответа, используя целенаправленную обратную связь от внешних визуальных экспертов. Результат работы каждого эксперта (например, bounding boxes или маски) визуализируется в виде подсказок на изображении, после чего модель запрашивается повторно для выбора ответа, обеспечивающего наибольшее улучшение показателя использования. Этот процесс усиливает визуальную обоснованность без необходимости переобучения или изменения архитектуры. Эксперименты на бенчмарках VQA и captioning показывают стабильное повышение точности и сокращение галлюцинаций, демонстрируя, что измерение степени использования визуальной информации предоставляет принципиальный путь к созданию более интерпретируемых и основанных на доказательствах мультимодальных агентских систем.
Последние достижения в предварительном обучении моделей на изображениях и текстах значительно улучшили визуальное понимание за счет согласования визуальных и текстовых представлений. Контрастное предварительное обучение «язык-изображение» (CLIP) сыграло ключевую роль в многомодальном обучении. Однако его ориентация на согласование с одной меткой и одной гранулярностью ограничивает эффективность в сложных областях, таких как медицинская визуализация, где изображения часто соответствуют нескольким меткам высокого уровня (например, категориям заболеваний) с различной гранулярностью аннотаций (например, диагностическое описание, клиническое объяснение). Для решения этой проблемы мы предлагаем обучение с многогранулярными языковыми описаниями (MGLL) — контрастную фреймворк-структуру, предназначенную для улучшения как многометочного, так и межгранулярного согласования. MGLL использует структурированный многометочный контроль, интегрирует текстовые описания разных уровней детализации и вводит мягкий контроль с поточечными ограничениями для улучшения согласования. MGLL применяет сглаженную дивергенцию Кульбака-Лейблера для обеспечения межгранулярной согласованности при сохранении вычислительной эффективности в качестве модуля plug-and-play для моделей «визуализация-язык». Прошедшая предварительное обучение на наших крупномасштабных многогранулярных наборах данных и оцененная на нескольких наборах данных, MGLL превосходит другие современные методы в последующих задачах. Код доступен по адресу https://github.com/HUANGLIZI/MGLL.