Ежедневно отобранные исследовательские статьи по ИИ с переводами
В данной статье представлен Group Sequence Policy Optimization (GSPO) — наш стабильный, эффективный и производительный алгоритм обучения с подкреплением для тренировки больших языковых моделей. В отличие от предыдущих алгоритмов, которые используют коэффициенты важности на уровне токенов, GSPO определяет коэффициент важности на основе вероятности последовательности и выполняет обрезку, вознаграждение и оптимизацию на уровне последовательностей. Мы демонстрируем, что GSPO достигает превосходной эффективности и производительности обучения по сравнению с алгоритмом GRPO, значительно стабилизирует обучение с подкреплением в моделях Mixture-of-Experts (MoE) и имеет потенциал для упрощения проектирования инфраструктуры обучения с подкреплением. Эти достоинства GSPO способствовали значительным улучшениям в последних моделях Qwen3.
Недавние достижения в архитектурах на основе трансформеров продемонстрировали впечатляющие успехи в задачах генерации видео. Однако квадратичная сложность механизмов полного внимания остается критическим узким местом, особенно для видео с высоким разрешением и большой продолжительностью. В данной статье мы представляем NABLA — новый механизм Neighborhood Adaptive Block-Level Attention (Адаптивное блочное внимание на уровне соседства), который динамически адаптируется к паттернам разреженности в трансформерах диффузии видео (DiTs). Используя блочное внимание с адаптивным порогом, определяемым разреженностью, NABLA снижает вычислительные затраты, сохраняя при этом качество генерации. Наш метод не требует разработки специализированных низкоуровневых операторов и может быть легко интегрирован с оператором Flex Attention в PyTorch. Эксперименты показывают, что NABLA обеспечивает ускорение обучения и вывода до 2,7 раз по сравнению с базовыми методами практически без ухудшения количественных метрик (CLIP score, VBench score, оценка человеком) и визуального качества. Код и веса модели доступны по ссылке: https://github.com/gen-ai-team/Wan2.1-NABLA.
Крупные языковые модели (LLM) демонстрируют впечатляющие результаты в задачах, требующих интенсивного рассуждения, однако оптимизация их эффективности в таких задачах остается открытой проблемой. Хотя масштабирование на этапе тестирования (Test-Time Scaling, TTS) улучшает качество рассуждений, оно часто приводит к избыточному анализу, тратя токены на повторяющиеся вычисления. В данной работе исследуется, как эффективно и адаптивно управлять масштабированием LLM на этапе тестирования без дополнительного обучения. Вдохновленные концепцией импульса в физике, мы предлагаем метод Momentum Uncertainty-guided Reasoning (MUR), который динамически распределяет вычислительные ресурсы на ключевые этапы рассуждений, отслеживая и агрегируя пошаговую неопределенность во времени. Для обеспечения гибкого управления на этапе вывода мы вводим gamma-control — простой механизм, который регулирует бюджет рассуждений с помощью одного гиперпараметра. Мы предоставляем подробное теоретическое обоснование, подтверждающее превосходство MUR с точки зрения стабильности и смещений. MUR всесторонне оценивается в сравнении с различными методами TTS на четырех сложных тестовых наборах (MATH-500, AIME24, AIME25 и GPQA-diamond) с использованием моделей Qwen3 разных размеров (1.7B, 4B и 8B). Результаты показывают, что MUR сокращает вычисления в среднем более чем на 50%, одновременно повышая точность на 0.62–3.37%.
Мы представляем Captain Cinema — фреймворк для генерации короткометражных фильмов. На основе детального текстового описания сюжета фильма наш подход сначала генерирует последовательность ключевых кадров, которые очерчивают всю повествовательную структуру, обеспечивая долгосрочную согласованность как в сюжете, так и в визуальном оформлении (например, сцены и персонажи). Этот этап мы называем планированием ключевых кадров сверху вниз. Затем эти ключевые кадры используются как управляющие сигналы для модели синтеза видео, поддерживающей обучение на длинных контекстах, чтобы создать пространственно-временную динамику между ними. Этот этап называется синтезом видео снизу вверх. Для обеспечения стабильной и эффективной генерации длинных повествовательных кинематографических работ с несколькими сценами мы вводим чередующуюся стратегию обучения для Multimodal Diffusion Transformers (MM-DiT), специально адаптированную для работы с длинными контекстами видеоданных. Наша модель обучается на специально подготовленном кинематографическом наборе данных, состоящем из чередующихся пар данных. Эксперименты показывают, что Captain Cinema эффективно справляется с автоматизированным созданием визуально согласованных и сюжетно последовательных короткометражных фильмов высокого качества. Страница проекта: https://thecinema.ai
Крупные модели рассуждений достигли впечатляющих результатов благодаря расширенным цепочкам мыслей, однако такая вычислительная свобода приводит к избыточному генерации токенов даже для простых задач. Мы представляем Length-Adaptive Policy Optimization (LAPO) — новый фреймворк, который превращает управление длиной рассуждений из внешнего ограничения во внутреннюю способность модели. В отличие от существующих подходов, которые накладывают жесткие ограничения или полагаются на постобработку, LAPO позволяет моделям усвоить понимание подходящей глубины рассуждений через двухэтапный процесс обучения с подкреплением. На первом этапе модели изучают естественные паттерны рассуждений, обнаруживая статистическое распределение длин успешных решений. На втором этапе эти паттерны используются как метакогнитивное руководство, встраиваясь непосредственно в контекст рассуждений модели для обеспечения гибкости на этапе вывода. Эксперименты на бенчмарках математических рассуждений показывают, что LAPO сокращает использование токенов до 40,9%, одновременно повышая точность на 2,3%. Наш анализ показывает, что модели, обученные с помощью LAPO, развивают способность распределять вычислительные ресурсы в зависимости от сложности задачи, достигая эффективных рассуждений без ущерба для качества.
Несмотря на впечатляющие достижения последних работ в области 3D-генерации, масштабирование этих методов до географических масштабов, таких как моделирование тысяч квадратных километров поверхности Земли, остается открытой проблемой. Мы решаем эту задачу за счет двойного нововведения в инфраструктуре данных и архитектуре модели. Во-первых, мы представляем Aerial-Earth3D — крупнейший на сегодняшний день набор данных 3D-аэрофотоснимков, состоящий из 50 тысяч тщательно отобранных сцен (каждая размером 600 м x 600 м), снятых на территории континентальной части США и включающих 45 миллионов многовидовых кадров Google Earth. Каждая сцена предоставляет многовидовые изображения с аннотированными позами, карты глубины, нормали, семантическую сегментацию и позы камер, с явным контролем качества для обеспечения разнообразия рельефа. На основе этого мы предлагаем EarthCrafter — специализированную платформу для крупномасштабной 3D-генерации Земли с использованием разреженно-разделенной латентной диффузии. Наша архитектура разделяет генерацию структуры и текстуры: 1) Двойные разреженные 3D-VAE сжимают высокоразрешающие геометрические воксели и текстуры 2D Gaussian Splats (2DGS) в компактные латентные пространства, значительно снижая затраты на вычисления, связанные с огромными географическими масштабами, при сохранении критически важной информации. 2) Мы предлагаем модели condition-aware flow matching, обученные на смешанных входных данных (семантика, изображения или их отсутствие), для гибкого независимого моделирования латентных геометрических и текстурных признаков. Многочисленные эксперименты показывают, что EarthCrafter значительно превосходит другие методы в генерации на чрезвычайно больших масштабах. Платформа также поддерживает разнообразные приложения, от семантически управляемой генерации городских ландшафтов до безусловного синтеза рельефа, сохраняя географическую правдоподобность благодаря нашим богатым априорным данным из Aerial-Earth3D. Страница проекта доступна по адресу: https://whiteinblue.github.io/earthcrafter/
Масштабирование моделей визуальной генерации имеет решающее значение для создания контента в реальных условиях, однако требует значительных затрат на обучение и вычислительные ресурсы. В качестве альтернативы, масштабирование на этапе тестирования привлекает всё больше внимания благодаря своей ресурсоэффективности и многообещающей производительности. В данной работе мы представляем TTS-VAR — первую универсальную систему масштабирования на этапе тестирования для визуальных авторегрессивных (VAR) моделей, которая моделирует процесс генерации как задачу поиска пути. Для динамического баланса между вычислительной эффективностью и способностью к исследованию мы вводим адаптивный график уменьшения размера пакета на протяжении причинно-следственного процесса генерации. Кроме того, вдохновлённые иерархической генерацией VAR от грубого к детальному на нескольких масштабах, наша система включает два ключевых компонента: (i) На грубых масштабах мы наблюдаем, что сгенерированные токены сложно оценить, что может привести к ошибочному принятию некачественных образцов или отклонению качественных. Заметив, что грубые масштабы содержат достаточную структурную информацию, мы предлагаем поиск разнообразия на основе кластеризации. Он сохраняет структурное разнообразие через кластеризацию семантических признаков, позволяя последующий выбор образцов с более высоким потенциалом. (ii) На детальных масштабах выбор перспективных кандидатов на основе повторной выборки осуществляется с использованием потенциальных оценок, которые определяются как функции вознаграждения, учитывающие историю генерации на нескольких масштабах. Эксперименты с мощной VAR-моделью Infinity демонстрируют значительное улучшение оценки GenEval на 8.7% (с 0.69 до 0.75). Ключевые выводы показывают, что структурные признаки на ранних этапах эффективно влияют на итоговое качество, а эффективность повторной выборки варьируется в зависимости от масштабов генерации. Код доступен по адресу https://github.com/ali-vilab/TTS-VAR.
Крупные модели рассуждений достигают выдающихся результатов благодаря обширной генерации цепочек мыслей, однако демонстрируют значительную вычислительную неэффективность, применяя универсальные стратегии рассуждений независимо от сложности задачи. Мы представляем Иерархическую Оптимизацию Политики с Бюджетом (Hierarchical Budget Policy Optimization, HBPO) — фреймворк обучения с подкреплением, который позволяет моделям изучать глубину рассуждений, специфичную для задачи, без ущерба для их возможностей. HBPO решает фундаментальную проблему коллапса пространства исследований в обучении, ориентированном на эффективность, где штрафы за длинные выходные последовательности систематически смещают модели от необходимых длинных путей рассуждений. Благодаря иерархическому исследованию бюджета наш подход разделяет выборки на несколько подгрупп с различными лимитами токенов, что позволяет эффективно распределять ресурсы, предотвращая при этом снижение возможностей. Мы вводим дифференцированные механизмы вознаграждения, которые создают бюджетно-ориентированные стимулы, согласованные со сложностью задачи, что позволяет моделям обнаруживать естественные соответствия между требованиями задачи и вычислительными усилиями. Многочисленные эксперименты показывают, что HBPO сокращает среднее использование токенов до 60,6%, одновременно повышая точность на 3,14% на четырех бенчмарках рассуждений. В отличие от существующих методов, которые накладывают внешние ограничения или полагаются на дискретный выбор режимов, HBPO демонстрирует возникающее адаптивное поведение, при котором модели автоматически регулируют глубину рассуждений в зависимости от сложности задачи. Наши результаты свидетельствуют о том, что эффективность рассуждений и их возможности не являются изначально конфликтующими и могут быть одновременно оптимизированы с помощью правильно структурированного иерархического обучения, сохраняющего разнообразие исследований.
Извлечение информации (IE) является основополагающим для многочисленных приложений NLP, однако существующие решения часто требуют специализированных моделей для различных задач или полагаются на вычислительно затратные большие языковые модели. Мы представляем GLiNER2, унифицированную архитектуру, которая улучшает оригинальную GLiNER для поддержки распознавания именованных сущностей, классификации текста и извлечения иерархически структурированных данных в рамках одной эффективной модели. Построенная на предобученной архитектуре трансформерного кодировщика, GLiNER2 сохраняет эффективность на CPU и компактный размер, одновременно вводя многозадачную композицию через интуитивно понятный интерфейс на основе схем. Наши эксперименты демонстрируют конкурентоспособную производительность в задачах извлечения и классификации с существенным улучшением доступности развертывания по сравнению с альтернативами на основе LLM. Мы выпускаем GLiNER2 как открытую библиотеку, устанавливаемую через pip, с предобученными моделями и документацией на https://github.com/fastino-ai/GLiNER2.
Обучение на нестационарных потоках данных, подверженных концептуальному дрейфу, требует моделей, которые могут адаптироваться на лету, оставаясь при этом ресурсоэффективными. Существующие адаптивные ансамблевые методы часто полагаются на грубые механизмы адаптации или простые схемы голосования, которые не позволяют оптимально использовать специализированные знания. В данной статье представлена DriftMoE — онлайн-архитектура "Смеси экспертов" (Mixture-of-Experts, MoE), которая устраняет эти ограничения с помощью новой совместной обучающей структуры. DriftMoE включает компактный нейронный маршрутизатор, который обучается совместно с пулом инкрементных экспертов на основе деревьев Хефдинга. Ключевая инновация заключается в симбиотическом обучающем цикле, который способствует специализации экспертов: маршрутизатор выбирает наиболее подходящего эксперта для прогнозирования, соответствующие эксперты обновляются инкрементно с использованием истинного значения метки, а маршрутизатор уточняет свои параметры с помощью многозначной маски корректности, которая усиливает каждого точного эксперта. Этот цикл обратной связи предоставляет маршрутизатору четкий обучающий сигнал, одновременно ускоряя специализацию экспертов. Мы оцениваем производительность DriftMoE на девяти современных бенчмарках для обучения на потоках данных, охватывающих резкий, постепенный и реальный дрейф, тестируя две различные конфигурации: одну, где эксперты специализируются на режимах данных (многоклассовый вариант), и другую, где они фокусируются на специализации по одному классу (задачно-ориентированный вариант). Наши результаты показывают, что DriftMoE достигает конкурентоспособных результатов с современными адаптивными ансамблями для потокового обучения, предлагая принципиальный и эффективный подход к адаптации к концептуальному дрейфу. Весь код, конвейеры данных и скрипты для воспроизводимости доступны в нашем публичном репозитории GitHub: https://github.com/miguel-ceadar/drift-moe.
Мы представляем новую серию моделей TeleChat: TeleChat2, TeleChat2.5 и T1, которые предлагают значительное улучшение по сравнению с их предшественником, TeleChat. Несмотря на минимальные изменения в архитектуре модели, новая серия достигает существенного повышения производительности благодаря улучшенным стратегиям обучения на этапах предварительной и пост-обработки. Серия начинается с TeleChat2, который проходит предварительное обучение на 10 триллионах высококачественных и разнообразных токенов. Затем следует контролируемая тонкая настройка (SFT) и оптимизация прямых предпочтений (DPO) для дальнейшего улучшения его возможностей. TeleChat2.5 и T1 расширяют процесс, включая этап непрерывного предварительного обучения на специализированных наборах данных, сочетая его с обучением с подкреплением (RL) для повышения производительности в задачах генерации кода и математического рассуждения. Вариант T1 разработан для сложного рассуждения, поддерживая длинные цепочки рассуждений (CoT) и демонстрируя значительные улучшения в математике и программировании. В то же время TeleChat2.5 ориентирован на скорость, обеспечивая быстрое выполнение выводов. Обе флагманские модели T1 и TeleChat2.5 представляют собой плотные архитектуры на основе Transformer с 115 миллиардами параметров, демонстрируя значительные достижения в рассуждениях и общей производительности задач по сравнению с оригинальным TeleChat. Примечательно, что T1-115B превосходит проприетарные модели, такие как o1-mini от OpenAI и GPT-4o. Мы публично выпускаем TeleChat2, TeleChat2.5 и T1, включая пост-обученные версии с 35 миллиардами и 115 миллиардами параметров, чтобы предоставить разработчикам и исследователям передовые языковые модели, адаптированные для различных приложений.
Последние достижения в синтезе изображений из текста во многом обусловлены использованием сложных стратегий сэмплинга и метода свободного от классификатора управления (CFG), что обеспечивает высокое качество генерации. Однако зависимость CFG от двух прямых проходов, особенно в сочетании с изощренными алгоритмами сэмплинга, приводит к чрезмерно высоким затратам на вывод. Для решения этой проблемы мы представляем TeEFusion (Text Embeddings Fusion) — новый и эффективный метод дистилляции, который напрямую интегрирует величину управления в текстовые эмбеддинги и дистиллирует сложную стратегию сэмплинга учительской модели. Просто объединяя условные и безусловные текстовые эмбеддинги с помощью линейных операций, TeEFusion воссоздает необходимое управление без добавления дополнительных параметров, одновременно позволяя ученической модели обучаться на выходных данных учительской модели, полученных с использованием её сложного подхода к сэмплингу. Многочисленные эксперименты на передовых моделях, таких как SD3, демонстрируют, что наш метод позволяет ученической модели близко воспроизводить производительность учительской модели с гораздо более простой и эффективной стратегией сэмплинга. В результате ученическая модель достигает скорости вывода до 6 раз быстрее, чем учительская модель, при этом сохраняя качество изображений на уровне, сопоставимом с результатами, полученными с использованием сложного подхода к сэмплингу учительской модели. Код доступен публично по адресу https://github.com/AIDC-AI/TeEFusion{github.com/AIDC-AI/TeEFusion}.
В данном отчете представлены, описаны и оценены новые модели GloVe (Global Vectors for Word Representation) для английского языка, созданные в 2024 году. Хотя оригинальные модели GloVe, разработанные в 2014 году, получили широкое распространение и доказали свою полезность, языки и мир продолжают развиваться, и мы посчитали, что современное использование может выиграть от обновленных моделей. Кроме того, модели 2014 года не были тщательно задокументированы в отношении точных версий данных и предварительной обработки, и мы устраняем этот недостаток, подробно описывая новые модели. Мы обучили два набора векторных представлений слов, используя данные из Wikipedia, Gigaword и подмножества Dolma. Оценка через сравнение словарного состава, прямое тестирование и задачи распознавания именованных сущностей (NER) показала, что векторы 2024 года включают новые культурно и лингвистически значимые слова, демонстрируют сопоставимые результаты на структурных задачах, таких как аналогии и сходство, а также улучшенную производительность на современных временнозависимых наборах данных NER, таких как новостные данные из не-западных источников.
Сегменты в компьютерном зрении часто определяются на основе семантических соображений и сильно зависят от категорийно-специфичных соглашений. В отличие от этого, исследования в области психологии развития показывают, что люди воспринимают мир через призму объектов Спелке — групп физических объектов, которые стабильно движутся вместе под воздействием физических сил. Таким образом, объекты Спелке опираются на категорийно-независимые причинно-следственные отношения движения, что потенциально лучше поддерживает задачи, такие как манипуляция и планирование. В данной работе мы сначала оцениваем концепцию объектов Спелке, представляя набор данных SpelkeBench, который содержит широкий спектр четко определенных сегментов Спелке на естественных изображениях. Затем, чтобы алгоритмически извлекать сегменты Спелке из изображений, мы создаем SpelkeNet — класс моделей визуального мира, обученных предсказывать распределения будущих движений. SpelkeNet поддерживает оценку двух ключевых концепций для обнаружения объектов Спелке: (1) карту возможностей движения, идентифицирующую области, которые с высокой вероятностью будут двигаться при воздействии, и (2) карту ожидаемого смещения, фиксирующую, как остальная часть сцены будет двигаться. Эти концепции используются для "статистического контрфактического зондирования", где разнообразные "виртуальные воздействия" применяются к областям с высокой возможностью движения, а результирующие карты ожидаемого смещения используются для определения сегментов Спелке как статистических агрегатов коррелированных статистик движения. Мы обнаруживаем, что SpelkeNet превосходит контролируемые базовые модели, такие как SegmentAnything (SAM), на наборе данных SpelkeBench. Наконец, мы показываем, что концепция Спелке практически полезна для последующих приложений, демонстрируя превосходную производительность на бенчмарке 3DEditBench для манипуляции физическими объектами при использовании в различных готовых моделях манипуляции объектами.
Диффузионные системы синтеза речи (TTS) достигли значительного прогресса в задачах синтеза речи с нулевым обучением, однако оптимизация всех компонентов для улучшения перцептивных метрик остается сложной задачей. Предыдущие работы с системой DMOSpeech продемонстрировали прямую оптимизацию метрик для компонентов генерации речи, но прогнозирование длительности оставалось неоптимизированным. В данной статье представлена система DMOSpeech 2, которая расширяет оптимизацию метрик на компонент прогнозирования длительности с использованием подхода обучения с подкреплением. Предложенная система реализует новую структуру политики длительности с использованием групповой оптимизации относительных предпочтений (GRPO), где в качестве сигналов вознаграждения используются сходство голоса и частота ошибок на уровне слов. Благодаря оптимизации этого ранее неоптимизированного компонента, DMOSpeech 2 создает более полный синтезирующий конвейер с оптимизацией метрик. Кроме того, в статье представлен метод учитель-управляемой выборки — гибридный подход, использующий модель-учитель для начальных шагов удаления шума перед переходом к модели-ученику, что значительно повышает разнообразие выходных данных при сохранении эффективности. Комплексные оценки демонстрируют превосходную производительность по всем метрикам по сравнению с предыдущими системами, при этом количество шагов выборки сокращается вдвое без ухудшения качества. Эти достижения представляют собой значительный шаг к созданию систем синтеза речи с оптимизацией метрик для нескольких компонентов. Аудиообразцы, код и предобученные модели доступны по адресу https://dmospeech2.github.io/.
Крупные языковые модели (LLMs) демонстрируют значительный потенциал в финансовых приложениях; однако существующие модели часто проявляют ограничения в сценариях, требующих развитых способностей к рассуждению, строгих критериев надежности и эффективной адаптации к специфическим требованиям предметной области. Мы представляем серию финансовых крупных языковых моделей Agentar-Fin-R1 (8B и 32B параметров), специально разработанных на основе базовой модели Qwen3 для улучшения способностей к рассуждению, надежности и специализации в финансовых приложениях. Наш подход к оптимизации интегрирует высококачественную систематизированную систему меток для финансовых задач с комплексной многоуровневой структурой обеспечения надежности. Эта структура включает инженерию надежных знаний высокого качества, синтез надежных данных с использованием многоагентных систем и строгий контроль валидации данных. Благодаря автоматизированной оптимизации с учетом сложности на основе меток, двухэтапному процессу обучения и динамическим системам атрибуции мы достигаем значительного повышения эффективности обучения. Наши модели проходят всестороннюю оценку на основных финансовых бенчмарках, включая Fineva, FinEval и FinanceIQ, а также на наборах данных для общего рассуждения, таких как MATH-500 и GPQA-diamond. Для тщательной оценки возможностей реального развертывания мы инновационно предлагаем бенчмарк Finova, который фокусируется на финансовом рассуждении на уровне агентов и проверке соответствия. Экспериментальные результаты показывают, что Agentar-Fin-R1 не только достигает передовых показателей в финансовых задачах, но и демонстрирует исключительные способности к общему рассуждению, подтверждая свою эффективность как надежное решение для высокорисковых финансовых приложений. Бенчмарк Finova доступен по адресу https://github.com/antgroup/Finova.
Мы представляем Iwin Transformer — новый иерархический трансформер для обработки изображений, не требующий позиционных эмбеддингов, который может быть тонко настроен непосредственно от низкого до высокого разрешения благодаря сочетанию инновационного чередующегося оконного внимания и глубинной разделяемой свертки. Этот подход использует механизм внимания для соединения удаленных токенов и применяет свертку для связи соседних токенов, что позволяет обмениваться глобальной информацией в рамках одного модуля, преодолевая ограничение Swin Transformer, требующего двух последовательных блоков для приближения глобального внимания. Многочисленные эксперименты на визуальных бенчмарках демонстрируют, что Iwin Transformer показывает высокую конкурентоспособность в задачах, таких как классификация изображений (87,4% точности top-1 на ImageNet-1K), семантическая сегментация и распознавание действий в видео. Мы также подтверждаем эффективность ключевого компонента Iwin в качестве самостоятельного модуля, который может бесшовно заменить модуль самовнимания в генерации изображений с учетом классов. Концепции и методы, представленные в Iwin Transformer, имеют потенциал вдохновить будущие исследования, такие как Iwin 3D Attention в генерации видео. Код и модели доступны по адресу https://github.com/cominder/Iwin-Transformer.
Частично релевантный поиск видео (PRVR) решает важную задачу сопоставления необрезанных видео с текстовыми запросами, описывающими только частичное содержание. Существующие методы страдают от геометрических искажений в евклидовом пространстве, которые иногда искажают внутреннюю иерархическую структуру видео и упускают определённые иерархические семантики, что в конечном итоге приводит к неоптимальному временному моделированию. Для решения этой проблемы мы предлагаем первую гиперболическую модель для PRVR, а именно HLFormer, которая использует обучение в гиперболическом пространстве для компенсации недостатков иерархического моделирования в евклидовом пространстве. В частности, HLFormer интегрирует блок внимания Лоренца и блок евклидова внимания для кодирования видео-эмбеддингов в гибридных пространствах, используя модуль адаптивного взаимодействия с усреднением для динамического слияния признаков. Кроме того, мы вводим функцию потерь сохранения частичного порядка, чтобы обеспечить иерархию "текст < видео" через ограничения конуса Лоренца. Этот подход дополнительно улучшает кросс-модальное сопоставление, усиливая частичную релевантность между содержанием видео и текстовыми запросами. Многочисленные эксперименты показывают, что HLFormer превосходит современные методы. Код доступен по адресу https://github.com/lijun2005/ICCV25-HLFormer.
Сегментация медицинских изображений играет ключевую роль во многих задачах здравоохранения, включая диагностику заболеваний и планирование лечения. Одним из важных направлений является сегментация кожных поражений, которая имеет решающее значение для диагностики рака кожи и мониторинга пациентов. В этом контексте данная работа представляет SegDT — новую модель сегментации, основанную на диффузионном трансформере (DiT). SegDT разработана для работы на недорогом оборудовании и включает Rectified Flow, что улучшает качество генерации при сокращении числа шагов вывода и сохраняет гибкость стандартных диффузионных моделей. Наш метод оценивается на трех эталонных наборах данных и сравнивается с несколькими существующими подходами, демонстрируя передовые результаты при сохранении высокой скорости вывода. Это делает предложенную модель привлекательной для реальных медицинских приложений. Данная работа способствует повышению производительности и возможностей моделей глубокого обучения в анализе медицинских изображений, предоставляя медицинским специалистам более быстрые и точные диагностические инструменты. Код модели доступен публично по адресу https://github.com/Bekhouche/SegDT{GitHub}.
В данной статье представлен новый подход на основе глубокого обучения для одновременной классификации возраста и пола по изображениям лиц, разработанный для повышения эффективности целевых рекламных кампаний. Мы предлагаем специализированную архитектуру сверточной нейронной сети (CNN), оптимизированную для обеих задач, которая использует внутреннюю корреляцию между информацией о возрасте и поле, присутствующей в чертах лица. В отличие от существующих методов, которые часто рассматривают эти задачи независимо, наша модель обучается на общих представлениях, что приводит к улучшению производительности. Сеть обучается на большом и разнообразном наборе данных изображений лиц, тщательно предварительно обработанных для обеспечения устойчивости к вариациям освещения, позы и качества изображения. Наши экспериментальные результаты демонстрируют значительное улучшение точности классификации пола, достигая 95%, и конкурентоспособную среднюю абсолютную ошибку в 5,77 лет для оценки возраста. Важно отметить, что мы анализируем производительность в различных возрастных группах, выявляя специфические трудности в точной оценке возраста молодых людей. Этот анализ показывает необходимость целенаправленного увеличения данных и уточнения модели для устранения этих смещений. Кроме того, мы исследуем влияние различных архитектур CNN и настроек гиперпараметров на общую производительность, предоставляя ценные инсайты для будущих исследований.
Мультимодальные большие языковые модели (MLLMs), построенные на мощных языковых основах, обеспечили возможность мультимодального обучения в контексте (MICL) — адаптации к новым задачам на основе нескольких мультимодальных демонстраций, включающих изображения, вопросы и ответы. Несмотря на заметное улучшение на стандартных наборах данных для задач "визуальный язык", современные MLLMs испытывают трудности с использованием визуальной информации в демонстрациях. В частности, они склонны игнорировать визуальные подсказки и чрезмерно полагаться на текстовые шаблоны, что приводит к простому подражанию тексту, а не к подлинной мультимодальной адаптации. Такое поведение делает MICL по-прежнему унимодальным и существенно ограничивает его практическую применимость. Более того, это ограничение часто скрывается за улучшенной производительностью на задачах, не требующих понимания визуального контекста. В результате, как эффективно усилить способности MICL и надежно оценить его производительность, остается недостаточно изученным. Для решения этих проблем мы сначала представляем Dynamic Attention Reallocation (DARA) — эффективную стратегию тонкой настройки, которая побуждает модели обращать внимание на визуальный контекст путем перераспределения внимания между визуальными и текстовыми токенами. Кроме того, мы представляем TrueMICL — специализированный набор данных для MICL, включающий как обучающие, так и тестовые наборы, которые явно требуют интеграции мультимодальной информации, особенно визуального контента, для правильного выполнения задач. Многочисленные эксперименты демонстрируют эффективность нашего комплексного решения, показывая значительные улучшения в подлинных мультимодальных способностях обучения в контексте. Код и наборы данных доступны по адресу https://chenxshuo.github.io/true-micl-colm.