Ежедневно отобранные исследовательские статьи по ИИ с переводами
Крупные языковые модели (LLMs) демонстрируют высокие способности к рассуждению, однако посттренинг остается критически важным для согласования их поведения с целями задачи. Существующие методы обучения с подкреплением (RL) часто зависят от дорогостоящих аннотаций, созданных человеком, или внешних моделей вознаграждения. Мы предлагаем метод обучения с подкреплением через уверенность модели (RLSC), который использует собственную уверенность модели в качестве сигналов вознаграждения, устраняя необходимость в метках, моделях предпочтений или инженерии вознаграждений. Примененный к модели Qwen2.5-Math-7B с использованием всего 16 примеров на вопрос и 10 или 20 шагов обучения, RLSC повышает точность на +13,4% на AIME2024, +21,2% на MATH500, +21,7% на Minerva Math, +20,8% на Olympiadbench и +9,7% на AMC23. RLSC предоставляет простой и масштабируемый метод посттренинга для моделей вывода, требующий лишь небольшого количества примеров и неразмеченного контроля.
Значительные прорывы в области диффузионного моделирования способствовали быстрому прогрессу в генерации видео, однако современные базовые модели по-прежнему сталкиваются с критическими вызовами в одновременном балансировании следования запросу, правдоподобности движения и визуального качества. В данном отчете мы представляем Seedance 1.0 — высокопроизводительную и эффективную в плане вывода базовую модель генерации видео, которая интегрирует несколько ключевых технических улучшений: (i) курация данных из множества источников, дополненная точным и содержательным описанием видео, что позволяет осуществлять всестороннее обучение в разнообразных сценариях; (ii) эффективный архитектурный дизайн с предложенной парадигмой обучения, который обеспечивает нативную поддержку многокадровой генерации и совместное обучение как текстово-видео, так и изображение-видео задач; (iii) тщательно оптимизированные подходы пост-обучения, включающие тонкую контролируемую донастройку и видео-специфичное RLHF с многомерными механизмами вознаграждения для комплексного улучшения производительности; (iv) превосходное ускорение модели, достигающее ~10-кратного увеличения скорости вывода благодаря многоэтапным стратегиям дистилляции и системным оптимизациям. Seedance 1.0 способна генерировать 5-секундное видео с разрешением 1080p всего за 41,4 секунды (NVIDIA-L20). По сравнению с передовыми моделями генерации видео, Seedance 1.0 выделяется высококачественной и быстрой генерацией видео, обладающей превосходной пространственно-временной плавностью при структурной стабильности, точным следованием инструкциям в сложных контекстах с множеством объектов, а также нативной согласованностью многокадрового повествования с последовательным представлением объектов.
Существующие крупномасштабные модели генерации видео требуют значительных вычислительных ресурсов, что препятствует их использованию в приложениях, требующих работы в реальном времени и интерактивности. В данной работе мы предлагаем метод авторегрессивного адверсариального пост-обучения (AAPT), который преобразует предварительно обученную латентную диффузионную модель видео в генератор видео, работающий в реальном времени и поддерживающий интерактивность. Наша модель авторегрессивно генерирует один латентный кадр за раз, используя одну оценку нейронной функции (1NFE). Модель может передавать результат пользователю в реальном времени и получать интерактивные ответы в качестве управляющих сигналов для генерации следующего латентного кадра. В отличие от существующих подходов, наш метод исследует адверсариальное обучение как эффективную парадигму для авторегрессивной генерации. Это не только позволяет нам разработать архитектуру, более эффективную для одношаговой генерации с полным использованием кэша ключей и значений (KV cache), но также делает возможным обучение модели в режиме "студенческого форсинга", что доказало свою эффективность в снижении накопления ошибок при генерации длинных видео. Наши эксперименты показывают, что наша модель объемом 8 миллиардов параметров достигает генерации видео в реальном времени с частотой 24 кадра в секунду и разрешением 736x416 на одном GPU H100 или 1280x720 на 8 GPU H100 для видео длительностью до минуты (1440 кадров). Посетите наш исследовательский сайт по адресу https://seaweed-apt.com/2.
Авторегрессивные большие языковые модели (AR-LLM) часто демонстрируют неявный параллелизм в последовательной генерации. Вдохновленные этим, мы представляем Multiverse — новую генеративную модель, которая обеспечивает изначально параллельную генерацию. Multiverse воплощает парадигму MapReduce, автоматически выполняя генерацию в три этапа: (i) этап Map для адаптивного разложения задачи, (ii) этап Process для параллельного выполнения подзадач и (iii) этап Reduce для безупречного синтеза результатов. Далее мы создаем практическую модель рассуждений Multiverse с совместной разработкой данных, алгоритмов и системы, что позволяет быстро и плавно перейти от передовых AR-LLM. Начиная с последовательных цепочек рассуждений, мы создаем Multiverse 1K, преобразуя их в структурированные обучающие данные с помощью автоматизированного конвейера с использованием LLM, избегая дорогостоящих ручных аннотаций. На уровне алгоритмов мы разрабатываем Multiverse Attention для разделения параллельных шагов рассуждений, сохраняя совместимость с каузальным вниманием для эффективного обучения. На системном уровне мы реализуем Multiverse Engine для обеспечения параллельного вывода. Он включает в себя специальный планировщик, который динамически переключается между последовательной и параллельной генерацией, управляемый непосредственно моделью. После трехчасового тонкого обучения на 1K примеров наша модель Multiverse-32B становится единственной открытой не-AR моделью, демонстрирующей производительность на уровне ведущих AR-LLM аналогичного масштаба, что подтверждается оценками AIME24 и AIME25 в 54% и 46% соответственно. Более того, наши эксперименты по контролю бюджета показывают, что Multiverse-32B обладает превосходной масштабируемостью, превосходя AR-LLM в среднем на 1,87% при той же длине контекста. Такая масштабируемость также приводит к практическому повышению эффективности, обеспечивая ускорение до 2x при различных размерах пакетов. Мы открыли исходный код всей экосистемы Multiverse, включая данные, веса модели, движок, вспомогательные инструменты, а также полные подсказки для курирования данных и подробные инструкции по обучению и оценке.
Контент, созданный с использованием искусственного интеллекта, эволюционировал от монолитных моделей к модульным рабочим процессам, особенно на платформах, таких как ComfyUI, что позволяет настраивать творческие процессы. Однако создание эффективных рабочих процессов требует значительного опыта для координации множества специализированных компонентов, что представляет собой высокий порог входа для пользователей. Для решения этой проблемы мы представляем ComfyUI-R1 — первую крупную модель рассуждений для автоматизированной генерации рабочих процессов. Начиная с нашего курируемого набора данных из 4K рабочих процессов, мы создаем длинные цепочки рассуждений (CoT), включая выбор узлов, планирование рабочих процессов и представление рабочих процессов на уровне кода. ComfyUI-R1 обучается с использованием двухэтапной структуры: (1) тонкая настройка CoT для холодного старта, адаптирующая модели к домену ComfyUI; (2) обучение с подкреплением для стимулирования способности к рассуждению, направляемое гибридной наградой на основе правил и метрик, что обеспечивает валидность формата, структурную целостность и точность на уровне узлов. Эксперименты показывают, что наша модель с 7 миллиардами параметров достигает 97\% валидности формата, а также высоких показателей прохождения, F1-оценок на уровне узлов и графов, значительно превосходя предыдущие передовые методы, использующие ведущие закрытые модели, такие как GPT-4o и серия Claude. Дополнительный анализ подчеркивает критическую роль процесса рассуждений и преимущество преобразования рабочих процессов в код. Качественное сравнение демонстрирует нашу способность синтезировать сложные рабочие процессы с разнообразными узлами, подчеркивая потенциал длинных цепочек рассуждений в создании искусства с использованием ИИ.
Мы представляем PlayerOne — первый эгоцентрический реалистичный симулятор мира, который обеспечивает погружение и неограниченное исследование в динамичных и детализированных средах. Получив эгоцентрическое изображение сцены от пользователя, PlayerOne может точно воссоздать соответствующий мир и сгенерировать эгоцентрические видео, строго согласованные с реальными движениями пользователя, зафиксированными экзоцентрической камерой. PlayerOne обучается по схеме от грубого к точному: сначала выполняется предварительное обучение на крупномасштабных парах текст-видео для общего понимания эгоцентрической перспективы, а затем тонкая настройка на синхронных данных движения и видео, извлеченных из наборов данных эгоцентрических и экзоцентрических видео с помощью нашего автоматического конвейера построения. Кроме того, учитывая различную важность компонентов, мы разработали схему разделенного ввода движений, позволяющую точно контролировать движения на уровне отдельных частей. Дополнительно мы создали совместную реконструкционную структуру, которая постепенно моделирует как 4D-сцену, так и кадры видео, обеспечивая согласованность сцены при генерации длинных видео. Экспериментальные результаты демонстрируют высокую способность к обобщению в точном управлении различными движениями человека и согласованном моделировании разнообразных сценариев. Этот проект представляет собой первую попытку создания эгоцентрической симуляции реального мира и может открыть новые горизонты для сообщества в области моделирования мира и его многочисленных приложений.
Последние достижения в области генерации музыки из текста позволили моделям синтезировать высококачественные музыкальные фрагменты, полноценные композиции и даже реагировать на детализированные управляющие сигналы, такие как последовательности аккордов. Современные системы (State-of-the-Art, SOTA) значительно различаются по многим параметрам, включая наборы данных для обучения, парадигмы моделирования и архитектурные решения. Это разнообразие затрудняет объективную оценку моделей и определение того, какие конструктивные решения наиболее существенно влияют на производительность. Хотя такие факторы, как данные и архитектура, важны, в данном исследовании мы сосредоточиваемся исключительно на парадигме моделирования. Мы проводим систематический эмпирический анализ, чтобы изолировать её влияние, предлагая понимание связанных компромиссов и возникающих поведений, которые могут направлять разработку будущих систем генерации музыки из текста. В частности, мы сравниваем две, вероятно, наиболее распространённые парадигмы моделирования: авторегрессивное декодирование и условное согласование потоков (Conditional Flow-Matching). Мы проводим контролируемое сравнение, обучая все модели с нуля на идентичных наборах данных, с одинаковыми конфигурациями обучения и схожими базовыми архитектурами. Производительность оценивается по нескольким критериям, включая качество генерации, устойчивость к конфигурациям вывода, масштабируемость, соответствие текстовым и временным условиям, а также возможности редактирования в форме аудио-инпейнтинга. Это сравнительное исследование выявляет уникальные преимущества и ограничения каждой парадигмы, предоставляя практические рекомендации, которые могут повлиять на будущие архитектурные и обучающие решения в развивающейся области генерации музыки из текста. Примеры аудиосэмплов доступны по ссылке: https://huggingface.co/spaces/ortal1602/ARvsFM.
Мы представляем SeerAttention-R — разреженный механизм внимания, специально разработанный для длительного декодирования в моделях логического вывода. Развивая идеи SeerAttention, SeerAttention-R сохраняет подход к обучению разреженности внимания через механизм самообученного гейтинга, при этом исключая пулинг запросов для поддержки авторегрессивного декодирования. Благодаря легковесному подключаемому гейтингу, SeerAttention-R является гибким и может быть легко интегрирован в существующие предобученные модели без изменения их исходных параметров. Мы демонстрируем, что SeerAttention-R, обученный всего на 0,4 миллиарда токенов, сохраняет почти безошибочную точность логического вывода при бюджете в 4K токенов в бенчмарке AIME при использовании крупных блоков разреженного внимания (64/128). С использованием TileLang мы разработали высокооптимизированное ядро разреженного декодирования, которое достигает почти теоретического ускорения до 9 раз по сравнению с FlashAttention-3 на GPU H100 при 90% разреженности. Код доступен по адресу: https://github.com/microsoft/SeerAttention.
Крупные языковые модели (LLM) стали неотъемлемой частью различных областей и продемонстрировали впечатляющие результаты. Однако прогресс основывается на предпосылке, что оценки на бенчмарках являются как точными, так и воспроизводимыми. Мы показываем, что воспроизводимость производительности LLM хрупка: изменение конфигурации системы, такой как размер пакета для оценки, количество GPU и версия GPU, может привести к значительным различиям в генерируемых ответах. Эта проблема особенно заметна в моделях, ориентированных на рассуждения, где незначительные различия в округлении на ранних этапах могут каскадно приводить к расходящимся цепочкам рассуждений, что в конечном итоге влияет на точность. Например, при использовании точности bfloat16 с жадным декодированием модель рассуждений, такая как DeepSeek-R1-Distill-Qwen-7B, может демонстрировать до 9% вариации в точности и разницу в 9000 токенов в длине ответа из-за различий в количестве GPU, их типе и размере пакета для оценки. Мы связываем коренную причину этой изменчивости с неассоциативным характером арифметики с плавающей запятой при ограниченной численной точности. Данная работа представляет первое систематическое исследование того, как численная точность влияет на воспроизводимость в процессе вывода LLM. С помощью тщательно контролируемых экспериментов на различных аппаратных, программных и точностных настройках мы количественно определяем, когда и как выходные данные модели расходятся. Наш анализ показывает, что точность с плавающей запятой, хотя и критична для воспроизводимости, часто игнорируется в практике оценки. Вдохновленные этим, мы разработали легковесный конвейер вывода, названный LayerCast, который хранит веса в 16-битной точности, но выполняет все вычисления в FP32, балансируя между эффективностью использования памяти и численной стабильностью. Код доступен по адресу https://github.com/nanomaoli/llm_reproducibility.
Мы представляем **SWE-Flow**, новый фреймворк для синтеза данных, основанный на методологии разработки через тестирование (Test-Driven Development, TDD). В отличие от существующих данных в области программной инженерии, которые полагаются на проблемы, представленные людьми, **SWE-Flow** автоматически выводит инкрементальные шаги разработки непосредственно из модульных тестов, которые по своей природе инкапсулируют высокоуровневые требования. Основой **SWE-Flow** является построение графа зависимостей времени выполнения (Runtime Dependency Graph, RDG), который точно фиксирует взаимодействия функций, что позволяет генерировать структурированный пошаговый *график разработки*. На каждом шаге **SWE-Flow** создает частичную кодовую базу, соответствующие модульные тесты и необходимые изменения кода, формируя полностью проверяемые задачи TDD. С помощью этого подхода мы сгенерировали 16 061 обучающий пример и 2 020 тестовых примеров из реальных проектов GitHub, создав эталонный набор данных **SWE-Flow-Eval**. Наши эксперименты показывают, что тонкая настройка открытых моделей на этом наборе данных значительно улучшает производительность в кодировании на основе TDD. Для содействия дальнейшим исследованиям мы публикуем весь код, наборы данных, модели и Docker-образы на [Github](https://github.com/Hambaobao/SWE-Flow).
Крупные модели рассуждений (Large Reasoning Models, LRMs), такие как o1 и DeepSeek-R1, продемонстрировали значительный прогресс в естественно-языковых рассуждениях с длинными цепочками мыслей (Chain-of-Thought, CoT), однако они остаются неэффективными или неточными при выполнении сложных математических операций. Решение этих ограничений с помощью вычислительных инструментов (например, библиотек вычислений и символьных решателей) является перспективным, но оно ставит перед нами техническую задачу: Интерпретатор кода (Code Interpreter, CI) предоставляет внешние знания, выходящие за рамки внутренних текстовых представлений модели, что делает прямое сочетание неэффективным. В данной статье представлен CoRT, посттренировочный фреймворк, который обучает LRMs эффективно и результативно использовать CI. В качестве первого шага мы решаем проблему нехватки данных, синтезируя данные для рассуждений с интегрированным кодом с помощью Hint-Engineering, который стратегически вставляет различные подсказки в нужные места для оптимизации взаимодействия LRM-CI. Мы вручную создаем 30 высококачественных образцов, на основе которых посттренируем модели с количеством параметров от 1,5 млрд до 32 млрд, используя контролируемую тонкую настройку, тонкую настройку с отбраковкой и обучение с подкреплением. Наши экспериментальные результаты показывают, что модели, обученные с помощью Hint-Engineering, достигают абсолютного улучшения на 4% и 8% для DeepSeek-R1-Distill-Qwen-32B и DeepSeek-R1-Distill-Qwen-1.5B соответственно на пяти сложных наборах данных для математических рассуждений. Кроме того, модели с Hint-Engineering используют примерно на 30% меньше токенов для 32-миллиардной модели и на 50% меньше токенов для 1,5-миллиардной модели по сравнению с моделями, работающими с естественным языком. Модели и код доступны по адресу https://github.com/ChengpengLi1003/CoRT.
Создание анимации человека с использованием богатых мультимодальных условий, таких как текст, изображение и аудио, достигло значительных успехов в последние годы. Однако большинство существующих методов способны анимировать только один объект и применяют условия глобально, игнорируя сценарии, в которых несколько концепций могут присутствовать в одном видео с интенсивными взаимодействиями между людьми и объектами. Такое глобальное предположение препятствует точному и индивидуальному управлению несколькими концепциями, включая людей и объекты, что ограничивает практическое применение. В данной работе мы отказываемся от предположения о единичном объекте и предлагаем новую структуру, которая обеспечивает строгую, регионально-специфичную привязку условий из различных модальностей к пространственно-временному следу каждой идентичности. При наличии эталонных изображений нескольких концепций наш метод автоматически определяет информацию о компоновке, используя предсказатель масок для сопоставления визуальных признаков между очищенным видео и каждым эталонным изображением. Кроме того, мы внедряем локальное аудиоусловие в соответствующую область, чтобы обеспечить согласованное сопоставление модальностей с компоновкой в итеративном режиме. Такой подход позволяет создавать высококачественные управляемые видео с несколькими концепциями, ориентированными на человека. Эмпирические результаты и исследования с исключением компонентов подтверждают эффективность нашего явного управления компоновкой для мультимодальных условий по сравнению с неявными аналогами и другими существующими методами.
Крупные языковые модели (LLM) преимущественно используются в синхронной коммуникации, где человек и модель обмениваются сообщениями поочередно. В то же время многие реальные ситуации по своей природе являются асинхронными. Например, в групповых чатах, онлайн-встречах команд или социальных играх отсутствует четкое понятие очередности высказываний; поэтому решение о том, когда говорить, становится важной частью принятия решений участниками. В данной работе мы разрабатываем адаптивного асинхронного агента на основе LLM, который, помимо определения того, что сказать, также решает, когда это сделать. Для оценки нашего агента мы собираем уникальный набор данных из онлайн-игр в "Мафию", включающих как человеческих участников, так и нашего асинхронного агента. В целом, наш агент демонстрирует результаты, сопоставимые с человеческими игроками, как по игровой эффективности, так и по способности гармонично вписываться в группу других игроков. Наш анализ показывает, что поведение агента в принятии решений о времени высказывания близко отражает человеческие паттерны, хотя различия проявляются в содержании сообщений. Мы публикуем все наши данные и код, чтобы поддержать и стимулировать дальнейшие исследования в области более реалистичной асинхронной коммуникации между агентами на основе LLM. Эта работа открывает путь для интеграции LLM в реалистичные групповые взаимодействия людей, начиная от помощи в командных обсуждениях и заканчивая образовательными и профессиональными средами, где необходимо учитывать сложные социальные динамики.
Несмотря на быстрый прогресс мультимодальных больших языковых моделей (MLLMs), они в значительной степени упускают из виду важность визуальной обработки. В простом, но показательном эксперименте мы обнаружили, что языковые модели, снабженные описаниями изображений, могут достичь сопоставимой или даже лучшей производительности, чем MLLMs, которые обрабатывают исходные визуальные данные. Это свидетельствует о том, что современные MLLMs могут генерировать точные визуальные описания, но не способны эффективно интегрировать их в процесс рассуждений. Вдохновленные этим, мы предлагаем простую структуру визуальных возмущений, которая повышает устойчивость восприятия без необходимости внесения алгоритмических изменений или использования дополнительных обучающих данных. Наш подход включает три целенаправленных типа возмущений: конкатенацию отвлекающих элементов, смешивание с сохранением доминирования и случайное вращение, которые могут быть легко интегрированы в существующие посттренировочные конвейеры, включая SFT, DPO и GRPO. В ходе обширных экспериментов на множестве наборов данных мы демонстрируем устойчивое улучшение производительности в математических рассуждениях, достигая результатов, сопоставимых с теми, которые достигаются за счет алгоритмических изменений. Кроме того, мы достигаем конкурентоспособной производительности среди открытых 7B RL-настроенных моделей, обучая Qwen2.5-VL-7B с использованием визуальных возмущений. В ходе всесторонних абляционных исследований мы анализируем эффективность различных стратегий возмущений, выявляя, что каждый тип возмущения вносит уникальный вклад в различные аспекты визуального рассуждения. Наши результаты подчеркивают критическую роль визуальных возмущений в мультимодальных математических рассуждениях: лучшее рассуждение начинается с лучшего видения. Наш код доступен по адресу https://github.com/YutingLi0606/Vision-Matters.
Хотя модели, объединяющие зрение, язык и действия (VLAs), демонстрируют перспективные роботизированные поведения в широком спектре задач манипулирования, их успешность ограничена при выполнении новых задач "из коробки". Чтобы обеспечить безопасное взаимодействие таких политик с окружающей средой, необходим детектор сбоев, который своевременно предупреждает, позволяя роботу остановиться, откатиться или запросить помощь. Однако существующие детекторы сбоев обучаются и тестируются только на одной или нескольких конкретных задачах, тогда как для VLAs требуется, чтобы детектор мог обобщать и выявлять сбои в новых задачах и неизвестных средах. В данной работе мы вводим проблему многозадачного обнаружения сбоев и предлагаем SAFE — детектор сбоев для универсальных роботизированных политик, таких как VLAs. Мы анализируем пространство признаков VLAs и обнаруживаем, что VLAs обладают достаточными знаниями высокого уровня об успехе и неудаче задачи, которые являются общими для различных задач. На основе этого наблюдения мы разрабатываем SAFE, который обучается на внутренних признаках VLAs и предсказывает скалярное значение, указывающее вероятность сбоя задачи. SAFE обучается как на успешных, так и на неудачных прогонах и оценивается на новых задачах. SAFE совместим с различными архитектурами политик. Мы тестируем его на OpenVLA, pi_0 и pi_0-FAST как в симулированных, так и в реальных условиях. Мы сравниваем SAFE с различными базовыми методами и показываем, что SAFE достигает наилучших показателей обнаружения сбоев и оптимального баланса между точностью и временем обнаружения с использованием конформного предсказания. Дополнительные качественные результаты можно найти по адресу https://vla-safe.github.io/.
Язык предоставляет естественный интерфейс для определения и оценки производительности в визуальных задачах. Чтобы реализовать эту возможность, модели, объединяющие зрение и язык (Vision Language Models, VLMs), должны успешно интегрировать визуальную и лингвистическую информацию. В нашей работе VLMs сравниваются с прямым считыванием их визуальных кодировщиков, чтобы понять их способность к интеграции этих модальностей. На серии визуально-ориентированных тестов (например, оценка глубины, соответствие) мы обнаруживаем, что VLMs показывают значительно худшие результаты по сравнению с их визуальными кодировщиками, приближаясь к случайному уровню производительности. Мы исследуем эти результаты с помощью серии анализов, охватывающих всю VLM: а именно 1) ухудшение визуальных представлений, 2) хрупкость к формулировке задачи и 3) роль языковой модели в решении задачи. Мы обнаруживаем, что узким местом в выполнении этих визуально-ориентированных задач является третья категория; VLMs неэффективно используют визуальную информацию, которая легко доступна на протяжении всей модели, и наследуют языковые приоритеты, присутствующие в LLM. Наша работа помогает диагностировать причины сбоев в открытых VLMs и представляет серию оценок, полезных для будущих исследований визуального понимания в рамках VLMs.
Последние достижения в области генерации 3D-объектов значительно улучшили как качество, так и эффективность. Однако большинство существующих методов создают единый меш, в котором все части слиты вместе, что ограничивает возможность редактирования или манипулирования отдельными частями. Ключевая проблема заключается в том, что разные объекты могут иметь различное количество частей. Для решения этой задачи мы предлагаем новый сквозной фреймворк для генерации 3D-объектов на уровне частей. На основе одного входного изображения наш метод создает высококачественные 3D-объекты с произвольным количеством полных и семантически значимых частей. Мы вводим стратегию двойного объемного упорядочивания, которая организует все части в два взаимодополняющих объема, позволяя создавать полные и переплетенные части, которые собираются в итоговый объект. Эксперименты показывают, что наша модель превосходит предыдущие методы генерации на уровне частей на основе изображений по качеству, разнообразию и обобщающей способности.
Плотное соответствие изображений является ключевым для многих приложений, таких как визуальная одометрия, 3D-реконструкция, ассоциация объектов и повторная идентификация. Исторически задача плотного соответствия решалась отдельно для сценариев с широким базисом и для оценки оптического потока, несмотря на общую цель сопоставления содержимого между двумя изображениями. В данной работе мы разрабатываем унифицированную модель потока и соответствия (Unified Flow & Matching, UFM), которая обучается на унифицированных данных для пикселей, видимых как в исходном, так и в целевом изображениях. UFM использует простую, универсальную архитектуру трансформера, которая непосредственно регрессирует поток (u, v). Она проще в обучении и более точна для больших потоков по сравнению с типичными многоуровневыми объемными затратами в предыдущих работах. UFM на 28% точнее современных методов оценки потока (Unimatch), а также имеет на 62% меньше ошибок и работает в 6,7 раза быстрее, чем плотные методы соответствия с широким базисом (RoMa). UFM впервые демонстрирует, что унифицированное обучение может превзойти специализированные подходы в обеих областях. Этот результат позволяет реализовать быстрое, универсальное соответствие и открывает новые направления для многомодальных, дальнодействующих и задач соответствия в реальном времени.
Вывод о направлении взгляда — способность определять, на что смотрят другие, — является ключевым компонентом теории сознания, лежащей в основе естественного взаимодействия между человеком и ИИ. В контролируемом исследовании мы оценили этот навык у 111 моделей обработки визуальной и языковой информации (Vision Language Models, VLMs), используя фотографии с варьирующейся сложностью и разнообразием, сравнивая их результаты с показателями участников-людей (N = 65), и проанализировали поведение с помощью моделей смешанных эффектов. Мы обнаружили, что 94 из 111 VLMs не смогли превзойти случайное угадывание, в то время как люди достигли почти максимальной точности. VLMs даже отвечали на каждый вариант почти с одинаковой частотой. Угадывают ли они случайно? Хотя большинство VLMs испытывают трудности, при более детальном рассмотрении пяти лучших моделей, показавших результаты выше случайных, мы обнаружили, что их производительность снижалась с увеличением сложности задачи, но варьировалась лишь незначительно в зависимости от различных запросов и объектов в сцене. Эти поведенческие особенности нельзя объяснить, считая их случайными угадывателями. Вместо этого они, вероятно, используют комбинацию эвристик и угадывания, так что их производительность зависит от сложности задачи, но устойчива к перцептивным вариациям. Это говорит о том, что VLMs, не обладая способностью к выводу о направлении взгляда, пока не стали технологиями, способными естественно взаимодействовать с людьми, но потенциал для этого остается.
Точная настройка моделей видеодиффузии (Video Diffusion Models, VDMs) на уровне пользователя для генерации видео, отражающих специфические атрибуты обучающих данных, представляет собой значительные вызовы, однако остается недостаточно изученной, несмотря на ее практическую важность. В то же время недавние работы, такие как выравнивание представлений (Representation Alignment, REPA), показали перспективность в улучшении сходимости и качества моделей диффузии изображений на основе DiT за счет согласования или ассимиляции их внутренних скрытых состояний с внешними предобученными визуальными признаками, что указывает на их потенциал для точной настройки VDMs. В данной работе мы сначала предлагаем простое адаптирование REPA для VDMs и эмпирически показываем, что, хотя этот метод эффективен для сходимости, он неоптимален в сохранении семантической согласованности между кадрами. Для устранения этого ограничения мы представляем кросс-кадровое выравнивание представлений (Cross-frame Representation Alignment, CREPA), новую технику регуляризации, которая согласует скрытые состояния кадра с внешними признаками из соседних кадров. Эмпирические оценки на крупномасштабных VDMs, включая CogVideoX-5B и Hunyuan Video, демонстрируют, что CREPA улучшает как визуальную достоверность, так и кросс-кадровую семантическую согласованность при точной настройке с использованием параметрически эффективных методов, таких как LoRA. Мы также подтверждаем применимость CREPA на различных наборах данных с различными атрибутами, что подтверждает ее широкую применимость. Страница проекта: https://crepavideo.github.io
Для крупных языковых моделей важно осознавать границы своих знаний и механизмы идентификации известных и неизвестных запросов. Такое осознание может помочь моделям выполнять адаптивный вывод, например, активировать RAG (Retrieval-Augmented Generation), включаться в медленное и глубокое размышление или использовать механизм воздержания, что способствует развитию эффективного и надежного ИИ. В данной работе мы предлагаем метод обнаружения границ знаний через неопределенность на уровне запросов (Query-Level Uncertainty), который направлен на определение способности модели ответить на заданный запрос без генерации токенов. Для этого мы вводим новый метод, не требующий обучения, под названием Internal Confidence, который использует самооценки на уровне слоев и токенов. Эмпирические результаты на задачах фактологического QA и математического рассуждения показывают, что наш метод Internal Confidence превосходит несколько базовых подходов. Кроме того, мы демонстрируем, что предложенный метод может быть использован для эффективного применения RAG и каскадирования моделей, что позволяет снизить затраты на вывод, сохраняя при этом производительность.
Искусственный интеллект (ИИ) стал фундаментальным инструментом для помощи клиницистам в анализе офтальмологических изображений, таких как оптическая когерентная томография (ОКТ). Однако разработка моделей ИИ часто требует обширной аннотации, а существующие модели, как правило, демонстрируют низкую производительность на независимых, ранее не встречавшихся данных. Фундаментальные модели (ФМ) — крупные модели ИИ, обученные на обширных немаркированных наборах данных, — показали перспективность в преодолении этих трудностей. Тем не менее, доступные ФМ для офтальмологии недостаточно валидированы, особенно для задач сегментации, и сосредоточены на одном типе визуализации. В этом контексте мы предлагаем MIRAGE — новую мультимодальную ФМ для анализа изображений ОКТ и сканирующей лазерной офтальмоскопии (SLO). Кроме того, мы предлагаем новый эталонный тест для задач классификации и сегментации ОКТ/SLO. Сравнение с общими и специализированными ФМ, а также методами сегментации демонстрирует превосходство MIRAGE в обоих типах задач, подчеркивая её пригодность в качестве основы для разработки надежных систем ИИ для анализа ретинальных изображений ОКТ. MIRAGE и эталонный тест доступны публично: https://github.com/j-morano/MIRAGE.
Хотя крупные языковые модели (LLM) способствуют стремительному развитию искусственного интеллекта, эффективное и надежное обучение таких моделей остается одной из наиболее значительных проблем в этой области. Для решения этой проблемы мы предлагаем POET — новый алгоритм обучения с перепараметризацией, который использует ортогональное эквивалентное преобразование для оптимизации нейронов. В частности, POET перепараметризует каждый нейрон с помощью двух обучаемых ортогональных матриц и фиксированной случайной матрицы весов. Благодаря доказательному сохранению спектральных свойств матриц весов, POET позволяет стабильно оптимизировать целевую функцию с улучшенной обобщающей способностью. Мы также разработали эффективные аппроксимации, которые делают POET гибким и масштабируемым для обучения крупномасштабных нейронных сетей. Многочисленные эксперименты подтверждают эффективность и масштабируемость POET при обучении крупных языковых моделей.
Медицинское визуальное вопросно-ответное взаимодействие (MedVQA) представляет собой перспективное направление для разработки систем поддержки принятия клинических решений, однако прогресс в этой области часто ограничивается доступными наборами данных, которые могут не обладать достаточной клинической сложностью и визуальным разнообразием. Для устранения этих пробелов мы представляем Kvasir-VQA-x1 — новый крупномасштабный набор данных для гастроинтестинальной (ЖКТ) эндоскопии. Наша работа существенно расширяет оригинальный Kvasir-VQA, включая 159 549 новых пар вопросов и ответов, разработанных для проверки более глубокого клинического мышления. Мы разработали систематический метод с использованием больших языковых моделей для генерации этих вопросов, которые стратифицированы по сложности, чтобы лучше оценить способности модели к логическому выводу. Чтобы обеспечить подготовку моделей к реальным клиническим сценариям, мы также внедрили разнообразные визуальные аугментации, имитирующие распространенные артефакты изображений. Набор данных структурирован для поддержки двух основных оценочных треков: один для стандартной производительности VQA и другой для проверки устойчивости модели к этим визуальным искажениям. Предоставляя более сложный и клинически значимый эталон, Kvasir-VQA-x1 стремится ускорить разработку более надежных и эффективных мультимодальных систем искусственного интеллекта для использования в клинической практике. Набор данных полностью доступен и соответствует принципам FAIR, что делает его ценным ресурсом для широкого исследовательского сообщества. Код и данные доступны по ссылкам: https://github.com/Simula/Kvasir-VQA-x1 и https://huggingface.co/datasets/SimulaMet/Kvasir-VQA-x1.
Прогнозирование промежуточных траекторий между начальным и целевым распределениями является ключевой задачей в генеративном моделировании. Существующие подходы, такие как согласование потоков и согласование мостов Шрёдингера, эффективно изучают отображения между двумя распределениями, моделируя единственный стохастический путь. Однако эти методы по своей природе ограничены унимодальными переходами и не способны учитывать ветвящуюся или дивергентную эволюцию от общего источника к множеству различных исходов. Для решения этой проблемы мы представляем метод BranchSBM (Branched Schr\"odinger Bridge Matching) — новый подход, который изучает ветвящиеся мосты Шрёдингера. BranchSBM параметризует несколько зависящих от времени полей скоростей и процессов роста, что позволяет моделировать расхождение на уровне популяции на несколько конечных распределений. Мы показываем, что BranchSBM не только обладает большей выразительностью, но и является необходимым для задач, связанных с навигацией по многопутевым поверхностям, моделированием бифуркаций клеточных судеб из однородных состояний предшественников и симуляцией дивергентных клеточных ответов на возмущения.
Крупные языковые модели часто сталкиваются с конфликтами между их параметрическими знаниями и контекстным вводом, что нередко приводит к фактическим несоответствиям или галлюцинациям. Мы предлагаем метод Self-Reflective Debate for Contextual Reliability (SR-DCR), легковесный фреймворк, который интегрирует самоуверенность на уровне токенов с асимметричным многоагентным дебатом для разрешения таких конфликтов. Критик, лишенный контекста, оспаривает защитника, который аргументирует на основе предоставленного текста; модель-судья оценивает дебаты и определяет надежность контекста. Окончательный ответ выбирается путем объединения вердикта с уверенностью модели. Эксперименты на бенчмарке ClashEval демонстрируют, что SR-DCR последовательно повышает устойчивость к вводящему в заблуждение контексту, сохраняя точность на достоверных входах, превосходя как классические дебаты, так и базовые методы, основанные только на уверенности, при минимальных вычислительных затратах. Код доступен по адресу https://github.com/smiles724/Self-Reflective-Debates.
Крупные модели рассуждений (LRMs) продемонстрировали впечатляющие способности к рассуждениям в широком спектре задач, включая олимпиадные математические задачи, что свидетельствует о их сложных навыках рассуждения. Хотя многие тесты на рассуждения сосредоточены на STEM-областях, способность LRMs корректно рассуждать в более широких задачах остается недостаточно изученной. В данной работе мы представляем TTT-Bench — новый тест, предназначенный для оценки базовых стратегических, пространственных и логических способностей к рассуждению у LRMs с помощью набора из четырех игр в стиле "Крестики-нолики" для двух игроков, которые люди с легкостью решают с раннего возраста. Мы предлагаем простой, но масштабируемый программный подход для генерации проверяемых задач для двух игроков в TTT-Bench. Хотя эти игры тривиальны для людей, они требуют рассуждений о намерениях противника, а также о пространственной конфигурации игрового поля, чтобы обеспечить победу. Мы оцениваем разнообразный набор современных LRMs и обнаруживаем, что модели, которые преуспевают в сложных математических задачах, часто терпят неудачу в этих простых играх на рассуждения. Дальнейшие тесты показывают, что наши оцениваемые модели рассуждений в среднем показывают на 41% и 5% худшие результаты на TTT-Bench по сравнению с MATH 500 и AIME 2024 соответственно, причем более крупные модели достигают более высокой производительности, используя более короткие цепочки рассуждений, тогда как большинство моделей испытывают трудности в ситуациях долгосрочного стратегического рассуждения на простых и новых задачах TTT-Bench.
Недавние улучшения в области больших языковых моделей (LLM) привлекли внимание многих исследователей к созданию полностью автономных ИИ-агентов. В данной позиционной статье ставится под сомнение, является ли такой подход правильным направлением, поскольку автономные системы по-прежнему сталкиваются с проблемами надежности, прозрачности и понимания реальных потребностей человека. Мы предлагаем альтернативный подход: системы взаимодействия человека и агента на основе LLM (LLM-HAS), где ИИ работает совместно с человеком, а не заменяет его. Сохраняя вовлеченность человека для предоставления рекомендаций, ответов на вопросы и поддержания контроля, такие системы могут быть более надежными и адаптивными. Рассматривая примеры из здравоохранения, финансов и разработки программного обеспечения, мы показываем, как совместная работа человека и ИИ может справляться со сложными задачами лучше, чем ИИ, работающий в одиночку. Мы также обсуждаем вызовы, связанные с созданием таких совместных систем, и предлагаем практические решения. В статье утверждается, что прогресс в области ИИ не должен измеряться степенью независимости систем, а тем, насколько эффективно они могут взаимодействовать с человеком. Наиболее перспективное будущее ИИ заключается не в системах, которые берут на себя человеческие роли, а в тех, которые усиливают человеческие возможности через значимое партнерство.