Ежедневно отобранные исследовательские статьи по ИИ с переводами
Юго-Восточная Азия (ЮВА) — это регион с исключительным лингвистическим и культурным разнообразием, однако он остается значительно недооцененным в исследованиях, связанных с обработкой визуальной и языковой информации (VL). Это часто приводит к тому, что модели искусственного интеллекта (ИИ) не учитывают культурные особенности ЮВА. Чтобы восполнить этот пробел, мы представляем SEA-VL — инициативу с открытым исходным кодом, направленную на создание высококачественных, культурно значимых данных для языков ЮВА. Привлекая участников из стран ЮВА, SEA-VL стремится обеспечить лучшую культурную релевантность и разнообразие, способствуя большей инклюзивности недостаточно представленных языков в исследованиях VL. Помимо краудсорсинга, наша инициатива делает шаг вперед в изучении автоматического сбора культурно значимых изображений с помощью краулинга и генерации изображений. Во-первых, мы обнаруживаем, что краулинг изображений достигает примерно ~85% культурной релевантности, при этом он более экономически и временно эффективен, чем краудсорсинг. Во-вторых, несмотря на значительный прогресс в генеративных моделях обработки изображений, синтетические изображения остаются ненадежными в точном отражении культур ЮВА. Сгенерированные изображения часто не передают тонкие традиции и культурные контексты региона. В совокупности мы собрали 1,28 млн культурно значимых изображений ЮВА, что более чем в 50 раз превышает объем других существующих наборов данных. Благодаря SEA-VL мы стремимся сократить разрыв в представленности ЮВА, способствуя разработке более инклюзивных систем ИИ, которые аутентично отражают разнообразие культур региона.
Улучшение способности к рассуждению в крупных мультимодальных моделях (LMM) сталкивается с уникальными вызовами, связанными со сложным взаимодействием между визуальным восприятием и логическим мышлением, особенно в компактных архитектурах с 3 миллиардами параметров, где ограничения архитектуры снижают способность к рассуждению и согласованность модальностей. Хотя обучение с подкреплением на основе правил (RL) демонстрирует высокие результаты в текстовых задачах, его мультимодальное расширение сталкивается с двумя критическими проблемами: (1) ограничения данных из-за неоднозначных ответов и недостатка примеров сложных рассуждений, и (2) ухудшение базовых способностей к рассуждению, вызванное мультимодальным предобучением. Для решения этих проблем мы предлагаем \method, двухэтапную структуру, адаптирующую обучение с подкреплением на основе правил для мультимодальных рассуждений через Усиление Базовых Способностей к Рассуждению (FRE) с последующим Обучением Мультимодальной Обобщаемости (MGT). На этапе FRE сначала укрепляются способности к рассуждению с использованием текстовых данных и RL на основе правил, а затем на этапе MGT эти способности обобщаются для мультимодальных задач. Эксперименты на модели Qwen2.5-VL-Instruct-3B показывают, что \method достигает среднего улучшения на 4,83\% и 4,5\% по сравнению с базовыми методами в мультимодальных и текстовых тестах соответственно, с увеличением на 3,63\% в сложных задачах Football Game. Эти результаты подтверждают, что усиление способности к рассуждению на основе текста позволяет эффективно обобщать знания для мультимодальных задач, предлагая ресурсоэффективный подход, который обходит необходимость в дорогостоящих высококачественных мультимодальных данных для обучения.
Мы решаем задачу генерации длинных музыкальных композиций, в частности сложную проблему преобразования текста в песню, представляя YuE — семейство открытых базовых моделей, основанных на архитектуре LLaMA2. В частности, YuE масштабируется до триллионов токенов и генерирует музыку продолжительностью до пяти минут, сохраняя соответствие тексту, связную музыкальную структуру и увлекательные вокальные мелодии с подходящим аккомпанементом. Это достигается за счет (1) разделенного по трекам предсказания следующего токена для преодоления сложных смешанных сигналов, (2) структурного прогрессивного кондиционирования для длительного контекстного соответствия тексту и (3) многофазного многозадачного предобучения для сходимости и обобщения. Кроме того, мы переработали технику обучения в контексте для генерации музыки, что позволяет осуществлять универсальный перенос стиля (например, преобразование японского сити-попа в английский рэп с сохранением оригинального аккомпанемента) и двунаправленную генерацию. В ходе обширной оценки мы демонстрируем, что YuE соответствует или даже превосходит некоторые проприетарные системы по музыкальности и вокальной гибкости. Кроме того, дообучение YuE позволяет реализовать дополнительные элементы управления и улучшенную поддержку редких языков. Более того, помимо генерации, мы показываем, что изученные представления YuE хорошо справляются с задачами понимания музыки, где результаты YuE соответствуют или превосходят современные методы на бенчмарке MARBLE. Ключевые слова: текст-в-песню, генерация песен, длинные формы, базовая модель, генерация музыки.
Обучение моделей эффективному использованию вычислительных ресурсов во время тестирования имеет решающее значение для улучшения способности крупных языковых моделей (LLM) к рассуждению. Современные методы в основном достигают этого путем тонкой настройки на основе траекторий поиска или применения обучения с подкреплением (RL) с бинарной наградой (0/1), но эффективно ли эти подходы используют вычислительные ресурсы во время тестирования? Будут ли они масштабироваться с увеличением доступных ресурсов? В данной работе мы пытаемся ответить на эти вопросы. Мы формализуем задачу оптимизации вычислительных ресурсов во время тестирования как задачу мета-обучения с подкреплением (meta-RL), что дает принципиальный подход к распределению этих ресурсов. Такой подход позволяет рассматривать длинный поток вывода LLM как состоящий из нескольких эпизодов, выполняемых во время тестирования, и приводит нас к использованию понятия кумулятивного сожаления (cumulative regret) по токенам вывода как способа измерения эффективности использования вычислительных ресурсов. Подобно тому, как алгоритмы RL находят оптимальный баланс между исследованием и эксплуатацией во время обучения, минимизация кумулятивного сожаления также обеспечивает наилучший баланс между исследованием и эксплуатацией в потоке токенов. Хотя мы показываем, что современные модели не минимизируют сожаление, этого можно достичь, максимизируя плотную бонусную награду в сочетании с бинарной наградой RL (0/1). Этот бонус представляет собой «прогресс», достигнутый каждым последующим блоком в потоке вывода, измеряемый изменением вероятности конечного успеха. Используя эти идеи, мы разрабатываем Meta Reinforcement Fine-Tuning (MRT) — новый класс методов тонкой настройки для оптимизации вычислительных ресурсов во время тестирования. MRT приводит к относительному улучшению производительности в 2–3 раза и примерно к 1,5-кратному увеличению эффективности использования токенов в задачах математического рассуждения по сравнению с RL, основанным на бинарной награде.
В данном отчете мы представляем Gemini Embedding — передовую модель для создания эмбеддингов, использующую возможности Gemini, самой мощной крупной языковой модели Google. Благодаря встроенным в Gemini способностям к пониманию многоязычных текстов и кода, Gemini Embedding создает высоко обобщаемые эмбеддинги для текстов на множестве языков и в различных текстовых модальностях. Представления, генерируемые Gemini Embedding, могут быть предварительно вычислены и применены для решения разнообразных задач, включая классификацию, определение сходства, кластеризацию, ранжирование и поиск. Оцененная на Massive Multilingual Text Embedding Benchmark (MMTEB), который включает более ста задач на 250+ языках, Gemini Embedding значительно превосходит предыдущие передовые модели, демонстрируя существенное улучшение качества эмбеддингов. Достигая наилучших результатов на мультиязычных, англоязычных и кодовых бенчмарках MMTEB, наша унифицированная модель демонстрирует высокие возможности в широком спектре задач и превосходит специализированные модели, ориентированные на конкретные области.
Быстрое развитие диффузионных моделей стимулировало значительный прогресс в области генерации изображений. Однако популярные модели, такие как Flux, SD3.5 и Midjourney, по-прежнему сталкиваются с проблемами, включая смещение моделей, ограниченные возможности рендеринга текста и недостаточное понимание культурных нюансов китайского языка. Для устранения этих ограничений мы представляем Seedream 2.0 — базовую модель генерации изображений, изначально поддерживающую китайско-английский билингвизм, которая превосходно справляется с текстовыми запросами на обоих языках, поддерживая билингвальную генерацию изображений и рендеринг текста. Мы разработали мощную систему данных, способствующую интеграции знаний, и систему описаний, которая балансирует между точностью и насыщенностью описаний изображений. В частности, Seedream интегрирована с самостоятельно разработанной билингвальной языковой моделью большого масштаба в качестве текстового кодировщика, что позволяет ей изучать знания напрямую из огромных объемов данных. Это позволяет генерировать изображения высокой точности с корректными культурными нюансами и эстетическими выражениями, описанными как на китайском, так и на английском языках. Кроме того, Glyph-Aligned ByT5 применяется для гибкого рендеринга текста на уровне символов, а Scaled ROPE демонстрирует хорошую обобщаемость на необученных разрешениях. Многоэтапная пост-тренировочная оптимизация, включая итерации SFT и RLHF, дополнительно улучшает общие возможности модели. В ходе обширных экспериментов мы демонстрируем, что Seedream 2.0 достигает передовых результатов по множеству аспектов, включая следование запросам, эстетику, рендеринг текста и структурную корректность. Более того, Seedream 2.0 была оптимизирована с помощью нескольких итераций RLHF для максимального соответствия её результатов человеческим предпочтениям, что подтверждается её выдающимся показателем ELO. Кроме того, модель легко адаптируется для использования в качестве модели редактирования изображений на основе инструкций, такой как SeedEdit, обладая мощными возможностями редактирования, которые балансируют между следованием инструкциям и сохранением целостности изображения.
Мы представляем MagicInfinite, новаторскую фреймворк на основе диффузионных трансформеров (DiT), который преодолевает ограничения традиционной анимации портретов, обеспечивая высококачественные результаты для различных типов персонажей — реалистичных людей, полноростовых фигур и стилизованных аниме-персонажей. Он поддерживает различные позы лица, включая виды сзади, и анимирует одного или нескольких персонажей с использованием входных масок для точного обозначения говорящего в сценах с несколькими персонажами. Наш подход решает ключевые задачи с помощью трех инноваций: (1) механизмы полного 3D-внимания со стратегией скользящего окна для удаления шума, позволяющие генерировать бесконечные видео с временной согласованностью и визуальным качеством для различных стилей персонажей; (2) двухэтапная схема обучения с интеграцией аудио для синхронизации губ, текста для выразительной динамики и эталонных изображений для сохранения идентичности, обеспечивающая гибкий многомодальный контроль над длинными последовательностями; и (3) региональные маски с адаптивными функциями потерь для баланса глобального текстового контроля и локального аудио-руководства, поддерживающие анимацию для конкретных говорящих. Эффективность повышена благодаря нашим инновационным техникам унифицированного шага и дистилляции cfg, что обеспечивает 20-кратное ускорение вывода по сравнению с базовой моделью: генерация 10-секундного видео 540x540p за 10 секунд или 720x720p за 30 секунд на 8 GPU H100 без потери качества. Оценки на нашем новом бенчмарке демонстрируют превосходство MagicInfinite в синхронизации аудио и губ, сохранении идентичности и естественности движений в различных сценариях. Фреймворк доступен публично по адресу https://www.hedra.com/, с примерами на https://magicinfinite.github.io/.
Чем отличаются два человека при выполнении одного и того же действия? В данной работе мы представляем Video Action Differencing (VidDiff) — новую задачу выявления тонких различий между видео одного и того же действия, которая имеет множество применений, таких как коучинг и обучение навыкам. Для развития этой новой задачи мы сначала создаем VidDiffBench — эталонный набор данных, содержащий 549 пар видео с аннотациями 4 469 тонких различий в действиях и 2 075 временных меток, указывающих, где эти различия происходят. Наши эксперименты показывают, что VidDiffBench представляет значительную сложность для современных крупных мультимодальных моделей (LMM), таких как GPT-4o и Qwen2-VL. Анализируя случаи неудач LMM на VidDiffBench, мы выделяем две ключевые проблемы для этой задачи: локализация соответствующих под-действий в двух видео и тонкое сравнение кадров. Для их решения мы предлагаем метод VidDiff — агентный рабочий процесс, который разбивает задачу на три этапа: предложение различий в действиях, локализация ключевых кадров и сравнение кадров, где каждый этап использует специализированные базовые модели. Чтобы стимулировать дальнейшие исследования в этой новой области, мы публикуем эталонный набор данных по адресу https://huggingface.co/datasets/jmhb/VidDiffBench и код на http://jmhb0.github.io/viddiff.
Унифицированные мультимодальные модели (UMM) стали мощной парадигмой в фундаментальных исследованиях компьютерного зрения, демонстрируя значительный потенциал как в понимании, так и в генерации изображений. Однако существующие исследования в области анализа лиц в основном сосредоточены на грубом понимании атрибутов лица, с ограниченной способностью обрабатывать тонкие атрибуты и без учета возможностей генерации. Чтобы преодолеть эти ограничения, мы предлагаем UniF^2ace — первую UMM, специально разработанную для тонкого понимания и генерации лиц. В целом, мы обучаем UniF^2ace на самостоятельно созданном специализированном наборе данных, используя две взаимодополняющие диффузионные техники и двухуровневую архитектуру смеси экспертов. В частности, мы сначала создаем крупномасштабный набор данных лиц UniF^2ace-130K, содержащий 130 тысяч пар изображение-текст с миллионом пар вопрос-ответ, охватывающих широкий спектр атрибутов лица. Во-вторых, мы устанавливаем теоретическую связь между дискретным диффузионным согласованием оценок и маскированными генеративными моделями, одновременно оптимизируя нижние границы доказательств, что значительно улучшает способность модели синтезировать детали лица. Наконец, мы вводим как токен-уровневую, так и последовательностно-уровневую смесь экспертов, что позволяет эффективно обучать тонкие представления как для задач понимания, так и для генерации. Многочисленные эксперименты на UniF^2ace-130K демонстрируют, что UniF^2ace превосходит существующие UMM и генеративные модели, достигая превосходной производительности как в задачах понимания, так и в задачах генерации.
Хотя мультимодальные языковые модели (MLLMs) продемонстрировали достаточные способности в понимании изображений, они всё ещё испытывают трудности с пиксельным уровнем понимания, что ограничивает их практическое применение. Текущие задачи оценки, такие как визуальный вопросно-ответ (VQA) и визуальное заземление, остаются слишком грубыми для точной оценки детального пиксельного понимания. Хотя сегментация является основой для понимания на уровне пикселей, существующие методы часто требуют, чтобы MLLMs генерировали неявные токены, которые декодируются через внешние пиксельные декодеры. Такой подход нарушает текстовое выходное пространство MLLMs, потенциально ухудшая языковые способности и снижая гибкость и расширяемость, при этом не отражая внутреннего пиксельного понимания модели. Таким образом, мы представляем задачу аннотирования масок, подобную человеческой (Human-Like Mask Annotation Task, HLMAT), новую парадигму, в которой MLLMs имитируют работу аннотаторов с использованием интерактивных инструментов сегментации. Моделируя сегментацию как многошаговый марковский процесс принятия решений, HLMAT позволяет MLLMs итеративно генерировать текстовые точки кликов, достигая высококачественных масок без изменения архитектуры или использования неявных токенов. В рамках этого подхода мы разработали SegAgent, модель, дообученную на траекториях аннотирования, подобных человеческим, которая демонстрирует производительность, сопоставимую с современными методами (SOTA), и поддерживает дополнительные задачи, такие как уточнение масок и фильтрация аннотаций. HLMAT предоставляет протокол для оценки детального пиксельного понимания в MLLMs и вводит визуально-ориентированную, многошаговую задачу принятия решений, которая способствует исследованию способностей MLLMs к визуальному рассуждению. Наши адаптации метода улучшения политики StaR и поиска по дереву с использованием PRM дополнительно повышают устойчивость модели в сложных задачах сегментации, закладывая основу для будущих достижений в области детального визуального восприятия и многошагового принятия решений для MLLMs.
Хотя последние достижения в области диффузионных моделей для генерации видео из текста позволяют создавать высококачественные короткие видеоролики по одному запросу, генерация длинных видео, соответствующих реальному миру, за один проход остается сложной задачей из-за ограниченности данных и высоких вычислительных затрат. Для решения этой проблемы несколько работ предлагают подходы, не требующие тонкой настройки, а именно расширение существующих моделей для генерации длинных видео, в частности, с использованием нескольких запросов, что позволяет динамично и контролируемо изменять содержание. Однако эти методы в основном сосредоточены на обеспечении плавных переходов между соседними кадрами, что часто приводит к дрейфу содержания и постепенной потере семантической связности в более длинных последовательностях. Чтобы решить эту проблему, мы предлагаем Synchronized Coupled Sampling (SynCoS) — новый фреймворк для вывода, который синхронизирует пути денойзинга по всему видео, обеспечивая долгосрочную согласованность как между соседними, так и между удаленными кадрами. Наш подход сочетает две взаимодополняющие стратегии семплирования: обратное семплирование и семплирование на основе оптимизации, которые обеспечивают плавные локальные переходы и глобальную согласованность соответственно. Однако прямое чередование этих методов семплирования приводит к рассогласованию траекторий денойзинга, нарушая управление по запросу и вызывая непреднамеренные изменения содержания, поскольку они работают независимо. Для устранения этого SynCoS синхронизирует их через зафиксированный временной шаг и базовый шум, обеспечивая полностью связанное семплирование с согласованными путями денойзинга. Многочисленные эксперименты показывают, что SynCoS значительно улучшает генерацию длинных видео с несколькими событиями, достигая более плавных переходов и превосходной долгосрочной согласованности, превосходя предыдущие подходы как количественно, так и качественно.
Вычислительные ресурсы во время тестирования становятся новой парадигмой для улучшения способностей языковых моделей к сложному многошаговому рассуждению, что демонстрируется успехами моделей OpenAI o1 и o3, а также DeepSeek R1. По сравнению с явным рассуждением при использовании вычислительных ресурсов во время тестирования, неявное рассуждение более эффективно с точки зрения вывода, требуя генерации меньшего количества токенов. Однако почему продвинутые способности к рассуждению не проявляются в стиле неявного рассуждения? В данной работе мы обучаем GPT-2 с нуля на специально подготовленном наборе данных для многошагового математического рассуждения и проводим аналитические эксперименты, чтобы исследовать, как языковые модели выполняют неявное рассуждение в многошаговых задачах. Наши результаты показывают: 1) Языковые модели способны выполнять пошаговое рассуждение и достигать высокой точности как в рамках домена, так и за его пределами с помощью неявного рассуждения. Однако эта способность проявляется только при обучении на данных с фиксированным шаблоном. 2) Напротив, способности к неявному рассуждению, возникающие при обучении на данных без фиксированного шаблона, склонны к переобучению на конкретный шаблон и не способны к дальнейшему обобщению. Примечательно, что это ограничение также наблюдается в современных крупных языковых моделях. Эти результаты позволяют предположить, что языковые модели приобретают неявное рассуждение через обучение "коротким путям", что позволяет им демонстрировать высокую производительность на задачах с похожими шаблонами, но ограничивает их способность к обобщению.
Последние достижения в области генерации изображений из текста в основном опирались на обширные наборы данных и архитектуры с большим количеством параметров. Эти требования существенно ограничивают доступность для исследователей и практиков, не обладающих значительными вычислительными ресурсами. В данной статье мы представляем \model, эффективную парадигму обучения моделей генерации изображений, которая использует дистилляцию знаний (KD) и оптимизацию прямых предпочтений (DPO). Вдохновляясь успехом техник дистилляции данных, широко применяемых в многомодальных больших языковых моделях (MLLMs), LightGen переносит знания из современных (SOTA) моделей генерации изображений из текста в компактную архитектуру Masked Autoregressive (MAR) с всего лишь 0.7 миллиардами параметров. Используя компактный синтетический набор данных из всего 2 миллионов высококачественных изображений, сгенерированных из разнообразных описаний, мы демонстрируем, что разнообразие данных значительно важнее их объема для определения производительности модели. Эта стратегия существенно снижает вычислительные требования и сокращает время предварительного обучения с потенциально тысяч GPU-дней до всего лишь 88 GPU-дней. Кроме того, чтобы устранить присущие синтетическим данным недостатки, такие как плохие высокочастотные детали и пространственные неточности, мы интегрируем технику DPO, которая улучшает точность изображений и их позиционную точность. Комплексные эксперименты подтверждают, что LightGen достигает качества генерации изображений, сопоставимого с SOTA-моделями, при этом значительно сокращая вычислительные ресурсы и расширяя доступность для сред с ограниченными ресурсами. Код доступен по адресу https://github.com/XianfengWu01/LightGen.
Последние достижения в области унифицированного мультимодального понимания и моделей визуальной генерации (или мультимодальной генерации) были ограничены их квадратичной вычислительной сложностью и зависимостью от крупномасштабных обучающих данных. Мы представляем OmniMamba — первую модель мультимодальной генерации на основе линейной архитектуры, которая генерирует как текст, так и изображения через унифицированную парадигму предсказания следующего токена. Модель полностью использует высокую вычислительную и память-эффективность Mamba-2, расширяя её возможности от генерации текста до мультимодальной генерации. Для решения проблемы неэффективности данных в существующих унифицированных моделях мы предлагаем два ключевых нововведения: (1) разделённые словари для управления генерацией, специфичной для модальности, и (2) LoRA для задач, обеспечивающую параметрически эффективную адаптацию. Кроме того, мы вводим разделённую двухэтапную стратегию обучения для смягчения дисбаланса данных между двумя задачами. Оснащённая этими методами, OmniMamba демонстрирует конкурентоспособные результаты с JanusFlow, превосходя Show-o на различных бенчмарках, несмотря на обучение всего на 2 миллионах пар изображение-текст, что в 1000 раз меньше, чем у Show-o. Примечательно, что OmniMamba выделяется выдающейся эффективностью вывода, достигая ускорения до 119,2 раз и сокращения использования памяти GPU на 63% для генерации длинных последовательностей по сравнению с моделями на основе Transformer. Код и модели доступны по адресу https://github.com/hustvl/OmniMamba.
Инструктивно-ориентированные системы поиска широко используются вместе с крупными языковыми моделями (LLM) в реальных приложениях, однако мало исследований посвящено изучению рисков безопасности, связанных с их растущими поисковыми возможностями. Мы эмпирически изучаем способность таких систем удовлетворять вредоносные запросы как при их прямом использовании, так и в рамках подхода, основанного на генерации с усилением поиска. В частности, мы исследуем шесть ведущих систем поиска, включая NV-Embed и LLM2Vec, и обнаруживаем, что при наличии вредоносных запросов большинство из них могут (для >50% запросов) выбирать соответствующие вредоносные фрагменты. Например, LLM2Vec корректно выбирает фрагменты для 61,35% наших вредоносных запросов. Мы также выявляем новый риск, связанный с инструктивно-ориентированными системами поиска, где высокорелевантная вредоносная информация может быть извлечена за счет использования их способности следовать инструкциям. Наконец, мы показываем, что даже LLM, ориентированные на безопасность, такие как Llama3, могут удовлетворять вредоносные запросы, если им предоставляются вредоносные фрагменты в контексте. В заключение, наши результаты подчеркивают риски злонамеренного использования, связанные с растущими возможностями систем поиска.
Локализация кода — точное определение места в кодовой базе, где необходимо внести изменения, — является фундаментальной, но сложной задачей в поддержке программного обеспечения. Существующие подходы сталкиваются с трудностями при эффективной навигации по сложным кодовым базам для выявления соответствующих разделов кода. Основная проблема заключается в установлении связи между описаниями проблем на естественном языке и соответствующими элементами кода, что часто требует рассуждений на основе иерархических структур и множественных зависимостей. Мы представляем LocAgent, фреймворк, который решает задачу локализации кода с помощью графового представления. Путем преобразования кодовых баз в направленные гетерогенные графы LocAgent создает легковесное представление, которое захватывает структуры кода (файлы, классы, функции) и их зависимости (импорты, вызовы, наследование), что позволяет агентам на основе больших языковых моделей (LLM) эффективно искать и находить соответствующие сущности с помощью мощного многошагового рассуждения. Результаты экспериментов на реальных бенчмарках демонстрируют значительное повышение точности локализации кода. В частности, наш метод с доработанной моделью Qwen-2.5-Coder-Instruct-32B достигает сопоставимых результатов с современными проприетарными моделями при значительно меньших затратах (примерно на 86% меньше), достигая точности до 92,7% на уровне файлов, а также повышая успешность решения задач на GitHub на 12% при нескольких попытках (Pass@10). Наш код доступен по адресу https://github.com/gersteinlab/LocAgent.
Взаимодействие человека с внешним миром фундаментально связано с обменом личной памятью, будь то с другими людьми, веб-сайтами, приложениями или, в будущем, с ИИ-агентами. Значительная часть этого взаимодействия является избыточной, требуя от пользователей многократного предоставления одной и той же информации в различных контекстах. Существующие решения, такие как сохраненные в браузере учетные данные, механизмы автозаполнения и унифицированные системы аутентификации, направлены на снижение этой избыточности, выступая в роли посредников, которые хранят и извлекают часто используемые пользовательские данные. Появление больших языковых моделей (LLM) открывает возможность переосмыслить управление памятью через AI-нативную парадигму: SECOND ME. SECOND ME действует как интеллектуальная, постоянная система выгрузки памяти, которая сохраняет, организует и динамически использует знания, специфичные для пользователя. Выступая в качестве посредника в пользовательских взаимодействиях, она может автономно генерировать контекстно-зависимые ответы, предварительно заполнять необходимую информацию и обеспечивать беспрепятственное взаимодействие с внешними системами, значительно снижая когнитивную нагрузку и трение в процессе взаимодействия. В отличие от традиционных решений для хранения памяти, SECOND ME выходит за рамки статического хранения данных, используя параметризацию памяти на основе LLM. Это позволяет структурировать организацию, контекстное рассуждение и адаптивное извлечение знаний, способствуя более систематическому и интеллектуальному подходу к управлению памятью. По мере того как AI-управляемые персональные агенты, такие как SECOND ME, становятся все более интегрированными в цифровые экосистемы, SECOND ME представляет собой важный шаг на пути к усилению взаимодействия человека с миром через постоянные, контекстно-осознанные и самооптимизирующиеся системы памяти. Мы открыли исходный код полностью локализуемой системы развертывания на GitHub: https://github.com/Mindverse/Second-Me.
Мы представляем новую структуру визуальной токенизации, которая встраивает доказуемую PCA-подобную структуру в латентное пространство токенов. В то время как существующие визуальные токенизаторы в основном оптимизируются для точности реконструкции, они часто пренебрегают структурными свойствами латентного пространства — критически важным фактором как для интерпретируемости, так и для последующих задач. Наш метод генерирует одномерную причинно-следственную последовательность токенов для изображений, где каждый последующий токен вносит неперекрывающуюся информацию с математически гарантированным уменьшением объясняемой дисперсии, аналогично методу главных компонент. Это структурное ограничение гарантирует, что токенизатор сначала извлекает наиболее значимые визуальные признаки, а каждый последующий токен добавляет уменьшающуюся, но дополнительную информацию. Кроме того, мы выявили и устранили эффект семантико-спектрального связывания, который вызывает нежелательное переплетение высокоуровневого семантического содержания и низкоуровневых спектральных деталей в токенах, используя диффузионный декодер. Эксперименты показывают, что наш подход достигает наилучших показателей реконструкции и обеспечивает лучшую интерпретируемость, согласующуюся с человеческой зрительной системой. Более того, авторегрессивные модели, обученные на наших последовательностях токенов, демонстрируют производительность, сопоставимую с современными методами, при этом требуя меньше токенов для обучения и вывода.
По мере того как мультимодальные базовые модели начинают экспериментально внедряться в беспилотные автомобили, возникает закономерный вопрос: насколько похоже на человека эти системы реагируют в определенных дорожных ситуациях, особенно в тех, которые выходят за пределы их обучающих данных? Чтобы изучить это, мы создали набор данных Robusto-1, который использует видеозаписи с автомобильных камер из Перу — страны с одними из самых агрессивных водителей в мире, высоким индексом трафика и большим количеством необычных объектов на дорогах, которые, вероятно, никогда не встречались в обучающих данных. В частности, чтобы предварительно протестировать на когнитивном уровне, насколько хорошо базовые визуально-языковые модели (VLMs) сравниваются с людьми в контексте вождения, мы отходим от использования ограничивающих рамок, карт сегментации, карт занятости или оценки траекторий и переходим к мультимодальному визуальному вопросно-ответному анализу (VQA), сравнивая как людей, так и машины с помощью популярного метода в системной нейронауке, известного как анализ репрезентативного сходства (RSA). В зависимости от типа задаваемых вопросов и ответов, которые дают эти системы, мы покажем, в каких случаях VLMs и люди сходятся или расходятся, что позволяет нам исследовать их когнитивное соответствие. Мы обнаруживаем, что степень соответствия значительно варьируется в зависимости от типа вопросов, задаваемых каждому типу системы (люди vs VLMs), что подчеркивает разрыв в их согласованности.
В данной статье мы представляем CineBrain — первый крупномасштабный набор данных, содержащий одновременные записи ЭЭГ и фМРТ во время динамической аудиовизуальной стимуляции. Учитывая комплементарные преимущества высокой временной разрешающей способности ЭЭГ и глубокого пространственного охвата фМРТ, CineBrain предоставляет примерно шесть часов контента, основанного на сюжете популярного телесериала «Теория Большого взрыва», для каждого из шести участников. На основе этого уникального набора данных мы предлагаем CineSync — инновационную мультимодальную декодирующую структуру, которая интегрирует Мультимодальный Фьюжн-Энкодер с диффузионным Нейронным Латентным Декодером. Наш подход эффективно объединяет сигналы ЭЭГ и фМРТ, значительно улучшая качество реконструкции сложных аудиовизуальных стимулов. Для обеспечения строгой оценки мы вводим Cine-Benchmark — всеобъемлющий протокол оценки, который анализирует реконструкции по семантическим и перцептивным измерениям. Экспериментальные результаты демонстрируют, что CineSync достигает передовых показателей в реконструкции видео и подчеркивают наш первоначальный успех в объединении фМРТ и ЭЭГ для реконструкции как видео-, так и аудиостимулов. Страница проекта: https://jianxgao.github.io/CineBrain.
Крупные модели, работающие с визуальными и языковыми данными (LVLMs), демонстрируют впечатляющие достижения, однако генерация недостоверных ответов остается распространенной проблемой в задачах поиска фактов (QA). Современные мультимодальные бенчмарки для поиска фактов в основном сосредоточены на сравнении выходных данных моделей с эталонными ответами, что предоставляет ограниченные сведения о производительности модулей, специфичных для каждой модальности. Чтобы устранить этот пробел, мы представляем VisualSimpleQA — мультимодальный бенчмарк для поиска фактов, обладающий двумя ключевыми особенностями. Во-первых, он позволяет проводить упрощенную и раздельную оценку LVLMs в визуальной и языковой модальностях. Во-вторых, он включает четко определенные критерии сложности, которые направляют аннотирование человеком и облегчают выделение сложного подмножества — VisualSimpleQA-hard. Эксперименты с 15 LVLMs показывают, что даже передовые модели, такие как GPT-4o, достигают лишь 60%+ точности в мультимодальном поиске фактов на VisualSimpleQA и 30%+ на VisualSimpleQA-hard. Более того, раздельная оценка этих моделей подчеркивает значительные возможности для улучшения как визуальных, так и языковых модулей. Набор данных доступен по адресу https://huggingface.co/datasets/WYLing/VisualSimpleQA.
Бенчмарки играют ключевую роль для обеспечения последовательной оценки и воспроизводимости. Интеграция искусственного интеллекта в разработку программного обеспечения (AI4SE) привела к появлению множества бенчмарков для таких задач, как генерация кода и исправление ошибок. Однако этот рост сопровождается рядом проблем: (1) разрозненность знаний о бенчмарках для различных задач, (2) сложность выбора подходящих бенчмарков, (3) отсутствие единого стандарта для разработки бенчмарков и (4) ограничения существующих бенчмарков. В данной статье мы рассмотрели 173 исследования и выявили 204 бенчмарка AI4SE. Мы классифицировали эти бенчмарки, проанализировали их ограничения и выявили пробелы в текущих практиках. На основе нашего обзора мы создали BenchScout — инструмент семантического поиска для нахождения релевантных бенчмарков, используя автоматическую кластеризацию контекстов из связанных исследований. Мы провели исследование с участием 22 пользователей для оценки удобства, эффективности и интуитивности BenchScout, получив средние оценки 4.5, 4.0 и 4.1 из 5. Для продвижения стандартов бенчмаркинга мы предлагаем BenchFrame — унифицированный метод для повышения качества бенчмарков. В качестве примера мы применили BenchFrame к бенчмарку HumanEval и устранили его основные ограничения. Это привело к созданию HumanEvalNext, который включает (1) исправленные ошибки, (2) улучшенную конвертацию языков, (3) расширенное покрытие тестов и (4) повышенную сложность. Затем мы оценили десять современных языковых моделей для генерации кода на HumanEval, HumanEvalPlus и HumanEvalNext. На HumanEvalNext модели показали снижение показателя pass@1 на 31.22% и 19.94% по сравнению с HumanEval и HumanEvalPlus соответственно.
Нейроны в крупных языковых моделях часто проявляют полисемантичность, одновременно кодируя несколько несвязанных концепций, что затрудняет интерпретацию. Вместо использования постфактумных методов мы представляем MoE-X — языковую модель на основе смеси экспертов (Mixture-of-Experts, MoE), разработанную для обеспечения внутренней интерпретируемости. Наш подход основан на наблюдении, что в языковых моделях более широкие сети с разреженными активациями с большей вероятностью захватывают интерпретируемые факторы. Однако прямое обучение таких крупных разреженных сетей вычислительно нецелесообразно. Архитектуры MoE предлагают масштабируемую альтернативу, активируя только подмножество экспертов для каждого входного данных, что естественным образом соответствует целям интерпретируемости. В MoE-X мы устанавливаем эту связь, переписывая слой MoE как эквивалентную разреженную крупную MLP. Этот подход позволяет эффективно масштабировать размер скрытого слоя, сохраняя разреженность. Для дальнейшего повышения интерпретируемости мы обеспечиваем разреженную активацию внутри каждого эксперта и перерабатываем механизм маршрутизации, чтобы отдавать приоритет экспертам с наибольшей разреженностью активации. Эти решения гарантируют, что только наиболее значимые признаки маршрутизируются и обрабатываются экспертами. Мы оцениваем MoE-X на задачах, связанных с шахматами и естественным языком, демонстрируя, что она достигает производительности, сравнимой с плотными моделями, при этом значительно улучшая интерпретируемость. MoE-X достигает перплексии лучше, чем GPT-2, с интерпретируемостью, превосходящей даже подходы на основе разреженных автокодировщиков (SAE).
Совместная генерация аудио-видео (AV) данных остается серьезной проблемой в области генеративного ИИ, что обусловлено тремя ключевыми требованиями: качество генерируемых образцов, бесшовная мультимодальная синхронизация и временная согласованность, при которой аудиодорожки соответствуют визуальным данным и наоборот, а также неограниченная продолжительность видео. В данной статье мы представляем новую архитектуру на основе трансформеров, которая решает все основные задачи генерации AV. Мы исследуем три различных модуля взаимодействия между модальностями, причем наш легковесный модуль временного слияния оказывается наиболее эффективным и вычислительно экономичным подходом для согласования аудио и визуальных модальностей. Результаты экспериментов показывают, что наша модель превосходит существующие передовые модели в задачах мультимодальной генерации AV. Наш код и контрольные точки доступны по адресу https://github.com/ErgastiAlex/R-FLAV.
Несмотря на недавние достижения в области обучения для создания промежуточных движений, ключевое ограничение осталось незамеченным: необходимость в наборах данных, специфичных для конкретных персонажей. В данной работе мы представляем AnyMoLe — новый метод, который устраняет это ограничение, используя модели диффузии видео для генерации промежуточных кадров движения для произвольных персонажей без внешних данных. Наш подход включает двухэтапный процесс генерации кадров для улучшения контекстуального понимания. Кроме того, чтобы преодолеть разрыв между анимацией персонажей в реальном мире и визуализированной анимацией, мы представляем ICAdapt — метод тонкой настройки моделей диффузии видео. Дополнительно мы предлагаем технику оптимизации «имитации движения и видео», которая позволяет создавать плавные движения для персонажей с произвольной структурой суставов, используя 2D и 3D-ориентированные признаки. AnyMoLe значительно снижает зависимость от данных, генерируя плавные и реалистичные переходы, что делает его применимым для широкого спектра задач создания промежуточных движений.
Предыдущие исследования установили, что языковые модели проявляют стереотипные предубеждения. Существующие стратегии устранения предубеждений, такие как переобучение модели с использованием контрфактуальных данных, проекция представлений и подсказки, часто не позволяют эффективно устранить предубеждения или напрямую изменить предвзятые внутренние представления моделей. Для решения этих проблем мы предлагаем BiasEdit — эффективный метод редактирования моделей, который устраняет стереотипные предубеждения в языковых моделях с помощью легковесных сетей, выступающих в роли редакторов для генерации обновлений параметров. BiasEdit использует функцию потерь для устранения предубеждений, которая направляет редакторские сети на выполнение локальных правок части параметров языковой модели с целью устранения предубеждений, сохраняя при этом способности модели к языковому моделированию с помощью функции потерь на удержание. Эксперименты на наборах данных StereoSet и Crows-Pairs демонстрируют эффективность, производительность и устойчивость BiasEdit в устранении предубеждений по сравнению с базовыми методами устранения предубеждений, а также минимальное или отсутствующее влияние на общие способности языковых моделей. Кроме того, мы проводим трассировку предубеждений для анализа их наличия в различных модулях и исследуем влияние редактирования предубеждений на различные компоненты языковых моделей.
Люди, несомненно, являются наиболее важными участниками в области компьютерного зрения, и способность обнаруживать любого человека по его естественному языковому описанию, задачу, которую мы определяем как ссылку на любого человека, имеет значительную практическую ценность. Однако мы обнаруживаем, что существующие модели, как правило, не достигают реальной применимости, а текущие эталонные тесты ограничены их ориентацией на одно-к-одному ссылке, что препятствует прогрессу в этой области. В данной работе мы пересматриваем эту задачу с трех ключевых перспектив: определение задачи, проектирование набора данных и архитектура модели. Сначала мы выделяем пять аспектов ссылочных сущностей и три отличительные характеристики этой задачи. Затем мы представляем HumanRef, новый набор данных, разработанный для решения этих проблем и более точного отражения реальных приложений. С точки зрения проектирования модели, мы интегрируем мультимодальную большую языковую модель с фреймворком для обнаружения объектов, создавая надежную модель для ссылок под названием RexSeek. Результаты экспериментов показывают, что современные модели, которые хорошо справляются с общепринятыми эталонными тестами, такими как RefCOCO/+/g, испытывают трудности с HumanRef из-за их неспособности обнаруживать нескольких людей. В отличие от них, RexSeek не только превосходно справляется с задачей ссылки на людей, но и эффективно обобщает для ссылки на обычные объекты, что делает его широко применимым для различных задач восприятия. Код доступен по адресу https://github.com/IDEA-Research/RexSeek.
Диффузионные модели и Flow Matching генерируют высококачественные сэмплы, но работают медленно на этапе вывода, а их дистилляция в модели с малым количеством шагов часто приводит к нестабильности и требует значительной настройки. Чтобы устранить эти компромиссы, мы предлагаем Inductive Moment Matching (IMM) — новый класс генеративных моделей для одно- или малошагового сэмплинга с одноэтапной процедурой обучения. В отличие от дистилляции, IMM не требует предварительного обучения, инициализации и оптимизации двух сетей; и в отличие от Consistency Models, IMM гарантирует сходимость на уровне распределения и остается стабильной при различных гиперпараметрах и стандартных архитектурах моделей. IMM превосходит диффузионные модели на ImageNet-256x256 с показателем FID 1.99, используя всего 8 шагов вывода, и достигает передового показателя FID 1.98 на CIFAR-10 для модели, обученной с нуля, всего за 2 шага.
Предыдущие исследования показали, что модели поиска на основе языковых моделей (PLM) демонстрируют предпочтение к контенту, сгенерированному крупными языковыми моделями (LLM), присваивая таким документам более высокие оценки релевантности, даже когда их семантическое качество сопоставимо с текстами, написанными людьми. Это явление, известное как предвзятость источника, угрожает устойчивому развитию экосистемы доступа к информации. Однако основные причины такой предвзятости остаются неисследованными. В данной работе мы объясняем процесс информационного поиска с помощью причинно-следственного графа и обнаруживаем, что модели поиска на основе PLM изучают признаки перплексии для оценки релевантности, что приводит к предвзятости источника, ранжируя документы с низкой перплексией выше. Теоретический анализ дополнительно показывает, что это явление обусловлено положительной корреляцией между градиентами функций потерь в задачах языкового моделирования и поиска. На основе анализа предлагается метод устранения предвзятости на этапе вывода, вдохновленный причинно-следственным подходом, под названием Causal Diagnosis and Correction (CDC). CDC сначала диагностирует эффект предвзятости, связанный с перплексией, а затем отделяет этот эффект от общей оценки релевантности. Результаты экспериментов в трех различных областях демонстрируют превосходную эффективность CDC в устранении предвзятости, подчеркивая обоснованность предложенной нами объяснительной модели. Исходные коды доступны по адресу https://github.com/WhyDwelledOnAi/Perplexity-Trap.
Диффузионные модели достигли значительных успехов в различных областях. Однако их низкая скорость генерации остается серьезной проблемой. Существующие методы ускорения, хотя и направлены на сокращение шагов, часто жертвуют качеством образцов, управляемостью или вводят сложности в обучение. Поэтому мы предлагаем RayFlow — новую диффузионную архитектуру, которая устраняет эти ограничения. В отличие от предыдущих методов, RayFlow направляет каждый образец по уникальному пути к целевому распределению, специфичному для конкретного экземпляра. Этот метод минимизирует количество шагов выборки, сохраняя при этом разнообразие и стабильность генерации. Кроме того, мы представляем Time Sampler — технику важностного сэмплирования, которая повышает эффективность обучения, фокусируясь на ключевых временных шагах. Многочисленные эксперименты демонстрируют превосходство RayFlow в генерации высококачественных изображений с улучшенной скоростью, управляемостью и эффективностью обучения по сравнению с существующими методами ускорения.
Сфера нейронного машинного перевода (NMT) претерпела изменения с появлением крупных языковых моделей (LLM). В последнее время в обработке естественного языка (NLP) основное внимание уделялось моделированию машинного перевода и многих других задач с использованием единого предварительно обученного декодера на основе архитектуры Transformer, в то время как архитектуры "кодировщик-декодировщик", которые были стандартом в более ранних моделях NMT, получали относительно меньше внимания. В данной статье мы исследуем модели перевода, которые являются универсальными, эффективными и легко оптимизируемыми, объединяя мир LLM с миром NMT. Мы применяем LLM для кодирования в NMT, оставляя декодер NMT неизменным. Также мы разрабатываем методы адаптации LLM для более эффективной работы с декодером NMT. Кроме того, мы создаем новый набор данных, включающий множество задач, чтобы оценить, насколько хорошо система машинного перевода обобщает знания для различных задач. Оценки на данных WMT и наших собственных наборах показывают, что результаты, полученные с использованием нашего метода, соответствуют или превосходят ряд базовых подходов по качеству перевода, но при этом достигают ускорения вывода в 2,4–6,5 раз и сокращают объем памяти, занимаемой кэшем ключей и значений (KV cache), на 75%. Также демонстрируется сильная способность к обобщению для различных задач, связанных с переводом.
Последние достижения в области понимания длинных видео обычно смягчают визуальную избыточность за счет обрезки визуальных токенов на основе распределения внимания. Однако, хотя существующие методы используют постфактумную обрезку токенов с низким откликом в слоях декодера, они упускают из виду семантическую корреляцию на уровне входа между визуальными токенами и инструкциями (запросом). В данной статье мы предлагаем QuoTA — антефактумный модуль, не требующий обучения, который расширяет существующие крупные видео-языковые модели (LVLMs) для назначения визуальных токенов на основе оценки важности на уровне кадров, ориентированной на запрос. Выбор токенов, ориентированный на запрос, имеет решающее значение, так как он согласует визуальную обработку с требованиями конкретной задачи, оптимизируя использование бюджета токенов при сохранении семантически релевантного контента. В частности, (i) QuoTA стратегически распределяет оценки важности на уровне кадров на основе релевантности запроса, позволяя выполнить однократное назначение визуальных токенов до кросс-модальных взаимодействий в слоях декодера, (ii) мы разделяем запрос с помощью рассуждений Chain-of-Thoughts, чтобы облегчить более точную оценку важности кадров на основе LVLM, и (iii) QuoTA предлагает функциональность plug-and-play, которая расширяется на существующие LVLMs. Обширные экспериментальные результаты показывают, что реализация QuoTA с LLaVA-Video-7B приводит к среднему улучшению производительности на 3,2% на шести тестовых наборах (включая Video-MME и MLVU) при работе в рамках того же бюджета визуальных токенов, что и у базовой модели. Код доступен по адресу https://github.com/MAC-AutoML/QuoTA.
Несмотря на кажущуюся простоту, перемещение объекта в другое место на изображении является сложной задачей редактирования, которая требует пересогласования освещения, корректировки позы с учетом перспективы, точного заполнения скрытых областей и обеспечения согласованности теней и отражений при сохранении идентичности объекта. В данной статье мы представляем ObjectMover — генеративную модель, способную выполнять перемещение объектов в сложных сценах. Наше ключевое понимание заключается в том, что мы моделируем эту задачу как проблему последовательностей и дообучаем модель генерации видео, чтобы использовать её знания о согласованном создании объектов между кадрами. Мы показываем, что такой подход позволяет нашей модели адаптироваться к сложным реальным сценариям, справляясь с экстремальным согласованием освещения и перемещением эффектов объектов. Поскольку крупномасштабные данные для перемещения объектов отсутствуют, мы создаем конвейер генерации данных с использованием современного игрового движка для синтеза высококачественных пар данных. Мы также предлагаем стратегию многозадачного обучения, которая позволяет обучать модель на реальных видеоданных для улучшения её обобщающей способности. В ходе обширных экспериментов мы демонстрируем, что ObjectMover достигает выдающихся результатов и хорошо адаптируется к реальным сценариям.
Смесь экспертов (Mixture of Experts, MoE) представляет собой эффективную архитектуру для масштабирования больших языковых моделей за счёт использования разреженной активации экспертов, что позволяет оптимизировать баланс между производительностью и эффективностью. Однако при использовании параллелизма экспертов MoE сталкивается с проблемами неэффективности вывода из-за несбалансированного распределения токенов между экспертами, когда некоторые эксперты перегружены, а другие остаются недоиспользованными. Этот дисбаланс приводит к низкой утилизации ресурсов и увеличению задержек, поскольку наиболее загруженный эксперт определяет общую задержку — явление, которое мы определяем как \textit{Эффект Отстающего}. Для смягчения этой проблемы мы предлагаем подход \textit{Вывод с учётом ёмкости}, включающий два ключевых метода: (1) \textit{Отбрасывание токенов с учётом ёмкости}, которое удаляет перегруженные токены для регулирования максимальной задержки MoE, и (2) \textit{Перенаправление токенов с учётом ёмкости}, которое перераспределяет избыточные токены на недоиспользованных экспертов, балансируя распределение токенов. Эти методы совместно оптимизируют использование как высоконагруженных, так и малонагруженных экспертов, что приводит к более эффективному процессу вывода в MoE. Эксперименты демонстрируют эффективность наших методов, показывая значительное улучшение эффективности вывода, например, увеличение средней производительности на 0.2\% и ускорение вывода в 1.94 раза на модели Mixtral-8x7B-Instruct.
Модели плотного поиска широко используются в задачах информационного поиска (IR), таких как генерация с усилением поиска (RAG). Поскольку они часто выступают в качестве первого шага в таких системах, их устойчивость имеет критическое значение для предотвращения сбоев. В данной работе, перепрофилируя набор данных для извлечения отношений (например, Re-DocRED), мы разрабатываем контролируемые эксперименты для количественной оценки влияния эвристических предубеждений, таких как предпочтение более коротких документов, в поисковых системах, таких как Dragon+ и Contriever. Наши результаты выявляют значительные уязвимости: поисковые системы часто полагаются на поверхностные паттерны, такие как чрезмерное внимание к началу документов, более коротким документам, повторяющимся сущностям и буквальным совпадениям. Кроме того, они склонны игнорировать, содержит ли документ ответ на запрос, демонстрируя недостаточное семантическое понимание. Примечательно, что при сочетании нескольких предубеждений модели демонстрируют катастрофическое снижение производительности, выбирая документ с ответом менее чем в 3% случаев вместо предвзятого документа без ответа. Более того, мы показываем, что эти предубеждения имеют прямые последствия для последующих приложений, таких как RAG, где предпочитаемые поиском документы могут вводить в заблуждение крупные языковые модели (LLM), что приводит к снижению производительности на 34% по сравнению с ситуацией, когда документы вообще не предоставляются.
Интеллект — это ключевая черта, позволяющая видам находить решения за ограниченное количество попыток методом проб и ошибок. Основываясь на этой идее, мы представляем игру на выживание (Survival Game) как фреймворк для оценки интеллекта на основе количества неудачных попыток в процессе проб и ошибок. Меньшее количество неудач указывает на более высокий уровень интеллекта. Когда и ожидаемое значение, и дисперсия количества неудач конечны, это сигнализирует о способности последовательно находить решения для новых задач, что мы определяем как Автономный Уровень интеллекта. Используя игру на выживание, мы всесторонне оцениваем существующие системы ИИ. Наши результаты показывают, что, хотя системы ИИ достигают Автономного Уровня в простых задачах, они всё ещё далеки от него в более сложных задачах, таких как зрение, поиск, рекомендации и язык. Хотя масштабирование текущих технологий ИИ может помочь, это потребует астрономических затрат. Прогнозы показывают, что достижение Автономного Уровня для общих задач потребует 10^{26} параметров. Чтобы представить это в перспективе, загрузка такой огромной модели потребует такого количества GPU H100, что их общая стоимость будет в 10^{7} раз превышать рыночную стоимость Apple Inc. Даже с учётом закона Мура поддержка такого масштаба параметров займёт 70 лет. Эти ошеломляющие затраты подчеркивают сложность человеческих задач и недостатки современных технологий ИИ. Для дальнейшего изучения этого явления мы проводим теоретический анализ игры на выживание и её экспериментальных результатов. Наши выводы свидетельствуют о том, что человеческие задачи обладают свойством критичности. В результате Автономный Уровень требует глубокого понимания механизмов, лежащих в основе задачи. Однако современные системы ИИ не полностью понимают эти механизмы и вместо этого полагаются на поверхностное подражание, что затрудняет достижение ими автономного уровня. Мы считаем, что игра на выживание может не только направлять будущее развитие ИИ, но и предлагать глубокие инсайты в природу человеческого интеллекта.
Галлюцинации в выходных данных языковых моделей представляют риски в медицинской сфере, особенно для непрофессиональной аудитории, принимающей решения, связанные со здоровьем. Существующие методы оценки фактической точности, такие как основанные на логическом следствии и вопросах-ответах (QA), сталкиваются с трудностями при генерации упрощенных текстов (Plain Language Summary, PLS) из-за явления развернутых объяснений, которое вводит внешний контент (например, определения, справочную информацию, примеры), отсутствующий в исходном документе, для улучшения понимания. Для решения этой проблемы мы представляем PlainQAFact — фреймворк, обученный на детально аннотированном наборе данных PlainFact, для оценки фактической точности как упрощенных предложений, так и предложений с развернутыми объяснениями. PlainQAFact сначала классифицирует тип фактической точности, а затем оценивает её с помощью метода подсчета баллов на основе QA, дополненного поиском информации. Наш подход является легковесным и вычислительно эффективным. Эмпирические результаты показывают, что существующие метрики фактической точности не способны эффективно оценивать её в PLS, особенно для развернутых объяснений, тогда как PlainQAFact демонстрирует наилучшие результаты. Мы также анализируем его эффективность в зависимости от внешних источников знаний, стратегий извлечения ответов, мер перекрытия и уровней детализации документов, что позволяет уточнить общую оценку фактической точности.
В цифровую эпоху растут опасения по поводу конфиденциальности в связи с постоянно увеличивающимся количеством камер. Хотя существующие методы анонимизации способны скрывать идентификационную информацию, они часто не справляются с сохранением полезности изображений. В данной работе мы представляем метод анонимизации лиц, не требующий обучения, который сохраняет ключевые атрибуты, не связанные с идентификацией. Наш подход использует предварительно обученную диффузионную модель для преобразования текста в изображение, не требуя оптимизации или обучения. Он начинается с инвертирования входного изображения для восстановления исходного шума. Затем шум очищается с помощью диффузионного процесса, обусловленного идентификацией, где модифицированные вложения идентификации гарантируют, что анонимизированное лицо будет отличаться от исходного. Наш подход также поддерживает локализованную анонимизацию, предоставляя пользователям контроль над тем, какие области лица анонимизируются или остаются неизменными. Всесторонние оценки в сравнении с современными методами показывают, что наш подход превосходит их в анонимизации, сохранении атрибутов и качестве изображений. Его гибкость, надежность и практичность делают его хорошо подходящим для реальных приложений. Код и данные доступны по адресу https://github.com/hanweikung/nullface.
В последние годы наблюдаются значительные успехи в развитии базовых моделей благодаря генеративному предварительному обучению, однако алгоритмические инновации в этой области в основном застопорились вокруг авторегрессивных моделей для дискретных сигналов и диффузионных моделей для непрерывных сигналов. Эта стагнация создает узкое место, которое мешает нам в полной мере раскрыть потенциал богатых мультимодальных данных, что, в свою очередь, ограничивает прогресс в области мультимодального интеллекта. Мы утверждаем, что подход, ориентированный на эффективность вывода, который уделяет приоритетное внимание масштабируемости во время вывода с учетом длины последовательности и шагов уточнения, может вдохновить на создание новых алгоритмов генеративного предварительного обучения. Используя метод Индуктивного Сопоставления Моментов (IMM) в качестве конкретного примера, мы демонстрируем, как устранение ограничений в процессе вывода диффузионных моделей за счет целенаправленных модификаций приводит к созданию стабильного одноэтапного алгоритма, который обеспечивает превосходное качество выборок при более чем на порядок большей эффективности вывода.
Модели Vision-Language-Action (VLA) предназначены для прогнозирования роботизированных действий на основе визуальных наблюдений и языковых инструкций. Существующие подходы требуют тонкой настройки предварительно обученных моделей обработки зрения и языка (VLMs), поскольку визуальные и языковые признаки независимо передаются в последующие политики, что ухудшает предварительно обученные семантические соответствия. Мы предлагаем OTTER, новую архитектуру VLA, которая использует эти существующие соответствия через явное извлечение визуальных признаков с учетом текста. Вместо обработки всех визуальных признаков OTTER выборочно извлекает и передает только те визуальные признаки, которые семантически связаны с языковой инструкцией, в трансформер политики. Это позволяет OTTER оставлять предварительно обученные кодировщики зрения и языка замороженными. Таким образом, OTTER сохраняет и использует богатое семантическое понимание, полученное в ходе крупномасштабного предварительного обучения, обеспечивая мощные возможности обобщения в условиях нулевого сценария. В симуляциях и реальных экспериментах OTTER значительно превосходит существующие модели VLA, демонстрируя сильное обобщение на новые объекты и среды в условиях нулевого сценария. Видео, код, контрольные точки и набор данных: https://ottervla.github.io/.