Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем RWKV-7 "Goose", новую архитектуру моделирования последовательностей, а также предобученные языковые модели, которые устанавливают новый эталон производительности на задачах с 3 миллиардами параметров в многоязычных сценариях и соответствуют текущему уровню SoTA для английского языка, несмотря на обучение на значительно меньшем количестве токенов по сравнению с другими ведущими моделями с 3 миллиардами параметров. При этом модели RWKV-7 требуют только постоянного использования памяти и постоянного времени вывода на токен. RWKV-7 представляет новую обобщенную формулировку дельта-правила с векторным управлением и скоростями обучения в контексте, а также ослабленное правило замены значений. Мы показываем, что RWKV-7 способна выполнять отслеживание состояний и распознавать все регулярные языки, сохраняя параллелизуемость обучения. Это превосходит возможности трансформеров в рамках стандартных гипотез о сложности, которые ограничены классом TC^0. Чтобы продемонстрировать возможности RWKV-7 в языковом моделировании, мы также представляем расширенный открытый многоязычный корпус объемом 3,1 триллиона токенов и обучаем четыре модели RWKV-7 с количеством параметров от 0,19 до 2,9 миллиардов на этом наборе данных. Для поддержки открытости, воспроизводимости и внедрения мы публикуем наши модели и список компонентов набора данных по адресу https://huggingface.co/RWKV, а также наш код для обучения и вывода по адресу https://github.com/RWKV/RWKV-LM, все под лицензией Apache 2.0.
Масштабирование вывода наделяет большие языковые модели (LLM) беспрецедентной способностью к рассуждениям, где основным методом для активации сложных рассуждений является обучение с подкреплением. Однако ключевые технические детали современных LLM, ориентированных на рассуждения, остаются скрытыми (например, в блоге OpenAI o1 и техническом отчете DeepSeek R1), что затрудняет воспроизведение их результатов обучения с подкреплением. Мы предлагаем алгоритм Decoupled Clip and Dynamic Sampling Policy Optimization (DAPO) и полностью открываем исходный код современной крупномасштабной системы обучения с подкреплением, которая достигает 50 баллов на AIME 2024, используя базовую модель Qwen2.5-32B. В отличие от предыдущих работ, где детали обучения не раскрывались, мы представляем четыре ключевые техники нашего алгоритма, которые обеспечивают успех крупномасштабного обучения LLM с подкреплением. Кроме того, мы открываем исходный код нашего обучающего кода, созданного на основе фреймворка verl, а также тщательно отобранный и обработанный набор данных. Эти компоненты нашей открытой системы повышают воспроизводимость и поддерживают будущие исследования в области крупномасштабного обучения LLM с подкреплением.
Синтетические видео в настоящее время широко используются для восполнения недостатка данных и увеличения разнообразия реальных видеозаписей. Современные синтетические наборы данных в основном воспроизводят реальные сценарии, оставляя неисследованными невозможные, контрфактуальные и антиреалистичные концепции видео. Данная работа ставит перед собой две цели: 1) Способны ли современные модели генерации видео эффективно следовать запросам для создания невозможного видеоконтента? 2) Достаточно ли развиты современные модели понимания видео для анализа невозможных видеозаписей? Для этого мы представляем IPV-Bench — новый эталонный набор, предназначенный для оценки и стимулирования прогресса в области понимания и генерации видео. IPV-Bench основан на всеобъемлющей таксономии, охватывающей 4 области и 14 категорий. Он включает разнообразные сцены, нарушающие физические, биологические, географические или социальные законы. На основе этой таксономии создан набор запросов для оценки моделей генерации видео, проверяющий их способность следовать запросам и проявлять креативность. Кроме того, подготовлен видеобенчмарк для оценки Video-LLM на способность понимать невозможные видео, что особенно требует рассуждений о временной динамике и знаниях о мире. Комплексные оценки выявляют ограничения и дают инсайты для будущих направлений развития видеомоделей, прокладывая путь для моделей следующего поколения.
Креативность является фундаментальным аспектом интеллекта, включающим способность генерировать новые и уместные решения в различных контекстах. Хотя творческие способности крупных языковых моделей (LLM) были тщательно изучены, оценка мультимодальных крупных языковых моделей (MLLM) в этой области остается практически неисследованной. Чтобы восполнить этот пробел, мы представляем Creation-MMBench — мультимодальный бенчмарк, специально разработанный для оценки творческих способностей MLLM в реальных задачах, основанных на изображениях. Бенчмарк включает 765 тестовых случаев, охватывающих 51 детализированную задачу. Для обеспечения строгой оценки мы определяем специфичные для каждого случая критерии оценки, которые направляют анализ как общего качества ответов, так и их фактической согласованности с визуальными данными. Результаты экспериментов показывают, что современные открытые MLLM значительно уступают проприетарным моделям в творческих задачах. Кроме того, наш анализ демонстрирует, что визуальная тонкая настройка может негативно влиять на творческие способности базовой LLM. Creation-MMBench предоставляет ценные инсайты для развития креативности MLLM и закладывает основу для будущих улучшений в области мультимодального генеративного интеллекта. Полные данные и код оценки доступны на https://github.com/open-compass/Creation-MMBench.
Крупномасштабные сочлененные объекты высокого качества крайне необходимы для множества задач, связанных с воплощенным искусственным интеллектом. Большинство существующих методов создания сочлененных объектов либо основаны на данных, либо на симуляции, что ограничивается масштабом и качеством обучающих данных или точностью и трудоемкостью симуляции. В данной статье мы предлагаем Infinite Mobility — новый метод синтеза высококачественных сочлененных объектов с помощью процедурной генерации. Пользовательское исследование и количественная оценка показывают, что наш метод позволяет получать результаты, превосходящие современные методы и сопоставимые с наборами данных, аннотированными человеком, как по физическим свойствам, так и по качеству сетки. Кроме того, мы демонстрируем, что наши синтетические данные могут использоваться в качестве обучающих данных для генеративных моделей, что позволяет масштабировать процесс на следующий этап. Код доступен по адресу https://github.com/Intern-Nexus/Infinite-Mobility.
Человеческие эксперты преуспевают в тонкой визуальной дискриминации, используя предметные знания для уточнения перцептивных признаков — способность, которая остается недостаточно развитой в современных мультимодальных больших языковых моделях (MLLMs). Несмотря на обладание обширными экспертно-уровневыми знаниями, MLLMs испытывают трудности с интеграцией рассуждений в визуальное восприятие, часто генерируя прямые ответы без глубокого анализа. Чтобы устранить этот разрыв, мы представляем задачу визуального заземления, требующую интенсивного использования знаний (KVG), которая требует как тонкого восприятия, так и интеграции предметных знаний. Для решения задач KVG мы предлагаем DeepPerception — MLLM, усиленную возможностями когнитивного визуального восприятия. Наш подход включает (1) автоматизированный конвейер синтеза данных, который генерирует высококачественные обучающие выборки, согласованные с знаниями, и (2) двухэтапную структуру обучения, сочетающую контролируемое тонкое настройку для формирования когнитивных рассуждений и обучение с подкреплением для оптимизации синергии восприятия и познания. Для оценки производительности мы представляем KVG-Bench — всеобъемлющий набор данных, охватывающий 10 областей с 1,3 тыс. вручную отобранных тестовых случаев. Экспериментальные результаты показывают, что DeepPerception значительно превосходит прямое тонкое настройку, достигая улучшения точности на +8,08% на KVG-Bench и демонстрируя +4,60% превосходства в кросс-доменной генерализации по сравнению с базовыми подходами. Наши результаты подчеркивают важность интеграции когнитивных процессов в MLLMs для человеко-подобного визуального восприятия и открывают новые направления для исследований в области мультимодального рассуждения. Данные, коды и модели доступны по адресу https://github.com/thunlp/DeepPerception.
Генерация аудио и музыки стала важной задачей во многих приложениях, однако существующие подходы сталкиваются с существенными ограничениями: они работают изолированно, не обладая унифицированными возможностями для работы с различными модальностями, страдают от недостатка высококачественных мультимодальных данных для обучения и испытывают трудности с эффективной интеграцией разнообразных входных данных. В данной работе мы представляем AudioX — унифицированную модель на основе Diffusion Transformer для генерации аудио и музыки из любых входных данных. В отличие от предыдущих моделей, ориентированных на конкретные области, AudioX способна генерировать как общее аудио, так и музыку высокого качества, обеспечивая гибкое управление с помощью естественного языка и бесшовную обработку различных модальностей, включая текст, видео, изображения, музыку и аудио. Ключевым нововведением является стратегия мультимодального маскированного обучения, которая маскирует входные данные по всем модальностям и заставляет модель обучаться на маскированных данных, что позволяет получить устойчивые и унифицированные кросс-модальные представления. Для решения проблемы недостатка данных мы подготовили два комплексных набора данных: vggsound-caps, содержащий 190 тысяч аудио-описаний на основе набора данных VGGSound, и V2M-caps, включающий 6 миллионов музыкальных описаний, полученных из набора данных V2M. Многочисленные эксперименты демонстрируют, что AudioX не только соответствует или превосходит современные специализированные модели, но и предлагает выдающуюся универсальность в обработке разнообразных входных модальностей и задач генерации в рамках единой архитектуры. Код и наборы данных будут доступны по адресу https://zeyuet.github.io/AudioX/.
Крупные языковые модели (LLM) способны выполнять широкий спектр общих задач с использованием простых запросов, без необходимости в специализированном обучении для конкретных задач. Мультимодальные крупные языковые модели (MLLM), построенные на основе LLM, продемонстрировали впечатляющий потенциал в решении сложных задач, связанных с визуальными, аудиальными и текстовыми данными. Однако ключевые проблемы, связанные с достоверностью, безопасностью, рассуждениями, подобными человеческим, и соответствием предпочтениям людей, остаются недостаточно решенными. Этот пробел стимулировал появление различных алгоритмов согласования, каждый из которых ориентирован на разные сценарии применения и цели оптимизации. Недавние исследования показали, что алгоритмы согласования являются мощным подходом к решению вышеупомянутых проблем. В данной статье мы стремимся предоставить всесторонний и систематический обзор алгоритмов согласования для MLLM. В частности, мы исследуем четыре ключевых аспекта: (1) сценарии применения, охватываемые алгоритмами согласования, включая общее понимание изображений, работу с несколькими изображениями, видео и аудио, а также расширенные мультимодальные приложения; (2) ключевые факторы при создании наборов данных для согласования, включая источники данных, ответы моделей и аннотации предпочтений; (3) эталонные тесты, используемые для оценки алгоритмов согласования; и (4) обсуждение потенциальных направлений развития алгоритмов согласования в будущем. Эта работа призвана помочь исследователям систематизировать текущие достижения в данной области и вдохновить на создание более эффективных методов согласования. Страница проекта этой статьи доступна по адресу https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Alignment.
Создание подписей к изображениям долгое время оставалось сложной задачей в исследованиях на стыке зрения и языка. С появлением крупных языковых моделей (LLM) современные модели, объединяющие зрение и язык (Vision-Language Models, VLM), генерируют детальные и всесторонние описания изображений. Однако оценка качества таких подписей до сих пор остаётся нерешённой проблемой. В данной статье рассматриваются два ключевых вопроса: (1) Насколько хорошо современные VLM справляются с созданием подписей к изображениям, особенно в сравнении с человеком? Мы разработали CapArena — платформу с более чем 6000 парных сравнений подписей и высококачественными голосами, отражающими предпочтения людей. Наше аренное оценивание стало важным этапом, показав, что ведущие модели, такие как GPT-4o, достигают или даже превосходят человеческий уровень, в то время как большинство открытых моделей отстают. (2) Могут ли автоматизированные метрики надёжно оценивать детальность подписей? Используя аннотации людей из CapArena, мы оцениваем традиционные и современные метрики для подписей, а также подход VLM-as-a-Judge. Наш анализ показывает, что хотя некоторые метрики (например, METEOR) демонстрируют приемлемое согласование с человеческими оценками на уровне отдельных подписей, их систематические смещения приводят к несоответствиям в ранжировании моделей. В отличие от них, подход VLM-as-a-Judge демонстрирует устойчивую способность к различению как на уровне подписей, так и на уровне моделей. На основе этих выводов мы выпускаем CapArena-Auto — точный и эффективный автоматизированный бенчмарк для детального оценивания подписей, достигающий 94,3% корреляции с человеческими ранжированиями при стоимости всего $4 за тест. Данные и ресурсы будут опубликованы в открытом доступе по адресу https://caparena.github.io.
Остаточные соединения являются ключевым элементом современных архитектур глубокого обучения, позволяя обучать очень глубокие сети за счет смягчения проблемы исчезающих градиентов. Гипер-соединения недавно обобщили остаточные соединения, введя множественные коэффициенты связи на разных глубинах, тем самым устраняя эффект "качелей" между исчезающими градиентами и коллапсом представлений. Однако Гипер-соединения увеличивают затраты на доступ к памяти за счет расширения ширины скрытых состояний. В данной работе мы предлагаем Frac-соединения — новый подход, который разделяет скрытые состояния на несколько частей вместо расширения их ширины. Frac-соединения сохраняют часть преимуществ Гипер-соединений, одновременно снижая потребление памяти. Для проверки их эффективности мы проводим масштабные эксперименты на языковых задачах, включая обучение модели MoE с 7 миллиардами параметров на 3 триллионах токенов, демонстрируя, что Frac-соединения значительно превосходят остаточные соединения.
Мы представляем Cosmos-Transfer — условную модель генерации миров, способную создавать симуляции на основе множества пространственных управляющих входных данных различных модальностей, таких как сегментация, глубина и границы. В нашей разработке пространственная условная схема является адаптивной и настраиваемой. Она позволяет по-разному взвешивать различные управляющие входные данные в разных пространственных точках. Это обеспечивает высокую степень управляемости при генерации миров и находит применение в различных сценариях переноса из мира в мир, включая Sim2Real. Мы проводим всесторонние оценки для анализа предложенной модели и демонстрируем её приложения в области Physical AI, включая Sim2Real для робототехники и обогащение данных для автономных транспортных средств. Кроме того, мы демонстрируем стратегию масштабирования вывода для достижения генерации миров в реальном времени с использованием стойки NVIDIA GB200 NVL72. Чтобы ускорить развитие исследований в этой области, мы открываем исходный код наших моделей и реализации на https://github.com/nvidia-cosmos/cosmos-transfer1.
Создание трехмерных сцен с гибким обзором, включая вращение на 360 градусов и масштабирование, из одиночных изображений является сложной задачей из-за недостатка 3D-данных. Для решения этой проблемы мы представляем FlexWorld — новую структуру, состоящую из двух ключевых компонентов: (1) мощной модели диффузии "видео-в-видео" (V2V) для генерации высококачественных изображений новых ракурсов из неполных входных данных, полученных из грубой сцены, и (2) процесса прогрессивного расширения для построения полной 3D-сцены. В частности, используя предобученную модель для работы с видео и точные обучающие пары с оценкой глубины, наша модель V2V способна генерировать новые ракурсы при значительных изменениях положения камеры. На основе этого FlexWorld постепенно создает новое 3D-содержание и интегрирует его в глобальную сцену через геометрически осознанное слияние сцен. Многочисленные эксперименты демонстрируют эффективность FlexWorld в генерации высококачественных видео с новыми ракурсами и трехмерных сцен с гибким обзором из одиночных изображений, достигая превосходного визуального качества по нескольким популярным метрикам и наборам данных по сравнению с существующими передовыми методами. Качественно мы подчеркиваем, что FlexWorld способен создавать высокоточные сцены с гибким обзором, такими как вращение на 360 градусов и масштабирование. Страница проекта: https://ml-gsai.github.io/FlexWorld.
Эффективное моделирование изображений большого размера остается давней проблемой в машинном обучении. Для решения этой задачи мы представляем Multi-Scale Attention (MSA). MSA основывается на двух ключевых идеях: (i) многоуровневые представления и (ii) двунаправленное взаимодействие между уровнями. MSA создает O(log N) уровней для представления изображения с постепенно более грубыми признаками и использует кросс-внимание для передачи информации между уровнями. Затем мы представляем Atlas — новую архитектуру нейронной сети, основанную на MSA. Мы демонстрируем, что Atlas значительно улучшает баланс между вычислительной сложностью и производительностью при моделировании изображений с длинным контекстом в высокоразрешенной версии ImageNet 100. При разрешении 1024px Atlas-B достигает точности 91.04%, что сопоставимо с ConvNext-B (91.92%), при этом работая в 4.3 раза быстрее. Atlas работает в 2.95 раза быстрее и на 7.38% точнее, чем FasterViT, а также в 2.25 раза быстрее и на 4.96% точнее, чем LongViT. В сравнении с MambaVision-S, Atlas-S демонстрирует на 5%, 16% и 32% более высокую точность при разрешениях 1024px, 2048px и 4096px соответственно, при схожем времени выполнения. Код для воспроизведения экспериментов и предобученные модели доступны по адресу https://github.com/yalalab/atlas.
Несмотря на быстрый прогресс в тестировании ИИ, реальное значение результатов тестов остается неясным. Чтобы количественно оценить возможности систем ИИ в сравнении с человеческими, мы предлагаем новый показатель: горизонт времени выполнения задачи с 50%-ной вероятностью. Это время, которое обычно требуется людям для выполнения задач, которые модели ИИ могут выполнить с 50%-ной вероятностью успеха. Мы сначала измерили время, затраченное людьми с соответствующим опытом в области, на комбинации тестов RE-Bench, HCAST и 66 новых более коротких задач. На этих задачах текущие передовые модели ИИ, такие как Claude 3.7 Sonnet, имеют горизонт времени около 50 минут. Более того, горизонт времени передовых моделей ИИ удваивался примерно каждые семь месяцев с 2019 года, хотя в 2024 году эта тенденция, возможно, ускорилась. Увеличение горизонта времени моделей ИИ, по-видимому, в основном обусловлено повышением надежности и способности адаптироваться к ошибкам, а также улучшением логического мышления и навыков использования инструментов. Мы обсуждаем ограничения наших результатов, включая степень их внешней валидности, и последствия увеличения автономности для опасных возможностей. Если эти результаты применимы к реальным задачам в разработке программного обеспечения, экстраполяция этой тенденции предсказывает, что в течение 5 лет системы ИИ смогут автоматизировать многие задачи, которые сейчас занимают у людей месяц.
Проверка имеет решающее значение для эффективного математического рассуждения. Мы представляем новый метод временной согласованности, в котором верификаторы итеративно уточняют свои суждения на основе предыдущей оценки. В отличие от одноэтапной проверки или подходов с использованием многомодельных дебатов, наш метод использует согласованность в последовательности действий саморефлексии для повышения точности проверки. Эмпирические оценки на различных эталонных тестах для выявления ошибок в математических процессах (Mathcheck, ProcessBench и PRM800K) показывают устойчивое улучшение производительности по сравнению с базовыми методами. При применении к недавним дистиллированным моделям DeepSeek R1 наш метод демонстрирует высокую эффективность, позволяя дистиллированным моделям 7B/8B превзойти все модели 70B/72B и GPT-4o на ProcessBench. Примечательно, что дистиллированная модель 14B с нашим методом достигает производительности, сопоставимой с Deepseek-R1. Наш код доступен по адресу https://github.com/jcguo123/Temporal-Consistency.
Мы представляем Concat-ID — унифицированную структуру для генерации видео с сохранением идентичности. Concat-ID использует вариационные автоэнкодеры для извлечения признаков изображений, которые конкатенируются с латентными представлениями видео вдоль последовательностного измерения, применяя исключительно механизмы 3D самовнимания без необходимости в дополнительных модулях. Введены новая стратегия кросс-видео парного сопоставления и многоэтапный режим обучения, которые позволяют сбалансировать согласованность идентичности и редактируемость лица, одновременно повышая естественность видео. Многочисленные эксперименты демонстрируют превосходство Concat-ID над существующими методами как в генерации с одной, так и с несколькими идентичностями, а также его бесшовную масштабируемость для сценариев с несколькими субъектами, включая виртуальную примерку и генерацию с управляемым фоном. Concat-ID устанавливает новый стандарт для синтеза видео с сохранением идентичности, предлагая универсальное и масштабируемое решение для широкого спектра приложений.
Способность к рассуждению является важнейшим качеством больших языковых моделей (LLM) для решения сложных задач, где выявление ошибок в процессе играет ключевую роль в улучшении этой способности. Недавно были предложены модели поощрения на уровне процесса (PRM), которые предоставляют пошаговые вознаграждения, способствующие обучению с подкреплением и генерации данных в процессе обучения, а также направляют LLM на правильные шаги во время вывода, тем самым повышая точность рассуждений. Однако существующие тесты для PRM основаны на тексте и сосредоточены на обнаружении ошибок, игнорируя другие сценарии, такие как поиск в процессе рассуждений. Чтобы устранить этот пробел, мы представляем MPBench — комплексный, многозадачный, мультимодальный тест, разработанный для систематической оценки эффективности PRM в различных сценариях. MPBench использует три парадигмы оценки, каждая из которых направлена на конкретную роль PRM в процессе рассуждений: (1) Корректность шага, которая оценивает правильность каждого промежуточного шага рассуждения; (2) Агрегация ответов, которая объединяет несколько решений и выбирает наилучшее; и (3) Поиск процесса рассуждений, который направляет поиск оптимальных шагов рассуждения во время вывода. Благодаря этим парадигмам MPBench проводит всесторонние оценки и предоставляет ценные инсайты для разработки мультимодальных PRM.
Основной подход к совершенствованию генерации изображений по тексту заключается в масштабировании на этапе обучения, где более крупные модели обучаются на большем объеме данных с использованием больших вычислительных ресурсов. Хотя этот подход эффективен, он требует значительных вычислительных затрат, что вызывает растущий интерес к масштабированию на этапе вывода для улучшения производительности. В настоящее время масштабирование на этапе вывода для диффузионных моделей генерации изображений по тексту в основном ограничивается методом best-of-N, где для каждого запроса генерируется несколько изображений, а модель выбора определяет наилучший результат. Вдохновленные недавними успехами моделей рассуждений, таких как DeepSeek-R1, в области обработки естественного языка, мы предлагаем альтернативу наивному методу best-of-N, оснащая диффузионные трансформеры (Diffusion Transformers) возможностью контекстного анализа. Мы представляем Reflect-DiT — метод, который позволяет диффузионным трансформерам улучшать свои генерации, используя контекстные примеры ранее созданных изображений вместе с текстовыми отзывами, описывающими необходимые улучшения. Вместо пассивного ожидания лучшего результата в будущей генерации, Reflect-DiT явно адаптирует свои генерации для устранения конкретных аспектов, требующих улучшения. Экспериментальные результаты показывают, что Reflect-DiT улучшает производительность на бенчмарке GenEval (+0.19) при использовании базовой модели SANA-1.0-1.6B. Кроме того, метод достигает нового рекордного показателя 0.81 на GenEval, генерируя всего 20 образцов на запрос, что превосходит предыдущий лучший результат 0.80, достигнутый с использованием значительно более крупной модели (SANA-1.5-4.8B) и 2048 образцов в рамках подхода best-of-N.
Мультимодальные большие языковые модели (MLLM) демонстрируют высокие результаты в понимании 2D-визуальной информации, но их способность к рассуждению о 3D-пространстве остается ограниченной. В данной работе мы используем масштабные высококачественные данные 3D-сцен с открытыми аннотациями, чтобы представить 1) новый набор данных для контролируемого тонкого обучения и 2) новый эталонный тест, ориентированный на внутренние сцены. Наш набор данных Cubify Anything VQA (CA-VQA) охватывает разнообразные пространственные задачи, включая прогнозирование пространственных отношений, оценку метрических размеров и расстояний, а также 3D-привязку. Мы показываем, что CA-VQA позволяет обучить MM-Spatial — мощную универсальную MLLM, которая также достигает наилучших результатов на эталонных тестах для понимания 3D-пространства, включая наш собственный. Мы демонстрируем, как включение метрической глубины и многовидовых входных данных (предоставленных в CA-VQA) может дополнительно улучшить понимание 3D-сцен, и показываем, что только данные позволяют нашей модели достичь возможностей восприятия глубины, сопоставимых с специализированными моделями монохромной оценки глубины. Мы опубликуем наш набор данных для тонкого обучения и эталонный тест.
Несмотря на впечатляющие возможности, мультимодальные большие языковые модели (MLLMs) сталкиваются с трудностями в области детального восприятия и сложного рассуждения. Распространенные подходы к мультимодальному предварительному обучению сосредоточены на улучшении восприятия за счет обучения на высококачественных описаниях изображений, что связано с чрезвычайно высокой стоимостью сбора данных для цепочек рассуждений (CoT), необходимых для улучшения способности к рассуждению. Хотя использование продвинутых MLLM для генерации описаний повышает масштабируемость, их результаты часто недостаточно полны и точны. В данной статье мы представляем Self-Improving cognition (SIcog) — самообучающуюся структуру, предназначенную для создания моделей следующего поколения путем улучшения их системных когнитивных способностей за счет мультимодального предварительного обучения на самостоятельно сгенерированных данных. В частности, мы предлагаем подход Chain-of-Description, который улучшает системное восприятие MLLM, обеспечивая пошаговое визуальное понимание и повышая полноту и точность. Кроме того, мы применяем структурированную технику CoT-рассуждений, чтобы MLLM могли интегрировать глубокое мультимодальное рассуждение. Для создания модели следующего поколения с улучшенным когнитивным потенциалом SIcog сначала оснащает MLLM системными способностями восприятия и рассуждения с использованием минимальных внешних аннотаций. Затем улучшенные модели генерируют детализированные описания и данные для CoT-рассуждений, которые дополнительно проверяются на самосогласованность. Эти отобранные данные в конечном итоге используются для мультимодального предварительного обучения, чтобы разработать модели следующего поколения. Многочисленные эксперименты с MLLM как низкого, так и высокого разрешения на различных тестовых наборах демонстрируют, что при использовании всего 213K самостоятельно сгенерированных образцов для предварительного обучения SIcog создает модели следующего поколения с существенно улучшенным когнитивным потенциалом, достигая лидирующих результатов на тестовых наборах по сравнению с распространенными подходами к предварительному обучению.
Кросс-лингвальный перенос позволяет моделям, объединяющим зрение и язык (VLMs), выполнять задачи, связанные с обработкой изображений, на различных языках, используя обучающие данные только на одном языке. Современные подходы опираются на крупные предобученные многоязычные языковые модели. Однако они сталкиваются с "проклятием многоязычности", жертвуя производительностью на целевых задачах ради многоязычных возможностей, испытывают трудности с лексической неоднозначностью и отстают от последних достижений. В данной работе мы исследуем законы масштабирования систематической обобщаемости с использованием одноязычных VLMs для многоязычных задач, уделяя особое внимание влиянию размера модели и количества доступных обучающих данных. Мы предлагаем Florenz — одноязычную VLM с архитектурой "кодировщик-декодировщик" и числом параметров от 0,4 до 11,2 миллиардов, которая объединяет предобученную VLM Florence-2 и крупную языковую модель Gemma-2. Florenz обучается с различными вычислительными бюджетами на синтетическом наборе данных, который характеризуется намеренно неполным языковым охватом для задачи генерации подписей к изображениям, что позволяет тестировать обобщение на основе полностью охваченной задачи перевода. Мы показываем, что не только косвенное изучение неизвестных пар "задача-язык" подчиняется закону масштабирования, но и что с помощью нашего конвейера генерации данных и предложенного семейства моделей Florenz способность к генерации подписей к изображениям может возникать на конкретном языке, даже если доступны данные только для задачи перевода. Тонкая настройка на смеси целевых наборов данных демонстрирует конкурентоспособную производительность и многообещающие тенденции масштабирования в задачах мультимодального машинного перевода (Multi30K, CoMMuTE), лексической дизъюнкции (CoMMuTE) и генерации подписей к изображениям (Multi30K, XM3600, COCO Karpathy).
Крупные языковые модели (LLM) продемонстрировали впечатляющие способности в различных задачах обработки естественного языка. Однако достижение высокой производительности в специализированных областях, таких как математические рассуждения и неанглийские языки, часто требует обширного обучения на огромных наборах данных. В данной статье исследуется альтернативный подход: стратегическое тонкое настройка на небольшом, высококачественном двуязычном (англо-французском) наборе данных для улучшения как способностей к рассуждению, так и владения французским языком крупной языковой модели. Вместо того чтобы полагаться на масштаб, мы исследуем гипотезу, что целенаправленный отбор данных и оптимизированное обучение могут обеспечить конкурентоспособную или даже превосходящую производительность. Мы демонстрируем, что с помощью целенаправленного контролируемого тонкого настройки (SFT) на всего 2000 тщательно отобранных образцов достигаются значительные улучшения в математических рассуждениях. В частности, модель Pensez 7B показывает увеличение точности базовой модели до 20% на тесте AIME25 и 12% на французском тесте MATH уровня 5. Эти результаты ставят под сомнение распространенное предположение, что огромные наборы данных являются обязательным условием для высокой производительности в рассуждениях LLM, подчеркивая потенциал стратегического отбора данных и оптимизированного тонкого настройки для улучшения как специализированных навыков, так и многоязычных возможностей. Наши выводы имеют значение для эффективной разработки высокопроизводительных многоязычных LLM, особенно в условиях ограниченных ресурсов.
В последние годы мультимодальные большие языковые модели (MLLMs) продемонстрировали значительные успехи в таких задачах, как визуальное ответы на вопросы, визуальное понимание и рассуждение. Однако этот впечатляющий прогресс основывается на огромных объемах данных, собранных из интернета, что вызывает серьезные опасения в отношении конфиденциальности и безопасности. Для решения этих проблем появилось перспективное направление — машинное "забывание" (MU), которое позволяет удалять определенные знания из уже обученной модели без необходимости ее полного переобучения. Хотя MU для MLLMs привлекает внимание, текущие оценки его эффективности остаются неполными, а сама проблема часто недостаточно четко определена, что затрудняет разработку стратегий для создания более безопасных и надежных систем. Чтобы устранить этот пробел, мы представляем бенчмарк под названием PEBench, который включает набор данных о личных объектах и соответствующих общих сценах событий, предназначенный для всесторонней оценки производительности MU для MLLMs. С помощью PEBench мы стремимся предоставить стандартизированную и надежную основу для продвижения исследований в области безопасных и защищающих конфиденциальность мультимодальных моделей. Мы протестировали 6 методов MU, выявив их сильные и слабые стороны, а также обозначив ключевые вызовы и возможности для MU в MLLMs.
Идеальная оценка модели должна достигать двух целей: выявление областей, где модель терпит неудачу, и предоставление практических рекомендаций для улучшения. Для достижения этих целей в оценках языковых моделей (LM) мы формулируем задачу генерации профиля слабостей — набора слабых мест, выраженных на естественном языке, на основе производительности LM на каждом отдельном примере в бенчмарке. Мы представляем набор количественных оценок для сравнения различных методов профилирования слабостей. Также мы предлагаем метод профилирования слабостей EvalTree. Он строит дерево возможностей, где каждый узел представляет собой способность, описанную на естественном языке, и связан с подмножеством примеров из бенчмарка, которые специфически оценивают эту способность; затем извлекаются узлы, где LM показывает низкую производительность, чтобы сформировать профиль слабостей. На бенчмарках MATH и WildChat мы показываем, что EvalTree превосходит базовые методы профилирования слабостей, выявляя слабости более точно и полно. Профилирование слабостей также позволяет проводить сбор данных, ориентированный на слабые места, и сбор обучающих данных, направленный на слабости, выявленные EvalTree, улучшает производительность LM в большей степени, чем другие стратегии сбора данных. Мы также демонстрируем, как EvalTree выявляет недостатки в практике оценки Chatbot Arena, основанной на голосовании людей. Для содействия будущим исследованиям мы публикуем наш код и интерфейс, который позволяет специалистам интерактивно исследовать деревья возможностей, построенные EvalTree.
Мультимодальные большие языковые модели (MLLMs) демонстрируют впечатляющие способности в рассуждениях, однако их использование сопряжено с высокими вычислительными затратами, что ограничивает их применение в условиях ограниченных ресурсов. Несмотря на недавние усилия по повышению эффективности MLLMs, существующие решения не справляются с адаптацией к изменяющимся условиям выполнения, в частности к изменению доступности ресурсов (например, конкуренции из-за выполнения других программ на устройстве). Чтобы устранить этот пробел, мы представляем AdaLLaVA — адаптивную инфраструктуру вывода, которая обучается динамически перенастраивать операции в MLLM во время выполнения, учитывая входные данные и бюджет задержки. Мы провели обширные эксперименты на наборах данных, включающих задачи ответов на вопросы, рассуждения и выявления галлюцинаций. Наши результаты показывают, что AdaLLaVA эффективно соблюдает бюджет задержки для входных данных, достигая различных компромиссов между точностью и задержкой во время выполнения. Кроме того, мы демонстрируем, что AdaLLaVA адаптируется как к задержке входных данных, так и к их содержанию, может быть интегрирована с выбором токенов для повышения эффективности и обобщается на различные MLLMs. Страница нашего проекта с выпуском кода доступна по адресу https://zhuoyan-xu.github.io/ada-llava/.
Адаптация графовых доменов стала перспективным подходом для облегчения передачи знаний между различными доменами. В последнее время было предложено множество моделей, направленных на улучшение их обобщающих способностей в этой области. Однако до сих пор не существует единой библиотеки, которая объединила бы существующие методы и упростила их реализацию. Чтобы заполнить этот пробел, мы представляем PyGDA — открытую библиотеку на Python, разработанную специально для адаптации графовых доменов. Будучи первой всеобъемлющей библиотекой в этой области, PyGDA охватывает более 20 широко используемых методов адаптации графовых доменов, а также различные типы графовых наборов данных. В частности, PyGDA предлагает модульные компоненты, позволяющие пользователям легко создавать собственные модели с использованием различных общеупотребительных вспомогательных функций. Для работы с крупномасштабными графами PyGDA включает поддержку таких функций, как выборка и обработка мини-пакетов, что обеспечивает эффективные вычисления. Кроме того, PyGDA также содержит всеобъемлющие тесты производительности и хорошо документированный удобный API как для исследователей, так и для практиков. Для обеспечения удобного доступа PyGDA выпущена под лицензией MIT на сайте https://github.com/pygda-team/pygda, а документация API доступна по адресу https://pygda.readthedocs.io/en/stable/.
Генеративные модели в последнее время достигли значительных успехов в области работы с 3D-объектами. Однако их практическое применение в таких областях, как инженерия, остается ограниченным, поскольку они не обеспечивают необходимой точности, качества и управляемости для задач, специфичных для этих областей. Тонкая настройка крупных генеративных моделей представляет собой перспективное направление для их внедрения в такие сферы. Создание высококачественных, специализированных 3D-наборов данных имеет ключевое значение для тонкой настройки крупных генеративных моделей, однако процесс фильтрации и аннотирования данных остается серьезным препятствием. Мы представляем MeshFleet — отфильтрованный и аннотированный набор данных 3D-моделей транспортных средств, извлеченный из Objaverse-XL, самой обширной общедоступной коллекции 3D-объектов. Наш подход предлагает конвейер автоматической фильтрации данных на основе классификатора качества. Этот классификатор обучается на вручную размеченном подмножестве Objaverse, используя эмбеддинги DINOv2 и SigLIP, уточненные с помощью анализа на основе подписей и оценки неопределенности. Мы демонстрируем эффективность нашего метода фильтрации посредством сравнительного анализа с методами, основанными на подписях и эстетических оценках изображений, а также экспериментов по тонкой настройке с использованием SV3D, подчеркивая важность целенаправленного отбора данных для специализированного 3D-генеративного моделирования.
Решение проблемы извлечения небезопасного контента из моделей, объединяющих зрение и язык, таких как CLIP, является важным шагом на пути к их интеграции в реальные приложения. Современные подходы основываются на методах "разучивания", которые пытаются стереть знания модели о небезопасных концепциях. Хотя эти методы эффективны в снижении нежелательных результатов, "разучивание" ограничивает способность модели различать безопасный и небезопасный контент. В данной работе мы представляем новый подход, который переходит от "разучивания" к парадигме осознанности, используя присущие гиперболическому пространству иерархические свойства. Мы предлагаем кодировать безопасный и небезопасный контент как иерархию следования, где оба типа контента размещаются в разных областях гиперболического пространства. Наша модель HySAC (Hyperbolic Safety-Aware CLIP) использует функции потерь следования для моделирования иерархических и асимметричных отношений между безопасными и небезопасными парами изображение-текст. Такое моделирование, неэффективное в стандартных моделях, объединяющих зрение и язык, из-за их зависимости от евклидовых вложений, наделяет модель осознанностью небезопасного контента, позволяя ей выступать как в роли многомодального классификатора небезопасного контента, так и гибкого извлекателя контента, с возможностью динамически перенаправлять небезопасные запросы к более безопасным альтернативам или сохранять исходный вывод. Многочисленные эксперименты показывают, что наш подход не только улучшает распознавание безопасности, но и создает более адаптируемую и интерпретируемую структуру для модерации контента в моделях, объединяющих зрение и язык. Наш исходный код доступен по адресу https://github.com/aimagelab/HySAC.
С быстрым развитием крупных языковых моделей (LLM) и визуально-языковых моделей (VLM) был достигнут значительный прогресс в создании систем манипуляции с открытым словарным запасом для роботов. Однако многие существующие подходы упускают из виду важность динамики объектов, что ограничивает их применимость к более сложным, динамическим задачам. В данной работе мы представляем KUDA — систему манипуляции с открытым словарным запасом, которая интегрирует обучение динамике и визуальные подсказки через ключевые точки, используя как VLM, так и обучаемые нейронные модели динамики. Наше ключевое наблюдение заключается в том, что спецификация цели на основе ключевых точек одновременно интерпретируема VLM и может быть эффективно преобразована в функции стоимости для планирования на основе моделей. Получив языковые инструкции и визуальные наблюдения, KUDA сначала назначает ключевые точки RGB-изображению и запрашивает VLM для генерации спецификаций цели. Эти абстрактные представления на основе ключевых точек затем преобразуются в функции стоимости, которые оптимизируются с использованием обученной модели динамики для создания траекторий робота. Мы оцениваем KUDA на ряде задач манипуляции, включая свободные языковые инструкции для различных категорий объектов, взаимодействия с несколькими объектами, а также деформируемые или гранулированные объекты, демонстрируя эффективность нашего подхода. Страница проекта доступна по адресу http://kuda-dynamics.github.io.
Коллективное восприятие на дороге (Roadside Collaborative Perception) — это система, в которой несколько придорожных устройств совместно объединяют свои данные восприятия, помогая транспортным средствам повышать осведомленность об окружающей среде. Существующие методы придорожного восприятия сосредоточены на проектировании моделей, но игнорируют проблемы данных, такие как ошибки калибровки, разреженная информация и согласованность между несколькими видами, что приводит к низкой производительности на недавно опубликованных наборах данных. Для значительного улучшения коллективного восприятия на дороге и решения ключевых проблем данных мы представляем первый симуляционный фреймворк RoCo-Sim для придорожного коллективного восприятия. RoCo-Sim способен генерировать разнообразные, согласованные между несколькими видами симулированные придорожные данные с помощью динамического редактирования переднего плана и полного переноса стиля с одного изображения. RoCo-Sim состоит из четырех компонентов: (1) Оптимизация внешних параметров камеры (Camera Extrinsic Optimization) обеспечивает точную проекцию 3D в 2D для придорожных камер; (2) Новый сэмплер с учетом заслонений между видами (Multi-View Occlusion-Aware Sampler, MOAS) определяет размещение разнообразных цифровых объектов в 3D-пространстве; (3) DepthSAM инновационно моделирует отношения переднего и заднего плана на основе однокадровых изображений с фиксированным видом, обеспечивая согласованность переднего плана между несколькими видами; и (4) Масштабируемый инструментарий постобработки (Scalable Post-Processing Toolkit) создает более реалистичные и насыщенные сцены с помощью переноса стиля и других улучшений. RoCo-Sim значительно улучшает обнаружение 3D-объектов на дороге, превосходя современные методы (SOTA) на 83.74 на Rcooper-Intersection и на 83.12 на TUMTraf-V2X по метрике AP70. RoCo-Sim заполняет критический пробел в симуляции придорожного восприятия. Код и предварительно обученные модели будут скоро выпущены: https://github.com/duyuwen-duen/RoCo-Sim.
Кооперативное автономное вождение между транспортными средствами (V2V) обладает большим потенциалом для повышения безопасности, устраняя неопределенности восприятия и прогнозирования, присущие системам с одним агентом. Однако традиционные методы кооперации ограничены жесткими протоколами взаимодействия и ограниченной обобщаемостью на неизвестные сценарии взаимодействия. Хотя подходы на основе языковых моделей (LLM) предлагают обобщенные возможности рассуждений, их сложности в пространственном планировании и нестабильная задержка вывода препятствуют их прямому применению в кооперативном вождении. Для устранения этих ограничений мы предлагаем CoLMDriver, первую полномасштабную систему кооперативного вождения на основе LLM, обеспечивающую эффективные переговоры на основе языка и управление вождением в реальном времени. CoLMDriver включает параллельный конвейер вождения с двумя ключевыми компонентами: (i) модуль переговоров на основе LLM в рамках парадигмы "актор-критик", который непрерывно уточняет политики кооперации на основе обратной связи от предыдущих решений всех транспортных средств; и (ii) генератор путевых точек, управляемый намерениями, который преобразует результаты переговоров в исполняемые путевые точки. Кроме того, мы представляем InterDrive, симуляционный бенчмарк на основе CARLA, включающий 10 сложных сценариев интерактивного вождения для оценки кооперации V2V. Экспериментальные результаты показывают, что CoLMDriver значительно превосходит существующие подходы, достигая на 11% более высокой частоты успешного завершения в различных высокоинтерактивных сценариях вождения V2V. Код будет доступен на https://github.com/cxliu0314/CoLMDriver.