Ежедневно отобранные исследовательские статьи по ИИ с переводами
Общие ИИ-агенты всё чаще признаются фундаментальными фреймворками для следующего поколения искусственного интеллекта, обеспечивая сложные рассуждения, взаимодействие с вебом, программирование и автономные исследовательские возможности. Однако современные системы агентов либо являются закрытыми, либо сильно зависят от множества платных API и проприетарных инструментов, что ограничивает доступность и воспроизводимость для исследовательского сообщества. В данной работе мы представляем Cognitive Kernel-Pro — полностью открытый и (в максимальной степени) бесплатный многомодульный фреймворк для агентов, разработанный для демократизации разработки и оценки продвинутых ИИ-агентов. В рамках Cognitive Kernel-Pro мы систематически исследуем подготовку высококачественных обучающих данных для базовых моделей агентов, уделяя особое внимание построению запросов, траекторий и проверяемых ответов в четырёх ключевых областях: веб, файлы, код и общие рассуждения. Кроме того, мы исследуем новые стратегии для рефлексии и голосования агентов во время тестирования, чтобы повысить их устойчивость и производительность. Мы оцениваем Cognitive Kernel-Pro на GAIA, достигая передовых результатов среди открытых и бесплатных агентов. Примечательно, что наша открытая модель с 8 миллиардами параметров превосходит предыдущие ведущие системы, такие как WebDancer и WebSailor, устанавливая новый стандарт производительности для доступных и высокопроизводительных ИИ-агентов. Код доступен по адресу https://github.com/Tencent/CognitiveKernel-Pro.
Диффузионные модели больших языков (DLLMs) становятся мощной альтернативой доминирующим авторегрессивным моделям больших языков, предлагая эффективное параллельное генерирование и способность моделировать глобальный контекст. Однако практическое применение DLLM ограничивается критическим архитектурным ограничением: необходимостью статически предопределенной длины генерации. Такое статическое распределение длины приводит к проблематичному компромиссу: недостаточная длина снижает производительность на сложных задачах, а избыточная длина влечет значительные вычислительные затраты и иногда приводит к ухудшению производительности. Хотя структура вывода остается жесткой, мы наблюдаем, что сама модель обладает внутренними сигналами, коррелирующими с оптимальной длиной ответа для конкретной задачи. Чтобы устранить этот разрыв, мы используем эти скрытые сигналы и представляем DAEDAL — новую стратегию денизинга, не требующую обучения, которая обеспечивает динамическое адаптивное расширение длины для диффузионных моделей больших языков. DAEDAL работает в два этапа: 1) Перед процессом денизинга DAEDAL начинает с короткой начальной длины и итеративно расширяет ее до грубо подходящей для задачи длины, руководствуясь метрикой завершения последовательности. 2) В процессе денизинга DAEDAL динамически вмешивается, выявляя и расширяя недостаточные области генерации путем вставки маскирующих токенов, обеспечивая полное развитие конечного результата. Многочисленные эксперименты на DLLM демонстрируют, что DAEDAL достигает производительности, сопоставимой, а в некоторых случаях превосходящей тщательно настроенные базовые модели с фиксированной длиной, одновременно повышая вычислительную эффективность за счет достижения более высокого коэффициента эффективных токенов. Устраняя ограничение статической длины, DAEDAL раскрывает новый потенциал для DLLM, устраняя критический разрыв с их авторегрессивными аналогами и прокладывая путь к более эффективному и мощному генерированию.
Современный успех диффузионных трансформаторов во многом зависит от сжатого латентного пространства, сформированного предварительно обученным вариационным автокодировщиком (VAE). Однако этот двухэтапный подход к обучению неизбежно приводит к накоплению ошибок и артефактов декодирования. Для решения указанных проблем исследователи возвращаются к работе в пиксельном пространстве, что сопровождается усложнением каскадных конвейеров и увеличением сложности токенов. В отличие от этих усилий, мы предлагаем моделировать пошаговое декодирование с использованием нейронного поля и представляем одноуровневое, одноэтапное, эффективное и сквозное решение, названное диффузией пиксельного нейронного поля (PixelNerd). Благодаря эффективному представлению нейронного поля в PixelNerd, мы напрямую достигли показателя FID 2.15 на ImageNet 256×256 и 2.84 на ImageNet 512×512 без использования сложных каскадных конвейеров или VAE. Мы также расширили наш фреймворк PixelNerd для задач генерации изображений по тексту. Наша модель PixelNerd-XXL/16 достигла конкурентоспособного общего балла 0.73 на бенчмарке GenEval и 80.9 на бенчмарке DPG.
Крупные модели, объединяющие зрение и язык (VLMs), достигли значительных успехов в задачах понимания 2D-изображений, что вызвало интерес к расширению этих возможностей на понимание 3D-сцен. Однако современные 3D VLMs часто сталкиваются с трудностями в устойчивом рассуждении и обобщении из-за ограничений в высококачественных пространственных данных и статичности предположений о точках обзора. Для решения этих проблем мы предлагаем 3D-R1, базовую модель, которая улучшает способности к рассуждению 3D VLMs. В частности, мы сначала создаем высококачественный синтетический набор данных с CoT, названный Scene-30K, используя существующие 3D-VL наборы данных и механизм данных на основе Gemini 2.5 Pro. Он служит начальными данными для холодного старта 3D-R1. Кроме того, мы применяем политику RLHF, такую как GRPO, в процессе обучения с подкреплением для улучшения способностей к рассуждению и вводим три функции вознаграждения: вознаграждение за восприятие, вознаграждение за семантическое сходство и вознаграждение за формат, чтобы поддерживать точность обнаружения и семантическую точность ответов. Кроме того, мы предлагаем стратегию динамического выбора обзора, которая адаптивно выбирает наиболее информативные перспективы для понимания 3D-сцен. Многочисленные эксперименты демонстрируют, что 3D-R1 обеспечивает среднее улучшение на 10% в различных тестах 3D-сцен, подчеркивая ее эффективность в улучшении рассуждений и обобщения в понимании 3D-сцен. Код: https://github.com/AIGeeksGroup/3D-R1. Сайт: https://aigeeksgroup.github.io/3D-R1.
Последние достижения в области агентов на основе больших языковых моделей (LLM) продемонстрировали значительный прогресс в решении программных проблем, используя передовые методы, такие как многозадачное взаимодействие агентов и поиск по дереву Монте-Карло (MCTS). Однако текущие агенты действуют как исследователи без памяти — они рассматривают каждую проблему отдельно, не сохраняя и не повторно используя знания из предыдущего опыта исправления. Это приводит к избыточному исследованию неудачных траекторий и упущенным возможностям адаптации успешных методов решения проблем к аналогичным задачам. Для решения этой проблемы мы представляем SWE-Exp, подход, усиленный опытом, который извлекает краткие и практические знания из предыдущих траекторий агентов, обеспечивая непрерывное обучение на основе различных проблем. Наш метод включает в себя многоаспектный банк опыта, который фиксирует как успешные, так и неудачные попытки исправления. В частности, он извлекает повторно используемые знания о решении проблем на разных уровнях — от высокоуровневого понимания проблемы до конкретных изменений в коде. Эксперименты показывают, что SWE-Exp достигает наилучшего показателя успешности (41,6% Pass@1) на тестовом наборе SWE-bench-Verified в рамках открытых фреймворков агентов. Наш подход устанавливает новую парадигму, в которой автоматизированные агенты программной инженерии систематически накапливают и используют экспертизу в исправлении, переходя от исследования методом проб и ошибок к стратегическому, основанному на опыте решению проблем.
Решение задач значительно продвинулось благодаря расширенным возможностям рассуждения крупных языковых моделей (LLM). Недавно агентно-ориентированные фреймворки, такие как SWE-agent, еще больше ускорили этот прогресс, позволив автономным агентам, использующим инструменты, решать сложные задачи в области разработки программного обеспечения. Хотя существующие подходы к решению задач на основе агентов в основном опираются на их независимые исследования, они часто застревают в локальных решениях и не могут выявить закономерности, охватывающие различные части кодовой базы. Чтобы устранить это ограничение, мы предлагаем SWE-Debate — конкурентный многоагентный фреймворк для дебатов, который стимулирует разнообразные пути рассуждения и обеспечивает более консолидированную локализацию проблем. SWE-Debate сначала создает несколько трасс распространения ошибок в качестве предложений по локализации, проходя по графу зависимостей кода. Затем он организует трехраундные дебаты среди специализированных агентов, каждый из которых воплощает различные точки зрения на рассуждение вдоль трассы распространения ошибки. Эта структурированная конкуренция позволяет агентам совместно сходиться к консолидированному плану исправления. Наконец, этот консолидированный план интегрируется в агента модификации кода на основе метода Монте-Карло для генерации патчей. Эксперименты на бенчмарке SWE-bench показывают, что SWE-Debate достигает новых передовых результатов среди открытых агентных фреймворков и значительно превосходит базовые подходы.
Оценка способностей крупных языковых моделей (LLM) к ведению диалогов остается сложной задачей. Современные основные подходы в значительной степени опираются на парадигму «LLM-как-оценщик», где LLM используется в качестве инструмента для оценки качества диалога. Однако такие методы часто страдают от различных предубеждений, что подрывает надежность и согласованность результатов оценки. Для смягчения этих предубеждений в последних методах применяются несколько LLM в качестве оценщиков, и их суждения агрегируются для выбора оптимальной оценки. Хотя этот подход с несколькими оценщиками эффективен, он требует значительных вычислительных затрат в процессе вывода. В данной статье мы предлагаем эффективный многопроходный диалоговый оценщик, который фиксирует коллективную мудрость нескольких LLM-оценщиков, агрегируя их предпочтения в единую модель. Наш подход сохраняет преимущества разнообразной обратной связи от нескольких оценщиков, при этом значительно снижая затраты на оценку, что позволяет быстро и гибко оценивать качество диалога. Многочисленные эксперименты на семи эталонных тестах для оценки диалогов, включающих как одиночные рейтинги, так и попарные сравнения, демонстрируют, что наш метод превосходит существующие базовые подходы в различных сценариях, подтверждая его эффективность и устойчивость.
Недавние достижения в области крупных языковых моделей стимулировали развитие мультимодальных языковых моделей (MLLMs), которые интегрируют текст, речь и визуальные данные в единые структуры. По мере того как MLLMs эволюционируют от узкоспециализированных, одноязычных систем к моделям общего назначения, способным выполнять инструкции, ключевым направлением становится оценка их мультиязычных и мультимодальных возможностей как в длинных, так и в коротких контекстах. Однако существующие тестовые наборы не справляются с совместной оценкой этих аспектов: они часто ограничены английским языком, в основном сосредоточены на одной модальности за раз, опираются на короткие контексты или не содержат аннотаций, созданных человеком, что затрудняет всестороннюю оценку производительности моделей в различных языках, модальностях и уровнях сложности задач. Чтобы устранить эти пробелы, мы представляем MCIF (Multimodal Crosslingual Instruction Following) — первый мультиязычный тестовый набор с аннотациями, созданными человеком, основанный на научных докладах и предназначенный для оценки выполнения инструкций в кросс-языковых и мультимодальных условиях как для коротких, так и для длинных входных данных. MCIF охватывает три основные модальности — речь, визуальные данные и текст — и четыре различных языка (английский, немецкий, итальянский и китайский), что позволяет провести всестороннюю оценку способностей MLLMs интерпретировать инструкции на разных языках и комбинировать их с мультимодальной контекстной информацией. MCIF выпущен под лицензией CC-BY 4.0 для поощрения открытых исследований и прогресса в разработке MLLMs.
Мультимодальная сегментация по ссылкам направлена на выделение целевых объектов в визуальных сценах, таких как изображения, видео и 3D-сцены, на основе ссылочных выражений в текстовом или аудиоформате. Эта задача играет ключевую роль в практических приложениях, требующих точного восприятия объектов на основе пользовательских инструкций. За последнее десятилетие она привлекла значительное внимание в мультимодальном сообществе благодаря достижениям в области сверточных нейронных сетей, трансформеров и крупных языковых моделей, которые существенно улучшили возможности мультимодального восприятия. В данной статье представлен всесторонний обзор мультимодальной сегментации по ссылкам. Мы начинаем с введения в область, включая определения задач и часто используемые наборы данных. Далее мы обобщаем унифицированную метаархитектуру для сегментации по ссылкам и рассматриваем репрезентативные методы для трех основных типов визуальных сцен: изображений, видео и 3D-сцен. Мы также обсуждаем методы обобщенных ссылочных выражений (GREx), направленные на решение проблем, связанных со сложностью реального мира, а также связанные задачи и практические приложения. Представлены обширные сравнения производительности на стандартных тестовых наборах. Мы постоянно отслеживаем связанные работы на https://github.com/henghuiding/Awesome-Multimodal-Referring-Segmentation.
Генерация видео на основе аудио направлена на синтез реалистичных видеороликов, которые соответствуют входным аудиозаписям, подобно способности человека визуализировать сцены на основе звуковой информации. Однако существующие подходы в основном сосредоточены на исследовании семантической информации, такой как классы звучащих источников, присутствующих в аудио, что ограничивает их способность генерировать видео с точным содержанием и пространственной композицией. В отличие от этого, люди не только естественным образом определяют семантические категории звучащих источников, но также могут распознавать их глубоко закодированные пространственные атрибуты, включая местоположение и направление движения. Эта полезная информация может быть выявлена путем рассмотрения специфических пространственных индикаторов, вытекающих из физических свойств звука, таких как громкость или частота. Поскольку предыдущие методы в значительной степени игнорируют этот фактор, мы представляем SpA2V — первую структуру, которая явно использует эти пространственные аудиокомпоненты для генерации видео с высокой семантической и пространственной согласованностью. SpA2V разбивает процесс генерации на два этапа: 1) Планирование видео на основе аудио: Мы тщательно адаптируем современную MLLM для новой задачи использования пространственных и семантических сигналов из входного аудио для создания макетов видеосцен (VSL). Это служит промежуточным представлением для преодоления разрыва между аудио и видео модальностями. 2) Генерация видео на основе макета: Мы разрабатываем эффективный подход для бесшовной интеграции VSL в качестве условного руководства в предварительно обученные диффузионные модели, что позволяет генерировать видео на основе VSL без дополнительного обучения. Многочисленные эксперименты демонстрируют, что SpA2V превосходно справляется с созданием реалистичных видео, семантически и пространственно согласованных с входными аудиозаписями.
Крупные языковые модели (LLM) продемонстрировали впечатляющую способность генерировать текст, который близко напоминает человеческое письмо. Однако они часто создают фактические ошибки, проблема, обычно называемая «галлюцинациями». Устранение галлюцинаций имеет решающее значение для повышения надежности и эффективности LLM. В то время как большая часть исследований была сосредоточена на галлюцинациях в английском языке, наше исследование расширяет эту работу на разговорные данные на трех языках: хинди, фарси и китайском (мандарин). Мы предлагаем всесторонний анализ набора данных для изучения как фактических, так и лингвистических ошибок в этих языках для моделей GPT-3.5, GPT-4o, Llama-3.1, Gemma-2.0, DeepSeek-R1 и Qwen-3. Мы обнаружили, что LLM генерируют очень мало галлюцинаций в китайском языке, но создают значительно большее количество галлюцинаций в хинди и фарси.
Визуальная навигация с изображением в качестве цели представляет собой фундаментальную и сложную задачу. Традиционные методы либо полагаются на обучение с подкреплением (RL) сквозным образом, либо используют модульную политику с топологическим графом или картой вида сверху (BEV) в качестве памяти, что не позволяет полноценно моделировать геометрические отношения между исследуемой 3D-средой и целевым изображением. Для эффективного и точного определения местоположения целевого изображения в 3D-пространстве мы строим нашу систему навигации на основе рендеримого представления 3D-гауссовой модели (3DGS). Однако из-за высокой вычислительной сложности оптимизации 3DGS и большого пространства поиска 6-степеней свободы (6-DoF) для позы камеры прямое использование 3DGS для локализации изображения в процессе исследования агента оказывается крайне неэффективным. В связи с этим мы предлагаем IGL-Nav — инкрементальную фреймворк локализации на основе 3D-гауссовой модели для эффективной и 3D-осознанной навигации с изображением в качестве цели. В частности, мы инкрементально обновляем представление сцены по мере поступления новых изображений с использованием монохромного предсказания в прямом проходе. Затем мы грубо локализуем цель, используя геометрическую информацию для сопоставления в дискретном пространстве, что эквивалентно эффективной 3D-свертке. Когда агент приближается к цели, мы окончательно определяем точную позу цели с помощью оптимизации через дифференцируемый рендеринг. Предложенный IGL-Nav значительно превосходит существующие современные методы в различных экспериментальных конфигурациях. Он также способен справляться с более сложной задачей навигации с произвольным видом цели и может быть развернут на реальной роботизированной платформе с использованием смартфона для захвата целевого изображения с произвольной позы. Страница проекта: https://gwxuan.github.io/IGL-Nav/.
Хотя ИИ преуспевает в генерации текста, аудио, изображений и видео, создание интерактивного аудиовизуального контента, такого как видеоигры, остается сложной задачей. Современные языковые модели (LLM) могут генерировать игры и анимации на JavaScript, но им не хватает автоматизированных метрик оценки, и они испытывают трудности с созданием сложного контента, который обычно требует работы команд людей в течение многих месяцев (многошаговые, многоагентные процессы) с использованием ресурсов, созданных художниками. Для решения этих проблем мы разработали новую метрику и многоагентную систему. Мы предлагаем AVR-Eval — относительную метрику качества мультимедийного контента, использующую аудиовизуальные записи (AVR). Омни-модальная модель (обрабатывающая текст, видео и аудио) сравнивает AVR двух контентов, а текстовая модель анализирует оценки, чтобы определить превосходство. Мы показываем, что AVR-Eval корректно отличает качественный контент от нерабочего или несогласованного. Мы создали AVR-Agent — многоагентную систему, генерирующую код на JavaScript из базы мультимедийных ресурсов (аудио, изображения, 3D-модели). Кодирующий агент выбирает подходящие ресурсы, генерирует несколько начальных версий кода, использует AVR-Eval для определения лучшей версии и итеративно улучшает её с помощью омни-модальной обратной связи от AVR. Мы провели эксперименты с играми и анимациями, используя AVR-Eval (процент побед контента A против B). Мы обнаружили, что контент, созданный AVR-Agent, имеет значительно более высокий процент побед по сравнению с контентом, сгенерированным в одношаговом режиме. Однако модели испытывают трудности с эффективным использованием пользовательских ресурсов и обратной связи от AVR, не показывая более высокого процента побед. Это выявляет критический пробел: хотя люди извлекают пользу из высококачественных ресурсов и аудиовизуальной обратной связи, текущие модели кодирования, похоже, не используют эти ресурсы столь же эффективно, что подчеркивает фундаментальные различия между подходами к созданию контента у людей и машин.