Ежедневно отобранные исследовательские статьи по ИИ с переводами
Глубокие исследовательские агенты, основанные на крупных языковых моделях (LLM), быстро развиваются; однако их производительность часто достигает плато при генерации сложных, объемных исследовательских отчетов с использованием стандартных алгоритмов масштабирования на этапе тестирования. Вдохновляясь итеративной природой человеческого исследования, которое включает циклы поиска, рассуждения и пересмотра, мы предлагаем Test-Time Diffusion Deep Researcher (TTD-DR). Этот новый подход концептуализирует генерацию исследовательских отчетов как процесс диффузии. TTD-DR начинает этот процесс с предварительного черновика — обновляемой структуры, которая служит развивающейся основой для направления исследования. Черновик затем итеративно уточняется через процесс "устранения шума", который динамически обогащается механизмом извлечения информации, включающим внешние данные на каждом шаге. Основной процесс дополнительно улучшается за счет самоэволюционного алгоритма, применяемого к каждому компоненту рабочего процесса агента, что обеспечивает генерацию высококачественного контекста для процесса диффузии. Такой дизайн, ориентированный на черновик, делает процесс написания отчета более своевременным и согласованным, одновременно уменьшая потери информации в ходе итеративного поиска. Мы демонстрируем, что наш TTD-DR достигает передовых результатов на широком спектре тестов, требующих интенсивного поиска и многошагового рассуждения, значительно превосходя существующие глубокие исследовательские агенты.
Квантование весов больших языковых моделей (LLM) с 16-битной точности до более низкой битовой ширины является стандартным подходом для развертывания масштабных трансформеров на более доступных ускорителях. GPTQ стал одним из стандартных методов одноэтапного посттренировочного квантования для моделей масштаба LLM. Однако его внутренняя работа описывается как последовательность эмпирических алгебраических обновлений, которые скрывают любую геометрическую интерпретацию или гарантии в худшем случае. В данной работе мы показываем, что при выполнении в обратном порядке (от последнего к первому измерению) для линейного слоя GPTQ математически эквивалентен алгоритму Бабаи для ближайшего вектора (CVP) на решетке, определенной матрицей Гессе входных данных слоя. Эта эквивалентность основана на сложном математическом аргументе и имеет два аналитических следствия: (i) шаг распространения ошибки GPTQ получает интуитивную геометрическую интерпретацию; (ii) GPTQ наследует верхнюю границу ошибки алгоритма Бабаи при условии отсутствия обрезки. В совокупности эти результаты закрепляют GPTQ на прочной теоретической основе и открывают путь для использования десятилетий прогресса в алгоритмах работы с решетками при разработке будущих алгоритмов квантования для моделей с миллиардами параметров.
Мы представляем MMBench-GUI, иерархический бенчмарк для оценки агентов автоматизации графического интерфейса пользователя (GUI) на платформах Windows, macOS, Linux, iOS, Android и Web. Он включает четыре уровня: Понимание содержимого GUI, Привязка элементов, Автоматизация задач и Совместное выполнение задач, охватывая ключевые навыки для GUI-агентов. Кроме того, мы предлагаем новую метрику Efficiency-Quality Area (EQA) для оценки эффективности выполнения GUI-агентов в сценариях онлайн-автоматизации. С помощью MMBench-GUI мы выявили, что точная визуальная привязка является критическим фактором успешного выполнения задач, подчеркивая значительные преимущества модульных фреймворков, интегрирующих специализированные модули привязки. Более того, для достижения надежной автоматизации GUI агент требует сильных способностей к планированию задач и обобщению на кросс-платформенном уровне, где долгосрочная память, широкое пространство действий и долгосрочное рассуждение играют ключевую роль. Важно отметить, что эффективность выполнения задач остается недостаточно изученным аспектом, и все модели демонстрируют значительную неэффективность, выполняя избыточные шаги даже при успешном завершении задач. Интеграция точной локализации, эффективного планирования и стратегий раннего завершения необходима для обеспечения действительно эффективной и масштабируемой автоматизации GUI. Наш код бенчмарка, данные для оценки и среда выполнения будут доступны публично по адресу https://github.com/open-compass/MMBench-GUI.
Мультимодальные крупные языковые модели (MLLMs) достигли значительных успехов, во многом благодаря их способности обрабатывать всё более длинные и сложные контексты, такие как изображения высокого разрешения, продолжительные видеопоследовательности и длинные аудиовходы. Хотя эта способность существенно расширяет возможности MLLM, она также вносит значительные вычислительные сложности, главным образом из-за квадратичной сложности механизмов самовнимания при большом количестве входных токенов. Для смягчения этих ограничений сжатие токенов стало перспективным и важным подходом, эффективно уменьшающим количество токенов как во время обучения, так и в процессе вывода. В данной статье мы представляем первый систематический обзор и синтез быстро развивающейся области сжатия токенов в мультимодальных длинных контекстах. Учитывая, что эффективные стратегии сжатия тесно связаны с уникальными характеристиками и избыточностью каждой модальности, мы классифицируем существующие подходы по их основному фокусу на данные, что позволяет исследователям быстро находить и изучать методы, адаптированные к их конкретной области интересов: (1) сжатие, ориентированное на изображения, которое устраняет пространственную избыточность в визуальных данных; (2) сжатие, ориентированное на видео, которое решает проблему пространственно-временной избыточности в динамических последовательностях; и (3) сжатие, ориентированное на аудио, которое справляется с временной и спектральной избыточностью в акустических сигналах. Помимо этой классификации по модальностям, мы также анализируем методы на основе их базовых механизмов, включая подходы, основанные на преобразованиях, сходстве, внимании и запросах. Предоставляя всесторонний и структурированный обзор, данная работа стремится консолидировать текущие достижения, выявить ключевые проблемы и вдохновить на будущие исследования в этой быстро развивающейся области. Мы также поддерживаем публичный репозиторий для постоянного отслеживания и обновления последних достижений в этой перспективной области.
Крупные языковые модели (LLM) всё чаще адаптируются к решению прикладных задач с использованием методов обучения с подкреплением (RL), таких как Group Relative Policy Optimization (GRPO), которые зачастую требуют тысяч прогонов для освоения новых задач. Мы утверждаем, что интерпретируемая природа языка может предоставить гораздо более богатую среду обучения для LLM по сравнению с градиентами политик, выведенными из редких скалярных наград. Чтобы проверить это, мы представляем GEPA (Genetic-Pareto) — оптимизатор промптов, который активно использует естественно-языковую рефлексию для извлечения высокоуровневых правил из проб и ошибок. Для любой системы искусственного интеллекта, содержащей один или несколько промптов LLM, GEPA анализирует системные траектории (например, рассуждения, вызовы инструментов и их результаты) и отражает их на естественном языке, чтобы диагностировать проблемы, предлагать и тестировать обновления промптов, а также комбинировать взаимодополняющие уроки из Парето-фронта собственных попыток. Благодаря своей конструкции GEPA часто способен превратить даже несколько прогонов в значительное улучшение качества. В четырёх задачах GEPA превосходит GRPO в среднем на 10%, а в некоторых случаях — до 20%, при этом используя до 35 раз меньше прогонов. GEPA также превосходит ведущий оптимизатор промптов, MIPROv2, более чем на 10% на двух LLM и демонстрирует перспективные результаты в качестве стратегии поиска во время вывода для оптимизации кода.
Оценка крупных языковых моделей (LLM) всё чаще опирается на использование других LLM в качестве судей. Однако современные парадигмы оценки обычно сводятся к получению единого балла или ранжирования, отвечая на вопрос, какая модель лучше, но не объясняя, почему. Хотя такие общие показатели важны для бенчмаркинга, они скрывают конкретные, практические причины, лежащие в основе производительности модели. Чтобы устранить этот пробел, мы представляем CLEAR — интерактивный, открытый пакет для анализа ошибок на основе LLM. CLEAR сначала генерирует текстовую обратную связь для каждого отдельного примера, затем создаёт набор системных ошибок и количественно оценивает распространённость каждой выявленной проблемы. Наш пакет также предоставляет пользователям интерактивную панель, которая позволяет проводить всесторонний анализ ошибок через агрегированные визуализации, применять интерактивные фильтры для изоляции конкретных проблем или диапазонов оценок и углубляться в отдельные примеры, иллюстрирующие определённые поведенческие паттерны. Мы демонстрируем анализ с помощью CLEAR на примере бенчмарков RAG и Math, а также показываем его полезность через кейс-стади с участием пользователей.
Языковые модели (ЯМ) подвержены уязвимости, называемой "взломом вознаграждения в контексте", когда они используют недостатки в некорректных или ошибочных письменных спецификациях или критериях для достижения высоких оценок, не выполняя истинных намерений пользователя. Мы представляем "Самоисправление спецификации" (Specification Self-Correction, SSC) — новый фреймворк, применяемый на этапе тестирования, который позволяет ЯМ выявлять и исправлять недостатки в своей собственной руководящей спецификации. SSC использует многошаговый процесс вывода, в котором модель сначала генерирует ответ на основе потенциально некорректной спецификации, анализирует свой вывод, а затем исправляет саму спецификацию, устраняя уязвимость. Затем на основе этой самоисправленной спецификации генерируется окончательный, более устойчивый ответ. В экспериментах, охватывающих задачи творческого письма и агентного программирования с использованием нескольких ЯМ, мы показываем, что, хотя модели изначально используют некорректные спецификации в 50–70\% случаев, процесс SSC снижает эту уязвимость более чем на 90\%. Это динамическое исправление происходит на этапе вывода, не требует изменения весов модели и приводит к более устойчивому и согласованному поведению модели. Код доступен по адресу https://github.com/vicgalle/specification-self-correction.
Хотя сквозные модели автономного вождения демонстрируют многообещающие результаты, их практическое внедрение часто затрудняется большими размерами моделей, зависимостью от дорогостоящих LiDAR-датчиков и вычислительно затратными представлениями признаков в виде сверху (BEV). Это ограничивает их масштабируемость, особенно для массовых автомобилей, оснащённых только камерами. Для решения этих проблем мы предлагаем PRIX (Plan from Raw Pixels). Наша новая и эффективная сквозная архитектура вождения работает исключительно на данных с камер, без явного представления BEV и необходимости в LiDAR. PRIX использует визуальный экстрактор признаков в сочетании с генеративной головой планирования для предсказания безопасных траекторий непосредственно из исходных пиксельных данных. Ключевым компонентом нашей архитектуры является Context-aware Recalibration Transformer (CaRT) — новый модуль, предназначенный для эффективного улучшения многоуровневых визуальных признаков для более устойчивого планирования. Мы демонстрируем в ходе всесторонних экспериментов, что PRIX достигает наилучших результатов на бенчмарках NavSim и nuScenes, соответствуя возможностям более крупных мультимодальных диффузионных планировщиков, при этом значительно превосходя их по скорости вывода и размеру модели, что делает его практичным решением для реального внедрения. Наша работа является открытой, и код будет доступен по адресу https://maxiuw.github.io/prix.
Для понимания и выявления беспрецедентных рисков, связанных с быстро развивающимися моделями искусственного интеллекта (ИИ), в данном отчете представлена всесторонняя оценка их пограничных рисков. Используя анализ E-T-C (среда развертывания, источник угрозы, обеспечивающая возможность) из "Руководства по управлению рисками пограничного ИИ" (v1.0) (SafeWork-F1-Framework), мы выделяем ключевые риски в семи областях: кибератаки, биологические и химические угрозы, манипуляция и убеждение, неконтролируемая автономная разработка ИИ, стратегический обман и планирование, самовоспроизведение и сговор. Руководствуясь "Законом AI-45^circ", мы оцениваем эти риски с использованием "красных линий" (недопустимые пороги) и "желтых линий" (индикаторы раннего предупреждения) для определения зон риска: зеленая (управляемый риск для регулярного развертывания и постоянного мониторинга), желтая (требующая усиленных мер смягчения и контролируемого развертывания) и красная (необходимость приостановки разработки и/или развертывания). Экспериментальные результаты показывают, что все последние модели пограничного ИИ находятся в зеленой и желтой зонах, не пересекая красных линий. В частности, ни одна из оцененных моделей не пересекает желтую линию для рисков кибератак или неконтролируемой разработки ИИ. В отношении самовоспроизведения, а также стратегического обмана и планирования большинство моделей остаются в зеленой зоне, за исключением некоторых моделей рассуждений, находящихся в желтой зоне. В области манипуляции и убеждения большинство моделей находятся в желтой зоне из-за их эффективного влияния на людей. Для биологических и химических рисков мы не можем исключить возможность нахождения большинства моделей в желтой зоне, хотя для дальнейших утверждений требуется детальное моделирование угроз и углубленная оценка. Эта работа отражает наше текущее понимание рисков пограничного ИИ и призывает к коллективным действиям для смягчения этих вызовов.
AI Video Chat представляет собой новую парадигму для систем реального времени (Real-time Communication, RTC), где один из участников взаимодействия является не человеком, а мультимодальной крупной языковой моделью (Multimodal Large Language Model, MLLM). Это делает взаимодействие между человеком и ИИ более интуитивным, как будто происходит общение лицом к лицу с реальным человеком. Однако это создает значительные проблемы с задержкой, поскольку процесс вывода MLLM занимает большую часть времени ответа, оставляя очень мало времени для потоковой передачи видео. Из-за неопределенности и нестабильности сетевого соединения задержка передачи становится критическим узким местом, препятствующим тому, чтобы ИИ вел себя как реальный человек. Для решения этой проблемы мы предлагаем Artic — фреймворк для систем реального времени, ориентированный на ИИ, который исследует сдвиг сетевых требований от «просмотра видео человеком» к «пониманию видео ИИ». Для значительного снижения битрейта при сохранении точности MLLM мы предлагаем контекстно-зависимую потоковую передачу видео, которая распознает важность каждой области видео для чата и выделяет битрейт почти исключительно для областей, важных для общения. Чтобы избежать повторной передачи пакетов, мы предлагаем адаптивную частоту кадров, устойчивую к потерям, которая использует предыдущие кадры для замены потерянных или задержанных кадров, избегая при этом потерь битрейта. Для оценки влияния качества потоковой передачи видео на точность MLLM мы создали первый бенчмарк под названием Degraded Video Understanding Benchmark (DeViBench). Наконец, мы обсуждаем некоторые открытые вопросы и текущие решения для AI Video Chat.
В задаче семантической сегментации с адаптацией к домену без учителя (UDA-SS) модель обучается на размеченных данных исходного домена (например, синтетических изображениях) и адаптируется к неразмеченному целевому домену (например, реальным изображениям) без доступа к аннотациям целевого домена. Существующие методы UDA-SS часто сталкиваются с трудностями в балансировке мелкозернистых локальных деталей и глобальной контекстной информации, что приводит к ошибкам сегментации в сложных областях. Для решения этой проблемы мы представляем модуль Adaptive Feature Refinement (AFR), который повышает точность сегментации, уточняя высокоразрешающие признаки с использованием семантических априорных данных из низкоразрешающих логитов. AFR также интегрирует высокочастотные компоненты, которые захватывают мелкозернистые структуры и предоставляют важную информацию о границах, улучшая выделение объектов. Кроме того, AFR адаптивно балансирует локальную и глобальную информацию с помощью внимания, управляемого неопределенностью, что снижает количество ошибок классификации. Его легковесный дизайн позволяет легко интегрировать его в методы UDA, основанные на HRDA, что приводит к передовым результатам в сегментации. Наш подход улучшает существующие методы UDA-SS на 1.05% mIoU для GTA V --> Cityscapes и на 1.04% mIoU для Synthia-->Cityscapes. Реализация нашей платформы доступна по адресу: https://github.com/Masrur02/AFRDA.