HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

11 papers found

Глубокий исследователь с диффузией во время тестирования
Deep Researcher with Test-Time Diffusion

Jul 21

ByRujun Han, Yanfei Chen, Zoey CuiZhu, Lesly Miculicich, Guan Sun, Yuanjun Bi, Weiming Wen, Hui Wan, Chunfeng Wen, Solène Maître, George Lee, Vishy Tirumalashetty, Emily Xue, Zizhao Zhang, Salem Haykal, Burak Gokturk, Tomas Pfister, Chen-Yu Lee

Глубокие исследовательские агенты, основанные на крупных языковых моделях (LLM), быстро развиваются; однако их производительность часто достигает плато при генерации сложных, объемных исследовательских отчетов с использованием стандартных алгоритмов масштабирования на этапе тестирования. Вдохновляясь итеративной природой человеческого исследования, которое включает циклы поиска, рассуждения и пересмотра, мы предлагаем Test-Time Diffusion Deep Researcher (TTD-DR). Этот новый подход концептуализирует генерацию исследовательских отчетов как процесс диффузии. TTD-DR начинает этот процесс с предварительного черновика — обновляемой структуры, которая служит развивающейся основой для направления исследования. Черновик затем итеративно уточняется через процесс "устранения шума", который динамически обогащается механизмом извлечения информации, включающим внешние данные на каждом шаге. Основной процесс дополнительно улучшается за счет самоэволюционного алгоритма, применяемого к каждому компоненту рабочего процесса агента, что обеспечивает генерацию высококачественного контекста для процесса диффузии. Такой дизайн, ориентированный на черновик, делает процесс написания отчета более своевременным и согласованным, одновременно уменьшая потери информации в ходе итеративного поиска. Мы демонстрируем, что наш TTD-DR достигает передовых результатов на широком спектре тестов, требующих интенсивного поиска и многошагового рассуждения, значительно превосходя существующие глубокие исследовательские агенты.

Геометрия квантования LLM: GPTQ как алгоритм ближайшей плоскости Бабаи
The Geometry of LLM Quantization: GPTQ as Babai's Nearest Plane Algorithm

Jul 24

ByJiale Chen, Torsten Hoefler, Dan Alistarh

Квантование весов больших языковых моделей (LLM) с 16-битной точности до более низкой битовой ширины является стандартным подходом для развертывания масштабных трансформеров на более доступных ускорителях. GPTQ стал одним из стандартных методов одноэтапного посттренировочного квантования для моделей масштаба LLM. Однако его внутренняя работа описывается как последовательность эмпирических алгебраических обновлений, которые скрывают любую геометрическую интерпретацию или гарантии в худшем случае. В данной работе мы показываем, что при выполнении в обратном порядке (от последнего к первому измерению) для линейного слоя GPTQ математически эквивалентен алгоритму Бабаи для ближайшего вектора (CVP) на решетке, определенной матрицей Гессе входных данных слоя. Эта эквивалентность основана на сложном математическом аргументе и имеет два аналитических следствия: (i) шаг распространения ошибки GPTQ получает интуитивную геометрическую интерпретацию; (ii) GPTQ наследует верхнюю границу ошибки алгоритма Бабаи при условии отсутствия обрезки. В совокупности эти результаты закрепляют GPTQ на прочной теоретической основе и открывают путь для использования десятилетий прогресса в алгоритмах работы с решетками при разработке будущих алгоритмов квантования для моделей с миллиардами параметров.

MMBench-GUI: Иерархическая мультиплатформенная система оценки для агентов, работающих с графическим интерфейсом пользователя
MMBench-GUI: Hierarchical Multi-Platform Evaluation Framework for GUI Agents

Jul 25

ByXuehui Wang, Zhenyu Wu, JingJing Xie, Zichen Ding, Bowen Yang, Zehao Li, Zhaoyang Liu, Qingyun Li, Xuan Dong, Zhe Chen, Weiyun Wang, Xiangyu Zhao, Jixuan Chen, Haodong Duan, Tianbao Xie, Chenyu Yang, Shiqian Su, Yue Yu, Yuan Huang, Yiqian Liu, Xiao Zhang, Yanting Zhang, Xiangyu Yue, Weijie Su, Xizhou Zhu, Wei Shen, Jifeng Dai, Wenhai Wang

Мы представляем MMBench-GUI, иерархический бенчмарк для оценки агентов автоматизации графического интерфейса пользователя (GUI) на платформах Windows, macOS, Linux, iOS, Android и Web. Он включает четыре уровня: Понимание содержимого GUI, Привязка элементов, Автоматизация задач и Совместное выполнение задач, охватывая ключевые навыки для GUI-агентов. Кроме того, мы предлагаем новую метрику Efficiency-Quality Area (EQA) для оценки эффективности выполнения GUI-агентов в сценариях онлайн-автоматизации. С помощью MMBench-GUI мы выявили, что точная визуальная привязка является критическим фактором успешного выполнения задач, подчеркивая значительные преимущества модульных фреймворков, интегрирующих специализированные модули привязки. Более того, для достижения надежной автоматизации GUI агент требует сильных способностей к планированию задач и обобщению на кросс-платформенном уровне, где долгосрочная память, широкое пространство действий и долгосрочное рассуждение играют ключевую роль. Важно отметить, что эффективность выполнения задач остается недостаточно изученным аспектом, и все модели демонстрируют значительную неэффективность, выполняя избыточные шаги даже при успешном завершении задач. Интеграция точной локализации, эффективного планирования и стратегий раннего завершения необходима для обеспечения действительно эффективной и масштабируемой автоматизации GUI. Наш код бенчмарка, данные для оценки и среда выполнения будут доступны публично по адресу https://github.com/open-compass/MMBench-GUI.

GEPA: Эволюция рефлексивных подсказок может превзойти обучение с подкреплением
GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning

Jul 25

ByLakshya A Agrawal, Shangyin Tan, Dilara Soylu, Noah Ziems, Rishi Khare, Krista Opsahl-Ong, Arnav Singhvi, Herumb Shandilya, Michael J Ryan, Meng Jiang, Christopher Potts, Koushik Sen, Alexandros G. Dimakis, Ion Stoica, Dan Klein, Matei Zaharia, Omar Khattab

Крупные языковые модели (LLM) всё чаще адаптируются к решению прикладных задач с использованием методов обучения с подкреплением (RL), таких как Group Relative Policy Optimization (GRPO), которые зачастую требуют тысяч прогонов для освоения новых задач. Мы утверждаем, что интерпретируемая природа языка может предоставить гораздо более богатую среду обучения для LLM по сравнению с градиентами политик, выведенными из редких скалярных наград. Чтобы проверить это, мы представляем GEPA (Genetic-Pareto) — оптимизатор промптов, который активно использует естественно-языковую рефлексию для извлечения высокоуровневых правил из проб и ошибок. Для любой системы искусственного интеллекта, содержащей один или несколько промптов LLM, GEPA анализирует системные траектории (например, рассуждения, вызовы инструментов и их результаты) и отражает их на естественном языке, чтобы диагностировать проблемы, предлагать и тестировать обновления промптов, а также комбинировать взаимодополняющие уроки из Парето-фронта собственных попыток. Благодаря своей конструкции GEPA часто способен превратить даже несколько прогонов в значительное улучшение качества. В четырёх задачах GEPA превосходит GRPO в среднем на 10%, а в некоторых случаях — до 20%, при этом используя до 35 раз меньше прогонов. GEPA также превосходит ведущий оптимизатор промптов, MIPROv2, более чем на 10% на двух LLM и демонстрирует перспективные результаты в качестве стратегии поиска во время вывода для оптимизации кода.

Когда токены говорят слишком много: обзор методов сжатия мультимодальных длинных контекстов токенов для изображений, видео и аудио
When Tokens Talk Too Much: A Survey of Multimodal Long-Context Token Compression across Images, Videos, and Audios

Jul 27

ByKele Shao, Keda Tao, Kejia Zhang, Sicheng Feng, Mu Cai, Yuzhang Shang, Haoxuan You, Can Qin, Yang Sui, Huan Wang

Мультимодальные крупные языковые модели (MLLMs) достигли значительных успехов, во многом благодаря их способности обрабатывать всё более длинные и сложные контексты, такие как изображения высокого разрешения, продолжительные видеопоследовательности и длинные аудиовходы. Хотя эта способность существенно расширяет возможности MLLM, она также вносит значительные вычислительные сложности, главным образом из-за квадратичной сложности механизмов самовнимания при большом количестве входных токенов. Для смягчения этих ограничений сжатие токенов стало перспективным и важным подходом, эффективно уменьшающим количество токенов как во время обучения, так и в процессе вывода. В данной статье мы представляем первый систематический обзор и синтез быстро развивающейся области сжатия токенов в мультимодальных длинных контекстах. Учитывая, что эффективные стратегии сжатия тесно связаны с уникальными характеристиками и избыточностью каждой модальности, мы классифицируем существующие подходы по их основному фокусу на данные, что позволяет исследователям быстро находить и изучать методы, адаптированные к их конкретной области интересов: (1) сжатие, ориентированное на изображения, которое устраняет пространственную избыточность в визуальных данных; (2) сжатие, ориентированное на видео, которое решает проблему пространственно-временной избыточности в динамических последовательностях; и (3) сжатие, ориентированное на аудио, которое справляется с временной и спектральной избыточностью в акустических сигналах. Помимо этой классификации по модальностям, мы также анализируем методы на основе их базовых механизмов, включая подходы, основанные на преобразованиях, сходстве, внимании и запросах. Предоставляя всесторонний и структурированный обзор, данная работа стремится консолидировать текущие достижения, выявить ключевые проблемы и вдохновить на будущие исследования в этой быстро развивающейся области. Мы также поддерживаем публичный репозиторий для постоянного отслеживания и обновления последних достижений в этой перспективной области.

CLEAR: Анализ ошибок с использованием LLM в роли судьи, упрощённый подход
CLEAR: Error Analysis via LLM-as-a-Judge Made Easy

Jul 24

ByAsaf Yehudai, Lilach Eden, Yotam Perlitz, Roy Bar-Haim, Michal Shmueli-Scheuer

Оценка крупных языковых моделей (LLM) всё чаще опирается на использование других LLM в качестве судей. Однако современные парадигмы оценки обычно сводятся к получению единого балла или ранжирования, отвечая на вопрос, какая модель лучше, но не объясняя, почему. Хотя такие общие показатели важны для бенчмаркинга, они скрывают конкретные, практические причины, лежащие в основе производительности модели. Чтобы устранить этот пробел, мы представляем CLEAR — интерактивный, открытый пакет для анализа ошибок на основе LLM. CLEAR сначала генерирует текстовую обратную связь для каждого отдельного примера, затем создаёт набор системных ошибок и количественно оценивает распространённость каждой выявленной проблемы. Наш пакет также предоставляет пользователям интерактивную панель, которая позволяет проводить всесторонний анализ ошибок через агрегированные визуализации, применять интерактивные фильтры для изоляции конкретных проблем или диапазонов оценок и углубляться в отдельные примеры, иллюстрирующие определённые поведенческие паттерны. Мы демонстрируем анализ с помощью CLEAR на примере бенчмарков RAG и Math, а также показываем его полезность через кейс-стади с участием пользователей.

Практическое применение структуры управления рисками в области передового искусственного интеллекта: анализ рисков Технический отчет
Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report

Jul 22

ByShanghai AI Lab, Xiaoyang Chen, Yunhao Chen, Zeren Chen, Zhiyun Chen, Hanyun Cui, Yawen Duan, Jiaxuan Guo, Qi Guo, Xuhao Hu, Hong Huang, Lige Huang, Chunxiao Li, Juncheng Li, Qihao Lin, Dongrui Liu, Xinmin Liu, Zicheng Liu, Chaochao Lu, Xiaoya Lu, Jingjing Qu, Qibing Ren, Jing Shao, Jingwei Shi, Jingwei Sun, Peng Wang, Weibing Wang, Jia Xu, Lewen Yan, Xiao Yu, Yi Yu, Boxuan Zhang, Jie Zhang, Weichen Zhang, Zhijie Zheng, Tianyi Zhou, Bowen Zhou

Для понимания и выявления беспрецедентных рисков, связанных с быстро развивающимися моделями искусственного интеллекта (ИИ), в данном отчете представлена всесторонняя оценка их пограничных рисков. Используя анализ E-T-C (среда развертывания, источник угрозы, обеспечивающая возможность) из "Руководства по управлению рисками пограничного ИИ" (v1.0) (SafeWork-F1-Framework), мы выделяем ключевые риски в семи областях: кибератаки, биологические и химические угрозы, манипуляция и убеждение, неконтролируемая автономная разработка ИИ, стратегический обман и планирование, самовоспроизведение и сговор. Руководствуясь "Законом AI-45^circ", мы оцениваем эти риски с использованием "красных линий" (недопустимые пороги) и "желтых линий" (индикаторы раннего предупреждения) для определения зон риска: зеленая (управляемый риск для регулярного развертывания и постоянного мониторинга), желтая (требующая усиленных мер смягчения и контролируемого развертывания) и красная (необходимость приостановки разработки и/или развертывания). Экспериментальные результаты показывают, что все последние модели пограничного ИИ находятся в зеленой и желтой зонах, не пересекая красных линий. В частности, ни одна из оцененных моделей не пересекает желтую линию для рисков кибератак или неконтролируемой разработки ИИ. В отношении самовоспроизведения, а также стратегического обмана и планирования большинство моделей остаются в зеленой зоне, за исключением некоторых моделей рассуждений, находящихся в желтой зоне. В области манипуляции и убеждения большинство моделей находятся в желтой зоне из-за их эффективного влияния на людей. Для биологических и химических рисков мы не можем исключить возможность нахождения большинства моделей в желтой зоне, хотя для дальнейших утверждений требуется детальное моделирование угроз и углубленная оценка. Эта работа отражает наше текущее понимание рисков пограничного ИИ и призывает к коллективным действиям для смягчения этих вызовов.

Самокоррекция спецификаций: смягчение взлома контекстных вознаграждений за счет уточнения на этапе тестирования
Specification Self-Correction: Mitigating In-Context Reward Hacking Through Test-Time Refinement

Jul 24

ByVíctor Gallego

Языковые модели (ЯМ) подвержены уязвимости, называемой "взломом вознаграждения в контексте", когда они используют недостатки в некорректных или ошибочных письменных спецификациях или критериях для достижения высоких оценок, не выполняя истинных намерений пользователя. Мы представляем "Самоисправление спецификации" (Specification Self-Correction, SSC) — новый фреймворк, применяемый на этапе тестирования, который позволяет ЯМ выявлять и исправлять недостатки в своей собственной руководящей спецификации. SSC использует многошаговый процесс вывода, в котором модель сначала генерирует ответ на основе потенциально некорректной спецификации, анализирует свой вывод, а затем исправляет саму спецификацию, устраняя уязвимость. Затем на основе этой самоисправленной спецификации генерируется окончательный, более устойчивый ответ. В экспериментах, охватывающих задачи творческого письма и агентного программирования с использованием нескольких ЯМ, мы показываем, что, хотя модели изначально используют некорректные спецификации в 50–70\% случаев, процесс SSC снижает эту уязвимость более чем на 90\%. Это динамическое исправление происходит на этапе вывода, не требует изменения весов модели и приводит к более устойчивому и согласованному поведению модели. Код доступен по адресу https://github.com/vicgalle/specification-self-correction.

PRIX: Обучение планированию на основе необработанных пикселей для сквозного автономного вождения
PRIX: Learning to Plan from Raw Pixels for End-to-End Autonomous Driving

Jul 23

ByMaciej K. Wozniak, Lianhang Liu, Yixi Cai, Patric Jensfelt

Хотя сквозные модели автономного вождения демонстрируют многообещающие результаты, их практическое внедрение часто затрудняется большими размерами моделей, зависимостью от дорогостоящих LiDAR-датчиков и вычислительно затратными представлениями признаков в виде сверху (BEV). Это ограничивает их масштабируемость, особенно для массовых автомобилей, оснащённых только камерами. Для решения этих проблем мы предлагаем PRIX (Plan from Raw Pixels). Наша новая и эффективная сквозная архитектура вождения работает исключительно на данных с камер, без явного представления BEV и необходимости в LiDAR. PRIX использует визуальный экстрактор признаков в сочетании с генеративной головой планирования для предсказания безопасных траекторий непосредственно из исходных пиксельных данных. Ключевым компонентом нашей архитектуры является Context-aware Recalibration Transformer (CaRT) — новый модуль, предназначенный для эффективного улучшения многоуровневых визуальных признаков для более устойчивого планирования. Мы демонстрируем в ходе всесторонних экспериментов, что PRIX достигает наилучших результатов на бенчмарках NavSim и nuScenes, соответствуя возможностям более крупных мультимодальных диффузионных планировщиков, при этом значительно превосходя их по скорости вывода и размеру модели, что делает его практичным решением для реального внедрения. Наша работа является открытой, и код будет доступен по адресу https://maxiuw.github.io/prix.

Чат с ИИ: Неожиданный поворот в развитии видеосвязи в реальном времени от человека к искусственному интеллекту
Chat with AI: The Surprising Turn of Real-time Video Communication from Human to AI

Jul 14

ByJiangkai Wu, Zhiyuan Ren, Liming Liu, Xinggong Zhang

AI Video Chat представляет собой новую парадигму для систем реального времени (Real-time Communication, RTC), где один из участников взаимодействия является не человеком, а мультимодальной крупной языковой моделью (Multimodal Large Language Model, MLLM). Это делает взаимодействие между человеком и ИИ более интуитивным, как будто происходит общение лицом к лицу с реальным человеком. Однако это создает значительные проблемы с задержкой, поскольку процесс вывода MLLM занимает большую часть времени ответа, оставляя очень мало времени для потоковой передачи видео. Из-за неопределенности и нестабильности сетевого соединения задержка передачи становится критическим узким местом, препятствующим тому, чтобы ИИ вел себя как реальный человек. Для решения этой проблемы мы предлагаем Artic — фреймворк для систем реального времени, ориентированный на ИИ, который исследует сдвиг сетевых требований от «просмотра видео человеком» к «пониманию видео ИИ». Для значительного снижения битрейта при сохранении точности MLLM мы предлагаем контекстно-зависимую потоковую передачу видео, которая распознает важность каждой области видео для чата и выделяет битрейт почти исключительно для областей, важных для общения. Чтобы избежать повторной передачи пакетов, мы предлагаем адаптивную частоту кадров, устойчивую к потерям, которая использует предыдущие кадры для замены потерянных или задержанных кадров, избегая при этом потерь битрейта. Для оценки влияния качества потоковой передачи видео на точность MLLM мы создали первый бенчмарк под названием Degraded Video Understanding Benchmark (DeViBench). Наконец, мы обсуждаем некоторые открытые вопросы и текущие решения для AI Video Chat.

AFRDA: Внимательное уточнение признаков для адаптивной семантической сегментации доменов
AFRDA: Attentive Feature Refinement for Domain Adaptive Semantic Segmentation

Jul 23

ByMd. Al-Masrur Khan, Durgakant Pushp, Lantao Liu

В задаче семантической сегментации с адаптацией к домену без учителя (UDA-SS) модель обучается на размеченных данных исходного домена (например, синтетических изображениях) и адаптируется к неразмеченному целевому домену (например, реальным изображениям) без доступа к аннотациям целевого домена. Существующие методы UDA-SS часто сталкиваются с трудностями в балансировке мелкозернистых локальных деталей и глобальной контекстной информации, что приводит к ошибкам сегментации в сложных областях. Для решения этой проблемы мы представляем модуль Adaptive Feature Refinement (AFR), который повышает точность сегментации, уточняя высокоразрешающие признаки с использованием семантических априорных данных из низкоразрешающих логитов. AFR также интегрирует высокочастотные компоненты, которые захватывают мелкозернистые структуры и предоставляют важную информацию о границах, улучшая выделение объектов. Кроме того, AFR адаптивно балансирует локальную и глобальную информацию с помощью внимания, управляемого неопределенностью, что снижает количество ошибок классификации. Его легковесный дизайн позволяет легко интегрировать его в методы UDA, основанные на HRDA, что приводит к передовым результатам в сегментации. Наш подход улучшает существующие методы UDA-SS на 1.05% mIoU для GTA V --> Cityscapes и на 1.04% mIoU для Synthia-->Cityscapes. Реализация нашей платформы доступна по адресу: https://github.com/Masrur02/AFRDA.

Практическое применение структуры управления рисками в области передового искусственного интеллекта: анализ рисков Технический отчет
Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report

Jul 22