HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

19 papers found

Абсолютный ноль: Усиленный самообучающийся процесс рассуждений без использования данных
Absolute Zero: Reinforced Self-play Reasoning with Zero Data

May 6

ByAndrew Zhao, Yiran Wu, Yang Yue, Tong Wu, Quentin Xu, Yang Yue, Matthieu Lin, Shenzhi Wang, Qingyun Wu, Zilong Zheng, Gao Huang

185

Обучение с подкреплением с верифицируемыми наградами (RLVR) продемонстрировало потенциал в улучшении способностей крупных языковых моделей к рассуждению за счет обучения на основе наград, связанных с результатами. Недавние работы по RLVR, работающие в условиях нулевого надзора, избегают контроля за процессом маркировки рассуждений, но все же зависят от вручную подготовленных наборов вопросов и ответов для обучения. Недостаток высококачественных примеров, созданных человеком, вызывает опасения относительно долгосрочной масштабируемости зависимости от человеческого надзора, что уже заметно в области предварительного обучения языковых моделей. Более того, в гипотетическом будущем, где ИИ превзойдет человеческий интеллект, задачи, предоставляемые людьми, могут предложить ограниченный потенциал для обучения сверхразумной системы. Чтобы решить эти проблемы, мы предлагаем новую парадигму RLVR под названием Absolute Zero, в которой одна модель учится предлагать задачи, которые максимизируют ее собственный прогресс в обучении, и улучшает рассуждения, решая их, не полагаясь на внешние данные. В рамках этой парадигмы мы представляем Absolute Zero Reasoner (AZR) — систему, которая самостоятельно развивает свою учебную программу и способность к рассуждению, используя исполнитель кода как для проверки предложенных задач на рассуждение, так и для верификации ответов, выступая в качестве единого источника верифицируемых наград для руководства открытым, но обоснованным обучением. Несмотря на то, что AZR обучается полностью без внешних данных, она достигает наилучших результатов на задачах по программированию и математическому рассуждению, превосходя существующие модели в условиях нулевого надзора, которые полагаются на десятки тысяч примеров, подготовленных человеком в соответствующей области. Кроме того, мы показываем, что AZR может эффективно применяться на различных масштабах моделей и совместима с различными классами моделей.

Унифицированная мультимодальная модель вознаграждения с цепочкой рассуждений через тонкую настройку с подкреплением
Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning

May 6

ByYibin Wang, Zhimin Li, Yuhang Zang, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang

Последние достижения в области мультимодальных моделей вознаграждения (Reward Models, RMs) показали значительный потенциал в предоставлении сигналов вознаграждения для согласования визуальных моделей с человеческими предпочтениями. Однако современные RMs, как правило, ограничены предоставлением прямых ответов или участием в поверхностных процессах рассуждений с ограниченной глубиной, что часто приводит к неточным сигналам вознаграждения. Мы предполагаем, что включение явных длинных цепочек рассуждений (Chain of Thought, CoT) в процесс оценки вознаграждения может значительно повысить их надежность и устойчивость. Более того, мы считаем, что как только RMs усвоят CoT-рассуждения, точность их прямых ответов также может быть улучшена за счет неявных способностей к рассуждению. В связи с этим данная работа предлагает UnifiedReward-Think — первую унифицированную мультимодальную модель вознаграждения на основе CoT, способную к многомерным, пошаговым длинным цепочкам рассуждений как для задач визуального понимания, так и для задач генерации вознаграждения. В частности, мы применяем подход тонкой настройки с подкреплением, основанный на исследовании, чтобы выявить и стимулировать скрытую способность модели к сложным рассуждениям: (1) Сначала мы используем небольшое количество данных о предпочтениях генерации изображений для дистилляции процесса рассуждений GPT-4o, который затем используется для "холодного старта" модели, чтобы она изучила формат и структуру CoT-рассуждений. (2) Затем, используя априорные знания и обобщающие способности модели, мы подготавливаем крупномасштабные унифицированные мультимодальные данные о предпочтениях, чтобы выявить процесс рассуждений модели в различных визуальных задачах. На этом этапе корректные результаты рассуждений сохраняются для отбора с отклонением (rejection sampling) с целью улучшения модели, (3) в то время как некорректные предсказанные образцы в конечном итоге используются для тонкой настройки с подкреплением на основе Group Relative Policy Optimization (GRPO), что позволяет модели исследовать разнообразные пути рассуждений и оптимизировать их для получения корректных и устойчивых решений. Многочисленные эксперименты на различных задачах визуального вознаграждения демонстрируют превосходство нашей модели.

RADLADS: Быстрое дистиллирование внимания в линейные декодеры внимания в масштабе
RADLADS: Rapid Attention Distillation to Linear Attention Decoders at Scale

May 5

ByDaniel Goldstein, Eric Alcaide, Janna Lu, Eugene Cheah

Мы представляем Rapid Attention Distillation to Linear Attention Decoders at Scale (RADLADS) — протокол для быстрого преобразования трансформеров с softmax-вниманием в модели декодеров с линейным вниманием, а также две новые архитектуры на основе RWKV и модели, преобразованные из популярных открытых моделей Qwen2.5 размером 7B, 32B и 72B. Наш процесс преобразования требует всего 350–700 миллионов токенов, что составляет менее 0,005% от количества токенов, использованных для обучения исходных моделей-учителей. Преобразование в нашу 72B-модель с линейным вниманием обходится менее чем в 2000 долларов США по текущим ценам, при этом качество на этапе вывода остается близким к исходному трансформеру. Эти модели демонстрируют передовые результаты на наборе стандартных бенчмарков для моделей с линейным вниманием соответствующего размера. Мы публикуем все наши модели на HuggingFace под лицензией Apache 2.0, за исключением моделей размером 72B, которые также регулируются Лицензионным соглашением Qwen. Модели доступны по адресу: https://huggingface.co/collections/recursal/radlads-6818ee69e99e729ba8a87102 Код для обучения: https://github.com/recursal/RADLADS-paper

FlexiAct: в направлении гибкого управления действиями в гетерогенных сценариях
FlexiAct: Towards Flexible Action Control in Heterogeneous Scenarios

May 6

ByShiyi Zhang, Junhao Zhuang, Zhaoyang Zhang, Ying Shan, Yansong Tang

Настройка действий предполагает создание видео, в которых объект выполняет действия, заданные входными управляющими сигналами. Современные методы используют настройку на основе поз или глобального движения, но ограничены строгими требованиями к пространственной структуре, такими как компоновка, скелет и согласованность точки зрения, что снижает адаптивность для различных объектов и сценариев. Чтобы преодолеть эти ограничения, мы предлагаем FlexiAct, который переносит действия из эталонного видео на произвольное целевое изображение. В отличие от существующих методов, FlexiAct допускает вариации в компоновке, точке зрения и структуре скелета между объектом эталонного видео и целевым изображением, сохраняя при этом идентичность. Для достижения этого требуется точное управление действиями, адаптация пространственной структуры и сохранение согласованности. С этой целью мы представляем RefAdapter — легковесный адаптер, управляемый изображением, который превосходит существующие методы в балансировке согласованности внешнего вида и структурной гибкости. Кроме того, на основе наших наблюдений, процесс удаления шума демонстрирует различный уровень внимания к движению (низкая частота) и деталям внешнего вида (высокая частота) на разных временных шагах. Поэтому мы предлагаем FAE (Frequency-aware Action Extraction), который, в отличие от существующих методов, использующих раздельные пространственно-временные архитектуры, непосредственно извлекает действия в процессе удаления шума. Эксперименты показывают, что наш метод эффективно переносит действия на объекты с различной компоновкой, скелетом и точками зрения. Мы публикуем наш код и веса модели для поддержки дальнейших исследований на https://shiyi-zh0408.github.io/projectpages/FlexiAct/.

RetroInfer: Векторно-хранилищный подход для масштабируемого вывода в LLM с длинным контекстом
RetroInfer: A Vector-Storage Approach for Scalable Long-Context LLM Inference

May 5

ByYaoqi Chen, Jinkai Zhang, Baotong Lu, Qianxi Zhang, Chengruidong Zhang, Jingjia Luo, Di Liu, Huiqiang Jiang, Qi Chen, Jing Liu, Bailu Ding, Xiao Yan, Jiawei Jiang, Chen Chen, Mingxing Zhang, Yuqing Yang, Fan Yang, Mao Yang

Растущая длина контекста в крупных языковых моделях (LLM) создает значительные трудности для эффективного вывода, в основном из-за ограничений памяти GPU и пропускной способности. Мы представляем RetroInfer — новую систему, которая переосмысливает кэш ключ-значение (KV) как систему векторного хранения, использующую присущую разреженность внимания для ускорения вывода LLM с длинным контекстом. В ее основе лежит wave index — Attention-aWare VEctor индекс, который обеспечивает эффективное и точное извлечение критических токенов с помощью таких методов, как трипартитная аппроксимация внимания, оценка внимания с ограниченной точностью и сегментированная кластеризация. Это дополняется wave buffer, который координирует размещение кэша KV и перекрывает вычисления и передачу данных между GPU и CPU для поддержания высокой пропускной способности. В отличие от предыдущих методов, основанных на разреженности, которые сталкиваются с проблемами выбора токенов и координации оборудования, RetroInfer обеспечивает стабильную производительность без ущерба для точности модели. Эксперименты на бенчмарках с длинным контекстом показывают ускорение до 4,5 раз по сравнению с полным вниманием в пределах памяти GPU и до 10,5 раз по сравнению с базовыми методами разреженного внимания, когда кэш KV расширяется до памяти CPU, при этом сохраняя точность на уровне полного внимания.

Эмпирическое исследование квантования Qwen3
An Empirical Study of Qwen3 Quantization

May 4

ByXingyu Zheng, Yuye Li, Haoran Chu, Yue Feng, Xudong Ma, Jie Luo, Jinyang Guo, Haotong Qin, Michele Magno, Xianglong Liu

Серия моделей Qwen стала ведущим семейством открытых больших языковых моделей (LLM), демонстрируя выдающиеся способности в задачах понимания естественного языка. С недавним выпуском Qwen3, который показывает превосходную производительность на различных бенчмарках, растет интерес к эффективному развертыванию этих моделей в условиях ограниченных ресурсов. Низкобитная квантизация представляет собой перспективное решение, однако ее влияние на производительность Qwen3 остается недостаточно изученным. В данном исследовании проводится систематическая оценка устойчивости Qwen3 при различных настройках квантизации с целью выявления как возможностей, так и проблем при сжатии этой передовой модели. Мы тщательно оцениваем 5 существующих классических методов посттренировочной квантизации, примененных к Qwen3, охватывая битовые диапазоны от 1 до 8 бит, и оцениваем их эффективность на множестве наборов данных. Наши результаты показывают, что хотя Qwen3 сохраняет конкурентоспособную производительность при умеренных битовых диапазонах, она испытывает значительное ухудшение в лингвистических задачах при сверхнизкой точности, что подчеркивает сохраняющиеся трудности в сжатии LLM. Эти результаты подчеркивают необходимость дальнейших исследований для снижения потери производительности в экстремальных сценариях квантизации. Мы ожидаем, что этот эмпирический анализ предоставит практические рекомендации для разработки методов квантизации, адаптированных для Qwen3 и будущих LLM, что в конечном итоге повысит их практичность без ущерба для точности. Наш проект доступен по адресам https://github.com/Efficient-ML/Qwen3-Quantization и https://huggingface.co/collections/Efficient-ML/qwen3-quantization-68164450decb1c868788cb2b.

Многоагентная система для всестороннего анализа футбола
Multi-Agent System for Comprehensive Soccer Understanding

May 6

ByJiayuan Rao, Zifeng Li, Haoning Wu, Ya Zhang, Yanfeng Wang, Weidi Xie

Последние достижения в области понимания футбола с использованием ИИ демонстрируют быстрый прогресс, однако существующие исследования в основном сосредоточены на изолированных или узких задачах. Чтобы устранить этот пробел, мы предлагаем комплексную структуру для целостного понимания футбола. В частности, в данной статье мы делаем следующие вклады: (i) мы создаем SoccerWiki, первую крупномасштабную мультимодальную базу знаний о футболе, интегрирующую богатые знания о игроках, командах, судьях и аренах для обеспечения рассуждений на основе знаний; (ii) мы представляем SoccerBench, самый крупный и всеобъемлющий футбольный бенчмарк, содержащий около 10 тысяч стандартизированных мультимодальных (текст, изображение, видео) вопросов с множественным выбором, охватывающих 13 различных задач понимания, созданных с использованием автоматизированных процессов и ручной проверки; (iii) мы представляем SoccerAgent, новую мультиагентную систему, которая разбивает сложные футбольные вопросы с помощью совместного рассуждения, используя экспертные знания из SoccerWiki и достигая высокой производительности; (iv) обширные оценки и абляции, которые сравнивают современные MLLM на SoccerBench, подчеркивая превосходство нашей предложенной агентной системы. Все данные и код доступны по адресу: https://jyrao.github.io/SoccerAgent/.

Расшифровка целей поиска информации открытого типа на основе движений глаз при чтении
Decoding Open-Ended Information Seeking Goals from Eye Movements in Reading

May 4

ByCfir Avraham Hadar, Omer Shubi, Yoav Meiri, Yevgeni Berzak

При чтении мы часто ищем в тексте конкретную информацию, которая нас интересует. Например, вы можете читать эту статью, потому что вам любопытны большие языковые модели (LLM) в контексте движений глаз при чтении, экспериментальный дизайн или, возможно, вас волнует только вопрос «но работает ли это?». В более широком смысле, в повседневной жизни люди подходят к текстам с различными целями, которые определяют их поведение при чтении. В данной работе мы впервые задаемся вопросом, можно ли автоматически декодировать открытые цели чтения на основе движений глаз. Чтобы ответить на этот вопрос, мы вводим задачи классификации и реконструкции целей, а также соответствующие оценочные рамки, и используем масштабные данные отслеживания движений глаз при чтении на английском языке с сотнями задач поиска текстовой информации. Мы разрабатываем и сравниваем несколько дискриминативных и генеративных мультимодальных LLM, которые объединяют движения глаз и текст для классификации и реконструкции целей. Наши эксперименты показывают значительный успех в обеих задачах, что свидетельствует о том, что LLM могут извлекать ценную информацию о текстовых целях читателей на основе их движений глаз.

HoloTime: Управление моделями диффузии видео для генерации панорамных 4D-сцен
HoloTime: Taming Video Diffusion Models for Panoramic 4D Scene Generation

Apr 30

ByHaiyang Zhou, Wangbo Yu, Jiawen Guan, Xinhua Cheng, Yonghong Tian, Li Yuan

Быстрое развитие диффузионных моделей обещает революционизировать применение технологий виртуальной (VR) и дополненной (AR) реальности, которые обычно требуют сценовых 4D-активов для обеспечения пользовательского опыта. Тем не менее, существующие диффузионные модели в основном сосредоточены на моделировании статических 3D-сцен или динамики на уровне объектов, что ограничивает их способность предоставлять по-настоящему иммерсивные впечатления. Для решения этой проблемы мы предлагаем HoloTime — фреймворк, который интегрирует видео-диффузионные модели для генерации панорамных видео из одного текстового запроса или эталонного изображения, а также метод реконструкции 360-градусных 4D-сцен, который плавно преобразует сгенерированные панорамные видео в 4D-активы, обеспечивая полностью иммерсивный 4D-опыт для пользователей. В частности, для адаптации видео-дифузионных моделей к генерации высококачественных панорамных видео мы представляем 360World — первый всеобъемлющий набор панорамных видео, подходящих для задач реконструкции 4D-сцен. Используя этот тщательно отобранный набор данных, мы предлагаем Panoramic Animator — двухэтапную диффузионную модель "изображение-в-видео", которая может преобразовывать панорамные изображения в высококачественные панорамные видео. Затем мы представляем Panoramic Space-Time Reconstruction, который использует метод оценки глубины в пространстве-времени для преобразования сгенерированных панорамных видео в 4D-облака точек, что позволяет оптимизировать целостное представление 4D Gaussian Splatting для реконструкции пространственно и временно согласованных 4D-сцен. Для проверки эффективности нашего метода мы провели сравнительный анализ с существующими подходами, который показал его превосходство как в генерации панорамных видео, так и в реконструкции 4D-сцен. Это демонстрирует способность нашего метода создавать более увлекательные и реалистичные иммерсивные среды, тем самым улучшая пользовательский опыт в приложениях VR и AR.

SWE-smith: Масштабирование данных для агентов в области разработки программного обеспечения
SWE-smith: Scaling Data for Software Engineering Agents

Apr 30

ByJohn Yang, Kilian Leret, Carlos E. Jimenez, Alexander Wettig, Kabir Khandpur, Yanzhe Zhang, Binyuan Hui, Ofir Press, Ludwig Schmidt, Diyi Yang

Несмотря на недавние успехи в области языковых моделей (Language Models, LMs) для разработки программного обеспечения, сбор обучающих данных остается серьезной проблемой. Существующие наборы данных малы, содержат не более нескольких тысяч обучающих примеров из 11 или менее репозиториев GitHub. Процедуры подготовки таких наборов данных часто сложны и требуют сотен часов человеческого труда; сопутствующие среды выполнения также занимают несколько терабайт памяти, что серьезно ограничивает их масштабируемость и удобство использования. Чтобы решить эту проблему, мы представляем SWE-smith — новый подход для генерации обучающих данных для разработки ПО в больших масштабах. Для любого кодового проекта на Python SWE-smith создает соответствующую среду выполнения, а затем автоматически синтезирует от сотен до тысяч задач, которые нарушают существующие тесты в кодовой базе. С помощью SWE-smith мы создали набор данных из 50 тысяч примеров, полученных из 128 репозиториев GitHub, что на порядок больше, чем во всех предыдущих работах. Мы обучили модель SWE-agent-LM-32B, достигнув показателя 40,2% Pass@1 на бенчмарке SWE-bench Verified, что является лучшим результатом среди моделей с открытым исходным кодом. Мы открываем исходный код SWE-smith (процедуры сбора, задачи, траектории, модели), чтобы снизить барьер для исследований в области систем языковых моделей для автоматизированной разработки ПО. Все материалы доступны по адресу https://swesmith.com.

VITA-Audio: Быстрое чередующееся кросс-модальное генерация токенов для эффективных крупных речевых языковых моделей
VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large Speech-Language Model

May 6

ByZuwei Long, Yunhang Shen, Chaoyou Fu, Heting Gao, Lijiang Li, Peixian Chen, Mengdan Zhang, Hang Shao, Jian Li, Jinlong Peng, Haoyu Cao, Ke Li, Rongrong Ji, Xing Sun

С растущими требованиями к естественному взаимодействию человека с компьютером, речевые системы привлекают все больше внимания, поскольку речь является одной из наиболее распространенных форм повседневного общения. Однако существующие речевые модели по-прежнему сталкиваются с высокой задержкой при генерации первого аудиотокена в потоковом режиме, что создает значительное препятствие для их внедрения. Для решения этой проблемы мы предлагаем VITA-Audio — крупную сквозную речевую модель с быстрой генерацией аудио-текстовых токенов. В частности, мы представляем легковесный модуль Multiple Cross-modal Token Prediction (MCTP), который эффективно генерирует несколько аудиотокенов за один прямой проход модели, что не только ускоряет вывод, но и значительно сокращает задержку при генерации первого аудио в потоковых сценариях. Кроме того, исследуется четырехэтапная прогрессивная стратегия обучения для ускорения модели с минимальной потерей качества речи. Насколько нам известно, VITA-Audio является первой многомодальной крупной языковой моделью, способной генерировать аудиовыход уже при первом прямом проходе, что обеспечивает возможности для реального времени с минимальной задержкой. VITA-Audio полностью воспроизводима и обучается исключительно на открытых данных. Экспериментальные результаты показывают, что наша модель достигает ускорения вывода в 3–5 раз при масштабе в 7 миллиардов параметров, а также значительно превосходит открытые модели аналогичного размера на нескольких тестах для задач автоматического распознавания речи (ASR), синтеза речи (TTS) и ответов на устные вопросы (SQA).

Геопространственная механистическая интерпретируемость больших языковых моделей
Geospatial Mechanistic Interpretability of Large Language Models

May 6

ByStef De Sabbata, Stefano Mizzaro, Kevin Roitero

Крупные языковые модели (LLM) продемонстрировали беспрецедентные возможности в различных задачах обработки естественного языка. Их способность обрабатывать и генерировать осмысленный текст и код сделала их повсеместно используемыми во многих областях, в то время как их применение в качестве баз знаний и инструментов "рассуждения" остается областью активных исследований. В географии растущий объем литературы сосредоточен на оценке географических знаний LLM и их способности выполнять пространственные рассуждения. Однако до сих пор мало что известно о внутреннем функционировании этих моделей, особенно о том, как они обрабатывают географическую информацию. В этой главе мы предлагаем новый подход к изучению геопространственной механистической интерпретируемости — использование пространственного анализа для обратного проектирования того, как LLM обрабатывают географическую информацию. Наша цель — углубить понимание внутренних представлений, которые эти сложные модели генерируют при обработке географической информации, — то, что можно было бы назвать "как LLM думают о географической информации", если бы такая формулировка не была излишним антропоморфизмом. Сначала мы описываем использование зондирования для выявления внутренних структур в LLM. Затем мы знакомим с областью механистической интерпретируемости, обсуждая гипотезу суперпозиции и роль разреженных автокодировщиков в разделении полисемантических внутренних представлений LLM на более интерпретируемые моносемантические признаки. В наших экспериментах мы используем пространственную автокорреляцию, чтобы показать, как признаки, полученные для названий мест, демонстрируют пространственные закономерности, связанные с их географическим положением, и, таким образом, могут быть интерпретированы геопространственно, что дает представление о том, как эти модели обрабатывают географическую информацию. В заключение мы обсуждаем, как наш подход может способствовать изучению и использованию базовых моделей в географии.

Какой агент вызывает сбои задач и когда? Об автоматизированном определении причин сбоев в мультиагентных системах с использованием языковых моделей
Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems

Apr 30

ByShaokun Zhang, Ming Yin, Jieyu Zhang, Jiale Liu, Zhiguang Han, Jingyang Zhang, Beibin Li, Chi Wang, Huazheng Wang, Yiran Chen, Qingyun Wu

Определение причин сбоев в мультиагентных системах с использованием больших языковых моделей (LLM) — выявление агента и этапа, ответственных за неудачи в выполнении задач, — предоставляет важные подсказки для отладки систем, однако эта область остается недостаточно изученной и трудоемкой. В данной статье мы предлагаем и формулируем новую область исследований: автоматизированное определение причин сбоев в мультиагентных системах с LLM. Для поддержки этой инициативы мы представляем набор данных Who&When, содержащий обширные журналы сбоев из 127 мультиагентных систем с LLM, снабженные детализированными аннотациями, связывающими сбои с конкретными агентами и ключевыми ошибочными шагами. Используя Who&When, мы разрабатываем и оцениваем три метода автоматизированного определения причин сбоев, обобщая их преимущества и недостатки. Лучший метод достигает точности 53,5% в идентификации агентов, ответственных за сбои, но только 14,2% в определении ошибочных шагов, при этом некоторые методы показывают результаты ниже случайных. Даже передовые модели рассуждений, такие как OpenAI o1 и DeepSeek R1, не достигают практической применимости. Эти результаты подчеркивают сложность задачи и необходимость дальнейших исследований в этой области. Код и набор данных доступны по адресу https://github.com/mingyin1/Agents_Failure_Attribution.

Scenethesis: Агентная структура для генерации 3D-сцен на основе языка и зрения
Scenethesis: A Language and Vision Agentic Framework for 3D Scene Generation

May 5

ByLu Ling, Chen-Hsuan Lin, Tsung-Yi Lin, Yifan Ding, Yu Zeng, Yichen Sheng, Yunhao Ge, Ming-Yu Liu, Aniket Bera, Zhaoshuo Li

Синтез интерактивных 3D-сцен из текста имеет ключевое значение для игр, виртуальной реальности и воплощённого ИИ. Однако существующие методы сталкиваются с рядом проблем. Обучение на основе данных ограничивается небольшими наборами данных для помещений, что снижает разнообразие сцен и сложность их компоновки. Хотя крупные языковые модели (LLM) могут использовать обширные знания из текстовой области, они испытывают трудности с пространственной реалистичностью, часто создавая неестественные размещения объектов, которые не соответствуют здравому смыслу. Наше ключевое наблюдение заключается в том, что визуальное восприятие может устранить этот разрыв, предоставляя реалистичные пространственные ориентиры, которых не хватает LLM. С этой целью мы представляем Scenethesis — автономный фреймворк, не требующий обучения, который объединяет планирование сцен на основе LLM с уточнением компоновки с помощью визуального модуля. Получив текстовый запрос, Scenethesis сначала использует LLM для создания черновой компоновки. Затем визуальный модуль уточняет её, генерируя изображение-ориентир и извлекая структуру сцены для улавливания взаимосвязей между объектами. Далее оптимизационный модуль итеративно обеспечивает точное выравнивание поз и физическую правдоподобность, предотвращая артефакты, такие как пересечение объектов и неустойчивость. Наконец, модуль проверки подтверждает пространственную согласованность. Комплексные эксперименты показывают, что Scenethesis создаёт разнообразные, реалистичные и физически правдоподобные интерактивные 3D-сцены, что делает его ценным инструментом для создания виртуального контента, симуляционных сред и исследований в области воплощённого ИИ.

InfoVids: Переосмысление опыта зрителя через альтернативные отношения между визуализацией и ведущим
InfoVids: Reimagining the Viewer Experience with Alternative Visualization-Presenter Relationships

May 6

ByJi Won Chung, Tongyu Zhou, Ivy Chen, Kevin Hsu, Ryan A. Rossi, Alexa Siu, Shunan Guo, Franck Dernoncourt, James Tompkin, Jeff Huang

Традиционные способы представления данных обычно разделяют докладчика и визуализацию на два отдельных пространства — трехмерный мир и двумерный экран, что способствует созданию историй, сосредоточенных на визуализации. Чтобы обеспечить более ориентированный на человека опыт восприятия, мы устанавливаем более равноправные отношения между визуализацией и докладчиком с помощью наших InfoVids. Эти информационные видео, вдохновленные инфографикой, созданы для переосмысления взаимодействия между докладчиком и визуализациями. В процессе разработки InfoVids мы исследуем, как использование компоновки, формы и интерактивности влияет на восприятие зрителей. Мы сравниваем InfoVids с их базовыми двумерными аналогами в формате «слайдов» по 9 метрикам с участием 30 человек и предоставляем практические, долгосрочные инсайты с автобиографической точки зрения. Наш смешанный метод анализа показывает, что этот подход уменьшает рассеивание внимания зрителей, смещает фокус с визуализации на докладчика и способствует более интерактивным, естественным и увлекательным полноценным выступлениям с данными. В конечном итоге, InfoVids помогли зрителям переосмыслить традиционную динамику между докладчиком и визуализациями.

Обучение моделей пониманию (но не генерации) данных с высоким уровнем риска
Teaching Models to Understand (but not Generate) High-risk Data

May 5

ByRyan Wang, Matthew Finlayson, Luca Soldaini, Swabha Swayamdipta, Robin Jia

Разработчики языковых моделей обычно фильтруют высокорисковый контент — например, токсичные или защищенные авторским правом тексты — из своих данных предварительного обучения, чтобы предотвратить генерацию моделями подобных выходных данных. Однако полное удаление таких данных ограничивает способность моделей распознавать и адекватно реагировать на вредоносный или чувствительный контент. В данной статье мы представляем подход Selective Loss to Understand but Not Generate (SLUNG), парадигму предварительного обучения, с помощью которой модели учатся понимать высокорисковые данные, не обучаясь их генерировать. Вместо равномерного применения функции потерь для предсказания следующего токена SLUNG избирательно избегает стимулирования генерации высокорисковых токенов, при этом обеспечивая их присутствие в контекстном окне модели. Поскольку модель учится предсказывать низкорисковые токены, следующие за высокорисковыми, она вынуждена понимать высокорисковый контент. Наши эксперименты показывают, что SLUNG последовательно улучшает понимание моделями высокорисковых данных (например, способность распознавать токсичный контент) без увеличения их генерации (например, токсичности ответов модели). В целом, наша парадигма SLUNG позволяет моделям извлекать пользу из высокорисковых текстов, которые в противном случае были бы отфильтрованы.

Вызывайте интерфейсы только при необходимости: адаптивный вызов для крупных языковых моделей в задачах ответов на вопросы
Invoke Interfaces Only When Needed: Adaptive Invocation for Large Language Models in Question Answering

May 5

ByJihao Zhao, Chunlai Zhou, Biao Qin

Коллаборативная парадигма больших и малых языковых моделей (LM) эффективно балансирует производительность и затраты, однако ключевая проблема заключается в точном определении момента вызова, когда в малых LM возникают галлюцинации. Предыдущие усилия по оптимизации в основном сосредотачивались на постобработке, которая была отделена от процесса рассуждения LM, что приводило к высоким вычислительным затратам и ограниченной эффективности. В данной статье мы предлагаем практическую метрику оценки вызова под названием AttenHScore, которая вычисляет накопление и распространение галлюцинаций в процессе генерации малых LM, непрерывно усиливая потенциальные ошибки рассуждения. Динамически регулируя порог обнаружения, мы достигаем более точного вызова больших LM в реальном времени. Кроме того, учитывая ограниченные способности малых LM к рассуждению, мы используем реорганизацию знаний с учетом неопределенности, чтобы помочь им лучше улавливать ключевую информацию из различных текстовых фрагментов. Многочисленные эксперименты показывают, что наш AttenHScore превосходит большинство базовых методов в улучшении возможностей обнаружения галлюцинаций в реальном времени на множестве QA-датасетов, особенно при работе со сложными запросами. Более того, наши стратегии устраняют необходимость в дополнительном обучении моделей и демонстрируют гибкость в адаптации к различным трансформерным LM.

Auto-SLURP: Бенчмарк-набор данных для оценки многоагентных фреймворков в интеллектуальных персональных помощниках
Auto-SLURP: A Benchmark Dataset for Evaluating Multi-Agent Frameworks in Smart Personal Assistant

Apr 25

ByLei Shen, Xiaoyu Shen

В последние годы многоагентные системы, основанные на крупных языковых моделях (LLM), стрегительно развиваются. Несмотря на этот прогресс, до сих пор отсутствуют специализированные эталонные наборы данных, предназначенные для оценки их производительности. Чтобы устранить этот пробел, мы представляем Auto-SLURP — эталонный набор данных, разработанный для оценки многоагентных систем на основе LLM в контексте интеллектуальных персональных ассистентов. Auto-SLURP расширяет оригинальный набор данных SLURP, изначально созданный для задач понимания естественного языка, путем перемаркировки данных и интеграции симулированных серверов и внешних сервисов. Это улучшение позволяет реализовать комплексный сквозной процесс оценки, охватывающий понимание языка, выполнение задач и генерацию ответов. Наши эксперименты показывают, что Auto-SLURP представляет собой серьезный вызов для современных передовых систем, подчеркивая, что создание действительно надежных и интеллектуальных многоагентных персональных ассистентов остается задачей, требующей дальнейшей разработки. Набор данных и связанный код доступны по адресу https://github.com/lorashen/Auto-SLURP/.

Alpha Excel Benchmark
Alpha Excel Benchmark

May 7

ByDavid Noever, Forrest McKee

В данном исследовании представлен новый эталонный тест для оценки больших языковых моделей (LLM), основанный на задачах, взятых из соревнований Financial Modeling World Cup (FMWC) по работе с Excel. Мы предлагаем методологию преобразования 113 существующих задач FMWC в программно оцениваемые форматы JSON и используем этот набор данных для сравнения производительности нескольких ведущих LLM. Результаты показывают значительные различия в производительности в различных категориях задач: модели демонстрируют сильные стороны в задачах распознавания паттернов, но испытывают трудности со сложными численными рассуждениями. Этот эталонный тест предоставляет стандартизированную основу для оценки возможностей LLM в реалистичных бизнес-ориентированных задачах, а не в абстрактных академических проблемах. Исследование вносит вклад в развивающуюся область тестирования ИИ, устанавливая уровень владения Microsoft Excel среди 1,5 миллиарда пользователей как значимый критерий оценки, который связывает академические тесты ИИ с практическими бизнес-приложениями.