HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

35 papers found

MultiFinBen: Многоязычный, мультимодальный и учитывающий сложность эталонный тест для оценки финансовых языковых моделей
MultiFinBen: A Multilingual, Multimodal, and Difficulty-Aware Benchmark for Financial LLM Evaluation

Jun 16

ByXueqing Peng, Lingfei Qian, Yan Wang, Ruoyu Xiang, Yueru He, Yang Ren, Mingyang Jiang, Jeff Zhao, Huan He, Yi Han, Yun Feng, Yuechen Jiang, Yupeng Cao, Haohang Li, Yangyang Yu, Xiaoyu Wang, Penglei Gao, Shengyuan Lin, Keyi Wang, Shanshan Yang, Yilun Zhao, Zhiwei Liu, Peng Lu, Jerry Huang, Suyuchen Wang, Triantafillos Papadopoulos, Polydoros Giannouris, Efstathia Soufleri, Nuo Chen, Guojun Xiong, Zhiyang Deng, Yijia Zhao, Mingquan Lin, Meikang Qiu, Kaleb E Smith, Arman Cohan, Xiao-Yang Liu, Jimin Huang, Alejandro Lopez-Lira, Xi Chen, Junichi Tsujii, Jian-Yun Nie, Sophia Ananiadou, Qianqian Xie

Последние достижения в области больших языковых моделей (LLM) ускорили прогресс в финансовой обработке естественного языка (NLP) и приложениях, однако существующие бенчмарки остаются ограниченными одноязычными и одномодальными настройками, часто чрезмерно полагаясь на простые задачи и не отражая сложности реальной финансовой коммуникации. Мы представляем MultiFinBen, первый многоязычный и мультимодальный бенчмарк, адаптированный для глобальной финансовой сферы, который оценивает LLM по различным модальностям (текст, визуальные данные, аудио) и языковым настройкам (одноязычные, двуязычные, многоязычные) на задачах, специфичных для домена. Мы вводим две новые задачи: PolyFiQA-Easy и PolyFiQA-Expert — первые многоязычные финансовые бенчмарки, требующие от моделей выполнения сложных рассуждений на основе смешанных языковых входных данных; а также EnglishOCR и SpanishOCR — первые задачи финансового вопросно-ответного взаимодействия с встроенным OCR, которые проверяют способность моделей извлекать и анализировать информацию из визуально-текстовых финансовых документов. Кроме того, мы предлагаем динамический механизм выбора с учетом сложности и создаем компактный, сбалансированный бенчмарк, а не просто агрегируем существующие наборы данных. Обширная оценка 22 современных моделей показывает, что даже самые мощные модели, несмотря на их общие мультимодальные и многоязычные возможности, испытывают значительные трудности при выполнении сложных кросс-лингвистических и мультимодальных задач в финансовой сфере. MultiFinBen публично доступен для содействия прозрачному, воспроизводимому и инклюзивному прогрессу в финансовых исследованиях и приложениях.

Масштабирование вычислительных ресурсов на этапе тестирования для агентов на основе больших языковых моделей
Scaling Test-time Compute for LLM Agents

Jun 15

ByKing Zhu, Hanhao Li, Siwei Wu, Tianshun Xing, Dehua Ma, Xiangru Tang, Minghao Liu, Jian Yang, Jiaheng Liu, Yuchen Eleanor Jiang, Changwang Zhang, Chenghua Lin, Jun Wang, Ge Zhang, Wangchunshu Zhou

Масштабирование вычислительных ресурсов на этапе тестирования продемонстрировало впечатляющие успехи в улучшении способностей к рассуждению у крупных языковых моделей (LLM). В данной работе мы проводим первое систематическое исследование применения методов масштабирования на этапе тестирования к языковым агентам и изучаем, в какой степени это повышает их эффективность. В частности, мы исследуем различные стратегии масштабирования на этапе тестирования, включая: (1) алгоритмы параллельной выборки; (2) стратегии последовательного пересмотра; (3) методы верификации и объединения результатов; (4) стратегии для увеличения разнообразия сценариев выполнения. Мы тщательно анализируем и оцениваем влияние различных стратегий проектирования на применение масштабирования на этапе тестирования к языковым агентам и получаем следующие выводы: 1. Масштабирование вычислительных ресурсов на этапе тестирования может улучшить производительность агентов. 2. Для агентов важно понимать, когда следует проводить рефлексию. 3. Среди различных подходов к верификации и объединению результатов метод, основанный на списках, показывает наилучшие результаты. 4. Увеличение разнообразия сценариев выполнения положительно влияет на выполнение задач агентом.

CMI-Bench: Комплексный бенчмарк для оценки следования музыкальным инструкциям
CMI-Bench: A Comprehensive Benchmark for Evaluating Music Instruction Following

Jun 14

ByYinghao Ma, Siyou Li, Juntao Yu, Emmanouil Benetos, Akira Maezawa

Последние достижения в области крупных языковых моделей (LLM), работающих с аудио и текстом, открыли новые возможности для понимания и генерации музыки. Однако существующие бенчмарки ограничены по охвату, часто полагаясь на упрощенные задачи или оценки с множественным выбором, которые не отражают сложность реального анализа музыки. Мы переосмысливаем широкий спектр традиционных аннотаций в области музыкального информационного поиска (MIR) в формате выполнения инструкций и представляем CMI-Bench — комплексный бенчмарк для выполнения музыкальных инструкций, предназначенный для оценки аудио-текстовых LLM на разнообразных задачах MIR. Эти задачи включают классификацию жанров, регрессию эмоций, тегирование эмоций, классификацию инструментов, оценку высоты тона, определение тональности, транскрипцию текста песен, извлечение мелодии, распознавание вокальных техник, обнаружение техник исполнения на инструментах, тегирование музыки, создание описаний музыки и отслеживание (долей) тактов: все это отражает ключевые вызовы в исследованиях MIR. В отличие от предыдущих бенчмарков, CMI-Bench использует стандартизированные метрики оценки, согласованные с предыдущими передовыми моделями MIR, что обеспечивает прямую сравнимость с контролируемыми подходами. Мы предоставляем набор инструментов для оценки, поддерживающий все открытые аудио-текстовые LLM, включая LTU, Qwen-audio, SALMONN, MusiLingo и другие. Результаты экспериментов выявляют значительные разрывы в производительности между LLM и контролируемыми моделями, а также их культурные, хронологические и гендерные предубеждения, подчеркивая потенциал и ограничения текущих моделей в решении задач MIR. CMI-Bench устанавливает единую основу для оценки выполнения музыкальных инструкций, способствуя прогрессу в LLM, ориентированных на музыку.

LongLLaDA: Раскрытие возможностей работы с длинным контекстом в диффузионных LLM
LongLLaDA: Unlocking Long Context Capabilities in Diffusion LLMs

Jun 17

ByXiaoran Liu, Zhigeng Liu, Zengfeng Huang, Qipeng Guo, Ziwei He, Xipeng Qiu

Модели языковой диффузии (Large Language Diffusion Models, или diffusion LLMs) стали важным направлением исследований в области обработки естественного языка (NLP), при этом значительные усилия направлены на изучение их масштабируемости и производительности на последующих задачах. Однако их способности к работе с длинным контекстом остаются неисследованными, отсутствуют систематический анализ или методы расширения контекста. В данной работе мы представляем первое систематическое исследование, сравнивающее производительность diffusion LLMs и традиционных авторегрессивных LLMs в задачах с длинным контекстом. Мы впервые выявляем уникальную особенность diffusion LLMs: в отличие от авторегрессивных LLMs, они демонстрируют удивительно \textit{стабильную перплексию} при прямом экстраполировании контекста. Более того, в то время как авторегрессивные модели полностью терпят неудачу в задаче "Иголка в стоге сена" при превышении длины предобученного контекста, мы обнаруживаем, что diffusion LLMs проявляют явление \textit{локального восприятия}, позволяющее успешно извлекать информацию из недавних сегментов контекста. Мы объясняем оба явления через теорию масштабирования Rotary Position Embedding (RoPE). На основе этих наблюдений мы предлагаем LongLLaDA — метод, не требующий дополнительного обучения, который интегрирует LLaDA с экстраполяцией RoPE на основе NTK. Наши результаты подтверждают, что установленные законы масштабирования экстраполяции остаются эффективными для расширения контекстных окон diffusion LLMs. Кроме того, мы выявляем задачи с длинным контекстом, в которых diffusion LLMs превосходят авторегрессивные LLMs, и задачи, в которых они уступают. Таким образом, данное исследование устанавливает первый метод экстраполяции контекста для diffusion LLMs, предоставляя важные теоретические инсайты и эмпирические бенчмарки, необходимые для продвижения будущих исследований в области diffusion LLMs с длинным контекстом.

Обучение с подкреплением с верифицируемыми наградами неявно стимулирует корректные рассуждения в базовых языковых моделях (LLM).
Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs

Jun 17

ByXumeng Wen, Zihan Liu, Shun Zheng, Zhijian Xu, Shengyu Ye, Zhirong Wu, Xiao Liang, Yang Wang, Junjie Li, Ziming Miao, Jiang Bian, Mao Yang

Обучение с подкреплением с верифицируемыми наградами (RLVR) стало перспективной парадигмой для улучшения способностей к рассуждению у крупных языковых моделей (LLM). Однако критический парадокс омрачает его эффективность: модели, настроенные с помощью RLVR, часто показывают худшие результаты по метрике Pass@K для поиска решений, что приводит к гипотезе, что RLVR лишь перераспределяет вес существующих путей рассуждения за счет их разнообразия. В данной работе мы разрешаем это противоречие, выявляя источник проблемы: сама метрика Pass@K является несовершенной мерой рассуждения, так как она засчитывает правильные конечные ответы, которые, вероятно, возникают из неточных или неполных цепочек рассуждений (CoT). Чтобы устранить это, мы вводим более точную метрику оценки, CoT-Pass@K, которая требует, чтобы как путь рассуждения, так и конечный ответ были правильными. Мы предлагаем новую теоретическую основу, формализующую, как RLVR, в отличие от традиционного обучения с подкреплением, уникально структурирован для стимулирования логической целостности. Наши эмпирические результаты подтверждают это: используя CoT-Pass@K, мы наблюдаем, что RLVR может стимулировать обобщение правильных рассуждений для всех значений K. Более того, анализируя динамику обучения, мы обнаруживаем, что эта улучшенная способность к рассуждению проявляется на ранних этапах процесса обучения и плавно обобщается. Наша работа дает четкое представление о роли RLVR, предлагает более надежный метод его оценки и подтверждает его потенциал для подлинного прогресса в машинном рассуждении.

Xolver: Многоагентное рассуждение с целостным обучением на опыте, как в команде олимпиадников
Xolver: Multi-Agent Reasoning with Holistic Experience Learning Just Like an Olympiad Team

Jun 17

ByMd Tanzib Hosain, Salman Rahman, Md Kishor Morol, Md Rizwan Parvez

Несмотря на впечатляющий прогресс в области сложных рассуждений, современные крупные языковые модели (LLM) обычно работают изолированно — рассматривая каждую задачу как независимую попытку, без накопления или интеграции опыта. В отличие от них, эксперты в решении задач — такие как команды олимпиад или программистских соревнований — используют богатый опыт: они перенимают наставления тренеров, развивают интуицию на основе прошлых задач, применяют знания о использовании инструментов и функциональности библиотек, адаптируют стратегии, основываясь на опыте и знаниях коллег, непрерывно совершенствуют свои рассуждения через проб и ошибки, а также учатся на других связанных задачах даже во время соревнований. Мы представляем Xolver — бесплатную мультиагентную систему рассуждений, которая оснащает черный ящик LLM постоянной, развивающейся памятью о целостном опыте. Xolver интегрирует различные модальности опыта, включая внешний и самостоятельный поиск, использование инструментов, совместные взаимодействия, оценку, проводимую агентами, и итеративное уточнение. Учась на соответствующих стратегиях, фрагментах кода и абстрактных шаблонах рассуждений во время вывода, Xolver избегает генерации решений с нуля — что знаменует переход от изолированного вывода к языковым агентам, учитывающим опыт. Построенный как на открытых, так и на проприетарных моделях, Xolver стабильно превосходит специализированные системы рассуждений. Даже с легковесными базовыми моделями (например, QWQ-32B) он часто опережает продвинутые модели, включая Qwen3-235B, Gemini 2.5 Pro, o3 и o4-mini-high. С o3-mini-high он достигает новых лучших результатов на GSM8K (98,1%), AIME'24 (94,4%), AIME'25 (93,7%), Math-500 (99,8%) и LiveCodeBench-V5 (91,6%) — подчеркивая, что обучение на целостном опыте является ключевым шагом к созданию универсальных агентов, способных на экспертный уровень рассуждений. Код и данные доступны по адресу https://kagnlp.github.io/xolver.github.io/.

Эффективное медицинское виртуальное интерактивное окружение с использованием обучения с подкреплением
Efficient Medical VIE via Reinforcement Learning

Jun 16

ByLijun Liu, Ruiyang Li, Zhaocheng Liu, Chenglin Zhu, Chong Li, Jiehan Cheng, Qiang Ju, Jian Xie

Извлечение визуальной информации (Visual Information Extraction, VIE) преобразует неструктурированные изображения документов в структурированные форматы, такие как JSON, что критически важно для медицинских приложений, таких как анализ отчетов и онлайн-консультации. Традиционные методы полагаются на OCR и языковые модели, тогда как сквозные мультимодальные модели предлагают прямое генерирование JSON. Однако доменно-специфичные схемы и высокие затраты на аннотирование ограничивают их эффективность в медицинском VIE. Мы основываем наш подход на фреймворке Reinforcement Learning with Verifiable Rewards (RLVR) для решения этих проблем, используя всего 100 аннотированных образцов. Наш подход обеспечивает разнообразие набора данных, сбалансированный механизм вознаграждения для точности и полноты, чтобы уменьшить галлюцинации и улучшить охват полей, а также инновационные стратегии выборки для повышения способностей к рассуждению. Тонкая настройка модели Qwen2.5-VL-7B с использованием нашего метода RLVR позволяет достичь передовых результатов в задачах медицинского VIE, значительно улучшая показатели F1, точности и полноты. Хотя наши модели превосходно справляются с задачами, схожими с медицинскими наборами данных, их производительность снижается на несхожих задачах, что подчеркивает необходимость доменно-специфичной оптимизации. Кейс-стади дополнительно демонстрируют ценность рассуждений во время обучения и вывода для VIE.

Рассуждения с исследованием: перспектива энтропии
Reasoning with Exploration: An Entropy Perspective

Jun 17

ByDaixuan Cheng, Shaohan Huang, Xuekai Zhu, Bo Dai, Wayne Xin Zhao, Zhenliang Zhang, Furu Wei

Баланс между исследованием и эксплуатацией является ключевой задачей в обучении с подкреплением (RL). Несмотря на недавние успехи в улучшении рассуждений языковых моделей (LM), большинство методов склоняются к эксплуатации и всё чаще сталкиваются с плато в производительности. В данной работе мы возвращаемся к энтропии — сигналу исследования в RL — и исследуем её связь с исследовательскими рассуждениями в LM. Эмпирический анализ выявляет сильные положительные корреляции между областями с высокой энтропией и тремя типами исследовательских действий в рассуждениях: (1) ключевые токены, определяющие или связывающие логические шаги, (2) рефлексивные действия, такие как самопроверка и исправление, и (3) редкие поведения, недостаточно изученные базовыми LM. Вдохновлённые этим, мы предлагаем минимальную модификацию стандартного RL, состоящую всего из одной строки кода: дополнение функции преимущества термином, основанным на энтропии. В отличие от традиционных методов максимизации энтропии, которые поощряют исследование через увеличение неопределённости, мы стимулируем исследование, способствуя более длинным и глубоким цепочкам рассуждений. Примечательно, что наш метод демонстрирует значительный прогресс в метрике Pass@K — верхней оценке способностей LM к рассуждениям — даже при оценке с чрезвычайно большими значениями K, расширяя границы возможностей LM в рассуждениях.

V-JEPA 2: Самообучаемые видеомодели для понимания, прогнозирования и планирования
V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning

Jun 11

ByMido Assran, Adrien Bardes, David Fan, Quentin Garrido, Russell Howes, Mojtaba, Komeili, Matthew Muckley, Ammar Rizvi, Claire Roberts, Koustuv Sinha, Artem Zholus, Sergio Arnaud, Abha Gejji, Ada Martin, Francois Robert Hogan, Daniel Dugas, Piotr Bojanowski, Vasil Khalidov, Patrick Labatut, Francisco Massa, Marc Szafraniec, Kapil Krishnakumar, Yong Li, Xiaodong Ma, Sarath Chandar, Franziska Meier, Yann LeCun, Michael Rabbat, Nicolas Ballas

Одной из ключевых задач современного ИИ является обучение пониманию мира и способности действовать преимущественно через наблюдение. В данной работе исследуется подход с самообучением, который сочетает данные интернет-видео в масштабе сети с небольшим объемом данных взаимодействия (траектории роботов) для разработки моделей, способных понимать, предсказывать и планировать в физическом мире. Сначала мы предварительно обучаем архитектуру совместного предсказания вложений без действий, V-JEPA 2, на наборе данных видео и изображений, включающем более 1 миллиона часов интернет-видео. V-JEPA 2 демонстрирует высокую производительность в понимании движения (77,3% точности top-1 на наборе Something-Something v2) и достигает передовых результатов в предсказании человеческих действий (39,7% recall-at-5 на Epic-Kitchens-100), превосходя предыдущие специализированные модели. Кроме того, после интеграции V-JEPA 2 с крупной языковой моделью мы показываем передовые результаты на нескольких задачах ответов на вопросы по видео в масштабе 8 миллиардов параметров (например, 84,0 на PerceptionTest, 76,9 на TempCompass). Наконец, мы демонстрируем, как самообучение может быть применено к задачам планирования в робототехнике, путем дообучения латентной модели мира с условием действий, V-JEPA 2-AC, с использованием менее 62 часов немаркированных видео роботов из набора данных Droid. Мы развертываем V-JEPA 2-AC "с нуля" на манипуляторах Franka в двух различных лабораториях и обеспечиваем захват и перемещение объектов с использованием планирования на основе целевых изображений. Примечательно, что это достигается без сбора каких-либо данных от роботов в этих средах, а также без специализированного обучения или наград. Данная работа демонстрирует, как самообучение на основе данных интернет-масштаба и небольшого объема данных взаимодействия роботов может привести к созданию модели мира, способной планировать в физической среде.

Stream-Omni: Одновременное мультимодальное взаимодействие с крупной языково-визуально-речевой моделью
Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model

Jun 16

ByShaolei Zhang, Shoutao Guo, Qingkai Fang, Yan Zhou, Yang Feng

Появление крупных мультимодальных моделей (LMM), подобных GPT-4o, стимулировало исследования по интеграции текстовых, визуальных и речевых модальностей для поддержки более гибкого мультимодального взаимодействия. Существующие LMM обычно объединяют представления модальностей вдоль последовательностного измерения и передают их в основу крупной языковой модели (LLM). Хотя объединение по последовательностному измерению является простым способом интеграции модальностей, оно часто сильно зависит от масштабных данных для изучения их согласования. В данной работе мы стремимся более целенаправленно моделировать отношения между модальностями, достигая более эффективного и гибкого их согласования. Для этого мы предлагаем Stream-Omni — крупную языково-визуально-речевую модель с эффективным согласованием модальностей, которая может одновременно поддерживать взаимодействие при различных комбинациях модальностей. Stream-Omni использует LLM в качестве основы и согласовывает визуальную и речевую модальности с текстом на основе их отношений. Для визуальной модальности, которая семантически дополняет текст, Stream-Omni применяет объединение по последовательностному измерению для достижения согласования. Для речевой модальности, которая семантически согласуется с текстом, Stream-Omni вводит слоевую маппировку на основе CTC для достижения согласования. Таким образом, Stream-Omni может достигать согласования модальностей с меньшим объемом данных (особенно речевых), что позволяет переносить текстовые возможности на другие модальности. Эксперименты на различных бенчмарках демонстрируют, что Stream-Omni достигает высокой производительности в задачах визуального понимания, речевого взаимодействия и взаимодействия, основанного на визуальной и речевой модальностях. Благодаря слоевой маппировке, Stream-Omni может одновременно предоставлять промежуточные текстовые результаты (например, транскрипции ASR и ответы модели) во время речевого взаимодействия, предлагая пользователям комплексный мультимодальный опыт.

Согласуйте свой поток: Масштабирование дистилляции непрерывных потоковых карт
Align Your Flow: Scaling Continuous-Time Flow Map Distillation

Jun 17

ByAmirmojtaba Sabour, Sanja Fidler, Karsten Kreis

Диффузионные и потоковые модели стали передовыми подходами в генеративном моделировании, но они требуют множества шагов для выборки. Модели согласованности позволяют дистиллировать эти модели в эффективные одношаговые генераторы; однако, в отличие от потоковых и диффузионных методов, их производительность неизбежно ухудшается при увеличении количества шагов, что мы показываем как аналитически, так и эмпирически. Потоковые карты обобщают эти подходы, соединяя любые два уровня шума за один шаг и оставаясь эффективными при любом количестве шагов. В данной статье мы представляем два новых непрерывных целевых функционала для обучения потоковых карт, а также дополнительные инновационные методы обучения, обобщающие существующие целевые функции согласованности и согласования потоков. Мы также демонстрируем, что автонаведение может улучшить производительность, используя низкокачественную модель для наведения в процессе дистилляции, а дополнительный прирост может быть достигнут за счет адверсарной донастройки с минимальной потерей разнообразия выборок. Мы тщательно проверяем наши модели потоковых карт, названные Align Your Flow, на сложных бенчмарках генерации изображений и достигаем передовой производительности в генерации с малым количеством шагов как на ImageNet 64x64, так и на 512x512, используя небольшие и эффективные нейронные сети. Наконец, мы демонстрируем тексто-изображенческие модели потоковых карт, которые превосходят все существующие неадверсарно обученные модели с малым количеством шагов в синтезе с текстовым условием.

QFFT, тонкая настройка без вопросов для адаптивного рассуждения
QFFT, Question-Free Fine-Tuning for Adaptive Reasoning

Jun 15

ByWanlong Liu, Junxiao Xu, Fei Yu, Yukang Lin, Ke Ji, Wenyu Chen, Yan Xu, Yasheng Wang, Lifeng Shang, Benyou Wang

Последние достижения в моделях рассуждений с длинной цепочкой мыслей (CoT) улучшили производительность на сложных задачах, однако они страдают от избыточного анализа, что приводит к генерации лишних шагов рассуждений, особенно для простых вопросов. В данной работе пересматриваются паттерны рассуждений длинных и коротких моделей CoT, отмечая, что короткие паттерны CoT обеспечивают лаконичные и эффективные рассуждения, в то время как длинные паттерны CoT превосходно справляются со сложными сценариями, где короткие паттерны оказываются неэффективными. Чтобы позволить моделям использовать оба паттерна, мы предлагаем метод тонкой настройки без вопроса (QFFT), при котором входной вопрос удаляется во время обучения, и модель обучается исключительно на длинных ответах CoT. Этот подход позволяет модели адаптивно применять оба паттерна рассуждений: она отдает приоритет коротким паттернам CoT и активирует длинные паттерны CoT только в случае необходимости. Эксперименты на различных математических наборах данных показывают, что QFFT сокращает среднюю длину ответа более чем на 50\%, при этом достигая производительности, сопоставимой с контролируемой тонкой настройкой (SFT). Кроме того, QFFT демонстрирует превосходную производительность по сравнению с SFT в условиях шума, вне домена и при ограниченных ресурсах.

От байтов к идеям: языковое моделирование с помощью авторегрессивных U-Net
From Bytes to Ideas: Language Modeling with Autoregressive U-Nets

Jun 17

ByMathurin Videau, Badr Youbi Idrissi, Alessandro Leite, Marc Schoenauer, Olivier Teytaud, David Lopez-Paz

Токенизация накладывает фиксированную гранулярность на входной текст, закрепляя то, как языковая модель работает с данными и насколько далеко в будущее она предсказывает. Byte Pair Encoding (BPE) и аналогичные схемы разделяют текст один раз, создают статический словарь и оставляют модель привязанной к этому выбору. Мы смягчаем эту жесткость, вводя авторегрессионную U-Net, которая учится встраивать собственные токены в процессе обучения. Сеть считывает сырые байты, объединяет их в слова, затем в пары слов и далее до 4 слов, что дает ей многоуровневый взгляд на последовательность. На более глубоких этапах модель должна предсказывать дальше в будущее — предвосхищая следующие несколько слов, а не следующий байт, — поэтому более глубокие этапы сосредотачиваются на более широких семантических паттернах, в то время как ранние этапы обрабатывают мелкие детали. При тщательной настройке и контроле вычислительных ресурсов предварительного обучения, неглубокие иерархии достигают уровня сильных базовых моделей BPE, а более глубокие иерархии демонстрируют многообещающую тенденцию. Поскольку токенизация теперь встроена в модель, одна и та же система может справляться с задачами на уровне символов и переносить знания между языками с ограниченными ресурсами.

Могут ли языковые модели создавать высококачественные тестовые примеры для алгоритмических задач? TestCase-Eval: Систематическая оценка покрытия ошибок и их выявления
Can LLMs Generate High-Quality Test Cases for Algorithm Problems? TestCase-Eval: A Systematic Evaluation of Fault Coverage and Exposure

Jun 13

ByZheyuan Yang, Zexi Kuang, Xue Xia, Yilun Zhao

Мы представляем TestCase-Eval — новый эталонный набор для систематической оценки языковых моделей (LLM) в генерации тестовых случаев. TestCase-Eval включает 500 алгоритмических задач и 100 000 решений, созданных людьми, с платформы Codeforces. Он сосредоточен на двух ключевых задачах: (1) Покрытие ошибок, которое измеряет, насколько хорошо тестовые наборы, сгенерированные LLM, исследуют различные входные сценарии и охватывают широкий спектр потенциальных режимов сбоев. (2) Выявление ошибок, которое оценивает, способны ли LLM создать специализированный тестовый вход, который выявляет конкретную некорректную реализацию кода. Мы проводим всестороннюю оценку 19 современных открытых и проприетарных LLM на TestCase-Eval, предоставляя понимание их сильных сторон и ограничений в генерации эффективных тестовых случаев для алгоритмических задач.

Гарантированное предположение: подход на основе языкового моделирования для трансляции с CISC на RISC с гарантиями тестирования
Guaranteed Guess: A Language Modeling Approach for CISC-to-RISC Transpilation with Testing Guarantees

Jun 17

ByAhmed Heakl, Sarim Hashmi, Chaimaa Abi, Celine Lee, Abdulrahman Mahmoud

Аппаратная экосистема стремительно развивается, и всё больше внимания уделяется переводу низкоуровневых программ между различными наборами команд (ISA) быстрым, гибким и корректным способом для повышения переносимости и долговечности существующего кода. Особенно сложным классом этой задачи трансляции является перевод между сложными (CISC) и упрощёнными (RISC) аппаратными архитектурами из-за фундаментальных различий в сложности команд, моделях памяти и парадигмах выполнения. В данной работе мы представляем GG (Guaranteed Guess), конвейер трансляции, ориентированный на ISA, который сочетает мощь предобученных больших языковых моделей (LLM) с строгостью устоявшихся конструкций тестирования программного обеспечения. Наш метод генерирует кандидаты на перевод с использованием LLM из одной ISA в другую и встраивает такие переводы в рамки тестирования программного обеспечения для построения количественной уверенности в корректности перевода. Мы оцениваем наш подход GG на двух разнообразных наборах данных, обеспечиваем высокое покрытие кода (>98%) в модульных тестах и достигаем функциональной/семантической корректности 99% для программ HumanEval и 49% для программ BringupBench. Кроме того, мы сравниваем наш подход с передовым фреймворком Rosetta 2 на Apple Silicon, демонстрируя 1.73-кратное ускорение времени выполнения, 1.47-кратное улучшение энергоэффективности и 2.41-кратное снижение использования памяти для нашего транслированного кода, что подтверждает эффективность GG для реальных задач перевода CISC-to-RISC. Мы опубликуем наши коды, данные, модели и бенчмарки в открытом доступе, чтобы создать общую основу для исследований в области трансляции кода на уровне ISA.

CRITICTOOL: Оценка способности крупных языковых моделей к самокритике в сценариях ошибок при вызове инструментов
CRITICTOOL: Evaluating Self-Critique Capabilities of Large Language Models in Tool-Calling Error Scenarios

Jun 11

ByShiting Huang, Zhen Fang, Zehui Chen, Siyu Yuan, Junjie Ye, Yu Zeng, Lin Chen, Qi Mao, Feng Zhao

Способность крупных языковых моделей (LLM) использовать внешние инструменты позволяет им решать всё более разнообразные задачи. Однако по мере усложнения задач и увеличения их временного горизонта сложный процесс использования инструментов может вызывать различные непредвиденные ошибки. Поэтому эффективное управление такими ошибками, включая их выявление, диагностику и восстановление, стало ключевым направлением исследований для развития обучения с использованием инструментов. В данной работе мы сначала подробно анализируем типы ошибок, возникающих в процессе вызова функций, на нескольких конкурентоспособных бенчмарках для оценки инструментов. На основе этого мы представляем CRITICTOOL — комплексный бенчмарк для критической оценки, специализированный для обучения с использованием инструментов. Используя новую эволюционную стратегию для создания набора данных, CRITICTOOL включает разнообразные ошибки использования инструментов с различной степенью сложности, что лучше отражает реальные сценарии. Мы проводим обширные эксперименты на CRITICTOOL и подтверждаем обобщаемость и эффективность нашей стратегии построения бенчмарка. Также мы предоставляем глубокий анализ способности к рефлексии при использовании инструментов в различных LLM, предлагая новый взгляд на область обучения с использованием инструментов в крупных языковых моделях. Код доступен по адресу https://github.com/Shellorley0513/CriticTool{https://github.com/Shellorley0513/CriticTool}.

Оптимизация сжатия длины в крупных моделях логического вывода
Optimizing Length Compression in Large Reasoning Models

Jun 17

ByZhengxiang Cheng, Dongping Chen, Mingyang Fu, Tianyi Zhou

Крупные модели рассуждений (Large Reasoning Models, LRMs) достигли значительных успехов, однако они часто страдают от создания избыточных и многословных цепочек рассуждений. Мы выделяем ключевой аспект этой проблемы как "неэффективное мышление" — модели склонны многократно перепроверять свои выводы после того, как уже получили правильный ответ. Для устранения этой конкретной неэффективности мы выходим за рамки общих принципов Эффективности и Экономичности, предлагая два новых, более детализированных принципа: Краткость, которая призывает к устранению избыточности, и Достаточность, которая обеспечивает сохранение критически важных шагов рассуждений. Руководствуясь этими принципами, мы представляем LC-R1 — метод пост-обучения, основанный на Оптимизации Относительной Политики Групп (Group Relative Policy Optimization, GRPO). LC-R1 использует новую комбинацию Награды за Длину для общей лаконичности и Награды за Сжатие, которая специально разработана для удаления неэффективной части процесса мышления. Многочисленные эксперименты на различных наборах данных для проверки рассуждений демонстрируют, что LC-R1 достигает значительного сокращения длины последовательности (~50%) при лишь незначительном снижении точности (~2%), достигая оптимального компромисса на границе Парето, который делает акцент на высокой степени сжатия. Наш анализ дополнительно подтверждает устойчивость LC-R1 и предоставляет ценные инсайты для разработки более мощных, но при этом вычислительно эффективных LRMs. Наш код доступен по адресу https://github.com/zxiangx/LC-R1.

VideoMolmo: Пространственно-временное закрепление и указание
VideoMolmo: Spatio-Temporal Grounding Meets Pointing

Jun 5

ByGhazi Shazan Ahmad, Ahmed Heakl, Hanan Gani, Abdelrahman Shaker, Zhiqiang Shen, Ranjay Krishna, Fahad Shahbaz Khan, Salman Khan

Пространственно-временная локализация имеет ключевое значение для точного взаимодействия в различных областях, от биологических исследований до автономной навигации и интерактивных интерфейсов. Современные подходы, основанные на видео, хотя и эффективны в отслеживании, не обладают сложными способностями к рассуждению, характерными для больших языковых моделей, что ограничивает их контекстное понимание и обобщение. Мы представляем VideoMolmo — крупную мультимодальную модель, разработанную для детализированной пространственно-временной локализации на основе текстовых описаний. Основанная на архитектуре Molmo, VideoMolmo включает временной модуль, использующий механизм внимания для учета предыдущих кадров при обработке каждого текущего кадра, что обеспечивает временную согласованность. Кроме того, наш новый подход к временному слиянию масок использует SAM2 для двунаправленного распространения точек, значительно повышая согласованность в видеопоследовательностях. Этот двухэтапный процесс, включающий сначала генерацию точных координат локализации с помощью языковой модели, а затем использование последовательного модуля слияния масок для создания согласованной сегментации, не только упрощает задачу для языковой модели, но и повышает интерпретируемость. Из-за отсутствия подходящих наборов данных мы создали комплексный набор данных, включающий 72 тыс. пар видео-описаний с аннотацией 100 тыс. объектов. Для оценки обобщающей способности VideoMolmo мы представляем VPoS-Bench — сложный бенчмарк для работы с данными вне распределения, охватывающий пять реальных сценариев: отслеживание клеток, эгоцентрическое зрение, автономное вождение, взаимодействие с видео-интерфейсами и робототехнику. Мы также оцениваем нашу модель на задачах сегментации объектов в видео с указанием (Refer-VOS) и сегментации с рассуждением (Reasoning VOS). По сравнению с существующими моделями, VideoMolmo значительно улучшает точность пространственно-временной локализации и способность к рассуждению. Наш код и модели доступны по адресу https://github.com/mbzuai-oryx/VideoMolmo.

EfficientVLA: Бесплатное ускорение и сжатие для моделей "Видение-Язык-Действие" без необходимости обучения
EfficientVLA: Training-Free Acceleration and Compression for Vision-Language-Action Models

Jun 11

ByYantai Yang, Yuhao Wang, Zichen Wen, Luo Zhongwei, Chang Zou, Zhipeng Zhang, Chuan Wen, Linfeng Zhang

Модели Vision-Language-Action (VLA), особенно архитектуры на основе диффузии, демонстрируют преобразующий потенциал для воплощённого интеллекта, но серьёзно ограничиваются высокими вычислительными и ресурсными затратами, вызванными обширными внутренними и инфраструктурными избыточностями. Хотя существующие усилия по ускорению часто направлены на устранение отдельных неэффективностей, такие частичные решения обычно не способны комплексно решить разнообразные вычислительные и ресурсные узкие места во всей цепочке VLA, что ограничивает практическую применимость. Мы представляем EfficientVLA — структурированную и не требующую обучения инфраструктуру для ускорения вывода, которая систематически устраняет эти барьеры за счёт согласованного использования многоаспектных избыточностей. EfficientVLA синергетически интегрирует три целевые стратегии: (1) обрезку функционально незначимых слоёв языкового модуля на основе анализа избыточностей между слоями; (2) оптимизацию визуального пути обработки с помощью стратегии, учитывающей задачи, которая выбирает компактный и разнообразный набор визуальных токенов, балансируя критичность задачи с охватом информации; и (3) снижение временной вычислительной избыточности в итеративной голове действий на основе диффузии за счёт стратегического кэширования и повторного использования ключевых промежуточных признаков. Мы применяем наш метод к стандартной модели VLA CogACT, достигая ускорения вывода в 1,93 раза и сокращения FLOPs до 28,9% при снижении успешности всего на 0,6% в тесте SIMPLER.

Ambient Diffusion Omni: Обучение качественных моделей на некачественных данных
Ambient Diffusion Omni: Training Good Models with Bad Data

Jun 10

ByGiannis Daras, Adrian Rodriguez-Munoz, Adam Klivans, Antonio Torralba, Constantinos Daskalakis

Мы демонстрируем, как использовать низкокачественные, синтетические и изображения, выходящие за пределы распределения, для улучшения качества диффузионной модели. Обычно диффузионные модели обучаются на тщательно отобранных наборах данных, которые формируются из высокофильтрованных источников, таких как веб и другие ресурсы. Мы показываем, что в низкокачественных изображениях, которые часто отбрасываются, содержится значительная ценность. Мы представляем Ambient Diffusion Omni — простую и принципиальную структуру для обучения диффузионных моделей, которая позволяет извлекать сигнал из всех доступных изображений в процессе обучения. Наша структура использует два свойства натуральных изображений — степенной закон затухания спектральной мощности и локальность. Сначала мы подтверждаем эффективность нашей структуры, успешно обучая диффузионные модели на изображениях, искусственно искаженных гауссовым размытием, JPEG-сжатием и размытием в движении. Затем мы применяем нашу структуру для достижения наилучших показателей FID на ImageNet и демонстрируем значительное улучшение как качества изображений, так и их разнообразия в задачах генеративного моделирования текста в изображения. Ключевая идея заключается в том, что шум уменьшает начальный перекос между желаемым распределением высокого качества и смешанным распределением, которое мы фактически наблюдаем. Мы предоставляем строгое теоретическое обоснование нашего подхода, анализируя компромисс между обучением на смещенных данных и ограниченными несмещенными данными на различных этапах диффузии.

xbench: Отслеживание масштабирования продуктивности агентов с помощью профессионально-ориентированных оценок в реальных условиях
xbench: Tracking Agents Productivity Scaling with Profession-Aligned Real-World Evaluations

Jun 16

ByKaiyuan Chen, Yixin Ren, Yang Liu, Xiaobo Hu, Haotong Tian, Tianbao Xie, Fangfu Liu, Haoye Zhang, Hongzhang Liu, Yuan Gong, Chen Sun, Han Hou, Hui Yang, James Pan, Jianan Lou, Jiayi Mao, Jizheng Liu, Jinpeng Li, Kangyi Liu, Kenkun Liu, Rui Wang, Run Li, Tong Niu, Wenlong Zhang, Wenqi Yan, Xuanzheng Wang, Yuchen Zhang, Yi-Hsin Hung, Yuan Jiang, Zexuan Liu, Zihan Yin, Zijian Ma, Zhiwen Mo

Мы представляем xbench — динамический набор для оценки, ориентированный на профессиональные задачи, который призван сократить разрыв между возможностями ИИ-агентов и их реальной производительностью. В то время как существующие бенчмарки часто сосредоточены на изолированных технических навыках, они могут не точно отражать экономическую ценность, которую агенты приносят в профессиональной среде. Для решения этой проблемы xbench нацелен на коммерчески значимые области, используя задачи для оценки, определенные профессионалами отрасли. Наша система создает метрики, которые тесно коррелируют с показателями производительности, позволяет прогнозировать соответствие технологии рынку (Technology-Market Fit, TMF) и облегчает отслеживание возможностей продукта с течением времени. В качестве первых реализаций мы представляем два бенчмарка: Подбор персонала и Маркетинг. Для Подбора персонала мы собрали 50 задач из реальных сценариев хедхантинга, чтобы оценить способности агентов в области анализа компаний, поиска информации и поиска талантов. Для Маркетинга мы оцениваем способность агентов подбирать инфлюенсеров в соответствии с потребностями рекламодателей, проверяя их производительность на 50 требованиях рекламодателей с использованием отобранной базы из 836 кандидатов-инфлюенсеров. Мы представляем начальные результаты оценки для ведущих современных агентов, устанавливая базовые показатели для этих профессиональных областей. Наши постоянно обновляемые наборы данных и результаты оценки доступны на сайте https://xbench.org.

Ring-lite: Масштабируемое рассуждение через стабилизированное C3PO обучение с подкреплением для больших языковых моделей
Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs

Jun 17

ByRing Team, Bin Hu, Cai Chen, Deng Zhao, Ding Liu, Dingnan Jin, Feng Zhu, Hao Dai, Hongzhi Luan, Jia Guo, Jiaming Liu, Jiewei Wu, Jun Mei, Jun Zhou, Junbo Zhao, Junwu Xiong, Kaihong Zhang, Kuan Xu, Lei Liang, Liang Jiang, Liangcheng Fu, Longfei Zheng, Qiang Gao, Qing Cui, Quan Wan, Shaomian Zheng, Shuaicheng Li, Tongkai Yang, Wang Ren, Xiaodong Yan, Xiaopei Wan, Xiaoyun Feng, Xin Zhao, Xinxing Yang, Xinyu Kong, Xuemin Yang, Yang Li, Yingting Wu, Yongkang Liu, Zhankai Xu, Zhenduo Zhang, Zhenglei Zhou, Zhenyu Huang, Zhiqiang Zhang, Zihao Wang, Zujie Wen

Мы представляем Ring-lite, крупную языковую модель на основе смеси экспертов (Mixture of Experts, MoE), оптимизированную с использованием обучения с подкреплением (Reinforcement Learning, RL) для достижения эффективных и устойчивых способностей к рассуждению. Построенная на основе общедоступной модели Ling-lite, которая содержит 16,8 миллиардов параметров с активированными 2,75 миллиардами параметров, наша модель демонстрирует производительность, сопоставимую с современными (state-of-the-art, SOTA) небольшими моделями для рассуждений на сложных тестовых наборах (например, AIME, LiveCodeBench, GPQA-Diamond), активируя при этом лишь треть параметров, необходимых для сравнимых моделей. Для достижения этого мы разработали совместный процесс обучения, интегрирующий дистилляцию с RL, и выявили ранее не задокументированные проблемы в обучении MoE с использованием RL. Во-первых, мы обнаружили нестабильность оптимизации во время RL-обучения и предложили новый подход — Оптимизацию политики вычислений с ограниченным контекстом (Constrained Contextual Computation Policy Optimization, C3PO), который повышает стабильность обучения и улучшает вычислительную производительность за счет методологии совместного проектирования алгоритмов и систем. Во-вторых, мы эмпирически показали, что выбор контрольных точек дистилляции на основе энтропийных потерь для RL-обучения, а не на основе метрик валидации, обеспечивает более оптимальный баланс между производительностью и эффективностью в последующем RL-обучении. Наконец, мы разработали двухэтапную парадигму обучения для гармонизации интеграции данных из нескольких доменов, устраняя конфликты доменов, возникающие при обучении на смешанных наборах данных. Мы опубликуем модель, набор данных и код.

Router-R1: Обучение крупных языковых моделей многораундовой маршрутизации и агрегации с использованием обучения с подкреплением
Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning

Jun 10

ByHaozhen Zhang, Tao Feng, Jiaxuan You

Быстрое появление разнообразных крупных языковых моделей (LLM) стимулировало разработку маршрутизаторов LLM, которые направляют пользовательские запросы к наиболее подходящей модели. Однако существующие маршрутизаторы LLM обычно выполняют однократное, одно-к-одному сопоставление (т.е. назначают каждый запрос одной модели изолированно), что ограничивает их способность решать сложные задачи, требующие комплементарных сильных сторон нескольких LLM. В данной статье мы представляем Router-R1, основанную на обучении с подкреплением (RL) структуру, которая формулирует маршрутизацию и агрегацию нескольких LLM как последовательный процесс принятия решений. Router-R1 реализует сам маршрутизатор как мощную LLM, используя её способность к рассуждению для чередования действий "думать" (внутреннее обдумывание) с действиями "маршрутизировать" (динамический вызов модели) и интегрирует каждый ответ в свой развивающийся контекст. Для управления обучением мы используем легковесное правило-основанное вознаграждение, включающее вознаграждения за формат, конечный результат и новое вознаграждение за стоимость для оптимизации компромисса между производительностью и затратами, открывая путь к оптимизации компромиссов производительности и затрат через RL. Router-R1 также учитывает только простые описатели моделей, такие как цена, задержка и примеры производительности, что обеспечивает сильное обобщение для выбора неизвестных моделей. Эксперименты на семи общих и многошаговых тестах QA показывают, что Router-R1 превосходит несколько сильных базовых моделей, достигая превосходной производительности при сохранении устойчивого обобщения и управления затратами. Код доступен по адресу https://github.com/ulab-uiuc/Router-R1.

AgentSynth: Масштабируемая генерация задач для универсальных агентов, работающих с компьютером
AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents

Jun 17

ByJingxu Xie, Dylan Xu, Xuandong Zhao, Dawn Song

Мы представляем AgentSynth — масштабируемый и экономически эффективный конвейер для автоматического синтеза высококачественных задач и наборов данных траекторий для универсальных агентов, работающих с компьютером. Используя асимметрию информации, AgentSynth создает подзадачи, которые просты на этапе генерации, но становятся значительно сложнее при объединении в долгосрочные задачи, что позволяет создавать более 6000 разнообразных и реалистичных задач. Наш конвейер начинается с предложения задач на основе языковой модели (LLM), управляемой персонажем, за которым следует исполнительный агент, выполняющий задачу и записывающий траекторию. Этот процесс повторяется итеративно для формирования последовательности подзадач, которые затем обобщаются отдельным агентом в составную задачу с контролируемой сложностью. Ключевое преимущество AgentSynth заключается в возможности точной настройки сложности задач путем изменения количества подзадач. Эмпирические оценки показывают, что современные LLM-агенты демонстрируют резкое снижение производительности — с 18% успешности на уровне сложности 1 до всего 4% на уровне 6, что подчеркивает сложность и дискриминативную силу нашего бенчмарка. Кроме того, наш конвейер достигает низкой средней стоимости в \$0,60 за траекторию, что на порядки дешевле, чем аннотации, выполненные людьми. Наш код и данные доступны публично по адресу https://github.com/sunblaze-ucb/AgentSynth.

Управление полисемантичностью в языковых моделях: восстановление признаков с доказательством с использованием разреженных автокодировщиков
Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders

Jun 16

BySiyu Chen, Heejune Sheen, Xuyuan Xiong, Tianhao Wang, Zhuoran Yang

Мы исследуем задачу достижения теоретически обоснованного восстановления признаков с использованием разреженных автокодировщиков (Sparse Autoencoders, SAE) для интерпретации крупных языковых моделей (Large Language Models, LLM). Существующие алгоритмы обучения SAE часто не имеют строгих математических гарантий и страдают от практических ограничений, таких как чувствительность к гиперпараметрам и нестабильность. Для решения этих проблем мы сначала предлагаем новый статистический подход к задаче восстановления признаков, включающий новое понятие идентифицируемости признаков, моделируя полисемантические признаки как разреженные смеси базовых моносемантических концепций. На основе этого подхода мы представляем новый алгоритм обучения SAE, основанный на «адаптации смещения» (bias adaptation), — технике, которая адаптивно корректирует параметры смещения нейронной сети для обеспечения необходимой разреженности активаций. Мы теоретически доказываем, что этот алгоритм корректно восстанавливает все моносемантические признаки, если входные данные взяты из предложенной нами статистической модели. Кроме того, мы разрабатываем улучшенную эмпирическую версию — адаптацию группового смещения (Group Bias Adaptation, GBA) — и демонстрируем её превосходство по сравнению с эталонными методами при применении к LLM с числом параметров до 1,5 миллиарда. Данная работа представляет собой фундаментальный шаг в разъяснении процесса обучения SAE, предоставляя первый алгоритм SAE с теоретическими гарантиями восстановления, что способствует развитию более прозрачных и надежных систем искусственного интеллекта за счёт улучшенной механистической интерпретируемости.

Смесь экспертов встречается с обучением с подкреплением в контексте
Mixture-of-Experts Meets In-Context Reinforcement Learning

Jun 5

ByWenhao Wu, Fuhong Liu, Haoru Li, Zican Hu, Daoyi Dong, Chunlin Chen, Zhi Wang

Обучение с подкреплением в контексте (In-context Reinforcement Learning, ICRL) стало перспективной парадигмой для адаптации агентов RL к последующим задачам через кондиционирование подсказок. Однако две значительные проблемы остаются для полного использования обучения в контексте в областях RL: внутренняя многомодальность данных состояния-действия-вознаграждения и разнородный характер задач принятия решений. Для решения этих проблем мы предлагаем T2MIR (Token- and Task-wise MoE for In-context RL), инновационную архитектуру, которая внедряет усовершенствования смеси экспертов (Mixture-of-Experts, MoE) в трансформерные модели принятия решений. T2MIR заменяет полносвязный слой двумя параллельными слоями: токен-ориентированным MoE, который захватывает различные семантики входных токенов в нескольких модальностях, и задаче-ориентированным MoE, который направляет разнообразные задачи к специализированным экспертам для управления широким распределением задач с уменьшением конфликтов градиентов. Для улучшения задаче-ориентированной маршрутизации мы вводим метод контрастного обучения, который максимизирует взаимную информацию между задачей и её представлением в маршрутизаторе, что позволяет более точно захватывать информацию, релевантную задаче. Выходы двух компонентов MoE объединяются и передаются на следующий слой. Комплексные эксперименты показывают, что T2MIR значительно улучшает способность к обучению в контексте и превосходит различные типы базовых моделей. Мы раскрываем потенциал и перспективы MoE для ICRL, предлагая простое и масштабируемое архитектурное усовершенствование, которое приближает ICRL к достижениям в сообществах обработки языка и компьютерного зрения. Наш код доступен по адресу https://github.com/NJU-RL/T2MIR.

Универсальные суффиксы для взлома являются мощными захватчиками внимания.
Universal Jailbreak Suffixes Are Strong Attention Hijackers

Jun 15

ByMatan Ben-Tov, Mor Geva, Mahmood Sharif

Мы исследуем атаки на основе суффиксов — мощное семейство методов, направленных на обход механизмов безопасности в крупных языковых моделях (LLM) путем оптимизации враждебных суффиксов. Основываясь на широко используемой базовой атаке GCG (Zou et al., 2023), мы наблюдаем, что эффективность суффиксов варьируется: некоторые из них демонстрируют значительно более универсальный характер — обобщаясь на множество ранее не встречавшихся вредоносных инструкций — чем другие. Сначала мы показываем, что эффективность GCG обусловлена поверхностным, но критически важным механизмом, основанным на потоке информации от враждебного суффикса к финальным токенам шаблона чата перед генерацией. Количественно оценивая доминирование этого механизма в процессе генерации, мы обнаруживаем, что GCG нерегулярно и агрессивно захватывает процесс контекстуализации. Важно отметить, что мы связываем этот захват с феноменом универсальности: более универсальные суффиксы оказываются более сильными захватчиками. Впоследствии мы демонстрируем, что эти наблюдения имеют практическое значение: универсальность GCG может быть эффективно усилена (в некоторых случаях до 5 раз) без дополнительных вычислительных затрат, а также может быть хирургически смягчена, снижая успешность атаки как минимум вдвое с минимальной потерей полезности. Мы публикуем наш код и данные по адресу http://github.com/matanbt/interp-jailbreak.

Индекс качества согласованности (AQI): За пределами отказов: AQI как внутренний диагностический инструмент согласованности через скрытую геометрию, расхождение кластеров и послойные объединенные представления
Alignment Quality Index (AQI) : Beyond Refusals: AQI as an Intrinsic Alignment Diagnostic via Latent Geometry, Cluster Divergence, and Layer wise Pooled Representations

Jun 16

ByAbhilekh Borah, Chhavi Sharma, Danush Khanna, Utkarsh Bhatt, Gurpreet Singh, Hasnat Md Abdullah, Raghav Kaushik Ravi, Vinija Jain, Jyoti Patel, Shubham Singh, Vasu Sharma, Arpita Vats, Rahul Raja, Aman Chadha, Amitava Das

Согласование больше не является роскошью, это необходимость. По мере того как крупные языковые модели (LLM) проникают в высокорисковые области, такие как образование, здравоохранение, управление и право, их поведение должно надежно отражать человеко-ориентированные ценности и ограничения безопасности. Однако текущие оценки в значительной степени полагаются на поведенческие прокси, такие как показатели отказа, оценки G-Eval и классификаторы токсичности, все из которых имеют критические пробелы. Согласованные модели часто уязвимы для взлома, стохастичности генерации и имитации согласованности. Для решения этой проблемы мы представляем Индекс Качества Согласованности (AQI). Этот новый геометрический и инвариантный к промптам метрический показатель эмпирически оценивает согласованность LLM, анализируя разделение безопасных и небезопасных активаций в латентном пространстве. Комбинируя такие меры, как оценка Дэвиса-Боулдина (DBS), индекс Данна (DI), индекс Се-Бени (XBI) и индекс Калински-Харабаша (CHI) в различных формулировках, AQI фиксирует качество кластеризации для выявления скрытых рассогласований и рисков взлома, даже когда выходные данные кажутся соответствующими. AQI также служит ранним предупреждающим сигналом для имитации согласованности, предлагая надежный, инвариантный к декодированию инструмент для аудита безопасности, независимого от поведения. Кроме того, мы предлагаем набор данных LITMUS для облегчения надежной оценки в этих сложных условиях. Эмпирические тесты на LITMUS для различных моделей, обученных в условиях DPO, GRPO и RLHF, демонстрируют корреляцию AQI с внешними оценками и способность выявлять уязвимости, пропущенные метриками отказа. Мы делаем нашу реализацию общедоступной для стимулирования будущих исследований в этой области.

EMLoC: Эмуляторная энергоэффективная тонкая настройка с коррекцией LoRA
EMLoC: Emulator-based Memory-efficient Fine-tuning with LoRA Correction

Jun 13

ByHsi-Che Lin, Yu-Chu Yu, Kai-Po Chang, Yu-Chiang Frank Wang

Модели с открытым исходным кодом, основанные на фундаментальных архитектурах, получили быстрое распространение и развитие, обеспечивая мощные универсальные возможности в различных областях. Однако тонкая настройка крупных фундаментальных моделей для задач, специфичных для конкретной области или персонализированных, остается чрезмерно дорогостоящей для большинства пользователей из-за значительных затрат памяти, превышающих требования для вывода. Мы представляем EMLoC — фреймворк для эффективной по памяти тонкой настройки на основе эмулятора с коррекцией LoRA, который позволяет выполнять тонкую настройку модели в рамках того же бюджета памяти, что и для вывода. EMLoC создает легковесный эмулятор, специфичный для задачи, с использованием сингулярного разложения (SVD) с учетом активаций на небольшом калибровочном наборе данных. Затем тонкая настройка выполняется на этом легковесном эмуляторе с помощью LoRA. Для устранения несоответствия между исходной моделью и сжатым эмулятором мы предлагаем новый алгоритм компенсации для коррекции настроенного модуля LoRA, который затем может быть интегрирован в исходную модель для вывода. EMLoC поддерживает гибкие коэффициенты сжатия и стандартные конвейеры обучения, что делает его применимым для широкого спектра задач. Многочисленные эксперименты демонстрируют, что EMLoC превосходит другие базовые подходы на множестве наборов данных и модальностей. Более того, без использования квантования EMLoC позволяет выполнять тонкую настройку модели объемом 38 миллиардов параметров на одной потребительской GPU с 24 ГБ памяти, что делает эффективную и практичную адаптацию моделей доступной для индивидуальных пользователей.

Охота за сокровищами: целевое использование длинного хвоста в реальном времени с использованием маркеров на этапе обучения
Treasure Hunt: Real-time Targeting of the Long Tail using Training-Time Markers

Jun 17

ByDaniel D'souza, Julia Kreutzer, Adrien Morisot, Ahmet Üstün, Sara Hooker

Одной из наиболее сложных задач современного машинного обучения является достижение высокой производительности на "длинном хвосте" редких и недостаточно представленных признаков. Крупные универсальные модели обучаются для выполнения множества задач, но показывают наилучшие результаты в высокочастотных сценариях использования. После обучения адаптировать модель для эффективной работы в специфических случаях, недостаточно представленных в обучающем корпусе, оказывается сложно. Использование инженерии промптов или примеров с малым количеством данных для максимизации качества вывода на конкретном тестовом случае может быть разочаровывающим, поскольку модели могут быть чрезвычайно чувствительны к небольшим изменениям, реагировать непредсказуемым образом или полагаться на фиксированный системный промпт для поддержания производительности. В данной работе мы задаемся вопросом: "Можем ли мы оптимизировать наши протоколы обучения, чтобы одновременно улучшить управляемость и производительность на недостаточно представленных случаях во время вывода?" Мы пересматриваем разделение между методами обучения и вывода, чтобы улучшить производительность на "длинном хвосте", предоставляя пользователям набор рычагов управления, на которые модель обучена реагировать. Мы создаем детальную таксономию характеристик данных и происхождения задач для явного управления атрибутами генерации и неявного условного формирования выводов во время инференции. Мы дообучаем базовую модель для автоматического вывода этих маркеров, что делает их необязательными во время вывода. Этот принципиальный и гибкий подход приводит к значительному улучшению производительности, особенно на примерах из "длинного хвоста" распределения обучающих данных. В то время как мы наблюдаем средний прирост в 5,7% по показателям качества генерации в открытых задачах с использованием наших маркеров, в недостаточно представленных областях мы видим улучшения более чем на 9,1%. Мы также отмечаем относительный прирост до 14,1% на недостаточно представленных задачах, таких как CodeRepair, и абсолютное улучшение на 35,3% в оценках следования инструкциям по длине.

CAMS: Агентная платформа на основе CityGPT для моделирования городской мобильности населения
CAMS: A CityGPT-Powered Agentic Framework for Urban Human Mobility Simulation

Jun 16

ByYuwei Du, Jie Feng, Jian Yuan, Yong Li

Моделирование человеческой мобильности играет ключевую роль в различных практических приложениях. В последнее время, чтобы преодолеть ограничения традиционных подходов, основанных на данных, исследователи изучили возможность использования здравого смысла и способностей к рассуждению больших языковых моделей (LLM) для ускорения моделирования человеческой мобильности. Однако эти методы страдают от нескольких существенных недостатков, включая недостаточное моделирование городских пространств и слабую интеграцию как с индивидуальными паттернами мобильности, так и с коллективными распределениями мобильности. Для решения этих проблем мы предлагаем агентный фреймворк CityGPT-Powered Agentic framework for Mobility Simulation (CAMS), который использует языковую модель городского фундамента для моделирования человеческой мобильности в городском пространстве. CAMS состоит из трех основных модулей: MobExtractor для извлечения шаблонных паттернов мобильности и синтеза новых на основе профилей пользователей, GeoGenerator для генерации опорных точек с учетом коллективных знаний и создания кандидатов городских геопространственных данных с использованием улучшенной версии CityGPT, а также TrajEnhancer для извлечения пространственных знаний на основе паттернов мобильности и генерации траекторий с учетом предпочтений реальных траекторий через DPO. Эксперименты на реальных наборах данных показывают, что CAMS демонстрирует превосходную производительность без использования внешних геопространственных данных. Более того, благодаря целостному моделированию как индивидуальных паттернов мобильности, так и коллективных ограничений, CAMS генерирует более реалистичные и правдоподобные траектории. В целом, CAMS устанавливает новую парадигму, интегрирующую агентный фреймворк с LLM, обладающими знаниями о городской среде, для моделирования человеческой мобильности.

Graph Counselor: Адаптивное исследование графов через синергию мультиагентных систем для улучшения рассуждений в больших языковых моделях
Graph Counselor: Adaptive Graph Exploration via Multi-Agent Synergy to Enhance LLM Reasoning

Jun 4

ByJunqi Gao, Xiang Zou, YIng Ai, Dong Li, Yichen Niu, Biqing Qi, Jianxing Liu

Графовое извлечение и генерация с расширением знаний (GraphRAG) эффективно повышает возможности интеграции внешних знаний за счет явного моделирования отношений между ними, что улучшает фактическую точность и качество генерации крупных языковых моделей (LLM) в специализированных областях. Однако существующие методы страдают от двух фундаментальных ограничений: 1) Неэффективная агрегация информации: они полагаются на единственного агента и фиксированные итеративные шаблоны, что затрудняет адаптивное захват многоуровневой текстовой, структурной и степенной информации в графовых данных. 2) Жесткий механизм рассуждений: они используют предустановленные схемы рассуждений, которые не могут динамически регулировать глубину рассуждений или достигать точной семантической коррекции. Для преодоления этих ограничений мы предлагаем Graph Counselor, метод GraphRAG, основанный на многоагентном взаимодействии. Этот метод использует модуль адаптивного извлечения графовой информации (AGIEM), где агенты планирования, мышления и выполнения совместно работают для точного моделирования сложных графовых структур и динамической настройки стратегий извлечения информации, решая задачи многоуровневого моделирования зависимостей и адаптивной глубины рассуждений. Кроме того, модуль саморефлексии с множественными перспективами (SR) повышает точность и семантическую согласованность результатов рассуждений за счет механизмов саморефлексии и обратного рассуждения. Эксперименты показывают, что Graph Counselor превосходит существующие методы в различных задачах графового рассуждения, демонстрируя более высокую точность рассуждений и способность к обобщению. Наш код доступен по адресу https://github.com/gjq100/Graph-Counselor.git.

TR2M: Преобразование монокулярной относительной глубины в метрическую с использованием языковых описаний и контраста, ориентированного на масштаб
TR2M: Transferring Monocular Relative Depth to Metric Depth with Language Descriptions and Scale-Oriented Contrast

Jun 16

ByBeilei Cui, Yiming Huang, Long Bai, Hongliang Ren

В данной работе представлен универсальный фреймворк для преобразования относительной глубины в метрическую. Современные методы оценки глубины по одному изображению в основном делятся на оценку метрической глубины (MMDE) и оценку относительной глубины (MRDE). MMDE оценивают глубину в метрическом масштабе, но часто ограничены конкретной областью применения. MRDE хорошо обобщаются на различные области, но имеют неопределённый масштаб, что затрудняет их использование в прикладных задачах. В связи с этим мы стремимся создать фреймворк для устранения неопределённости масштаба и преобразования относительной глубины в метрическую. Предыдущие методы использовали текстовые данные в качестве входных и оценивали два фактора для выполнения перемасштабирования. Наш подход, TR2M, использует как текстовое описание, так и изображение в качестве входных данных и оценивает две карты перемасштабирования для преобразования относительной глубины в метрическую на уровне пикселей. Особенности из двух модальностей объединяются с помощью кросс-модального модуля внимания для более точного захвата информации о масштабе. Разработана стратегия для создания и фильтрации уверенных псевдо-метрических глубин с целью более полного контроля. Мы также разработали контрастное обучение, ориентированное на масштаб, чтобы использовать распределение глубины в качестве руководства для усиления изучения моделью внутренних знаний, соответствующих распределению масштаба. TR2M использует лишь небольшое количество обучаемых параметров для обучения на наборах данных из различных областей, и эксперименты не только демонстрируют отличную производительность TR2M на известных наборах данных, но и раскрывают превосходные возможности zero-shot на пяти неизвестных наборах данных. Мы показываем огромный потенциал в пиксельном преобразовании относительной глубины в метрическую с помощью языковой поддержки. (Код доступен по адресу: https://github.com/BeileiCui/TR2M)

VisText-Mosquito: Мультимодальный набор данных и эталон для обнаружения и анализа мест размножения комаров на основе искусственного интеллекта
VisText-Mosquito: A Multimodal Dataset and Benchmark for AI-Based Mosquito Breeding Site Detection and Reasoning

Jun 17

ByMd. Adnanul Islam, Md. Faiyaz Abdullah Sayeedi, Md. Asaduzzaman Shuvo, Muhammad Ziaur Rahman, Shahanur Rahman Bappy, Raiyan Rahman, Swakkhar Shatabda

Заболевания, переносимые комарами, представляют собой серьезную глобальную угрозу для здоровья, что требует раннего выявления и активного контроля мест размножения для предотвращения вспышек. В данной статье мы представляем VisText-Mosquito, мультимодальный набор данных, который объединяет визуальную и текстовую информацию для поддержки автоматизированного обнаружения, сегментации и анализа мест размножения комаров. Набор данных включает 1828 аннотированных изображений для обнаружения объектов, 142 изображения для сегментации водной поверхности и тексты на естественном языке, связанные с каждым изображением, для анализа. Модель YOLOv9s демонстрирует наивысшую точность 0,92926 и mAP@50 0,92891 для обнаружения объектов, в то время как YOLOv11n-Seg достигает точности сегментации 0,91587 и mAP@50 0,79795. Для генерации аналитических выводов наша доработанная модель BLIP достигает конечной потери 0,0028 с показателями BLEU 54,7, BERTScore 0,91 и ROUGE-L 0,87. Этот набор данных и модель подчеркивают тему "Профилактика лучше, чем лечение", демонстрируя, как технологии на основе ИИ могут активно снижать риски заболеваний, переносимых комарами. Набор данных и код реализации доступны на GitHub: https://github.com/adnanul-islam-jisun/VisText-Mosquito.

DynaGuide: Управление политиками диффузии с помощью активного динамического руководства
DynaGuide: Steering Diffusion Polices with Active Dynamic Guidance

Jun 16

ByMaximilian Du, Shuran Song

Развертывание крупных и сложных политик в реальном мире требует возможности их настройки в соответствии с потребностями конкретной ситуации. Наиболее распространенные подходы к управлению, такие как целевое кондиционирование, предполагают обучение политики робота с учетом распределения целей на этапе тестирования. Чтобы преодолеть это ограничение, мы представляем DynaGuide — метод управления для диффузионных политик, использующий внешнюю модель динамики в процессе денойзинга диффузии. DynaGuide отделяет модель динамики от базовой политики, что дает ему несколько преимуществ, включая возможность настройки на несколько целей, усиление недостаточно представленных поведений базовой политики и сохранение устойчивости при работе с низкокачественными целями. Отдельный сигнал управления также позволяет DynaGuide работать с предварительно обученными диффузионными политиками без дополнительной доработки. Мы демонстрируем производительность и особенности DynaGuide в сравнении с другими подходами к управлению в серии симуляционных и реальных экспериментов, показывая средний успех управления в 70% на наборе задач CALVIN с сочленениями и превосходя целевое кондиционирование в 5,4 раза при управлении с низкокачественными целями. Мы также успешно управляем предварительно обученной политикой реального робота, чтобы выразить предпочтение определенным объектам и даже создать новое поведение. Видео и дополнительная информация доступны на сайте проекта: https://dynaguide.github.io.