HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

23 papers found

Достижения и вызовы в области базовых агентов: от интеллекта, вдохновленного мозгом, до эволюционных, коллаборативных и безопасных систем
Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems

Mar 31

ByBang Liu, Xinfeng Li, Jiayi Zhang, Jinlin Wang, Tanjin He, Sirui Hong, Hongzhang Liu, Shaokun Zhang, Kaitao Song, Kunlun Zhu, Yuheng Cheng, Suyuchen Wang, Xiaoqiang Wang, Yuyu Luo, Haibo Jin, Peiyan Zhang, Ollie Liu, Jiaqi Chen, Huan Zhang, Zhaoyang Yu, Haochen Shi, Boyan Li, Dekun Wu, Fengwei Teng, Xiaojun Jia, Jiawei Xu, Jinyu Xiang, Yizhang Lin, Tianming Liu, Tongliang Liu, Yu Su, Huan Sun, Glen Berseth, Jianyun Nie, Ian Foster, Logan Ward, Qingyun Wu, Yu Gu, Mingchen Zhuge, Xiangru Tang, Haohan Wang, Jiaxuan You, Chi Wang, Jian Pei, Qiang Yang, Xiaoliang Qi, Chenglin Wu

301

Появление крупных языковых моделей (LLM) стало катализатором трансформационных изменений в области искусственного интеллекта, открыв путь для создания продвинутых интеллектуальных агентов, способных к сложным рассуждениям, устойчивому восприятию и универсальным действиям в различных областях. По мере того как эти агенты всё больше влияют на исследования и практические применения ИИ, их проектирование, оценка и постоянное совершенствование представляют собой сложные, многогранные задачи. Данный обзор предлагает всесторонний взгляд, рассматривая интеллектуальных агентов в рамках модульной, вдохновлённой мозгом архитектуры, которая интегрирует принципы когнитивной науки, нейробиологии и вычислительных исследований. Мы структурируем наше исследование в четыре взаимосвязанные части. Во-первых, мы углубляемся в модульную основу интеллектуальных агентов, систематически сопоставляя их когнитивные, перцептивные и операционные модули с аналогичными функциями человеческого мозга, а также раскрывая ключевые компоненты, такие как память, моделирование мира, обработка вознаграждений и системы, напоминающие эмоции. Во-вторых, мы обсуждаем механизмы самоулучшения и адаптивной эволюции, исследуя, как агенты автономно совершенствуют свои способности, адаптируются к динамичным средам и достигают непрерывного обучения через автоматизированные парадигмы оптимизации, включая новые стратегии AutoML и оптимизации на основе LLM. В-третьих, мы рассматриваем коллаборативные и эволюционные мультиагентные системы, изучая коллективный интеллект, возникающий в результате взаимодействия агентов, их сотрудничества и социальных структур, подчеркивая параллели с человеческой социальной динамикой. Наконец, мы обращаемся к критически важной задаче создания безопасных, защищённых и полезных систем ИИ, акцентируя внимание на внутренних и внешних угрозах безопасности, этической согласованности, устойчивости и практических стратегиях смягчения рисков, необходимых для доверенного внедрения в реальном мире.

ZClip: Адаптивное смягчение выбросов для предварительного обучения больших языковых моделей
ZClip: Adaptive Spike Mitigation for LLM Pre-Training

Apr 3

ByAbhay Kumar, Louis Owen, Nilabhra Roy Chowdhury, Fabian Güra

Обучение больших языковых моделей (LLM) сопряжено с многочисленными трудностями, включая нестабильность градиентов и скачки потерь. Эти явления могут привести к катастрофической дивергенции, что потребует дорогостоящего восстановления контрольных точек и пропуска пакетов данных. Традиционные методы ограничения градиентов, такие как постоянные или основанные на норме подходы, неэффективно решают эти проблемы из-за их зависимости от фиксированных порогов или эвристик, что приводит к неэффективному обучению и частому ручному вмешательству. В данной работе мы предлагаем ZClip — адаптивный алгоритм ограничения градиентов, который динамически регулирует порог ограничения на основе статистических свойств норм градиентов с течением времени. В отличие от предыдущих реактивных стратегий, ZClip активно адаптируется к динамике обучения, не делая никаких предварительных предположений о масштабе и временной эволюции норм градиентов. В основе алгоритма лежит использование z-оценки для обнаружения аномалий, что позволяет выявлять и смягчать крупные скачки градиентов, предотвращая вредоносные скачки потерь, не нарушая при этом сходимости в остальных случаях. Наш код доступен по адресу: https://github.com/bluorion-com/ZClip.

За пределами пикселей: Бенчмаркинг визуального редактирования с учетом логического мышления
Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing

Apr 3

ByXiangyu Zhao, Peiyuan Zhang, Kexian Tang, Hao Li, Zicheng Zhang, Guangtao Zhai, Junchi Yan, Hua Yang, Xue Yang, Haodong Duan

Крупные мультимодальные модели (LMM) достигли значительного прогресса в области визуального понимания и генерации, однако они по-прежнему сталкиваются с трудностями в задачах общего визуального редактирования, особенно в следовании сложным инструкциям, сохранении согласованности внешнего вида и поддержке гибких форматов входных данных. Чтобы устранить этот пробел, мы представляем RISEBench — первый бенчмарк для оценки визуального редактирования, основанного на рассуждениях (Reasoning-Informed viSual Editing, RISE). RISEBench фокусируется на четырех ключевых типах рассуждений: временных, причинно-следственных, пространственных и логических. Мы подготовили высококачественные тестовые примеры для каждой категории и предложили оценочную структуру, которая оценивает рассуждения на основе инструкций, согласованность внешнего вида и визуальную правдоподобность с использованием как человеческих оценщиков, так и подхода LMM-as-a-judge. Наши эксперименты показывают, что, хотя GPT-4o-Native значительно превосходит другие открытые и проприетарные модели, даже эта передовая система испытывает трудности с задачами логического рассуждения, что подчеркивает область, которая остается недостаточно изученной. В качестве начального усилия RISEBench стремится предоставить фундаментальные инсайты в визуальное редактирование с учетом рассуждений и стимулировать будущие исследования. Хотя проект находится на ранней стадии, мы стремимся к постоянному расширению и улучшению бенчмарка для поддержки более комплексных, надежных и масштабируемых оценок мультимодальных систем следующего поколения. Наш код и данные будут опубликованы по адресу https://github.com/PhoenixZ810/RISEBench.

Масштабирование на этапе вывода для универсального моделирования вознаграждений
Inference-Time Scaling for Generalist Reward Modeling

Apr 3

ByZijun Liu, Peiyi Wang, Runxin Xu, Shirong Ma, Chong Ruan, Peng Li, Yang Liu, Yu Wu

Обучение с подкреплением (RL) широко применяется для посттренировки крупных языковых моделей (LLM) в масштабе. Недавние исследования показывают, что стимулирование способностей к рассуждению в LLM с помощью RL указывает на то, что правильные методы обучения могут обеспечить эффективную масштабируемость на этапе вывода. Основная задача RL заключается в получении точных сигналов вознаграждения для LLM в различных областях, выходящих за рамки проверяемых вопросов или искусственных правил. В данной работе мы исследуем, как улучшить моделирование вознаграждения (RM) с использованием большего объема вычислительных ресурсов для общих запросов, то есть масштабируемость универсального RM на этапе вывода, и, кроме того, как повысить эффективность масштабирования производительности и вычислительных ресурсов с помощью правильных методов обучения. Для подхода RM мы применяем точечное генеративное моделирование вознаграждения (GRM), что обеспечивает гибкость для различных типов входных данных и потенциал для масштабирования на этапе вывода. В качестве метода обучения мы предлагаем Self-Principled Critique Tuning (SPCT) для развития масштабируемых поведений генерации вознаграждения в GRM через онлайн RL, что позволяет адаптивно генерировать принципы и точно формулировать критические оценки, что приводит к созданию моделей DeepSeek-GRM. Кроме того, для эффективного масштабирования на этапе вывода мы используем параллельную выборку для расширения использования вычислительных ресурсов и вводим мета-RM для управления процессом голосования с целью улучшения масштабируемости. Эмпирически мы показываем, что SPCT значительно улучшает качество и масштабируемость GRM, превосходя существующие методы и модели в различных тестах RM без серьезных смещений, и может достичь лучшей производительности по сравнению с масштабированием на этапе обучения. DeepSeek-GRM все еще сталкивается с трудностями в некоторых задачах, которые, как мы считаем, могут быть решены в будущих разработках универсальных систем вознаграждения. Модели будут выпущены и опубликованы в открытом доступе.

GPT-ImgEval: Комплексный бенчмарк для диагностики GPT4o в генерации изображений
GPT-ImgEval: A Comprehensive Benchmark for Diagnosing GPT4o in Image Generation

Apr 3

ByZhiyuan Yan, Junyan Ye, Weijia Li, Zilong Huang, Shenghai Yuan, Xiangyang He, Kaiqing Lin, Jun He, Conghui He, Li Yuan

Недавние прорывы в модели GPT4o от OpenAI продемонстрировали удивительно высокие способности в генерации и редактировании изображений, вызвав значительный интерес в сообществе. В данном техническом отчете представлен первый оценочный бенчмарк (названный GPT-ImgEval), который количественно и качественно анализирует производительность GPT-4o по трем ключевым направлениям: (1) качество генерации, (2) мастерство редактирования и (3) семантический синтез, основанный на знаниях о мире. Во всех трех задачах GPT-4o демонстрирует высокую производительность, значительно превосходя существующие методы как в управлении генерацией изображений, так и в качестве выходных данных, а также проявляя исключительные способности к логическому рассуждению. Кроме того, на основе данных, сгенерированных GPT-4o, мы предлагаем подход, основанный на классификационной модели, для исследования внутренней архитектуры GPT-4o. Наши эмпирические результаты позволяют предположить, что модель состоит из авторегрессивного (AR) компонента в сочетании с диффузионной головкой для декодирования изображений, а не из архитектур, подобных VAR. Мы также предлагаем полное предположение о структуре GPT-4o в целом. Дополнительно мы проводим серию анализов для выявления и визуализации конкретных ограничений GPT-4o и синтетических артефактов, часто наблюдаемых в его генерации изображений. Мы также представляем сравнительное исследование многократного редактирования изображений между GPT-4o и Gemini 2.0 Flash и обсуждаем вопросы безопасности выходных данных GPT-4o, в частности их обнаруживаемость существующими моделями криминалистического анализа изображений. Мы надеемся, что наша работа предоставит ценные инсайты и надежный бенчмарк для руководства будущими исследованиями, способствования воспроизводимости и ускорения инноваций в области генерации изображений и за ее пределами. Коды и наборы данных, использованные для оценки GPT-4o, доступны по адресу https://github.com/PicoTrex/GPT-ImgEval.

JavisDiT: Совместный аудио-видео диффузионный трансформер с иерархической синхронизацией пространственно-временных приоритетов
JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization

Mar 30

ByKai Liu, Wei Li, Lai Chen, Shengqiong Wu, Yanhao Zheng, Jiayi Ji, Fan Zhou, Rongxin Jiang, Jiebo Luo, Hao Fei, Tat-Seng Chua

В данной статье представлен JavisDiT — новый Joint Audio-Video Diffusion Transformer, разработанный для синхронизированной генерации аудио и видео (JAVG). Основанный на мощной архитектуре Diffusion Transformer (DiT), JavisDiT способен одновременно генерировать высококачественные аудио- и видеоконтент на основе открытых пользовательских запросов. Для обеспечения оптимальной синхронизации мы вводим механизм тонкого пространственно-временного выравнивания с помощью иерархического оценщика пространственно-временных синхронизированных приоритетов (HiST-Sypo). Этот модуль извлекает как глобальные, так и детализированные пространственно-временные приоритеты, направляя синхронизацию между визуальными и аудиальными компонентами. Кроме того, мы предлагаем новый бенчмарк, JavisBench, состоящий из 10 140 высококачественных видеороликов с текстовыми описаниями, охватывающих разнообразные сцены и сложные реальные сценарии. Также мы разработали надежную метрику для оценки синхронизации между сгенерированными аудио-видео парами в сложном реальном контенте. Результаты экспериментов показывают, что JavisDiT значительно превосходит существующие методы, обеспечивая как высокое качество генерации, так и точную синхронизацию, устанавливая новый стандарт для задач JAVG. Наш код, модель и набор данных будут доступны по адресу https://javisdit.github.io/.

Аудиовизуально управляемая диффузия видео с моделированием маскированных избирательных пространств состояний для генерации естественных говорящих голов
Audio-visual Controlled Video Diffusion with Masked Selective State Spaces Modeling for Natural Talking Head Generation

Apr 3

ByFa-Ting Hong, Zunnan Xu, Zixiang Zhou, Jun Zhou, Xiu Li, Qin Lin, Qinglin Lu, Dan Xu

Синтез говорящих голов имеет важное значение для виртуальных аватаров и взаимодействия человека с компьютером. Однако большинство существующих методов обычно ограничиваются управлением с помощью одного основного модальности, что снижает их практическую полезность. В связи с этим мы представляем ACTalker — сквозную видео-диффузионную структуру, которая поддерживает как управление с помощью множества сигналов, так и управление с помощью одного сигнала для генерации видео говорящих голов. Для множественного управления мы разработали параллельную структуру mamba с несколькими ветвями, каждая из которых использует отдельный управляющий сигнал для контроля определенных областей лица. Механизм гейта применяется ко всем ветвям, обеспечивая гибкое управление генерацией видео. Чтобы обеспечить естественную координацию управляемого видео как во временном, так и в пространственном измерениях, мы используем структуру mamba, которая позволяет управляющим сигналам манипулировать токенами признаков в обоих измерениях в каждой ветви. Кроме того, мы вводим стратегию mask-drop, которая позволяет каждому управляющему сигналу независимо контролировать соответствующую область лица в структуре mamba, предотвращая конфликты управления. Результаты экспериментов показывают, что наш метод создает естественно выглядящие видео лиц, управляемые разнообразными сигналами, а слой mamba бесшовно интегрирует несколько управляющих модальностей без конфликтов.

SkyReels-A2: Создание любого контента с помощью видеодиффузионных трансформеров
SkyReels-A2: Compose Anything in Video Diffusion Transformers

Apr 3

ByZhengcong Fei, Debang Li, Di Qiu, Jiahua Wang, Yikun Dou, Rui Wang, Jingtao Xu, Mingyuan Fan, Guibin Chen, Yang Li, Yahui Zhou

В данной статье представлен SkyReels-A2, управляемый фреймворк для генерации видео, способный объединять произвольные визуальные элементы (например, персонажей, объекты, фоны) в синтезированные видео на основе текстовых запросов, сохраняя при этом строгую согласованность с эталонными изображениями для каждого элемента. Мы называем эту задачу "элементы-в-видео" (E2V), основные сложности которой заключаются в сохранении точности каждого эталонного элемента, обеспечении согласованной композиции сцены и достижении естественного результата. Для решения этих задач мы сначала разработали комплексный конвейер данных для создания триплетов "запрос-эталон-видео" для обучения модели. Затем мы предложили новую модель совместного встраивания изображений и текста для внедрения представлений множества элементов в процесс генерации, балансируя между согласованностью отдельных элементов, глобальной целостностью и соответствием тексту. Мы также оптимизировали конвейер вывода для повышения скорости и стабильности результатов. Кроме того, мы представили тщательно отобранный бенчмарк для систематической оценки, A2 Bench. Эксперименты показывают, что наш фреймворк способен генерировать разнообразные высококачественные видео с точным управлением элементами. SkyReels-A2 является первой открытой коммерческой моделью для генерации E2V, демонстрирующей конкурентоспособные результаты по сравнению с передовыми закрытыми коммерческими моделями. Мы ожидаем, что SkyReels-A2 продвинет креативные приложения, такие как драматургия и виртуальная электронная коммерция, расширяя границы управляемой генерации видео.

WikiVideo: Генерация статей на основе нескольких видеороликов
WikiVideo: Article Generation from Multiple Videos

Apr 1

ByAlexander Martin, Reno Kriz, William Gantt Walden, Kate Sanders, Hannah Recknor, Eugene Yang, Francis Ferraro, Benjamin Van Durme

Мы представляем сложную задачу автоматического создания высокоуровневой статьи в стиле Википедии, которая объединяет информацию из множества разнообразных видеоматериалов о реальных событиях, таких как природные катастрофы или политические выборы. Видео являются интуитивно понятными источниками для генерации с использованием извлечения информации (RAG), однако большинство современных подходов RAG сосредоточено преимущественно на тексте, а существующие методы для видеосуммаризации ориентированы на низкоуровневое понимание сцен, а не на высокоуровневую семантику событий. Чтобы устранить этот пробел, мы представляем WikiVideo — эталонный набор, состоящий из экспертно написанных статей и плотно аннотированных видеоматериалов, которые предоставляют доказательства для утверждений в статьях, что способствует интеграции видео в RAG-процессы и позволяет создавать глубокий контент, основанный на мультимодальных источниках. Мы также предлагаем Collaborative Article Generation (CAG) — новый интерактивный метод создания статей из нескольких видеоматериалов. CAG использует итеративное взаимодействие между моделью рассуждений в стиле r1 и VideoLLM для вывода более высокоуровневых заключений о целевом событии, чем это возможно с использованием только VideoLLM, которые сосредоточены на низкоуровневых визуальных признаках. Мы тестируем современные VideoLLM и CAG в условиях как оракульного извлечения, так и RAG и обнаруживаем, что CAG стабильно превосходит альтернативные методы, одновременно предлагая интригующие направления для будущих исследований.

Переосмысление масштабирования обучения с подкреплением для моделей обработки зрения и языка: прозрачная, с нуля разработанная структура и всеобъемлющая схема оценки
Rethinking RL Scaling for Vision Language Models: A Transparent, From-Scratch Framework and Comprehensive Evaluation Scheme

Apr 3

ByYan Ma, Steffi Chern, Xuyang Shen, Yiran Zhong, Pengfei Liu

Обучение с подкреплением (RL) недавно продемонстрировало значительный потенциал в улучшении способностей к рассуждению у крупных языковых моделей и теперь активно распространяется на визуально-языковые модели (VLMs). Однако существующие применения RL в VLMs часто опираются на сложные, тщательно разработанные фреймворки, которые затрудняют воспроизводимость и доступность, а также отсутствие стандартизированных протоколов оценки, что делает сложным сравнение результатов или интерпретацию динамики обучения. В данной работе представлен прозрачный, созданный с нуля фреймворк для RL в VLMs, предлагающий минимальный, но функциональный четырехэтапный процесс, проверенный на множестве моделей и наборов данных. Кроме того, предложена стандартизированная схема оценки для анализа динамики обучения и рефлексивного поведения. Обширные эксперименты на задачах визуального рассуждения выявили ключевые эмпирические результаты: длина ответа чувствительна к случайным начальным значениям, рефлексия коррелирует с длиной вывода, а RL стабильно превосходит тонкую настройку с учителем (SFT) в обобщении, даже при использовании высококачественных данных. Эти результаты, вместе с предложенным фреймворком, направлены на создание воспроизводимой базовой линии и поддержку более широкого вовлечения в исследования VLMs на основе RL.

Анализ масштабирования переплетённых рече-текстовых языковых моделей
Scaling Analysis of Interleaved Speech-Text Language Models

Apr 3

ByGallil Maimon, Michael Hassid, Amit Roth, Yossi Adi

Существующий анализ масштабирования речевых языковых моделей (Speech Language Models, SLMs) рисует довольно мрачную картину. Он предсказывает, что SLM требуют значительно больше вычислительных ресурсов и данных по сравнению с текстовыми моделями, что заставляет некоторых сомневаться в возможности обучения высококачественных SLM. Однако современные SLM часто инициализируются на основе предварительно обученных текстовых языковых моделей (TextLMs) с использованием чередования речи и текста для передачи знаний. Это поднимает вопрос: масштабируются ли SLM с чередованием более эффективно, чем SLM без использования текста? В данной статье мы даем однозначный ответ — да! Мы проводим анализ масштабирования SLM с чередованием, обучая несколько десятков моделей и изучая тенденции масштабирования. Мы видим, что в такой конфигурации SLM масштабируются более эффективно с точки зрения вычислительных ресурсов. Кроме того, наши результаты показывают, что динамика масштабирования значительно отличается от SLM без текста, что указывает на необходимость выделять заметно больше вычислительного бюджета на увеличение размера модели, а не на количество токенов для обучения. Мы также изучаем роль синтетических данных и семейств моделей TextLM в раскрытии этого потенциала. Результаты показывают, что наша масштабированная модель достигает сопоставимой производительности с ведущими моделями по метрикам семантики речи, используя при этом меньше вычислительных ресурсов и данных, чем другие подходы. Мы открываем исходные коды моделей, примеры и данные — https://pages.cs.huji.ac.il/adiyoss-lab/sims.

ShortV: Эффективные мультимодальные большие языковые модели за счет заморозки визуальных токенов в неэффективных слоях
ShortV: Efficient Multimodal Large Language Models by Freezing Visual Tokens in Ineffective Layers

Apr 1

ByQianhao Yuan, Qingyu Zhang, Yanjiang Liu, Jiawei Chen, Yaojie Lu, Hongyu Lin, Jia Zheng, Xianpei Han, Le Sun

Мультимодальные большие языковые модели (MLLMs) сталкиваются с высокими вычислительными затратами из-за их огромного размера и большого количества визуальных токенов. В данной статье мы исследуем избыточность на уровне слоев в MLLMs, вводя новый метрический показатель — Вклад Слоя (Layer Contribution, LC), который количественно оценивает влияние преобразований слоя на визуальные и текстовые токены соответственно. Расчет LC включает измерение расхождения в выходных данных модели, возникающего при удалении преобразований слоя для указанных токенов. Наш пилотный эксперимент показывает, что многие слои MLLMs вносят минимальный вклад при обработке визуальных токенов. Вдохновленные этим наблюдением, мы предлагаем ShortV — метод, не требующий обучения, который использует LC для выявления неэффективных слоев и замораживает обновления визуальных токенов в этих слоях. Эксперименты демонстрируют, что ShortV может заморозить визуальные токены примерно в 60\% слоев MLLM, что значительно снижает вычислительные затраты, связанные с обновлением визуальных токенов. Например, метод достигает 50\% сокращения FLOPs на модели LLaVA-NeXT-13B при сохранении превосходной производительности. Код будет общедоступен по адресу https://github.com/icip-cas/ShortV.

FreSca: Исследование пространства масштабирования в диффузионных моделях
FreSca: Unveiling the Scaling Space in Diffusion Models

Apr 2

ByChao Huang, Susan Liang, Yunlong Tang, Li Ma, Yapeng Tian, Chenliang Xu

Диффузионные модели демонстрируют впечатляющую управляемость в задачах обработки изображений, в основном благодаря предсказаниям шума, которые кодируют информацию, специфичную для задачи, и механизму классификатор-фри гида, позволяющему регулировать масштабирование. Этот механизм масштабирования неявно определяет «пространство масштабирования», потенциал которого для тонкой семантической манипуляции остается недостаточно изученным. Мы исследуем это пространство, начиная с редактирования на основе инверсии, где разница между условными и безусловными предсказаниями шума несет ключевую семантическую информацию. Наш основной вклад заключается в анализе Фурье предсказаний шума, который показывает, что их низко- и высокочастотные компоненты развиваются по-разному в процессе диффузии. На основе этого наблюдения мы представляем FreSca — простой метод, который применяет масштабирование гида независимо к различным частотным полосам в частотной области. FreSca заметно улучшает существующие методы редактирования изображений без необходимости переобучения. Удивительно, что его эффективность распространяется и на задачи понимания изображений, такие как оценка глубины, приводя к количественным улучшениям на нескольких наборах данных.

Эффективный выбор моделей для прогнозирования временных рядов с использованием больших языковых моделей
Efficient Model Selection for Time Series Forecasting via LLMs

Apr 2

ByWang Wei, Tiankai Yang, Hongjie Chen, Ryan A. Rossi, Yue Zhao, Franck Dernoncourt, Hoda Eldardiry

Выбор модели является критически важным этапом в прогнозировании временных рядов, традиционно требующим обширной оценки производительности на различных наборах данных. Методы метаобучения направлены на автоматизацию этого процесса, но они обычно зависят от предварительно построенных матриц производительности, создание которых требует значительных затрат. В данной работе мы предлагаем использовать крупные языковые модели (LLM) в качестве легковесной альтернативы для выбора модели. Наш метод устраняет необходимость в явных матрицах производительности, используя внутренние знания и способности к рассуждению, присущие LLM. В ходе обширных экспериментов с моделями LLaMA, GPT и Gemini мы демонстрируем, что наш подход превосходит традиционные методы метаобучения и эвристические базовые методы, при этом значительно снижая вычислительные затраты. Эти результаты подчеркивают потенциал LLM в эффективном выборе моделей для прогнозирования временных рядов.

OpenCodeReasoning: Развитие методов дистилляции данных для соревновательного программирования
OpenCodeReasoning: Advancing Data Distillation for Competitive Coding

Apr 2

ByWasi Uddin Ahmad, Sean Narenthiran, Somshubra Majumdar, Aleksander Ficek, Siddhartha Jain, Jocelyn Huang, Vahid Noroozi, Boris Ginsburg

С момента появления крупных языковых моделей, основанных на рассуждениях, многие добились значительных успехов в передаче способностей к рассуждению в модели-студенты. Такие методы существенно сократили разрыв между моделями, способными к рассуждениям, и стандартными языковыми моделями в задачах, связанных с программированием. Однако большая часть прогресса в области дистилляции моделей с рассуждениями остается недоступной из-за использования проприетарных наборов данных или отсутствия подробностей о процессе сбора, фильтрации и последующего обучения данных. Чтобы решить эту проблему, мы создали высококачественный набор данных для контролируемой тонкой настройки (SFT), который позволил нам достичь наилучших результатов в задачах программирования для моделей различных размеров. Наши дистиллированные модели, использующие только SFT, достигают 61,8% на LiveCodeBench и 24,6% на CodeContests, превосходя альтернативы, обученные с использованием обучения с подкреплением. Мы также проводим анализ источников данных, использованных для создания нашего набора, влияния фильтрации на основе выполнения кода и важности разнообразия инструкций и решений. Мы обнаружили, что фильтрация на основе выполнения кода негативно сказалась на точности на тестовых данных, что привело нас к приоритету разнообразия инструкций над корректностью решений. Наконец, мы также анализируем эффективность использования токенов и паттерны рассуждений, используемые этими моделями. Мы планируем открыть исходные коды этих наборов данных и дистиллированных моделей для сообщества.

GenPRM: Масштабирование вычислительных ресурсов на этапе тестирования моделей оценки процессов с помощью генеративного рассуждения
GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning

Apr 1

ByJian Zhao, Runze Liu, Kaiyan Zhang, Zhimu Zhou, Junqi Gao, Dong Li, Jiafei Lyu, Zhouyi Qian, Biqing Qi, Xiu Li, Bowen Zhou

Последние достижения в области больших языковых моделей (LLM) показали, что использование моделей вознаграждения процессов (PRM) в качестве верификаторов для повышения производительности LLM является перспективным подходом. Однако современные PRM сталкиваются с тремя ключевыми проблемами: (1) ограниченные возможности процессуального контроля и обобщения, (2) зависимость от предсказания скалярных значений без использования генеративных способностей LLM и (3) невозможность масштабирования вычислительных ресурсов PRM на этапе тестирования. В данной работе мы представляем GenPRM — генеративную модель вознаграждения процессов, которая выполняет явное рассуждение по цепочке мыслей (CoT) с проверкой кода перед вынесением суждения для каждого шага рассуждения. Для получения высококачественных меток процессуального контроля и данных с обоснованиями мы предлагаем метод оценки относительного прогресса (RPE) и фреймворк синтеза обоснований, включающий проверку кода. Экспериментальные результаты на ProcessBench и нескольких задачах математического рассуждения показывают, что GenPRM значительно превосходит предыдущие PRM, используя всего 23K обучающих данных из набора MATH. Благодаря масштабированию на этапе тестирования, GenPRM с 1,5 миллиардами параметров превосходит GPT-4o, а GenPRM с 7 миллиардами параметров обходит Qwen2.5-Math-PRM-72B на ProcessBench. Кроме того, GenPRM демонстрирует сильные способности в качестве критической модели для уточнения моделей политик. Эта работа устанавливает новую парадигму процессуального контроля, которая устраняет разрыв между PRM и критическими моделями в LLM. Наш код, модель и данные будут доступны по адресу https://ryanliu112.github.io/GenPRM.

Закономерности масштабирования в научных открытиях с использованием ИИ и роботов-учёных
Scaling Laws in Scientific Discovery with AI and Robot Scientists

Mar 28

ByPengsong Zhang, Heng Zhang, Huazhe Xu, Renjun Xu, Zhenting Wang, Cong Wang, Animesh Garg, Zhibin Li, Arash Ajoudani, Xinyu Liu

Научные открытия готовы к стремительному прогрессу благодаря передовым робототехнике и искусственному интеллекту. Современные научные практики сталкиваются с существенными ограничениями, поскольку ручные эксперименты остаются трудоемкими и ресурсозатратными, а междисциплинарные исследования требуют интеграции знаний, выходящей за пределы компетенций отдельных ученых. Здесь мы представляем концепцию автономного универсального ученого (Autonomous Generalist Scientist, AGS), который объединяет агентный ИИ и воплощенную робототехнику для автоматизации всего жизненного цикла исследований. Эта система способна динамически взаимодействовать как с физическими, так и с виртуальными средами, одновременно способствуя интеграции знаний из различных научных дисциплин. Внедряя эти технологии на всех этапах исследований — от обзора литературы и генерации гипотез до экспериментов и написания научных статей — и включая внутреннюю рефлексию наряду с внешней обратной связью, эта система стремится значительно сократить время и ресурсы, необходимые для научных открытий. Опираясь на эволюцию от виртуальных ИИ-ученых к универсальным роботам-ученым на основе ИИ, AGS обещает революционный потенциал. По мере того как эти автономные системы все глубже интегрируются в исследовательский процесс, мы предполагаем, что научные открытия могут подчиняться новым законам масштабирования, потенциально определяемым количеством и возможностями этих автономных систем, предлагая новые перспективы на то, как генерируется и развивается знание. Адаптивность воплощенных роботов к экстремальным условиям в сочетании с эффектом маховика накопления научных знаний открывает перспективы постоянного выхода за пределы как физических, так и интеллектуальных границ.

Интерпретация возникающего планирования в обучении с подкреплением без модели
Interpreting Emergent Planning in Model-Free Reinforcement Learning

Apr 2

ByThomas Bush, Stephen Chung, Usman Anwar, Adrià Garriga-Alonso, David Krueger

Мы представляем первые механистические доказательства того, что агенты, основанные на обучении с подкреплением без модели, могут научиться планированию. Это достигается за счет применения методологии, основанной на интерпретируемости через концепты, к агенту без модели в среде Sokoban — широко используемом бенчмарке для изучения планирования. В частности, мы демонстрируем, что DRC, универсальный агент без модели, представленный Guez et al. (2019), использует изученные представления концептов для внутреннего формирования планов, которые как предсказывают долгосрочные эффекты действий на среду, так и влияют на выбор действий. Наша методология включает: (1) поиск концептов, релевантных для планирования, (2) исследование формирования планов в представлениях агента и (3) проверку того, что обнаруженные планы (в представлениях агента) оказывают причинное влияние на поведение агента через вмешательства. Мы также показываем, что появление этих планов совпадает с возникновением свойства, похожего на планирование: способности извлекать выгоду из дополнительных вычислительных ресурсов во время тестирования. Наконец, мы проводим качественный анализ алгоритма планирования, изученного агентом, и обнаруживаем сильное сходство с параллелизованным двунаправленным поиском. Наши результаты углубляют понимание внутренних механизмов, лежащих в основе поведения планирования у агентов, что особенно важно в свете недавней тенденции появления способностей к планированию и рассуждению у крупных языковых моделей (LLM) через обучение с подкреплением.

NeuralGS: Объединение нейронных полей и 3D-гауссовского сплаттинга для компактных 3D-представлений
NeuralGS: Bridging Neural Fields and 3D Gaussian Splatting for Compact 3D Representations

Mar 29

ByZhenyu Tang, Chaoran Feng, Xinhua Cheng, Wangbo Yu, Junwu Zhang, Yuan Liu, Xiaoxiao Long, Wenping Wang, Li Yuan

3D Gaussian Splatting (3DGS) демонстрирует превосходное качество и скорость рендеринга, однако требует использования миллионов 3D-гауссов и значительных затрат на хранение и передачу данных. Современные методы сжатия 3DGS в основном сосредоточены на сжатии Scaffold-GS, достигая впечатляющих результатов, но за счет использования дополнительной воксельной структуры и сложной стратегии кодирования и квантования. В данной работе мы стремимся разработать простой, но эффективный метод под названием NeuralGS, который исследует альтернативный подход к сжатию исходного 3DGS в компактное представление без использования воксельной структуры и сложных стратегий квантования. Мы отмечаем, что нейронные поля, такие как NeRF, могут представлять сложные 3D-сцены с помощью многослойных перцептронов (MLP), используя всего несколько мегабайт. Таким образом, NeuralGS эффективно применяет представление нейронных полей для кодирования атрибутов 3D-гауссов с использованием MLP, что требует минимального объема памяти даже для крупномасштабных сцен. Для достижения этого мы используем стратегию кластеризации и аппроксимируем гауссовы с помощью различных небольших MLP для каждого кластера, основываясь на важности гауссов в качестве весов аппроксимации. Мы проводим эксперименты на нескольких наборах данных, достигая в среднем 45-кратного уменьшения размера модели без ущерба для визуального качества. Результаты сжатия нашего метода для исходного 3DGS сопоставимы с методами, разработанными специально для Scaffold-GS, что демонстрирует огромный потенциал прямого сжатия исходного 3DGS с использованием нейронных полей.

Разреженные автоэнкодеры изучают моносемантические признаки в моделях "визуализация-язык"
Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models

Apr 3

ByMateusz Pach, Shyamgopal Karthik, Quentin Bouniot, Serge Belongie, Zeynep Akata

Разреженные автоэнкодеры (SAE) недавно продемонстрировали свою способность повышать интерпретируемость и управляемость в крупных языковых моделях (LLM). В данной работе мы расширяем применение SAE на визуально-языковые модели (VLM), такие как CLIP, и представляем комплексную структуру для оценки моносимантичности в визуальных представлениях. Наши экспериментальные результаты показывают, что SAE, обученные на VLM, значительно повышают моносимантичность отдельных нейронов, а также демонстрируют иерархические представления, которые хорошо согласуются с экспертными структурами (например, таксономией iNaturalist). Наиболее важно то, что мы демонстрируем, что применение SAE для вмешательства в визуальный кодировщик CLIP позволяет напрямую управлять выходом мультимодальных LLM (например, LLaVA) без каких-либо изменений в базовой модели. Эти результаты подчеркивают практичность и эффективность SAE как неконтролируемого подхода для повышения как интерпретируемости, так и управляемости VLM.

Whisper-LM: Улучшение моделей автоматического распознавания речи с использованием языковых моделей для малоресурсных языков
Whisper-LM: Improving ASR Models with Language Models for Low-Resource Languages

Mar 30

ByXabier de Zuazo, Eva Navas, Ibon Saratxaga, Inma Hernáez Rioja

Системы автоматического распознавания речи, несомненно, продвинулись вперед благодаря интеграции многоязычных и многозадачных моделей, таких как Whisper, которые продемонстрировали впечатляющую способность понимать и обрабатывать речь на широком спектре языков. Несмотря на их устойчивость, эти модели часто оказываются недостаточно эффективными в обработке лингвистических особенностей языков меньшинств. Данное исследование направлено на устранение этого пробела путем интеграции традиционных и новых языковых моделей с тонко настроенными моделями Whisper для повышения их производительности в менее изученных языках. Благодаря тщательной настройке и оценке на множестве наборов данных мы демонстрируем значительное улучшение показателя ошибок на слово, особенно в условиях ограниченных ресурсов. Наш подход не только использует преимущества обширных данных, на которых была предварительно обучена модель Whisper, но и дополняет ее лингвистическую адаптивность за счет включения языковых моделей. Мы получили улучшения до 51\% для наборов данных, соответствующих распределению, и до 34\% для предложений, выходящих за пределы распределения, с использованием статистических языковых моделей, в то время как крупные языковые модели обеспечили умеренное, но стабильно надежное улучшение в различных лингвистических контекстах. Результаты показывают, что, хотя интеграция приносит пользу для всех размеров моделей, степень улучшения варьируется, что подчеркивает важность оптимизации параметров языковых моделей. Наконец, мы подчеркиваем важность выбора подходящих параметров оценки при представлении результатов с использованием трансформерных моделей ASR. В заключение, данное исследование прокладывает путь к более инклюзивным технологиям ASR, которые демонстрируют лучшую производительность на различных языках за счет обогащения их лингвистических знаний. Для получения дополнительных сведений о реализации этого исследования техническая документация и исходный код доступны по адресу http://www.github.com/hitz-zentroa/whisper-lm.

Генерация параметров авторегрессионной нейронной сети с управлением по инструкциям
Instruction-Guided Autoregressive Neural Network Parameter Generation

Apr 2

BySoro Bedionita, Bruno Andreis, Song Chong, Sung Ju Hwang

Обучение генерации параметров нейронных сетей, обусловленных описаниями задач и спецификациями архитектуры, является ключевым для повышения адаптируемости моделей и улучшения трансферного обучения. Существующие методы, особенно основанные на диффузионных моделях, страдают от ограниченной масштабируемости для крупных архитектур, жесткости в обработке различных глубин сети и разрозненной генерации параметров, что подрывает согласованность между слоями. В данной работе мы предлагаем IGPG (Instruction Guided Parameter Generation) — авторегрессионную структуру, которая объединяет синтез параметров для различных задач и архитектур. IGPG использует VQ-VAE и авторегрессионную модель для генерации параметров нейронных сетей, обусловленных инструкциями задач, данными и деталями архитектуры. Авторегрессионно генерируя токены весов нейронных сетей, IGPG обеспечивает согласованность между слоями и позволяет эффективно адаптироваться к различным моделям и наборам данных. Работая на уровне токенов, IGPG эффективно захватывает сложные распределения параметров, агрегированные из широкого спектра предобученных моделей. Многочисленные эксперименты на нескольких наборах визуальных данных демонстрируют, что IGPG объединяет разнообразные предобученные модели в единую гибкую генеративную структуру. Синтезированные параметры достигают конкурентоспособной или превосходящей производительности по сравнению с современными методами, особенно в плане масштабируемости и эффективности при применении к крупным архитектурам. Эти результаты подчеркивают потенциал IGPG как мощного инструмента для извлечения предобученных весов, выбора моделей и быстрой тонкой настройки для конкретных задач.

Сцен-центричная неконтролируемая панорамная сегментация
Scene-Centric Unsupervised Panoptic Segmentation

Apr 2

ByOliver Hahn, Christoph Reich, Nikita Araslanov, Daniel Cremers, Christian Rupprecht, Stefan Roth

Независимая панорамная сегментация ставит целью разделение изображения на семантически значимые области и отдельные экземпляры объектов без обучения на данных с ручной разметкой. В отличие от предыдущих работ по независимому панорамному пониманию сцен, мы устраняем необходимость в объектно-ориентированных обучающих данных, что позволяет независимо понимать сложные сцены. Для этого мы представляем первый метод независимой панорамной сегментации, который напрямую обучается на сценово-ориентированных изображениях. В частности, мы предлагаем подход для получения высококачественных псевдоразметок панорамной сегментации на сложных сценово-ориентированных данных, объединяя визуальные представления, данные о глубине и движении. Использование как обучения на псевдоразметках, так и стратегии самодообучения для панорамной сегментации приводит к новому подходу, который точно предсказывает панорамную сегментацию сложных сцен без необходимости в каких-либо человеческих аннотациях. Наш подход значительно улучшает качество панорамной сегментации, например, превосходя последние достижения в независимой панорамной сегментации на наборе данных Cityscapes на 9,4 процентных пункта по метрике PQ.