Ежедневно отобранные исследовательские статьи по ИИ с переводами
Появление крупных языковых моделей (LLM) стало катализатором трансформационных изменений в области искусственного интеллекта, открыв путь для создания продвинутых интеллектуальных агентов, способных к сложным рассуждениям, устойчивому восприятию и универсальным действиям в различных областях. По мере того как эти агенты всё больше влияют на исследования и практические применения ИИ, их проектирование, оценка и постоянное совершенствование представляют собой сложные, многогранные задачи. Данный обзор предлагает всесторонний взгляд, рассматривая интеллектуальных агентов в рамках модульной, вдохновлённой мозгом архитектуры, которая интегрирует принципы когнитивной науки, нейробиологии и вычислительных исследований. Мы структурируем наше исследование в четыре взаимосвязанные части. Во-первых, мы углубляемся в модульную основу интеллектуальных агентов, систематически сопоставляя их когнитивные, перцептивные и операционные модули с аналогичными функциями человеческого мозга, а также раскрывая ключевые компоненты, такие как память, моделирование мира, обработка вознаграждений и системы, напоминающие эмоции. Во-вторых, мы обсуждаем механизмы самоулучшения и адаптивной эволюции, исследуя, как агенты автономно совершенствуют свои способности, адаптируются к динамичным средам и достигают непрерывного обучения через автоматизированные парадигмы оптимизации, включая новые стратегии AutoML и оптимизации на основе LLM. В-третьих, мы рассматриваем коллаборативные и эволюционные мультиагентные системы, изучая коллективный интеллект, возникающий в результате взаимодействия агентов, их сотрудничества и социальных структур, подчеркивая параллели с человеческой социальной динамикой. Наконец, мы обращаемся к критически важной задаче создания безопасных, защищённых и полезных систем ИИ, акцентируя внимание на внутренних и внешних угрозах безопасности, этической согласованности, устойчивости и практических стратегиях смягчения рисков, необходимых для доверенного внедрения в реальном мире.
Обучение больших языковых моделей (LLM) сопряжено с многочисленными трудностями, включая нестабильность градиентов и скачки потерь. Эти явления могут привести к катастрофической дивергенции, что потребует дорогостоящего восстановления контрольных точек и пропуска пакетов данных. Традиционные методы ограничения градиентов, такие как постоянные или основанные на норме подходы, неэффективно решают эти проблемы из-за их зависимости от фиксированных порогов или эвристик, что приводит к неэффективному обучению и частому ручному вмешательству. В данной работе мы предлагаем ZClip — адаптивный алгоритм ограничения градиентов, который динамически регулирует порог ограничения на основе статистических свойств норм градиентов с течением времени. В отличие от предыдущих реактивных стратегий, ZClip активно адаптируется к динамике обучения, не делая никаких предварительных предположений о масштабе и временной эволюции норм градиентов. В основе алгоритма лежит использование z-оценки для обнаружения аномалий, что позволяет выявлять и смягчать крупные скачки градиентов, предотвращая вредоносные скачки потерь, не нарушая при этом сходимости в остальных случаях. Наш код доступен по адресу: https://github.com/bluorion-com/ZClip.
Крупные мультимодальные модели (LMM) достигли значительного прогресса в области визуального понимания и генерации, однако они по-прежнему сталкиваются с трудностями в задачах общего визуального редактирования, особенно в следовании сложным инструкциям, сохранении согласованности внешнего вида и поддержке гибких форматов входных данных. Чтобы устранить этот пробел, мы представляем RISEBench — первый бенчмарк для оценки визуального редактирования, основанного на рассуждениях (Reasoning-Informed viSual Editing, RISE). RISEBench фокусируется на четырех ключевых типах рассуждений: временных, причинно-следственных, пространственных и логических. Мы подготовили высококачественные тестовые примеры для каждой категории и предложили оценочную структуру, которая оценивает рассуждения на основе инструкций, согласованность внешнего вида и визуальную правдоподобность с использованием как человеческих оценщиков, так и подхода LMM-as-a-judge. Наши эксперименты показывают, что, хотя GPT-4o-Native значительно превосходит другие открытые и проприетарные модели, даже эта передовая система испытывает трудности с задачами логического рассуждения, что подчеркивает область, которая остается недостаточно изученной. В качестве начального усилия RISEBench стремится предоставить фундаментальные инсайты в визуальное редактирование с учетом рассуждений и стимулировать будущие исследования. Хотя проект находится на ранней стадии, мы стремимся к постоянному расширению и улучшению бенчмарка для поддержки более комплексных, надежных и масштабируемых оценок мультимодальных систем следующего поколения. Наш код и данные будут опубликованы по адресу https://github.com/PhoenixZ810/RISEBench.
Недавние прорывы в модели GPT4o от OpenAI продемонстрировали удивительно высокие способности в генерации и редактировании изображений, вызвав значительный интерес в сообществе. В данном техническом отчете представлен первый оценочный бенчмарк (названный GPT-ImgEval), который количественно и качественно анализирует производительность GPT-4o по трем ключевым направлениям: (1) качество генерации, (2) мастерство редактирования и (3) семантический синтез, основанный на знаниях о мире. Во всех трех задачах GPT-4o демонстрирует высокую производительность, значительно превосходя существующие методы как в управлении генерацией изображений, так и в качестве выходных данных, а также проявляя исключительные способности к логическому рассуждению. Кроме того, на основе данных, сгенерированных GPT-4o, мы предлагаем подход, основанный на классификационной модели, для исследования внутренней архитектуры GPT-4o. Наши эмпирические результаты позволяют предположить, что модель состоит из авторегрессивного (AR) компонента в сочетании с диффузионной головкой для декодирования изображений, а не из архитектур, подобных VAR. Мы также предлагаем полное предположение о структуре GPT-4o в целом. Дополнительно мы проводим серию анализов для выявления и визуализации конкретных ограничений GPT-4o и синтетических артефактов, часто наблюдаемых в его генерации изображений. Мы также представляем сравнительное исследование многократного редактирования изображений между GPT-4o и Gemini 2.0 Flash и обсуждаем вопросы безопасности выходных данных GPT-4o, в частности их обнаруживаемость существующими моделями криминалистического анализа изображений. Мы надеемся, что наша работа предоставит ценные инсайты и надежный бенчмарк для руководства будущими исследованиями, способствования воспроизводимости и ускорения инноваций в области генерации изображений и за ее пределами. Коды и наборы данных, использованные для оценки GPT-4o, доступны по адресу https://github.com/PicoTrex/GPT-ImgEval.
В данной статье представлен JavisDiT — новый Joint Audio-Video Diffusion Transformer, разработанный для синхронизированной генерации аудио и видео (JAVG). Основанный на мощной архитектуре Diffusion Transformer (DiT), JavisDiT способен одновременно генерировать высококачественные аудио- и видеоконтент на основе открытых пользовательских запросов. Для обеспечения оптимальной синхронизации мы вводим механизм тонкого пространственно-временного выравнивания с помощью иерархического оценщика пространственно-временных синхронизированных приоритетов (HiST-Sypo). Этот модуль извлекает как глобальные, так и детализированные пространственно-временные приоритеты, направляя синхронизацию между визуальными и аудиальными компонентами. Кроме того, мы предлагаем новый бенчмарк, JavisBench, состоящий из 10 140 высококачественных видеороликов с текстовыми описаниями, охватывающих разнообразные сцены и сложные реальные сценарии. Также мы разработали надежную метрику для оценки синхронизации между сгенерированными аудио-видео парами в сложном реальном контенте. Результаты экспериментов показывают, что JavisDiT значительно превосходит существующие методы, обеспечивая как высокое качество генерации, так и точную синхронизацию, устанавливая новый стандарт для задач JAVG. Наш код, модель и набор данных будут доступны по адресу https://javisdit.github.io/.
Обучение с подкреплением (RL) широко применяется для посттренировки крупных языковых моделей (LLM) в масштабе. Недавние исследования показывают, что стимулирование способностей к рассуждению в LLM с помощью RL указывает на то, что правильные методы обучения могут обеспечить эффективную масштабируемость на этапе вывода. Основная задача RL заключается в получении точных сигналов вознаграждения для LLM в различных областях, выходящих за рамки проверяемых вопросов или искусственных правил. В данной работе мы исследуем, как улучшить моделирование вознаграждения (RM) с использованием большего объема вычислительных ресурсов для общих запросов, то есть масштабируемость универсального RM на этапе вывода, и, кроме того, как повысить эффективность масштабирования производительности и вычислительных ресурсов с помощью правильных методов обучения. Для подхода RM мы применяем точечное генеративное моделирование вознаграждения (GRM), что обеспечивает гибкость для различных типов входных данных и потенциал для масштабирования на этапе вывода. В качестве метода обучения мы предлагаем Self-Principled Critique Tuning (SPCT) для развития масштабируемых поведений генерации вознаграждения в GRM через онлайн RL, что позволяет адаптивно генерировать принципы и точно формулировать критические оценки, что приводит к созданию моделей DeepSeek-GRM. Кроме того, для эффективного масштабирования на этапе вывода мы используем параллельную выборку для расширения использования вычислительных ресурсов и вводим мета-RM для управления процессом голосования с целью улучшения масштабируемости. Эмпирически мы показываем, что SPCT значительно улучшает качество и масштабируемость GRM, превосходя существующие методы и модели в различных тестах RM без серьезных смещений, и может достичь лучшей производительности по сравнению с масштабированием на этапе обучения. DeepSeek-GRM все еще сталкивается с трудностями в некоторых задачах, которые, как мы считаем, могут быть решены в будущих разработках универсальных систем вознаграждения. Модели будут выпущены и опубликованы в открытом доступе.
Синтез говорящих голов имеет важное значение для виртуальных аватаров и взаимодействия человека с компьютером. Однако большинство существующих методов обычно ограничиваются управлением с помощью одного основного модальности, что снижает их практическую полезность. В связи с этим мы представляем ACTalker — сквозную видео-диффузионную структуру, которая поддерживает как управление с помощью множества сигналов, так и управление с помощью одного сигнала для генерации видео говорящих голов. Для множественного управления мы разработали параллельную структуру mamba с несколькими ветвями, каждая из которых использует отдельный управляющий сигнал для контроля определенных областей лица. Механизм гейта применяется ко всем ветвям, обеспечивая гибкое управление генерацией видео. Чтобы обеспечить естественную координацию управляемого видео как во временном, так и в пространственном измерениях, мы используем структуру mamba, которая позволяет управляющим сигналам манипулировать токенами признаков в обоих измерениях в каждой ветви. Кроме того, мы вводим стратегию mask-drop, которая позволяет каждому управляющему сигналу независимо контролировать соответствующую область лица в структуре mamba, предотвращая конфликты управления. Результаты экспериментов показывают, что наш метод создает естественно выглядящие видео лиц, управляемые разнообразными сигналами, а слой mamba бесшовно интегрирует несколько управляющих модальностей без конфликтов.
В данной статье представлен SkyReels-A2, управляемый фреймворк для генерации видео, способный объединять произвольные визуальные элементы (например, персонажей, объекты, фоны) в синтезированные видео на основе текстовых запросов, сохраняя при этом строгую согласованность с эталонными изображениями для каждого элемента. Мы называем эту задачу "элементы-в-видео" (E2V), основные сложности которой заключаются в сохранении точности каждого эталонного элемента, обеспечении согласованной композиции сцены и достижении естественного результата. Для решения этих задач мы сначала разработали комплексный конвейер данных для создания триплетов "запрос-эталон-видео" для обучения модели. Затем мы предложили новую модель совместного встраивания изображений и текста для внедрения представлений множества элементов в процесс генерации, балансируя между согласованностью отдельных элементов, глобальной целостностью и соответствием тексту. Мы также оптимизировали конвейер вывода для повышения скорости и стабильности результатов. Кроме того, мы представили тщательно отобранный бенчмарк для систематической оценки, A2 Bench. Эксперименты показывают, что наш фреймворк способен генерировать разнообразные высококачественные видео с точным управлением элементами. SkyReels-A2 является первой открытой коммерческой моделью для генерации E2V, демонстрирующей конкурентоспособные результаты по сравнению с передовыми закрытыми коммерческими моделями. Мы ожидаем, что SkyReels-A2 продвинет креативные приложения, такие как драматургия и виртуальная электронная коммерция, расширяя границы управляемой генерации видео.
Мы представляем сложную задачу автоматического создания высокоуровневой статьи в стиле Википедии, которая объединяет информацию из множества разнообразных видеоматериалов о реальных событиях, таких как природные катастрофы или политические выборы. Видео являются интуитивно понятными источниками для генерации с использованием извлечения информации (RAG), однако большинство современных подходов RAG сосредоточено преимущественно на тексте, а существующие методы для видеосуммаризации ориентированы на низкоуровневое понимание сцен, а не на высокоуровневую семантику событий. Чтобы устранить этот пробел, мы представляем WikiVideo — эталонный набор, состоящий из экспертно написанных статей и плотно аннотированных видеоматериалов, которые предоставляют доказательства для утверждений в статьях, что способствует интеграции видео в RAG-процессы и позволяет создавать глубокий контент, основанный на мультимодальных источниках. Мы также предлагаем Collaborative Article Generation (CAG) — новый интерактивный метод создания статей из нескольких видеоматериалов. CAG использует итеративное взаимодействие между моделью рассуждений в стиле r1 и VideoLLM для вывода более высокоуровневых заключений о целевом событии, чем это возможно с использованием только VideoLLM, которые сосредоточены на низкоуровневых визуальных признаках. Мы тестируем современные VideoLLM и CAG в условиях как оракульного извлечения, так и RAG и обнаруживаем, что CAG стабильно превосходит альтернативные методы, одновременно предлагая интригующие направления для будущих исследований.
Обучение с подкреплением (RL) недавно продемонстрировало значительный потенциал в улучшении способностей к рассуждению у крупных языковых моделей и теперь активно распространяется на визуально-языковые модели (VLMs). Однако существующие применения RL в VLMs часто опираются на сложные, тщательно разработанные фреймворки, которые затрудняют воспроизводимость и доступность, а также отсутствие стандартизированных протоколов оценки, что делает сложным сравнение результатов или интерпретацию динамики обучения. В данной работе представлен прозрачный, созданный с нуля фреймворк для RL в VLMs, предлагающий минимальный, но функциональный четырехэтапный процесс, проверенный на множестве моделей и наборов данных. Кроме того, предложена стандартизированная схема оценки для анализа динамики обучения и рефлексивного поведения. Обширные эксперименты на задачах визуального рассуждения выявили ключевые эмпирические результаты: длина ответа чувствительна к случайным начальным значениям, рефлексия коррелирует с длиной вывода, а RL стабильно превосходит тонкую настройку с учителем (SFT) в обобщении, даже при использовании высококачественных данных. Эти результаты, вместе с предложенным фреймворком, направлены на создание воспроизводимой базовой линии и поддержку более широкого вовлечения в исследования VLMs на основе RL.
Существующий анализ масштабирования речевых языковых моделей (Speech Language Models, SLMs) рисует довольно мрачную картину. Он предсказывает, что SLM требуют значительно больше вычислительных ресурсов и данных по сравнению с текстовыми моделями, что заставляет некоторых сомневаться в возможности обучения высококачественных SLM. Однако современные SLM часто инициализируются на основе предварительно обученных текстовых языковых моделей (TextLMs) с использованием чередования речи и текста для передачи знаний. Это поднимает вопрос: масштабируются ли SLM с чередованием более эффективно, чем SLM без использования текста? В данной статье мы даем однозначный ответ — да! Мы проводим анализ масштабирования SLM с чередованием, обучая несколько десятков моделей и изучая тенденции масштабирования. Мы видим, что в такой конфигурации SLM масштабируются более эффективно с точки зрения вычислительных ресурсов. Кроме того, наши результаты показывают, что динамика масштабирования значительно отличается от SLM без текста, что указывает на необходимость выделять заметно больше вычислительного бюджета на увеличение размера модели, а не на количество токенов для обучения. Мы также изучаем роль синтетических данных и семейств моделей TextLM в раскрытии этого потенциала. Результаты показывают, что наша масштабированная модель достигает сопоставимой производительности с ведущими моделями по метрикам семантики речи, используя при этом меньше вычислительных ресурсов и данных, чем другие подходы. Мы открываем исходные коды моделей, примеры и данные — https://pages.cs.huji.ac.il/adiyoss-lab/sims.
Мультимодальные большие языковые модели (MLLMs) сталкиваются с высокими вычислительными затратами из-за их огромного размера и большого количества визуальных токенов. В данной статье мы исследуем избыточность на уровне слоев в MLLMs, вводя новый метрический показатель — Вклад Слоя (Layer Contribution, LC), который количественно оценивает влияние преобразований слоя на визуальные и текстовые токены соответственно. Расчет LC включает измерение расхождения в выходных данных модели, возникающего при удалении преобразований слоя для указанных токенов. Наш пилотный эксперимент показывает, что многие слои MLLMs вносят минимальный вклад при обработке визуальных токенов. Вдохновленные этим наблюдением, мы предлагаем ShortV — метод, не требующий обучения, который использует LC для выявления неэффективных слоев и замораживает обновления визуальных токенов в этих слоях. Эксперименты демонстрируют, что ShortV может заморозить визуальные токены примерно в 60\% слоев MLLM, что значительно снижает вычислительные затраты, связанные с обновлением визуальных токенов. Например, метод достигает 50\% сокращения FLOPs на модели LLaVA-NeXT-13B при сохранении превосходной производительности. Код будет общедоступен по адресу https://github.com/icip-cas/ShortV.
Диффузионные модели демонстрируют впечатляющую управляемость в задачах обработки изображений, в основном благодаря предсказаниям шума, которые кодируют информацию, специфичную для задачи, и механизму классификатор-фри гида, позволяющему регулировать масштабирование. Этот механизм масштабирования неявно определяет «пространство масштабирования», потенциал которого для тонкой семантической манипуляции остается недостаточно изученным. Мы исследуем это пространство, начиная с редактирования на основе инверсии, где разница между условными и безусловными предсказаниями шума несет ключевую семантическую информацию. Наш основной вклад заключается в анализе Фурье предсказаний шума, который показывает, что их низко- и высокочастотные компоненты развиваются по-разному в процессе диффузии. На основе этого наблюдения мы представляем FreSca — простой метод, который применяет масштабирование гида независимо к различным частотным полосам в частотной области. FreSca заметно улучшает существующие методы редактирования изображений без необходимости переобучения. Удивительно, что его эффективность распространяется и на задачи понимания изображений, такие как оценка глубины, приводя к количественным улучшениям на нескольких наборах данных.
Выбор модели является критически важным этапом в прогнозировании временных рядов, традиционно требующим обширной оценки производительности на различных наборах данных. Методы метаобучения направлены на автоматизацию этого процесса, но они обычно зависят от предварительно построенных матриц производительности, создание которых требует значительных затрат. В данной работе мы предлагаем использовать крупные языковые модели (LLM) в качестве легковесной альтернативы для выбора модели. Наш метод устраняет необходимость в явных матрицах производительности, используя внутренние знания и способности к рассуждению, присущие LLM. В ходе обширных экспериментов с моделями LLaMA, GPT и Gemini мы демонстрируем, что наш подход превосходит традиционные методы метаобучения и эвристические базовые методы, при этом значительно снижая вычислительные затраты. Эти результаты подчеркивают потенциал LLM в эффективном выборе моделей для прогнозирования временных рядов.
С момента появления крупных языковых моделей, основанных на рассуждениях, многие добились значительных успехов в передаче способностей к рассуждению в модели-студенты. Такие методы существенно сократили разрыв между моделями, способными к рассуждениям, и стандартными языковыми моделями в задачах, связанных с программированием. Однако большая часть прогресса в области дистилляции моделей с рассуждениями остается недоступной из-за использования проприетарных наборов данных или отсутствия подробностей о процессе сбора, фильтрации и последующего обучения данных. Чтобы решить эту проблему, мы создали высококачественный набор данных для контролируемой тонкой настройки (SFT), который позволил нам достичь наилучших результатов в задачах программирования для моделей различных размеров. Наши дистиллированные модели, использующие только SFT, достигают 61,8% на LiveCodeBench и 24,6% на CodeContests, превосходя альтернативы, обученные с использованием обучения с подкреплением. Мы также проводим анализ источников данных, использованных для создания нашего набора, влияния фильтрации на основе выполнения кода и важности разнообразия инструкций и решений. Мы обнаружили, что фильтрация на основе выполнения кода негативно сказалась на точности на тестовых данных, что привело нас к приоритету разнообразия инструкций над корректностью решений. Наконец, мы также анализируем эффективность использования токенов и паттерны рассуждений, используемые этими моделями. Мы планируем открыть исходные коды этих наборов данных и дистиллированных моделей для сообщества.
Последние достижения в области больших языковых моделей (LLM) показали, что использование моделей вознаграждения процессов (PRM) в качестве верификаторов для повышения производительности LLM является перспективным подходом. Однако современные PRM сталкиваются с тремя ключевыми проблемами: (1) ограниченные возможности процессуального контроля и обобщения, (2) зависимость от предсказания скалярных значений без использования генеративных способностей LLM и (3) невозможность масштабирования вычислительных ресурсов PRM на этапе тестирования. В данной работе мы представляем GenPRM — генеративную модель вознаграждения процессов, которая выполняет явное рассуждение по цепочке мыслей (CoT) с проверкой кода перед вынесением суждения для каждого шага рассуждения. Для получения высококачественных меток процессуального контроля и данных с обоснованиями мы предлагаем метод оценки относительного прогресса (RPE) и фреймворк синтеза обоснований, включающий проверку кода. Экспериментальные результаты на ProcessBench и нескольких задачах математического рассуждения показывают, что GenPRM значительно превосходит предыдущие PRM, используя всего 23K обучающих данных из набора MATH. Благодаря масштабированию на этапе тестирования, GenPRM с 1,5 миллиардами параметров превосходит GPT-4o, а GenPRM с 7 миллиардами параметров обходит Qwen2.5-Math-PRM-72B на ProcessBench. Кроме того, GenPRM демонстрирует сильные способности в качестве критической модели для уточнения моделей политик. Эта работа устанавливает новую парадигму процессуального контроля, которая устраняет разрыв между PRM и критическими моделями в LLM. Наш код, модель и данные будут доступны по адресу https://ryanliu112.github.io/GenPRM.
Мы представляем первые механистические доказательства того, что агенты, основанные на обучении с подкреплением без модели, могут научиться планированию. Это достигается за счет применения методологии, основанной на интерпретируемости через концепты, к агенту без модели в среде Sokoban — широко используемом бенчмарке для изучения планирования. В частности, мы демонстрируем, что DRC, универсальный агент без модели, представленный Guez et al. (2019), использует изученные представления концептов для внутреннего формирования планов, которые как предсказывают долгосрочные эффекты действий на среду, так и влияют на выбор действий. Наша методология включает: (1) поиск концептов, релевантных для планирования, (2) исследование формирования планов в представлениях агента и (3) проверку того, что обнаруженные планы (в представлениях агента) оказывают причинное влияние на поведение агента через вмешательства. Мы также показываем, что появление этих планов совпадает с возникновением свойства, похожего на планирование: способности извлекать выгоду из дополнительных вычислительных ресурсов во время тестирования. Наконец, мы проводим качественный анализ алгоритма планирования, изученного агентом, и обнаруживаем сильное сходство с параллелизованным двунаправленным поиском. Наши результаты углубляют понимание внутренних механизмов, лежащих в основе поведения планирования у агентов, что особенно важно в свете недавней тенденции появления способностей к планированию и рассуждению у крупных языковых моделей (LLM) через обучение с подкреплением.
Научные открытия готовы к стремительному прогрессу благодаря передовым робототехнике и искусственному интеллекту. Современные научные практики сталкиваются с существенными ограничениями, поскольку ручные эксперименты остаются трудоемкими и ресурсозатратными, а междисциплинарные исследования требуют интеграции знаний, выходящей за пределы компетенций отдельных ученых. Здесь мы представляем концепцию автономного универсального ученого (Autonomous Generalist Scientist, AGS), который объединяет агентный ИИ и воплощенную робототехнику для автоматизации всего жизненного цикла исследований. Эта система способна динамически взаимодействовать как с физическими, так и с виртуальными средами, одновременно способствуя интеграции знаний из различных научных дисциплин. Внедряя эти технологии на всех этапах исследований — от обзора литературы и генерации гипотез до экспериментов и написания научных статей — и включая внутреннюю рефлексию наряду с внешней обратной связью, эта система стремится значительно сократить время и ресурсы, необходимые для научных открытий. Опираясь на эволюцию от виртуальных ИИ-ученых к универсальным роботам-ученым на основе ИИ, AGS обещает революционный потенциал. По мере того как эти автономные системы все глубже интегрируются в исследовательский процесс, мы предполагаем, что научные открытия могут подчиняться новым законам масштабирования, потенциально определяемым количеством и возможностями этих автономных систем, предлагая новые перспективы на то, как генерируется и развивается знание. Адаптивность воплощенных роботов к экстремальным условиям в сочетании с эффектом маховика накопления научных знаний открывает перспективы постоянного выхода за пределы как физических, так и интеллектуальных границ.
3D Gaussian Splatting (3DGS) демонстрирует превосходное качество и скорость рендеринга, однако требует использования миллионов 3D-гауссов и значительных затрат на хранение и передачу данных. Современные методы сжатия 3DGS в основном сосредоточены на сжатии Scaffold-GS, достигая впечатляющих результатов, но за счет использования дополнительной воксельной структуры и сложной стратегии кодирования и квантования. В данной работе мы стремимся разработать простой, но эффективный метод под названием NeuralGS, который исследует альтернативный подход к сжатию исходного 3DGS в компактное представление без использования воксельной структуры и сложных стратегий квантования. Мы отмечаем, что нейронные поля, такие как NeRF, могут представлять сложные 3D-сцены с помощью многослойных перцептронов (MLP), используя всего несколько мегабайт. Таким образом, NeuralGS эффективно применяет представление нейронных полей для кодирования атрибутов 3D-гауссов с использованием MLP, что требует минимального объема памяти даже для крупномасштабных сцен. Для достижения этого мы используем стратегию кластеризации и аппроксимируем гауссовы с помощью различных небольших MLP для каждого кластера, основываясь на важности гауссов в качестве весов аппроксимации. Мы проводим эксперименты на нескольких наборах данных, достигая в среднем 45-кратного уменьшения размера модели без ущерба для визуального качества. Результаты сжатия нашего метода для исходного 3DGS сопоставимы с методами, разработанными специально для Scaffold-GS, что демонстрирует огромный потенциал прямого сжатия исходного 3DGS с использованием нейронных полей.
Разреженные автоэнкодеры (SAE) недавно продемонстрировали свою способность повышать интерпретируемость и управляемость в крупных языковых моделях (LLM). В данной работе мы расширяем применение SAE на визуально-языковые модели (VLM), такие как CLIP, и представляем комплексную структуру для оценки моносимантичности в визуальных представлениях. Наши экспериментальные результаты показывают, что SAE, обученные на VLM, значительно повышают моносимантичность отдельных нейронов, а также демонстрируют иерархические представления, которые хорошо согласуются с экспертными структурами (например, таксономией iNaturalist). Наиболее важно то, что мы демонстрируем, что применение SAE для вмешательства в визуальный кодировщик CLIP позволяет напрямую управлять выходом мультимодальных LLM (например, LLaVA) без каких-либо изменений в базовой модели. Эти результаты подчеркивают практичность и эффективность SAE как неконтролируемого подхода для повышения как интерпретируемости, так и управляемости VLM.
Системы автоматического распознавания речи, несомненно, продвинулись вперед благодаря интеграции многоязычных и многозадачных моделей, таких как Whisper, которые продемонстрировали впечатляющую способность понимать и обрабатывать речь на широком спектре языков. Несмотря на их устойчивость, эти модели часто оказываются недостаточно эффективными в обработке лингвистических особенностей языков меньшинств. Данное исследование направлено на устранение этого пробела путем интеграции традиционных и новых языковых моделей с тонко настроенными моделями Whisper для повышения их производительности в менее изученных языках. Благодаря тщательной настройке и оценке на множестве наборов данных мы демонстрируем значительное улучшение показателя ошибок на слово, особенно в условиях ограниченных ресурсов. Наш подход не только использует преимущества обширных данных, на которых была предварительно обучена модель Whisper, но и дополняет ее лингвистическую адаптивность за счет включения языковых моделей. Мы получили улучшения до 51\% для наборов данных, соответствующих распределению, и до 34\% для предложений, выходящих за пределы распределения, с использованием статистических языковых моделей, в то время как крупные языковые модели обеспечили умеренное, но стабильно надежное улучшение в различных лингвистических контекстах. Результаты показывают, что, хотя интеграция приносит пользу для всех размеров моделей, степень улучшения варьируется, что подчеркивает важность оптимизации параметров языковых моделей. Наконец, мы подчеркиваем важность выбора подходящих параметров оценки при представлении результатов с использованием трансформерных моделей ASR. В заключение, данное исследование прокладывает путь к более инклюзивным технологиям ASR, которые демонстрируют лучшую производительность на различных языках за счет обогащения их лингвистических знаний. Для получения дополнительных сведений о реализации этого исследования техническая документация и исходный код доступны по адресу http://www.github.com/hitz-zentroa/whisper-lm.
Обучение генерации параметров нейронных сетей, обусловленных описаниями задач и спецификациями архитектуры, является ключевым для повышения адаптируемости моделей и улучшения трансферного обучения. Существующие методы, особенно основанные на диффузионных моделях, страдают от ограниченной масштабируемости для крупных архитектур, жесткости в обработке различных глубин сети и разрозненной генерации параметров, что подрывает согласованность между слоями. В данной работе мы предлагаем IGPG (Instruction Guided Parameter Generation) — авторегрессионную структуру, которая объединяет синтез параметров для различных задач и архитектур. IGPG использует VQ-VAE и авторегрессионную модель для генерации параметров нейронных сетей, обусловленных инструкциями задач, данными и деталями архитектуры. Авторегрессионно генерируя токены весов нейронных сетей, IGPG обеспечивает согласованность между слоями и позволяет эффективно адаптироваться к различным моделям и наборам данных. Работая на уровне токенов, IGPG эффективно захватывает сложные распределения параметров, агрегированные из широкого спектра предобученных моделей. Многочисленные эксперименты на нескольких наборах визуальных данных демонстрируют, что IGPG объединяет разнообразные предобученные модели в единую гибкую генеративную структуру. Синтезированные параметры достигают конкурентоспособной или превосходящей производительности по сравнению с современными методами, особенно в плане масштабируемости и эффективности при применении к крупным архитектурам. Эти результаты подчеркивают потенциал IGPG как мощного инструмента для извлечения предобученных весов, выбора моделей и быстрой тонкой настройки для конкретных задач.
Независимая панорамная сегментация ставит целью разделение изображения на семантически значимые области и отдельные экземпляры объектов без обучения на данных с ручной разметкой. В отличие от предыдущих работ по независимому панорамному пониманию сцен, мы устраняем необходимость в объектно-ориентированных обучающих данных, что позволяет независимо понимать сложные сцены. Для этого мы представляем первый метод независимой панорамной сегментации, который напрямую обучается на сценово-ориентированных изображениях. В частности, мы предлагаем подход для получения высококачественных псевдоразметок панорамной сегментации на сложных сценово-ориентированных данных, объединяя визуальные представления, данные о глубине и движении. Использование как обучения на псевдоразметках, так и стратегии самодообучения для панорамной сегментации приводит к новому подходу, который точно предсказывает панорамную сегментацию сложных сцен без необходимости в каких-либо человеческих аннотациях. Наш подход значительно улучшает качество панорамной сегментации, например, превосходя последние достижения в независимой панорамной сегментации на наборе данных Cityscapes на 9,4 процентных пункта по метрике PQ.