Ежедневно отобранные исследовательские статьи по ИИ с переводами
Создание современных моделей Vision-Language (VLMs) с мощными возможностями генерации подписей обычно требует обучения на миллиардах высококачественных пар изображение-текст, что занимает миллионы часов работы GPU. В данной статье представлена структура Vision-Language-Vision (VLV) автокодировщика, которая стратегически использует ключевые предобученные компоненты: визуальный кодировщик, декодер модели Text-to-Image (T2I) диффузии и, впоследствии, крупную языковую модель (LLM). В частности, мы создаем информационное узкое место, регулируя пространство языковых представлений, что достигается за счет заморозки предобученного декодера T2I диффузии. Наш VLV конвейер эффективно извлекает знания из текстово-обусловленной диффузионной модели с использованием непрерывных эмбеддингов, демонстрируя полное семантическое понимание через высококачественные реконструкции. Кроме того, путем тонкой настройки предобученной LLM для декодирования промежуточных языковых представлений в детальные описания, мы создаем современный генератор подписей, сопоставимый с ведущими моделями, такими как GPT-4o и Gemini 2.0 Flash. Наш метод демонстрирует исключительную экономическую эффективность и значительно снижает требования к данным; за счет преимущественного использования одномодальных изображений для обучения и максимального использования существующих предобученных моделей (визуальный кодировщик, T2I диффузионная модель и LLM), он позволяет избежать необходимости в огромных наборах пар изображение-текст, сохраняя общие затраты на обучение ниже 1000 долларов США.
В данном техническом отчете представлена система EXAONE 4.0, которая объединяет режим без рассуждений (Non-reasoning mode) и режим с рассуждениями (Reasoning mode), чтобы сохранить превосходную удобство использования EXAONE 3.5 и расширенные возможности логического анализа EXAONE Deep. В рамках подготовки к эре агентного ИИ, EXAONE 4.0 включает ключевые функции, такие как использование агентных инструментов, а также расширяет свои мультиязычные возможности, добавляя поддержку испанского языка к уже существующим английскому и корейскому. Серия моделей EXAONE 4.0 представлена в двух размерах: средняя модель на 32 миллиарда параметров, оптимизированная для высокой производительности, и компактная модель на 1,2 миллиарда параметров, предназначенная для использования на устройствах. EXAONE 4.0 демонстрирует превосходную производительность по сравнению с открытыми моделями своего класса и остается конкурентоспособной даже на фоне передовых моделей. Модели доступны для исследовательских целей и могут быть легко загружены по адресу https://huggingface.co/LGAI-EXAONE.
Крупные базовые модели обычно обучаются на данных из нескольких областей, при этом смесь данных — пропорция использования каждой области — играет критическую роль в производительности модели. Стандартный подход к выбору этой смеси основывается на методе проб и ошибок, что становится непрактичным для крупномасштабного предварительного обучения. Мы предлагаем систематический метод определения оптимальной смеси данных для любой целевой области с использованием законов масштабирования. Наш подход точно предсказывает потери модели размером N, обученной на D токенах с определенным вектором весов областей h. Мы подтверждаем универсальность этих законов масштабирования, демонстрируя их предсказательную силу в трех различных и крупномасштабных контекстах: предварительное обучение крупных языковых моделей (LLM), нативных мультимодальных моделей (NMM) и крупных моделей компьютерного зрения (LVM). Мы также показываем, что эти законы масштабирования могут экстраполироваться на новые смеси данных и масштабы: их параметры могут быть точно оценены с помощью нескольких небольших обучающих прогонов и использованы для оценки производительности на более крупных масштабах и неизвестных весах областей. Законы масштабирования позволяют вывести оптимальные веса областей для любой целевой области при заданном бюджете обучения (N, D), предоставляя принципиальную альтернативу затратным методам проб и ошибок.
В данной статье представлен MISS-QA — первый бенчмарк, специально разработанный для оценки способности моделей интерпретировать схематические диаграммы в научной литературе. MISS-QA включает 1500 примеров, аннотированных экспертами, из 465 научных статей. В рамках этого бенчмарка модели должны интерпретировать схематические диаграммы, иллюстрирующие обзор исследований, и отвечать на соответствующие информационные вопросы, основываясь на более широком контексте статьи. Мы оцениваем производительность 18 передовых мультимодальных базовых моделей, включая o4-mini, Gemini-2.5-Flash и Qwen2.5-VL. Результаты показывают значительный разрыв в производительности между этими моделями и экспертами-людьми на MISS-QA. Наш анализ производительности моделей на неответимых вопросах и детальный анализ ошибок дополнительно подчеркивают сильные и слабые стороны современных моделей, предлагая ключевые идеи для улучшения их способности понимать мультимодальную научную литературу.
Крупные языковые модели (LLM) продемонстрировали мощные способности к решению задач, особенно при организации в многоагентные системы. Однако появление таких систем также поднимает ряд вопросов о способности сложной сети агентов эффективно самоорганизовываться и сотрудничать. Хотя измерение производительности на стандартных тестах логического мышления показывает, насколько хорошо многоагентные системы могут решать задачи, остается неясным, способны ли эти системы эффективно использовать свою топологию. В данной работе мы предлагаем AgentsNet — новый эталонный тест для оценки логического мышления в многоагентных системах. Вдохновляясь классическими задачами из области распределенных систем и теории графов, AgentsNet измеряет способность многоагентных систем совместно формировать стратегии для решения задач, самоорганизации и эффективной коммуникации с учетом заданной топологии сети. Мы оцениваем различные базовые методы на AgentsNet, включая однородные сети агентов, которые сначала должны договориться о базовых протоколах организации и коммуникации. Мы обнаруживаем, что некоторые передовые LLM уже демонстрируют высокую производительность для небольших сетей, но начинают отставать при увеличении масштаба сети. В то время как существующие эталонные тесты для многоагентных систем охватывают не более 2–5 агентов, AgentsNet практически не ограничен по размеру и может масштабироваться вместе с новыми поколениями LLM. В связи с этим мы также исследуем передовые модели в конфигурации с числом агентов до 100.
Последние достижения в области крупных языковых моделей (LLM), основанных на рассуждениях, особенно их потенциал благодаря масштабированию во время тестирования, создали значительные возможности для дистилляции в генерации и критике кода. Однако прогресс в обеих областях фундаментально зависит от крупномасштабных, высококачественных наборов данных. В данной работе мы представляем OpenCodeReasoning-II — набор данных, состоящий из 2,5 миллионов троек "вопрос-решение-критика" (примерно 35 тысяч уникальных задач по программированию), что делает его почти в два раза больше, чем предыдущий крупнейший публично доступный набор данных для рассуждений о коде. В этой работе мы применяем двухэтапную стратегию контролируемого тонкого настройки. Первый этап сосредоточен на тонкой настройке для генерации кода, а второй этап включает совместное обучение моделей как для генерации, так и для критики кода. Наши итоговые модели Qwen2.5-Instruct, прошедшие тонкую настройку, демонстрируют производительность в генерации кода, которая либо превосходит, либо равна лучшим ранее доступным моделям с открытыми весами. Примечательно, что интеграция наших моделей генерации и критики кода приводит к значительному улучшению производительности в соревновательном программировании. Кроме того, мы представляем расширение бенчмарка LiveCodeBench для поддержки языка программирования C++, что способствует более всесторонней оценке LLM с использованием этого бенчмарка.
Извлечение оптического потока из видео остается ключевой задачей компьютерного зрения. Вдохновленные успехом крупных универсальных моделей, мы задаемся вопросом, можно ли заставить замороженные самоконтролируемые видео-модели, обученные только для предсказания будущих кадров, без тонкой настройки выдавать оптический поток. Предыдущие работы, извлекающие глубину или освещение из видео-генераторов, требовали тонкой настройки, что непрактично для оптического потока, где метки редки, а синтетические наборы данных страдают от разрыва между синтетикой и реальностью. Вдохновленные парадигмой Контрфактуальной Мировой Модели (CWM), которая может получать точечные соответствия, вводя небольшое трассирующее возмущение в предсказатель следующего кадра и отслеживая его распространение, мы расширяем эту идею на генеративные видео-модели. Мы исследуем несколько популярных архитектур и обнаруживаем, что успешное извлечение оптического потока без обучения в таком подходе поддерживается тремя свойствами модели: (1) распределенное предсказание будущих кадров (избегание размытых или зашумленных выходов); (2) факторизованные латентные переменные, которые обрабатывают каждый пространственно-временной патч независимо; и (3) декодирование с произвольным доступом, которое может учитывать любое подмножество будущих пикселей. Эти свойства уникально присутствуют в недавней архитектуре Local Random Access Sequence (LRAS). На основе LRAS мы предлагаем KL-tracing: новый процедурный метод на этапе тестирования, который вводит локализованное возмущение в первый кадр, разворачивает модель на один шаг и вычисляет расхождение Кульбака-Лейблера между возмущенным и невозмущенным предсказательными распределениями. Без какой-либо специфической тонкой настройки для оптического потока наш метод превосходит современные модели на реальном наборе данных TAP-Vid DAVIS (относительное улучшение ошибки конечной точки на 16,6%) и синтетическом TAP-Vid Kubric (относительное улучшение на 4,7%). Наши результаты показывают, что контрфактуальное управление управляемыми генеративными видео-моделями является масштабируемой и эффективной альтернативой подходам с использованием обучения с учителем или фотометрических потерь для получения высококачественного оптического потока.
Ответы на вопросы по графам знаний (KGQA) представляют значительные трудности из-за структурных и семантических вариаций во входных графах. Существующие подходы полагаются на агентов, основанных на больших языковых моделях (LLM), для обхода графов и извлечения данных; такой метод чувствителен к инициализации обхода, так как он подвержен ошибкам связывания сущностей и может плохо обобщаться на пользовательские ("bring-your-own") графы знаний. Мы представляем BYOKG-RAG — фреймворк, который улучшает KGQA за счет синергетического сочетания LLM со специализированными инструментами для извлечения данных из графов. В BYOKG-RAG LLM генерируют ключевые артефакты графа (сущности вопросов, кандидаты на ответы, пути рассуждений и запросы на языке OpenCypher), а инструменты для работы с графами связывают эти артефакты с графом знаний и извлекают соответствующий контекст. Извлеченный контекст позволяет LLM итеративно уточнять связывание и извлечение данных из графа перед генерацией окончательного ответа. Благодаря извлечению контекста с использованием различных инструментов для работы с графами, BYOKG-RAG предлагает более универсальное и устойчивое решение для ответов на вопросы по пользовательским графам знаний. В экспериментах на пяти бенчмарках, охватывающих различные типы графов знаний, мы демонстрируем, что BYOKG-RAG превосходит второй лучший метод извлечения данных из графов на 4,5 процентных пункта, показывая при этом лучшее обобщение на пользовательские графы знаний. Фреймворк BYOKG-RAG доступен в открытом исходном коде по адресу https://github.com/awslabs/graphrag-toolkit.
Аудио-инпейнтинг (audio inpainting) — это задача восстановления отсутствующих сегментов в поврежденных аудиозаписях. Хотя предыдущие подходы, включая диффузионные модели, основанные на временных и спектрограммных представлениях, показали многообещающие результаты для коротких пропусков, их качество часто ухудшается, когда длина пропусков превышает 100 миллисекунд (мс). В данной работе мы представляем новый метод инпейнтинга, основанный на дискретной диффузионной модели, которая работает с токенизированными аудиопредставлениями, созданными предварительно обученным аудиотокенизатором. Наш подход моделирует генеративный процесс непосредственно в дискретном латентном пространстве, что позволяет стабильно и семантически согласованно восстанавливать отсутствующие аудиоданные. Мы оцениваем метод на наборе данных MusicNet, используя как объективные, так и перцептивные метрики для пропусков длиной до 300 мс. Дополнительно мы протестировали наш подход на наборе данных MTG, увеличив длину пропусков до 500 мс. Экспериментальные результаты показывают, что наш метод демонстрирует конкурентоспособное или превосходящее качество по сравнению с существующими базовыми подходами, особенно для более длинных пропусков, предлагая надежное решение для восстановления поврежденных музыкальных записей. Аудиопримеры нашего метода доступны по ссылке: https://iftach21.github.io/.
Крупные языковые модели (LLM) произвели революцию в разработке программного обеспечения и автоматической генерации кода. Вдохновленные этими достижениями, в данной статье исследуется возможность использования LLM для модификации исходного кода вредоносных программ с целью создания их вариантов. Мы представляем LLMalMorph, полуавтоматическую платформу, которая использует семантическое и синтаксическое понимание кода LLM для генерации новых вариантов вредоносного ПО. LLMalMorph извлекает информацию на уровне функций из исходного кода вредоносного ПО и применяет специально разработанные запросы в сочетании с стратегически определенными преобразованиями кода, чтобы направлять LLM в создании вариантов без необходимости ресурсоемкой тонкой настройки. Для оценки LLMalMorph мы собрали 10 разнообразных образцов вредоносного ПО для Windows, различающихся по типу, сложности и функциональности, и сгенерировали 618 вариантов. Наши тщательные эксперименты показывают, что возможно в некоторой степени снизить уровень обнаружения этих вариантов антивирусными движками, сохраняя при этом функциональность вредоносного ПО. Кроме того, несмотря на отсутствие оптимизации против машинного обучения (ML)-детекторов вредоносного ПО, несколько вариантов также достигли заметного уровня успеха атаки против ML-классификатора вредоносного ПО. Мы также обсуждаем ограничения текущих возможностей LLM в генерации вариантов вредоносного ПО из исходного кода и оцениваем, где эта новая технология находится в более широком контексте генерации вариантов вредоносного ПО.
Крупные языковые модели (LLM) демонстрируют когнитивные искажения — систематические тенденции к иррациональному принятию решений, аналогичные тем, что наблюдаются у людей. Предыдущие исследования показали, что эти искажения варьируются между моделями и могут усиливаться в процессе настройки на инструкции. Однако до сих пор неясно, обусловлены ли эти различия в искажениях предварительным обучением, донастройкой или даже случайным шумом из-за стохастичности обучения. Мы предлагаем двухэтапный причинно-следственный экспериментальный подход для разделения этих факторов. Сначала мы донастраиваем модели несколько раз с использованием разных случайных начальных значений, чтобы изучить, как случайность обучения влияет на более чем 30 когнитивных искажений. Затем мы вводим кросс-настройку — замену наборов данных для инструкций между моделями, чтобы изолировать источники искажений. Эта замена использует наборы данных, которые привели к различным паттернам искажений, напрямую проверяя, зависят ли искажения от данных. Наши результаты показывают, что, хотя случайность обучения вносит некоторую вариативность, искажения в основном формируются на этапе предварительного обучения: модели с одинаковой предварительно обученной основой демонстрируют более схожие паттерны искажений, чем те, которые используют только общие данные для донастройки. Эти выводы свидетельствуют о том, что понимание искажений в донастроенных моделях требует учета их происхождения на этапе предварительного обучения, выходящего за рамки эффектов донастройки. Этот подход может помочь в разработке принципиальных стратегий для оценки и смягчения искажений в LLM.
Современный искусственный интеллект (ИИ) всё чаще опирается на многоагентные архитектуры, объединяющие визуальное и языковое понимание. Однако остаётся актуальный вопрос: как можно доверять этим агентам, особенно в условиях zero-shot, без тонкой настройки? Мы представляем новую модульную фреймворк для визуальной классификации на основе агентного ИИ, который интегрирует универсальных мультимодальных агентов с оркестратором, выполняющим невизуальное рассуждение, и модулем Retrieval-Augmented Generation (RAG). Применяя этот подход к диагностике заболеваний листьев яблони, мы тестируем три конфигурации: (I) zero-shot с оркестрацией на основе уверенности, (II) тонко настроенные агенты с улучшенной производительностью и (III) оркестрация с калибровкой доверия, усиленная поиском изображений на основе CLIP и циклами переоценки. Используя метрики калибровки уверенности (ECE, OCR, CCC), оркестратор регулирует доверие между агентами. Наши результаты показывают улучшение точности на 77,94% в условиях zero-shot при использовании оркестрации с учётом доверия и RAG, достигая общей точности 85,63%. GPT-4o продемонстрировал лучшую калибровку, в то время как Qwen-2.5-VL показал излишнюю уверенность. Кроме того, прогнозы, основанные на image-RAG, были подкреплены визуально схожими случаями, что позволило исправить излишнюю уверенность агентов через итеративную переоценку. Предложенная система разделяет восприятие (визуальные агенты) и мета-рассуждения (оркестратор), обеспечивая масштабируемый и интерпретируемый многоагентный ИИ. Этот подход может быть расширен для диагностики, биологии и других областей, где критически важно доверие. Все модели, промпты, результаты и компоненты системы, включая полный исходный код программного обеспечения, открыто опубликованы для поддержки воспроизводимости, прозрачности и сравнительного анализа сообществом на GitHub: https://github.com/Applied-AI-Research-Lab/Orchestrator-Agent-Trust.
Пользовательские видео из реального мира, особенно на таких платформах, как TikTok, часто содержат богатый и взаимосвязанный аудиовизуальный контент. Однако существующие эталонные наборы данных и модели для создания видеозаголовков остаются преимущественно визуально-ориентированными, игнорируя ключевую роль аудио в передаче динамики сцены, намерений говорящего и контекста повествования. Отсутствие всеобъемлющих наборов данных и легковесных, но мощных моделей сдерживает прогресс в детализированном многомодальном понимании видео. Для решения этих проблем мы представляем UGC-VideoCap — новый эталонный набор данных и модель, специально разработанные для детального всеобъемлющего создания заголовков для коротких пользовательских видео. В отличие от предыдущих наборов данных, UGC-VideoCap делает акцент на сбалансированной интеграции аудио и визуальных модальностей, включая 1000 видео с TikTok, аннотированных с помощью структурированного трехэтапного процесса с участием человека, охватывающего семантику только аудио, только визуального контента и их совместного анализа. Набор данных также включает 4000 тщательно составленных пар вопросов и ответов, проверяющих как одномодальное, так и кросс-модальное понимание. Вместе с набором данных мы предлагаем UGC-VideoCaptioner(3B) — модель для создания заголовков с 3 миллиардами параметров, дистиллированную из Gemini 2.5 Flash. Используя новую двухэтапную стратегию обучения — контролируемую тонкую настройку с последующей оптимизацией групповой относительной политики (GRPO), наш подход позволяет эффективно адаптироваться к ограниченным данным, сохраняя при этом конкурентоспособную производительность. Вместе наш эталонный набор данных и модель предлагают качественную основу и ресурсоэффективное решение для продвижения всеобъемлющего создания видеозаголовков в неограниченных условиях реального пользовательского контента.