Ежедневно отобранные исследовательские статьи по ИИ с переводами
Наборы данных для предварительного обучения обычно собираются из веб-контента и не имеют явного разделения на домены. Например, широко используемые наборы данных, такие как Common Crawl, не содержат явных меток доменов, в то время как ручное создание размеченных наборов данных, таких как The Pile, требует значительных усилий. В результате определение оптимальной смеси данных для предварительного обучения остается сложной задачей, несмотря на ее значительное влияние на производительность предварительного обучения. Для решения этих проблем мы предлагаем CLustering-based Iterative Data Mixture Bootstrapping (CLIMB) — автоматизированную структуру, которая обнаруживает, оценивает и улучшает смеси данных в контексте предварительного обучения. В частности, CLIMB встраивает и кластеризует крупномасштабные наборы данных в семантическом пространстве, а затем итеративно ищет оптимальные смеси с использованием меньшей модели-заместителя и предсказателя. При непрерывном обучении на 400 миллиардах токенов с такой смесью наша модель объемом 1 миллиард параметров превосходит современную модель Llama-3.2-1B на 2,0%. Более того, мы наблюдаем, что оптимизация для конкретного домена (например, социальных наук) дает улучшение на 5% по сравнению со случайной выборкой. Наконец, мы представляем ClimbLab — отфильтрованный корпус объемом 1,2 триллиона токенов с 20 кластерами в качестве исследовательской площадки, а также ClimbMix — компактный, но мощный набор данных объемом 400 миллиардов токенов, предназначенный для эффективного предварительного обучения, который демонстрирует превосходную производительность при равном бюджете токенов. Мы анализируем итоговую смесь данных, раскрывая характеристики оптимальной смеси. Наши данные доступны по адресу: https://research.nvidia.com/labs/lpr/climb/
Фронтирные модели, генерирующие расширенные цепочки рассуждений, непреднамеренно создают богатые последовательности токенов, которые могут облегчить дистилляцию моделей. Осознавая эту уязвимость, владельцы моделей могут искать стратегии выборки, которые ограничивают эффективность дистилляции, не ухудшая производительность модели. Антидистилляционная выборка предоставляет именно такую возможность. Стратегически изменяя распределение вероятностей следующего токена, антидистилляционная выборка "отравляет" цепочки рассуждений, делая их значительно менее полезными для дистилляции, при этом сохраняя практическую применимость модели. Подробнее см. https://antidistillation.com.
Мы представляем структуру нейронной сети FramePack для обучения моделей прогнозирования следующего кадра (или следующего участка кадра) в задачах генерации видео. FramePack сжимает входные кадры, чтобы длина контекста трансформера оставалась фиксированной независимо от продолжительности видео. В результате мы можем обрабатывать большое количество кадров с использованием видео-диффузии, сохраняя вычислительные затраты на уровне, сопоставимом с диффузией изображений. Это также позволяет значительно увеличить размеры пакетов видео при обучении (размеры пакетов становятся сопоставимыми с обучением на изображениях). Мы также предлагаем метод сэмплирования, предотвращающий дрейф, который генерирует кадры в обратном временном порядке с заранее установленными конечными точками, чтобы избежать смещения из-за экспозиции (накопления ошибок на итерациях). Наконец, мы показываем, что существующие модели видео-диффузии можно дообучить с использованием FramePack, и их визуальное качество может быть улучшено, поскольку прогнозирование следующего кадра поддерживает более сбалансированные расписания диффузии с менее экстремальными сдвигами временных шагов потока.
Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), демонстрируют высокие результаты в визуальном понимании, но часто страдают от визуальных галлюцинаций, когда они генерируют описания несуществующих объектов, действий или концепций, что создает значительные риски в критически важных для безопасности приложениях. Существующие методы снижения галлюцинаций обычно следуют одной из двух парадигм: корректировка генерации, которая изменяет поведение декодирования для согласования текста с визуальными данными, и постфактумная проверка, где внешние модели оценивают и исправляют выходные данные. Хотя эти методы эффективны, корректировка генерации часто опирается на эвристики и не имеет механизмов исправления, а постфактумная проверка является сложной, обычно требующей нескольких моделей и склонной к отклонению выходных данных, а не их уточнению. В данной работе мы представляем REVERSE — унифицированную структуру, которая интегрирует обучение с учетом галлюцинаций с оперативной самопроверкой. Используя новый набор данных для проверки галлюцинаций, содержащий более 1,3 млн полусинтетических образцов, а также новую технику ретроспективного повторного сэмплирования на этапе вывода, наш подход позволяет VLMs как обнаруживать галлюцинации в процессе генерации, так и динамически их исправлять. Наши оценки показывают, что REVERSE достигает наилучших результатов в снижении галлюцинаций, превосходя лучшие существующие методы на 12% на CHAIR-MSCOCO и на 28% на HaloQuest. Наш набор данных, модель и код доступны по адресу: https://reverse-vlm.github.io.
Мы представляем Perception Encoder (PE) — современный кодировщик для понимания изображений и видео, обученный с помощью простого визуально-языкового обучения. Традиционно визуальные кодировщики полагались на различные предобучающие задачи, каждая из которых была адаптирована для конкретных прикладных задач, таких как классификация, генерация подписей или локализация. Удивительно, но после масштабирования нашей тщательно настроенной процедуры предобучения на изображениях и доработки с использованием нашего надежного механизма обработки видео, мы обнаружили, что контрастивное визуально-языковое обучение само по себе может создавать мощные, универсальные эмбеддинги для всех этих прикладных задач. Есть лишь одно ограничение: эти эмбеддинги скрыты в промежуточных слоях сети. Чтобы извлечь их, мы предлагаем два метода выравнивания: языковое выравнивание для мультимодального языкового моделирования и пространственное выравнивание для задач плотного предсказания. Вместе с основным контрастивным чекпоинтом наше семейство моделей PE достигает передовых результатов в широком спектре задач, включая классификацию и поиск изображений и видео с нулевым обучением; вопросы и ответы по документам, изображениям и видео; а также пространственные задачи, такие как детекция, оценка глубины и отслеживание. Для стимулирования дальнейших исследований мы публикуем наши модели, код и новый набор данных, содержащий синтетически и вручную аннотированные видео.
Моделирование миров приобретает все большую популярность благодаря своей способности создавать виртуальные среды и предсказывать последствия действий. Однако ограниченное временное окно контекста часто приводит к сбоям в поддержании долгосрочной согласованности, особенно в сохранении 3D-пространственной целостности. В данной работе мы представляем WorldMem — фреймворк, который улучшает генерацию сцен с помощью банка памяти, состоящего из блоков памяти, хранящих кадры и состояния (например, позы и временные метки). Используя механизм внимания к памяти, который эффективно извлекает релевантную информацию из этих кадров на основе их состояний, наш метод способен точно восстанавливать ранее наблюдаемые сцены, даже при значительных изменениях точки обзора или временных промежутках. Более того, включение временных меток в состояния позволяет нашему фреймворку не только моделировать статичный мир, но и фиксировать его динамическую эволюцию во времени, обеспечивая как восприятие, так и взаимодействие в смоделированном мире. Многочисленные эксперименты в виртуальных и реальных сценариях подтверждают эффективность нашего подхода.
Крупные языковые модели (LLM) стремительно увеличиваются в размерах, что создает значительные трудности для их эффективного развертывания на оборудовании с ограниченными ресурсами. В данной статье мы представляем Dynamic-Length Float (DFloat11) — фреймворк для сжатия без потерь, который уменьшает размер LLM на 30%, сохраняя при этом выходные данные, бит-в-бит идентичные исходной модели. DFloat11 основан на низкой энтропии в представлении весов BFloat16 в LLM, что выявляет значительную неэффективность существующих форматов хранения. Применяя энтропийное кодирование, DFloat11 назначает весам динамические по длине кодировки на основе их частоты, достигая почти оптимального сжатия без потери точности. Для обеспечения эффективного вывода с динамическими кодировками мы разработали специализированный GPU-ядро для быстрой онлайн-декомпрессии. Наш дизайн включает: (i) декомпозицию ресурсоемких таблиц поиска (LUT) в компактные LUT, которые помещаются в SRAM GPU, (ii) двухфазное ядро для координации позиций чтения/записи потоков с использованием легковесных вспомогательных переменных, и (iii) декомпрессию на уровне трансформер-блоков для минимизации задержек. Эксперименты на современных моделях, включая Llama-3.1, Qwen-2.5 и Gemma-3, подтверждают нашу гипотезу о том, что DFloat11 обеспечивает сокращение размера модели примерно на 30% при сохранении бит-в-бит точных выходных данных. По сравнению с потенциальной альтернативой выгрузки частей несжатой модели на CPU для соблюдения ограничений памяти, DFloat11 демонстрирует в 1.9–38.8 раз более высокую пропускную способность при генерации токенов. При фиксированном бюджете памяти GPU DFloat11 позволяет увеличить длину контекста в 5.3–13.17 раз по сравнению с несжатыми моделями. Примечательно, что наш метод позволяет выполнять вывод без потерь для модели Llama-3.1-405B объемом 810 ГБ на одном узле с 8 GPU по 80 ГБ каждый. Наш код и модели доступны по адресу https://github.com/LeanModels/DFloat11.
Хотя синтез и дистилляция данных являются перспективными стратегиями для улучшения небольших языковых моделей, современные подходы в значительной степени зависят от крупных языковых моделей (LLM), которые страдают от высоких вычислительных затрат, низкой экологической эффективности и потенциальных предубеждений, унаследованных от монолитных архитектур. В отличие от них, небольшие LLM более доступны и устойчивы, но их индивидуальные возможности часто оказываются недостаточными для генерации высококачественных, разнообразных и надежных данных. Вдохновленные совместными человеческими процессами (например, рецензированием), мы предлагаем фреймворк GRA, в котором задействованы несколько небольших LLM, объединяющих специализированные роли для итеративного улучшения и контроля качества, обычно достигаемых одной крупной LLM. В этом совместном фреймворке несколько небольших LLM выполняют различные роли — Генератор, Рецензент и Арбитр — чтобы имитировать процесс синтеза данных, вдохновленный рецензированием. Генератор предлагает начальные образцы данных, Рецензент оценивает их качество и разнообразие, а Арбитр разрешает конфликты для финализации вывода. Разделяя процесс синтеза на специализированные подзадачи, совместные небольшие LLM могут достичь паритета на уровне данных с дистилляцией на основе крупных LLM. В ходе экспериментов на множестве бенчмарков мы демонстрируем, что данные, созданные с помощью GRA, соответствуют или превосходят качество выходных данных одной крупной LLM, например, Qwen-2.5-72B-Instruct. Наши результаты ставят под сомнение необходимость монолитных крупных моделей для высококачественного синтеза данных, предлагая вместо этого стратегическую координацию небольших агентов. Наши наборы данных, модели и код доступны по адресу https://github.com/GX-XinGao/GRA.
Графики повсеместно используются, так как люди часто применяют их для анализа данных, поиска ответов на вопросы и выявления важных закономерностей. Однако выполнение сложных аналитических задач с использованием графиков требует значительных перцептивных и когнитивных усилий. Системы для ответов на вопросы по графикам (Chart Question Answering, CQA) автоматизируют этот процесс, позволяя моделям интерпретировать и анализировать визуальные представления данных. Однако существующие эталонные тесты, такие как ChartQA, не обладают достаточным разнообразием, отражающим реальные условия, и в последнее время демонстрируют насыщение производительности при использовании современных крупных моделей, работающих с визуальными и текстовыми данными (Large Vision-Language Models, LVLMs). Чтобы устранить эти ограничения, мы представляем ChartQAPro — новый эталонный тест, включающий 1 341 график из 157 различных источников, охватывающих различные типы графиков, включая инфографику и дашборды, а также 1 948 вопросов разных типов, таких как вопросы с множественным выбором, диалоговые, гипотетические и неразрешимые вопросы, что лучше отражает реальные вызовы. Наши оценки с использованием 21 модели показывают значительное снижение производительности LVLMs на ChartQAPro; например, Claude Sonnet 3.5 набирает 90,5% на ChartQA, но только 55,81% на ChartQAPro, что подчеркивает сложность анализа графиков. Мы дополняем наши выводы детальным анализом ошибок и исследованиями с исключением компонентов, выявляя ключевые проблемы и возможности для улучшения LVLMs в области понимания и анализа графиков. Мы публикуем ChartQAPro по адресу https://github.com/vis-nlp/ChartQAPro.
Крупные видеомодели (LVMs), построенные на основе крупных языковых моделей (LLMs), демонстрируют потенциал в понимании видео, но часто сталкиваются с проблемами рассогласования с человеческой интуицией и галлюцинациями в видео. Для решения этих задач мы представляем VistaDPO — новую структуру для иерархической пространственно-временной оптимизации прямых предпочтений в видео. VistaDPO улучшает согласование текстово-видео предпочтений на трех иерархических уровнях: i) Уровень экземпляра — согласование общего содержания видео с ответами; ii) Временной уровень — согласование временной семантики видео с описаниями событий; и iii) Перцептивный уровень — согласование пространственных объектов с языковыми токенами. Учитывая отсутствие наборов данных для точного согласования видео-языковых предпочтений, мы создали VistaDPO-7k — набор данных из 7,2 тыс. пар вопросов и ответов, аннотированных выбранными и отклоненными ответами, а также пространственно-временной информацией, такой как временные метки, ключевые кадры и ограничивающие рамки. Многочисленные эксперименты на тестах, таких как Video Hallucination, Video QA и задачи по созданию подписей, показывают, что VistaDPO значительно улучшает производительность существующих LVMs, эффективно устраняя рассогласование и галлюцинации в видео-языковых моделях. Код и данные доступны по адресу https://github.com/HaroldChen19/VistaDPO.
Успех моделей генерации изображений из текста (Text-to-Image, T2I) привел к появлению множества контрольных точек моделей, дообученных на основе одной базовой модели на различных специализированных наборах данных. Это избыточное производство специализированных моделей создает новые проблемы, связанные с высокой избыточностью параметров и огромными затратами на хранение, что требует разработки эффективных методов для консолидации и объединения возможностей различных мощных моделей в единую. Распространенной практикой в слиянии моделей является использование статической линейной интерполяции в пространстве параметров для достижения смешения стилей. Однако этот подход игнорирует особенности задачи генерации T2I, где множество различных моделей охватывают разнообразные стили, что может привести к несовместимости и путанице в объединенной модели. Для решения этой проблемы мы представляем конвейер генерации изображений с управлением стилями (style-promptable), который может точно генерировать изображения произвольных стилей под управлением стилевых векторов. На основе этого подхода мы предлагаем парадигму слияния моделей на основе дистилляции оценок (Score Distillation based Model Merging, DMM), позволяющую сжать несколько моделей в одну универсальную T2I-модель. Кроме того, мы переосмысливаем и переформулируем задачу слияния моделей в контексте генерации T2I, предлагая новые цели слияния и протоколы оценки. Наши эксперименты демонстрируют, что DMM может компактно реорганизовать знания из нескольких моделей-учителей и достичь управляемой генерации изображений произвольных стилей.
Последние достижения в области обучения с подкреплением (RL) укрепили способности к рассуждению в моделях, работающих с визуальными и языковыми данными (VLMs). Однако улучшение исследования политик для более эффективного масштабирования вычислительных ресурсов во время тестирования остается недостаточно изученным в VLMs. Кроме того, VLMs продолжают испытывать трудности с несовершенным визуальным восприятием, что, в свою очередь, влияет на последующий процесс рассуждений. В связи с этим мы предлагаем NoisyRollout — простой, но эффективный подход RL, который комбинирует траектории как из чистых, так и из умеренно искаженных изображений, чтобы внести целенаправленное разнообразие в визуальное восприятие и результирующие паттерны рассуждений. Без дополнительных затрат на обучение NoisyRollout улучшает исследовательские способности VLMs за счет включения индуктивного смещения, ориентированного на визуальные данные. Кроме того, NoisyRollout использует график затухания шума, который постепенно снижает силу искажений в процессе обучения, обеспечивая преимущества от шумовых сигналов на ранних этапах, сохраняя при этом стабильность и масштабируемость на поздних стадиях. Всего на 2,1 тыс. обучающих выборок NoisyRollout демонстрирует наилучшие результаты среди моделей с открытым исходным кодом, настроенных с помощью RL, на 5 тестах, выходящих за пределы домена, охватывающих как задачи рассуждений, так и восприятия, при этом сохраняя сопоставимую или даже лучшую производительность в рамках домена.
Модели, объединяющие зрение и язык, играют ключевую роль в исследованиях в области компьютерного зрения, однако многие высокопроизводительные модели остаются закрытыми, что скрывает их данные, архитектуру и процесс обучения. Научное сообщество ответило на это использованием дистилляции из моделей с закрытой архитектурой для маркировки обучающих данных, что позволило достичь высоких результатов на бенчмарках, но за счёт измеримого научного прогресса. Однако без знания деталей модели-учителя и её источников данных измерение научного прогресса остаётся затруднительным. В данной статье мы исследуем создание Модели Восприятия и Языка (PLM) в полностью открытой и воспроизводимой среде для прозрачных исследований в области понимания изображений и видео. Мы анализируем стандартные подходы к обучению без использования дистилляции из проприетарных моделей и исследуем крупномасштабные синтетические данные для выявления критических пробелов, особенно в детальном понимании видео. Чтобы устранить эти пробелы, мы публикуем 2,8 миллиона человечески размеченных примеров тонко структурированных пар вопрос-ответ по видео и пространственно-временных описаний видео. Кроме того, мы представляем PLM-VideoBench — набор инструментов для оценки сложных задач понимания видео, фокусирующихся на способности рассуждать о «что», «где», «когда» и «как» в видео. Мы обеспечиваем полную воспроизводимость нашей работы, предоставляя данные, рецепты обучения, код и модели.
Современные подходы к персонализированной настройке на основе обучения, преимущественно опирающиеся на архитектуры U-Net, страдают от ограниченной способности к обобщению и сниженного качества изображений. В то же время методы, основанные на оптимизации, требуют тонкой настройки для каждого конкретного объекта, что неизбежно ухудшает текстовую управляемость. Для решения этих проблем мы предлагаем InstantCharacter, масштабируемую платформу для персонализации персонажей, построенную на основе диффузионного трансформера. InstantCharacter демонстрирует три фундаментальных преимущества: во-первых, она обеспечивает персонализацию в открытой области, охватывая разнообразные внешности, позы и стили персонажей, сохраняя при этом высокую точность результатов. Во-вторых, платформа включает масштабируемый адаптер с многослойными трансформерными кодировщиками, который эффективно обрабатывает признаки персонажей в открытой области и бесшовно взаимодействует с латентным пространством современных диффузионных трансформеров. В-третьих, для эффективного обучения платформы мы создали крупномасштабный набор данных о персонажах, содержащий 10 миллионов образцов. Набор данных систематически организован в парные (многовидовые изображения персонажей) и непарные (текстово-изобразительные комбинации) подмножества. Эта двойная структура данных позволяет одновременно оптимизировать согласованность идентичности и возможность текстового редактирования через различные пути обучения. Качественные эксперименты демонстрируют передовые возможности InstantCharacter в генерации высококачественных, текстово-управляемых и согласованных с персонажем изображений, устанавливая новый стандарт для генерации изображений, управляемых персонажами. Наш исходный код доступен по адресу https://github.com/Tencent/InstantCharacter.
Масштабирование вычислительных ресурсов на этапе тестирования стало ключевым фактором, позволяющим крупным языковым моделям (LLM) решать сложные задачи, однако это сопровождается высокой задержкой и стоимостью вывода. Мы представляем концепцию "вычислений в режиме ожидания", которая позволяет моделям "размышлять" о контекстах в автономном режиме до появления запросов: предвосхищая возможные вопросы пользователей и предварительно вычисляя полезные данные, мы можем значительно снизить требования к вычислительным ресурсам на этапе тестирования. Чтобы продемонстрировать эффективность нашего метода, мы создаем модифицированные версии двух задач на логическое рассуждение — Stateful GSM-Symbolic и Stateful AIME. Мы обнаруживаем, что вычисления в режиме ожидания могут сократить объем вычислительных ресурсов, необходимых для достижения той же точности, примерно в 5 раз для Stateful GSM-Symbolic и Stateful AIME, а масштабирование таких вычислений позволяет дополнительно повысить точность до 13% для Stateful GSM-Symbolic и 18% для Stateful AIME. Кроме того, мы представляем Multi-Query GSM-Symbolic, который расширяет GSM-Symbolic, включая несколько связанных запросов для одного контекста. Распределяя вычисления в режиме ожидания между связанными запросами об одном контексте с помощью Multi-Query GSM-Symbolic, мы можем снизить среднюю стоимость одного запроса в 2,5 раза. Затем мы проводим дополнительный анализ, чтобы понять, когда вычисления в режиме ожидания наиболее эффективны, и обнаруживаем, что предсказуемость запроса пользователя хорошо коррелирует с эффективностью таких вычислений. Наконец, мы проводим кейс-стади применения вычислений в режиме ожидания к реалистичной задаче агентного программного обеспечения (SWE).
Крупные языковые модели (LLM) продемонстрировали огромный потенциал в качестве агентов, преуспев в задачах, требующих многоэтапного рассуждения и взаимодействий. Тонкая настройка методом отбраковки (Rejection Sampling Fine-Tuning, RFT) стала эффективным подходом для адаптации LLM в качестве агентов: сначала она имитирует успешные траектории, сгенерированные экспертами, а затем улучшает агентские навыки через итеративную настройку на успешных, самостоятельно сгенерированных траекториях. Однако, поскольку эксперты (например, GPT-4) успешно справляются в основном с более простыми подзадачами, а RFT по своей природе склонен к более простым сценариям, многие сложные подзадачи остаются нерешенными и постоянно выходят за пределы распределения (out-of-distribution, OOD). Исследуя эти сложные подзадачи, мы обнаружили, что ранее неудачные траектории экспертов часто могут предоставить ценную информацию, например, планы и ключевые действия, которые могут значительно повысить эффективность исследования агента и освоение критически важных навыков. Вдохновленные этими наблюдениями, мы предлагаем метод "Исследование неудач экспертов" (Exploring Expert Failures, EEF), который выявляет полезные действия из неудачных траекторий экспертов и интегрирует их в обучающий набор данных. Потенциально вредные действия тщательно исключаются, чтобы предотвратить загрязнение процесса обучения модели. Используя полезные действия из неудач экспертов, EEF успешно решает некоторые ранее нерешаемые подзадачи и улучшает производительность настройки агента. Примечательно, что наш подход достиг 62\% успешности в WebShop, превзойдя RFT (53,6\%) и GPT-4 (35,6\%), и, насколько нам известно, установил новый рекорд, став первым методом, преодолевшим порог в 0,81 в WebShop и превысившим 81 в SciWorld.
Вычислительное постоянство цвета, или баланс белого, является ключевым модулем в процессоре обработки изображений (ISP) камеры, который корректирует цветовые оттенки, вызванные освещением сцены. Поскольку эта операция выполняется в специфичном для камеры цветовом пространстве RAW, алгоритмы баланса белого должны адаптироваться к различным камерам. В данной статье представлен метод на основе обучения для кросс-камерного постоянства цвета, который обобщается на новые камеры без необходимости переобучения. Наш метод использует предварительно калиброванные матрицы цветокоррекции (CCM), доступные в ISP, которые отображают цветовое пространство RAW камеры в стандартное пространство (например, CIE XYZ). Наш метод использует эти CCM для преобразования предопределенных цветов освещения (например, вдоль планковского локуса) в цветовое пространство RAW тестовой камеры. Преобразованные источники освещения кодируются в компактное встраивание "отпечатка камеры" (CFE), что позволяет сети адаптироваться к неизвестным камерам. Чтобы предотвратить переобучение из-за ограниченного количества камер и CCM во время обучения, мы вводим технику аугментации данных, которая интерполирует между камерами и их CCM. Экспериментальные результаты на нескольких наборах данных и архитектурах показывают, что наш метод достигает передовых результатов в кросс-камерном постоянстве цвета, оставаясь легковесным и используя только данные, доступные в ISP камер.
Аудиодескрипция (AD) фильмов направлена на описание визуального контента в диалоговых паузах, что особенно полезно для слепых и слабовидящих (BVI) зрителей. В отличие от обычной видеоподписи, AD требует сюжетно-ориентированного повествования с явными упоминаниями имен персонажей, что создает уникальные задачи в понимании фильмов. Для идентификации активных главных героев и фокусировки на сюжетно значимых областях мы предлагаем FocusedAD — новый фреймворк, предоставляющий персонаже-центричные аудиодескрипции фильмов. Он включает: (i) Модуль восприятия персонажей (CPM) для отслеживания областей персонажей и их связи с именами; (ii) Модуль динамических приоритетов (DPM), который внедряет контекстные подсказки из предыдущих AD и субтитров через обучаемые мягкие промпты; и (iii) Модуль фокусированной подписи (FCM), который генерирует описания, обогащенные сюжетно значимыми деталями и именами персонажей. Для преодоления ограничений в идентификации персонажей мы также представляем автоматизированный процесс создания банков запросов персонажей. FocusedAD демонстрирует передовые результаты на нескольких бенчмарках, включая сильные результаты в условиях zero-shot на наборах данных MAD-eval-Named и нашем новом наборе данных Cinepile-AD. Код и данные будут доступны по адресу https://github.com/Thorin215/FocusedAD.
Мы представляем Complex-Edit — всеобъемлющий бенчмарк, разработанный для систематической оценки моделей редактирования изображений на основе инструкций различной сложности. Для создания этого бенчмарка мы используем GPT-4o для автоматического сбора разнообразного набора инструкций по редактированию в больших масштабах. Наш подход следует четко структурированному конвейеру «Цепочка редактирования»: сначала мы генерируем отдельные атомарные задачи редактирования независимо, а затем интегрируем их в целостные сложные инструкции. Кроме того, мы вводим набор метрик для оценки различных аспектов производительности редактирования, а также конвейер автоматической оценки на основе VLM, который поддерживает масштабные оценки. Наш бенчмарк выявляет несколько важных наблюдений: 1) Модели с открытым исходным кодом значительно уступают проприетарным моделям с закрытым исходным кодом, причем разрыв в производительности увеличивается с ростом сложности инструкций; 2) Увеличение сложности инструкций в первую очередь ухудшает способность моделей сохранять ключевые элементы исходных изображений и поддерживать общее эстетическое качество; 3) Разложение сложной инструкции на последовательность атомарных шагов, выполняемых пошагово, существенно снижает производительность по множеству метрик; 4) Простая стратегия выбора Best-of-N улучшает результаты как для прямого редактирования, так и для пошагового подхода; и 5) Мы наблюдаем «проклятие синтетических данных»: когда синтетические данные используются при обучении моделей, отредактированные изображения таких моделей становятся все более синтетическими по мере увеличения сложности инструкций — явление, которое, что интересно, также проявляется в последних выходах GPT-4o.
Агенты на основе больших языковых моделей (LLM) всё чаще используют генерацию, усиленную поиском (RAG), чтобы повысить фактическую точность своих ответов. Однако на практике такие системы часто сталкиваются с необходимостью обработки неоднозначных пользовательских запросов и потенциально противоречивой информации из нескольких источников, одновременно подавляя неточные данные из зашумлённых или нерелевантных документов. Предыдущие работы, как правило, изучали и решали эти проблемы изолированно, рассматривая только один аспект за раз, например, обработку неоднозначности или устойчивость к шуму и дезинформации. Мы же рассматриваем несколько факторов одновременно, предлагая (i) RAMDocs (Retrieval with Ambiguity and Misinformation in Documents) — новый набор данных, моделирующий сложные и реалистичные сценарии с противоречивыми доказательствами для пользовательского запроса, включая неоднозначность, дезинформацию и шум; и (ii) MADAM-RAG — многоагентный подход, в котором агенты LLM обсуждают достоинства ответа в несколько раундов, позволяя агрегатору собирать ответы, соответствующие разобранным сущностям, одновременно отбрасывая дезинформацию и шум, тем самым совместно решая различные источники конфликтов. Мы демонстрируем эффективность MADAM-RAG, используя как закрытые, так и открытые модели на AmbigDocs — где требуется представить все допустимые ответы для неоднозначных запросов — улучшая результаты сильных базовых RAG на 11,40%, и на FaithEval — где требуется подавление дезинформации — где мы улучшаем результат на 15,80% (абсолютно) с моделью Llama3.3-70B-Instruct. Кроме того, мы обнаруживаем, что RAMDocs представляет собой вызов для существующих базовых RAG (Llama3.3-70B-Instruct достигает только 32,60 точного совпадения). Хотя MADAM-RAG начинает решать эти противоречивые факторы, наш анализ показывает, что значительный разрыв остаётся, особенно при увеличении уровня дисбаланса в поддерживающих доказательствах и дезинформации.
Обеспечение этичного использования моделей преобразования текста в изображения требует эффективных методов предотвращения генерации вредного или неподобающего контента. Хотя методы удаления концепций предлагают перспективное решение, существующие подходы, основанные на тонкой настройке, имеют существенные ограничения. Методы без использования якорных концепций рискуют нарушить траектории выборки, что приводит к визуальным артефактам, в то время как методы с использованием якорных концепций полагаются на эвристический выбор якорных концепций. Чтобы преодолеть эти недостатки, мы представляем фреймворк тонкой настройки, названный ANT, который автоматически направляет траектории денойзинга для избежания нежелательных концепций. ANT основан на ключевой идее: изменение направления условия в классификатор-фри гиде на этапах среднего и позднего денойзинга позволяет точно модифицировать контент без ущерба для структурной целостности на ранних этапах. Это вдохновляет на создание целевой функции, учитывающей траектории, которая сохраняет целостность поля функции оценки на ранних этапах, направляя выборки к многообразию естественных изображений, без необходимости эвристического выбора якорных концепций. Для удаления одной концепции мы предлагаем карту значимости весов, усиленную аугментацией, чтобы точно определить критические параметры, которые в наибольшей степени способствуют нежелательной концепции, что позволяет более тщательно и эффективно удалить её. Для удаления нескольких концепций наша целевая функция предлагает универсальное решение "подключи и работай", которое значительно повышает производительность. Многочисленные эксперименты демонстрируют, что ANT достигает передовых результатов как в удалении одной, так и нескольких концепций, обеспечивая высококачественные и безопасные результаты без ущерба для генеративной точности. Код доступен по адресу https://github.com/lileyang1210/ANT.
Недавние небольшие языковые модели, такие как Phi-3.5 и Phi-4, полагаются на синтетические данные, сгенерированные с использованием более крупных языковых моделей. Остаются вопросы о применении синтетических данных для других задач, таких как адаптация больших языковых моделей (LLM) к конкретным областям. Ключевым ограничением синтетических данных является низкое разнообразие, что негативно сказывается на их применимости для улучшения других моделей. Для решения этой проблемы мы предлагаем MetaSynth — метод генерации синтетических данных, который повышает разнообразие с помощью мета-промптинга, где языковая модель координирует работу нескольких "экспертных" агентов LLM для совместной генерации данных. Используя всего 25 миллионов токенов синтетических данных, сгенерированных с помощью MetaSynth, мы успешно адаптировали хорошо обученную модель (Mistral-7B-v0.3) к двум специализированным областям — финансам и биомедицине — без ущерба для её способностей в общих задачах. Кроме того, мы оценили разнообразие наших синтетических данных с использованием семи автоматизированных метрик и обнаружили, что оно приближается к разнообразию корпусов для предварительного обучения LLM. Постоянное предварительное обучение Mistral-7B-v0.3 с использованием MetaSynth значительно превосходит базовую LLM, демонстрируя улучшения до 4,08% в финансах и 13,75% в биомедицине. Та же модель показывает снижение производительности при обучении на данных, сгенерированных с использованием шаблонного промпта, даже если шаблон включает предыдущие генерации и различные In-Context примеры реальных данных. Наши результаты показывают, что несколько миллионов токенов разнообразных синтетических данных без смешивания с реальными данными достаточно для эффективной адаптации к домену при использовании MetaSynth.
Однонаправленные архитектуры, использующие основы Vision Transformer (ViT), в последнее время демонстрируют значительный потенциал для отслеживания БПЛА в реальном времени. Однако частые окклюзии, вызванные препятствиями, такими как здания и деревья, выявляют серьёзный недостаток: эти модели часто не имеют эффективных стратегий для обработки окклюзий. Необходимы новые методы для повышения устойчивости однонаправленных моделей ViT к окклюзиям в задачах аэрофотосъёмки. В данной работе мы предлагаем изучить Окклюзионно-Устойчивые Представления (ORR) на основе ViT для отслеживания БПЛА, обеспечивая инвариантность представления признаков цели относительно случайных операций маскирования, смоделированных пространственным процессом Кокса. Надеемся, что такая случайная маскировка приблизительно имитирует окклюзии цели, что позволяет нам обучить ViT, устойчивые к окклюзиям в задачах отслеживания БПЛА. Эта структура получила название ORTrack. Кроме того, для поддержки приложений реального времени мы предлагаем метод Адаптивного Дистилляции Знаний на основе Признаков (AFKD), который создаёт более компактный трекер, адаптивно имитирующий поведение модели-учителя ORTrack в зависимости от сложности задачи. Эта модель-ученик, названная ORTrack-D, сохраняет большую часть производительности ORTrack, обеспечивая при этом более высокую эффективность. Многочисленные эксперименты на нескольких эталонных наборах данных подтверждают эффективность нашего метода, демонстрируя его передовые характеристики. Код доступен по адресу https://github.com/wuyou3474/ORTrack.