Ежедневно отобранные исследовательские статьи по ИИ с переводами
Самообучение обещает устранить необходимость в ручной аннотации данных, позволяя моделям масштабироваться без усилий на огромные наборы данных и более крупные архитектуры. Благодаря тому, что этот подход не заточен под конкретные задачи или домены, он имеет потенциал для изучения визуальных представлений из разнообразных источников, начиная от естественных изображений и заканчивая аэроснимками, используя единый алгоритм. В этом техническом отчете представлен DINOv3 — важный шаг на пути к реализации этой цели, основанный на простых, но эффективных стратегиях. Во-первых, мы используем преимущества масштабирования как набора данных, так и размера модели за счет тщательной подготовки, проектирования и оптимизации данных. Во-вторых, мы представляем новый метод под названием Gram anchoring, который эффективно решает известную, но нерешенную проблему деградации плотных карт признаков в ходе длительных циклов обучения. Наконец, мы применяем постобработочные стратегии, которые дополнительно повышают гибкость наших моделей в отношении разрешения, размера модели и согласованности с текстом. В результате мы представляем универсальную базовую модель для задач компьютерного зрения, которая превосходит специализированные современные решения в широком спектре сценариев без необходимости тонкой настройки. DINOv3 генерирует высококачественные плотные признаки, демонстрирующие выдающуюся производительность на различных задачах компьютерного зрения, значительно опережая предыдущие модели, основанные на самообучении и слабом контроле. Мы также делимся набором моделей DINOv3, разработанных для продвижения современного уровня в широком спектре задач и данных, предоставляя масштабируемые решения для различных ограничений ресурсов и сценариев развертывания.
Мы исследуем потенциал крупных языковых моделей (LLM) в качестве эффективных симуляторов для задач агентного поиска в обучении с подкреплением (RL), что позволяет снизить зависимость от затратных взаимодействий с внешними поисковыми системами. Для этого мы сначала количественно оцениваем внутреннюю способность LLM к поиску с помощью структурированных запросов и повторяющейся выборки, что мы называем Self-Search. Наши результаты показывают, что LLM демонстрируют сильное масштабирование в зависимости от бюджета на вывод, достигая высоких показателей pass@k на бенчмарках вопросов и ответов, включая сложную задачу BrowseComp. На основе этих наблюдений мы представляем Self-Search RL (SSRL), который улучшает способность LLM к Self-Search за счет форматно- и правил-ориентированных вознаграждений. SSRL позволяет моделям итеративно уточнять использование своих знаний внутренне, без необходимости доступа к внешним инструментам. Эмпирические оценки показывают, что модели политик, обученные с помощью SSRL, предоставляют экономически эффективную и стабильную среду для обучения RL, основанного на поиске, снижая зависимость от внешних поисковых систем и способствуя устойчивому переносу из симуляции в реальность. Мы делаем следующие выводы: 1) LLM обладают знаниями о мире, которые можно эффективно использовать для достижения высокой производительности; 2) SSRL демонстрирует потенциал использования внутренних знаний для снижения галлюцинаций; 3) модели, обученные с помощью SSRL, легко интегрируются с внешними поисковыми системами без дополнительных усилий. Наши результаты подчеркивают потенциал LLM для поддержки более масштабируемого обучения RL-агентов.
После введения OpenAI концепции «мышления с помощью изображений» недавние исследования были направлены на стимулирование использования визуальной информации в процессе рассуждений для повышения производительности моделей в задачах восприятия и логического анализа. Однако, насколько нам известно, в настоящее время ни одна открытая разработка не предлагает столь богатый набор функций, как проприетарные модели (O3), которые способны выполнять разнообразные манипуляции с изображениями и одновременно улучшать логические способности через использование кода. В данной статье мы делаем предварительную попытку в этом направлении, представляя Thyme (Think Beyond Images) — новую парадигму, которая позволяет мультимодальным языковым моделям (MLLMs) выйти за рамки существующих подходов «мышления с помощью изображений», автономно генерируя и выполняя разнообразные операции обработки изображений и вычисления через исполняемый код. Этот подход не только обеспечивает богатый набор операций с изображениями на лету (например, обрезка, поворот, улучшение контраста), но также позволяет выполнять математические вычисления, сохраняя высокую автономность в принятии решений о том, когда и как применять эти операции. Мы активируем эту возможность с помощью двухэтапной стратегии обучения: начальное тонкое обучение (SFT) на тщательно отобранном наборе данных из 500 тыс. образцов для обучения генерации кода, за которым следует этап обучения с подкреплением (RL) для улучшения принятия решений. Для этапа RL мы вручную собираем и разрабатываем высококачественные пары вопросов и ответов, чтобы увеличить сложность обучения, и предлагаем GRPO-ATS (Group Relative Policy Optimization with Adaptive Temperature Sampling) — алгоритм, который применяет различные температуры для генерации текста и кода, чтобы сбалансировать исследование рассуждений с точностью выполнения кода. Мы проводим обширный экспериментальный анализ и исследования с исключением. Комплексные оценки на почти 20 бенчмарках показывают, что Thyme обеспечивает значительный и стабильный прирост производительности, особенно в сложных задачах восприятия высокого разрешения и комплексного логического анализа.
Недавние достижения в предварительном обучении крупных языковых моделей (LLM) показали, что простое увеличение объема данных в конечном итоге приводит к уменьшению отдачи, достигая так называемой "стены данных". В ответ на это использование синтетических данных для предварительного обучения стало перспективным подходом для расширения границ производительности. Тем не менее, факторы, влияющие на качество синтетических данных, остаются малоизученными. В данной работе мы представляем BeyondWeb — фреймворк для генерации синтетических данных, который создает высококачественные данные для предварительного обучения. BeyondWeb значительно расширяет возможности традиционных наборов данных веб-масштаба, превосходя современные синтетические наборы данных для предварительного обучения, такие как Cosmopedia и высококачественное синтетическое подмножество Nemotron-CC (Nemotron-Synth), на 5,1 и 2,6 процентных пункта (п.п.) соответственно, при усреднении по набору из 14 бенчмарков. Он обеспечивает до 7,7 раз более быстрое обучение по сравнению с данными из открытого веба и в 2,7 раза быстрее, чем Nemotron-Synth. Примечательно, что модель объемом 3 миллиарда параметров, обученная на 180 миллиардах токенов с использованием BeyondWeb, превосходит модель объемом 8 миллиардов параметров, обученную на том же количестве токенов с использованием Cosmopedia. Мы также представляем несколько инсайтов, полученных благодаря BeyondWeb, касающихся синтетических данных для предварительного обучения: что определяет их преимущества, какие данные следует перефразировать и как, а также влияние размера и семейства модели на качество данных. В целом, наша работа показывает, что не существует универсального решения для генерации высококачественных синтетических данных для предварительного обучения. Лучшие результаты требуют совместной оптимизации множества факторов — сложной задачи, которая требует строгого научного подхода и практического опыта. Наивные подходы могут дать скромные улучшения, возможно, с большими затратами, тогда как хорошо продуманные методы могут привести к трансформационным улучшениям, как это демонстрирует BeyondWeb.
Хотя вывод больших языковых моделей (LLM) стал критически важной задачей для многих приложений, эффективный вывод LLM является сложной задачей из-за значительного объема памяти и требований к пропускной способности. В то же время вычислительные возможности на протяжении последних десятилетий стабильно опережали как объем памяти, так и пропускную способность, и эта тенденция остается очевидной в современных GPU, что усугубляет сложность вывода LLM. В связи с этим появляются новые алгоритмы, которые жертвуют увеличением вычислений ради сокращения операций с памятью. В этом контексте мы представляем XQuant, который использует эту тенденцию, обеспечивая снижение потребления памяти на порядок за счет низкобитового квантования с существенным улучшением точности по сравнению с современными методами квантования кэша ключей и значений (KV). Мы достигаем этого, квантуя и кэшируя входные активации слоев X вместо использования стандартного кэширования KV, а затем динамически восстанавливая ключи и значения во время вывода. Это приводит к немедленному сокращению памяти в 2 раза по сравнению с кэшированием KV. Применяя XQuant, мы достигаем сокращения памяти до ~7.7 раз с ухудшением перплексии менее чем на 0.1 по сравнению с базовым уровнем FP16. Кроме того, наш подход использует тот факт, что значения X схожи между слоями. На основе этого наблюдения мы представляем XQuant-CL, который использует межслойное сходство в X-эмбеддингах для экстремального сжатия. На различных моделях XQuant-CL достигает сокращения памяти до 10 раз по сравнению с базовым уровнем FP16 с ухудшением перплексии всего на 0.01 и до 12.5 раз с ухудшением перплексии на 0.1. XQuant использует быстро растущие вычислительные возможности аппаратных платформ для устранения узкого места в памяти, превосходя современные методы квантования кэша KV и достигая точности, близкой к FP16, на широком спектре моделей.
Поиск научных статей является важной задачей для исследователей, которая обычно включает использование запроса с описанием темы для нахождения соответствующих статей. По мере углубления исследований требования к поиску статей могут становиться более гибкими, иногда включая конкретные детали, такие как конфигурация модулей, вместо ограничения лишь общими темами. Однако существующие системы поиска статей не способны удовлетворить эти гибкие требования, поскольку они в основном собирают аннотации статей для построения индекса корпуса, что не позволяет поддерживать поиск по более детализированным запросам. В данной работе мы предлагаем PaperRegister, состоящий из оффлайн-иерархической индексации и онлайн-адаптивного поиска, который преобразует традиционный индекс на основе аннотаций в иерархическое дерево индексов для поиска статей, тем самым поддерживая запросы на различных уровнях детализации. Эксперименты на задачах поиска статей с различной степенью детализации демонстрируют, что PaperRegister достигает наилучших результатов, особенно выделяясь в сценариях с высокой детализацией, что подчеркивает его потенциал как эффективного решения для гибкого поиска статей в реальных приложениях. Код для данной работы доступен по адресу: https://github.com/Li-Z-Q/PaperRegister.
Мы представляем TexVerse, крупномасштабный 3D-датасет с высококачественными текстурами. Хотя последние достижения в области крупномасштабных 3D-датасетов улучшили генерацию высокодетализированной геометрии, создание высококачественных текстур в сквозном режиме остается малоизученным из-за отсутствия подходящих наборов данных. TexVerse заполняет этот пробел, предлагая тщательно отобранную коллекцию из более чем 858K уникальных 3D-моделей с высоким разрешением, загруженных с Sketchfab, включая более 158K моделей с материалами, основанными на физически корректном рендеринге (PBR). Каждая модель включает все свои высококачественные варианты, что в сумме составляет 1.6M 3D-экземпляров. TexVerse также включает специализированные подмножества: TexVerse-Skeleton с 69K моделей, оснащенных скелетной анимацией, и TexVerse-Animation с 54K анимированных моделей, оба сохраняют оригинальные данные скелетов и анимации, загруженные пользователем. Мы также предоставляем детальные аннотации моделей, описывающие общие характеристики, структурные компоненты и сложные особенности. TexVerse предлагает высококачественный ресурс данных с широким спектром потенциальных применений в синтезе текстур, разработке PBR-материалов, анимации и различных задачах 3D-графики и компьютерного зрения.
Последние достижения в области аудиоуправляемой анимации портретов демонстрируют впечатляющие возможности. Однако существующие методы сталкиваются с трудностями в согласовании с тонкими предпочтениями человека по множеству аспектов, таких как естественность движений, точность синхронизации губ и визуальное качество. Это связано с трудностью оптимизации среди конкурирующих целей предпочтений, которые часто противоречат друг другу, а также с недостатком крупномасштабных, высококачественных наборов данных с многомерными аннотациями предпочтений. Для решения этих проблем мы сначала представляем Talking-Critic, мультимодальную модель вознаграждения, которая обучается на выравнивании с человеческими предпочтениями, чтобы количественно оценивать, насколько хорошо созданные видео удовлетворяют многомерным ожиданиям. Используя эту модель, мы создаем Talking-NSQ, крупномасштабный набор данных с многомерными предпочтениями человека, содержащий 410 тысяч пар предпочтений. Наконец, мы предлагаем Timestep-Layer adaptive multi-expert Preference Optimization (TLPO), новую структуру для выравнивания моделей анимации портретов на основе диффузии с тонкими, многомерными предпочтениями. TLPO разделяет предпочтения на специализированные экспертные модули, которые затем объединяются на протяжении временных шагов и слоев сети, что позволяет достичь всестороннего, тонкого улучшения по всем аспектам без взаимного вмешательства. Эксперименты показывают, что Talking-Critic значительно превосходит существующие методы в согласовании с рейтингами человеческих предпочтений. В то же время TLPO достигает существенных улучшений по сравнению с базовыми моделями в точности синхронизации губ, естественности движений и визуальном качестве, демонстрируя превосходную производительность как в качественных, так и в количественных оценках. Наша страница проекта: https://fantasy-amap.github.io/fantasy-talking2/
Мы представляем StyleMM — новый фреймворк, способный создавать стилизованную 3D Morphable Model (3DMM) на основе пользовательских текстовых описаний, задающих целевой стиль. Основываясь на предварительно обученной сети деформации мешей и генераторе текстур для реалистичных человеческих лиц, созданных с использованием оригинальной 3DMM, наш подход дообучает эти модели с помощью стилизованных изображений лиц, сгенерированных посредством текстово-управляемого перевода изображения в изображение (i2i) с использованием диффузионной модели. Эти изображения служат целями стилизации для визуализированного меша. Чтобы избежать нежелательных изменений в идентичности, выравнивании лица или выражениях во время перевода i2i, мы предлагаем метод стилизации, который явно сохраняет атрибуты лица исходного изображения. Сохраняя эти ключевые атрибуты в процессе стилизации изображений, предложенный подход обеспечивает согласованный перенос стиля в 3D-пространстве параметров 3DMM через обучение на основе изображений. После обучения StyleMM позволяет выполнять прямое генерирование стилизованных мешей лиц с явным контролем над параметрами формы, выражения и текстуры, создавая меши с согласованной связностью вершин и анимационными возможностями. Количественные и качественные оценки показывают, что наш подход превосходит современные методы с точки зрения разнообразия лиц на уровне идентичности и способности к стилизации. Код и видео доступны по адресу [kwanyun.github.io/stylemm_page](kwanyun.github.io/stylemm_page).
Графовые нейронные сети (GNN) достигли передовых результатов в задачах компьютерного зрения и классификации медицинских изображений, улавливая структурные зависимости между экземплярами данных. Однако их процесс принятия решений остается в значительной степени непрозрачным, что ограничивает их надежность в критически важных клинических приложениях, где интерпретируемость является ключевой. Существующие методы объяснимости для GNN, как правило, являются постфактумными и глобальными, предоставляя ограниченное понимание решений отдельных узлов или локальной логики. Мы представляем X-Node — самообъясняемую архитектуру GNN, в которой каждый узел генерирует собственное объяснение в процессе предсказания. Для каждого узла мы создаем структурированный контекстный вектор, кодирующий интерпретируемые признаки, такие как степень, центральность, кластеризация, значимость признаков и согласованность меток в его локальной топологии. Легковесный модуль Reasoner преобразует этот контекст в компактный вектор объяснения, который выполняет три функции: (1) восстанавливает скрытое представление узла через декодер для обеспечения достоверности, (2) генерирует объяснение на естественном языке с использованием предобученной языковой модели (например, Grok или Gemini) и (3) направляет саму GNN через механизм "внедрения текста", который возвращает объяснения в процесс передачи сообщений. Мы оцениваем X-Node на двух наборах графовых данных, полученных из MedMNIST и MorphoMNIST, интегрируя его с архитектурами GCN, GAT и GIN. Наши результаты показывают, что X-Node сохраняет конкурентоспособную точность классификации, одновременно предоставляя достоверные объяснения для каждого узла. Репозиторий: https://github.com/basiralab/X-Node.
По мере того как мультимодальные большие языковые модели (MLLMs) получают широкое применение, становится все более желательным адаптировать их для различных потребностей пользователей. В данной статье мы изучаем адаптацию MLLMs с помощью контролируемого декодирования. Для достижения этой цели мы представляем первый метод декодирования MLLMs с использованием вознаграждения и демонстрируем его применение для улучшения их визуальной привязки. Наш метод включает создание моделей вознаграждения для визуальной привязки и их использование для управления процессом декодирования MLLM. Конкретно, мы создаем две отдельные модели вознаграждения для независимого контроля степени точности и полноты объектов в выходных данных модели. Наш подход обеспечивает возможность динамического управления процессом вывода MLLM двумя способами: во-первых, предоставляя контроль над относительной важностью каждой функции вознаграждения во время декодирования, что позволяет пользователю динамически балансировать между точностью и полнотой объектов в задачах генерации подписей к изображениям; во-вторых, предоставляя контроль над широтой поиска во время декодирования, что позволяет пользователю управлять компромиссом между объемом вычислений во время тестирования и степенью визуальной привязки. Мы оцениваем наш метод на стандартных тестах на галлюцинации объектов, показывая, что он обеспечивает значительный контроль над выводом MLLM, при этом стабильно превосходя существующие методы снижения галлюцинаций.
Самообучение обладает огромным потенциалом для дистанционного зондирования, однако стандартные методы самообучения необходимо адаптировать к уникальным характеристикам данных наблюдения Земли. Мы делаем шаг в этом направлении, проводя всесторонний анализ стратегий слияния и схем нормализации целевых данных для мультимодальных, мультивременных и мультиспектральных данных наблюдения Земли. На основе полученных результатов мы предлагаем MAESTRO — новую адаптацию Masked Autoencoder, включающую оптимизированные стратегии слияния и специализированную схему нормализации целевых данных, которая вводит спектральный априор в качестве сигнала самообучения. Протестированный на четырех наборах данных наблюдения Земли, MAESTRO устанавливает новый эталон в задачах, сильно зависящих от мультивременной динамики, оставаясь при этом высококонкурентоспособным в задачах, где доминирует моно-временная модальность. Код для воспроизведения всех наших экспериментов доступен по адресу https://github.com/ignf/maestro.
Глубокое обучение произвело революцию в медицинской визуализации, однако его эффективность серьезно ограничена недостаточным количеством размеченных данных для обучения. В данной статье представлена новая полуконтролируемая обучающая система на основе генеративно-состязательных сетей (GAN), специально разработанная для условий с малым количеством размеченных данных, оцененная в условиях от 5 до 50 размеченных образцов на класс. Наш подход интегрирует три специализированные нейронные сети — генератор для условного преобразования изображений, дискриминатор для оценки подлинности и классификации, а также отдельный классификатор — в рамках трехэтапной обучающей системы. Метод чередует контролируемое обучение на ограниченных размеченных данных и неконтролируемое обучение, которое использует большое количество неразмеченных изображений через преобразование изображений, а не генерацию из шума. Мы применяем псевдоразметку на основе ансамбля, которая объединяет взвешенные по уверенности предсказания дискриминатора и классификатора с временной согласованностью через экспоненциальное скользящее усреднение, что позволяет надежно оценивать метки для неразмеченных данных. Всесторонняя оценка на одиннадцати наборах данных MedMNIST демонстрирует, что наш подход достигает статистически значимых улучшений по сравнению с шестью современными полуконтролируемыми методами на основе GAN, особенно выделяясь в экстремальных условиях с 5 образцами на класс, где нехватка размеченных данных наиболее критична. Система сохраняет свое превосходство во всех оцененных условиях (5, 10, 20 и 50 образцов на класс). Наш подход предлагает практическое решение для задач медицинской визуализации, где затраты на аннотацию чрезмерно высоки, обеспечивая надежную классификацию даже при минимальном количестве размеченных данных. Код доступен по адресу https://github.com/GuidoManni/SPARSE.