Ежедневно отобранные исследовательские статьи по ИИ с переводами
Авторегрессионное моделирование с длинным контекстом значительно продвинуло генерацию текста, однако генерация видео по-прежнему испытывает трудности с полным использованием расширенных временных контекстов. Для исследования моделирования видео с длинным контекстом мы представляем Frame AutoRegressive (FAR), мощный базовый подход для авторегрессионного моделирования видео. Подобно тому, как языковые модели изучают причинные зависимости между токенами (т.е., Token AR), FAR моделирует временные причинные зависимости между последовательными кадрами, достигая лучшей сходимости по сравнению с Token AR и видео диффузионными трансформерами. На основе FAR мы отмечаем, что моделирование зрения с длинным контекстом сталкивается с проблемами из-за визуальной избыточности. Существующий RoPE не обеспечивает эффективного временного затухания для удаленного контекста и плохо экстраполируется на длинные видео последовательности. Кроме того, обучение на длинных видео вычислительно затратно, так как визуальные токены растут гораздо быстрее, чем языковые. Для решения этих проблем мы предлагаем баланс между локальностью и долгосрочной зависимостью. Мы представляем FlexRoPE, технику на этапе тестирования, которая добавляет гибкое временное затухание к RoPE, позволяя экстраполировать на 16 раз более длинные визуальные контексты. Дополнительно, мы предлагаем моделирование долгосрочного и краткосрочного контекста, где высокоразрешающее окно краткосрочного контекста обеспечивает детальную временную согласованность, а неограниченное окно долгосрочного контекста кодирует долгосрочную информацию с использованием меньшего количества токенов. С таким подходом мы можем обучаться на длинных видео последовательностях с управляемой длиной контекста токенов. Мы демонстрируем, что FAR достигает передовых результатов как в генерации коротких, так и длинных видео, предоставляя простой, но эффективный базовый подход для авторегрессионного моделирования видео.
Высокое разрешение восприятия визуальных деталей имеет решающее значение для повседневных задач. Однако текущее предобучение моделей зрения по-прежнему ограничено низкими разрешениями (например, 378 x 378 пикселей) из-за квадратичной стоимости обработки изображений большего размера. Мы представляем PS3, который масштабирует предобучение зрения в стиле CLIP до разрешения 4K с почти постоянной стоимостью. Вместо контрастивного обучения на глобальном представлении изображения, PS3 предобучается путем выборочной обработки локальных областей и их сопоставления с локальными детализированными описаниями, что позволяет изучать представления с высоким разрешением при значительно сниженных вычислительных затратах. Предобученная модель PS3 способна как кодировать глобальное изображение в низком разрешении, так и выборочно обрабатывать локальные области с высоким разрешением на основе их значимости или релевантности текстовому запросу. При применении PS3 к мультимодальным большим языковым моделям (MLLM), результирующая модель, названная VILA-HD, значительно улучшает восприятие визуальных данных с высоким разрешением по сравнению с базовыми моделями, такими как AnyRes и S^2, которые не используют предобучение с высоким разрешением, при этом используя до 4,3 раза меньше токенов. PS3 также раскрывает привлекательные свойства масштабирования VILA-HD, включая бесплатное увеличение разрешения и масштабирование вычислительных ресурсов во время тестирования для повышения производительности. По сравнению с современными решениями, VILA-HD превосходит предыдущие MLLM, такие как NVILA и Qwen2-VL, на множестве бенчмарков и демонстрирует лучшую эффективность, чем последние подходы к сокращению токенов. Наконец, мы обнаруживаем, что текущие бенчмарки не требуют восприятия с разрешением 4K, что побудило нас предложить 4KPro — новый бенчмарк для вопросно-ответных задач на изображениях с разрешением 4K, на котором VILA-HD превосходит все предыдущие MLLM, включая улучшение на 14,5% по сравнению с GPT-4o, а также улучшение на 3,2% и ускорение в 2,96 раза по сравнению с Qwen2-VL.
Мы предлагаем подход масштабирования на этапе вывода для предобученных моделей потоков. В последнее время масштабирование на этапе вывода привлекло значительное внимание в крупных языковых моделях (LLM) и моделях диффузии, улучшая качество выборок или лучше согласовывая выходные данные с предпочтениями пользователей за счет использования дополнительных вычислений. Для моделей диффузии выборка частиц позволила более эффективное масштабирование благодаря стохастичности на промежуточных этапах удаления шума. В то же время, хотя модели потоков приобрели популярность как альтернатива моделям диффузии — предлагая более быструю генерацию и высококачественные результаты в современных моделях генерации изображений и видео — эффективные методы масштабирования на этапе вывода, используемые для моделей диффузии, не могут быть напрямую применены из-за их детерминированного процесса генерации. Чтобы обеспечить эффективное масштабирование на этапе вывода для моделей потоков, мы предлагаем три ключевые идеи: 1) генерацию на основе стохастических дифференциальных уравнений (SDE), позволяющую выборку частиц в моделях потоков, 2) преобразование интерполянтов, расширяющее пространство поиска и повышающее разнообразие выборок, и 3) принудительное распределение бюджета (Rollover Budget Forcing, RBF) — адаптивное распределение вычислительных ресурсов по временным шагам для максимизации использования бюджета. Наши эксперименты показывают, что генерация на основе SDE, в частности генерация на основе интерполянтов с сохранением дисперсии (VP), улучшает производительность методов выборки частиц для масштабирования на этапе вывода в моделях потоков. Кроме того, мы демонстрируем, что RBF в сочетании с VP-SDE достигает наилучшей производительности, превосходя все предыдущие подходы к масштабированию на этапе вывода.
Галлюцинации крупных мультимодальных моделей (LMMs), выражающиеся в предоставлении ответов, которые кажутся правильными, но на самом деле ошибочны, ограничивают их надежность и применимость. В данной статье мы исследуем проблему галлюцинаций LMMs в видео-модальности, которая является динамической и более сложной по сравнению со статическими модальностями, такими как изображения и текст. Исходя из этой мотивации, мы сначала представляем комплексный бенчмарк под названием HAVEN для оценки галлюцинаций LMMs в задачах понимания видео. Он построен на трех измерениях: причины галлюцинаций, аспекты галлюцинаций и форматы вопросов, что в итоге дает 6 тысяч вопросов. Затем мы количественно исследуем 7 влиятельных факторов на галлюцинации, таких как продолжительность видео, размеры моделей и способность моделей к рассуждению, с помощью экспериментов на 16 LMMs с использованием представленного бенчмарка. Кроме того, вдохновленные современными моделями мышления, такими как OpenAI o1, мы предлагаем видео-мыслительную модель для снижения галлюцинаций LMMs с помощью контролируемой тонкой настройки рассуждений (SRFT) и оптимизации прямых предпочтений (TDPO) — где SRFT улучшает способности к рассуждению, а TDPO уменьшает галлюцинации в процессе мышления. Обширные эксперименты и анализы демонстрируют эффективность предложенного подхода. В частности, он улучшает базовый показатель на 7,65% по точности в оценке галлюцинаций и снижает показатель смещения на 4,5%. Код и данные доступны по адресу https://github.com/Hongcheng-Gao/HAVEN.
Предварительно обученные базовые модели для обработки изображений (Vision Foundation Models, VFMs) обеспечивают мощные визуальные представления для широкого спектра задач. В данной работе мы продолжаем предварительное обучение популярных VFMs в мультимодальном режиме, чтобы они могли легко обрабатывать визуальные входные данные различных размеров и генерировать визуальные представления, более согласованные с языковыми, независимо от их исходного процесса предварительного обучения. Для этого мы представляем CoMP — тщательно разработанный конвейер мультимодального предварительного обучения. CoMP использует Continual Rotary Position Embedding для поддержки предварительного обучения на нативном разрешении и функцию потерь Alignment Loss между визуальными и текстовыми признаками через языковые прототипы для согласования мультимодальных представлений. Благодаря трехэтапному обучению наши VFMs демонстрируют значительные улучшения не только в мультимодальном понимании, но и в других задачах, таких как классификация и сегментация. Примечательно, что CoMP-SigLIP достигает показателей 66.7 на ChartQA и 75.9 на DocVQA с использованием языковой модели на 0.5 миллиарда параметров, сохраняя при этом точность 87.4% на ImageNet-1K и 49.5 mIoU на ADE20K в условиях замороженной оценки фрагментов.
Недавние достижения в области крупных языковых моделей (LLM), таких как OpenAI-o1 и DeepSeek-R1, продемонстрировали эффективность масштабирования на этапе тестирования, при котором расширенные процессы рассуждения существенно улучшают производительность моделей. Однако текущие модели ограничены трудностями в обработке длинных текстов и эффективностью обучения с подкреплением (RL). Для решения этих проблем мы предлагаем простой, но эффективный подход к масштабированию на этапе тестирования — метод "Многораундовое мышление". Этот метод итеративно улучшает рассуждения модели, используя предыдущие ответы в качестве подсказок для последующих раундов. Многочисленные эксперименты на различных моделях, включая QwQ-32B и DeepSeek-R1, стабильно показывают улучшение производительности на различных тестовых наборах, таких как AIME 2024, MATH-500, GPQA-diamond и LiveCodeBench. Например, точность модели QwQ-32B улучшилась с 80,3% (Раунд 1) до 82,1% (Раунд 2) на наборе данных AIME 2024, в то время как DeepSeek-R1 показала аналогичный рост с 79,7% до 82,0%. Эти результаты подтверждают, что "Многораундовое мышление" является универсальным и простым подходом для достижения стабильного улучшения производительности моделей, подчеркивая его потенциал для будущего развития методов масштабирования на этапе тестирования. Ключевая подсказка: {Исходный вопрос} Предыдущий ответ ассистента: <ответ> {ответ предыдущего раунда} </ответ>, пожалуйста, ответьте снова.
С быстрым развитием технологий создания контента с использованием искусственного интеллекта (AIGC), синтетические изображения становятся всё более распространёнными в повседневной жизни, что создаёт новые вызовы для оценки подлинности и обнаружения подделок. Несмотря на эффективность существующих методов в оценке подлинности изображений и локализации фальсификаций, эти подходы часто недостаточно интерпретируемы для человека и не полностью справляются с растущей сложностью синтетических данных. Для решения этих задач мы представляем FakeVLM — специализированную крупную мультимодальную модель, разработанную как для задач общего обнаружения синтетических изображений, так и для выявления DeepFake. FakeVLM не только превосходно различает реальные и поддельные изображения, но и предоставляет понятные объяснения на естественном языке для артефактов изображений, повышая интерпретируемость. Кроме того, мы представляем FakeClue — всеобъемлющий набор данных, содержащий более 100 000 изображений в семи категориях, аннотированных детализированными подсказками об артефактах на естественном языке. FakeVLM демонстрирует производительность, сопоставимую с экспертной моделью, при этом устраняя необходимость в дополнительных классификаторах, что делает её надёжным решением для обнаружения синтетических данных. Масштабные оценки на нескольких наборах данных подтверждают превосходство FakeVLM как в задачах классификации подлинности, так и в объяснении артефактов, устанавливая новый стандарт для обнаружения синтетических изображений. Набор данных и код будут опубликованы по адресу: https://github.com/opendatalab/FakeVLM.
Ответы на вопросы по документам (Document Question Answering, DocQA) — это весьма распространенная задача. Существующие методы, использующие большие языковые модели (Large Language Models, LLMs) или большие мультимодальные модели (Large Vision Language Models, LVLMs) в сочетании с генерацией, усиленной поиском (Retrieval Augmented Generation, RAG), часто отдают приоритет информации из одного модального источника, неэффективно интегрируя текстовые и визуальные подсказки. Эти подходы испытывают трудности со сложным мультимодальным рассуждением, что ограничивает их производительность на реальных документах. Мы представляем MDocAgent (A Multi-Modal Multi-Agent Framework for Document Understanding) — новую RAG и мультиагентную структуру, которая использует как текст, так и изображения. Наша система включает пять специализированных агентов: общий агент, критический агент, текстовый агент, визуальный агент и агент для суммирования. Эти агенты участвуют в мультимодальном извлечении контекста, объединяя свои индивидуальные выводы для достижения более полного понимания содержания документа. Такой совместный подход позволяет системе синтезировать информацию как из текстовых, так и из визуальных компонентов, что приводит к повышению точности ответов на вопросы. Предварительные эксперименты на пяти тестовых наборах, таких как MMLongBench и LongDocURL, демонстрируют эффективность нашего MDocAgent, показывая среднее улучшение на 12,1% по сравнению с современными методами. Эта работа способствует разработке более надежных и всесторонних систем DocQA, способных справляться со сложностями реальных документов, содержащих богатую текстовую и визуальную информацию. Наши данные и код доступны по адресу https://github.com/aiming-lab/MDocAgent.
Крупные языковые модели (LLM) продемонстрировали впечатляющие способности в рассуждениях, что подтверждается успехами моделей OpenAI-o1 и DeepSeek-R1. Однако интеграция рассуждений с внешними процессами поиска остается сложной задачей, особенно для сложных многошаговых вопросов, требующих нескольких этапов извлечения информации. Мы предлагаем ReSearch, новый фреймворк, который обучает LLM рассуждать с использованием поиска через обучение с подкреплением, не используя никаких размеченных данных о шагах рассуждений. Наш подход рассматривает операции поиска как неотъемлемые компоненты цепочки рассуждений, где время и способ выполнения поиска определяются текстовым мышлением, а результаты поиска, в свою очередь, влияют на дальнейшие рассуждения. Мы обучаем ReSearch на моделях Qwen2.5-7B(-Instruct) и Qwen2.5-32B(-Instruct) и проводим обширные эксперименты. Несмотря на обучение только на одном наборе данных, наши модели демонстрируют высокую обобщаемость на различных бенчмарках. Анализ показывает, что ReSearch естественным образом развивает продвинутые способности к рассуждениям, такие как рефлексия и самокоррекция, в процессе обучения с подкреплением.
Составной поиск изображений (Composed Image Retrieval, CIR) — это сложная задача, направленная на поиск изображений на основе мультимодального запроса. Типичные обучающие данные состоят из троек, содержащих эталонное изображение, текстовое описание желаемых изменений и целевое изображение, которые дорого и трудоемко собирать. Недостаток наборов данных для CIR привел к появлению подходов с нулевым обучением, использующих синтетические тройки или задействующих модели взаимодействия зрения и языка (Vision-Language Models, VLMs) с повсеместно доступными парами изображение-описание, собранными из интернета. Однако эти методы имеют существенные ограничения: синтетические тройки страдают от ограниченного масштаба, недостатка разнообразия и неестественных текстов изменений, в то время как пары изображение-описание затрудняют совместное обучение встраиваниям мультимодального запроса из-за отсутствия данных в виде троек. Более того, существующие подходы сталкиваются с трудностями при обработке сложных и тонких текстов изменений, требующих глубокого слияния и понимания модальностей зрения и языка. Мы представляем CoLLM — универсальную структуру, которая эффективно решает эти проблемы. Наш подход генерирует тройки на лету из пар изображение-описание, что позволяет проводить обучение с учителем без ручной аннотации. Мы используем большие языковые модели (Large Language Models, LLMs) для создания совместных встраиваний эталонных изображений и текстов изменений, способствуя более глубокому мультимодальному слиянию. Кроме того, мы представляем Multi-Text CIR (MTCIR) — крупномасштабный набор данных, содержащий 3,4 миллиона образцов, и улучшаем существующие бенчмарки для CIR (CIRR и Fashion-IQ) для повышения надежности оценки. Экспериментальные результаты показывают, что CoLLM достигает наилучших показателей на нескольких бенчмарках и в различных настройках CIR. MTCIR демонстрирует конкурентоспособные результаты с улучшением производительности до 15%. Наши улучшенные бенчмарки предоставляют более надежные метрики оценки для моделей CIR, способствуя развитию этой важной области.
В данной статье мы представляем LSRNA — новый фреймворк для генерации изображений с высоким разрешением (превышающим 1K) с использованием диффузионных моделей, применяя супер-разрешение непосредственно в латентном пространстве. Существующие диффузионные модели сталкиваются с трудностями при масштабировании за пределы их обучающих разрешений, что часто приводит к структурным искажениям или повторению контента. Методы, основанные на референсах, решают эти проблемы путем апскейлинга низкокачественного референса для управления генерацией изображений с более высоким разрешением. Однако они сталкиваются с существенными ограничениями: апскейлинг в латентном пространстве часто вызывает отклонение от многообразия, что ухудшает качество выходных данных. С другой стороны, апскейлинг в RGB-пространстве склонен создавать излишне сглаженные результаты. Чтобы преодолеть эти ограничения, LSRNA объединяет супер-разрешение в латентном пространстве (LSR) для выравнивания многообразия и региональное добавление шума (RNA) для улучшения высокочастотных деталей. Наши обширные эксперименты демонстрируют, что интеграция LSRNA превосходит современные методы, основанные на референсах, по различным разрешениям и метрикам, одновременно подчеркивая ключевую роль апскейлинга в латентном пространстве для сохранения деталей и резкости. Код доступен по адресу https://github.com/3587jjh/LSRNA.
Обнаружение и сбор знаний — это интеллектуально сложные задачи, которые традиционно требуют значительных человеческих усилий для обеспечения высококачественных результатов. В последних исследованиях изучаются мультиагентные фреймворки для автоматизации создания статей в стиле Википедии путем извлечения и синтеза информации из интернета. Однако эти методы в основном сосредоточены на генерации только текста, упуская важность мультимодального контента для повышения информативности и вовлеченности. В данной работе мы представляем WikiAutoGen — новую систему для автоматизированного создания мультимодальных статей в стиле Википедии. В отличие от предыдущих подходов, WikiAutoGen извлекает и интегрирует релевантные изображения вместе с текстом, обогащая как глубину, так и визуальную привлекательность генерируемого контента. Для дальнейшего повышения фактической точности и полноты мы предлагаем механизм многоперспективной саморефлексии, который критически оценивает извлеченный контент с различных точек зрения, чтобы улучшить надежность, широту и согласованность. Кроме того, мы представляем WikiSeek — бенчмарк, состоящий из статей Википедии с темами, представленными как текстовыми, так и визуальными данными, предназначенный для оценки мультимодальной генерации знаний на более сложных темах. Экспериментальные результаты показывают, что WikiAutoGen превосходит предыдущие методы на 8%-29% на нашем бенчмарке WikiSeek, создавая более точные, согласованные и визуально обогащенные статьи в стиле Википедии. Некоторые из наших сгенерированных примеров можно увидеть на https://wikiautogen.github.io/.
Современные базовые модели для генерации видео в основном сосредоточены на задачах преобразования текста в видео, предоставляя ограниченный контроль для создания детализированного видеоконтента. Хотя адаптерные подходы (например, ControlNet) позволяют добавлять дополнительные элементы управления с минимальной донастройкой, они сталкиваются с трудностями при интеграции нескольких условий, включая: конфликты ветвей между независимо обученными адаптерами, избыточность параметров, ведущую к увеличению вычислительных затрат, и неоптимальную производительность по сравнению с полной донастройкой. Для решения этих проблем мы представляем FullDiT — унифицированную базовую модель для генерации видео, которая бесшовно интегрирует несколько условий с помощью унифицированных механизмов полного внимания. Объединяя условия для многозадачности в единое последовательностное представление и используя способность полного самовнимания к обучению на длинных контекстах для учета динамики условий, FullDiT снижает избыточность параметров, избегает конфликтов условий и демонстрирует масштабируемость и эмерджентные способности. Мы также представляем FullBench для оценки многозадачной генерации видео. Эксперименты показывают, что FullDiT достигает наилучших результатов, подчеркивая эффективность полного внимания в сложной многозадачной генерации видео.
Создание высококачественных 360-градусных изображений человеческих голов на основе однокадровых изображений имеет ключевое значение для разработки доступных приложений иммерсивного телеприсутствия и масштабируемого создания персонализированного контента. Хотя современные методы генерации полных голов ограничиваются моделированием реалистичных человеческих голов, последние диффузионные подходы для синтеза голов с учетом стиля способны создавать только фронтальные виды и испытывают трудности с согласованностью видов, что препятствует их преобразованию в настоящие 3D-модели для рендеринга с произвольных углов. Мы представляем новый подход, который генерирует полностью согласованные 360-градусные виды голов, охватывая человеческие, стилизованные и антропоморфные формы, включая аксессуары, такие как очки и шляпы. Наш метод основан на фреймворке DiffPortrait3D, включая пользовательский ControlNet для генерации деталей затылка и двойной модуль внешнего вида для обеспечения глобальной согласованности фронтальной и задней частей. Благодаря обучению на последовательностях непрерывных видов и интеграции эталонного изображения задней части, наш подход достигает устойчивого и локально непрерывного синтеза видов. Наша модель может использоваться для создания высококачественных нейронных полей излучения (NeRF) для рендеринга в реальном времени с произвольных точек обзора, превосходя современные методы в синтезе объектов и генерации 360-градусных голов для крайне сложных входных портретов.
Генерация сцен с использованием 3D-ассетов представляет собой сложную задачу, требующую как высокоуровневого семантического понимания, так и низкоуровневого геометрического анализа. Хотя мультимодальные большие языковые модели (MLLMs) демонстрируют высокие результаты в семантических задачах, их применение для генерации 3D-сцен ограничено недостаточным учетом 3D-геометрии. В данной статье мы исследуем, как наиболее эффективно использовать MLLMs в задаче размещения объектов. Для достижения этой цели мы представляем новую структуру, FirePlace, которая применяет существующие MLLMs для (1) геометрического анализа 3D-сцен и извлечения соответствующих геометрических деталей, (2) построения и решения геометрических ограничений на основе извлеченной низкоуровневой геометрии и (3) отбора окончательных вариантов размещения, соответствующих здравому смыслу. Комбинируя геометрический анализ с реальным пониманием MLLMs, наш метод предлагает размещения объектов, которые удовлетворяют как геометрическим ограничениям, так и высокоуровневым семантическим соображениям. Наши эксперименты показывают, что эти возможности позволяют нашему методу более эффективно размещать объекты в сложных сценах с замысловатой геометрией, превосходя качество предыдущих работ.
Создание физического цифрового двойника реального объекта обладает огромным потенциалом в робототехнике, создании контента и расширенной реальности (XR). В данной статье мы представляем PhysTwin — новый фреймворк, который использует разреженные видео динамических объектов в процессе взаимодействия для создания фотореалистичной и физически точной интерактивной виртуальной копии в реальном времени. Наш подход основывается на двух ключевых компонентах: (1) физически информированное представление, объединяющее модели пружинно-массовых систем для реалистичного физического моделирования, генеративные модели формы для геометрии и гауссовы сплайны для рендеринга; и (2) новая многоэтапная оптимизационная структура обратного моделирования, которая восстанавливает полную геометрию, определяет плотные физические свойства и воспроизводит реалистичный внешний вид на основе видео. Наш метод интегрирует фреймворк обратной физики с визуальными подсказками восприятия, что позволяет достичь высокоточной реконструкции даже при частичных, заслонённых и ограниченных углах обзора. PhysTwin поддерживает моделирование различных деформируемых объектов, включая верёвки, мягкие игрушки, ткань и посылки. Эксперименты показывают, что PhysTwin превосходит конкурирующие методы в реконструкции, рендеринге, прогнозировании будущего состояния и моделировании при новых взаимодействиях. Мы также демонстрируем его применение в интерактивном моделировании в реальном времени и планировании движений роботов на основе моделей.
Тонкая настройка позволяет крупным языковым моделям (LLM) адаптироваться к конкретным областям, но часто подрывает их ранее установленную безопасную согласованность. Чтобы смягчить ухудшение безопасности модели в процессе тонкой настройки, мы представляем LookAhead Tuning — подход, включающий два простых, ресурсоэффективных и действенных метода, основанных на данных, которые модифицируют обучающие данные путем предварительного просмотра частичных префиксов ответов. Оба метода направлены на сохранение встроенных механизмов безопасности модели за счет минимизации изменений в начальных распределениях токенов. Комплексные эксперименты демонстрируют, что LookAhead Tuning эффективно поддерживает безопасность модели без ущерба для её производительности на целевых задачах. Наши результаты позиционируют LookAhead Tuning как надежное и эффективное решение для безопасной и результативной адаптации LLM. Код доступен по адресу https://github.com/zjunlp/LookAheadTuning.
Современные крупные языковые модели (LLM) сталкиваются с трудностями в эффективном обновлении, так как каждая новая версия предварительно обученной модели требует повторения дорогостоящих процессов согласования. Эта проблема также актуальна для моделей, специализированных на определённых областях или языках, где тонкая настройка на специализированных данных должна выполняться заново для каждого нового релиза базовой модели. В данной работе мы исследуем перенос обновлений тонкой настройки между версиями моделей. В частности, мы извлекаем вектор изменений (diff vector) из одной исходной версии модели, который отражает изменения весов в результате тонкой настройки, и применяем его к базовой модели другой целевой версии. Эмпирические оценки на различных версиях моделей с открытыми весами показывают, что перенос векторов изменений может значительно улучшить целевую базовую модель, часто достигая производительности, сравнимой с её тонко настроенным аналогом. Например, повторное использование обновлений тонкой настройки от Llama 3.0 8B приводит к абсолютному улучшению точности на 10,7% на GPQA по сравнению с базовой Llama 3.1 8B без дополнительного обучения, превосходя Llama 3.1 8B Instruct. В контексте разработки многоязычных моделей мы показываем, что этот подход может значительно повысить производительность на задачах целевого языка без повторного обучения, достигая абсолютного улучшения на 4,7% и 15,5% на Global MMLU для малагасийского и турецкого языков соответственно по сравнению с Llama 3.1 8B Instruct. Наши контролируемые эксперименты показывают, что перенос тонкой настройки наиболее эффективен, когда исходная и целевая модели линейно связаны в пространстве параметров. Кроме того, мы демонстрируем, что перенос тонкой настройки предоставляет более сильную и вычислительно эффективную отправную точку для дальнейшей тонкой настройки. Наконец, мы предлагаем итеративный подход "переработка-затем-тонкая настройка" для непрерывной разработки моделей, который улучшает как эффективность, так и результативность. Наши результаты свидетельствуют о том, что перенос тонкой настройки является жизнеспособной стратегией для снижения затрат на обучение при сохранении производительности модели.
Мы представляем новый метод для реконструкции персонализированных 3D-аватаров человека с реалистичной анимацией, используя лишь несколько изображений. Из-за значительных вариаций в формах тела, позах и типах одежды существующие методы в основном требуют часов оптимизации для каждого субъекта на этапе вывода, что ограничивает их практическое применение. В отличие от них, мы обучаем универсальный априорный шаблон на основе более тысячи одетых людей, что позволяет достичь мгновенного генеративного вывода и обобщения с нулевым обучением. В частности, вместо использования общих весов скиннинга для аватара, мы совместно выводим персонализированную форму аватара, веса скиннинга и деформации, зависящие от позы, что эффективно повышает общую геометрическую точность и уменьшает артефакты деформации. Кроме того, для нормализации вариаций поз и устранения связанной неоднозначности между каноническими формами и весами скиннинга, мы разработали процесс 3D-канонизации, который создает пиксельно-выровненные начальные условия, что помогает восстанавливать мелкозернистые геометрические детали. Затем мы предлагаем агрегацию признаков по нескольким кадрам для устойчивого уменьшения артефактов, возникающих при канонизации, и объединения правдоподобного аватара, сохраняющего индивидуальные особенности человека. Наконец, мы обучаем модель в сквозной структуре на крупномасштабном наборе данных, содержащем разнообразных субъектов с высококачественными 3D-сканами. Многочисленные эксперименты показывают, что наш метод обеспечивает более достоверную реконструкцию и анимацию по сравнению с современными подходами и может быть непосредственно обобщен на входные данные, полученные с помощью случайных фотографий с телефона. Страница проекта и код доступны по адресу https://github.com/rongakowang/FRESA.
Крупные языковые модели (LLM) с длинными контекстными окнами открывают возможности для мощных приложений, но требуют значительного объема памяти для хранения состояний ключей и значений (KV-Cache). Недавние исследования пытались объединить KV-cache из нескольких слоев в общие представления, однако эти подходы либо требуют дорогостоящего предварительного обучения, либо основываются на предположениях о высокой косинусной схожести между токенами в разных слоях, что на практике обычно не выполняется. Мы обнаружили, что доминирующие сингулярные векторы удивительно хорошо согласованы между несколькими слоями KV-Cache. Используя это наблюдение, мы предлагаем xKV — простой метод пост-обучения, который применяет сингулярное разложение (SVD) к KV-cache сгруппированных слоев. xKV объединяет KV-cache нескольких слоев в общее низкоранговое подпространство, значительно уменьшая размеры KV-cache. В ходе обширных оценок на бенчмарке RULER для длинных контекстов с широко используемыми LLM (например, Llama-3.1 и Qwen2.5) xKV достигает сжатия до 6.8 раз выше, чем современные межслойные методы, при этом повышая точность на 2.7%. Более того, xKV совместим с развивающейся технологией Multi-Head Latent Attention (MLA) (например, DeepSeek-Coder-V2), обеспечивая заметное 3-кратное сжатие на задачах кодирования без потери производительности. Эти результаты подчеркивают мощные возможности и универсальность xKV в решении проблем с памятью при выводе LLM с длинными контекстами. Наш код доступен по адресу: https://github.com/abdelfattah-lab/xKV.
Сопоставление потоков в непрерывном симплексе стало перспективной стратегией для проектирования последовательностей ДНК, однако оно сталкивается с трудностями при масштабировании на более высокие размерности симплекса, необходимые для генерации пептидов и белков. Мы представляем Gumbel-Softmax Flow и Score Matching — генеративную структуру на симплексе, основанную на новом интерполянте Gumbel-Softmax с зависящей от времени температурой. Используя этот интерполянт, мы вводим Gumbel-Softmax Flow Matching, выводя параметризованное поле скоростей, которое переносит от гладких категориальных распределений к распределениям, сконцентрированным в одной вершине симплекса. Альтернативно мы представляем Gumbel-Softmax Score Matching, который обучается регрессии градиента плотности вероятности. Наша структура обеспечивает высококачественную и разнообразную генерацию и эффективно масштабируется на симплексы более высокой размерности. Для реализации обучения без обучения мы предлагаем Straight-Through Guided Flows (STGFlow) — метод управления на основе классификатора, который использует straight-through estimators для направления безусловного поля скоростей к оптимальным вершинам симплекса. STGFlow позволяет эффективно управлять на этапе вывода с использованием классификаторов, предварительно обученных на чистых последовательностях, и может применяться с любым методом дискретных потоков. Вместе эти компоненты формируют надежную структуру для управляемой генерации последовательностей de novo. Мы демонстрируем передовые результаты в условном проектировании промоторов ДНК, генерации белков только на основе последовательностей и проектировании пептидов для связывания с мишенями при лечении редких заболеваний.
Обнаружение и отслеживание нескольких беспилотных летательных аппаратов (БПЛА) в тепловизионном видео представляет собой сложную задачу из-за низкого контраста, шумов окружающей среды и малых размеров целей. В данной статье предлагается простой подход для решения задачи многократного отслеживания БПЛА в тепловизионном видео, основанный на последних достижениях в области обнаружения и отслеживания. Вместо использования YOLOv5 с конвейером DeepSORT мы представляем фреймворк для отслеживания, построенный на YOLOv12 и BoT-SORT, дополненный специализированными стратегиями обучения и вывода. Мы оцениваем наш подход, следуя метрикам 4-го Anti-UAV Challenge, и демонстрируем конкурентоспособные результаты. Важно отметить, что мы достигаем высоких показателей без использования усиления контраста или слияния временной информации для обогащения признаков БПЛА, что подчеркивает наш подход как "Сильный Базовый" для задачи многократного отслеживания БПЛА. Мы предоставляем детали реализации, углубленный анализ экспериментов и обсуждение возможных улучшений. Код доступен по адресу https://github.com/wish44165/YOLOv12-BoT-SORT-ReID.
Принятие решений в физическом мире является фундаментальным для ИИ-агентов, действующих в реальных условиях. Хотя визуально-языковые модели (VLM) продвинули эту способность, они все еще испытывают трудности с принятием сложных решений, особенно в ситуациях, ориентированных на человека, которые требуют глубокого анализа человеческих потребностей и ценностей. В данном исследовании мы систематически оцениваем открытые VLM на задачах многомодального принятия решений, ориентированных на человека. Мы обнаруживаем, что языковые модели (LLM), получающие только текстовые описания, неожиданно превосходят свои VLM-аналоги сопоставимого масштаба, обрабатывающие реальные изображения, что указывает на то, что визуальное выравнивание может ограничивать способности VLM. Для решения этой проблемы мы предлагаем новый подход к обучению только на текстовых данных с использованием синтезированных текстов. Этот метод усиливает языковые компоненты VLM и переносит полученные навыки на многомодальный вывод, устраняя необходимость в дорогостоящих парных данных "изображение-текст". Кроме того, мы показываем, что VLM могут достичь значительного улучшения производительности за счет самосовершенствования, используя обучающие данные, сгенерированные их LLM-аналогами, вместо того чтобы полагаться на более крупные учительские модели, такие как GPT-4. Наши результаты устанавливают более эффективный и масштабируемый подход к улучшению способностей VLM в принятии решений, ориентированных на человека, открывая новые пути для оптимизации VLM через механизмы самосовершенствования.
Достижения в области базовых моделей для наблюдения Земли (EO) раскрыли потенциал больших спутниковых данных для изучения общих представлений из космоса, что приносит пользу широкому спектру важных для нашей планеты прикладных задач. Однако большинство существующих разработок ограничиваются фиксированными спектральными сенсорами, сосредотачиваются исключительно на поверхности Земли и упускают ценную метаинформацию, выходящую за рамки изображений. В данной работе мы делаем шаг к созданию базовых моделей EO следующего поколения, предлагая три ключевых компонента: 1) Copernicus-Pretrain — масштабный набор данных для предварительного обучения, объединяющий 18,7 млн согласованных изображений со всех основных миссий Copernicus Sentinel, охватывающих как поверхность Земли, так и её атмосферу; 2) Copernicus-FM — унифицированная базовая модель, способная обрабатывать любые спектральные и неспектральные сенсорные модальности с использованием расширенных динамических гиперсетей и гибкого кодирования метаданных; и 3) Copernicus-Bench — систематический эталонный тест с 15 иерархическими прикладными задачами, начиная с предварительной обработки и заканчивая специализированными приложениями для каждой миссии Sentinel. Наш набор данных, модель и эталонный тест значительно повышают масштабируемость, универсальность и мультимодальную адаптивность базовых моделей EO, а также создают новые возможности для объединения исследований в области наблюдения Земли, погоды и климата. Коды, наборы данных и модели доступны по адресу https://github.com/zhu-xlab/Copernicus-FM.
Понимание человеческого поведения требует измерения поведенческих действий. Ввиду своей сложности, поведение лучше всего отображать на богатую семантическую структуру, такую как язык. Недавнее развитие мультимодальных больших языковых моделей (MLLMs) представляет собой многообещающий подход для широкого спектра задач понимания действий. В данной работе мы сосредоточились на оценке и последующем улучшении MLLMs для выполнения задач распознавания действий. Мы переформулировали EPIC-KITCHENS-100, один из крупнейших и наиболее сложных наборов данных эгоцентричных действий, в форму множественного видео-вопроса (EPIC-KITCHENS-100-MQA). Мы показываем, что при использовании сложных неправильных ответов в качестве отвлекающих факторов, ведущие MLLMs испытывают трудности с распознаванием правильных действий. Мы предлагаем ряд методов, которые значительно улучшают способность MLLMs выполнять распознавание действий, достигая наилучших результатов на валидационном наборе EPIC-KITCHENS-100, а также превосходя GPT-4o на 21 процентный пункт по точности на EPIC-KITCHENS-100-MQA. Наконец, мы демонстрируем улучшения на других видео-бенчмарках, связанных с действиями, таких как EgoSchema, PerceptionTest, LongVideoBench, VideoMME и MVBench, что свидетельствует о перспективности MLLMs для сложных задач, связанных с действиями. Код и модели доступны по адресу: https://github.com/AdaptiveMotorControlLab/LLaVAction.
Мы представляем Any6D — метод оценки 6D позы объектов, не требующий предварительного обучения модели и использующий всего одно RGB-D изображение-якорь для оценки как 6D позы, так и размеров неизвестных объектов в новых сценах. В отличие от существующих подходов, которые полагаются на текстурированные 3D-модели или множественные точки обзора, Any6D применяет совместный процесс выравнивания объектов для улучшения 2D-3D соответствия и оценки метрического масштаба, что повышает точность определения позы. Наш подход интегрирует стратегию рендеринга и сравнения для генерации и уточнения гипотез поз, обеспечивая устойчивую работу в условиях окклюзий, непересекающихся видов, разнообразного освещения и значительных различий между средами. Мы оцениваем наш метод на пяти сложных наборах данных: REAL275, Toyota-Light, HO3D, YCBINEOAT и LM-O, демонстрируя его эффективность и значительное превосходство над современными методами оценки позы новых объектов. Страница проекта: https://taeyeop.com/any6d.
Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), демонстрируют значительный потенциал для понимания 3D-сцен, однако их применение в основном ограничивается внутренними пространствами или задачами автономного вождения, сосредоточенными на низкоуровневых задачах, таких как сегментация. В данной работе мы расширяем их использование до городских масштабов, используя 3D-реконструкции на основе многовидовой аэрофотосъемки. Мы предлагаем OpenCity3D — подход, который решает высокоуровневые задачи, такие как оценка плотности населения, классификация возраста зданий, прогнозирование стоимости недвижимости, оценка уровня преступности и анализ шумового загрязнения. Наши результаты подчеркивают впечатляющие возможности OpenCity3D в условиях zero-shot и few-shot, демонстрируя адаптивность к новым контекстам. Это исследование устанавливает новую парадигму для анализа городской среды с использованием языковых моделей, открывая возможности для применения в планировании, разработке политики и экологическом мониторинге. Подробнее на странице проекта: opencity3d.github.io.
Модели ИИ в последние годы достигли значительных успехов в способности описывать и отвечать на вопросы о реальных изображениях. Они также продвинулись в возможности вести диалог с пользователями в реальном времени с использованием аудиовхода. Это поднимает вопрос: достигли ли мы точки, где модели ИИ, подключенные к камере и микрофону, могут общаться с пользователями в реальном времени о сценах и событиях, которые разворачиваются перед камерой? Это долгосрочная цель в области ИИ и необходимое условие для того, чтобы ассистенты на основе ИИ и человекоподобные роботы могли взаимодействовать с людьми в повседневных ситуациях. В данной работе мы представляем новый набор данных и эталонный тест — Interactive Video Dataset (IVD) от Qualcomm, который позволяет оценить, в какой степени существующие модели способны поддерживать эти функции, и насколько эти возможности могут быть улучшены с помощью тонкой настройки. Набор данных основан на простой схеме вопросов и ответов, где пользователи задают вопросы, на которые система должна отвечать в реальном времени на основе данных с камеры и аудиовхода. Мы показываем, что существующие модели значительно отстают от человеческой производительности в этой задаче, и определяем основные причины этого отставания. Однако мы также демонстрируем, что для многих необходимых перцептивных навыков тонкая настройка на таких данных может существенно сократить этот разрыв.
Использование крупных моделей-учителей для обучения более компактных моделей-учеников стало преобладающей парадигмой для эффективного и результативного обучения. Однако несоответствия в словарях между моделями языка учителя и ученика создают значительные трудности в моделировании языка, приводя к расходящимся последовательностям токенов и распределениям выходных данных. Чтобы преодолеть эти ограничения, мы предлагаем Vocabulary-agnostic Teacher Guided Language Modeling (VocAgnoLM) — новый подход, который устраняет разрыв, вызванный несоответствием словарей, с помощью двух ключевых методов: (1) Лексическое выравнивание на уровне токенов, которое согласовывает последовательности токенов в несовпадающих словарях, и (2) Потеря с учетом учителя, которая использует потери модели-учителя для эффективного обучения модели-ученика. Мы демонстрируем эффективность этого подхода в моделировании языка на примере модели-ученика с 1 миллиардом параметров, обученной с использованием различных моделей-учителей с 7 миллиардами параметров и разными словарями. Примечательно, что с моделью Qwen2.5-Math-Instruct, словарь которой совпадает с TinyLlama лишь на 6%, VocAgnoLM достигает улучшения производительности на 46% по сравнению с наивным продолжением предобучения. Кроме того, мы показываем, что VocAgnoLM стабильно выигрывает от использования более мощных моделей-учителей, предлагая надежное решение проблемы несоответствия словарей в моделировании языка.
Хотя динамическая свертка (DY-Conv) демонстрирует многообещающие результаты благодаря адаптивному выбору весов через использование нескольких параллельных весов, объединенных с механизмом внимания, частотные характеристики этих весов часто оказываются схожими, что приводит к высоким затратам на параметры при ограниченной адаптируемости. В данной работе мы представляем частотную динамическую свертку (FDConv) — новый подход, который устраняет эти ограничения путем обучения фиксированного бюджета параметров в частотной области. FDConv разделяет этот бюджет на группы, основанные на частоте, с непересекающимися индексами Фурье, что позволяет создавать веса с разнообразными частотными характеристиками без увеличения затрат на параметры. Для дальнейшего повышения адаптируемости мы предлагаем модуляцию пространства ядра (KSM) и модуляцию частотных полос (FBM). KSM динамически регулирует частотные характеристики каждого фильтра на пространственном уровне, в то время как FBM разлагает веса на отдельные частотные полосы в частотной области и динамически модулирует их на основе локального содержимого. Многочисленные эксперименты в задачах детекции объектов, сегментации и классификации подтверждают эффективность FDConv. Мы показываем, что при применении к ResNet-50 FDConv достигает превосходных результатов с умеренным увеличением параметров на +3,6M, превосходя предыдущие методы, требующие значительного увеличения бюджета параметров (например, CondConv +90M, KW +76,5M). Более того, FDConv легко интегрируется в различные архитектуры, включая ConvNeXt и Swin-Transformer, предлагая гибкое и эффективное решение для современных задач компьютерного зрения. Код доступен по адресу https://github.com/Linwei-Chen/FDConv.
Мы предлагаем метод для семантической сегментации с открытым словарём, не требующий обучения, с использованием моделей, объединяющих зрение и язык (Vision-and-Language Models, VLMs). Наш подход улучшает начальные предсказания на уровне отдельных патчей, полученные с помощью VLMs, за счёт распространения меток, которое совместно оптимизирует предсказания, учитывая отношения между патчами. Поскольку VLMs в основном оптимизированы для кросс-модального согласования, а не для внутримодального сходства, мы используем модель зрения (Vision Model, VM), которая, как было замечено, лучше захватывает такие отношения. Мы устраняем ограничения разрешения, присущие патч-ориентированным энкодерам, применяя распространение меток на уровне пикселей в качестве этапа уточнения, что значительно повышает точность сегментации вблизи границ классов. Наш метод, названный LPOSS+, выполняет вывод на всём изображении, избегая обработки по окнам и тем самым учитывая контекстные взаимодействия по всему изображению. LPOSS+ демонстрирует наилучшие результаты среди методов, не требующих обучения, на разнообразных наборах данных. Код: https://github.com/vladan-stojnic/LPOSS
Пространственно-временное рассуждение играет ключевую роль в понимании реальных сред в различных областях, таких как автономное вождение и спортивная аналитика. Последние достижения улучшили способность моделей, объединяющих зрение и язык (Vision-Language Models, VLMs), к пространственному рассуждению за счет использования крупномасштабных данных, однако эти модели по-прежнему испытывают трудности с анализом кинематических элементов, таких как пройденное расстояние и скорость движущихся объектов. Чтобы устранить этот пробел, мы создали набор данных и эталонный тест для пространственно-временного рассуждения с использованием кинематической настройки инструкций, названные STKit и STKit-Bench. Они включают реальные видео с 3D-аннотациями, детализирующими динамику движения объектов: пройденное расстояние, скорость, направление движения, сравнение расстояний между объектами и относительное направление движения. Для масштабирования создания таких данных на видео без 3D-меток мы предлагаем автоматизированный процесс генерации псевдо-меток с использованием 4D-реконструкции в реальном масштабе. С помощью наших данных для кинематической настройки инструкций в пространственно-временном рассуждении мы представляем ST-VLM — модель VLM, улучшенную для пространственно-временного рассуждения, которая демонстрирует выдающуюся производительность на STKit-Bench. Кроме того, мы показываем, что ST-VLM успешно обобщает знания в различных областях и задачах, превосходя базовые модели на других пространственно-временных тестах (например, ActivityNet, TVQA+). Наконец, интегрируя изученное пространственно-временное рассуждение с существующими способностями, ST-VLM позволяет выполнять сложное многошаговое рассуждение. Страница проекта: https://ikodoh.github.io/ST-VLM.
Понимание геометрических и семантических свойств сцены является крайне важным для автономной навигации и представляет особую сложность в случае навигации беспилотных летательных аппаратов (БПЛА). Такая информация может быть получена путем оценки карт глубины и семантической сегментации окружающей среды, а для их практического использования в автономной навигации этот процесс должен выполняться максимально близко к реальному времени. В данной работе мы используем монокулярные камеры на борту аэророботов для предсказания карт глубины и семантики в неструктурированных средах на малых высотах. Мы предлагаем совместную архитектуру глубокого обучения, которая способна выполнять обе задачи точно и быстро, и подтверждаем ее эффективность на эталонных наборах данных MidAir и Aeroscapes. Наша совместная архитектура демонстрирует конкурентоспособность или превосходство по сравнению с другими методами, как отдельными, так и совместными, при этом выполняя задачи быстро, предсказывая 20,2 кадра в секунду на одной видеокарте NVIDIA Quadro P5000, и имеет низкий объем потребляемой памяти. Все коды для обучения и предсказания доступны по ссылке: https://github.com/Malga-Vision/Co-SemDepth.