Ежедневно отобранные исследовательские статьи по ИИ с переводами
Последние достижения в области генерации видео достигли впечатляющего реализма в передаче движения, однако они часто упускают из виду персонажей и их истории, что является ключевой задачей для автоматизированного создания фильмов и анимации. Мы представляем проект Talking Characters — более реалистичную задачу по генерации анимации говорящих персонажей непосредственно из речи и текста. В отличие от генерации "говорящих голов", Talking Characters направлен на создание полного портрета одного или нескольких персонажей, выходящего за пределы лицевой области. В данной статье мы предлагаем MoCha — первый в своём роде метод для генерации говорящих персонажей. Для обеспечения точной синхронизации видео и речи мы предлагаем механизм внимания на основе окон, который эффективно выравнивает токены речи и видео. Для решения проблемы нехватки крупномасштабных видеоданных с речевыми метками мы вводим стратегию совместного обучения, которая использует как видеоданные с речевыми, так и с текстовыми метками, значительно улучшая обобщение для различных действий персонажей. Мы также разработали структурированные шаблоны подсказок с тегами персонажей, что впервые позволяет создавать диалоги между несколькими персонажами с поочерёдным обменом репликами, обеспечивая контекстно-зависимые разговоры с кинематографической согласованностью. Многочисленные качественные и количественные оценки, включая исследования предпочтений пользователей и сравнения с эталонными методами, демонстрируют, что MoCha устанавливает новый стандарт для кинематографического повествования, созданного с помощью ИИ, достигая превосходного реализма, выразительности, управляемости и обобщения.
В данной статье исследуется задача генерации сложного визуального текста (Complex Visual Text Generation, CVTG), которая заключается в создании сложного текстового контента, распределенного по различным областям визуальных изображений. В CVTG модели генерации изображений часто создают искаженный и размытый визуальный текст или пропускают его. Для решения этих проблем мы предлагаем TextCrafter — новый метод рендеринга множественного визуального текста. TextCrafter использует прогрессивную стратегию для декомпозиции сложного визуального текста на отдельные компоненты, обеспечивая при этом точное соответствие между текстовым содержанием и его визуальным носителем. Кроме того, метод включает механизм усиления фокуса на токенах, чтобы повысить заметность визуального текста в процессе генерации. TextCrafter эффективно решает ключевые проблемы в задачах CVTG, такие как путаница в тексте, пропуски и размытость. Также мы представляем новый эталонный набор данных CVTG-2K, разработанный для тщательной оценки производительности генеративных моделей в задачах CVTG. Многочисленные эксперименты показывают, что наш метод превосходит современные подходы.
Мы представляем Open-Reasoner-Zero — первую открытую реализацию крупномасштабного обучения с подкреплением (RL), ориентированного на рассуждения, с акцентом на масштабируемость, простоту и доступность. В ходе обширных экспериментов мы демонстрируем, что минималистичный подход, включающий базовый PPO с GAE (lambda=1, gamma=1) и простые правила для наград, без какого-либо KL-регуляризации, достаточен для масштабирования как длины ответов, так и производительности на бенчмарках, что аналогично явлению, наблюдавшемуся в DeepSeek-R1-Zero. Используя ту же базовую модель, что и в DeepSeek-R1-Zero-Qwen-32B, наша реализация достигает превосходных результатов на AIME2024, MATH500 и бенчмарке GPQA Diamond, демонстрируя при этом замечательную эффективность — требуется лишь десятая часть шагов обучения по сравнению с конвейером DeepSeek-R1-Zero. В духе открытого исходного кода мы публикуем наш исходный код, параметры настройки, данные для обучения и веса моделей различных размеров.
По мере того как энтузиазм в отношении масштабирования вычислений (данных и параметров) в эпоху предварительного обучения постепенно угасал, масштабирование на этапе тестирования (TTS), также называемое «вычислениями на этапе тестирования», стало важным направлением исследований. Недавние исследования показывают, что TTS может дополнительно раскрыть способности крупных языковых моделей (LLM) к решению задач, обеспечивая значительные прорывы не только в специализированных задачах, таких как математика и программирование, но и в общих задачах, таких как открытые вопросы и ответы. Однако, несмотря на всплеск усилий в этой области, остается острая необходимость в комплексном обзоре, предлагающем системное понимание. Чтобы заполнить этот пробел, мы предлагаем унифицированную многомерную структуру, организованную вокруг четырех ключевых аспектов исследований TTS: что масштабировать, как масштабировать, где масштабировать и насколько хорошо масштабировать. Основываясь на этой таксономии, мы проводим обширный обзор методов, сценариев применения и аспектов оценки, а также представляем организованную декомпозицию, которая подчеркивает уникальные функциональные роли отдельных техник в рамках более широкого ландшафта TTS. На основе этого анализа мы выделяем основные траектории развития TTS на сегодняшний день и предлагаем практические рекомендации для внедрения. Кроме того, мы определяем несколько открытых проблем и предлагаем взгляды на перспективные направления будущих исследований, включая дальнейшее масштабирование, уточнение функциональной сути техник, обобщение на большее количество задач и более детальное объяснение атрибуции.
Модели с расширенными возможностями рассуждений (Large Reasoning Models, LRMs) значительно улучшают способность к рассуждениям у крупных языковых моделей (Large Language Models, LLMs), обучаясь процессу рассуждения и демонстрируя впечатляющие результаты в решении сложных задач. Однако их обдуманный процесс рассуждений приводит к неэффективности в использовании токенов, потреблении памяти и времени вывода. В связи с этим данный обзор посвящен методам эффективного вывода, разработанным специально для LRMs, с акцентом на снижение неэффективности токенов при сохранении качества рассуждений. Сначала мы представляем таксономию, которая группирует современные методы в две основные категории: (а) явная компактная цепочка рассуждений (Chain-of-Thought, CoT), которая сокращает количество токенов, сохраняя явную структуру рассуждений, и (б) неявная скрытая CoT, которая кодирует шаги рассуждений в скрытых представлениях вместо явных токенов. При этом мы обсуждаем их сильные и слабые стороны. Затем мы проводим эмпирический анализ существующих методов с точки зрения производительности и эффективности. Кроме того, мы рассматриваем открытые вызовы в этой области, включая управляемое человеком рассуждение, компромисс между интерпретируемостью и эффективностью рассуждений, обеспечение безопасности эффективных рассуждений и более широкое применение эффективных рассуждений. В дополнение мы выделяем ключевые идеи для повышения эффективности вывода LRMs с помощью таких техник, как объединение моделей, новые архитектуры и маршрутизаторы агентов. Мы надеемся, что эта работа станет ценным руководством, помогающим исследователям преодолевать вызовы в этой динамичной области.
Синтез разнообразных и физически правдоподобных взаимодействий человека со сценой (Human-Scene Interactions, HSI) имеет ключевое значение как для компьютерной анимации, так и для воплощённого искусственного интеллекта. Несмотря на обнадёживающие успехи, современные методы в основном сосредоточены на разработке отдельных контроллеров, каждый из которых специализируется на конкретной задаче взаимодействия. Это существенно ограничивает возможность решения широкого спектра сложных задач HSI, требующих интеграции множества навыков, например, приседания с удерживаемым объектом. Для решения этой проблемы мы представляем TokenHSI — единую политику на основе трансформеров, способную к унификации множества навыков и гибкой адаптации. Ключевая идея заключается в моделировании проприоцепции гуманоида как отдельного общего токена и его комбинировании с различными токенами задач через механизм маскирования. Такая унифицированная политика позволяет эффективно обмениваться знаниями между навыками, что способствует многозадачному обучению. Более того, архитектура нашей политики поддерживает входные данные переменной длины, обеспечивая гибкую адаптацию изученных навыков к новым сценариям. Обучая дополнительные токенизаторы задач, мы можем не только изменять геометрию целей взаимодействия, но и координировать несколько навыков для решения сложных задач. Эксперименты показывают, что наш подход значительно повышает универсальность, адаптивность и расширяемость в различных задачах HSI. Сайт: https://liangpan99.github.io/TokenHSI/
Обучение моделей, работающих с визуальными и текстовыми данными (VLMs), обычно требует масштабных наборов высококачественных пар "изображение-текст", однако сбор или синтез таких данных является дорогостоящим. В то же время текстовые данные доступны в изобилии и недороги, что поднимает вопрос: можно ли синтезировать высококачественные мультимодальные данные для обучения исключительно из текста? Для решения этой задачи мы предлагаем кросс-интегрированную трехэтапную структуру синтеза мультимодальных данных, которая генерирует два набора данных: Unicorn-1.2M и Unicorn-471K-Instruction. На этапе 1: Синтез разнообразных текстовых описаний, мы создаем 1,2 миллиона семантически разнообразных высококачественных описаний, расширяя исходные скудные описания с помощью больших языковых моделей (LLMs). На этапе 2: Генерация данных для настройки на инструкциях, мы преобразуем 471 тысячу описаний в многошаговые задачи для настройки на инструкциях, чтобы поддерживать сложные рассуждения. Наконец, на этапе 3: Перенос представлений модальностей, текстовые представления описаний преобразуются в визуальные представления, что приводит к созданию разнообразных синтетических представлений изображений. Этот трехэтапный процесс позволяет нам создать набор Unicorn-1.2M для предварительного обучения и Unicorn-471K-Instruction для настройки на инструкциях, не полагаясь на реальные изображения. Устраняя зависимость от реальных изображений при сохранении качества и разнообразия данных, наша структура предлагает экономически эффективное и масштабируемое решение для обучения VLMs. Код доступен по адресу https://github.com/Yu-xm/Unicorn.git.
Рассуждение перед действием и представление возможных исходов (т.е., модели мира) являются ключевыми для воплощенных агентов, функционирующих в сложных открытых средах. Однако предыдущие работы либо включают только одну из этих способностей в сквозного агента, либо интегрируют несколько специализированных моделей в систему агента, что ограничивает эффективность обучения и обобщаемость политики. Таким образом, данная работа впервые предпринимает попытку объединить Рассуждение и Воображение в сквозной Обобщающей политике, названной RIG. Для обучения RIG в сквозном режиме мы создаем конвейер данных, который постепенно интегрирует и обогащает содержание воображения и рассуждений в траекториях, собранных от существующих агентов. Совместное обучение рассуждению и генерации следующего изображения явно моделирует внутреннюю связь между рассуждением, действием и динамикой среды, что приводит к более чем 17-кратному улучшению эффективности использования данных и обобщаемости по сравнению с предыдущими работами. На этапе вывода RIG сначала рассуждает о следующем действии, генерирует потенциальное действие, а затем предсказывает его исходы, что дает агенту возможность пересмотреть и скорректировать свои действия на основе воображения перед совершением реальных действий. Экспериментальные результаты показывают, что синергия рассуждения и воображения не только повышает устойчивость, обобщаемость и взаимодействие обобщающей политики, но и позволяет масштабировать ее на этапе тестирования для улучшения общей производительности.
Обучение с подкреплением (RL) с верифицируемыми наградами (RLVR) продемонстрировало многообещающие результаты в задачах математического рассуждения и программирования, где доступны хорошо структурированные эталонные ответы. Однако его применимость к более широким областям остается недостаточно изученной. В данной работе мы исследуем расширение RLVR на более разнообразные области, такие как медицина, химия, психология и экономика. Мы наблюдаем высокую согласованность в бинарных оценках между различными крупными языковыми моделями (LLM), когда существуют объективные эталонные ответы, что ставит под сомнение необходимость масштабной аннотации для обучения доменно-специфических моделей наград. Чтобы преодолеть ограничения бинарных наград при работе с неструктурированными эталонными ответами, мы дополнительно интегрируем мягкое оценивание на основе моделей в RLVR для повышения его гибкости. Наши эксперименты показывают, что дистиллированная генеративная модель наград может служить эффективным кросс-доменным верификатором, предоставляя надежные сигналы наград для RL без необходимости доменно-специфических аннотаций. Путем тонкой настройки базовой модели на 7B с использованием различных алгоритмов RL против нашей модели наград, мы получаем политики, которые значительно превосходят современные открытые выровненные LLM, такие как Qwen2.5-72B-Instruct и DeepSeek-R1-Distill-Qwen-32B, в различных областях в условиях свободного ответа. Это также укрепляет устойчивость и масштабируемость RLVR, подчеркивая его потенциал для реальных приложений с зашумленными или слабыми метками.
Генерация и редактирование видео на основе текстовых запросов или изображений достигли значительного прогресса. Однако остаются сложности в точном управлении глобальной композицией и геометрическими деталями исключительно с помощью текста, а также в поддержке управления движением и локального редактирования через изображения. В данной работе мы стремимся достичь пространственного и динамического управления на основе эскизов для генерации видео, а также поддержать детализированное редактирование реальных или синтетических видео. На основе модели генерации видео DiT мы предлагаем эффективную по памяти управляющую структуру с блоками управления эскизами, которые предсказывают остаточные признаки пропущенных блоков DiT. Эскизы рисуются на одном или двух ключевых кадрах (в произвольные моменты времени) для удобства взаимодействия. Для распространения таких временно разреженных условий эскизов на все кадры мы предлагаем механизм межкадрового внимания, анализирующий связь между ключевыми кадрами и каждым кадром видео. Для редактирования видео на основе эскизов мы разрабатываем дополнительный модуль вставки видео, который обеспечивает согласованность между новым отредактированным содержимым и пространственными признаками, а также динамикой движения исходного видео. Во время вывода мы используем латентное слияние для точного сохранения нередактируемых областей. Многочисленные эксперименты демонстрируют, что наш метод SketchVideo достигает превосходных результатов в управляемой генерации и редактировании видео.
Усовершенствованные модели больших языковых моделей (LLM) с поддержкой рассуждений явно генерируют промежуточные шаги рассуждений перед выдачей окончательных ответов, что помогает модели преуспевать в решении сложных задач. В данной статье мы показываем, что этот новый подход к генерации предоставляет уникальную возможность для более детального контроля над поведением модели. Мы предлагаем "Вмешательство в мышление" (Thinking Intervention) — новую парадигму, предназначенную для явного управления внутренними процессами рассуждений LLM путем стратегического добавления или изменения определенных "токенов мышления". Мы проводим всесторонние оценки на множестве задач, включая следование инструкциям на IFEval, анализ иерархии инструкций на SEP и обеспечение безопасности на XSTest и SORRY-Bench. Наши результаты демонстрируют, что "Вмешательство в мышление" значительно превосходит базовые подходы с использованием промптов, достигая улучшения точности на 6,7% в сценариях следования инструкциям, повышения на 15,4% в анализе иерархии инструкций и увеличения на 40,0% частоты отказов на небезопасные запросы при использовании открытых моделей DeepSeek R1. В целом, наша работа открывает перспективное новое направление исследований для управления LLM с поддержкой рассуждений.
Мы предлагаем новый подход для генерации сложных выходных данных, который значительно повышает точность в задачах преобразования текста в SQL. Наш метод использует результаты выполнения запросов для выбора наиболее семантически согласованного запроса из нескольких кандидатов, что позволяет более компактным и экономичным моделям превосходить вычислительно интенсивные методы рассуждений, такие как o1, o3-mini и DeepSeek R1, при этом сокращая затраты на вывод до 30 раз. Этот подход легко интегрируется с существующими моделями, предлагая практичный и масштабируемый путь к передовым методам генерации SQL.
Крайне желательно получить модель, способную генерировать высококачественные 3D-сетки из текстовых запросов всего за несколько секунд. Хотя недавние попытки адаптировали предобученные диффузионные модели для генерации изображений из текста, такие как Stable Diffusion (SD), для создания 3D-представлений (например, Triplane), они часто страдают от низкого качества из-за недостатка высококачественных 3D-данных для обучения. Стремясь преодолеть нехватку данных, мы предлагаем новую схему обучения, названную Progressive Rendering Distillation (PRD), которая устраняет необходимость в эталонных 3D-данных, дистиллируя многовидовые диффузионные модели и адаптируя SD для работы в качестве нативного 3D-генератора. На каждой итерации обучения PRD использует U-Net для постепенного удаления шума из латентного представления, начиная со случайного шума, и на каждом шаге декодирует очищенное латентное представление в 3D-результат. Многовидовые диффузионные модели, включая MVDream и RichDreamer, используются совместно с SD для дистилляции текстосогласованных текстур и геометрии в 3D-результаты через дистилляцию оценок. Поскольку PRD поддерживает обучение без эталонных 3D-данных, мы можем легко масштабировать объем обучающих данных и улучшить качество генерации для сложных текстовых запросов с креативными концепциями. В то же время PRD может ускорить процесс вывода модели генерации всего за несколько шагов. С помощью PRD мы обучаем генератор Triplane, названный TriplaneTurbo, который добавляет всего 2,5% обучаемых параметров для адаптации SD к генерации Triplane. TriplaneTurbo превосходит предыдущие генераторы 3D-моделей из текста как по эффективности, так и по качеству. В частности, он способен создавать высококачественные 3D-сетки за 1,2 секунды и хорошо обобщается для сложных текстовых запросов. Код доступен по адресу https://github.com/theEricMa/TriplaneTurbo.
Обнаружение мошенничества в телекоммуникационной сфере сталкивается с серьезными трудностями из-за отсутствия высококачественных мультимодальных обучающих данных, которые интегрируют аудиосигналы с текстовым анализом, ориентированным на логическое рассуждение. Для устранения этого пробела мы представляем TeleAntiFraud-28k — первый открытый аудио-текстовый набор данных, основанный на принципе "медленного мышления" и специально разработанный для автоматизированного анализа телекоммуникационного мошенничества. Наш набор данных создан с использованием трех стратегий: (1) Генерация текстовых образцов с сохранением конфиденциальности на основе автоматически распознанных (ASR) записей телефонных разговоров (с анонимизированным оригинальным аудио), обеспечивающая реалистичность через регенерацию с использованием модели преобразования текста в речь (TTS); (2) Семантическое улучшение с помощью самообучающейся выборки на основе крупных языковых моделей (LLM) для расширения охвата сценариев; (3) Мультиагентный синтез, имитирующий новые тактики мошенничества через предопределенные сценарии общения и типы мошенничества. Созданный набор данных содержит 28 511 тщательно обработанных пар "речь-текст" с подробными аннотациями для анализа мошенничества. Набор данных разделен на три задачи: классификация сценариев, обнаружение мошенничества и классификация типов мошенничества. Кроме того, мы создали TeleAntiFraud-Bench — стандартизированный эталонный тест, включающий пропорционально отобранные примеры из набора данных, для систематической оценки производительности моделей в задачах обнаружения мошенничества. Мы также представляем оптимизированную для производства модель с контролируемой тонкой настройкой (SFT), обученную на гибридных реальных/синтетических данных, и открываем исходный код фреймворка обработки данных для расширения набора данных силами сообщества. Эта работа закладывает основу для мультимодальных исследований в области борьбы с мошенничеством, одновременно решая ключевые проблемы конфиденциальности данных и разнообразия сценариев. Проект будет доступен по адресу https://github.com/JimmyMa99/TeleAntiFraud.
Модели действий имеют ключевое значение для выполнения автономными агентами сложных задач. Однако обучение крупных моделей действий остается сложной задачей из-за разнообразия сред агентов и сложности агентских данных. Несмотря на растущий интерес, существующая инфраструктура предоставляет ограниченную поддержку для масштабируемой, специфичной для агентов тонкой настройки. Мы представляем ActionStudio — легковесный и расширяемый фреймворк для данных и обучения, разработанный для крупных моделей действий. ActionStudio унифицирует гетерогенные траектории агентов через стандартизированный формат, поддерживает разнообразные парадигмы обучения, включая LoRA, полную тонкую настройку и распределенные конфигурации, а также интегрирует надежные инструменты предварительной обработки и проверки. Мы подтверждаем его эффективность на публичных и реалистичных промышленных бенчмарках, демонстрируя высокую производительность и практическую масштабируемость. Мы открыли исходный код и данные на https://github.com/SalesforceAIResearch/xLAM, чтобы способствовать исследованиям в сообществе.
В последние годы крупные языковые модели (LLMs) продемонстрировали впечатляющие способности в решении различных задач искусственного интеллекта. Однако они не справляются с надежным планированием, даже когда им предоставляется подробное описание задачи планирования. Попытки улучшить их способности к планированию, такие как использование цепочек рассуждений (chain-of-thought prompting), тонкая настройка (fine-tuning) и явное "рассуждение", всё равно приводят к некорректным планам и обычно не обобщаются на более крупные задачи. В данной статье мы показываем, как использовать LLMs для генерации корректных планов, даже для задач, выходящих за пределы распределения (out-of-distribution) и увеличивающихся в размере. Для заданной области планирования мы просим LLM сгенерировать несколько эвристических функций, зависящих от области, в виде кода на Python, оценить их на наборе обучающих задач в рамках жадного поиска по первому наилучшему совпадению (greedy best-first search) и выбрать наиболее эффективную. Полученные эвристики, сгенерированные LLM, решают значительно больше невидимых тестовых задач, чем современные эвристики, не зависящие от области, для классического планирования. Они даже конкурируют с самым мощным алгоритмом обучения для планирования, зависящего от области. Эти результаты особенно примечательны, учитывая, что наша реализация концепта основана на неоптимизированном планировщике на Python, а базовые методы используют высокооптимизированный код на C++. В некоторых областях эвристики, сгенерированные LLM, исследуют меньше состояний, чем базовые методы, что свидетельствует о том, что они не только эффективно вычисляются, но иногда даже более информативны, чем современные эвристики. В целом, наши результаты показывают, что выборка набора программ эвристических функций для планирования может значительно улучшить способности LLM к планированию.
Данная работа посвящена созданию открытых 4D-аватаров, целью которой является генерация 4D-аватара из портретного изображения в произвольном стиле. Мы выбираем параметрические триплейны в качестве промежуточного 4D-представления и предлагаем практическую парадигму обучения, которая использует преимущества как генеративно-состязательных сетей (GAN), так и диффузионных моделей. Наш подход основан на наблюдении, что 4D-GAN эффективно связывают изображения и триплейны без обучения с учителем, но обычно сталкиваются с трудностями при обработке разнородных распределений данных. Решением становится использование устойчивого 2D-диффузионного априори, который помогает GAN переносить свои знания в различные домены. Синергия между этими подходами позволяет создать мультидоменный набор данных "изображение-триплейн", что способствует разработке универсального генератора 4D-аватаров. Многочисленные эксперименты показывают, что наша модель, AvatarArtist, способна создавать высококачественные 4D-аватары с высокой устойчивостью к различным доменам исходных изображений. Код, данные и модели будут опубликованы в открытом доступе для содействия будущим исследованиям.
Последние достижения в области DUSt3R позволили добиться надежного оценивания плотных облаков точек и параметров камер для статических сцен, используя архитектуры сетей на основе Transformer и прямое обучение на крупномасштабных 3D-наборах данных. В то же время, ограниченный масштаб и разнообразие доступных 4D-наборов данных представляют собой серьезное препятствие для обучения высокообобщаемой 4D-модели. Это ограничение привело к тому, что традиционные 4D-методы стали дообучать 3D-модели на масштабируемых динамических видеоданных с использованием дополнительных геометрических априорных знаний, таких как оптический поток и глубины. В данной работе мы идем противоположным путем и представляем Easi3R — простой, но эффективный метод 4D-реконструкции, не требующий обучения. Наш подход применяет адаптацию внимания на этапе вывода, устраняя необходимость предварительного обучения с нуля или дообучения сети. Мы обнаружили, что слои внимания в DUSt3R изначально кодируют богатую информацию о движении камеры и объектов. Тщательно разделяя эти карты внимания, мы достигаем точной сегментации динамических областей, оценки позы камеры и реконструкции плотных 4D-карт точек. Многочисленные эксперименты на реальных динамических видео демонстрируют, что наша легковесная адаптация внимания значительно превосходит предыдущие передовые методы, которые обучались или дообучались на обширных динамических наборах данных. Наш код доступен для исследовательских целей по адресу https://easi3r.github.io/.
В области создания 3D-контента достижение оптимальной топологии сетки с помощью моделей ИИ долгое время оставалось целью для 3D-художников. Предыдущие методы, такие как MeshGPT, исследовали генерацию готовых к использованию 3D-объектов с использованием авторегрессивных техник работы с сетками. Хотя эти методы дают визуально впечатляющие результаты, их зависимость от пошаговых предсказаний в авторегрессивном процессе приводит к нескольким существенным ограничениям. К ним относятся крайне низкая скорость генерации и неконтролируемое количество граней сетки. В данной статье мы представляем MeshCraft — новый фреймворк для эффективной и контролируемой генерации сеток, который использует непрерывное пространственное диффузионное моделирование для создания дискретных треугольных граней. В частности, MeshCraft состоит из двух ключевых компонентов: 1) трансформерного VAE, который кодирует исходные сетки в непрерывные токены на уровне граней и декодирует их обратно в исходные сетки, и 2) диффузионного трансформера на основе потоков, учитывающего количество граней, что позволяет генерировать высококачественные 3D-сетки с заранее заданным числом граней. Благодаря использованию диффузионной модели для одновременной генерации всей топологии сетки, MeshCraft достигает генерации сеток с высокой точностью и значительно быстрее по сравнению с авторегрессивными методами. В частности, MeshCraft может сгенерировать сетку из 800 граней всего за 3,2 секунды (в 35 раз быстрее существующих базовых методов). Многочисленные эксперименты показывают, что MeshCraft превосходит современные методы как в качественных, так и в количественных оценках на наборе данных ShapeNet и демонстрирует превосходную производительность на наборе данных Objaverse. Кроме того, он легко интегрируется с существующими стратегиями условного управления, демонстрируя свой потенциал для освобождения художников от трудоемкой ручной работы, связанной с созданием сеток.
Большинство генераторов 3D-объектов сосредоточены на эстетическом качестве, часто игнорируя физические ограничения, необходимые в приложениях. Одним из таких ограничений является требование, чтобы 3D-объект был самоподдерживающимся, то есть оставался устойчивым под действием силы тяжести. Предыдущие подходы к генерации устойчивых 3D-объектов использовали дифференцируемые физические симуляторы для оптимизации геометрии на этапе тестирования, что является медленным, нестабильным и склонным к попаданию в локальные оптимумы. Вдохновленные исследованиями по согласованию генеративных моделей с внешними обратными связями, мы предлагаем Direct Simulation Optimization (DSO) — фреймворк, который использует обратную связь от (недифференцируемого) симулятора для повышения вероятности того, что 3D-генератор напрямую выдает устойчивые 3D-объекты. Мы создаем набор данных 3D-объектов, помеченных оценкой устойчивости, полученной из физического симулятора. Затем мы можем донастроить 3D-генератор, используя оценку устойчивости как метрику согласования, с помощью direct preference optimization (DPO) или direct reward optimization (DRO) — нового целевого показателя, который мы вводим для согласования диффузионных моделей без необходимости парных предпочтений. Наши эксперименты показывают, что донастроенный генератор с прямой передачей, использующий либо DPO, либо DRO, работает значительно быстрее и с большей вероятностью создает устойчивые объекты, чем оптимизация на этапе тестирования. Примечательно, что фреймворк DSO работает даже без наличия эталонных 3D-объектов для обучения, позволяя 3D-генератору самостоятельно улучшаться, автоматически собирая обратную связь от симулятора на свои выходные данные.
Мультимодальные большие языковые модели (MLLM) появились для решения задач визуального ответа на вопросы (VQA), что стимулировало новое направление исследований, связанное с проведением объективной оценки этих моделей. Существующие методы оценки сталкиваются с ограничениями из-за значительной нагрузки на человека, необходимой для разработки пар вопросов и ответов для визуальных изображений, что существенно ограничивает масштаб и охват оценок. Хотя автоматизированные подходы MLLM-as-judge пытаются снизить нагрузку на человека за счет автоматических оценок, они часто вносят предвзятость. Для решения этих проблем мы предлагаем фреймворк Unsupervised Peer review MLLM Evaluation (UPME). Он использует только данные изображений, позволяя моделям автоматически генерировать вопросы и проводить взаимную оценку ответов других моделей, эффективно снижая зависимость от человеческого труда. Кроме того, мы вводим систему оценки визуально-языковых аспектов для смягчения проблем предвзятости, которая фокусируется на трех аспектах: (i) правильность ответа; (ii) визуальное понимание и рассуждение; (iii) корреляция изображения и текста. Экспериментальные результаты показывают, что UPME достигает коэффициента корреляции Пирсона 0,944 с человеческими оценками на наборе данных MMstar и 0,814 на наборе данных ScienceQA, что свидетельствует о тесном соответствии нашего фреймворка с эталонами, разработанными человеком, и его внутренними предпочтениями.
Математические способности крупных языковых моделей к решению задач стали ключевым направлением исследований, при этом растет интерес к использованию самостоятельно генерируемых цепочек рассуждений как перспективного способа улучшения и развития этих моделей. Такие цепочки фиксируют пошаговые логические процессы, требуя при этом только правильного ответа для контроля. Метод самообучения доказал свою эффективность в задачах, связанных с рассуждениями, устраняя необходимость в использовании внешних моделей и ручной аннотации. Однако оптимизация использования самостоятельно сгенерированных данных для обучения моделей остается открытой проблемой. В данной работе мы предлагаем метод адаптивного взвешивания на основе энтропии для самообучения (Entropy-Based Adaptive Weighting for Self-Training, EAST) — стратегию адаптивного взвешивания, предназначенную для приоритизации неопределенных данных в процессе самообучения. В частности, EAST использует функцию отображения с настраиваемым параметром, который контролирует степень резкости взвешивания, присваивая больший вес данным, в которых модель демонстрирует более высокую неопределенность. Этот подход направляет модель на более информативные и сложные примеры, тем самым улучшая ее способность к рассуждениям. Мы оцениваем наш подход на наборах данных GSM8K и MATH. Эмпирические результаты показывают, что, в то время как базовый метод практически не дает улучшений (0%) на MATH, EAST достигает прироста примерно на 1% по сравнению с базовой моделью. На GSM8K EAST обеспечивает дополнительное улучшение производительности на 1-2% по сравнению с базовым методом.
Недавнее появление крупных визуально-языковых моделей (VLM) привело к созданию множества различных бенчмарков для их оценки. Однако мы отмечаем, что большинство существующих методов оценки страдают от того, что либо требуют от модели выбора из заранее определенных ответов, жертвуя открытостью, либо оценивают ответы с помощью модели-судьи, что приводит к субъективной и ненадежной оценке. Кроме того, мы наблюдаем отсутствие бенчмарков для VLM на корейском языке, которые необходимы как отдельный показатель в отличие от более распространенных бенчмарков на английском языке, поскольку производительность генеративных языковых моделей может значительно различаться в зависимости от используемого языка. Поэтому мы представляем KOFFVQA — универсальный бенчмарк для свободного визуального ответа на вопросы на корейском языке, предназначенный для оценки VLM. Наш бенчмарк состоит из 275 тщательно разработанных вопросов, каждый из которых сопровождается изображением и критериями оценки, охватывающими 10 различных аспектов работы VLM. Критерии оценки устраняют проблему ненадежности, позволяя модели-судье оценивать каждый ответ на основе заранее определенного набора правил. Благодаря объективному определению критериев оценки, даже небольшая модель с открытым исходным кодом может быть использована для надежной оценки моделей на нашем бенчмарке. В дополнение к оценке большого числа существующих VLM на нашем бенчмарке, мы также экспериментально подтверждаем, что наш метод использования заранее определенных критериев оценки значительно надежнее существующих методов. Наш код оценки доступен по адресу https://github.com/maum-ai/KOFFVQA.
Эволюционная многокритериальная оптимизация (EMO) достигла значительных успехов за последние два десятилетия. Однако с увеличением масштабов и сложности задач традиционные алгоритмы EMO сталкиваются с существенными ограничениями производительности из-за недостаточного уровня параллелизма и масштабируемости. Хотя большая часть работ была сосредоточена на проектировании алгоритмов для решения этих проблем, мало внимания уделялось аппаратному ускорению, что создает явный разрыв между алгоритмами EMO и современными вычислительными устройствами, такими как GPU. Чтобы устранить этот разрыв, мы предлагаем распараллелить алгоритмы EMO на GPU с использованием методологии тензоризации. Применяя тензоризацию, структуры данных и операции алгоритмов EMO преобразуются в компактные тензорные представления, что позволяет автоматически использовать вычислительные возможности GPU. Мы демонстрируем эффективность нашего подхода, применяя его к трем представительным алгоритмам EMO: NSGA-III, MOEA/D и HypE. Для всесторонней оценки нашей методологии мы вводим многокритериальный бенчмарк управления роботами с использованием GPU-ускоренного физического движка. Наши эксперименты показывают, что тензоризованные алгоритмы EMO достигают ускорения до 1113 раз по сравнению с их CPU-версиями, сохраняя качество решений и эффективно масштабируя размеры популяции до сотен тысяч. Кроме того, тензоризованные алгоритмы EMO успешно справляются со сложными многокритериальными задачами управления роботами, генерируя высококачественные решения с разнообразным поведением. Исходные коды доступны по адресу https://github.com/EMI-Group/evomo.
Предварительно обученные крупные языковые модели для видео (Video LLMs) демонстрируют впечатляющие способности к рассуждению, однако адаптация этих моделей к новым задачам, связанным с дополнительными модальностями или типами данных (например, аудио или 3D-информацией), остается сложной задачей. В данной статье мы представляем PAVE — гибкую платформу для адаптации предварительно обученных Video LLMs к задачам с использованием дополнительных сигналов, таких как аудио, 3D-данные или многоканальные видео. PAVE вводит легковесные адаптеры, называемые "патчами", которые добавляют небольшое количество параметров и операций к базовой модели, не изменяя её архитектуру или предварительно обученные веса. Таким образом, PAVE эффективно адаптирует предварительно обученную модель для поддержки разнообразных задач, включая аудиовизуальное ответы на вопросы, 3D-рассуждения, распознавание многоканальных видео и понимание видео с высокой частотой кадров. В этих задачах PAVE значительно улучшает производительность базовой модели, превосходя современные специализированные модели при минимальных затратах — около 0,1% дополнительных FLOPs и параметров. Кроме того, PAVE поддерживает многозадачное обучение и хорошо обобщается на различные Video LLMs. Наш код доступен по адресу https://github.com/dragonlzm/PAVE.
Методы параметрически-эффективной тонкой настройки (PEFT) в последнее время приобрели значительную популярность благодаря широкой доступности крупномасштабных предобученных моделей. Эти методы позволяют быстро адаптироваться к целевым задачам с минимальными вычислительными затратами. Однако популярные методы тонкой настройки, такие как LoRA, демонстрируют ограниченную устойчивость при выборе гиперпараметров или в условиях продолжительного обучения, что препятствует оптимальной производительности "из коробки". В отличие от них, ограниченные подходы, такие как ETHER, обеспечивают большую устойчивость, но ограничены крайне низкоранговыми адаптациями и фиксированными по силе преобразованиями, что снижает их выразительную способность к адаптации. В данной работе мы предлагаем Decoupled Low-rank Adaptation (DeLoRA) — новый метод тонкой настройки, который нормализует и масштабирует обучаемые низкоранговые матрицы. Ограничивая расстояние преобразования, DeLoRA эффективно разделяет угловое обучение и силу адаптации, повышая устойчивость без ущерба для производительности. В ходе оценок на задачах генерации изображений, ориентированных на объект, понимания естественного языка и настройки инструкций мы показываем, что DeLoRA соответствует или превосходит производительность конкурирующих методов PEFT, демонстрируя при этом более высокую устойчивость. Код доступен по адресу https://github.com/ExplainableML/DeLoRA.
Сопровождающие речь жесты играют важную роль в невербальной коммуникации. В данной статье мы представляем новую концепцию для понимания таких жестов в естественных условиях. В частности, мы предлагаем три новые задачи и эталоны для оценки способности модели понимать взаимосвязи между жестами, текстом и речью: (i) поиск на основе жестов, (ii) обнаружение слов, сопровождаемых жестами, и (iii) определение активного говорящего с использованием жестов. Мы предлагаем новый подход, который обучает трехмодальное представление речь-текст-видео-жесты для решения этих задач. Используя комбинацию глобального контрастного потерь для фраз и локального потерь связи жестов и слов, мы демонстрируем, что сильное представление жестов может быть обучено в слабо контролируемом режиме на основе видео в естественных условиях. Наши обученные представления превосходят предыдущие методы, включая крупные модели визуального языка (VLMs), во всех трех задачах. Дополнительный анализ показывает, что модальности речи и текста захватывают различные сигналы, связанные с жестами, подчеркивая преимущества обучения общего трехмодального пространства вложений. Набор данных, модель и код доступны по адресу: https://www.robots.ox.ac.uk/~vgg/research/jegal.