Ежедневно отобранные исследовательские статьи по ИИ с переводами
Технологии генерации видео достигли значительного прогресса, обещая стать основой для интерактивного исследования мира. Однако существующие наборы данных для генерации видео не подходят для обучения исследованию мира из-за некоторых ограничений: ограниченное количество локаций, короткая продолжительность, статичные сцены и отсутствие аннотаций, связанных с исследованием и миром. В этой статье мы представляем Sekai (что означает «мир» на японском), высококачественный набор данных с видео от первого лица по всему миру, содержащий богатые аннотации для исследования мира. Он включает более 5000 часов видео с пеших прогулок или съемки с дронов (FPV и UVA) из более чем 100 стран и регионов, охватывающих 750 городов. Мы разработали эффективный инструментарий для сбора, предварительной обработки и аннотирования видео с указанием местоположения, сцены, погоды, плотности толпы, описаний и траекторий камеры. Эксперименты демонстрируют качество набора данных. Мы используем его подмножество для обучения интерактивной модели исследования мира через видео, названной YUME (что означает «мечта» на японском). Мы уверены, что Sekai принесет пользу области генерации видео и исследования мира, а также вдохновит на создание ценных приложений.
Последние достижения в области моделей, объединяющих зрение и язык (Vision-Language Models, VLMs), позволили использовать крупные языковые модели (Large Language Models, LLMs) для достижения производительности, сопоставимой с закрытыми системами, такими как GPT-4V. Однако развертывание этих моделей в реальных сценариях, особенно на устройствах с ограниченными ресурсами, остается сложной задачей из-за их значительных вычислительных требований. Это стимулировало интерес к дистилляции знаний из крупных VLMs в более компактные и эффективные аналоги. Ключевая проблема здесь заключается в разнообразии архитектур VLMs, которые основаны на различных LLMs и используют различные типы токенов, отличающиеся размером словаря, разделением токенов и порядком их индексов. Для решения этой проблемы, связанной с ограничением на конкретный тип VLM, мы представляем Generation after Recalibration (GenRecal) — новый универсальный фреймворк для дистилляции VLMs. GenRecal включает в себя Recalibrator, который выравнивает и адаптирует представления признаков между гетерогенными VLMs, обеспечивая эффективный перенос знаний между различными типами VLMs. В ходе обширных экспериментов на множестве сложных тестовых наборов мы демонстрируем, что GenRecal значительно улучшает базовые показатели, в конечном итоге превосходя крупномасштабные открытые и закрытые VLMs.
Обучение больших языковых моделей (LLM) на децентрализованных и маломощных вычислительных узлах, например, на множестве локальных инстансов, снижает стоимость обучения и способствует демократизации моделей. Неизбежной проблемой в этом случае является отказ узлов из-за сбоев и политик планирования оператора, что приводит к потере этапа — части модели. Традиционные подходы к восстановлению после сбоев включают либо использование контрольных точек, когда периодически копия всей модели отправляется в дополнительное хранилище, либо избыточные вычисления. Эти подходы приводят к значительным накладным расходам на связь и/или вычисления даже в случаях без сбоев и плохо масштабируются в условиях работы с большими моделями. В данной статье мы предлагаем CheckFree — эффективный метод восстановления, при котором вышедший из строя этап заменяется взвешенным средним ближайших соседних этапов. В отличие от современных методов, CheckFree не требует дополнительных вычислений или хранения. Однако из-за природы усреднения соседних этапов он может восстанавливать только сбои промежуточных этапов. Мы также расширяем наш метод до CheckFree+ с выполнением конвейера вне порядка, чтобы устранять сбои первого и последнего этапов. Благодаря внеочередному конвейерному выполнению поведение этих этапов имитируется их соседями, что позволяет CheckFree+ восстанавливать их простым копированием весов от ближайшего соседа. Для восстановления слоев (де)встраивания CheckFree+ копирует эти слои на соседние этапы, что требует относительно небольших накладных расходов на хранение. Мы тщательно оцениваем наш метод на моделях LLaMa размером от 124M до 1.5B с различной частотой сбоев. В случае низкой и средней частоты сбоев (5-10%) CheckFree и CheckFree+ превосходят как контрольные точки, так и избыточные вычисления по скорости сходимости в реальном времени более чем на 12%. Оба наших предложения могут быть запущены с использованием нашего кода, доступного по адресу: https://github.com/gensyn-ai/CheckFree.
Недавние достижения в области крупных моделей рассуждений (Large Reasoning Models, LRMs), обученных с использованием длинных цепочек рассуждений (Long Chain-of-Thought, Long CoT), продемонстрировали впечатляющие способности к кросс-доменной генерализации. Однако механизмы, лежащие в основе такого переноса, остаются малоизученными. Мы предполагаем, что кросс-доменная генерализация возникает благодаря общим абстрактным прототипам рассуждений — фундаментальным шаблонам, которые отражают суть задач в различных областях. Эти прототипы минимизируют нюансы представления, показывая, что, казалось бы, разнородные задачи основаны на общих структурах рассуждений. Основываясь на этой гипотезе, мы предлагаем ProtoReasoning — фреймворк, который улучшает способность крупных языковых моделей (LLMs) к рассуждениям за счет использования масштабируемых и проверяемых прототипных представлений (Prolog для логических рассуждений, PDDL для планирования). ProtoReasoning включает: (1) автоматизированный конвейер построения прототипов, который преобразует задачи в соответствующие прототипные представления; (2) комплексную систему верификации, обеспечивающую надежную обратную связь через интерпретаторы Prolog/PDDL; (3) масштабируемость для синтеза задач в пределах пространства прототипов с гарантией корректности. Эксперименты показывают, что ProtoReasoning обеспечивает улучшение на 4,7% по сравнению с базовыми моделями в логических рассуждениях (Enigmata-Eval), на 6,3% в задачах планирования, на 4,0% в общих рассуждениях (MMLU) и на 1,0% в математике (AIME24). Важно отметить, что наши исследования подтверждают, что обучение в пространстве прототипов также демонстрирует улучшенную генерализацию на структурно схожие задачи по сравнению с обучением исключительно на естественно-языковых представлениях, что подтверждает нашу гипотезу о том, что прототипы рассуждений служат основой для обобщаемых рассуждений в крупных языковых моделях.
Современные ИИ-агенты в основном изолированы — они либо извлекают и анализируют огромные объемы цифровой информации и знаний, полученных из интернета, либо взаимодействуют с физическим миром через воплощенное восприятие, планирование и действия, но редко делают и то, и другое одновременно. Это разделение ограничивает их способность решать задачи, требующие интегрированной физической и цифровой интеллектуальной деятельности, такие как приготовление пищи по онлайн-рецептам, навигация с использованием динамических карт или интерпретация реальных достопримечательностей с использованием веб-знаний. Мы представляем новый подход — Воплощенных Веб-Агентов (Embodied Web Agents), который плавно объединяет воплощенное взаимодействие и масштабируемое веб-рассуждение. Для реализации этой концепции мы сначала разработали среду задач для Воплощенных Веб-Агентов — унифицированную симуляционную платформу, которая тесно интегрирует реалистичные 3D-интерьеры и экстерьеры с функциональными веб-интерфейсами. На основе этой платформы мы создали и опубликовали Бенчмарк Воплощенных Веб-Агентов, включающий разнообразные задачи, такие как приготовление пищи, навигация, шопинг, туризм и геолокация, — все они требуют скоординированного рассуждения в физической и цифровой сферах для систематической оценки кросс-доменного интеллекта. Результаты экспериментов выявили значительный разрыв в производительности между современными ИИ-системами и человеческими возможностями, что указывает на вызовы и перспективы на стыке воплощенного познания и доступа к веб-знаниям. Все наборы данных, коды и веб-сайты доступны на нашей странице проекта: https://embodied-web-agent.github.io/.
Мы представляем систему автоматического распознавания речи (ASR) для двух говорящих, которая объединяет DiCoW — диаризационно-условный вариант модели Whisper — с DiariZen, диаризационным конвейером, построенным на основе Pyannote. Сначала мы оцениваем обе системы в сценариях вне домена (OOD) для многоязычных данных без какого-либо тонкого настраивания. В этом сценарии DiariZen стабильно превосходит базовую модель диаризации Pyannote, демонстрируя сильную способность к обобщению. Несмотря на то, что DiCoW была тонко настроена только на англоязычных данных для ASR целевого говорящего, она сохраняет устойчивую многоязычную производительность, что указывает на сохранение мультиязычных возможностей Whisper благодаря модификациям энкодера. Затем мы тонко настраиваем как DiCoW, так и DiariZen на данных задачи MLC-SLM. Тонко настроенный DiariZen продолжает превосходить тонко настроенный базовый вариант Pyannote, в то время как DiCoW получает дополнительные преимущества от адаптации к домену. Наша финальная система достигает микро-среднего значения tcpWER/CER в 16,75% и занимает второе место в Задаче 2 конкурса MLC-SLM. Наконец, мы выявляем несколько несоответствий в разметке обучающих данных — таких как пропущенные сегменты речи и некорректные аннотации тишины — которые могут препятствовать тонкой настройке диаризации. Мы предлагаем простые стратегии для устранения этих проблем и повышения устойчивости системы.
Мы представляем SciVer — первый бенчмарк, специально разработанный для оценки способности базовых моделей проверять утверждения в мультимодальном научном контексте. SciVer включает 3000 примеров, аннотированных экспертами, на основе 1113 научных статей, охватывающих четыре подмножества, каждое из которых представляет распространённый тип рассуждений в мультимодальной проверке научных утверждений. Для детальной оценки каждый пример содержит аннотированные экспертами подтверждающие доказательства. Мы оцениваем производительность 21 современной мультимодальной базовой модели, включая o4-mini, Gemini-2.5-Flash, Llama-3.2-Vision и Qwen2.5-VL. Наши эксперименты выявили значительный разрыв в производительности между этими моделями и экспертами-людьми на SciVer. Благодаря углублённому анализу генерации с использованием извлечения данных (RAG) и оценке ошибок, проведённой людьми, мы выявили ключевые ограничения современных открытых моделей, предлагая важные инсайты для улучшения понимания и рассуждений моделей в задачах работы с мультимодальной научной литературой.
Оценка открытой генерации длинных текстов представляет собой сложную задачу, поскольку трудно четко определить, что отличает хорошие результаты от плохих. Существующие методы часто упускают ключевые аспекты, такие как связность, стиль или релевантность, или подвержены влиянию предобученных данных, что делает оценку открытой генерации длинных текстов малоизученной проблемой. Для устранения этого пробела мы предлагаем PrefBERT — модель оценки для анализа открытой генерации длинных текстов в GRPO и управления ее обучением с использованием различных вознаграждений за хорошие и плохие результаты. Обучившись на двух наборах данных для оценки ответов с разнообразными стилями длинных текстов и качеством, оцененным по шкале Лайкерта, PrefBERT эффективно поддерживает GRPO, предоставляя более качественную семантическую обратную связь по сравнению с традиционными метриками ROUGE-L и BERTScore. Благодаря всесторонним оценкам, включая использование LLM в качестве судьи, человеческие оценки и качественный анализ, мы показываем, что PrefBERT, обученный на многословных и параграфных ответах, остается надежным для различных длинных текстов и хорошо согласуется с проверяемыми вознаграждениями, необходимыми GRPO. Человеческие оценки подтверждают, что использование PrefBERT в качестве сигнала вознаграждения для обучения моделей политик приводит к ответам, которые лучше соответствуют человеческим предпочтениям, чем те, которые обучены с использованием традиционных метрик. Наш код доступен по адресу https://github.com/zli12321/long_form_rl.
Быстрый прогресс в области крупных языковых моделей способствовал развитию агентных систем в принятии решений, координации и выполнении задач. Однако существующие фреймворки для генерации агентных систем не обладают полной автономностью, отсутствуют создание агентов с нуля, самооптимизация функциональности агентов и их взаимодействие, что ограничивает адаптивность и масштабируемость. Мы предлагаем SwarmAgentic — фреймворк для полностью автоматизированной генерации агентных систем, который создает агентные системы с нуля и совместно оптимизирует функциональность агентов и их взаимодействие как взаимозависимые компоненты через языковое исследование. Для обеспечения эффективного поиска по системным структурам SwarmAgentic поддерживает популяцию кандидатных систем и развивает их с помощью обновлений, управляемых обратной связью, вдохновляясь методом оптимизации роем частиц (PSO). Мы оцениваем наш метод на шести реальных, открытых и исследовательских задачах, включающих высокоуровневое планирование, системную координацию и креативное рассуждение. При наличии только описания задачи и целевой функции SwarmAgentic превосходит все базовые методы, демонстрируя относительное улучшение на +261.8% по сравнению с ADAS на бенчмарке TravelPlanner, что подчеркивает эффективность полной автоматизации в задачах без структурных ограничений. Этот фреймворк представляет собой значительный шаг к масштабируемому и автономному проектированию агентных систем, объединяя роевой интеллект с полностью автоматизированной генерацией мультиагентных систем. Наш код доступен по адресу: https://yaoz720.github.io/SwarmAgentic/.
В последнее время крупные языковые модели (LLM), масштабируемые на этапе тестирования, продемонстрировали исключительные способности к рассуждению в научных и профессиональных задачах, генерируя длинные цепочки рассуждений (CoT). Важным компонентом для разработки таких моделей рассуждений является обучение с подкреплением (RL), примером которого служит метод Proximal Policy Optimization (PPO) и его варианты, позволяющие моделям обучаться методом проб и ошибок. Однако PPO может быть затратным по времени из-за своей внутренней природы on-policy, что усугубляется увеличением длины ответов. В данной работе мы предлагаем Truncated Proximal Policy Optimization (T-PPO), новое расширение PPO, которое повышает эффективность обучения за счет оптимизации обновления политики и генерации ответов с ограничением длины. T-PPO устраняет проблему низкой загрузки оборудования, присущую полностью синхронизированным процедурам длинной генерации, где ресурсы часто простаивают в ожидании завершения полных прогонов. Наш вклад заключается в двух аспектах. Во-первых, мы предлагаем Extended Generalized Advantage Estimation (EGAE) для оценки преимуществ, полученных из неполных ответов, при сохранении целостности обучения политики. Во-вторых, мы разрабатываем вычислительно оптимизированный механизм, позволяющий независимо оптимизировать модели политики и ценности. Благодаря избирательной фильтрации промптов и усеченных токенов этот механизм сокращает избыточные вычисления и ускоряет процесс обучения без ущерба для производительности сходимости. Мы демонстрируем эффективность T-PPO на AIME 2024 с базовой моделью на 32 млрд параметров. Результаты экспериментов показывают, что T-PPO повышает эффективность обучения моделей рассуждений до 2,5 раз и превосходит существующих конкурентов.
Крупные мультимодальные модели Mixture-of-Experts (MoE) эффективно масштабируют размер модели для повышения производительности, сохраняя при этом фиксированное количество активных параметров. Однако в предыдущих работах в основном использовались эксперты с полной точностью в процессе разреженного апсайклинга. Несмотря на их превосходную производительность в конечных задачах, большое количество экспертов приводит к увеличению объема памяти, что создает значительные трудности для развертывания на устройствах с ограниченными ресурсами. В данной работе мы предлагаем MoTE, масштабируемый и эффективный по памяти подход для обучения моделей Mixture-of-Ternary-Experts из плотного чекпоинта. Вместо обучения меньшего количества экспертов с высокой точностью мы предлагаем обучать больше экспертов с низкой точностью в процессе апсайклинга. В частности, мы используем предобученный FFN в качестве общего эксперта и обучаем тернарных маршрутизируемых экспертов с параметрами из множества {-1, 0, 1}. Многочисленные эксперименты показывают, что наш подход демонстрирует перспективную тенденцию масштабирования с увеличением размера модели. MoTE достигает сопоставимой производительности с базовой моделью MoE-LLaVA с полной точностью, при этом требуя меньшего объема памяти. Более того, наш подход совместим с методами посттренировочного квантования, и его преимущество усиливается при снижении ограничений по памяти. При одинаковом объеме памяти для экспертов в 3,4 ГБ и в сочетании с посттренировочным квантованием MoTE превосходит MoE-LLaVA с приростом средней точности на 4,3% в конечных задачах, что подтверждает его эффективность и потенциал для устройств с ограниченной памятью.
Автоматическое создание 3D-сцен для погружения в виртуальную реальность (VR) на протяжении десятилетий остается важным направлением исследований. Однако существующие методы часто полагаются либо на моделирование высокополигональных мешей с последующим упрощением, либо на использование массивных 3D-гауссовских моделей, что приводит к сложным процессам или ограниченной визуальной реалистичности. В данной работе мы показываем, что такие трудоемкие подходы не являются необходимыми для достижения убедительного погружения. Мы представляем ImmerseGen — новый фреймворк с управляемыми агентами для компактного и фотореалистичного моделирования миров. ImmerseGen представляет сцены как иерархические композиции из легковесных геометрических прокси, таких как упрощенные модели рельефа и билборды, и создает фотореалистичный внешний вид, синтезируя RGBA-текстуры на эти прокси. В частности, мы предлагаем текстурирование на основе рельефа для создания базового мира, ориентированного на пользователя, и текстурирование RGBA-активов для среднего и переднего плана. Такой подход имеет несколько преимуществ: (i) он упрощает моделирование, позволяя агентам направлять генеративные модели для создания согласованных текстур, которые органично интегрируются в сцену; (ii) он обходит сложное создание и упрощение геометрии, напрямую синтезируя фотореалистичные текстуры на прокси, сохраняя визуальное качество без ухудшения; (iii) он обеспечивает компактные представления, подходящие для рендеринга в реальном времени на мобильных VR-устройствах. Для автоматизации создания сцен на основе текстовых запросов мы вводим агентов моделирования на основе визуально-языковых моделей (VLM), улучшенных семантическим анализом на основе сетки для улучшения пространственного мышления и точного размещения объектов. ImmerseGen также обогащает сцены динамическими эффектами и окружающим звуком для поддержки мультисенсорного погружения. Эксперименты по генерации сцен и демонстрации в реальном времени в VR показывают, что ImmerseGen превосходит предыдущие методы по фотореалистичности, пространственной согласованности и эффективности рендеринга. Страница проекта: https://immersegen.github.io.
Создание моделей классификации изображений остается трудоемким процессом в областях с ограниченными данными, где сбор больших размеченных наборов данных непрактичен. Обучение в контексте (In-Context Learning, ICL) стало перспективной парадигмой для классификации изображений с малым количеством примеров (Few-Shot Image Classification, FSIC), позволяя моделям обобщать знания между доменами без градиентной адаптации. Однако предыдущие работы в значительной степени упускали из виду критически важный компонент конвейеров FSIC на основе ICL: роль эмбеддингов изображений. В данной работе мы представляем PictSure — фреймворк ICL, который ставит модель эмбеддингов — ее архитектуру, предварительное обучение и динамику обучения — в центр анализа. Мы систематически исследуем влияние различных типов визуальных кодировщиков, целей предварительного обучения и стратегий тонкой настройки на производительность FSIC. Наши эксперименты показывают, что успех обучения и производительность вне домена сильно зависят от того, как модели эмбеддингов были предварительно обучены. В результате PictSure превосходит существующие модели FSIC на основе ICL на тестах вне домена, значительно отличающихся от распределения обучения, сохраняя при этом сопоставимые результаты на задачах внутри домена. Код доступен по адресу: https://github.com/PictSure/pictsure-library.
Мультимодальные крупные языковые модели (MLLMs) демонстрируют высокие результаты в задачах, таких как мультимодальное рассуждение и кросс-модальный поиск, однако сталкиваются с трудностями при развертывании в реальных сценариях из-за распределенных мультимодальных данных и строгих требований к конфиденциальности. Федеративное обучение (FL) предлагает решение, позволяя совместное обучение моделей без централизации данных. Однако реализация FL для MLLMs сопряжена с серьезными вызовами, включая высокие вычислительные требования, ограниченные возможности клиентов, значительные затраты на связь и неоднородность данных клиентов. Существующие методы FL предполагают развертывание полных моделей на стороне клиента, что становится невозможным для крупномасштабных MLLMs из-за их огромного размера и требований к передаче данных. Для преодоления этих ограничений мы предлагаем FedNano — первый FL-фреймворк, который централизует языковую модель на сервере, вводя NanoEdge — легковесный модуль для адаптации под конкретных клиентов. NanoEdge использует модально-специфичные кодировщики, соединители и обучаемые NanoAdapters с низкоранговой адаптацией. Такой подход устраняет необходимость развертывания языковой модели на клиентах, сокращая объем хранилища на стороне клиента на 95% и ограничивая накладные расходы на связь всего 0,01% параметров модели. Передавая только компактные обновления NanoAdapter, FedNano справляется с неоднородностью данных клиентов и ограниченными ресурсами, сохраняя конфиденциальность. Эксперименты показывают, что FedNano превосходит предыдущие FL-базовые подходы, сокращая разрыв между масштабом MLLMs и реализуемостью FL, и обеспечивая масштабируемые децентрализованные мультимодальные системы ИИ.
Последние достижения в области крупномасштабных визуально-языковых моделей (LVLM), построенных на основе крупных языковых моделей (LLM), установили выравнивание визуальных признаков с представлениями LLM в качестве доминирующей парадигмы. Однако унаследованные архитектурные решения LLM вводят неоптимальные характеристики для многомодальной обработки. Во-первых, LVLM демонстрируют бимодальное распределение в распределении внимания, что приводит к постепенному игнорированию среднего визуального контента по мере расширения контекста. Во-вторых, традиционные схемы позиционного кодирования не сохраняют важные двумерные структурные отношения при обработке динамических изображений высокого разрешения. Для устранения этих ограничений мы предлагаем CoMemo — двухпутевую архитектуру, которая сочетает контекстный визуальный путь с путем визуальной памяти для обработки изображений, эффективно устраняя пренебрежение визуальной информацией. Кроме того, мы представляем RoPE-DHR — новый механизм позиционного кодирования, который использует позиционную агрегацию на основе миниатюр для сохранения двумерной пространственной осведомленности, одновременно смягчая удаленное затухание в длинных последовательностях. Оценки на семи тестовых наборах, включая понимание длинного контекста, рассуждение на основе нескольких изображений и визуальное ответы на вопросы, демонстрируют превосходную производительность CoMemo по сравнению с традиционными архитектурами LVLM. Страница проекта доступна по адресу https://lalbj.github.io/projects/CoMemo/.
Компьютерные агенты, основанные на больших языковых моделях (LLM), способны напрямую взаимодействовать с графическим пользовательским интерфейсом, обрабатывая скриншоты или деревья доступности. Хотя такие системы набирают популярность, их безопасность остается в значительной степени недооцененной, несмотря на то, что оценка и понимание их потенциала для вредоносного поведения крайне важны для широкого внедрения. Чтобы восполнить этот пробел, мы представляем OS-Harm — новый бенчмарк для измерения безопасности компьютерных агентов. OS-Harm построен на основе среды OSWorld и направлен на тестирование моделей в трех категориях вредоносного поведения: преднамеренное злоупотребление пользователем, атаки с использованием инъекции промптов и некорректное поведение модели. Для охвата этих случаев мы создали 150 задач, охватывающих различные типы нарушений безопасности (домогательства, нарушение авторских прав, дезинформация, утечка данных и т.д.), которые требуют от агента взаимодействия с различными приложениями операционной системы (почтовый клиент, редактор кода, браузер и т.д.). Кроме того, мы предлагаем автоматизированного судью для оценки как точности, так и безопасности агентов, который демонстрирует высокое согласие с аннотациями человека (F1-оценка 0,76 и 0,79). Мы оцениваем компьютерных агентов на основе ряда передовых моделей, таких как o4-mini, Claude 3.7 Sonnet, Gemini 2.5 Pro, и предоставляем анализ их безопасности. В частности, все модели склонны напрямую выполнять многие запросы на преднамеренное злоупотребление, относительно уязвимы к статическим инъекциям промптов и иногда совершают небезопасные действия. Бенчмарк OS-Harm доступен по адресу https://github.com/tml-epfl/os-harm.
Недавние тесты исследовали фактологическую согласованность и риторическую устойчивость в больших языковых моделях (LLM). Однако существует пробел в знаниях о том, как направленное формулирование фактологически верных утверждений влияет на согласие модели, что является распространённым сценарием для пользователей LLM. AssertBench решает эту проблему, выбирая факты, подтверждённые доказательствами, из набора данных FEVEROUS, предназначенного для проверки фактов. Для каждого (подтверждённого доказательствами) факта мы создаём два варианта формулировок: один, где пользователь утверждает, что утверждение является фактологически верным, и другой, где пользователь утверждает, что оно неверно. Затем мы фиксируем согласие модели и её аргументацию. Желаемый результат заключается в том, чтобы модель оставалась уверенной в своих суждениях, сохраняя последовательную оценку истинности в обоих вариантах формулировок, а не меняла свою оценку, чтобы согласиться с пользователем. AssertBench изолирует изменчивость, вызванную формулировками, от базовых знаний модели, стратифицируя результаты на основе точности модели на тех же утверждениях, представленных в нейтральной форме. Таким образом, этот тест направлен на измерение способности LLM "стоять на своём", когда ей предъявляют противоречивые утверждения пользователя об одном и том же факте. Полный исходный код доступен по адресу https://github.com/achowd32/assert-bench.
Способность отслеживать общие движения всего тела в реальном мире является полезным подходом для создания универсальных гуманоидных роботов. Однако достижение этого может быть сложной задачей из-за временного и кинематического разнообразия движений, возможностей политики и трудностей координации верхней и нижней частей тела. Для решения этих проблем мы предлагаем GMT — универсальную и масштабируемую систему отслеживания движений, которая обучает единую унифицированную политику, позволяющую гуманоидным роботам отслеживать разнообразные движения в реальном мире. GMT основана на двух ключевых компонентах: стратегии адаптивной выборки и архитектуре Motion Mixture-of-Experts (MoE). Адаптивная выборка автоматически балансирует простые и сложные движения в процессе обучения. MoE обеспечивает лучшую специализацию различных областей многообразия движений. Мы демонстрируем эффективность GMT в ходе обширных экспериментов как в симуляции, так и в реальном мире, достигая передовых результатов в широком спектре движений с использованием единой универсальной политики. Видео и дополнительная информация доступны по ссылке: https://gmt-humanoid.github.io.
Модели генерации изображений на основе диффузии демонстрируют превосходное качество синтетического контента, однако страдают от медленного и ресурсоемкого процесса вывода. Предыдущие работы пытались решить эту проблему путем кэширования и повторного использования признаков в трансформерах диффузии на различных шагах вывода. Однако эти методы часто полагаются на жесткие эвристики, что приводит к ограниченному ускорению или плохой обобщаемости на различные архитектуры. Мы предлагаем Evolutionary Caching to Accelerate Diffusion models (ECAD) — генетический алгоритм, который обучается эффективным, специфичным для каждой модели, расписаниям кэширования, формирующим Парето-границу, используя лишь небольшой набор калибровочных запросов. ECAD не требует изменений параметров сети или эталонных изображений. Он обеспечивает значительное ускорение вывода, позволяет тонко управлять компромиссом между качеством и задержкой и легко адаптируется к различным моделям диффузии. Примечательно, что обученные расписания ECAD эффективно обобщаются на разрешения и варианты моделей, не встречавшиеся во время калибровки. Мы оцениваем ECAD на моделях PixArt-alpha, PixArt-Sigma и FLUX-1.dev, используя несколько метрик (FID, CLIP, Image Reward) на различных бенчмарках (COCO, MJHQ-30k, PartiPrompts), демонстрируя стабильные улучшения по сравнению с предыдущими подходами. На PixArt-alpha ECAD находит расписание, которое превосходит предыдущий метод с наилучшими результатами на 4.47 COCO FID, увеличивая ускорение вывода с 2.35x до 2.58x. Наши результаты подтверждают, что ECAD является масштабируемым и обобщаемым подходом для ускорения вывода в моделях диффузии. Наш проект доступен на сайте https://aniaggarwal.github.io/ecad, а код — на https://github.com/aniaggarwal/ecad.