Ежедневно отобранные исследовательские статьи по ИИ с переводами
Агентный поиск, такой как системы Deep Research, где большие языковые модели автономно просматривают веб, синтезируют информацию и возвращают комплексные ответы с цитированием, представляет собой значительный сдвиг в том, как пользователи взаимодействуют с информацией веб-масштаба. Хотя такие системы обещают большую эффективность и когнитивную разгрузку, растущая сложность и открытость агентного поиска опережают существующие методы оценки и бенчмарки, которые в основном предполагают короткие временные горизонты поиска и статичные ответы. В этой статье мы представляем Mind2Web 2 — бенчмарк из 130 реалистичных, высококачественных и долгосрочных задач, требующих реального веб-серфинга и обширного синтеза информации, созданный с использованием более 1000 часов человеческого труда. Для решения проблемы оценки изменяющихся во времени и сложных ответов мы предлагаем новую структуру "Агент-как-Судья". Наш метод создает специализированных агентов-судей на основе древовидной структуры критериев для автоматической оценки как правильности ответов, так и атрибуции источников. Мы проводим всестороннюю оценку девяти передовых систем агентного поиска и человеческой производительности, а также детальный анализ ошибок для получения инсайтов для будущего развития. Лучшая система, OpenAI Deep Research, уже может достигать 50-70% человеческой производительности, затрачивая вдвое меньше времени, что демонстрирует огромный потенциал. В целом, Mind2Web 2 предоставляет строгую основу для разработки и тестирования следующего поколения систем агентного поиска.
Мы разрабатываем экономически эффективного нейросимволического агента для решения сложных задач многошагового редактирования изображений, таких как: «Обнаружьте скамейку на изображении, перекрасьте её в розовый цвет. Также удалите кошку для более чёткого вида и перекрасьте стену в жёлтый цвет». Наш подход сочетает быстрое планирование высокоуровневых подзадач с использованием больших языковых моделей (LLM) с медленным, точным использованием инструментов и локальным поиском A^* для каждой подзадачи с целью нахождения экономически эффективного пути инструментов — последовательности вызовов инструментов ИИ. Чтобы снизить затраты на поиск A^* для схожих подзадач, мы применяем индуктивное рассуждение на основе ранее успешных путей инструментов с использованием LLM для непрерывного извлечения и уточнения часто используемых подпрограмм, которые затем повторно используются в качестве новых инструментов для будущих задач в рамках адаптивного быстрого-медленного планирования. В этом подходе сначала исследуются высокоуровневые подпрограммы, и только в случае их неудачи активируется низкоуровневый поиск A^*. Повторно используемые символические подпрограммы значительно снижают затраты на исследование для однотипных подзадач, применяемых к схожим изображениям, что позволяет создать агента с человекообразным быстрым-медленным путём инструментов «FaSTA^*»: быстрое планирование подзадач с последующим выбором подпрограмм на основе правил для каждой подзадачи сначала выполняется с помощью LLM, что ожидаемо покрывает большинство задач, тогда как медленный поиск A^* активируется только для новых и сложных подзадач. Сравнение с современными подходами к редактированию изображений демонстрирует, что FaSTA^* значительно более эффективен с точки зрения вычислительных ресурсов, оставаясь при этом конкурентоспособным по сравнению с передовыми базовыми методами по показателю успешности выполнения задач.
Последние достижения в области реконструкции сцен позволили добиться высокой реалистичности моделирования сред для автономного вождения (AD) с использованием 3D-гауссовых сплатов. Однако полученные реконструкции остаются тесно связанными с исходными наблюдениями и не способны поддерживать фотореалистичный синтез значительно измененных или новых сценариев вождения. В данной работе представлен MADrive — фреймворк для реконструкции сцен с использованием памяти, предназначенный для расширения возможностей существующих методов реконструкции путем замены наблюдаемых транспортных средств на визуально схожие 3D-ассеты, извлеченные из крупномасштабной внешней базы данных. В частности, мы представляем MAD-Cars — тщательно отобранный набор данных, содержащий около 70 тысяч 360-градусных видеороликов автомобилей, снятых в реальных условиях, а также модуль поиска, который находит наиболее похожие экземпляры автомобилей в базе данных, реконструирует соответствующие 3D-ассеты из видео и интегрирует их в целевую сцену через выравнивание ориентации и переосвещение. Полученные замены обеспечивают полное многовидовое представление транспортных средств в сцене, что позволяет создавать фотореалистичный синтез существенно измененных конфигураций, как показано в наших экспериментах. Страница проекта: https://yandex-research.github.io/madrive/
Мы представляем WorldVLA, авторегрессивную модель мира действий, которая объединяет понимание и генерацию действий и изображений. Наша модель WorldVLA интегрирует модель Vision-Language-Action (VLA) и модель мира в единую структуру. Модель мира предсказывает будущие изображения, используя как понимание действий, так и изображений, с целью изучения базовой физики окружающей среды для улучшения генерации действий. В то же время модель действий генерирует последующие действия на основе наблюдений за изображениями, способствуя визуальному пониманию и, в свою очередь, помогая визуальной генерации модели мира. Мы демонстрируем, что WorldVLA превосходит отдельные модели действий и мира, подчеркивая взаимное усиление между моделью мира и моделью действий. Кроме того, мы обнаруживаем, что производительность модели действий ухудшается при генерации последовательностей действий авторегрессивным способом. Это явление можно объяснить ограниченной способностью модели к обобщению при прогнозировании действий, что приводит к распространению ошибок от предыдущих действий к последующим. Для решения этой проблемы мы предлагаем стратегию маски внимания, которая выборочно маскирует предыдущие действия во время генерации текущего действия, что демонстрирует значительное улучшение производительности в задаче генерации фрагментов действий.
Гроккинг, то есть продолжающееся улучшение производительности на тестах спустя длительное время после сходимости функции потерь на обучении, недавно был замечен в процессе обучения нейронных сетей, что делает механизмы обобщения и другие возникающие способности, такие как рассуждение, загадочными. В то время как предыдущие исследования обычно обучали небольшие модели на нескольких игрушечных или узкоспециализированных задачах в течение тысяч эпох, мы проводим первое исследование гроккинга на контрольных точках в ходе однопроходного предобучения крупной языковой модели (LLM) на 7 миллиардов параметров, а именно OLMoE. Мы вычисляем функцию потерь на обучении и оцениваем обобщение на разнообразных эталонных задачах, включая математические рассуждения, генерацию кода и задачи извлечения знаний из области здравого смысла и предметной области. Наше исследование впервые подтверждает, что гроккинг всё ещё происходит в процессе предобучения крупномасштабных базовых моделей, хотя различные данные могут входить в стадии гроккинга асинхронно. Мы также раскрываем тайну "возникновения обобщения" в гроккинге, исследуя внутреннюю динамику LLM. В частности, мы обнаруживаем, что пути обучающих выборок (то есть выбор экспертов между слоями) эволюционируют от случайных, специфичных для конкретного экземпляра, к более структурированным и общим между выборками в процессе гроккинга. Кроме того, сложность пути выборки уменьшается, несмотря на сходимость функции потерь. Это указывает на переход от запоминания к обобщению, предоставляя механистическое объяснение задержанного обобщения. В исследовании мы разрабатываем две новые метрики для количественной оценки расстояния между путями и сложности отдельного пути. Мы демонстрируем их способность предсказывать улучшение обобщения на разнообразных последующих задачах. Они эффективны, просты в вычислении и зависят исключительно от обучающих данных. Таким образом, они имеют практическую ценность для предобучения, позволяя нам отслеживать производительность обобщения без дообучения и тестирования. Теоретически мы показываем, что более структурированные пути снижают сложность модели и улучшают границу обобщения.
Условные вычисления являются популярной стратегией для повышения эффективности трансформеров. Существующие методы часто нацелены на отдельные модули (например, слои смеси экспертов) или пропускают слои независимо друг от друга. Однако исследования интерпретируемости показали, что средние слои трансформеров обладают большей избыточностью, а начальные слои агрегируют информацию в позициях токенов. Руководствуясь этими выводами, мы предлагаем новую архитектуру, которая динамически пропускает переменное количество слоев, начиная с середины. В частности, обученный механизм затворов определяет, следует ли обходить симметричный диапазон центральных блоков на основе входных данных, а механизм внимания с затворами предотвращает доступ последующих токенов к пропущенным позициям. Нормы остатков контролируются с помощью схемы "сэндвич" или "perilayernorm", а разреженность затворов — с помощью адаптивной регуляризационной функции потерь. Мы стремились снизить вычислительные требования для "более простых" токенов и потенциально способствовать возникновению многоуровневой иерархии представлений, однако на исследованных масштабах наш подход не улучшает компромисс между кросс-энтропией на валидации и оценкой FLOPs по сравнению с плотными базовыми моделями с меньшим количеством слоев. Мы публикуем наш код по адресу https://github.com/tim-lawson/skip-middle.
Мы представляем SAM4D — мультимодальную и временную базовую модель, предназначенную для сегментации по запросу в потоках данных с камер и лидаров. Введено Унифицированное Мультимодальное Позиционное Кодирование (UMPE), которое выравнивает признаки камер и лидаров в общем 3D-пространстве, обеспечивая плавное кросс-модальное взаимодействие и запросы. Кроме того, мы предлагаем Внимание с Учетом Движения в Кросс-Модальной Памяти (MCMA), которое использует компенсацию эго-движения для улучшения временной согласованности и извлечения долгосрочных признаков, гарантируя надежную сегментацию в динамически изменяющихся сценах автономного вождения. Чтобы избежать узких мест в аннотировании, мы разработали мультимодальный автоматизированный механизм обработки данных, который объединяет видеомаски, созданные с помощью VFM, пространственно-временную 4D-реконструкцию и кросс-модальное слияние масок. Этот фреймворк генерирует псевдо-метки, согласованные между камерой и лидаром, со скоростью, на порядки превышающей скорость ручного аннотирования, сохраняя при этом семантическую точность, полученную из VFM, в представлениях облаков точек. Мы проводим обширные эксперименты на созданном наборе данных Waymo-4DSeg, которые демонстрируют мощные кросс-модальные способности сегментации и большой потенциал SAM4D в области аннотирования данных.
Скиннинг и риггинг являются фундаментальными компонентами в анимации, реконструкции сочлененных объектов, передаче движения и генерации 4D-данных. Существующие подходы преимущественно опираются на линейный бленд-скиннинг (LBS) благодаря его простоте и дифференцируемости. Однако LBS вызывает артефакты, такие как потеря объема и неестественные деформации, а также не способен моделировать эластичные материалы, такие как мягкие ткани, мех и гибкие придатки (например, хоботы слонов, уши и жировые ткани). В данной работе мы предлагаем PhysRig: дифференцируемую физически обоснованную систему скиннинга и риггинга, которая преодолевает эти ограничения путем встраивания жесткого скелета в объемное представление (например, тетраэдральную сетку), которое моделируется как деформируемая структура мягкого тела, управляемая анимированным скелетом. Наш метод использует механику сплошных сред и дискретизирует объект как частицы, встроенные в эйлерову фоновую сетку, чтобы обеспечить дифференцируемость как по свойствам материала, так и по движению скелета. Кроме того, мы вводим материальные прототипы, значительно сокращая пространство обучения при сохранении высокой выразительности. Для оценки нашей системы мы создаем комплексный синтетический набор данных, используя сетки из Objaverse, The Amazing Animals Zoo и MixaMo, охватывающие разнообразные категории объектов и паттерны движения. Наш метод стабильно превосходит традиционные подходы на основе LBS, генерируя более реалистичные и физически правдоподобные результаты. Более того, мы демонстрируем применимость нашей системы в задаче переноса позы, подчеркивая ее универсальность для моделирования сочлененных объектов.
Мы обучаем модели для прогнозирования эгоцентричного видео на основе действий человека (PEVA), используя прошлое видео и действие, представленное относительной 3D позой тела. Условие на кинематические траектории поз, структурированные иерархией суставов тела, позволяет нашей модели научиться симулировать, как физические действия человека формируют окружающую среду с точки зрения первого лица. Мы обучаем авторегрессивный условный диффузионный трансформер на Nymeria, крупномасштабном наборе данных реального эгоцентричного видео и захвата поз тела. Дополнительно мы разрабатываем иерархический протокол оценки с постепенно усложняющимися задачами, что позволяет провести всесторонний анализ способностей модели к прогнозированию и управлению в контексте воплощенного агента. Наша работа представляет собой начальную попытку решения задач моделирования сложных реальных сред и поведения воплощенных агентов с помощью прогнозирования видео с точки зрения человека.
С быстрым распространением крупных языковых моделей (LLM), каждая из которых оптимизирована для различных сильных сторон, стилей или профилей задержки/стоимости, маршрутизация стала важной техникой для операционализации использования различных моделей. Однако существующие подходы к маршрутизации LLM ограничены в двух ключевых аспектах: они оценивают производительность с использованием бенчмарков, которые часто не учитывают предпочтения пользователей, основанные на субъективных критериях оценки, и обычно выбирают из ограниченного пула моделей. В данной работе мы предлагаем фреймворк маршрутизации, согласованный с предпочтениями, который направляет выбор модели, сопоставляя запросы с определенными пользователем доменами (например, путешествия) или типами действий (например, редактирование изображений), — предлагая практический механизм для кодирования предпочтений в решениях о маршрутизации. В частности, мы представляем Arch-Router, компактную модель на 1,5 миллиарда параметров, которая учится сопоставлять запросы с предпочтениями доменов и действий для принятия решений о маршрутизации моделей. Наш подход также поддерживает бесшовное добавление новых моделей для маршрутизации без необходимости переобучения или изменений архитектуры. Эксперименты на диалоговых наборах данных демонстрируют, что наш подход достигает наилучших результатов (SOTA) в сопоставлении запросов с предпочтениями пользователей, превосходя ведущие проприетарные модели. Наш подход учитывает субъективные критерии оценки и делает решения о маршрутизации более прозрачными и гибкими. Наша модель доступна по адресу: https://huggingface.co/katanemo/Arch-Router-1.5B.
Редкие заболевания в совокупности затрагивают более 300 миллионов человек по всему миру, однако своевременная и точная диагностика остается серьезной проблемой. Это во многом связано с их клинической гетерогенностью, низкой индивидуальной распространенностью и ограниченной осведомленностью большинства клиницистов о редких состояниях. В данной работе мы представляем DeepRare — первую агентную систему для диагностики редких заболеваний, основанную на крупной языковой модели (LLM), способную обрабатывать гетерогенные клинические данные. Система генерирует ранжированные диагностические гипотезы для редких заболеваний, каждая из которых сопровождается прозрачной цепочкой рассуждений, связывающей промежуточные аналитические шаги с проверяемыми медицинскими данными. DeepRare состоит из трех ключевых компонентов: центрального узла с модулем долговременной памяти; специализированных агентных серверов, отвечающих за предметно-ориентированные аналитические задачи, интегрирующих более 40 специализированных инструментов и масштабируемых на уровне веба актуальных источников медицинских знаний, что обеспечивает доступ к самой современной клинической информации. Такая модульная и масштабируемая архитектура позволяет осуществлять сложное диагностическое рассуждение, сохраняя при этом прослеживаемость и адаптивность. Мы оцениваем DeepRare на восьми наборах данных. Система демонстрирует выдающуюся диагностическую производительность для 2 919 заболеваний, достигая 100% точности для 1 013 заболеваний. В оценках на основе HPO DeepRare значительно превосходит 15 других методов, таких как традиционные биоинформатические диагностические инструменты, LLM и другие агентные системы, достигая среднего показателя Recall@1 в 57,18% и опережая второй лучший метод (Reasoning LLM) на значительные 23,79 процентных пункта. Для сценариев с мультимодальными входными данными DeepRare достигает 70,60% по Recall@1 по сравнению с 53,20% у Exomiser в 109 случаях. Ручная проверка цепочек рассуждений клиническими экспертами показывает 95,40% согласия. Кроме того, система DeepRare реализована в виде удобного веб-приложения http://raredx.cn/doctor.
Мы представляем FairyGen — автоматическую систему для создания сюжетных мультипликационных видео на основе одного детского рисунка, при этом точно сохраняя его уникальный художественный стиль. В отличие от предыдущих методов создания историй, которые в основном сосредоточены на согласованности персонажей и базовых движениях, FairyGen явно разделяет моделирование персонажей и генерацию стилизованных фонов, а также включает кинематографический дизайн кадров для поддержки выразительного и связного повествования. На основе одного наброска персонажа мы сначала используем MLLM для создания структурированного раскадровочного плана с описаниями на уровне кадров, которые определяют окружение, действия персонажей и ракурсы камеры. Для обеспечения визуальной согласованности мы вводим адаптер распространения стиля, который захватывает визуальный стиль персонажа и применяет его к фону, точно сохраняя полную визуальную идентичность персонажа при синтезе сцен, соответствующих стилю. Модуль дизайна кадров дополнительно повышает визуальное разнообразие и кинематографическое качество за счет кадрирования и синтеза многовидовых изображений на основе раскадровки. Для анимации истории мы воссоздаем 3D-модель персонажа, чтобы получить физически правдоподобные последовательности движений, которые затем используются для тонкой настройки модели преобразования изображения в видео на основе MMDiT. Мы также предлагаем двухэтапный адаптер настройки движений: на первом этапе извлекаются визуальные признаки из временно неупорядоченных кадров, разделяя идентичность и движение; на втором этапе моделируются временные динамики с использованием стратегии сдвига временных шагов с замороженными весами идентичности. После обучения FairyGen напрямую создает разнообразные и связные видео-сцены, соответствующие раскадровке. Многочисленные эксперименты демонстрируют, что наша система производит анимации, которые стилистически точны, имеют структурированное повествование и естественные движения, подчеркивая её потенциал для персонализированной и увлекательной анимации историй. Код будет доступен по адресу https://github.com/GVCLab/FairyGen.
Мы представляем Generative Blocks World для взаимодействия со сценой сгенерированного изображения путем манипуляции простыми геометрическими абстракциями. Наш метод представляет сцены как сборки выпуклых 3D-примитивов, причем одна и та же сцена может быть представлена разным количеством примитивов, что позволяет редактору перемещать как целые структуры, так и мелкие детали. После редактирования геометрии сцены изображение генерируется с использованием метода, основанного на потоке данных, который учитывает глубину и текстуру. Наша подсказка по текстуре учитывает модифицированные 3D-примитивы, превосходя согласованность текстур, обеспечиваемую существующими методами кэширования ключ-значение. Эти подсказки по текстуре (а) позволяют точно перемещать объекты и камеру и (б) в значительной степени сохраняют идентичность изображаемых объектов. Количественные и качественные эксперименты демонстрируют, что наш подход превосходит предыдущие работы по визуальной точности, редактируемости и композиционной обобщаемости.
Распределенное обучение базовых моделей, особенно крупных языковых моделей (LLM), требует высокого уровня коммуникации. Следовательно, оно сильно зависит от централизованного кластера с быстрыми и надежными соединениями. Возможно ли проводить обучение на медленных сетях и тем самым раскрыть потенциал децентрализованных кластеров при работе с моделями, превышающими 100 миллиардов параметров? В данной статье мы предлагаем DiLoCoX — низкокоммуникационную масштабируемую структуру для децентрализованного обучения в кластерах. Она сочетает в себе конвейерный параллелизм с политикой двойного оптимизатора, одношаговое перекрытие коммуникации и локального обучения, а также адаптивную схему сжатия градиентов. Такое сочетание значительно улучшает масштабируемость параметров и скорость предварительного обучения модели. Мы обосновываем преимущества одношагового перекрытия коммуникации и локального обучения, а также адаптивной схемы сжатия градиентов, с помощью теоретического анализа сходимости. Экспериментально мы демонстрируем, что DiLoCoX способен проводить предварительное обучение базовой модели с 107 миллиардами параметров в сети со скоростью 1 Гбит/с. По сравнению с классическим подходом AllReduce, DiLoCoX может достичь ускорения распределенного обучения в 357 раз при сохранении незначительного ухудшения сходимости модели. Насколько нам известно, это первая децентрализованная структура обучения, успешно примененная к моделям с более чем 100 миллиардами параметров.
В данной статье мы представляем DuaShepherd, новую структуру моделирования вознаграждения, которая интегрирует два взаимодополняющих сигнала вознаграждения: корректность и потенциал, чтобы улучшить математические способности рассуждения крупных языковых моделей (LLM). В то время как сигналы, основанные на корректности, подчеркивают выявление пошаговых ошибок, сигналы, основанные на потенциале, сосредоточены на вероятности достижения правильного итогового ответа. Мы разработали автоматизированный конвейер для создания крупномасштабного набора данных для моделирования вознаграждения с обоими сигналами. Была исследована унифицированная многоголовая архитектура для обучения двух моделей вознаграждения в рамках многозадачной настройки, демонстрируя преимущества параллельного изучения корректности и потенциала. Объединяя эти два сигнала в составную вероятность, наша модель достигает устойчивого улучшения производительности на нескольких тестовых наборах. Эмпирические оценки на MATH500 и ProcessBench подтверждают, что это комбинированное вознаграждение значительно превосходит модели, обученные на каждом типе вознаграждения по отдельности, достигая передовых результатов при сопоставимых ограничениях ресурсов.
Мы представляем MuseControlLite — легковесный механизм, предназначенный для тонкой настройки моделей генерации музыки из текста с целью точного управления с использованием различных временно-зависимых музыкальных атрибутов и эталонных аудиосигналов. Ключевой вывод заключается в том, что позиционные эмбеддинги, которые редко использовались в моделях генерации музыки из текста для обработки текстовых условий, становятся критически важными, когда условие зависит от времени. На примере управления мелодией наши эксперименты показывают, что простое добавление ротационных позиционных эмбеддингов в разделенные слои кросс-внимания повышает точность управления с 56,6% до 61,1%, при этом требуя в 6,75 раз меньше обучаемых параметров по сравнению с современными механизмами тонкой настройки, использующими ту же предобученную диффузионную трансформерную модель Stable Audio Open. Мы оцениваем различные формы управления музыкальными атрибутами, аудиоинпейнтинг и аудиоаутпейнтинг, демонстрируя улучшенную управляемость по сравнению с MusicGen-Large и Stable Audio Open ControlNet при значительно меньших затратах на тонкую настройку, с использованием всего 85 миллионов обучаемых параметров. Исходный код, контрольные точки модели и демонстрационные примеры доступны по адресу: https://musecontrollite.github.io/web/.
Эвристические алгоритмы играют ключевую роль в решении задач комбинаторной оптимизации (КО), однако традиционные подходы сильно зависят от экспертных знаний и с трудом обобщаются на разнообразные задачи. Мы представляем HeurAgenix — двухэтапный гипер-эвристический фреймворк, основанный на больших языковых моделях (LLM), который сначала развивает эвристики, а затем автоматически выбирает среди них. На этапе эволюции эвристик HeurAgenix использует LLM для сравнения начальных эвристических решений с решениями более высокого качества и извлечения повторно используемых стратегий эволюции. В процессе решения задач он динамически выбирает наиболее подходящую эвристику для каждого состояния задачи, руководствуясь способностью LLM к восприятию. Для гибкости этот селектор может быть либо современной LLM, либо оптимизированной легковесной моделью с меньшими вычислительными затратами. Чтобы компенсировать недостаток надежных данных для обучения из-за сложности задач КО, мы дообучаем легковесный селектор эвристик с использованием механизма двойного вознаграждения, который одновременно учитывает сигналы от предпочтений выбора и восприятия состояния, что позволяет обеспечить устойчивый выбор даже при наличии шума в аннотациях. Эксперименты на стандартных тестовых наборах данных показывают, что HeurAgenix не только превосходит существующие LLM-гипер-эвристики, но также соответствует или превосходит специализированные решатели. Код доступен по адресу https://github.com/microsoft/HeurAgenix.