Ежедневно отобранные исследовательские статьи по ИИ с переводами
Последние достижения в области диффузионной генерации видео открыли новые возможности для управляемого видеомонтажа, однако реалистичная вставка видеообъектов (VOI) остается сложной задачей из-за ограниченного понимания 4D-сцены и недостаточной обработки эффектов окклюзии и освещения. Мы представляем InsertAnywhere — новую платформу для VOI, которая обеспечивает геометрически согласованное размещение объектов и достоверный с точки зрения внешнего вида синтез видео. Наш метод начинается с модуля генерации 4D масок, который восстанавливает геометрию сцены и распространяет заданное пользователем размещение объекта между кадрами, сохраняя временную согласованность и окклюзионную целостность. На основе этого пространственного фундамента мы расширяем диффузионную модель генерации видео для совместного синтеза вставляемого объекта и локальных изменений в его окружении, таких как освещение и тени. Для обеспечения обучения с учителем мы представляем ROSE++ — учитывающий освещение синтетический датасет, созданный путем преобразования датасета удаления объектов ROSE в тройки: видео с удаленным объектом, видео с присутствующим объектом и эталонное изображение, сгенерированное VLM. В ходе обширных экспериментов мы демонстрируем, что наша платформа создает геометрически правдоподобные и визуально согласованные вставки объектов в различных реальных сценариях, значительно превосходя существующие исследовательские и коммерческие модели.
Люди понимают длинные и сложные тексты, опираясь на целостное семантическое представление содержания. Как показано в психологии концепцией ментальной репрезентации (Mindscape-Aware Capability), этот глобальный взгляд помогает организовать предшествующие знания, интерпретировать новую информацию и интегрировать доказательства, рассредоточенные по всему документу. Современные системы поисково-усиленного генерирования (Retrieval-Augmented Generation, RAG) лишены такого руководства и поэтому испытывают трудности с задачами, требующими учета длинного контекста. В данной статье мы предлагаем MiA-RAG (Mindscape-Aware RAG) — первый подход, который наделяет RAG-системы на основе больших языковых моделей явной осведомленностью о глобальном контексте. MiA-RAG строит ментальную репрезентацию с помощью иерархического суммаризации и основывает как поиск, так и генерацию на этом глобальном семантическом представлении. Это позволяет модулю поиска формировать обогащенные эмбеддинги запросов, а генератору — рассуждать над найденными доказательствами в рамках связного глобального контекста. Мы оцениваем MiA-RAG на различных бенчмарках для длинных контекстов и двуязычных задач, ориентированных на доказательное понимание и глобальное осмысление. Наш подход стабильно превосходит базовые методы, а дальнейший анализ показывает, что он согласует локальные детали с целостным глобальным представлением, обеспечивая более похожий на человеческий поиск и рассуждение в условиях длинного контекста.
Разработка GUI-агентов способна произвести революцию в следующем поколении человеко-компьютерного взаимодействия. Воодушевленные этой перспективой, мы представляем MAI-UI — семейство фоновых GUI-агентов, охватывающих весь спектр размеров, включая варианты на 2B, 8B, 32B и 235B-A22B. Мы выделяем четыре ключевые проблемы для практического внедрения: отсутствие нативного взаимодействия агента с пользователем, ограничения работы только с пользовательским интерфейсом, отсутствие практической архитектуры развертывания и хрупкость в динамических средах. MAI-UI решает эти проблемы с помощью единой методологии: саморазвивающийся конвейер данных расширяет навигационные данные, включая взаимодействие с пользователем и вызовы инструментов MCP; нативная система коллаборации "устройство-облако" маршрутизирует выполнение по состоянию задачи; а онлайн-фреймворк RL с продвинутыми оптимизациями позволяет масштабировать параллельные среды и длину контекста. MAI-UI устанавливает новые рекорды в областях GUI-граундинга и мобильной навигации. На бенчмарках граундинга он достигает 73.5% на ScreenSpot-Pro, 91.3% на MMBench GUI L2, 70.9% на OSWorld-G и 49.2% на UI-Vision, превосходя Gemini-3-Pro и Seed1.8 на ScreenSpot-Pro. В мобильной навигации по GUI он устанавливает новый рекорд в 76.7% на AndroidWorld, превосходя UI-Tars-2, Gemini-2.5-Pro и Seed1.8. На MobileWorld MAI-UI демонстрирует успешность 41.7%, значительно опережая end-to-end GUI-модели и конкурируя с агентскими фреймворками на основе Gemini-3-Pro. Наши эксперименты с онлайн-RL показывают значительный прирост от масштабирования параллельных сред с 32 до 512 (+5.2 пункта) и увеличения бюджета шагов среды с 15 до 50 (+4.3 пункта). Наконец, нативная система коллаборации "устройство-облако" улучшает производительность на устройстве на 33%, сокращает вызовы облачной модели более чем на 40% и сохраняет конфиденциальность пользователя.
Мультимодальные большие языковые модели (MLLM) достигли значительного прогресса в задачах визуального понимания, таких как визуальное позиционирование, сегментация и генерация подписей. Однако их способность воспринимать перцептуальные характеристики изображений остаётся ограниченной. В данной работе мы представляем UniPercept-Bench — унифицированную систему для перцептуального понимания изображений в трёх ключевых областях: эстетика, качество, структура и текстура. Мы разработали иерархическую систему определений и создали масштабные наборы данных для оценки перцептуального понимания изображений. На этой основе мы разработали сильную базовую модель UniPercept, обученную с помощью предметно-адаптивного предобучения и выравнивания задач через обучение с подкреплением, что обеспечивает устойчивую генерализацию как для задач визуального оценивания (VR), так и для визуального ответа на вопросы (VQA). UniPercept превосходит существующие MLLM в области перцептуального понимания изображений и может использоваться как plug-and-play модель вознаграждения для генерации изображений по тексту. Данная работа определяет понятие перцептуального понимания изображений в эпоху MLLM и, благодаря введению комплексного бенчмарка вместе с сильной базовой моделью, закладывает прочную основу для развития перцептуального мультимодального понимания изображений.
Инверсионное визуальное редактирование предоставляет эффективный и не требующий обучения способ редактирования изображений или видео на основе пользовательских инструкций. Существующие методы обычно внедряют информацию исходного изображения в процессе сэмплирования для сохранения согласованности редактирования. Однако данная стратегия сэмплирования чрезмерно полагается на исходную информацию, что негативно влияет на правки в целевом изображении (например, не удается изменить атрибуты объекта, такие как поза, количество или цвет, в соответствии с инструкцией). В данной работе мы предлагаем метод ProEdit для решения этой проблемы как на уровне внимания, так и на латентном уровне. На уровне внимания мы представляем KV-mix — метод смешивания KV-признаков исходного и целевого изображений в редактируемой области, что снижает влияние исходного изображения на зону редактирования при сохранении согласованности фона. На латентном уровне мы предлагаем Latents-Shift — метод возмущения редактируемой области исходного латентного представления, устраняющий влияние инвертированного латентного кода на процесс сэмплирования. Многочисленные эксперименты на нескольких наборах данных по редактированию изображений и видео демонстрируют, что наш метод достигает состояния искусства (SOTA). Кроме того, наша разработка является plug-and-play решением, которое может быть легко интегрировано в существующие инверсионные и редакционные методы, такие как RF-Solver, FireFlow и UniEdit.
Крупные языковые модели (LLM) все чаще развертываются в системах с жесткими временными ограничениями, таких как робототехника, автономное вождение, воплощенный искусственный интеллект и промышленная автоматизация, где генерация точных ответов в рамках заданного временного бюджета критически важна для принятия решений, управления или выполнения задач, связанных с безопасностью. Однако авторегрессионный процесс генерации LLM затрудняет моделирование и оценку сквозного времени выполнения. Более того, существующие методы эффективного вывода, основанные на фиксированном коэффициенте вытеснения кэша ключ-значение (KV), плохо адаптируются к различным задачам с разнородными временными бюджетами, где неподходящий коэффициент вытеснения может привести к неполному выводу или снижению качества ответа. В данной статье мы предлагаем TimeBill — новую архитектуру вывода для LLM с временным бюджетом, которая балансирует эффективность вывода и качество ответа. Если конкретнее, мы предлагаем мелкозернистый предиктор длины ответа (Response Length Predictor, RLP) и оценщик времени выполнения (Execution Time Estimator, ETE) для точного прогнозирования сквозного времени выполнения LLM. На основе этого мы разрабатываем метод эффективного вывода с временным бюджетом, который адаптивно регулирует коэффициент вытеснения KV-кэша на основе прогноза времени выполнения и заданного временного бюджета. Наконец, в ходе обширных экспериментов мы демонстрируем преимущества TimeBill в повышении процента завершения задач и сохранении качества ответа при различных стратегиях обработки превышения бюджета.
Крупные визуально-языковые модели (VLM) часто используют промежуточные визуальные подсказки, либо внедряемые через внешние инструменты, либо генерируемые в виде латентных визуальных токенов в процессе рассуждения. Однако эти механизмы по-прежнему игнорируют мелкозернистые визуальные свидетельства (например, полилинии на графиках), плохо обобщаются между доменами и требуют высоких вычислительных затрат на этапе вывода. В данной статье мы предлагаем двунаправленное перцептивное формирование (BiPS), которое преобразует маскированные представления, обусловленные вопросом, в двунаправленные сигналы «куда смотреть», формирующие восприятие в процессе обучения. BiPS сначала применяет ограничение KL-согласованности между исходным изображением и представлением, сохраняющим свидетельства, где остаются только релевантные для вопроса области, что способствует грубому, но полному охвату поддерживающих пикселей. Затем применяется ограничение KL-разделения между исходным изображением и представлением с удаленными свидетельствами, где критические пиксели маскируются так, что изображение больше не поддерживает исходный ответ, что препятствует текстовым сокращенным путям (т.е. ответам только на основе текста) и обеспечивает reliance на мелкозернистую визуальную информацию. На восьми бенчмарках BiPS повышает производительность Qwen2.5-VL-7B в среднем на 8.2% и демонстрирует сильную междоменную обобщающую способность на непредвиденных наборах данных и типах изображений.
Моделирование погоды требует как точного прогнозирования, так и механистической интерпретации, однако существующие методы рассматривают эти цели изолированно, разделяя генерацию и понимание. Для преодоления этого разрыва мы представляем Omni-Weather — первую мультимодальную базовую модель, объединяющую генерацию и анализ погодных данных в единой архитектуре. Omni-Weather интегрирует радарный энкодер для задач генерации погоды с последующей унифицированной обработкой с помощью общего механизма самовнимания. Кроме того, мы создали набор данных «Цепочка рассуждений» для причинно-следственного анализа в генерации погоды, что обеспечивает интерпретируемость результатов и повышает перцептивное качество. Многочисленные эксперименты показывают, что Omni-Weather достигает передовых результатов как в генерации, так и в анализе погодных данных. Наши результаты также свидетельствуют о взаимном усилении генеративных и аналитических задач в области метеорологии. Omni-Weather демонстрирует осуществимость и ценность объединения генерации и понимания погодных явлений.
Способность ИИ-агентов «мыслить образами» требует сложного сочетания рассуждений и восприятия. Однако современные открытые мультимодальные агенты по-прежнему в значительной степени отстают в аспекте рассуждений, критически важном для реальных задач, таких как анализ документов с насыщенными графиками/диаграммами и навигация по картам. Чтобы устранить этот пробел, мы представляем O3-Bench — новый эталонный набор, предназначенный для оценки мультимодальных рассуждений с чередующимся вниманием к визуальным деталям. O3-Bench включает сложные задачи, которые требуют от агентов сборки тонкой визуальной информации из различных областей изображения посредством многошаговых рассуждений. Эти задачи представляют высокую сложность даже для передовых систем, таких как OpenAI o3, которая достигает точности всего 40,8% на O3-Bench. Для прогресса в этой области мы предлагаем InSight-o3, мультиагентную структуру, состоящую из агента визуальных рассуждений (vReasoner) и агента визуального поиска (vSearcher), для которого мы вводим задачу обобщенного визуального поиска — локализации реляционных, нечетких или концептуальных областей, описанных на свободном языке, выходящего за рамки простых объектов или фигур на естественных изображениях. Далее мы представляем мультимодальную большую языковую модель, целенаправленно обученную для этой задачи с помощью обучения с подкреплением. Как plug-and-play агент, наш vSearcher усиливает передовые мультимодальные модели (в роли vReasoner), значительно улучшая их производительность на широком спектре тестов. Это представляет собой конкретный шаг к созданию мощных открытых систем, подобных o3. Наш код и набор данных доступны по адресу https://github.com/m-Just/InSight-o3.
Современные модели генерации видео по тексту демонстрируют значительный прогресс в области визуального реализма, правдоподобия движений и соответствия тексту и видео, однако их фундаментальные возможности по генерации социально-когерентного поведения остаются ограниченными. В отличие от людей, которые с легкостью выводят намерения, убеждения, эмоции и социальные нормы из кратких визуальных сигналов, современные модели склонны воспроизводить буквальные сцены, не улавливая лежащую в их основе причинно-следственную или психологическую логику. Для систематической оценки этого разрыва мы представляем первый бенчмарк для оценки социального мышления в генерации видео. Основываясь на выводах из областей психологии развития и социальной психологии, наш бенчмарк организует тридцать классических парадигм социального познания по семи ключевым измерениям, включая выводы о ментальных состояниях, целенаправленные действия, совместное внимание, социальную координацию, просоциальное поведение, социальные нормы и стратегии взаимодействия множества агентов. Для операционализации этих парадигм мы разработали полностью свободный от обучения агент-ориентированный конвейер, который (i) извлекает механизм рассуждений каждого эксперимента, (ii) синтезирует разнообразные сценарии, пригодные для генерации видео, (iii) обеспечивает концептуальную нейтральность и контроль сложности с помощью критики на основе сигналов и (iv) оценивает сгенерированные видео с использованием VLM-судии высокой мощности по пяти интерпретируемым измерениям социального мышления. Используя эту структуру, мы провели первое масштабное исследование семи передовых систем генерации видео. Наши результаты выявляют существенные пробелы в производительности: в то время как современные модели преуспевают в поверхностной правдоподобности, они систематически терпят неудачу в распознавании намерений, рассуждениях об убеждениях, совместном внимании и просоциальных выводах.
Обратная связь на основе выполнения, такая как модульное тестирование, широко используется при разработке кодирующих агентов с помощью масштабирования на этапе тестирования (TTS) и обучения с подкреплением (RL). Эта парадигма требует масштабируемого и надежного сбора тестовых случаев для обеспечения точной обратной связи, однако результирующая обратная связь часто является разреженной и не позволяет эффективно различать траектории, которые являются как успешными, так и неуспешными. В отличие от этого, обратная связь без выполнения (execution-free) от моделей вознаграждения может предоставлять более детальные сигналы без зависимости от модульных тестов. Несмотря на этот потенциал, обратная связь без выполнения для реалистичных агентов разработки программного обеспечения (SWE) остается малоизученной. Стремясь разработать универсальные модели вознаграждения, эффективные как для TTS, так и для RL, мы, однако, наблюдаем, что два верификатора с почти идентичной производительностью в TTS могут давать совершенно разные результаты в RL. Интуитивно, TTS в основном отражает способность модели выбирать лучшую траекторию, но эта способность не обязательно обобщается на RL. Чтобы устранить это ограничение, мы определяем два дополнительных аспекта, критически важных для обучения RL: точность классификации и калибровку. Затем мы проводим комплексные контролируемые эксперименты, чтобы исследовать, как обучить надежную модель вознаграждения, которая хорошо работает по этим метрикам. В частности, мы анализируем влияние различных факторов, таких как объем обучающих данных, смеси политик и состав источников данных. Руководствуясь этими исследованиями, мы представляем SWE-RM — точную и надежную модель вознаграждения, использующую архитектуру смеси экспертов (mixture-of-experts) с общим количеством параметров 30 млрд и 3 млрд активируемых параметров во время вывода. SWE-RM существенно улучшает показатели SWE-агентов как в TTS, так и в RL. Например, она повышает точность Qwen3-Coder-Flash с 51,6% до 62,0%, а Qwen3-Coder-Max — с 67,0% до 74,6% на SWE-Bench Verified при использовании TTS, достигая нового состояния искусства среди моделей с открытым исходным кодом.
Автоматическое создание презентационных слайдов может значительно упростить процесс разработки контента. Однако, поскольку предпочтения каждого пользователя могут различаться, существующие недостаточно специфицированные подходы часто приводят к субоптимальным результатам, не соответствующим индивидуальным потребностям пользователей. Мы представляем новую задачу генерации слайдов на основе научных статей с учётом предпочтений пользователя. Предлагаем вдохновлённую человеческим поведением агентную архитектуру SlideTailor, которая постепенно создаёт редактируемые слайды в соответствии с пользовательскими требованиями. Вместо необходимости формулировать предпочтения в виде подробного текстового описания, наша система запрашивает лишь пример пары "статья-слайды" и визуальный шаблон — естественные и легко предоставляемые артефакты, которые неявно кодируют богатые пользовательские предпочтения относительно содержания и визуального стиля. Несмотря на неявный и немаркированный характер этих входных данных, наш фреймворк эффективно выявляет и обобщает предпочтения для управления кастомизированной генерацией слайдов. Мы также представляем новый механизм chain-of-speech для согласования содержания слайдов с планируемой устной презентацией. Такое решение значительно повышает качество генерируемых слайдов и открывает возможности для последующих приложений, таких как видеопрезентации. Для поддержки этой новой задачи мы создали эталонный набор данных, отражающий разнообразные пользовательские предпочтения, с тщательно разработанными интерпретируемыми метриками для надёжной оценки. Масштабные эксперименты демонстрируют эффективность нашего подхода.
В данной статье представлен новый передовой алгоритм точного умножения матриц 3×3 над произвольными некоммутативными кольцами, достигающий схемы ранга 23 всего с 58 скалярными сложениями. Это улучшает предыдущий лучший показатель аддитивной сложности в 60 сложений без изменения базиса. Результат был обнаружен с помощью автоматизированного поиска, сочетающего исследование тернарно-ограниченного графа переворотов с жадной редукцией пересечений для устранения общих подвыражений. Полученная схема использует только коэффициенты из множества {-1, 0, 1}, обеспечивая как эффективность, так и переносимость на произвольные поля. Общее количество скалярных операций сокращено с 83 до 81.
Крупные модели рассуждений (LRM) обычно обучаются с использованием обучения с подкреплением с верифицируемой наградой (RLVR) для улучшения их способностей к рассуждению. В этой парадигме политики обновляются с использованием как позитивных, так и негативных самостоятельно сгенерированных траекторий (rollouts), которые соответствуют различной полярности выборок. В данной статье мы проводим систематическое исследование того, как эта полярность выборок влияет на динамику обучения и поведение в RLVR. Мы обнаруживаем, что позитивные выборки заостряют существующие корректные паттерны рассуждений, в то время как негативные выборки стимулируют исследование новых путей рассуждений. Мы также исследуем, как корректировка значений преимущества (advantage) для позитивных и негативных выборок как на уровне выборки, так и на уровне токена влияет на обучение RLVR. На основе этих наблюдений мы предлагаем метод адаптивного и асимметричного формирования преимущества на уровне токенов для оптимизации политики, названный A3PO, который более точно распределяет сигналы преимущества между ключевыми токенами для разных полярностей. Эксперименты на пяти тестовых наборах для проверки рассуждений демонстрируют эффективность нашего подхода.