Ежедневно отобранные исследовательские статьи по ИИ с переводами
Дистиллированные авторегрессионные (AR) модели видео позволяют эффективно генерировать потоковое видео, но часто не соответствуют визуальным предпочтениям человека. Существующие фреймворки обучения с подкреплением (RL) не подходят для этих архитектур естественным образом, как правило, требуя либо дорогостоящей повторной дистилляции, либо оптимизации обратного процесса, сопряженной с решателем, что влечет значительные накладные расходы по памяти и вычислениям. Мы представляем Astrolabe — эффективный онлайн-фреймворк RL, разработанный специально для дистиллированных AR-моделей. Чтобы преодолеть существующие узкие места, мы вводим формулировку RL для прямого процесса на основе негативно-осознанной тонкой настройки. Сопоставляя позитивные и негативные сэмплы непосредственно в конечных точках вывода, этот подход устанавливает неявное направление улучшения политики без необходимости развертывания обратного процесса. Для масштабирования этого согласования на длинные видео мы предлагаем схему потокового обучения, которая постепенно генерирует последовательности с помощью скользящего KV-кэша, применяя RL-обновления исключительно к локальным клип-окнам, одновременно conditioning на предшествующий контекст для обеспечения долгосрочной связности. Наконец, для снижения риска взлома функции вознаграждения мы интегрируем многокритериальную целевую функцию, стабилизированную с помощью селективной регуляризации с учетом неопределенности и динамических обновлений референсов. Многочисленные эксперименты демонстрируют, что наш метод последовательно улучшает качество генерации для различных дистиллированных AR-моделей видео, выступая в качестве надежного и масштабируемого решения для согласования.
Мультимодальные языковые модели (VLM) демонстрируют мощные мультимодальные способности, но по-прежнему испытывают трудности с тонким визуально-языковым рассуждением. Мы обнаружили, что длинные цепочки рассуждений (CoT) выявляют разнообразные типы ошибок, включая ошибки восприятия, логики, знаний и галлюцинаций, которые могут накапливаться на промежуточных шагах. Однако большинство существующих визуально-языковых данных, используемых для RLVR, не включают сложные цепочки рассуждений, последовательно опирающиеся на визуальные свидетельства, что оставляет эти слабости в основном непроявленными. Поэтому мы предлагаем HopChain — масштабируемую структуру для синтеза многошаговых данных визуально-языкового рассуждения, специально предназначенных для обучения VLMs методом RLVR. Каждый синтезированный многошаговый запрос формирует логически зависимую цепочку конкретных шагов, где предыдущие шаги устанавливают экземпляры, множества или условия, необходимые для последующих шагов, в то время как окончательный ответ остается конкретным, однозначным числом, пригодным для верифицируемого вознаграждения. Мы добавляем многошаговые данные, синтезированные HopChain, к исходным данным RLVR, использовавшимся для обучения моделей Qwen3.5-35B-A3B и Qwen3.5-397B-A17B, и сравниваем их с RLVR только на исходных данных по 24 тестам, охватывающим STEM и головоломки, общие VQA, распознавание текста и понимание документов, а также понимание видео. Хотя эти многошаговые данные не синтезировались для targeting конкретных тестов, их добавление улучшает результаты в 20 из 24 тестов для обеих моделей, что указывает на широкий и обобщаемый выигрыш. Чтобы продемонстрировать важность полных цепочек запросов, мы заменяем их на полу-многошаговые или одношаговые варианты, что снижает среднюю точность по 24 тестам на 5.3 и 7.0 пунктов соответственно. Многошаговое обучение также усиливает длинное визуально-языковое рассуждение CoT, с максимальным приростом точности более чем на 50 пунктов в режиме сверхдлинного CoT. Эти эксперименты подтверждают, что HopChain является эффективной и масштабируемой структурой для синтеза многошаговых данных, которые улучшают обобщаемое визуально-языковое рассуждение.
Модели "визуальный язык" (VLM) показали перспективность в области дистанционного зондирования Земли (ДЗЗ), однако они испытывают трудности с задачами, требующими привязки сложных пространственных рассуждений к точным пиксельным визуальным представлениям. Для решения этой проблемы мы представляем TerraScope — унифицированную VLM, которая обеспечивает пиксельно-обоснованное геопространственное рассуждение благодаря двум ключевым возможностям: (1) модально-гибкое рассуждение: модель обрабатывает входные данные одной модальности (оптические или РЛС-данные) и адаптивно объединяет разные модальности в процесс рассуждения, когда обе доступны; (2) многовременное рассуждение: модель интегрирует временные последовательности для анализа изменений в нескольких временных точках. Кроме того, мы создали Terra-CoT, крупномасштабный набор данных, содержащий 1 миллион образцов с пиксельными масками, встроенными в цепочки рассуждений из различных источников. Мы также предлагаем TerraScope-Bench, первый эталонный тест для пиксельно-обоснованного геопространственного рассуждения с шести подзадачами, который оценивает как точность ответа, так и качество маски для обеспечения подлинного пиксельно-обоснованного рассуждения. Эксперименты показывают, что TerraScope значительно превосходит существующие VLM в задачах пиксельно-обоснованного геопространственного рассуждения, одновременно предоставляя интерпретируемые визуальные доказательства.
Самоулучшающиеся системы искусственного интеллекта направлены на снижение зависимости от человеческого инжиниринга путем обучения самостоятельному совершенствованию процессов обучения и решения задач. Существующие подходы к самоулучшению опираются на фиксированные, созданные вручную метауровневые механизмы, что принципиально ограничивает скорость улучшения таких систем. Машина Дарвина-Гёделя (DGM) демонстрирует неограниченное самоулучшение в области программирования путем многократного генерирования и оценки самоизменяющихся вариантов. Поскольку и оценка, и самомодификация являются задачами программирования, успехи в способности к программированию могут трансформироваться в улучшение способности к самоулучшению. Однако эта согласованность, как правило, не сохраняется за пределами доменов программирования. Мы представляем гиперагентов — самоссылающихся агентов, которые интегрируют рабочего агента (решающего целевую задачу) и мета-агента (модифицирующего себя и рабочего агента) в единую редактируемую программу. Ключевым моментом является то, что процедура модификации на метауровне сама является редактируемой, что позволяет осуществлять метакогнитивную самомодификацию, улучшая не только поведение при решении задач, но и механизм, генерирующий будущие улучшения. Мы реализуем эту структуру, расширяя DGM для создания DGM-Гиперагентов (DGM-H), устраняя предположение о доменно-специфической согласованности между производительностью задачи и навыком самомодификации, что потенциально может поддерживать самоускоряющийся прогресс в любой вычислимой задаче. В различных доменах DGM-H со временем улучшает производительность и превосходит базовые методы без самоулучшения или неограниченного исследования, а также предыдущие самоулучшающиеся системы. Более того, DGM-H улучшает процесс генерации новых агентов (например, постоянная память, отслеживание производительности), и эти улучшения на метауровне переносятся между доменами и накапливаются в ходе различных запусков. DGM-Гиперагенты предлагают glimpse неограниченных ИИ-систем, которые не просто ищут лучшие решения, но постоянно улучшают свой поиск способов улучшения.
Эффективное сотрудничество начинается с понимания, когда необходимо обратиться за помощью. Например, при попытке идентифицировать загороженный объект человек попросит кого-нибудь убрать препятствие. Способны ли MLLM проявить аналогичное «проактивное» поведение, запрашивая простые вмешательства пользователя? Чтобы исследовать это, мы представляем ProactiveBench — бенчмарк, созданный на основе семи перепрофилированных наборов данных, который тестирует проактивность в различных задачах, таких как распознавание закрытых объектов, улучшение качества изображения и интерпретация грубых набросков. Мы оценили 22 MLLM на ProactiveBench и показали, что: (i) им в целом не хватает проактивности; (ii) проактивность не коррелирует с мощностью модели; (iii) «намёки» на проактивность дают лишь незначительное улучшение. Неожиданно мы обнаружили, что история диалога и обучение в контексте создают негативные смещения, ухудшая результаты. Наконец, мы исследуем простую стратегию тонкой настройки на основе обучения с подкреплением: её результаты позволяют предположить, что проактивности можно обучить, причём даже с обобщением на ранее не встречавшиеся сценарии. Мы публично выпускаем ProactiveBench в качестве первого шага к созданию проактивных мультимодальных моделей.
Крупные языковые модели (LLM) все чаще используются как универсальные системы для рассуждений, однако длинные входные данные по-прежнему упираются в ограничение фиксированного контекстного окна. Рекурсивные языковые модели (RLM) решают эту проблему, экстернализируя промпт и рекурсивно решая подзадачи. Однако существующие RLM зависят от неограниченного цикла «чтение-вычисление-печать» (REPL), в рамках которого модель генерирует произвольный управляющий код, что затрудняет верификацию, прогнозирование и анализ выполнения. Мы представляем λ-RLM — фреймворк для рассуждений в длинном контексте, который заменяет свободную генерацию рекурсивного кода на типизированную функциональную среду выполнения, основанную на λ-исчислении. Она исполняет компактную библиотеку предварительно верифицированных комбинаторов и использует нейросетевой вывод только для ограниченных терминальных подзадач, превращая рекурсивные рассуждения в структурированную функциональную программу с явным потоком управления. Мы показываем, что λ-RLM допускает формальные гарантии, отсутствующие в стандартных RLM, включая завершаемость, замкнутые оценки вычислительной сложности, контролируемое масштабирование точности с глубиной рекурсии и оптимальное правило разбиения в рамках простой стоимостной модели. Эмпирически, на четырех задачах рассуждений в длинном контексте и девяти базовых моделях, λ-RLM превосходит стандартную RLM в 29 из 36 сравнений «модель-задача», повышает среднюю точность до +21.9 пункта across различным уровням моделей и снижает задержку до 4.1 раза. Эти результаты демонстрируют, что типизированное символьное управление обеспечивает более надежную и эффективную основу для рассуждений в длинном контексте, чем свободная генерация рекурсивного кода. Полная реализация λ-RLM имеет открытый исходный код для сообщества по адресу: https://github.com/lambda-calculus-LLM/lambda-RLM.
Генерация сцен имеет широкое промышленное применение, требуя как высокой реалистичности, так и точного контроля над геометрией и внешним видом. Методы, основанные на языковом поиске, создают правдоподобные сцены из обширной базы данных объектов, но игнорируют объектно-ориентированный контроль и часто не обеспечивают согласованность стиля на уровне сцены. Графовые подходы обеспечивают более высокую управляемость объектами и информируют о целостной согласованности за счет явного моделирования отношений, однако существующие методы не позволяют получать текстурированные результаты высокой точности, что ограничивает их практическую полезность. Мы представляем FlowScene — трехкомпонентную генеративную модель сцен, управляемую мультимодальными графами, которая совместно генерирует планировки сцен, формы объектов и их текстуры. В ее основе лежит тесно связанная модель выпрямленного потока, которая обменивается информацией об объектах в процессе генерации, обеспечивая совместное рассуждение на графе. Это позволяет осуществлять детальный контроль форм, текстур и отношений объектов, одновременно обеспечивая согласованность стиля на уровне сцены как в структуре, так и во внешнем виде. Многочисленные эксперименты показывают, что FlowScene превосходит базовые методы, управляемые как языком, так и графами, по реалистичности генерации, согласованности стиля и соответствию предпочтениям человека.
Последние достижения в области диффузионных моделей значительно улучшили генерацию видео из текста, обеспечивая создание персонализированного контента с детализированным контролем как переднего, так и фонового плана. Однако точное согласование лицевых атрибутов между объектами остаётся сложной задачей, поскольку существующие методы не имеют явных механизмов для обеспечения внутригрупповой согласованности. Для решения этой проблемы требуются как стратегии явного моделирования, так и ресурсы данных с учётом лицевых атрибутов. Мы предлагаем LumosX — фреймворк, развивающий как данные, так и архитектуру моделей. Со стороны данных специализированный пайплайн организует подписи и визуальные маркеры из независимых видео, в то время как мультимодальные большие языковые модели выводят и назначают зависимости, специфичные для объектов. Эти извлечённые реляционные априоры накладывают более детализированную структуру, усиливающую выразительный контроль персонализированной генерации видео и позволяющую построить комплексный бенчмарк. Со стороны моделирования Relational Self-Attention и Relational Cross-Attention переплетают позиционно-чувствительные эмбеддинги с усовершенствованной динамикой внимания для явного кодирования зависимостей «объект-атрибут», обеспечивая дисциплинированную сплочённость внутри групп и усиливая разделение между различными кластерами объектов. Комплексные оценки на нашем бенчмарке демонстрируют, что LumosX достигает передовых результатов в детализированной, идентично-согласованной и семантически выровненной персонализированной генерации видео с множеством объектов. Код и модели доступны по адресу https://jiazheng-xing.github.io/lumosx-home/.
Метод Chain-of-Thought (CoT) повышает точность больших языковых моделей (LLM) на сложных задачах, но часто увеличивает использование токенов и стоимость вывода. Существующие методы «бюджетного принуждения» (Budget Forcing), снижающие затраты путем дообучения с эвристическими штрафами за длину, подавляют как важные рассуждения, так и избыточные элементы. Мы переосмысливаем эффективное рассуждение как задачу сжатия с потерями в рамках принципа Информационного Бутылочного Горлышка (IB) и выявляем ключевой теоретический пробел при применении наивного IB к трансформерам: механизм внимания нарушает марковское свойство между промптом, трассой рассуждений и ответом. Чтобы решить эту проблему, мы моделируем генерацию CoT в рамках принципа Условного Информационного Бутылочного Горлышка (CIB), где трасса рассуждений Z выступает в качестве вычислительного моста, содержащего только ту информацию об ответе Y, которая не доступна напрямую из промпта X. Это приводит к общей задаче Обучения с Подкреплением: максимизировать награду за решение задачи, одновременно сжимая завершения при наличии априорного распределения над трассами рассуждений, что включает распространенные эвристики (например, штрафы за длину) как частные случаи (например, равномерные априорные распределения). В отличие от наивных подходов, основанных на подсчете токенов, мы вводим семантическое априорное распределение, которое измеряет стоимость токена через surprisal (неожиданность) относительно априорной языковой модели. Экспериментально наша цель CIB устраняет когнитивную избыточность, сохраняя беглость и логичность, повышая точность при умеренном сжатии и позволяя агрессивное сжатие с минимальным падением точности.
Агенты на основе больших языковых моделей (LLM) стали мощными автономными контроллерами для цифровых сред, включая мобильные интерфейсы, операционные системы и веб-браузеры. Веб-навигация, например, требует обработки динамического контента и длинных последовательностей действий, что делает ее особенно сложной задачей. Существующие LLM-агенты сталкиваются с проблемами в долгосрочном планировании двумя основными способами. Во время онлайн-выполнения они часто теряют ориентацию по мере поступления новой информации, не имея четкого и адаптивного пути к конечной цели. Эта проблема усугубляется в процессе тонкой настройки с подкрепляющим обучением (RL), где разреженные и отсроченные вознаграждения затрудняют для агентов идентификацию действий, ведущих к успеху, что мешает им поддерживать последовательные рассуждения в ходе продолжительных задач. Для решения этих проблем мы предлагаем два подхода. Во-первых, мы представляем архитектуру агента, которая использует проприетарные модели для онлайн-планирования через декомпозицию подцелей. Во-вторых, мы представляем MiRA (Milestoning your Reinforcement Learning Enhanced Agent) — фреймворк для RL-обучения, использующий плотные reward-сигналы на основе вех. Механизм планирования в реальном времени улучшает проприетарные модели, такие как Gemini, примерно на 10% в абсолютном выражении по показателю успешности (SR) в бенчмарке WebArena-Lite. В то же время применение MiRA к открытой модели Gemma3-12B повышает ее успешность с 6,4% до 43,0%. Этот результат превосходит показатели проприетарных систем, таких как GPT-4-Turbo (17,6%) и GPT-4o (13,9%), а также предыдущего передового открытого решения WebRL (38,4%). В целом, наши результаты демонстрируют, что сочетание явного планирования на этапе логического вывода с вознаграждениями на основе вех значительно улучшает способности агента к долгосрочному планированию, прокладывая путь к созданию более надежных и универсальных автономных систем.
В последние годы управляемая генерация видео достигла значительного прогресса. Однако редактирование действий и динамических событий или вставка содержимого, которое должно влиять на поведение других объектов в реальных видео, остаются серьезной проблемой. Существующие обученные модели испытывают трудности со сложными правками, вероятно, из-за сложности сбора релевантных обучающих данных. Аналогично, существующие методы, не требующие обучения, по своей сути ограничены правками, сохраняющими структуру и движение, и не поддерживают модификацию движения или взаимодействий. В данной работе мы представляем DynaEdit — метод редактирования видео, не требующий обучения, который раскрывает широкие возможности редактирования с помощью предварительно обученных потоковых моделей «текст-видео». Наш метод опирается на недавно представленный подход без инверсии, который не вмешивается во внутреннюю структуру модели и, следовательно, является модельно-агностичным. Мы показываем, что наивная попытка адаптировать этот подход к общему неограниченному редактированию приводит к серьезному низкочастотному рассогласованию и высокочастотному дрожанию. Мы объясняем источники этих явлений и вводим новые механизмы для их преодоления. В ходе обширных экспериментов мы демонстрируем, что DynaEdit достигает передовых результатов в сложных задачах редактирования видео на основе текста, включая изменение действий, вставку объектов, взаимодействующих со сценой, и введение глобальных эффектов.
Петлевые языковые модели (LoopLM) выполняют итеративные латентные вычисления для уточнения внутренних представлений, предлагая перспективную альтернативу явному рассуждению по цепочке мыслей (CoT). Однако существующие парадигмы обучения с подкреплением (RL) в основном нацелены на выходные токены, что создает структурное несоответствие с петлевыми архитектурами, чье рассуждение разворачивается неявно. В данной работе мы предлагаем LoopRPT — фреймворк претренинга с подкреплением, разработанный специально для LoopLM. Переформулируя предсказание следующего токена как задачу рассуждения о следующем токене, LoopRPT назначает сигналы подкрепления непосредственно латентным шагам с использованием эталонного учителя на основе скользящего среднего (EMA) и зашумленных латентных прогонов. Такая формулировка позволяет RL напрямую формировать промежуточные представления, сжимая эффективное рассуждение в меньшее количество итераций. Мы реализуем LoopRPT на архитектуре Ouro для моделей различных масштабов. Результаты показывают, что LoopRPT последовательно улучшает качество представлений на каждом шаге, достигая парето-доминирования в компромиссах между точностью и вычислениями. Примечательно, что значительный прирост на сложных токенах указывает, что LoopRPT улучшает рассуждение на ранних стадиях, а не просто поощряет преждевременный выход. Наши результаты подчеркивают претренинг с подкреплением как принципиальную парадигму для обучения эффективному латентному рассуждению в петлевых моделях.
Крупные языковые модели часто испытывают трудности со сложными аналитическими задачами длительного горизонта для неструктурированных таблиц, которые обычно характеризуются иерархическими и двунаправленными заголовками, а также неканоническим расположением данных. Мы формализуем эту проблему как Глубокое Табличное Исследование (DTR), требующее многошаговых рассуждений над взаимозависимыми областями таблицы. Для решения задачи DTR мы предлагаем новую агентную архитектуру, которая рассматривает табличные рассуждения как процесс принятия решений в замкнутом контуре. Мы тщательно проектируем связанное понимание запроса и таблицы для принятия решений о пути и операционного выполнения. Конкретно: (i) DTR сначала строит иерархический мета-граф для захвата двунаправленной семантики, отображая естественно-языковые запросы в пространство поиска на уровне операций; (ii) Для навигации в этом пространстве мы вводим стратегию выбора, учитывающую ожидания, которая расставляет приоритеты путям выполнения с высокой полезностью; (iii) Ключевым моментом является то, что результаты исторического выполнения синтезируются в сиамскую структурированную память, то есть параметризованные обновления и абстрагированные тексты, что позволяет осуществлять непрерывное уточнение. Обширные эксперименты на сложных эталонах для неструктурированных таблиц подтверждают эффективность и подчеркивают необходимость разделения стратегического планирования и низкоуровневого выполнения для табличных рассуждений длительного горизонта.
Обладая впечатляющей способностью генерировать высококачественные изображения, двумерные фундаментальные модели поднимают фундаментальный вопрос: присущи ли им изначально возможности моделирования трехмерного мира? Для ответа на него мы систематически оцениваем современные модели генерации изображений и Vision-Language Models (VLM) на задаче синтеза 3D-сцен. Чтобы раскрыть и оценить их потенциальные скрытые 3D-способности, мы предлагаем агентский подход для облегчения генерации трехмерных миров. Наша методология использует многоагентную архитектуру: VLM-режиссера, формулирующего промпты для управления синтезом изображений; генератора, создающего новые ракурсы; и двухэтапного VLM-верификатора, который оценивает и выборочно курирует сгенерированные кадры как в 2D-изображениях, так и в 3D-реконструкциях. Ключевым результатом является демонстрация того, что наш агентский подход обеспечивает согласованную и устойчивую 3D-реконструкцию, создавая сцены, пригодные для навигации через рендеринг новых ракурсов. Многочисленные эксперименты с различными фундаментальными моделями подтверждают, что 2D-модели действительно содержат представление о трехмерных мирах. Используя это понимание, наш метод успешно синтезирует масштабные, реалистичные и 3D-согласованные среды.
Экспоненциальное расширение контекстных окон в больших языковых моделях (LLM) открыло возможности для понимания длинных документов, но привело к серьезным проблемам с задержкой вывода и использованием информации. Существующие методы сжатия часто страдают от высоких затрат на обучение или семантической фрагментации из-за агрессивного удаления токенов. В данной статье мы предлагаем BEAVER — новую бесплатную для обучения структуру, которая переносит сжатие с линейного удаления токенов на иерархический отбор с учетом структуры. BEAVER максимизирует аппаратный параллелизм, преобразуя контексты переменной длины в плотные тензоры уровня страниц с помощью двунаправленного пулинга, и сохраняет целостность дискурса через гибридный планировщик, сочетающий семантический и лексический двунаправленный отбор со сглаживанием предложений. Обширные оценки на четырех эталонах длинного контекста показывают, что BEAVER демонстрирует сопоставимую производительность с передовыми методами, такими как LongLLMLingua. Примечательно, что на эталоне RULER BEAVER сохраняет высокую точность при многоигольчатом поиске, где базовые методы ухудшаются. В плане эффективности BEAVER сокращает задержку в 26,4 раза на контекстах длиной 128 тыс. токенов, предлагая масштабируемое решение для высокопроизводительных приложений. Наш код доступен по адресу https://cslikai.cn/BEAVER/.
Распространенная гипотеза, объясняющая превосходство генеративных моделей рекомендаций (GR) над традиционными моделями на основе ID товаров, заключается в их лучшей способности к обобщению. Однако существует мало систематических способов проверить эту гипотезу помимо поверхностного сравнения общей производительности. Чтобы заполнить этот пробел, мы классифицируем каждый экземпляр данных на основе конкретной способности, необходимой для корректного прогноза: либо запоминание (повторное использование паттернов переходов между товарами, наблюдавшихся во время обучения), либо обобщение (комбинирование известных паттернов для прогнозирования ненаблюдавшихся переходов). Масштабные эксперименты показывают, что модели GR работают лучше на экземплярах, требующих обобщения, тогда как модели на основе ID товаров превосходят их, когда более важно запоминание. Чтобы объяснить это расхождение, мы переносим анализ с уровня товаров на уровень токенов и показываем, что то, что выглядит как обобщение на уровне товаров, часто сводится к запоминанию на уровне токенов для моделей GR. Наконец, мы демонстрируем, что две парадигмы дополняют друг друга. Мы предлагаем простой индикатор, учитывающий запоминание, который адаптивно комбинирует их для каждого отдельного экземпляра, что приводит к улучшению общей производительности рекомендательной системы.
Генеративные мировые модели продемонстрировали потенциал для моделирования динамических сред, однако эгоцентрическое видео остается сложной задачей из-за быстрой смены точек обзора, частых взаимодействий рук с объектами и целенаправленных процедур, ход которых зависит от латентного человеческого намерения. Существующие подходы либо сосредоточены на синтезе инструкций с центрированием на руках при ограниченной эволюции сцены, либо выполняют трансляцию статического вида без моделирования динамики действий, либо полагаются на плотную разметку, такую как траектории камеры, длинные видео-префиксы, синхронизированную многокамерную съемку и т.д. В данной работе мы представляем EgoForge — симулятор эгоцентрического целенаправленного мира, который генерирует согласованные ролики видео от первого лица на основе минимальных статических входных данных: одного эгоцентрического изображения, высокоуровневой инструкции и опционального вспомогательного экзоцентрического вида. Для улучшения соответствия намерению и временной согласованности мы предлагаем VideoDiffusionNFT, метод рефинмента на уровне траектории с управляемым вознаграждением, который оптимизирует достижение цели, временную причинность, согласованность сцены и перцептивное качество в процессе сэмплирования диффузионной модели. Многочисленные эксперименты показывают, что EgoForge достигает последовательного улучшения в семантическом соответствии, геометрической стабильности и достоверности движения по сравнению с сильными базовыми методами, а также демонстрирует robustную производительность в экспериментах с реальными умными очками.
Решение задач вопросно-ответных систем для длинных видео требует анализа протяженных временных контекстов, что делает выбор ключевых кадров критически важным для больших языково-визуальных моделей (LVLM), ограниченных конечными окнами контекста. Существующие методы сталкиваются с резким компромиссом: селекторы на основе схожести работают быстро, но сворачивают композиционные запросы в единый плотный вектор, теряя порядок под-событий и кросс-модальные связи; агентские методы восстанавливают эту структуру за счет итеративных выводов LVLM, но неприемлемо дороги. Мы представляем HiMu, беспарадигменную систему, устраняющую этот разрыв. Единственный вызов текстовой LLM декомпозирует запрос в иерархическое логическое дерево, листья которого являются атомарными предикатами, каждый из которых направляется к легковесному эксперту, охватывающему визуальную (CLIP, детекция с открытым словарем, OCR) и аудио (ASR, CLAP) модальности. Полученные сигналы нормализуются, временно сглаживаются для согласования различных модальностей и компонуются снизу вверх через операторы нечеткой логики, обеспечивающие временную последовательность и смежность, формируя непрерывную кривую удовлетворения запроса. Оценки на Video-MME, LongVideoBench и HERBench-Lite показывают, что HiMu продвигает Парето-фронт эффективности-точности: при 16 кадрах с Qwen3-VL 8B он превосходит все конкурирующие селекторы, а с GPT-4o превосходит агентские системы, работающие с 32-512 кадрами, требуя при этом примерно в 10 раз меньше FLOPs.
В настоящее время сложно проводить дистилляцию дискретных диффузионных моделей. В отличие от этого, в литературе по непрерывной диффузии существует множество методов дистилляции, которые позволяют сократить количество шагов выборки до нескольких. Наш метод, Discrete Moment Matching Distillation (D-MMD), использует идеи, доказавшие свою высокую эффективность в непрерывной области. В то время как предыдущие методы дискретной дистилляции дают сбой, D-MMD сохраняет высокое качество и разнообразие (при достаточном количестве шагов выборки). Это продемонстрировано на наборах данных как для текста, так и для изображений. Более того, вновь полученные в результате дистилляции генераторы могут превосходить по характеристикам свои исходные модели-учителя.
Поведенческое обучение (ПО) стало стандартной парадигмой для пост-обучения и согласования больших языковых моделей (БЯМ), однако недавние данные свидетельствуют о существовании устойчивого «потолка возможностей»: в отличие от классических систем ПО, которые открывают новые стратегии, ПО для БЯМ часто выступает лишь в роли уточняющего инструмента для паттернов, уже заложенных в предварительно обученных весах. В данной работе мы выявляем фундаментальное структурное ограничение: в то время как классическое ПО опирается на компактные, информативные марковские состояния, современные подходы к пост-обучению БЯМ привязаны к постоянно расширяющейся истории действий. Мы возвращаемся к классическому принципу, долгое время бывшему центральным для ПО, но отсутствующему в пост-обучении БЯМ: явным марковским состояниям. Теоретически мы предоставляем строгие гарантии, демонстрирующие, что использование оцененных марковских состояний может значительно снизить сложность выборки. Экспериментально мы показываем, что введение марковских состояний последовательно преодолевает границы производительности стандартного ПО при пост-обучении на наборе сложных логических задач. Наши результаты позволяют предположить, что переход от моделирования «истории-как-состояния» к структурированным марковским представлениям необходим для раскрытия открытых discovery-процессов и подлинно новых рассуждений в генеративном искусственном интеллекте.
Наука о данных играет ключевую роль в преобразовании сложных данных в практические выводы в различных областях. Последние достижения в области больших языковых моделей (LLM) и агентов искусственного интеллекта (ИИ) значительно автоматизировали рабочий процесс в data science. Однако до сих пор неясно, в какой степени ИИ-агенты могут соответствовать производительности экспертов-людей в предметно-ориентированных задачах науки о данных и в каких аспектах человеческая экспертиза продолжает сохранять преимущества. Мы представляем AgentDS — эталонный тест и конкурс, предназначенные для оценки производительности как ИИ-агентов, так и коллаборации человека и ИИ в предметно-ориентированной data science. AgentDS включает 17 задач из шести отраслей: коммерция, производство продуктов питания, здравоохранение, страхование, производство и розничный банкинг. Мы провели открытый конкурс с участием 29 команд и 80 участников, что позволило провести систематическое сравнение подходов к совместной работе человека и ИИ с базовыми уровнями, использующими только ИИ. Наши результаты показывают, что современные ИИ-агенты испытывают трудности с предметно-ориентированными рассуждениями. Базовые уровни на основе только ИИ показывают результаты близкие к медианным или ниже результатов участников конкурса, в то время как наиболее сильные решения возникают в результате коллаборации человека и ИИ. Эти результаты оспаривают нарратив о полной автоматизации с помощью ИИ и подчеркивают непреходящую важность человеческой экспертизы в науке о данных, одновременно указывая направления для развития следующего поколения ИИ. Посетите сайт AgentDS здесь: https://agentds.org/ и наборы данных с открытым исходным кодом здесь: https://huggingface.co/datasets/lainmn/AgentDS.
Мы исследуем синтез стратегий с помощью больших языковых моделей (LLM): использование LLM для итеративной генерации программных стратегий агентов в многопользовательских средах. Вместо обучения нейросетевых стратегий с помощью обучения с подкреплением, наша система предлагает LLM генерировать Python-функции стратегий, оценивает их в режиме самообучения и уточняет их на основе обратной связи о производительности в ходе итераций. Мы исследуем инженерию обратной связи (дизайн информации об оценке, предоставляемой LLM на этапе уточнения), сравнивая разреженную обратную связь (только скалярное вознаграждение) с плотной обратной связью (вознаграждение плюс социальные метрики: эффективность, равенство, устойчивость, мир). В двух канонических последовательных социальных дилеммах (Gathering и Cleanup) и на двух передовых LLM (Claude Sonnet 4.6, Gemini 3.1 Pro) плотная обратная связь стабильно соответствует или превосходит разреженную по всем метрикам. Наибольшее преимущество наблюдается в игре с общественными благами Cleanup, где предоставление социальных метрик помогает LLM калибровать затратный компромисс между очисткой и сбором ресурсов. Вместо того чтобы провоцировать чрезмерную оптимизацию справедливости, социальные метрики служат сигналом координации, который направляет LLM к более эффективным кооперативным стратегиям, включая разделение территории, адаптивное распределение ролей и избегание бесполезной агрессии. Мы также провели состязательный эксперимент, чтобы определить, способны ли LLM взламывать систему вознаграждений в этих средах. Мы описываем пять классов атак и обсуждаем методы защиты, подчеркивая присущее синтезу стратегий с помощью LLM противоречие между выразительностью и безопасностью. Код доступен по адресу: https://github.com/vicgalle/llm-policies-social-dilemmas.
Мы разрабатываем метод поэтапного создания векторных скетчей. Для этого мы обучаем мультимодального агента на основе языковой модели с использованием нового многошагового обучения с подкреплением по процессуальным вознаграждениям после контролируемого тонкого настроя. Наш подход стал возможным благодаря новому набору данных ControlSketch-Part, содержащему детальные аннотации на уровне частей скетчей, полученные с помощью универсального автоматизированного пайплайна аннотирования, который сегментирует векторные скетчи на семантические части и присваивает пути к частям посредством структурированного многоэтапного процесса разметки. Наши результаты показывают, что включение структурированных данных на уровне частей и предоставление агенту визуальной обратной связи в процессе работы обеспечивает интерпретируемое, контролируемое и локально редактируемое преобразование текста в векторный скетч.
Крупные визуально-языковые модели (VLM) часто используют замороженный визуальный модуль, чьи признаки изображения проецируются в большую языковую модель через легковесный коннектор. Хотя трансформерные энкодеры являются стандартным визуальным компонентом, мы исследуем, могут ли визуальные модули на основе моделей пространства состояний (SSM) стать достойной альтернативой. Мы систематически оцениваем SSM-визуальные модули для VLM в контролируемых условиях. При сопоставимой инициализации на ImageNet-1K SSM-модуль демонстрирует наилучшую общую производительность как в задачах VQA, так и в задачах локализации и привязки к объектам. Мы дополнительно адаптируем SSM- и ViT-модули с помощью обучения на задачах детекции и сегментации и обнаруживаем, что дообучение на плотных задачах в целом улучшает производительность для обоих семейств; после такой адаптации SSM-модуль сохраняет конкурентоспособность при существенно меньшем масштабе модели. Мы также наблюдаем, что (i) более высокая точность на ImageNet или бóльшие размеры модулей не гарантируют лучшую производительность VLM, и (ii) некоторые визуальные модули демонстрируют нестабильность в задачах локализации. На основе этих выводов мы предлагаем стратегии стабилизации, которые повышают надежность для обоих семейств модулей, и подчеркиваем SSM-модули как перспективную альтернативу трансформерным визуальным энкодерам в VLM.
Мы представляем надежную систему RGB SLAM в реальном времени, которая обрабатывает динамические среды с использованием дифференцируемого бандл-аджъстмента с учетом неопределенности. Традиционные методы SLAM обычно предполагают статичность сцены, что приводит к сбоям трекинга при наличии движения. Современные подходы к динамическому SLAM пытаются решить эту проблему, используя заранее заданные динамические априорные данные или картографирование с учетом неопределенности, но они остаются ограниченными при столкновении с неизвестными динамическими объектами или сильно загроможденными сценами, где геометрическое картографирование становится ненадежным. В отличие от них, наш метод оценивает неопределенность для каждого пикселя, используя противоречивость визуальных признаков в нескольких проекциях, что обеспечивает надежный трекинг и реконструкцию даже в реальных условиях. Предложенная система достигает передовых показателей точности оценки поз камеры и геометрии сцены в загроможденных динамических сценариях, работая в реальном времени со скоростью около 10 кадров в секунду. Код и наборы данных доступны по адресу https://github.com/MoyangLi00/DROID-W.git.
Крупные языковые модели (LLM) демонстрируют мощный общий интеллект, однако их многоязычная производительность остается крайне несбалансированной. Хотя LLM кодируют обширные кросс-лингвистические знания в едином семантическом пространстве, они часто не могут надежно сопрягать эти знания с малоресурсными или ранее невстречавшимися языками. К счастью, предобученные энкодер-декодерные модели перевода уже обладают сбалансированной многоязычной способностью, что предполагает их естественное дополнение к LLM. В данной работе мы предлагаем XBridge — композиционную архитектуру энкодер-LLM-декодер, которая перекладывает задачи многоязычного понимания и генерации на внешние предобученные модели перевода, сохраняя за LLM роль англоцентричного ядра для обработки общих знаний. Для решения возникающей проблемы несоответствия репрезентаций между моделями мы вводим легковесные кросс-модельные слои сопоставления и цель выравнивания на основе оптимального транспорта, обеспечивая тонкую семантическую согласованность для многоязычной генерации. Эксперименты с четырьмя LLM в задачах многоязычного понимания, рассуждения, суммаризации и генерации показывают, что XBridge превосходит сильные базовые методы, особенно на малоресурсных и ранее невстречавшихся языках, без переобучения LLM.
Анализ кода (code review) — это критически важная практика в разработке программного обеспечения, в рамках которой разработчики проверяют изменения кода перед их интеграцией для обеспечения качества, выявления дефектов и повышения сопровождаемости. В последние годы в процесс код-ревью все активнее интегрируются ИИ-агенты, способные понимать контекст кода, планировать действия по проверке и взаимодействовать со средами разработки. Однако существует ограниченное количество эмпирических данных, позволяющих сравнить эффективность ИИ-агентов и людей-рецензентов в совместных рабочих процессах. Чтобы восполнить этот пробел, мы провели масштабный эмпирический анализ 278 790 обсуждений код-ревью в 300 проектах с открытым исходным кодом на GitHub. В нашем исследовании мы стремимся сравнить различия в обратной связи, предоставляемой людьми-рецензентами и ИИ-агентами. Мы исследуем модели коллаборации между человеком и ИИ в обсуждениях ревью, чтобы понять, как взаимодействие влияет на результаты проверки. Кроме того, мы анализируем, насколько часто предложения по коду, сделанные людьми-рецензентами и ИИ-агентами, принимаются в кодобазу, и как принятые предложения влияют на качество кода. Мы выяснили, что люди-рецензенты предоставляют более развернутую обратную связь по сравнению с ИИ-агентами, включая вопросы понимания, тестирования и передачи знаний. При ревью кода, сгенерированного ИИ, люди-рецензенты обмениваются на 11,8% больше сообщений, чем при ревью кода, написанного человеком. Более того, предложения по коду, сделанные ИИ-агентами, принимаются в кодобазу значительно реже, чем предложения, выдвинутые людьми-рецензентами. Более половины непринятых предложений от ИИ-агентов либо некорректны, либо разработчики устраняют проблемы альтернативными способами. В случае принятия предложений от ИИ-агентов наблюдается значительно более сильное увеличение сложности кода и его объема по сравнению с предложениями от людей-рецензентов. Наши выводы свидетельствуют о том, что хотя ИИ-агенты могут масштабировать проверку на дефекты, человеческий контроль остается критически важным для обеспечения качества предложений и предоставления контекстной обратной связи, которой ИИ-агентам не хватает.
Проблемы, связанные с использованием политик, не соответствующих целевой (off-policy), такие как устаревание политики и несоответствие между обучением и выводом, стали основным препятствием для стабильности обучения и дальнейшего исследования в области RL для больших языковых моделей (LLM). Для повышения эффективности вывода разрыв между распределениями политики вывода и обновленной политики увеличивается, что приводит к тяжелым хвостам важностных весов. Тяжелые хвосты весов возникают, когда политика становится локально острой, что дополнительно усиливает резкие градиенты и может выталкивать обновления за пределы доверительной области. Для решения этой проблемы мы предлагаем метод адаптивного послойного возмущения (Adaptive Layerwise Perturbation, ALP), заключающийся во внесении небольших обучаемых возмущений во входные скрытые состояния каждого слоя в процессе обновления. Эти возмущения используются в числителе важностного веса в целевом функционале, в знаменателе которого остается неизменная политика вывода. Интуитивно, добавляя контролируемый шум в промежуточные представления, ALP предотвращает слишком резкое отклонение обновленной политики от политики вывода и расширяет семейство политик, чтобы охватить семейство политик вывода с учетом шума несоответствия. Таким образом, сглаженное распределение естественным образом сокращает разрыв между обновленной политикой и политикой вывода и уменьшает хвост важностных весов, поддерживая стабильность обучения. Это подтверждается эмпирически. Эксперименты на задачах одношагового математического и многошагового инструментального рассуждения показывают, что ALP не только улучшает итоговую производительность, но и предотвращает взрывной рост хвоста важностных весов и скачков KL-дивергенции в процессе итеративного обучения, одновременно способствуя усилению исследования. Абляционные исследования демонстрируют, что возмущения на уровне представлений во всех слоях являются наиболее эффективными, существенно превосходя варианты с частичным охватом слоев и возмущениями только на уровне логитов.
Крупные языковые модели (LLMs) все чаще применяются в системах, оказывающих влияние на общество, что вызывает обеспокоенность по поводу кодируемых в них культурных предубеждений. Мы исследуем эти репрезентации, оценивая способность LLMs в условиях zero-shot выполнять профилирование авторов по текстам песен, определяя пол и этническую принадлежность исполнителей без специфической дообучки. На основе оценки нескольких открытых моделей на выборке более 10 000 текстов мы обнаружили, что LLMs демонстрируют нетривиальную эффективность в профилировании, но при этом выявляют систематическую культурную ориентацию: большинство моделей по умолчанию склоняются к североамериканской этнической принадлежности, тогда как DeepSeek-1.5B сильнее ассоциируется с азиатской этничностью. Этот вывод следует как из распределений предсказаний моделей, так и из анализа генерируемых ими обоснований. Для количественной оценки этих различий мы вводим две метрики справедливости — расхождение модальной точности (Modality Accuracy Divergence, MAD) и расхождение полноты (Recall Divergence, RD) — и показываем, что Ministral-8B демонстрирует наиболее сильное смещение по этническому признаку среди оцененных моделей, в то время как Gemma-12B проявляет наиболее сбалансированное поведение. Наш код доступен на GitHub (https://github.com/ValentinLafargue/CulturalProbingLLM).
Нейросимволические подходы, сочетающие большие языковые модели (LLM) с формальными методами, недавно продемонстрировали высокие результаты на ориентированных на математику бенчмарках доказательства теорем. Однако успех в соревновательной математике сам по себе не доказывает способность строить доказательства для реальных реализаций. Мы устраняем этот разрыв с помощью бенчмарка, основанного на промышленной криптографической библиотеке, ассемблерные процедуры которой уже верифицированы в HOL Light. s2n-bignum — это библиотека, используемая в AWS для предоставления быстрых ассемблерных процедур для криптографии, и её корректность установлена посредством формальной верификации. Задача формальной верификации этой библиотеки стала значительным достижением для Группы автоматизированного рассуждения. Она включала две задачи: (1) точное специфицирование корректного поведения программы в виде математического утверждения и (2) доказательство корректности этого утверждения. В случае s2n-bignum обе задачи выполнялись экспертами-людьми. В s2n-bignum-bench мы предоставляем формальную спецификацию и просим LLM сгенерировать скрипт доказательства, который принимается HOL Light в течение фиксированного таймаута на проверку. Насколько нам известно, s2n-bignum-bench является первым публичным бенчмарком, ориентированным на синтез машинно-проверяемых доказательств для промышленных низкоуровневых криптографических ассемблерных процедур в HOL Light. Этот бенчмарк предоставляет сложную и практически значимую тестовую среду для оценки основанного на LLM доказательства теорем за пределами соревновательной математики. Код для настройки и использования бенчмарка доступен здесь: https://github.com/kings-crown/s2n-bignum-bench{s2n-bignum-bench}.
Восстановление 3D-ассетов из изображений долгое время требовало раздельных конвейеров для реконструкции геометрии, оценки материалов и восстановления освещения, каждый из которых имел свои ограничения и вычислительные затраты. Мы представляем ReLi3D — первый единый сквозной конвейер, который одновременно реконструирует полную 3D-геометрию, пространственно-вариативные физически корректные материалы и окружающее освещение по разреженным многовидовым изображениям менее чем за одну секунду. Наше ключевое наблюдение заключается в том, что многовидовые ограничения могут кардинально улучшить разделение материалов и освещения — задача, которая остается принципиально некорректной для методов, работающих с одним изображением. Ключевым элементом нашего подхода является объединение многовидового входного сигнала с помощью трансформерной архитектуры кросс-кондиционирования, за которым следует новая единая стратегия предсказания по двум направлениям. Первое направление предсказывает структуру и внешний вид объекта, а второе — окружающее освещение на основе фона изображения или отражений от объекта. Это в сочетании с дифференцируемым рендерером на основе метода Монте-Карло с множественным взвешиванием создает оптимальный конвейер обучения для разделения освещения. Кроме того, с помощью нашего протокола обучения в смешанной области, который объединяет синтетические PBR-наборы данных с реальными RGB-захватами, мы достигаем обобщаемых результатов в точности геометрии, материалов и качестве освещения. Объединяя ранее раздельные задачи реконструкции в один прямой проход, мы обеспечиваем практически мгновенное создание полных, перезасвечиваемых 3D-ассетов. Страница проекта: https://reli3d.jdihlmann.com/
Мультимодальные большие языковые модели достигли значительных успехов в области анализа записанных видео, однако их применение к потоковому видео серьезно ограничено линейным ростом количества визуальных токенов, что часто приводит к ошибкам переполнения памяти (Out-of-Memory, OOM) или катастрофическому забыванию. Существующие методы удержания визуальной информации и управления памятью обычно основаны на равномерной выборке, низкоуровневых физических метриках или пассивном вытеснении кэша. Однако эти стратегии часто лишены внутренней семантической осведомленности, что может нарушать контекстную связность и размывать быстрые, но критически важные семантические переходы. Для преодоления этих ограничений мы предлагаем CurveStream — беспараметрическую иерархическую систему управления визуальной памятью, учитывающую кривизну. Наш подход мотивирован ключевым наблюдением: области с высокой кривизной вдоль непрерывных траекторий признаков тесно связаны с критическими глобальными семантическими переходами. Основываясь на этом геометрическом принципе, CurveStream оценивает семантическую интенсивность в реальном времени с помощью показателя кривизны (Curvature Score) и интегрирует онлайн-динамический порог K-Sigma для адаптивной маршрутизации кадров в состояния четкой и размытой памяти в условиях строгого лимита токенов. Оценки на различных временных масштабах подтверждают, что этот легковесный фреймворк, CurveStream, стабильно обеспечивает абсолютный прирост производительности более чем на 10% (например, 10.69% на StreamingBench и 13.58% на OVOBench) по сравнению с соответствующими базовыми методами, устанавливая новые наилучшие результаты для восприятия потокового видео. Код будет доступен по адресу https://github.com/streamingvideos/CurveStream.
Быстрое распространение крупных языковых моделей значительно усложнило различение текстов, написанных человеком и сгенерированных искусственным интеллектом, что породило серьезные проблемы в академической, редакторской и социальной сферах. В данной статье исследуется проблема обнаружения текстов, созданных ИИ, путем проектирования, реализации и сравнительного анализа нескольких детекторов на основе машинного обучения. Разработаны и проанализированы четыре нейросетевые архитектуры: многослойный перцептрон, одномерная сверточная нейронная сеть, CNN на основе MobileNet и модель трансформера. Предложенные модели сравниваются с широко используемыми онлайн-детекторами, включая ZeroGPT, GPTZero, QuillBot, Originality.AI, Sapling, IsGen, Rephrase и Writer. Эксперименты проводятся на мультиязычном наборе данных COLING в английской и итальянской конфигурациях, а также на оригинальном тематическом наборе данных, сфокусированном на теме искусства и психического здоровья. Результаты показывают, что обученные с учителем детекторы демонстрируют более стабильную и надежную работу по сравнению с коммерческими инструментами в различных языках и доменах, выявляя ключевые преимущества и ограничения современных стратегий обнаружения.
Сегментация медицинских ультразвуковых изображений сталкивается со значительными трудностями из-за ограниченного количества размеченных данных и характерных артефактов визуализации, включая спекл-шум и низкоконтрастные границы. Хотя для решения проблемы нехватки данных появились подходы полуконтролируемого обучения (semi-supervised learning, SSL), существующие методы страдают от неоптимального использования немаркированных данных и не имеют надежных механизмов представления признаков. В данной статье мы предлагаем Switch — новую SSL-структуру с двумя ключевыми инновациями: (1) стратегия Multiscale Switch (MSS), использующая иерархическое смешивание патчей для достижения равномерного пространственного охвата; (2) Frequency Domain Switch (FDS) с контрастным обучением, выполняющий переключение амплитуд в фурье-пространстве для получения устойчивых представлений признаков. Наша структура интегрирует эти компоненты в архитектуру «учитель-ученик» для эффективного использования как размеченных, так и немаркированных данных. Комплексная оценка на шести разнородных ультразвуковых наборах данных (лимфатические узлы, поражения молочной железы, узлы щитовидной железы и простата) демонстрирует последовательное превосходство над современными методами. При доле размеченных данных 5% Switch достигает значительного улучшения: 80,04% Dice на LN-INT, 85,52% Dice на DDTI и 83,48% Dice на наборе данных по простате, при этом наш полуконтролируемый подход даже превосходит полностью контролируемые базовые методы. Метод сохраняет параметрическую эффективность (1,8 млн параметров), обеспечивая при этом превосходную производительность, что подтверждает его эффективность для медицинских задач визуализации с ограниченными ресурсами. Исходный код общедоступен по адресу https://github.com/jinggqu/Switch.
Автоматическое создание фотореалистичных и самосогласованных текстур для нетекстурированных 3D-моделей является ключевой задачей в производстве цифрового контента. Развитие моделей генерации видео в больших масштабах предлагает естественный подход: прямое синтезирование 360-градусных видео вращения объекта (turntable videos, TTV), которые могут служить не только в качестве высококачественных динамических превью, но и как промежуточное представление для управления синтезом текстур и нейронным рендерингом. Однако существующие универсальные диффузионные модели видео испытывают трудности с поддержанием строгой геометрической согласованности и стабильности внешнего вида на всех углах обзора, что делает их выходные данные непригодными для высококачественной 3D-реконструкции. В связи с этим мы представляем TAPESTRY — фреймворк для генерации TTV высокой точности, управляемой явной 3D-геометрией. Мы переосмысливаем задачу генерации 3D-внешнего вида как проблему диффузии видео с условием на геометрию: для заданного 3D-меша мы сначала рендерим и кодируем мультимодальные геометрические признаки, чтобы ограничить процесс генерации видео с точностью на уровне пикселей, что позволяет создавать высококачественные и согласованные TTV. На основе этого мы также разрабатываем метод для последующих задач реконструкции из TTV, включающий многоэтапный конвейер с 3D-осознанным инпейнтингом. Путем вращения модели и выполнения контекстно-зависимой вторичной генерации этот конвейер эффективно заполняет самоокклюзированные области для достижения полного покрытия поверхности. Видео, сгенерированные TAPESTRY, являются не только высококачественными динамическими превью, но и служат надежным, 3D-осознанным промежуточным представлением, которое может быть бесшовно обратно спроецировано в UV-текстуры или использовано для обучения методов нейронного рендеринга, таких как 3DGS. Это позволяет автоматизировать создание готовых к использованию полных 3D-ассетов из нетекстурированных мешей. Результаты экспериментов демонстрируют, что наш метод превосходит существующие подходы как по согласованности видео, так и по итоговому качеству реконструкции.
Существующие эталоны для обнаружения фальсификаций в значительной степени опираются на маски объектов, что серьезно расходится с реальными сигналами редактирования: множество пикселей внутри маски остаются нетронутыми или изменены незначительно, в то время как тонкие, но важные правки за пределами маски рассматриваются как естественные. Мы переосмысливаем задачу обнаружения фальсификаций в изображениях с помощью VLM, переходя от грубых меток областей к пиксельно-ориентированной, семантически и языково-обусловленной задаче. Во-первых, мы вводим таксономию, охватывающую примитивы редактирования (замена/удаление/вставка/восстановление/атрибуция/колоризация и т.д.) и семантический класс измененного объекта, связывая низкоуровневые изменения с высокоуровневым пониманием. Во-вторых, мы представляем новый эталон с попиксельными картами фальсификаций и парными категориальными метками для оценки обнаружения и классификации в рамках единого протокола. В-третьих, мы предлагаем framework для обучения и метрики оценки, которые количественно определяют корректность на уровне пикселей с локализацией для оценки уверенности или предсказания истинной интенсивности правки, а также дополнительно измеряют понимание смысла фальсификации через семантически-осознанную классификацию и естественно-языковые описания для предсказанных областей. Мы также переоцениваем существующие сильные базовые методы сегментации/локализации на современных мощных детекторах фальсификаций и выявляем существенные завышения и занижения оценок при использовании метрик, основанных только на масках, а также демонстрируем случаи ошибок на микро-правках и изменениях вне масок. Наш framework продвигает область от масок к пикселям, смыслам и языковым описаниям, устанавливая строгий стандарт для локализации фальсификаций, семантической классификации и описания. Код и данные эталона доступны по адресу https://github.com/VILA-Lab/PIXAR.
Снижение задержки и энергопотребления является критически важным для повышения эффективности систем памяти в современных вычислительных устройствах. В данной работе представлен ReLMXEL (Обучение с подкреплением для контроллера памяти с объяснимой оптимизацией энергопотребления и задержек) — объяснимый многоагентный фреймворк онлайн-обучения с подкреплением, который динамически оптимизирует параметры контроллера памяти с использованием декомпозиции вознаграждения. ReLMXEL функционирует внутри контроллера памяти, используя детальные метрики поведения памяти для принятия решений. Экспериментальные оценки на различных рабочих нагрузках демонстрируют стабильное улучшение производительности по сравнению с базовыми конфигурациями, причем оптимизация обусловлена специфичным для нагрузки поведением при доступе к памяти. Благодаря включению объяснимости в процесс обучения, ReLMXEL не только повышает производительность, но и увеличивает прозрачность управляющих решений, открывая путь к созданию более ответственных и адаптивных проектов систем памяти.