Ежедневно отобранные исследовательские статьи по ИИ с переводами
Последние достижения в области генерации и редактирования изображений открыли новые возможности для виртуальной примерки. Однако существующие методы по-прежнему не справляются со сложными требованиями реального мира. Мы представляем Tstars-Tryon 1.0 — коммерческую систему виртуальной примерки, отличающуюся надежностью, реалистичностью, универсальностью и высокой эффективностью. Во-первых, наша система сохраняет высокий процент успешных операций в сложных случаях, таких как экстремальные позы, значительные изменения освещения, размытие в движении и другие условия неконтролируемой среды. Во-вторых, она обеспечивает высокофотореалистичные результаты с мелкими деталями, точно сохраняя текстуру одежды, свойства материалов и структурные характеристики, при этом практически избегая артефактов, характерных для ИИ-генерации. В-третьих, помимо примерки одежды, наша модель поддерживает гибкую композицию нескольких изображений (до 6 референсов) для 8 категорий товаров с согласованным контролем идентичности человека и фона. В-четвертых, для преодоления проблем задержки при коммерческом развертывании система оптимизирована для скорости вывода, обеспечивая генерацию, близкую к реальному времени, для бесшовного пользовательского опыта. Эти возможности реализованы благодаря комплексному системному дизайну, включающему сквозную архитектуру модели, масштабируемый механизм данных, надежную инфраструктуру и многоэтапную парадигму обучения. Многочисленные оценки и масштабное промышленное внедрение демонстрируют, что Tstars-Tryon 1.0 достигает лидирующих показателей общей производительности. Для поддержки будущих исследований мы также публикуем комплексный бенчмарк. Модель развернута в промышленных масштабах в приложении Taobao, обслуживая миллионы пользователей и десятки миллионов запросов.
Синтез видео с взаимодействием человек-объект (HOI) имеет широкую практическую ценность в электронной коммерции, цифровой рекламе и виртуальном маркетинге. Однако современные диффузионные модели, несмотря на их фотореалистичные возможности рендеринга, часто демонстрируют недостатки в (i) структурной стабильности чувствительных областей, таких как кисти рук и лица, и (ii) физически правдоподобном контакте (например, избегании взаимопроникновения руки и объекта). Мы представляем CoInteract, сквозную архитектуру для синтеза HOI-видео, управляемую эталонным изображением человека, эталонным изображением продукта, текстовыми промптами и речевым аудио. CoInteract включает две взаимодополняющие конструкции, встроенные в основу Diffusion Transformer (DiT). Во-первых, мы предлагаем Human-Aware Mixture-of-Experts (MoE), которая направляет токены к легковесным, специализированным на регионах экспертам с помощью пространственно-контролируемой маршрутизации, улучшая структурную достоверность мелких деталей при минимальных параметрических затратах. Во-вторых, мы предлагаем Spatially-Structured Co-Generation, парадигму обучения с двумя потоками, которая совместно моделирует поток RGB-внешнего вида и вспомогательный поток HOI-структуры для внедрения априорных знаний о геометрии взаимодействия. Во время обучения поток HOI взаимодействует с RGB-токенами, а его обучение регуляризует общие веса основы; на этапе вывода ветвь HOI удаляется для генерации RGB без дополнительных затрат. Результаты экспериментов показывают, что CoInteract значительно превосходит существующие методы по структурной стабильности, логической согласованности и реализму взаимодействия.
Системы агентов на основе языковых моделей обычно используют реактивное prompting, при котором единая инструкция направляет модель через открытую последовательность шагов рассуждений и использования инструментов. Это оставляет поток управления и промежуточное состояние неявными, что потенциально затрудняет контроль за поведением агента. Оркестровые фреймворки, такие как LangGraph, DSPy и CrewAI, накладывают более жесткую структуру за счет явных определений рабочих процессов, но тесно связывают логику workflow с Python, что затрудняет поддержку и модификацию агентов. В данной статье мы представляем AgentSPEX — язык спецификации и исполнения агентов для определения workflow агентов LLM с явным потоком управления и модульной структурой, а также настраиваемый механизм исполнения агентов. AgentSPEX поддерживает типизированные шаги, ветвление и циклы, параллельное выполнение, переиспользуемые подмодули и явное управление состоянием. Эти workflow выполняются в рамках механизма исполнения, который предоставляет доступ к инструментам, изолированную виртуальную среду, а также поддержку контрольных точек, верификации и логирования. Кроме того, мы предоставляем визуальный редактор с синхронизированными представлениями графа и workflow для создания и инспекции. Мы включаем готовых к использованию агентов для углубленного и научного исследования и оцениваем AgentSPEX на 7 бенчмарках. Наконец, мы показываем в ходе пользовательского исследования, что AgentSPEX предлагает более интерпретируемую и доступную парадигму создания workflow по сравнению с популярным существующим фреймворком для агентов.
Восстановление трехмерных сцен по разреженным видам играет ключевую роль для моделирования сцен из случайных съемок, но остается сложной задачей для негенеративных методов реконструкции. Существующие подходы на основе диффузионных моделей смягчают эту проблему, синтезируя новые ракурсы, однако они часто используют в качестве условия только один или два кадра съемки, что ограничивает геометрическую согласованность и масштабируемость для больших или разнородных сцен. Мы предлагаем AnyRecon — масштабируемую систему для реконструкции по произвольным и неупорядоченным разреженным данным, которая сохраняет явный геометрический контроль при поддержке гибкой мощности условных данных. Для обеспечения дальнодействующего кондиционирования наш метод создает устойчивую глобальную память сцены с помощью кэша предварительно загруженных ракурсов и устраняет временное сжатие для сохранения покомпонентного соответствия при значительных изменениях точки обзора. Помимо улучшения генеративной модели, мы также выявили, что взаимодействие между генерацией и реконструкцией критически важно для крупномасштабных 3D-сцен. Поэтому мы представляем стратегию геометрически осознанного кондиционирования, которая связывает генерацию и реконструкцию через явную 3D-геометрическую память и геометрически управляемое извлечение референсных ракурсов. Для обеспечения эффективности мы комбинируем 4-шаговую дистилляцию диффузии с разреженной внимательностью в пределах контекстного окна, чтобы снизить квадратичную сложность. Многочисленные эксперименты демонстрируют надежную и масштабируемую реконструкцию для нерегулярных входных данных, больших разрывов в ракурсах и протяженных траекторий.
Метод обучения во время тестирования (TTT) адаптирует параметры модели на немаркированных тестовых примерах в процессе вывода, непрерывно расширяя возможности, недостижимые при офлайн-обучении. Несмотря на первоначальный прогресс, существующие методы TTT для больших языковых моделей (LRM) быстро выходят на плато и не получают пользы от дополнительных вычислительных ресурсов во время тестирования. Без внешней калибровки самогенерируемый сигнал вознаграждения постепенно смещается по мере эволюции модельной политики, что приводит как к плато производительности, так и к коллапсу разнообразия. Мы предлагаем TEMPO — фреймворк TTT, который чередует уточнение политики на немаркированных вопросах с периодической перекалибровкой критика на размеченном наборе данных. Формализуя эту чередующуюся процедуру через алгоритм максимизации ожидания (EM), мы показываем, что предыдущие методы можно интерпретировать как неполные варианты, опускающие критически важный шаг перекалибровки. Возвращение этого шага усиливает нижнюю оценку доказательности (ELBO) и обеспечивает устойчивое улучшение. На разнообразных семействах моделей (Qwen3 и OLMO3) и задачах логического вывода TEMPO улучшает показатели OLMO3-7B на AIME 2024 с 33.0% до 51.1%, а Qwen3-14B — с 42.3% до 65.8%, сохраняя при этом высокое разнообразие.
Крупные языковые модели (LLМ) демонстрируют высокие результаты в генерации кода, однако их способность создавать GUI-приложения, особенно игры, остается недостаточно изученной. Существующие бенчмарки в основном оценивают корректность через тестовые случаи, что недостаточно для GUI-приложений, поскольку эти системы являются интерактивными, событийно-ориентированными и требуют корректных переходов состояний в последовательностях пользовательских действий. Их оценка, следовательно, должна учитывать потоки взаимодействия и логику интерфейса, а не только результаты прохождения/непрохождения тестов. Для изучения этой проблемы мы представляем PlayEval — репозиторий-ориентированный бенчмарк, созданный на основе 43 мультиязычных GUI-приложений на Python, TypeScript и JavaScript. В отличие от предыдущих бенчмарков для GUI, которые сложно адаптировать к десктопным средам, PlayEval охватывает шесть основных категорий GUI-приложений и напрямую поддерживает оценку генерации кода. Мы также предлагаем Play@k — метрику, которая измеряет, может ли хотя бы один из *k* сгенерированных кандидатов быть пройден от начала до конца без логических ошибок. Для обеспечения надежной оценки мы разрабатываем PlayTester — агента на основе LLМ, который выполняет целевые прохождения GUI и автоматически обнаруживает нарушения логики. Эксперименты с 10 передовыми кодогенерирующими LLМ показывают, что, несмотря на высокие показатели компиляции, они достигают near-zero Play@3, выявляя серьезные слабости в генерации логически корректных GUI-приложений. Для решения этой проблемы мы представляем PlayCoder — многоагентную, репозиторий-ориентированную среду, которая генерирует, оценивает и итеративно исправляет код GUI-приложений в замкнутом цикле. PlayCoder существенно улучшает как функциональную корректность, так и семантическое соответствие для моделей с открытым и закрытым исходным кодом, достигая до 38,1% Exec@3 и 20,3% Play@3. Кейс-стади дополнительно показывают, что система может выявлять скрытые логические ошибки, пропущенные традиционными метриками, и исправлять их с помощью целевых правок.
Параметрически-эффективное тонкое настройка (PEFT) снижает стоимость обучения полнопараметрической настройки больших языковых моделей (LLM) путем обучения лишь небольшого набора специфичных для задачи параметров при замороженном предобученном ядре. Однако существующие подходы, такие как LoRA (Low-Rank Adaptation), достигают адаптации путем вставки независимых низкоранговых возмущений непосредственно к отдельным весам, что приводит к локальной параметризации адаптации. Мы предлагаем ShadowPEFT — централизованную PEFT-архитектуру, которая вместо этого выполняет послойное уточнение через разделяемый по глубине теневой модуль. На каждом трансформерном слое ShadowPEFT поддерживает параллельное теневое состояние и эволюционирует его многократно для получения прогрессивно обогащенных скрытых состояний. Данная конструкция смещает адаптацию от распределенных возмущений в пространстве весов к разделяемому процессу уточнения в пространстве слоев. Поскольку теневой модуль отделен от ядра, он может использоваться повторно по глубине, независимо предобучаться и опционально развертываться в автономном режиме, что выгодно для сценариев периферийных вычислений. Эксперименты на бенчмарках генерации и понимания показывают, что ShadowPEFT соответствует или превосходит LoRA и DoRA при сопоставимых бюджетах обучаемых параметров. Дополнительные анализы предобучения теневого модуля, межнаборного переноса, масштабирования параметров, задержки вывода и системной оценки свидетельствуют, что централизованная адаптация в пространстве слоев является конкурентоспособной и гибкой альтернативой традиционным низкоранговым PEFT-методам.
В настоящее время исполняемые визуальные рабочие процессы стали основной парадигмой в реальных промышленных развертываниях, предлагая высокую надежность и управляемость. Однако в текущей практике такие рабочие процессы почти полностью создаются с помощью ручного проектирования: разработчики должны тщательно проектировать рабочие процессы, писать промпты для каждого шага и многократно пересматривать логику по мере изменения требований, что делает разработку дорогостоящей, трудоемкой и подверженной ошибкам. Чтобы исследовать, могут ли большие языковые модели автоматизировать этот многошаговый интерактивный процесс, мы представляем Chat2Workflow — бенчмарк для генерации исполняемых визуальных рабочих процессов непосредственно из естественного языка, а также предлагаем надежную агентскую структуру для снижения повторяющихся ошибок выполнения. Chat2Workflow построен на основе большой коллекции реальных бизнес-процессов, где каждый экземпляр спроектирован так, что сгенерированный рабочий процесс может быть преобразован и напрямую развернут на практических платформах, таких как Dify и Coze. Результаты экспериментов показывают, что хотя современные языковые модели часто способны улавливать общие намерения, они испытывают трудности с генерацией корректных, стабильных и исполняемых рабочих процессов, особенно в условиях сложных или изменяющихся требований. Несмотря на то, что наша агентская структура обеспечивает повышение уровня разрешения ошибок до 5,34%, сохраняющийся разрыв с реальными требованиями позиционирует Chat2Workflow как основу для развития промышленной автоматизации. Код доступен по адресу https://github.com/zjunlp/Chat2Workflow.
По мере того как обучение с подкреплением продолжает масштабировать тренировку агентов на основе больших языковых моделей, надежная верификация поведения агентов в сложных средах становится все более сложной задачей. Существующие подходы полагаются на основанные на правилах верификаторы или модели LLM-as-a-Judge, которые плохо обобщаются за пределы узких предметных областей. Метод Agent-as-a-Judge преодолевает это ограничение, активно взаимодействуя со средами и инструментами для получения проверяемых доказательств, однако его возможности остаются недостаточно изученными. Мы представляем бенчмарк AJ-Bench для систематической оценки метода Agent-as-a-Judge в трех областях — поиске, системах данных и графических пользовательских интерфейсах — включающий 155 задач и 516 размеченных траекторий. Бенчмарк комплексно оценивает способности агентов-судей в приобретении информации, верификации состояния и верификации процессов. Эксперименты демонстрируют стабильное превосходство над базовыми методами LLM-as-a-Judge, одновременно выявляя существенные нерешенные проблемы в агентной верификации. Наши данные и код доступны по адресу https://aj-bench.github.io/.
Исследования в области информационного поиска с выполнением инструкций (IF-IR) изучают поисковые системы, которые должны не только находить документы, релевантные запросу, но и подчиняться явным ограничениям пользователя, таким как обязательные атрибуты, исключения или предпочтения по выводу. Однако большинство систем поиска обучаются в основном на семантическую релевантность и часто не способны отличить документы, соответствующие теме, от тех, которые удовлетворяют инструкции. Мы предлагаем стратегию синтеза данных с двойным представлением, основанную на полярной инверсии: для данного запроса, документа, релевантного согласно инструкции, и сложного негативного примера, который соответствует запросу, но нарушает инструкцию, мы используем большую языковую модель (LLM) для генерации дополнительной инструкции, при которой два документа меняются метками релевантности. Представляя одну и ту же пару документов в условиях дополнительных инструкций, инвертирующих их метки релевантности, обучающий сигнал заставляет систему поиска переоценивать один и тот же набор кандидатов через призму инструкции, а не полагаться на фиксированные тематические признаки. На энкодере с 305 миллионами параметров наш метод улучшает производительность на бенчмарке FollowIR на 45%, превосходя универсальные модели эмбеддингов сопоставимого или большего масштаба. Сравнивая модели при равных бюджетах данных, мы также показываем, что разнообразие данных и контроль выполнения инструкций играют взаимодополняющие роли: первое сохраняет общее качество поиска, а второе повышает чувствительность к инструкциям. Эти результаты подчеркивают ценность целенаправленного синтеза данных для создания поисковых систем, которые одновременно являются широко способными и учитывающими инструкции.
Кодовое переключение является повсеместным лингвистическим феноменом в глобальной коммуникации, однако современные системы информационного поиска по-прежнему проектируются и оцениваются преимущественно в рамках монолингвальных контекстов. Чтобы преодолеть этот критический разрыв, мы представляем комплексное исследование, посвященное информационному поиску с кодовым переключением. Мы представляем CSR-L (Code-Switching Retrieval benchmark-Lite), создавая набор данных с помощью человеческой разметки для отражения аутентичной естественности смешанно-языковых запросов. Наша оценка, охватывающая статистические, плотные и парадигмы позднего взаимодействия, показывает, что кодовое переключение выступает в качестве фундаментального узкого места производительности, снижая эффективность даже robustных многоязычных моделей. Мы демонстрируем, что эта неудача проистекает из существенного расхождения в пространстве эмбеддингов между чистым и смешанно-языковым текстом. Масштабируя это исследование, мы предлагаем CS-MTEB, комплексный бенчмарк, охватывающий 11 разнообразных задач, где мы наблюдаем снижение производительности до 27%. Наконец, мы показываем, что стандартные многоязычные методики, такие как расширение словаря, недостаточны для полного устранения этих дефицитов. Эти результаты подчеркивают хрупкость современных систем и устанавливают кодовое переключение в качестве важнейшего рубежа для будущей оптимизации информационного поиска.
Арифметика задач предоставляет эффективный, не требующий дообучения способ редактирования предварительно обученных моделей, однако не имеет фундаментального теоретического объяснения своего успеха. Существующая концепция «разделения весов» описывает идеальный результат непересекающейся композиции задач, но не раскрывает ее первопричину. Ключевой вопрос — какие внутренние свойства предварительно обученной модели (θ₀) или векторов задач (τₜ) обеспечивают это разделение — остается малоизученным. В данной статье мы вводим Специализацию по Задачам и Признакам (TFS) — способность модели выделять различные внутренние признаки для разных задач — в качестве фундаментального принципа. Сначала мы доказываем, что TFS является достаточным условием для разделения весов. Что более важно, мы обнаруживаем, что TFS также порождает наблюдаемое геометрическое следствие: ортогональность векторов весов. Это позиционирует TFS как общую причину как желаемого функционального результата (разделения), так и измеримого геометрического свойства (ортогональности). Данная взаимосвязь дает ключевую идею для нашего метода: поскольку абстрактное свойство TFS сложно обеспечить напрямую, мы можем вместо этого способствовать разделению весов, формируя его конкретное геометрическое следствие — ортогональность. Поэтому мы предлагаем OrthoReg, простой и эффективный метод регуляризации, который активно формирует внутреннюю ортогональную структуру для обновлений весов (ΔW), составляющих τₜ, в процессе тонкой настройки. Мы также теоретически доказываем, что OrthoReg способствует разделению. Многочисленные эксперименты демонстрируют, что OrthoReg стабильно и значительно улучшает производительность различных методов арифметики задач. Код доступен по адресу https://github.com/RL-MIND/OrthoReg{https://github.com/RL-MIND/OrthoReg}.
Мы решаем задачу генерации трёхмерно-согласованной, навигируемой среды, которая пространственно привязана к реальности: симуляции реального местоположения. Существующие модели генерации видео способны создавать правдоподобную последовательность, согласованную с текстовым (T2V) или изображенческим (I2V) промптом. Однако способность реконструировать реальный мир при произвольных погодных условиях и динамических конфигурациях объектов крайне важна для прикладных задач, включая автономное вождение и симуляцию робототехники. Для решения этой задачи мы представляем CityRAG — модель генерации видео, которая использует большие корпусы геопривязанных данных в качестве контекста для привязки генерации к физической сцене, сохраняя при этом ранее изученные паттерны для сложных изменений движения и внешнего вида. CityRAG опирается на данные обучения, не выровненные по времени, что учит модель семантически разделять базовую сцену и её изменчивые атрибуты. Наши эксперименты демонстрируют, что CityRAG способна генерировать согласованные минуты длящиеся, физически обоснованные видеопоследовательности, поддерживать погодные и световые условия на протяжении тысяч кадров, достигать замыкания траектории и навигировать по сложным маршрутам для реконструкции реальной географии.
Авторегрессионная диффузия видео становится перспективной парадигмой для синтеза потокового видео, где дистилляция шагов служит основным методом ускорения вывода. Остается открытым вопрос, можно ли эффективно адаптировать спекулятивное декодирование — доминирующую стратегию ускорения больших языковых моделей — к авторегрессионной генерации видео, поскольку видео-блоки представляют собой непрерывные пространственно-временные тензоры без токен-уровневого распределения для точного rejection sampling. Мы представляем SDVG, который применяет спекулятивное декодирование к блочной авторегрессионной видео-диффузии, заменяя проверку токенов на маршрутизатор по качеству изображения. Драфтер объемом 1,3 млрд параметров предлагает кандидатные блоки за четыре шага денойзинга; каждый блок декодируется через VAE и оценивается с помощью ImageReward с агрегацией по наихудшему кадру — берется минимальная награда за кадр, чтобы выявить артефакты в отдельных кадрах, которые усреднение могло бы скрыть. Блоки с оценкой выше фиксированного порога τ принимаются в KV-кэш целевой модели на 14 млрд параметров; остальные перегенерируются целевой моделью. Два дополнительных конструктивных решения оказываются ключевыми: первый блок всегда принудительно отвергается для фиксации композиции сцены, а τ служит единственным регулятором, позволяющим построить плавную Парето-границу качества и скорости. На 1003 промптах MovieGenVideoBench (832x480) SDVG сохраняет 98,1% качества целевой модели по VisionReward (0,0773 против 0,0788) при ускорении в 1,59 раза с τ=-0,7 и достигает ускорения в 2,09 раза при сохранении 95,7% качества — стабильно превосходя генерацию только драфтером более чем на +17%. Фреймворк не требует дообучения, не вносит изменений в архитектуру и может быть бесшовно интегрирован в существующие pipelines авторегрессионной генерации видео.
Повседневные задачи имеют конкретную цель, а предварительное обучение моделей для достижения этой цели превращает их в экспертов. В данной статье мы исследуем целенаправленное предварительное обучение языковых моделей (Language Model, LM), представляя Ранжирование на основе Графа Активированных Нейронов (NAG-based Ranking) — бесплатную в обучении и интерпретируемую методологию для отбора данных предварительного обучения, ориентированных на цель. Вместо использования чернобоксных представлений наш подход напрямую характеризует каждый целевой вход с помощью разреженного набора высоковлиятельных нейронов в любой готовой большой языковой модели (LLM). Конкретно, мы количественно оцениваем влияние нейронов, выбираем наиболее значимые нейроны across слоев и объединяем их в компактный Граф Активированных Нейронов (Neuron-Activated Graph, NAG), после чего ранжируем данные-кандидаты по сходству их NAG с целевыми примерами. Мы провели эксперименты на шести бенчмарках, где наше ранжирование на основе NAG улучшило целенаправленное предварительное обучение в среднем на 4.9% по сравнению со случайной выборкой, а также превзошло современные базовые методы на 5.3% по точности на HellaSwag. Метод также остается эффективным в более применимой настройке с множественными целями, где наша лучшая конфигурация превосходит два базовых метода на 1.1% и 4.1% соответственно. Кроме того, мы предоставляем всесторонний анализ того, почему и как наш NAG работает: например, деактивация нейронов, отобранных NAG (всего 0.12% от общего числа), вызывает коллапс производительности на 23.5%, а ограничение NAG последним слоем приводит к среднему падению на 4.1%, что указывает на то, что NAG захватывает разреженный "функциональный хребет" для изучения целевых признаков. Код доступен по адресу https://github.com/asillycat/NAG.
Традиционное редактирование фотографических изображений обычно требует от пользователей достаточного эстетического понимания для формулирования соответствующих инструкций по корректировке качества изображения и параметров камеры. Однако эта парадигма основана на явном указании пользователем эстетических предпочтений, что зачастую бывает неоднозначным, неполным или недоступным для неопытных пользователей. В данной работе мы предлагаем SmartPhotoCrafter — автоматический метод редактирования фотографических изображений, который формулирует процесс редактирования как тесно связанный процесс «рассуждение-генерация». Предложенная модель сначала выполняет анализ качества изображения и выявляет недостатки с помощью модуля Image Critic, а затем модуль Photographic Artist реализует целевые правки для повышения привлекательности изображения, устраняя необходимость в явных инструкциях от пользователя. Используется многоэтапный конвейер обучения: (i) Предварительное обучение основы для формирования базового эстетического понимания и навыков редактирования, (ii) Адаптация с контролем множественных правок, направляемых рассуждением, для включения богатой семантической информации, и (iii) Согласованное обучение с подкреплением по схеме «рассуждение-генерация» для совместной оптимизации рассуждений и генерации. В процессе обучения SmartPhotoCrafter уделяет особое внимание фотореалистичной генерации изображений, одновременно поддерживая задачи как восстановления, так и ретуширования изображений с последовательным соблюдением семантики, связанной с цветом и тоном. Мы также создали специализированный для каждого этапа набор данных, который постепенно формирует навыки рассуждения, контролируемой генерации, эффективного межмодульного взаимодействия и, в конечном счете, высококачественного фотографического улучшения. Эксперименты демонстрируют, что SmartPhotoCrafter превосходит существующие генеративные модели в задаче автоматического фотографического улучшения, достигая фотореалистичных результатов и проявляя более высокую чувствительность к тональным аспектам при выполнении инструкций по ретуши. Страница проекта: https://github.com/vivoCameraResearch/SmartPhotoCrafter.
Последние достижения в области 3D-видения привели к созданию специализированных моделей для решения либо задач понимания 3D-сцен (например, классификация форм, сегментация, реконструкция), либо задач генерации 3D-данных (например, синтез, достраивание и редактирование). Однако эти задачи часто решаются изолированно, что приводит к фрагментированным архитектурам и представлениям, препятствующим передаче знаний и целостному моделированию сцен. Для решения этих проблем мы предлагаем UniMesh — унифицированную систему, которая совместно обучается генерации и пониманию 3D-данных в рамках единой архитектуры. Во-первых, мы представляем новый Mesh Head, который выступает в качестве кроссмодельного интерфейса, связывающего диффузионную генерацию изображений с неявными декодерами форм. Во-вторых, мы разрабатывали Chain of Mesh (CoM) — геометрическую реализацию итеративного рассуждения, которая позволяет осуществлять управляемое пользователем семантическое редактирование сетки через замкнутый цикл латентного пространства, промптинга и повторной генерации. В-третьих, мы внедрили механизм саморефлексии, основанный на триаде «Актор-Оценщик-Самоанализ», для диагностики и исправления ошибок в сложных задачах, таких как описание 3D-сцен. Результаты экспериментов показывают, что UniMesh не только демонстрирует конкурентоспособные результаты на стандартных бенчмарках, но и открывает новые возможности в области итеративного редактирования и взаимного усиления генерации и понимания. Код: https://github.com/AIGeeksGroup/UniMesh. Сайт: https://aigeeksgroup.github.io/UniMesh.
Тонкая настройка больших языковых моделей (LLM) остаётся структурно неопределённой, несмотря на параметрически эффективные методы, такие как Low-Rank Adaptation (LoRA), поскольку слабо изучены специфические для слоёв роли внутренних представлений, что приводит к эвристическим решениям о том, где следует применять адаптацию. Мы моделируем эволюцию скрытых состояний как траекторию в высокоразмерном геометрическом пространстве и предлагаем использовать алгоритм Рамера-Дугласа-Пьюкера (RDP) — беспараметрический и не требующий обучения метод упрощения полигонов, который сохраняет глобальные структурные переходы, устраняя локально избыточные изменения, — для идентификации критических точек излома вдоль пути представлений. Ключевым моментом является то, что мы используем эти геометрические точки поворота не только для анализа, но и в качестве прямого сигнала для принятия решения о том, какие слои следует адаптировать в ходе параметрически эффективной тонкой настройки. Интегрируя эту стратегию выбора слоёв на основе геометрии в тонкую настройку LoRA модели Qwen3-8B-Base, мы достигаем превосходной производительности на MMLU-Math, используя всего 13 слоёв, отобранных с помощью RDP (81.67%), что значительно превосходит как адаптацию всех 36 слоёв (79.32%), так и случайный выбор 13 слоёв (75.56%), а также базовую модель Qwen3-8B-Base (74.25%). Эти результаты демонстрируют, что использование внутренней геометрии траекторий представлений обеспечивает надежный, интерпретируемый и не требующий обучения сигнал для оптимизации выбора слоёв в процессе адаптации модели.
Мультимодальные большие языковые модели (MБЯМ) все чаще используются в качестве автоматических оценщиков — парадигма, известная как «MБЯМ-как-судья». Однако их надежность и уязвимости к смещениям остаются недостаточно изученными. Мы обнаружили, что многие модели-судьи не способны надежно интегрировать ключевые визуальные или текстовые сигналы, что приводит к ненадежным оценкам при отсутствии или несоответствии доказательств, а также проявляет нестабильность при семантически нерелевантных возмущениях. Для решения этой проблемы мы систематически определяем Композиционное Смещение в системах MБЯМ-как-судья и представляем MM-JudgeBias — бенчмарк для его оценки. MM-JudgeBias вводит контролируемые возмущения в Запрос, Изображение и Ответ, а также оценивает поведение модели с помощью двух взаимодополняющих метрик: Отклонение от Смещения (Bias-Deviation, BD) для чувствительности и Соответствие Смещению (Bias-Conformity, BC) для стабильности. Наш набор данных, содержащий более 1800 тщательно отобранных и доработанных мультимодальных примеров, взятых из 29 исходных бенчмарков, позволяет провести детальную диагностику девяти типов смещений в различных задачах и доменах. Эксперименты с 26 современными MБЯМ выявили систематическое пренебрежение модальностями и асимметричные оценочные тенденции, что подчеркивает необходимость в создании более надежных моделей-судей.
Масштабирование трансформерных моделей прогнозирования кликабельности (CTR) за счет увеличения количества параметров приводит к росту вычислительных затрат и требований к хранению данных, создавая растущий разрыв между амбициями по масштабированию и строгими ограничениями промышленного развертывания. Мы предлагаем LoopCTR, который вводит парадигму циклического масштабирования, увеличивая вычислительную нагрузку на этапе обучения за счет рекурсивного повторного использования общих слоев модели, что позволяет отделить вычисления от роста числа параметров. LoopCTR использует сэндвич-архитектуру, усиленную гиперсвязанными остатками и смесью экспертов, а также применяет поэтапный контроль на каждой глубине цикла для кодирования преимуществ многократных циклов в общих параметрах. Это позволяет реализовать стратегию «обучение с множественными циклами, вывод без циклов», при которой единственный прямой проход без каких-либо циклов уже превосходит все базовые модели. Эксперименты на трех публичных бенчмарках и одном промышленном наборе данных демонстрируют наилучшую производительность. Дополнительный анализ показывает наличие неиспользованного потенциала в 0.02–0.04 AUC, причем модели, обученные с меньшим количеством циклов, демонстрируют более высокий потенциальный потолок, указывая на перспективное направление для адаптивного вывода.
Модель равномерного дискретного диффузионного процесса (Uniform Discrete Diffusion Model, UDM) недавно появилась как перспективная парадигма для дискретного генеративного моделирования, однако её интеграция с обучением с подкреплением остаётся практически неисследованной. Мы наблюдаем, что прямое применение GRPO к UDM приводит к нестабильности обучения и незначительному улучшению производительности. Для решения этой проблемы мы предлагаем \Ours — первую структуру для интеграции UDM с RL. Наш метод основан на двух ключевых идеях: (i) использование итогового чистого сэмпла в качестве действия обеспечивает более точные и стабильные сигналы оптимизации; и (ii) реконструкция траекторий через прямой диффузионный процесс лучше согласует вероятностные пути с распределением предварительного обучения. Дополнительно мы вводим две стратегии, Reduced-Step и CFG-Free, для дальнейшего повышения эффективности обучения. \Ours существенно улучшает производительность базовой модели в различных задачах T2I. В частности, точность GenEval возрастает с 69% до 96%, а PickScore увеличивается с 20.46 до 23.81, достигая наилучших результатов как в непрерывных, так и в дискретных настройках. На бенчмарке OCR точность повышается с 8% до 57%, что дополнительно подтверждает способность нашего метода к обобщению. Код доступен по адресу https://github.com/Yovecent/UDM-GRPO.
Распространенные задачи редактирования изображений обычно используют мощные генеративные диффузионные модели в качестве основной парадигмы для редактирования реального контента. В то же время, хотя методы обучения с подкреплением (RL), такие как Diffusion-DPO и Flow-GRPO, дополнительно улучшили качество генерации, эффективное применение обучения с подкреплением на основе человеческих предпочтений (RLHF) для диффузионного редактирования остается малоизученным из-за отсутствия масштабируемых наборов данных о человеческих предпочтениях и фреймворков, адаптированных к разнообразным потребностям редактирования. Чтобы заполнить этот пробел, мы предлагаем HP-Edit — фреймворк пост-обучения для редактирования, согласованного с человеческими предпочтениями, и представляем RealPref-50K, набор реальных данных, охватывающий восемь распространенных задач и сбалансированный по редактированию обычных объектов. В частности, HP-Edit использует небольшое количество данных оценки человеческих предпочтений и предварительно обученную крупную визуальную языковую модель (VLM) для создания HP-Scorer — автоматического оценщика, согласованного с человеческими предпочтениями. Затем мы используем HP-Scorer как для эффективного построения масштабируемого набора данных о предпочтениях, так и в качестве функции вознаграждения для пост-обучения модели редактирования. Мы также представляем RealPref-Bench — бенчмарк для оценки производительности редактирования в реальных условиях. Многочисленные эксперименты демонстрируют, что наш подход значительно улучшает модели, такие как Qwen-Image-Edit-2509, лучше согласовывая их выходные данные с человеческими предпочтениями.
Теория функционала плотности (DFT) лежит в основе большей части современной вычислительной химии и науки о материалах. Однако надежность предсказаний DFT для экспериментально измеряемых свойств фундаментально ограничена необходимостью аппроксимации неизвестного обменно-корреляционного (XC) функционала. Традиционная парадигма повышения точности опиралась на все более сложные, создаваемые вручную функциональные формы. Этот подход привел к давнему компромиссу между вычислительной эффективностью и точностью, который остается недостаточным для надежного предсказательного моделирования лабораторных экспериментов. Здесь мы представляем Skala, XC-функционал на основе глубокого обучения, который превосходит современные гибридные функционалы по точности на основном наборе бенчмарков по химии main-group элементов GMTKN55 с ошибкой 2.8 ккал/моль, сохраняя при этом более низкую вычислительную стоимость, характерную для полулокальной DFT. Этот продемонстрированный отход от исторического компромисса между точностью и эффективностью стал возможным благодаря обучению нелокальных представлений электронной структуры непосредственно на данных, минуя необходимость во все более дорогостоящих ручно разрабатываемых признаках. Используя беспрецедентный объем высокоточной референсной данных из методов на основе волновой функции, мы устанавливаем, что современное глубокое обучение позволяет создавать систематически улучшаемые нейронные модели обмена и корреляции по мере расширения обучающих наборов данных, что открывает путь к постепенному повышению предсказательной способности расчетов из первых принципов.
Недавние исследования продемонстрировали перспективность использования больших языковых моделей (БЯМ) в эволюционных и агентных системах оптимизации. Однако механизмы, лежащие в основе этих улучшений оптимизации, остаются слабо изученными. В данной работе представлено масштабное исследование эволюционного поиска под управлением БЯМ, в ходе которого собраны траектории оптимизации для 15 моделей на 8 задачах. Хотя способность к решению задач в режиме zero-shot коррелирует с итоговыми результатами оптимизации, она объясняет лишь часть дисперсии: модели со сходной исходной производительностью часто порождают принципиально разные траектории поиска и результаты. Анализируя эти траектории, мы обнаружили, что эффективные БЯМ-оптимизаторы действуют как локальные уточнители, обеспечивая частые постепенные улучшения при одновременной прогрессирующей локализации поиска в семантическом пространстве. Напротив, слабые оптимизаторы демонстрируют значительный семантический дрейф со спорадическими прорывами, за которыми следует стагнация. Примечательно, что различные меры новизны решений не предсказывают итоговую производительность; новизна полезна только тогда, когда поиск остается достаточно локализованным в высокопроизводительных областях пространства решений. Наши результаты подчеркивают важность анализа траекторий для понимания и совершенствования систем оптимизации на основе БЯМ и дают практические рекомендации для их проектирования и обучения.
Инструменты интерпретируемости всё чаще применяются для анализа сбоев больших языковых моделей (LLM), однако предыдущие работы в основном сосредоточены на коротких промптах или упрощенных сценариях, оставляя поведение моделей на общепринятых бенчмарках недостаточно изученным. Чтобы восполнить этот пробел, мы исследуем контрастные атрибуции на основе LRP как практический инструмент анализа сбоев LLM в реалистичных условиях. Мы формулируем анализ сбоев как контрастную атрибуцию, приписывая разницу логитов между некорректным выходным токеном и корректной альтернативой входным токенам и внутренним состояниям модели, и представляем эффективное расширение, позволяющее строить межслойные графы атрибуции для длинных контекстов. Используя этот подход, мы проводим систематическое эмпирическое исследование на различных бенчмарках, сравнивая паттерны атрибуции между наборами данных, размерами моделей и контрольными точками обучения. Наши результаты показывают, что контрастная атрибуция на уровне токенов может давать информативные сигналы в некоторых случаях сбоев, но не является универсально применимой, что подчеркивает как её полезность, так и ограничения для реалистичного анализа ошибок LLM. Наш код доступен по адресу: https://aka.ms/Debug-XAI.
Языковые модели все чаще используются в научных открытиях для генерации гипотез, предложения кандидатных решений, реализации систем и их итеративного совершенствования. В основе этих циклов проб и ошибок лежит оценка: процесс получения обратной связи о кандидатных решениях с помощью верификаторов, симуляторов или предметно-ориентированных функций оценки. Хотя предыдущие работы подчеркивали важность оценки, они не формулировали явно проблему масштабирования циклов открытий, управляемых оценкой, принципиальным и эффективным способом для расширения границ научного познания — проблему, которую решает данная статья. Мы представляем Simple Test-time Evaluation-driven Scaling (SimpleTES), общий фреймворк, который стратегически объединяет параллельное исследование, уточнение на основе обратной связи и локальный отбор, демонстрируя значительный прогресс, достигаемый за счет масштабирования циклов открытий по правильным направлениям. На 21 научной задаче из шести областей SimpleTES обнаруживает передовые решения, используя модели GPT с открытым исходным кодом, последовательно превосходя как базовые линии на основе фронтирных моделей, так и сложные оптимизационные конвейеры. В частности, мы ускорили широко используемый алгоритм LASSO более чем в 2 раза, разработали политики маршрутизации квантовых схем, снижающие накладные расходы на гейты на 24,5%, и открыли новые конструкции Эрдёша с минимальным перекрытием, превосходящие известные результаты. Помимо новых открытий, SimpleTES создает траекторные истории, которые естественным образом обучают модели на основе обратной связи. При дообучении на успешных траекториях модели не только повышают эффективность на известных задачах, но и обобщают знания на новые задачи, обнаруживая решения, недоступные базовым моделям. В совокупности наши результаты устанавливают эффективное масштабирование оценочных циклов как ключевое направление для развития научных открытий на основе больших языковых моделей и предоставляют простой, но практичный фреймворк для достижения этих результатов.
Современные фреймворки ИИ-агентов достигли значительного прогресса в автоматизации отдельных задач, однако все существующие системы обслуживают единственного пользователя. Человеческая производительность основывается на социальных и организационных отношениях, посредством которых люди координируются, ведут переговоры и делегируют полномочия. Когда агенты переходят от выполнения задач для одного человека к представлению его интересов при сотрудничестве с другими, инфраструктура для межпользовательского взаимодействия агентов полностью отсутствует, не говоря уже о механизмах управления, необходимых для её защиты. Мы утверждаем, что следующий рубеж для ИИ-агентов заключается не в усилении индивидуальных возможностей, а в цифровизации человеческих отношений сотрудничества. Для этой цели мы предлагаем парадигму человеко-симбиотических агентов. Каждый пользователь владеет постоянно связанной агентной системой, которая сотрудничает от его имени, формируя сеть, узлами которой являются люди, а не агенты. Данная парадигма основывается на трёх примитивах управления. Многоуровневая архитектура идентичности разделяет Менеджера Агентов и множество контекстно-зависимых Агентов Идентичности; Менеджер Агентов обладает глобальными знаниями, но архитектурно изолирован от внешней коммуникации. Ограниченная авторизация обеспечивает контроль доступа для каждой идентичности и эскалирует нарушения границ владельцу. Подотчётность на уровне действий регистрирует каждую операцию с привязкой к идентичности и авторизации владельца, гарантируя полную аудируемость. Мы реализуем эту парадигму в ClawNet — фреймворке для взаимодействия агентов с управлением идентичностью, который обеспечивает привязку идентичности и проверку авторизации через центральный оркестратор, позволяя нескольким пользователям безопасно сотрудничать через своих агентов.
Крупные визуально-языковые модели (LVLM) по-прежнему сталкиваются с проблемой визуальных галлюцинаций, когда генерируемые ответы не соответствуют визуальному входу. Существующие методы либо полагаются на крупномасштабные размеченные данные для тонкой настройки, что влечет значительные вычислительные затраты, либо используют статические пост-обработки, игнорирующие динамическую природу возникновения галлюцинаций. Для решения этих проблем мы представляем новую само-вознаграждающую структуру, позволяющую динамически смягчать галлюцинации во время вывода без внешнего контроля. С эмпирической стороны мы показываем, что визуальные галлюцинации демонстрируют фазово-динамические паттерны, достигая пика в начале каждой семантической фазы. Основываясь на этих наблюдениях, мы предлагаем PSRD (фазовое декодирование с само-вознаграждением) для онлайн-коррекции галлюцинаций, направляемое фазовыми сигналами само-вознаграждения. Для снижения затрат на повторную самооценку во время декодирования мы дистиллируем сигнал управления галлюцинациями из LVLM в облегченную модель вознаграждения. Эта модель вознаграждения затем обеспечивает оперативное руководство для целевого вмешательства в процессе декодирования, позволяя точно подавлять галлюцинации. Предлагаемый метод PSRD значительно снижает уровень галлюцинаций модели LLaVA-1.5-7B на 50.0% и последовательно превосходит существующие методы пост-обработки на пяти тестовых наборах для оценки галлюцинаций для четырех LVLM. Дальнейший анализ подтверждает, что PSRD эффективно смягчает распространение галлюцинаций и обеспечивает высоко контролируемый баланс между высокой производительностью и эффективностью вывода.
Периферийные устройства, такие как умные часы и умные очки, не могут непрерывно выполнять даже самые малые языковые модели с 100 млн - 1 млрд параметров из-за ограничений по энергопотреблению и вычислительным ресурсам, в то время как облачный вывод вносит задержки в несколько секунд, что разрушает иллюзию отзывчивого помощника. Мы представляем микромодели языка (μLM): сверхкомпактные модели (8-30 млн параметров), которые мгновенно генерируют первые 4-8 слов контекстуально обоснованного ответа непосредственно на устройстве, в то время как облачная модель завершает его, маскируя таким образом облачную задержку. Мы показываем, что полезная языковая генерация сохраняется и в этом экстремальном масштабе: наши модели соответствуют по качеству нескольким существующим моделям класса 70-256 млн параметров. Мы разработали фреймворк совместной генерации, который переосмысливает облачную модель как продолжателя, а не ответчика, достигая бесшовной передачи управления в середине предложения и структурированного изящного восстановления с помощью трех методов коррекции ошибок в случае неудачного локального начала. Эмпирические результаты показывают, что μLM способны инициировать ответы, которые более крупные модели бесшовно завершают, демонстрируя достижимость асимметричной коллаборации на порядки величин и открывая путь к отзывчивому ИИ для устройств с крайне ограниченными ресурсами. Чекпоинт модели и демо доступны по адресу https://github.com/Sensente/micro_language_model_swen_project.
Мы изучаем задачу прогнозирования числовых меток, ограниченных целыми числами или их поддиапазоном. Например, количество голосов «за» в постах социальных сетей или число доступных велосипедов на станциях общественного проката. Хотя можно моделировать их как непрерывные величины и применять традиционную регрессию, такой подход изменяет исходное распределение меток с дискретного на непрерывное. Дискретные распределения обладают определёнными преимуществами, что подводит нас к вопросу: можно ли такие целочисленные метки напрямую моделировать с помощью дискретного распределения, параметры которого прогнозируются на основе признаков данного объекта. Более того, мы фокусируемся на сценарии использования выходных распределений нейронных сетей, что добавляет требование непрерывности параметров распределения, чтобы обратное распространение ошибки и градиентный спуск могли использоваться для обучения весов сети. Мы исследуем несколько вариантов таких распределений, как существующих, так и новых, и тестируем их на ряде задач, включая табличное обучение, последовательное прогнозирование и генерацию изображений. Мы обнаруживаем, что в целом наилучшие результаты демонстрируют два распределения: Bitwise, которое представляет целевое целое число в битовом виде и задает распределение Бернулли для каждого бита, и дискретный аналог распределения Лапласа, использующий распределение с экспоненциально убывающими хвостами вокруг непрерывного среднего значения.
Современные системы речевого перевода (S2ST) демонстрируют высокую смысловую точность, но последовательно удаляют невербальные вокализации (NV), такие как смех и плач, передающие прагматический подтекст, что существенно ограничивает их практическую применимость. Мы решаем эту проблему с помощью трёх ключевых вкладов. Во-первых, мы предлагаем конвейер синтеза для создания масштабируемых экспрессивных наборов данных, чтобы преодолеть проблему нехватки данных. Во-вторых, мы предлагаем MoVE — архитектуру смеси экспертов на основе LoRA со специализированными адаптерами для передачи экспрессии и маршрутизатором с мягким взвешиванием, который комбинирует экспертов для воспроизведения гибридных эмоциональных состояний. В-третьих, мы показываем, что предобученные AudioLLM обеспечивают поразительную эффективность данных: для достижения высоких результатов достаточно 30 минут тщательно отобранных данных. В задаче англо-китайского S2ST, в сравнении с сильными базовыми моделями, MoVE воспроизводит целевые NV в 76% случаев и достигает наивысших оценок естественности и эмоциональной достоверности по мнению людей среди всех сравниваемых систем, тогда как существующие системы S2ST сохраняют не более 14% NV.
Децентрализованные автономные организации (ДАО) проявляют склонность к исследованию малых языковых моделей (SLM) в качестве эдж-нативных конституционных файрволов для проверки предложений и противодействия семантическому социальному инжинирингу. Хотя масштабирование вычислительных ресурсов на этапе логического вывода (Система 2) усиливает формальную логику, её эффективность в высоко-адверсивных криптоэкономических средах управления остаётся недостаточно изученной. Для решения этой проблемы мы представляем Sentinel-Bench, эмпирический фреймворк на 840 выводах, проводящий строгое внутримодельное абляционное исследование на Qwen-3.5-9B. Переключая латентные рассуждения поверх замороженных весов, мы изолируем влияние вычислительных ресурсов логического вывода на адверсивном наборе данных Optimism DAO. Наши результаты выявляют серьёзную инверсию «вычисления-точность». Авторегрессионный базовый уровень (Система 1) продемонстрировал 100% устойчивость к атакам, 100% юридическую согласованность и финализацию состояния менее чем за 13 секунд. Напротив, рассуждения Системы 2 привнесли катастрофическую нестабильность, фундаментально обусловленную 26,7% уровнем не-сходимости рассуждений (когнитивный коллапс). Этот коллапс снизил стабильность консенсуса между попытками до 72,6% и привёл к 17-кратным задержкам, создав критические уязвимости для извлекаемой стоимости управления (GEV) и централизации аппаратного обеспечения. Хотя и редко (1,5% адверсивных испытаний), мы эмпирически зафиксировали «рассужденчески-индуцированный сикофантство», когда модель генерировала значительно более длинные внутренние монологи (в среднем 25 750 символов) для рационализации провала в адверсивной ловушке. Мы заключаем, что для эдж-нативных SLM, функционирующих в условиях византийской отказоустойчивости (BFT), параметризованная интуиция Системы 1 структурно и экономически превосходит итеративные обсуждения Системы 2 для децентрализованного консенсуса. Код и набор данных: https://github.com/smarizvi110/sentinel-bench
Мультимодальные модели рассуждений (MRM), использующие цепочечное мышление (Chain-of-Thought, CoT), произвели революцию в решении математических и логических задач. Однако мы показываем, что данная парадигма испытывает трудности с обобщенным пространственным интеллектом. Мы проводим комплексную оценку семнадцати моделей на тринадцати пространственных бенчмарках и выявляем критический пробел: использование CoT-подсказок последовательно ухудшает результаты в задачах визуально-пространственного рассуждения. Более того, с помощью нового метода абляции No-Image++ мы демонстрируем, что MRM и языковые модели с CoT-подсказками подвержены серьезному обучению с использованием «коротких путей» и галлюцинируют визуальные детали на основе текстовых предикторов, даже когда изображение отсутствует. Эти результаты ставят под сомнение эффективность текстового CoT для пространственных задач и подчеркивают необходимость создания ориентированных на зрительное восприятие парадигм рассуждений.
Мультимодальные большие языковые модели (МБЯМ) демонстрируют впечатляющий прогресс в решении стандартных задач по обработке визуальной информации и языка, однако их способности к визуальному познанию и пространственно-зрительным рассуждениям остаются малоизученными. Мы представляем "Мысленный взор" — тестовый набор с множественным выбором, состоящий из восьми заданий на визуально-когнитивные способности, вдохновленных классическими тестами на интеллект и организованных по новой таксономии "А-О-П": Абстракция, Отношения и Преобразование. Задания исследуют ключевые процессы подвижного интеллекта, такие как индукция паттернов, установление аналогий и мысленное преобразование. Мы оцениваем разнообразный набор проприетарных и открытых МБЯМ и сравниваем их результаты с показателями людей-участников. Люди достигают точности в 80%, в то время как лучшие модели МБЯМ показывают результат ниже 50%. Анализ ошибок выявляет недостатки в: (i) распределении зрительного внимания, (ii) внутреннем перцептивном манипулировании и (iii) слабой абстракции базовых визуальных концептов. Наши результаты свидетельствуют, что современные МБЯМ обладают ограниченными способностями к пространственно-зрительным рассуждениям по сравнению с человеком, что подчеркивает необходимость разработки более обоснованных с когнитивной точки зрения оценочных методик.
Реализация игрового интерфейса требует преобразования стилизованных макетов в интерактивные сущности движка. Однако современные инструменты типа "Screenshot-to-Code" часто не справляются с нерегулярной геометрией и сложными визуальными иерархиями, характерными для игровых интерфейсов. Для преодоления этого разрыва мы представляем SPRITE — конвейер, преобразующий статические скриншоты в редактируемые ассеты движка. Интегрируя модели "Vision-Language" (VLM) со структурированным промежуточным представлением на основе YAML, SPRITE явно захватывает сложные отношения контейнеров и нерегулярные макеты. Мы оценили SPRITE на специально созданном бенчмарке игровых UI и провели экспертные обзоры с профессиональными разработчиками для оценки точности реконструкции и эффективности прототипирования. Наши результаты демонстрируют, что SPRITE упрощает разработку, автоматизируя рутинное кодирование и разрешая сложные вложенные структуры. Обеспечивая быструю итерацию непосредственно в движке, SPRITE эффективно стирает границы между художественным дизайном и технической реализацией в игровой разработке. Страница проекта: https://baiyunshu.github.io/sprite.github.io/