Ежедневно отобранные исследовательские статьи по ИИ с переводами
Задача разрешения проблем заключается в модификации кодовой базы для создания патча, который устраняет заданную проблему. Однако существующие бенчмарки, такие как SWE-bench, сосредоточены почти исключительно на Python, что делает их недостаточными для оценки больших языковых моделей (LLM) в разнообразных программных экосистемах. Чтобы решить эту проблему, мы представляем мультиязычный бенчмарк для разрешения проблем, называемый Multi-SWE-bench, охватывающий Java, TypeScript, JavaScript, Go, Rust, C и C++. Он включает в себя 1632 высококачественных примера, которые были тщательно аннотированы из 2456 кандидатов 68 экспертами, что гарантирует точную и надежную оценку. На основе Multi-SWE-bench мы оцениваем серию современных моделей с использованием трех репрезентативных методов (Agentless, SWE-agent и OpenHands) и представляем всесторонний анализ с ключевыми эмпирическими выводами. Кроме того, мы запускаем открытое сообщество Multi-SWE-RL, направленное на создание крупномасштабных наборов данных для обучения с подкреплением (RL) для задач разрешения проблем. В качестве начального вклада мы выпускаем набор из 4723 хорошо структурированных примеров, охватывающих семь языков программирования, что закладывает прочную основу для исследований RL в этой области. Более того, мы открываем весь наш конвейер производства данных вместе с подробными руководствами, поощряя открытое сообщество к постоянному вкладу и расширению набора данных. Мы видим наш Multi-SWE-bench и постоянно растущее сообщество Multi-SWE-RL как катализаторы для продвижения RL к его полному потенциалу, приближая нас на шаг ближе к рассвету искусственного общего интеллекта (AGI).
Математическое мышление является краеугольным камнем человеческого интеллекта и ключевым критерием для оценки продвинутых способностей больших языковых моделей (LLM). Однако исследовательское сообщество до сих пор испытывает недостаток в открытом, крупномасштабном и высококачественном корпусе данных, адаптированном под задачи предобучения LLM с математической направленностью. Мы представляем MegaMath — открытый набор данных, созданный из разнообразных математически ориентированных источников с использованием следующих подходов: (1) Повторный анализ веб-данных: мы повторно извлекли математические документы из Common Crawl с оптимизацией HTML для математического контента, фильтрацией на основе fasttext и удалением дубликатов, что позволило получить более качественные данные из интернета. (2) Использование данных, связанных с математическим кодом: мы выделили высококачественный математический код из крупного корпуса для обучения коду, Stack-V2, что дополнительно повысило разнообразие данных. (3) Создание синтетических данных: мы синтезировали тексты в формате вопросов и ответов, математический код и блоки, сочетающие текст и код, на основе веб-данных или данных кода. Благодаря интеграции этих стратегий и подтверждению их эффективности с помощью масштабных экспериментов, MegaMath предлагает 371 миллиард токенов, что делает его самым крупным и качественным среди существующих открытых наборов данных для предобучения математическим задачам.
Крупные языковые модели (LLM) демонстрируют значительные результаты в различных задачах агентского планирования. Однако традиционные подходы к планированию агентов используют методологию "полива по всей площади", которая без разбора внедряет золотые траектории, внешнюю обратную связь и знания предметной области в модели агентов. Этот подход игнорирует фундаментальный когнитивный принцип человека — ситуационную самоосознанность в процессе принятия решений, то есть способность динамически оценивать требования ситуации и стратегически использовать ресурсы. Мы предлагаем концепцию агентской осознанной самоосознанности (agentic knowledgeable self-awareness) для устранения этого пробела — новую парадигму, которая позволяет агентам на основе LLM автономно регулировать использование знаний. В частности, мы представляем KnowSelf, подход, ориентированный на данные, который наделяет агентов осознанной самоосознанностью, подобно людям. Конкретно, мы разрабатываем эвристический критерий оценки ситуации для маркировки специальных токенов на самостоятельно исследованных траекториях агента с целью сбора обучающих данных. Благодаря двухэтапному процессу обучения модель агента может переключаться между различными ситуациями, генерируя специфические специальные токены, достигая оптимальных результатов планирования с минимальными затратами. Наши эксперименты показывают, что KnowSelf превосходит различные сильные базовые подходы на разных задачах и моделях при минимальном использовании внешних знаний. Код доступен по адресу https://github.com/zjunlp/KnowSelf.
В данной работе мы представляем VARGPT-v1.1 — усовершенствованную унифицированную визуальную авторегрессионную модель, которая развивает наш предыдущий фреймворк VARGPT. Модель сохраняет двойную парадигму: предсказание следующего токена для визуального понимания и генерация следующего масштаба для синтеза изображений. В частности, VARGPT-v1.1 включает: (1) новую стратегию обучения, сочетающую итеративную настройку визуальных инструкций с обучением с подкреплением через оптимизацию прямых предпочтений (DPO), (2) расширенный обучающий корпус, содержащий 8,3 миллиона визуально-генеративных пар инструкций, (3) обновленную языковую модель на основе Qwen2, (4) улучшенное разрешение генерации изображений и (5) новые возможности редактирования изображений без изменений архитектуры. Эти усовершенствования позволяют VARGPT-v1.1 достичь наилучших результатов в задачах мультимодального понимания и выполнения текстово-визуальных инструкций, демонстрируя значительные улучшения как в метриках понимания, так и генерации. Примечательно, что благодаря настройке визуальных инструкций модель приобретает функциональность редактирования изображений, сохраняя архитектурную согласованность с предшественником, что раскрывает потенциал для унифицированного визуального понимания, генерации и редактирования. Наши результаты показывают, что хорошо спроектированные унифицированные визуальные авторегрессионные модели могут эффективно адаптировать гибкие стратегии обучения из крупных языковых моделей (LLM), демонстрируя перспективную масштабируемость. Код и веса модели доступны по адресу: https://github.com/VARGPT-family/VARGPT-v1.1.
Трансформеры являются краеугольным камнем современных крупных языковых моделей, однако их квадратичная вычислительная сложность ограничивает эффективность при обработке длинных последовательностей. Недавние достижения в модели Mamba, основанной на пространстве состояний (SSM) с линейной сложностью, предлагают перспективные улучшения в эффективности, но страдают от нестабильного контекстного обучения и обобщения на множественные задачи. В данной статье предлагается TransMamba — новая архитектура, которая объединяет Transformer и Mamba через общие матрицы параметров (например, QKV и CBx), что позволяет динамически переключаться между механизмами внимания и SSM на разных уровнях и длинах токенов. Мы разработали Memory converter для соединения Transformer и Mamba путем преобразования выходов внимания в состояния, совместимые с SSM, обеспечивая плавный поток информации в точках трансформации (TransPoints). Также тщательно исследуется планирование TransPoint для дальнейших улучшений. Проведенные эксперименты демонстрируют, что TransMamba достигает превосходной эффективности обучения и производительности по сравнению с базовыми моделями, а также подтверждают более глубокую согласованность между парадигмами Transformer и Mamba, предлагая масштабируемое решение для моделирования последовательностей следующего поколения.
Во взаимодействии между агентами и их окружением агенты расширяют свои возможности, планируя и выполняя действия. Однако агенты на основе языковых моделей (LLM) сталкиваются с существенными трудностями при развертывании в новых средах или при необходимости навигации в нестандартных пространствах действий. Чтобы наделить агентов способностью автономно исследовать окружение, оптимизировать рабочие процессы и углублять понимание действий, мы предлагаем SynWorld — фреймворк, который позволяет агентам синтезировать возможные сценарии с многошаговым вызовом действий в рамках пространства действий и выполнять исследование с помощью метода Монте-Карло для деревьев поиска (MCTS) для эффективного уточнения знаний о действиях в текущей среде. Наши эксперименты демонстрируют, что SynWorld является эффективным и универсальным подходом к изучению знаний о действиях в новых средах. Код доступен по адресу https://github.com/zjunlp/SynWorld.
Автономные агенты, основанные на фундаментальных моделях, получили широкое распространение в различных реальных приложениях. Однако они остаются крайне уязвимыми к вредоносным инструкциям и атакам, что может привести к серьезным последствиям, таким как утечки конфиденциальной информации и финансовые потери. Более того, существующие защитные механизмы для крупных языковых моделей (LLM) неприменимы из-за сложной и динамичной природы агентов. Для решения этих проблем мы предлагаем ShieldAgent — первый защитный агент, предназначенный для обеспечения соблюдения явных политик безопасности в траекториях действий других защищаемых агентов с помощью логического анализа. В частности, ShieldAgent сначала строит модель политики безопасности, извлекая проверяемые правила из документов политик и структурируя их в набор вероятностных правил, основанных на действиях. Получив траекторию действий защищаемого агента, ShieldAgent извлекает соответствующие правила и формирует план защиты, используя свою обширную библиотеку инструментов и исполняемый код для формальной верификации. Кроме того, учитывая отсутствие эталонных тестов для защитных механизмов агентов, мы представляем ShieldAgent-Bench — набор данных, содержащий 3 тыс. пар инструкций и траекторий действий, связанных с безопасностью, собранных с помощью современных атак в 6 веб-средах и 7 категориях рисков. Эксперименты показывают, что ShieldAgent достигает наилучших результатов на ShieldAgent-Bench и трех существующих эталонных тестах, превосходя предыдущие методы в среднем на 11,3% с высоким показателем полноты 90,1%. Кроме того, ShieldAgent сокращает количество API-запросов на 64,7% и время вывода на 58,2%, демонстрируя высокую точность и эффективность в защите агентов.
Обучение эффективных ИИ-агентов для многоходовых взаимодействий требует высококачественных данных, которые отражают реалистичную динамику между человеком и агентом, однако такие данные редки и дорогостоящи для ручного сбора. Мы представляем APIGen-MT, двухэтапную структуру, которая генерирует проверяемые и разнообразные данные для многоходовых агентов. На первом этапе наш агентский конвейер создает детальные планы задач с истинными действиями, используя комитет рецензентов на основе больших языковых моделей (LLM) и итеративные циклы обратной связи. Эти планы затем преобразуются в полные траектории взаимодействия через симулированное взаимодействие человека и агента. Мы обучаем семейство моделей — серию xLAM-2-fc-r с размерами от 1B до 70B параметров. Наши модели превосходят передовые модели, такие как GPT-4o и Claude 3.5, на бенчмарках tau-bench и BFCL, причем меньшие модели обходят своих более крупных собратьев, особенно в многоходовых сценариях, сохраняя при этом превосходную согласованность в нескольких испытаниях. Комплексные эксперименты демонстрируют, что наш проверенный подход от плана к деталям обеспечивает высококачественные обучающие данные, что позволяет разрабатывать более надежных, эффективных и способных агентов. Мы открываем исходный код как для собранных синтетических данных, так и для обученных моделей xLAM-2-fc-r, чтобы способствовать исследованиям в области ИИ-агентов. Модели доступны на HuggingFace по ссылке https://huggingface.co/collections/Salesforce/xlam-2-67ef5be12949d8dcdae354c4, а проект представлен на сайте https://apigen-mt.github.io.
Существующие бенчмарки для MLLM (многоязыковых языковых моделей) сталкиваются с серьезными проблемами при оценке унифицированных MLLM (U-MLLM) из-за: 1) отсутствия стандартизированных бенчмарков для традиционных задач, что приводит к несогласованным сравнениям; 2) отсутствия бенчмарков для задач смешанной модальности, что не позволяет оценить способности к мультимодальному рассуждению. Мы представляем комплексную систему оценки, разработанную для систематического анализа U-MLLM. Наш бенчмарк включает: 1. Стандартизированную оценку традиционных задач. Мы используем выборки из 12 наборов данных, охватывающих 10 задач с 30 подзадачами, что обеспечивает согласованные и справедливые сравнения между исследованиями. 2. Унифицированную оценку задач. Мы вводим пять новых задач, тестирующих мультимодальное рассуждение, включая редактирование изображений, вопросы на здравый смысл с генерацией изображений и геометрическое рассуждение. 3. Комплексное тестирование моделей. Мы оцениваем 12 ведущих U-MLLM, таких как Janus-Pro, EMU3, VILA-U и Gemini2-flash, а также специализированные модели для понимания (например, Claude-3.5-Sonnet) и генерации (например, DALL-E-3). Наши результаты выявляют значительные пробелы в производительности существующих U-MLLM, подчеркивая необходимость создания более устойчивых моделей, способных эффективно справляться с задачами смешанной модальности. Код и данные для оценки доступны по адресу https://mme-unify.github.io/.
Реконструкция человека по одному изображению имеет ключевое значение для приложений цифрового моделирования человека, но остается крайне сложной задачей. Современные подходы используют генеративные модели для синтеза изображений с нескольких ракурсов с последующей 3D-реконструкцией и анимацией. Однако прямое генерирование нескольких видов из одного изображения человека страдает от геометрических несоответствий, что приводит к таким проблемам, как фрагментированные или размытые конечности в реконструированных моделях. Для преодоления этих ограничений мы представляем HumanDreamer-X — новую структуру, которая объединяет генерацию и реконструкцию человека с нескольких ракурсов в единый конвейер, что значительно повышает геометрическую согласованность и визуальную точность реконструированных 3D-моделей. В этой структуре 3D Gaussian Splatting используется как явное 3D-представление для обеспечения начальной геометрии и приоритета внешнего вида. На основе этого обучается HumanFixer, который восстанавливает рендеры 3DGS, гарантируя фотореалистичные результаты. Кроме того, мы исследуем внутренние проблемы, связанные с механизмами внимания в генерации человека с нескольких ракурсов, и предлагаем стратегию модуляции внимания, которая эффективно улучшает геометрические детали и согласованность идентичности между видами. Экспериментальные результаты показывают, что наш подход значительно улучшает метрики качества PSNR для генерации и реконструкции на 16,45% и 12,65% соответственно, достигая PSNR до 25,62 дБ, а также демонстрирует способность к обобщению на данных из реального мира и применимость к различным базовым моделям реконструкции человека.
В данной работе представлен метод Comprehensive Relighting — первый универсальный подход, который позволяет как управлять, так и гармонизировать освещение на изображении или видео людей с произвольными частями тела в любом сцене. Создание такой обобщаемой модели является крайне сложной задачей из-за отсутствия подходящих наборов данных, что ограничивает существующие методы переосвещения на основе изображений конкретными сценариями (например, лицо или статичный человек). Для решения этой проблемы мы адаптируем предварительно обученную диффузионную модель в качестве общего априорного представления изображения и совместно моделируем переосвещение человека и гармонизацию фона в рамках подхода от грубого к детальному. Для дальнейшего улучшения временной согласованности переосвещения мы вводим неконтролируемую временную модель освещения, которая изучает цикличность освещения на основе множества реальных видеозаписей без использования эталонных данных. На этапе вывода временная модель освещения комбинируется с диффузионными моделями через алгоритмы пространственно-временного смешивания признаков без дополнительного обучения; также применяется новый метод направленного уточнения в качестве постобработки для сохранения высокочастотных деталей исходного изображения. В экспериментах Comprehensive Relighting демонстрирует высокую обобщаемость и временную согласованность освещения, превосходя существующие методы переосвещения и гармонизации изображений людей.
Сегментация медицинских изображений и видео является ключевой задачей для точной медицины, в которой наблюдается значительный прогресс в разработке специализированных и универсальных моделей для 2D-изображений. Однако исследований, посвященных созданию универсальных моделей для 3D-изображений и видео с проведением масштабных пользовательских исследований, до сих пор было ограниченное количество. В данной работе мы представляем MedSAM2 — модель-основу для сегментации 3D-изображений и видео, поддерживающую работу с подсказками. Модель разработана путем дообучения Segment Anything Model 2 на большом медицинском наборе данных, включающем более 455 000 пар 3D-изображений и масок, а также 76 000 кадров, и превосходит предыдущие модели в сегментации широкого спектра органов, поражений и методов визуализации. Кроме того, мы реализовали процесс с участием человека для облегчения создания крупномасштабных наборов данных, что привело, насколько нам известно, к самому обширному на сегодняшний день пользовательскому исследованию, включающему аннотирование 5 000 КТ-поражений, 3 984 МРТ-поражений печени и 251 550 кадров эхокардиограмм, демонстрируя, что MedSAM2 может сократить ручные затраты более чем на 85%. MedSAM2 также интегрирована в широко используемые платформы с удобными интерфейсами для локального и облачного развертывания, что делает её практичным инструментом для поддержки эффективной, масштабируемой и высококачественной сегментации как в исследовательских, так и в клинических условиях.
Сбалансированное сочетание временного разрешения и пространственной детализации при ограниченном вычислительном бюджете остается ключевой задачей для видео-ориентированных мультимодальных больших языковых моделей (MLLMs). Существующие методы обычно сжимают видео-представления с использованием заранее заданных правил перед их подачей в языковую модель, что приводит к необратимой потере информации и часто игнорированию входных инструкций. Для решения этой проблемы мы предлагаем новую архитектуру "медленно-быстро", которая естественным образом обходит этот компромисс, позволяя использовать больше входных кадров при сохранении пространственных деталей. Вдохновленные тем, как человек сначала бегло просматривает видео, а затем сосредотачивается на важных частях, наша архитектура "медленно-быстро" использует стратегию двойных токенов: 1) "быстрые" визуальные токены — компактный набор сжатых видео-признаков — подаются в языковую модель вместе с текстовыми эмбеддингами для быстрого обзора; 2) "медленные" визуальные токены — несжатые видео-признаки — обрабатываются текстовыми эмбеддингами через специально разработанные гибридные слои декодера, что позволяет извлекать релевантные визуальные детали с линейной сложностью с учетом инструкций. Мы проводим систематическое исследование для оптимизации как общей архитектуры, так и ключевых компонентов. Эксперименты показывают, что наша модель значительно превосходит базовые подходы, основанные только на самовнимании, увеличивая входную емкость с 16 до 128 кадров при увеличении вычислений всего на 3% и достигая среднего улучшения производительности на 16% на пяти бенчмарках для понимания видео. Наша 7B модель демонстрирует наилучшие результаты среди моделей аналогичного размера. Более того, архитектура "медленно-быстро" является модульной и может быть интегрирована в другие видео-ориентированные MLLMs для повышения эффективности и масштабируемости.
В данном исследовании мы представляем BEATS — новую структуру для оценки предвзятости, этики, справедливости и достоверности в крупных языковых моделях (LLM). На основе структуры BEATS мы предлагаем эталонный тест для измерения предвзятости LLM, который охватывает 29 различных метрик. Эти метрики охватывают широкий спектр характеристик, включая демографические, когнитивные и социальные предубеждения, а также показатели этического мышления, групповой справедливости и риска распространения недостоверной информации. Эти метрики позволяют количественно оценить степень, в которой ответы, генерируемые LLM, могут способствовать сохранению социальных предрассудков, усиливающих или расширяющих системное неравенство. Для достижения высокого результата в этом тесте LLM должна демонстрировать исключительно справедливое поведение в своих ответах, что делает его строгим стандартом для оценки ответственного ИИ. Эмпирические результаты, основанные на данных нашего эксперимента, показывают, что 37,65% выходных данных, сгенерированных ведущими отраслевыми моделями, содержали ту или иную форму предвзятости, что подчеркивает существенный риск использования этих моделей в системах критически важных решений. Структура и эталонный тест BEATS предлагают масштабируемую и статистически строгую методологию для тестирования LLM, диагностики факторов, вызывающих предвзятость, и разработки стратегий по её устранению. С помощью структуры BEATS наша цель — способствовать созданию более социально ответственных и этически ориентированных моделей ИИ.
Когда звуковые волны воздействуют на объект, они вызывают вибрации, которые порождают высокочастотные и тонкие визуальные изменения, которые могут быть использованы для восстановления звука. Ранние исследования всегда сталкивались с компромиссами, связанными с частотой дискретизации, полосой пропускания, полем зрения и простотой оптического пути. Недавние достижения в аппаратном обеспечении событийных камер демонстрируют хороший потенциал для их применения в восстановлении визуального звука благодаря их превосходной способности захватывать высокочастотные сигналы. Однако существующие методы восстановления вибраций на основе событий всё ещё не оптимальны для восстановления звука. В данной работе мы предлагаем новый подход для бесконтактного восстановления звука, полностью использующий пространственно-временную информацию из потока событий. Сначала мы создаём большой набор данных для обучения с помощью нового симуляционного подхода. Затем мы разрабатываем сеть, которая использует разреженность событий для захвата пространственной информации и применяет Mamba для моделирования долгосрочной временной информации. Наконец, мы обучаем блок пространственной агрегации для объединения информации из различных мест, чтобы дополнительно улучшить качество сигнала. Для захвата событийных сигналов, вызванных звуковыми волнами, мы также разработали систему визуализации с использованием лазерной матрицы для усиления градиента и собрали несколько последовательностей данных для тестирования. Экспериментальные результаты на синтетических и реальных данных демонстрируют эффективность нашего метода.
Последние достижения в области клонирования поведения позволили роботам выполнять сложные манипуляционные задачи. Однако точная оценка результатов обучения остается сложной задачей, особенно для реальных приложений, поскольку потери при клонировании поведения часто слабо коррелируют с фактическим успехом выполнения задачи. В результате исследователи прибегают к метрикам успешности, полученным из дорогостоящих и трудоемких реальных оценок, что делает выявление оптимальных политик и обнаружение переобучения или недообучения непрактичным. Для решения этих проблем мы предлагаем real-is-sim, новую структуру клонирования поведения, которая включает динамический цифровой двойник (основанный на Embodied Gaussians) на всех этапах разработки политики: сбор данных, обучение и внедрение. Постоянно синхронизируя симулированный мир с физическим, демонстрации могут собираться в реальном мире с извлечением состояний из симулятора. Симулятор позволяет гибко представлять состояния, визуализируя входные изображения с любого ракурса или извлекая низкоуровневую информацию о состоянии объектов, представленных в сцене. Во время обучения политики могут быть непосредственно оценены в симуляторе в автономном и высоко параллелизуемом режиме. Наконец, при внедрении политики выполняются в симуляторе, где реальный робот напрямую отслеживает суставы симулированного робота, эффективно разделяя выполнение политики от реального оборудования и смягчая традиционные проблемы переноса между доменами. Мы проверяем real-is-sim на задаче манипуляции PushT, демонстрируя сильную корреляцию между показателями успешности, полученными в симуляторе и реальных оценках. Видео нашей системы можно найти по адресу https://realissim.rai-inst.com.
Точное определение границ сельскохозяйственных полей на спутниковых снимках имеет ключевое значение для управления земельными ресурсами и мониторинга урожаев. Однако современные методы сталкиваются с трудностями из-за ограниченного размера наборов данных, различий в разрешении и разнообразия условий окружающей среды. Мы решаем эту проблему, переформулируя задачу как сегментацию экземпляров и представляя набор данных Field Boundary Instance Segmentation - 22M (FBIS-22M) — крупномасштабный мультиразрешенческий набор данных, включающий 672 909 высококачественных спутниковых изображений (с разрешением от 0,25 м до 10 м) и 22 926 427 масок экземпляров отдельных полей, что значительно сокращает разрыв между сельскохозяйственными наборами данных и наборами данных в других областях компьютерного зрения. Мы также предлагаем модель Delineate Anything для сегментации экземпляров, обученную на нашем новом наборе данных FBIS-22M. Наша модель устанавливает новый эталон, демонстрируя значительное улучшение на 88,5% по метрике [email protected] и на 103% по метрике [email protected]:0.95 по сравнению с существующими методами, а также обеспечивая значительно более быстрый вывод и сильную обобщающую способность в условиях нулевого обучения для различных разрешений изображений и неизученных географических регионов. Код, предобученные модели и набор данных FBIS-22M доступны по адресу https://lavreniuk.github.io/Delineate-Anything.
Тонкая настройка предварительно обученной модели Text-to-Image (T2I) на специализированном наборе данных портретов является основным методом для текстовой кастомизации атрибутов портретов. Из-за семантического загрязнения во время тонкой настройки существующие методы сталкиваются с трудностями в сохранении поведения исходной модели и достижении инкрементного обучения при кастомизации целевых атрибутов. Для решения этой проблемы мы предлагаем SPF-Portrait, новаторскую работу, направленную на чистое понимание кастомизированной семантики при устранении семантического загрязнения в текстовой кастомизации портретов. В нашем SPF-Portrait мы предлагаем двухпутевой конвейер, который вводит исходную модель в качестве эталона для традиционного пути тонкой настройки. С помощью контрастного обучения мы обеспечиваем адаптацию к целевым атрибутам и целенаправленно выравниваем другие несвязанные атрибуты с исходным портретом. Мы вводим новую семантически осознанную карту тонкого управления, которая представляет точные области отклика целевой семантики, чтобы пространственно направлять процесс выравнивания между контрастными путями. Этот процесс выравнивания не только эффективно сохраняет производительность исходной модели, но и избегает чрезмерного выравнивания. Кроме того, мы предлагаем новый механизм усиления отклика для улучшения производительности целевых атрибутов, одновременно смягчая расхождение представлений, присущее прямому кросс-модальному контролю. Многочисленные эксперименты демонстрируют, что SPF-Portrait достигает передовых результатов. Веб-страница проекта: https://spf-portrait.github.io/SPF-Portrait/