Ежедневно отобранные исследовательские статьи по ИИ с переводами
Автоматизация преобразования дизайнов пользовательского интерфейса (UI) во фронтенд-код обладает значительным потенциалом для ускорения разработки программного обеспечения и демократизации процессов проектирования. Хотя современные крупные языковые модели (LLM) продемонстрировали прогресс в генерации кода из текста, многие существующие подходы полагаются исключительно на текстовые подсказки, что ограничивает их эффективность в захвате пространственного расположения и визуального замысла дизайна. В отличие от этого, разработка UI на практике по своей природе мультимодальна и часто начинается с визуальных набросков или макетов. Для устранения этого разрыва мы представляем модульную мультиагентную систему, которая выполняет генерацию кода из UI в три интерпретируемых этапа: заземление, планирование и генерация. Агент заземления использует модель, объединяющую зрение и язык, для обнаружения и маркировки компонентов UI, агент планирования строит иерархическую структуру макета на основе инженерных принципов фронтенда, а агент генерации создает HTML/CSS-код с помощью адаптивного синтеза на основе подсказок. Такой подход повышает устойчивость, интерпретируемость и точность по сравнению с методами "черного ящика", работающими от начала до конца. Кроме того, мы расширяем систему до масштабируемого механизма данных, который автоматически создает крупномасштабные пары "изображение-код". Используя эти синтетические примеры, мы дообучаем и усиливаем открытую модель, объединяющую зрение и язык, что приводит к значительному улучшению понимания UI и качества кода. Многочисленные эксперименты демонстрируют, что наш подход достигает передовых показателей в точности макета, структурной согласованности и корректности кода. Наш код доступен публично по адресу https://github.com/leigest519/ScreenCoder.
В данном отчете мы представляем Falcon-H1 — новую серию крупных языковых моделей (LLM), основанных на гибридных архитектурных решениях, оптимизированных для высокой производительности и эффективности в различных сценариях использования. В отличие от предыдущих моделей Falcon, построенных исключительно на архитектурах Transformer или Mamba, Falcon-H1 использует параллельный гибридный подход, сочетающий внимание на основе Transformer с моделями пространства состояний (SSM), известными своим превосходством в обработке длинных контекстов и вычислительной эффективности. Мы систематически пересмотрели проектирование моделей, стратегии работы с данными и динамику обучения, бросая вызов традиционным подходам в этой области. Falcon-H1 выпускается в нескольких конфигурациях, включая базовые и настроенные на выполнение инструкций варианты с 0,5 млрд, 1,5 млрд, 1,5 млрд (глубокая версия), 3 млрд, 7 млрд и 34 млрд параметров. Также доступны квантованные модели, настроенные на выполнение инструкций, что в сумме составляет более 30 контрольных точек на платформе Hugging Face Hub. Модели Falcon-H1 демонстрируют передовые показатели производительности, а также исключительную эффективность использования параметров и обучения. Флагманская модель Falcon-H1-34B соответствует или превосходит модели масштаба до 70 млрд параметров, такие как Qwen3-32B, Qwen2.5-72B и Llama3.3-70B, при этом используя меньше параметров и данных. Меньшие модели показывают аналогичные тенденции: Falcon-H1-1.5B-Deep конкурирует с текущими лидирующими моделями масштаба 7–10 млрд параметров, а Falcon-H1-0.5B демонстрирует результаты, сопоставимые с типичными моделями 7 млрд параметров 2024 года. Эти модели превосходно справляются с задачами логического мышления, математики, многоязычных задач, выполнения инструкций и работы с научными знаниями. Поддерживая до 256 тыс. токенов контекста и 18 языков, Falcon-H1 подходит для широкого спектра приложений. Все модели выпускаются под разрешительной открытой лицензией, что подчеркивает нашу приверженность доступным и значимым исследованиям в области искусственного интеллекта.
3D-моделирование всегда было уникальной способностью человека, обусловленной нашей возможностью деконструировать и воссоздавать объекты с помощью зрения, разума и рук. Однако современные инструменты 3D-дизайна с трудом воспроизводят этот естественный процесс, требуя значительных художественных навыков и ручного труда. В данной статье представлен BANG — новый генеративный подход, который объединяет создание 3D-моделей и логическое мышление, позволяя интуитивно и гибко декомпозировать 3D-объекты на уровне частей. Основой BANG является «Генеративная динамика разнесения», которая создает плавную последовательность разнесенных состояний для входной геометрии, постепенно разделяя части, сохраняя их геометрическую и семантическую согласованность. BANG использует предварительно обученную крупномасштабную латентную диффузионную модель, доработанную для динамики разнесения с помощью легковесного адаптера разнесенного вида, что обеспечивает точный контроль над процессом декомпозиции. Также в него включен модуль временного внимания, который гарантирует плавные переходы и согласованность во времени. BANG расширяет возможности управления с помощью пространственных подсказок, таких как ограничивающие рамки и поверхностные области, позволяя пользователям указывать, какие части декомпозировать и как. Это взаимодействие может быть расширено с использованием мультимодальных моделей, таких как GPT-4, что позволяет выполнять 2D-к-3D манипуляции для более интуитивных и творческих рабочих процессов. Возможности BANG включают генерацию детализированной геометрии на уровне частей, связывание частей с функциональными описаниями и упрощение компонентно-ориентированных процессов создания и производства 3D-моделей. Кроме того, BANG предлагает приложения в области 3D-печати, где создаются отделяемые части для удобной печати и сборки. По сути, BANG обеспечивает плавное преобразование творческих концепций в детализированные 3D-активы, предлагая новый взгляд на создание, который соответствует человеческой интуиции.
Обучение с подкреплением доказало свою эффективность в улучшении способностей крупных языковых моделей к рассуждению. Последние исследования постепенно расширяют эту парадигму на задачи мультимодального рассуждения. Ввиду присущей сложности и разнообразия мультимодальных задач, особенно в семантическом содержании и формулировках проблем, существующие модели часто демонстрируют нестабильную производительность в различных областях и уровнях сложности. Для устранения этих ограничений мы предлагаем VL-Cogito, продвинутую модель мультимодального рассуждения, обученную с использованием новой многоэтапной структуры Progressive Curriculum Reinforcement Learning (PCuRL). PCuRL систематически направляет модель через задачи постепенно возрастающей сложности, существенно улучшая её способности к рассуждению в разнообразных мультимодальных контекстах. Структура вводит два ключевых новшества: (1) механизм мягкого взвешивания сложности в реальном времени, динамически регулирующий сложность обучения на последовательных этапах обучения с подкреплением; и (2) механизм динамического вознаграждения за длину, который побуждает модель адаптивно регулировать длину своего пути рассуждения в зависимости от сложности задачи, тем самым балансируя эффективность рассуждения с его правильностью. Экспериментальные оценки показывают, что VL-Cogito стабильно соответствует или превосходит существующие модели, ориентированные на рассуждение, на основных мультимодальных тестах, охватывающих математику, науку, логику и общее понимание, что подтверждает эффективность нашего подхода.
Контрастное предобучение на языково-визуальных данных (CLIP) является популярной базовой моделью, поддерживающей задачи от классификации с нулевым обучением и поиска до кодировщиков для мультимодальных больших языковых моделей (MLLMs). Хотя CLIP успешно обучается на миллиардах пар изображений и текстов из англоязычного мира, масштабирование обучения CLIP для работы с данными из всемирной сети остается сложной задачей: (1) отсутствуют методы курирования для обработки данных из неанглоязычного мира; (2) производительность существующих многоязычных версий CLIP на английском языке хуже, чем у их англоязычных аналогов, что является проявлением "проклятия многоязычия", характерного для больших языковых моделей (LLMs). В данной работе мы представляем MetaCLIP 2 — первый подход к обучению CLIP с нуля на данных масштаба всемирной сети. Чтобы обобщить наши результаты, мы проводим строгие эксперименты с минимальными изменениями, необходимыми для решения указанных проблем, и представляем метод, позволяющий извлекать взаимную пользу из данных англоязычного и неанглоязычного мира. В задаче классификации ImageNet с нулевым обучением MetaCLIP 2 ViT-H/14 превосходит свой англоязычный аналог на 0,8% и mSigLIP на 0,7%, а также устанавливает новый рекорд без системных факторов, таких как перевод или специальные архитектурные изменения, на многоязычных бенчмарках, включая CVQA с 57,4%, Babel-ImageNet с 50,2% и XM3600 с 64,3% в задаче поиска изображений по тексту.
Крупные языковые модели (LLM) сталкиваются с низкой аппаратной эффективностью при декодировании, особенно в задачах, требующих длительного контекста. В данной статье представлена модель Step-3, VLM с 321 миллиардом параметров, разработанная с учетом аппаратного обеспечения и оптимизированная для минимизации затрат на декодирование. Step-3 предлагает инновации в двух ключевых направлениях: (1) новый механизм Multi-Matrix Factorization Attention (MFA), который значительно сокращает размер кэша ключей и значений (KV) и объем вычислений, сохраняя при этом высокую выразительность внимания, и (2) Attention-FFN Disaggregation (AFD), распределенная система вывода, которая разделяет слои внимания и Feed-Forward Network (FFN) на специализированные подсистемы. Этот совместный дизайн обеспечивает беспрецедентную экономическую эффективность: Step-3 значительно снижает теоретические затраты на декодирование по сравнению с моделями, такими как DeepSeek-V3 и Qwen3 MoE 235B, причем преимущества усиливаются при увеличении длины контекста. Step-3 достигает низких затрат, активируя 38 миллиардов параметров на токен (больше, чем DeepSeek-V3 и Qwen3 MoE 235B), демонстрируя, что аппаратно-ориентированная интенсивность вычислений внимания, разреженность MoE и AFD критически важны для экономической эффективности. Мы проводим прямое сравнение с DeepSeek-V3 в благоприятных для него сценариях. Наша реализация на GPU Hopper достигает пропускной способности декодирования до 4 039 токенов в секунду на GPU при SLA TPOT 50 мс (контекст 4K, FP8, без MTP). Это выше, чем 2 324 у DeepSeek-V3 в аналогичных условиях, и устанавливает новый Парето-фронт для декодирования LLM.
Обнаружение транспортных средств на аэрофотоснимках является важной задачей, имеющей применение в мониторинге трафика, городском планировании и разведывательной деятельности. Методы глубокого обучения обеспечивают передовые результаты для данного применения. Однако значительная проблема возникает, когда модели, обученные на данных из одного географического региона, не могут эффективно обобщать информацию для других областей. Изменчивость таких факторов, как условия окружающей среды, городская планировка, дорожные сети, типы транспортных средств и параметры съемки (например, разрешение, освещение и угол), приводит к сдвигам доменов, которые ухудшают производительность модели. В данной статье предлагается новый метод, использующий генеративный искусственный интеллект для синтеза высококачественных аэрофотоснимков и их меток, что улучшает обучение детектора за счет аугментации данных. Наш ключевой вклад заключается в разработке многоэтапной, многомодальной системы передачи знаний, использующей тонко настроенные латентные диффузионные модели (LDMs) для уменьшения разрыва в распределении между исходной и целевой средами. Экстенсивные эксперименты в различных доменах аэрофотоснимков показывают устойчивое улучшение производительности по метрике AP50 по сравнению с обучением с учителем на данных исходного домена, методами слабо контролируемой адаптации, методами адаптации без учителя и детекторами объектов с открытым множеством на 4-23%, 6-10%, 7-40% и более чем 50% соответственно. Кроме того, мы представляем два новых аннотированных набора аэрофотоснимков из Новой Зеландии и Юты для поддержки дальнейших исследований в этой области. Страница проекта доступна по адресу: https://humansensinglab.github.io/AGenDA.
Хотя GRPO значительно улучшает модели сопоставления потоков для согласования с человеческими предпочтениями в генерации изображений, такие методы, как FlowGRPO, всё ещё демонстрируют неэффективность из-за необходимости выборки и оптимизации на всех шагах удаления шума, заданных марковским процессом принятия решений (MDP). В данной статье мы предлагаем MixGRPO — новый фреймворк, который использует гибкость смешанных стратегий выборки за счёт интеграции стохастических дифференциальных уравнений (SDE) и обыкновенных дифференциальных уравнений (ODE). Это упрощает процесс оптимизации в рамках MDP, повышая эффективность и производительность. В частности, MixGRPO вводит механизм скользящего окна, применяя выборку SDE и оптимизацию под руководством GRPO только внутри окна, в то время как за его пределами используется выборка ODE. Такой подход ограничивает случайность выборки временными шагами внутри окна, тем самым снижая накладные расходы на оптимизацию и позволяя сосредоточиться на более целенаправленных обновлениях градиента для ускорения сходимости. Кроме того, поскольку временные шаги за пределами скользящего окна не участвуют в оптимизации, поддерживаются решатели более высокого порядка для выборки. Поэтому мы представляем более быструю версию, названную MixGRPO-Flash, которая дополнительно повышает эффективность обучения при сохранении сопоставимой производительности. MixGRPO демонстрирует значительные улучшения в различных аспектах согласования с человеческими предпочтениями, превосходя DanceGRPO как по эффективности, так и по производительности, с почти 50%-ным сокращением времени обучения. Примечательно, что MixGRPO-Flash дополнительно сокращает время обучения на 71%. Коды и модели доступны по адресу https://github.com/Tencent-Hunyuan/MixGRPO{MixGRPO}.
Сегментация аудиовизуальных данных с использованием ссылок (RAVS) в последнее время достигла значительных успехов, однако остаются проблемы в интеграции мультимодальной информации и глубоком понимании и анализе аудиовизуального контента. Для расширения границ RAVS и содействия будущим исследованиям в этой области мы предлагаем Omnimodal Referring Audio-Visual Segmentation (OmniAVS) — новый набор данных, содержащий 2098 видео и 59 458 мультимодальных ссылочных выражений. OmniAVS выделяется тремя ключевыми инновациями: (1) 8 типов мультимодальных выражений, гибко сочетающих текст, речь, звук и визуальные подсказки; (2) акцент на понимании аудиоконтента, выходящем за рамки простого обнаружения его присутствия; и (3) включение сложных рассуждений и знаний о мире в выражения. Кроме того, мы представляем Omnimodal Instructed Segmentation Assistant (OISA), предназначенный для решения задач мультимодального анализа и детального понимания аудиовизуального контента в OmniAVS. OISA использует MLLM для понимания сложных подсказок и выполнения сегментации на основе рассуждений. Многочисленные эксперименты показывают, что OISA превосходит существующие методы на OmniAVS и демонстрирует конкурентоспособные результаты в других связанных задачах.
APR (Automated Program Repair, Автоматизированное исправление программ) направлен на автоматическое обнаружение дефектов в программах, генерацию исправлений и их валидацию. Существующие методы APR часто комбинируются с LLM (Large Language Models, Большие языковые модели), что позволяет использовать знания LLM, связанные с кодом, для повышения эффективности исправлений. Современные LLM-ориентированные методы APR обычно используют тестовые примеры только на этапе вывода, применяя итеративный подход, при котором сначала выполняется исправление, а затем его валидация через выполнение тестов. Этот традиционный подход упускает два важных аспекта: потенциальный вклад тестовых примеров на этапе обучения и возможность использования тестирования до выполнения исправления. Для решения этой проблемы мы предлагаем Repair-R1, который вводит тестовые примеры в фазу обучения модели и переносит генерацию тестов на этап, предшествующий исправлению. Модель сначала должна генерировать дискриминативные тестовые примеры, способные выявить дефектное поведение, а затем выполнять исправление на основе этих тестов. Это позволяет модели более точно локализовать дефекты и понимать их причины, тем самым повышая эффективность исправлений. Мы реализовали Repair-R1 с использованием трех различных базовых моделей, применяя RL (reinforcement learning, обучение с подкреплением) для совместной оптимизации генерации тестов и исправления ошибок. Экспериментальные результаты на четырех широко используемых бенчмарках демонстрируют превосходство Repair-R1. В частности, по сравнению с базовыми моделями, Repair-R1 повышает успешность исправлений на 2,68\% до 48,29\%, успешность генерации тестов на 16,38\% до 53,28\% и покрытие тестами на 0,78\% до 53,96\%. Мы публикуем код и веса по адресам https://github.com/Tomsawyerhu/APR-RL и https://huggingface.co/tomhu/Qwen3-4B-RL-5000-step.
Противоречие между конфиденциальностью данных и полезностью модели стало ключевым ограничением для практического внедрения крупных языковых моделей (LLM), обученных на чувствительных корпусах, включая медицинские данные. Дифференциально приватный стохастический градиентный спуск (DP-SGD) обеспечивает формальную приватность, но делает это за счет значительных издержек: градиенты принудительно обрезаются и искажаются шумом, что снижает эффективность использования данных и итоговую точность. Было предложено множество вариантов для смягчения этого компромисса, но все они имеют общий недостаток: их параметры управления жестко заданы, глобальны и не учитывают изменяющийся ландшафт оптимизации. В результате специалисты вынуждены либо чрезмерно расходовать бюджет приватности ради полезности, либо соглашаться на посредственные модели, чтобы оставаться в рамках ограничений приватности. Мы представляем RLDP — первую платформу, которая рассматривает оптимизацию с учетом дифференциальной приватности как задачу замкнутого управления, подходящую для современных методов глубокого обучения с подкреплением (RL). RLDP непрерывно анализирует богатую статистику динамики обучения и действует, выбирая детализированные пороги обрезки градиентов для каждого параметра, а также величину вводимого гауссовского шума. Гиперполитика на основе мягкого актора-критика (SAC) обучается в режиме реального времени в процессе тонкой настройки языковой модели; она с нуля учится тому, как и когда распределять бюджет приватности там, где это важно. В более чем 1600 экспериментах с моделями GPT2-small, Llama-1B, Llama-3B и Mistral-7B RLDP демонстрирует снижение перплексии на 1,3–30,5% (в среднем 5,4%) и увеличение полезности на 5,6% в среднем. RLDP достигает итоговой полезности базовых моделей, используя лишь 13–43% бюджета обновлений градиентов (в среднем ускорение на 71%), при этом соблюдая те же условия (ε, δ)-дифференциальной приватности и демонстрируя равную или меньшую уязвимость к атакам на членство и извлечение канареек.
Создание 3D-сцен на основе естественного языка открывает широкие перспективы для применения в играх, кино и дизайне. Однако существующие методы сталкиваются с трудностями в автоматизации, обеспечении 3D-согласованности и детализированном управлении. Мы представляем DreamScene — сквозную платформу для генерации высококачественных и редактируемых 3D-сцен на основе текста или диалога. DreamScene начинается с модуля планирования сцены, где агент GPT-4 выводит семантику объектов и пространственные ограничения для построения гибридного графа. Затем алгоритм размещения на основе графа создает структурированную и свободную от коллизий компоновку. На основе этой компоновки метод Formation Pattern Sampling (FPS) генерирует геометрию объектов с использованием многошаговой выборки и реконструктивной оптимизации, обеспечивая быстрый и реалистичный синтез. Для обеспечения глобальной согласованности DreamScene применяет прогрессивную стратегию выборки камеры, адаптированную как для внутренних, так и для внешних сцен. Наконец, система поддерживает детализированное редактирование сцены, включая перемещение объектов, изменение внешнего вида и 4D-динамическое движение. Эксперименты показывают, что DreamScene превосходит предыдущие методы по качеству, согласованности и гибкости, предлагая практическое решение для создания 3D-контента в открытой области. Код и демонстрации доступны по адресу https://jahnsonblack.github.io/DreamScene-Full/.