HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

12 papers found

ScreenCoder: Развитие генерации визуального кода для автоматизации фронтенда с помощью модульных мультимодальных агентов
ScreenCoder: Advancing Visual-to-Code Generation for Front-End Automation via Modular Multimodal Agents

Jul 30

ByYilei Jiang, Yaozhi Zheng, Yuxuan Wan, Jiaming Han, Qunzhong Wang, Michael R. Lyu, Xiangyu Yue

Автоматизация преобразования дизайнов пользовательского интерфейса (UI) во фронтенд-код обладает значительным потенциалом для ускорения разработки программного обеспечения и демократизации процессов проектирования. Хотя современные крупные языковые модели (LLM) продемонстрировали прогресс в генерации кода из текста, многие существующие подходы полагаются исключительно на текстовые подсказки, что ограничивает их эффективность в захвате пространственного расположения и визуального замысла дизайна. В отличие от этого, разработка UI на практике по своей природе мультимодальна и часто начинается с визуальных набросков или макетов. Для устранения этого разрыва мы представляем модульную мультиагентную систему, которая выполняет генерацию кода из UI в три интерпретируемых этапа: заземление, планирование и генерация. Агент заземления использует модель, объединяющую зрение и язык, для обнаружения и маркировки компонентов UI, агент планирования строит иерархическую структуру макета на основе инженерных принципов фронтенда, а агент генерации создает HTML/CSS-код с помощью адаптивного синтеза на основе подсказок. Такой подход повышает устойчивость, интерпретируемость и точность по сравнению с методами "черного ящика", работающими от начала до конца. Кроме того, мы расширяем систему до масштабируемого механизма данных, который автоматически создает крупномасштабные пары "изображение-код". Используя эти синтетические примеры, мы дообучаем и усиливаем открытую модель, объединяющую зрение и язык, что приводит к значительному улучшению понимания UI и качества кода. Многочисленные эксперименты демонстрируют, что наш подход достигает передовых показателей в точности макета, структурной согласованности и корректности кода. Наш код доступен публично по адресу https://github.com/leigest519/ScreenCoder.

Falcon-H1: Семейство гибридных языковых моделей, переопределяющих эффективность и производительность
Falcon-H1: A Family of Hybrid-Head Language Models Redefining Efficiency and Performance

Jul 30

ByJingwei Zuo, Maksim Velikanov, Ilyas Chahed, Younes Belkada, Dhia Eddine Rhayem, Guillaume Kunsch, Hakim Hacid, Hamza Yous, Brahim Farhat, Ibrahim Khadraoui, Mugariya Farooq, Giulia Campesan, Ruxandra Cojocaru, Yasser Djilali, Shi Hu, Iheb Chaabane, Puneesh Khanna, Mohamed El Amine Seddik, Ngoc Dung Huynh, Phuc Le Khac, Leen AlQadi, Billel Mokeddem, Mohamed Chami, Abdalgader Abubaker, Mikhail Lubinets, Kacper Piskorski, Slim Frikha

В данном отчете мы представляем Falcon-H1 — новую серию крупных языковых моделей (LLM), основанных на гибридных архитектурных решениях, оптимизированных для высокой производительности и эффективности в различных сценариях использования. В отличие от предыдущих моделей Falcon, построенных исключительно на архитектурах Transformer или Mamba, Falcon-H1 использует параллельный гибридный подход, сочетающий внимание на основе Transformer с моделями пространства состояний (SSM), известными своим превосходством в обработке длинных контекстов и вычислительной эффективности. Мы систематически пересмотрели проектирование моделей, стратегии работы с данными и динамику обучения, бросая вызов традиционным подходам в этой области. Falcon-H1 выпускается в нескольких конфигурациях, включая базовые и настроенные на выполнение инструкций варианты с 0,5 млрд, 1,5 млрд, 1,5 млрд (глубокая версия), 3 млрд, 7 млрд и 34 млрд параметров. Также доступны квантованные модели, настроенные на выполнение инструкций, что в сумме составляет более 30 контрольных точек на платформе Hugging Face Hub. Модели Falcon-H1 демонстрируют передовые показатели производительности, а также исключительную эффективность использования параметров и обучения. Флагманская модель Falcon-H1-34B соответствует или превосходит модели масштаба до 70 млрд параметров, такие как Qwen3-32B, Qwen2.5-72B и Llama3.3-70B, при этом используя меньше параметров и данных. Меньшие модели показывают аналогичные тенденции: Falcon-H1-1.5B-Deep конкурирует с текущими лидирующими моделями масштаба 7–10 млрд параметров, а Falcon-H1-0.5B демонстрирует результаты, сопоставимые с типичными моделями 7 млрд параметров 2024 года. Эти модели превосходно справляются с задачами логического мышления, математики, многоязычных задач, выполнения инструкций и работы с научными знаниями. Поддерживая до 256 тыс. токенов контекста и 18 языков, Falcon-H1 подходит для широкого спектра приложений. Все модели выпускаются под разрешительной открытой лицензией, что подчеркивает нашу приверженность доступным и значимым исследованиям в области искусственного интеллекта.

BANG: Разделение 3D-активов с использованием генеративной динамики взрывного разложения
BANG: Dividing 3D Assets via Generative Exploded Dynamics

Jul 29

ByLongwen Zhang, Qixuan Zhang, Haoran Jiang, Yinuo Bai, Wei Yang, Lan Xu, Jingyi Yu

3D-моделирование всегда было уникальной способностью человека, обусловленной нашей возможностью деконструировать и воссоздавать объекты с помощью зрения, разума и рук. Однако современные инструменты 3D-дизайна с трудом воспроизводят этот естественный процесс, требуя значительных художественных навыков и ручного труда. В данной статье представлен BANG — новый генеративный подход, который объединяет создание 3D-моделей и логическое мышление, позволяя интуитивно и гибко декомпозировать 3D-объекты на уровне частей. Основой BANG является «Генеративная динамика разнесения», которая создает плавную последовательность разнесенных состояний для входной геометрии, постепенно разделяя части, сохраняя их геометрическую и семантическую согласованность. BANG использует предварительно обученную крупномасштабную латентную диффузионную модель, доработанную для динамики разнесения с помощью легковесного адаптера разнесенного вида, что обеспечивает точный контроль над процессом декомпозиции. Также в него включен модуль временного внимания, который гарантирует плавные переходы и согласованность во времени. BANG расширяет возможности управления с помощью пространственных подсказок, таких как ограничивающие рамки и поверхностные области, позволяя пользователям указывать, какие части декомпозировать и как. Это взаимодействие может быть расширено с использованием мультимодальных моделей, таких как GPT-4, что позволяет выполнять 2D-к-3D манипуляции для более интуитивных и творческих рабочих процессов. Возможности BANG включают генерацию детализированной геометрии на уровне частей, связывание частей с функциональными описаниями и упрощение компонентно-ориентированных процессов создания и производства 3D-моделей. Кроме того, BANG предлагает приложения в области 3D-печати, где создаются отделяемые части для удобной печати и сборки. По сути, BANG обеспечивает плавное преобразование творческих концепций в детализированные 3D-активы, предлагая новый взгляд на создание, который соответствует человеческой интуиции.

VL-Cogito: Прогрессивное обучение с подкреплением для продвинутого мультимодального мышления
VL-Cogito: Progressive Curriculum Reinforcement Learning for Advanced Multimodal Reasoning

Jul 30

ByRuifeng Yuan, Chenghao Xiao, Sicong Leng, Jianyu Wang, Long Li, Weiwen Xu, Hou Pong Chan, Deli Zhao, Tingyang Xu, Zhongyu Wei, Hao Zhang, Yu Rong

Обучение с подкреплением доказало свою эффективность в улучшении способностей крупных языковых моделей к рассуждению. Последние исследования постепенно расширяют эту парадигму на задачи мультимодального рассуждения. Ввиду присущей сложности и разнообразия мультимодальных задач, особенно в семантическом содержании и формулировках проблем, существующие модели часто демонстрируют нестабильную производительность в различных областях и уровнях сложности. Для устранения этих ограничений мы предлагаем VL-Cogito, продвинутую модель мультимодального рассуждения, обученную с использованием новой многоэтапной структуры Progressive Curriculum Reinforcement Learning (PCuRL). PCuRL систематически направляет модель через задачи постепенно возрастающей сложности, существенно улучшая её способности к рассуждению в разнообразных мультимодальных контекстах. Структура вводит два ключевых новшества: (1) механизм мягкого взвешивания сложности в реальном времени, динамически регулирующий сложность обучения на последовательных этапах обучения с подкреплением; и (2) механизм динамического вознаграждения за длину, который побуждает модель адаптивно регулировать длину своего пути рассуждения в зависимости от сложности задачи, тем самым балансируя эффективность рассуждения с его правильностью. Экспериментальные оценки показывают, что VL-Cogito стабильно соответствует или превосходит существующие модели, ориентированные на рассуждение, на основных мультимодальных тестах, охватывающих математику, науку, логику и общее понимание, что подтверждает эффективность нашего подхода.

MetaCLIP 2: Рецепт глобального масштабирования
MetaCLIP 2: A Worldwide Scaling Recipe

Jul 29

ByYung-Sung Chuang, Yang Li, Dong Wang, Ching-Feng Yeh, Kehan Lyu, Ramya Raghavendra, James Glass, Lifei Huang, Jason Weston, Luke Zettlemoyer, Xinlei Chen, Zhuang Liu, Saining Xie, Wen-tau Yih, Shang-Wen Li, Hu Xu

Контрастное предобучение на языково-визуальных данных (CLIP) является популярной базовой моделью, поддерживающей задачи от классификации с нулевым обучением и поиска до кодировщиков для мультимодальных больших языковых моделей (MLLMs). Хотя CLIP успешно обучается на миллиардах пар изображений и текстов из англоязычного мира, масштабирование обучения CLIP для работы с данными из всемирной сети остается сложной задачей: (1) отсутствуют методы курирования для обработки данных из неанглоязычного мира; (2) производительность существующих многоязычных версий CLIP на английском языке хуже, чем у их англоязычных аналогов, что является проявлением "проклятия многоязычия", характерного для больших языковых моделей (LLMs). В данной работе мы представляем MetaCLIP 2 — первый подход к обучению CLIP с нуля на данных масштаба всемирной сети. Чтобы обобщить наши результаты, мы проводим строгие эксперименты с минимальными изменениями, необходимыми для решения указанных проблем, и представляем метод, позволяющий извлекать взаимную пользу из данных англоязычного и неанглоязычного мира. В задаче классификации ImageNet с нулевым обучением MetaCLIP 2 ViT-H/14 превосходит свой англоязычный аналог на 0,8% и mSigLIP на 0,7%, а также устанавливает новый рекорд без системных факторов, таких как перевод или специальные архитектурные изменения, на многоязычных бенчмарках, включая CVQA с 57,4%, Babel-ImageNet с 50,2% и XM3600 с 64,3% в задаче поиска изображений по тексту.

Шаг 3: Масштабный, но доступный — совместное проектирование модели и системы для экономически эффективного декодирования
Step-3 is Large yet Affordable: Model-system Co-design for Cost-effective Decoding

Jul 25

ByStepFun, Bin Wang, Bojun Wang, Changyi Wan, Guanzhe Huang, Hanpeng Hu, Haonan Jia, Hao Nie, Mingliang Li, Nuo Chen, Siyu Chen, Song Yuan, Wuxun Xie, Xiaoniu Song, Xing Chen, Xingping Yang, Xuelin Zhang, Yanbo Yu, Yaoyu Wang, Yibo Zhu, Yimin Jiang, Yu Zhou, Yuanwei Lu, Houyi Li, Jingcheng Hu, Ka Man Lo, Ailin Huang, Binxing Jiao, Bo Li, Boyu Chen, Changxin Miao, Chang Lou, Chen Hu, Chen Xu, Chenfeng Yu, Chengyuan Yao, Daokuan Lv, Dapeng Shi, Deshan Sun, Ding Huang, Dingyuan Hu, Dongqing Pang, Enle Liu, Fajie Zhang, Fanqi Wan, Gulin Yan, Han Zhang, Han Zhou, Hanghao Wu, Hangyu Guo, Hanqi Chen, Hanshan Zhang, Hao Wu, Haocheng Zhang, Haolong Yan, Haoran Lv, Haoran Wei, Hebin Zhou, Heng Wang, Heng Wang, Hongxin Li, Hongyu Zhou, Hongyuan Wang, Huiyong Guo, Jia Wang, Jiahao Gong, Jialing Xie, Jian Zhou, Jianjian Sun, Jiaoren Wu, Jiaran Zhang, Jiayu Liu, Jie Cheng, Jie Luo, Jie Yan, Jie Yang, Jieyi Hou, Jinguang Zhang, Jinlan Cao, Jisheng Yin, Junfeng Liu, Junhao Huang, Junzhe Lin, Kaijun Tan, Kaixiang Li, Kang An, Kangheng Lin, Kenkun Liu, Lei Yang, Liang Zhao, Liangyu Chen, Lieyu Shi, Liguo Tan, Lin Lin, Lin Zhang, Lina Chen, Liwen Huang, Liying Shi, Longlong Gu, Mei Chen, Mengqiang Ren, Ming Li, Mingzhe Chen, Na Wang, Nan Wu, Qi Han, Qian Zhao, Qiang Zhang, Qianni Liu, Qiaohui Chen, Qiling Wu, Qinglin He, Qinyuan Tan, Qiufeng Wang, Qiuping Wu, Qiuyan Liang, Quan Sun, Rui Li, Ruihang Miao, Ruosi Wan, Ruyan Guo, Shangwu Zhong, Shaoliang Pang, Shengjie Fan, Shijie Shang, Shilei Jiang, Shiliang Yang, Shiming Hao, Shuli Gao, Siming Huang, Siqi Liu, Tiancheng Cao, Tianhao Cheng, Tianhao Peng, Wang You, Wei Ji, Wen Sun, Wenjin Deng, Wenqing He, Wenzhen Zheng, Xi Chen, Xiangwen Kong, Xianzhen Luo, Xiaobo Yang, Xiaojia Liu, Xiaoxiao Ren, Xin Han, Xin Li, Xin Wu, Xu Zhao, Yanan Wei, Yang Li, Yangguang Li, Yangshijie Xu, Yanming Xu, Yaqiang Shi, Yeqing Shen, Yi Yang, Yifei Yang, Yifeng Gong, Yihan Chen, Yijing Yang, Yinmin Zhang, Yizhuang Zhou, Yuanhao Ding, Yuantao Fan, Yuanzhen Yang, Yuchu Luo, Yue Peng, Yufan Lu, Yuhang Deng, Yuhe Yin, Yujie Liu, Yukun Chen, Yuling Zhao, Yun Mou, Yunlong Li, Yunzhou Ju, Yusheng Li, Yuxiang Yang, Yuxiang Zhang, Yuyang Chen, Zejia Weng, Zhe Xie, Zheng Ge, Zheng Gong, Zhenyi Lu, Zhewei Huang, Zhichao Chang, Zhiguo Huang, Zhirui Wang, Zidong Yang, Zili Wang, Ziqi Wang, Zixin Zhang, Binxing Jiao, Daxin Jiang, Heung-Yeung Shum, Xiangyu Zhang

Крупные языковые модели (LLM) сталкиваются с низкой аппаратной эффективностью при декодировании, особенно в задачах, требующих длительного контекста. В данной статье представлена модель Step-3, VLM с 321 миллиардом параметров, разработанная с учетом аппаратного обеспечения и оптимизированная для минимизации затрат на декодирование. Step-3 предлагает инновации в двух ключевых направлениях: (1) новый механизм Multi-Matrix Factorization Attention (MFA), который значительно сокращает размер кэша ключей и значений (KV) и объем вычислений, сохраняя при этом высокую выразительность внимания, и (2) Attention-FFN Disaggregation (AFD), распределенная система вывода, которая разделяет слои внимания и Feed-Forward Network (FFN) на специализированные подсистемы. Этот совместный дизайн обеспечивает беспрецедентную экономическую эффективность: Step-3 значительно снижает теоретические затраты на декодирование по сравнению с моделями, такими как DeepSeek-V3 и Qwen3 MoE 235B, причем преимущества усиливаются при увеличении длины контекста. Step-3 достигает низких затрат, активируя 38 миллиардов параметров на токен (больше, чем DeepSeek-V3 и Qwen3 MoE 235B), демонстрируя, что аппаратно-ориентированная интенсивность вычислений внимания, разреженность MoE и AFD критически важны для экономической эффективности. Мы проводим прямое сравнение с DeepSeek-V3 в благоприятных для него сценариях. Наша реализация на GPU Hopper достигает пропускной способности декодирования до 4 039 токенов в секунду на GPU при SLA TPOT 50 мс (контекст 4K, FP8, без MTP). Это выше, чем 2 324 у DeepSeek-V3 в аналогичных условиях, и устанавливает новый Парето-фронт для декодирования LLM.

MixGRPO: Повышение эффективности потокового GRPO за счет смешанного подхода ODE-SDE
MixGRPO: Unlocking Flow-based GRPO Efficiency with Mixed ODE-SDE

Jul 29

ByJunzhe Li, Yutao Cui, Tao Huang, Yinping Ma, Chun Fan, Miles Yang, Zhao Zhong

Хотя GRPO значительно улучшает модели сопоставления потоков для согласования с человеческими предпочтениями в генерации изображений, такие методы, как FlowGRPO, всё ещё демонстрируют неэффективность из-за необходимости выборки и оптимизации на всех шагах удаления шума, заданных марковским процессом принятия решений (MDP). В данной статье мы предлагаем MixGRPO — новый фреймворк, который использует гибкость смешанных стратегий выборки за счёт интеграции стохастических дифференциальных уравнений (SDE) и обыкновенных дифференциальных уравнений (ODE). Это упрощает процесс оптимизации в рамках MDP, повышая эффективность и производительность. В частности, MixGRPO вводит механизм скользящего окна, применяя выборку SDE и оптимизацию под руководством GRPO только внутри окна, в то время как за его пределами используется выборка ODE. Такой подход ограничивает случайность выборки временными шагами внутри окна, тем самым снижая накладные расходы на оптимизацию и позволяя сосредоточиться на более целенаправленных обновлениях градиента для ускорения сходимости. Кроме того, поскольку временные шаги за пределами скользящего окна не участвуют в оптимизации, поддерживаются решатели более высокого порядка для выборки. Поэтому мы представляем более быструю версию, названную MixGRPO-Flash, которая дополнительно повышает эффективность обучения при сохранении сопоставимой производительности. MixGRPO демонстрирует значительные улучшения в различных аспектах согласования с человеческими предпочтениями, превосходя DanceGRPO как по эффективности, так и по производительности, с почти 50%-ным сокращением времени обучения. Примечательно, что MixGRPO-Flash дополнительно сокращает время обучения на 71%. Коды и модели доступны по адресу https://github.com/Tencent-Hunyuan/MixGRPO{MixGRPO}.

Адаптация детекторов транспортных средств для аэрофотоснимков к новым доменам с использованием слабого контроля
Adapting Vehicle Detectors for Aerial Imagery to Unseen Domains with Weak Supervision

Jul 28

ByXiao Fang, Minhyek Jeon, Zheyang Qin, Stanislav Panev, Celso de Melo, Shuowen Hu, Shayok Chakraborty, Fernando De la Torre

Обнаружение транспортных средств на аэрофотоснимках является важной задачей, имеющей применение в мониторинге трафика, городском планировании и разведывательной деятельности. Методы глубокого обучения обеспечивают передовые результаты для данного применения. Однако значительная проблема возникает, когда модели, обученные на данных из одного географического региона, не могут эффективно обобщать информацию для других областей. Изменчивость таких факторов, как условия окружающей среды, городская планировка, дорожные сети, типы транспортных средств и параметры съемки (например, разрешение, освещение и угол), приводит к сдвигам доменов, которые ухудшают производительность модели. В данной статье предлагается новый метод, использующий генеративный искусственный интеллект для синтеза высококачественных аэрофотоснимков и их меток, что улучшает обучение детектора за счет аугментации данных. Наш ключевой вклад заключается в разработке многоэтапной, многомодальной системы передачи знаний, использующей тонко настроенные латентные диффузионные модели (LDMs) для уменьшения разрыва в распределении между исходной и целевой средами. Экстенсивные эксперименты в различных доменах аэрофотоснимков показывают устойчивое улучшение производительности по метрике AP50 по сравнению с обучением с учителем на данных исходного домена, методами слабо контролируемой адаптации, методами адаптации без учителя и детекторами объектов с открытым множеством на 4-23%, 6-10%, 7-40% и более чем 50% соответственно. Кроме того, мы представляем два новых аннотированных набора аэрофотоснимков из Новой Зеландии и Юты для поддержки дальнейших исследований в этой области. Страница проекта доступна по адресу: https://humansensinglab.github.io/AGenDA.

Эффективное тонкое дифференциально-приватное обучение крупных языковых моделей с использованием обучения с подкреплением
Efficient Differentially Private Fine-Tuning of LLMs via Reinforcement Learning

Jul 30

ByAfshin Khadangi, Amir Sartipi, Igor Tchappi, Ramin Bahmani, Gilbert Fridgen

Противоречие между конфиденциальностью данных и полезностью модели стало ключевым ограничением для практического внедрения крупных языковых моделей (LLM), обученных на чувствительных корпусах, включая медицинские данные. Дифференциально приватный стохастический градиентный спуск (DP-SGD) обеспечивает формальную приватность, но делает это за счет значительных издержек: градиенты принудительно обрезаются и искажаются шумом, что снижает эффективность использования данных и итоговую точность. Было предложено множество вариантов для смягчения этого компромисса, но все они имеют общий недостаток: их параметры управления жестко заданы, глобальны и не учитывают изменяющийся ландшафт оптимизации. В результате специалисты вынуждены либо чрезмерно расходовать бюджет приватности ради полезности, либо соглашаться на посредственные модели, чтобы оставаться в рамках ограничений приватности. Мы представляем RLDP — первую платформу, которая рассматривает оптимизацию с учетом дифференциальной приватности как задачу замкнутого управления, подходящую для современных методов глубокого обучения с подкреплением (RL). RLDP непрерывно анализирует богатую статистику динамики обучения и действует, выбирая детализированные пороги обрезки градиентов для каждого параметра, а также величину вводимого гауссовского шума. Гиперполитика на основе мягкого актора-критика (SAC) обучается в режиме реального времени в процессе тонкой настройки языковой модели; она с нуля учится тому, как и когда распределять бюджет приватности там, где это важно. В более чем 1600 экспериментах с моделями GPT2-small, Llama-1B, Llama-3B и Mistral-7B RLDP демонстрирует снижение перплексии на 1,3–30,5% (в среднем 5,4%) и увеличение полезности на 5,6% в среднем. RLDP достигает итоговой полезности базовых моделей, используя лишь 13–43% бюджета обновлений градиентов (в среднем ускорение на 71%), при этом соблюдая те же условия (ε, δ)-дифференциальной приватности и демонстрируя равную или меньшую уязвимость к атакам на членство и извлечение канареек.

К универсальным выражениям и рассуждениям в сегментации аудиовизуальных данных с референцией
Towards Omnimodal Expressions and Reasoning in Referring Audio-Visual Segmentation

Jul 30

ByKaining Ying, Henghui Ding, Guanquan Jie, Yu-Gang Jiang

Сегментация аудиовизуальных данных с использованием ссылок (RAVS) в последнее время достигла значительных успехов, однако остаются проблемы в интеграции мультимодальной информации и глубоком понимании и анализе аудиовизуального контента. Для расширения границ RAVS и содействия будущим исследованиям в этой области мы предлагаем Omnimodal Referring Audio-Visual Segmentation (OmniAVS) — новый набор данных, содержащий 2098 видео и 59 458 мультимодальных ссылочных выражений. OmniAVS выделяется тремя ключевыми инновациями: (1) 8 типов мультимодальных выражений, гибко сочетающих текст, речь, звук и визуальные подсказки; (2) акцент на понимании аудиоконтента, выходящем за рамки простого обнаружения его присутствия; и (3) включение сложных рассуждений и знаний о мире в выражения. Кроме того, мы представляем Omnimodal Instructed Segmentation Assistant (OISA), предназначенный для решения задач мультимодального анализа и детального понимания аудиовизуального контента в OmniAVS. OISA использует MLLM для понимания сложных подсказок и выполнения сегментации на основе рассуждений. Многочисленные эксперименты показывают, что OISA превосходит существующие методы на OmniAVS и демонстрирует конкурентоспособные результаты в других связанных задачах.

Repair-R1: Улучшенное тестирование перед ремонтом
Repair-R1: Better Test Before Repair

Jul 30

ByHaichuan Hu, Xiaochen Xie, Quanjun Zhang

APR (Automated Program Repair, Автоматизированное исправление программ) направлен на автоматическое обнаружение дефектов в программах, генерацию исправлений и их валидацию. Существующие методы APR часто комбинируются с LLM (Large Language Models, Большие языковые модели), что позволяет использовать знания LLM, связанные с кодом, для повышения эффективности исправлений. Современные LLM-ориентированные методы APR обычно используют тестовые примеры только на этапе вывода, применяя итеративный подход, при котором сначала выполняется исправление, а затем его валидация через выполнение тестов. Этот традиционный подход упускает два важных аспекта: потенциальный вклад тестовых примеров на этапе обучения и возможность использования тестирования до выполнения исправления. Для решения этой проблемы мы предлагаем Repair-R1, который вводит тестовые примеры в фазу обучения модели и переносит генерацию тестов на этап, предшествующий исправлению. Модель сначала должна генерировать дискриминативные тестовые примеры, способные выявить дефектное поведение, а затем выполнять исправление на основе этих тестов. Это позволяет модели более точно локализовать дефекты и понимать их причины, тем самым повышая эффективность исправлений. Мы реализовали Repair-R1 с использованием трех различных базовых моделей, применяя RL (reinforcement learning, обучение с подкреплением) для совместной оптимизации генерации тестов и исправления ошибок. Экспериментальные результаты на четырех широко используемых бенчмарках демонстрируют превосходство Repair-R1. В частности, по сравнению с базовыми моделями, Repair-R1 повышает успешность исправлений на 2,68\% до 48,29\%, успешность генерации тестов на 16,38\% до 53,28\% и покрытие тестами на 0,78\% до 53,96\%. Мы публикуем код и веса по адресам https://github.com/Tomsawyerhu/APR-RL и https://huggingface.co/tomhu/Qwen3-4B-RL-5000-step.

DreamScene: Генерация 3D-сцен из текста на основе 3D-гауссовых моделей с использованием сквозного подхода
DreamScene: 3D Gaussian-based End-to-end Text-to-3D Scene Generation

Jul 18

ByHaoran Li, Yuli Tian, Kun Lan, Yong Liao, Lin Wang, Pan Hui, Peng Yuan Zhou

Создание 3D-сцен на основе естественного языка открывает широкие перспективы для применения в играх, кино и дизайне. Однако существующие методы сталкиваются с трудностями в автоматизации, обеспечении 3D-согласованности и детализированном управлении. Мы представляем DreamScene — сквозную платформу для генерации высококачественных и редактируемых 3D-сцен на основе текста или диалога. DreamScene начинается с модуля планирования сцены, где агент GPT-4 выводит семантику объектов и пространственные ограничения для построения гибридного графа. Затем алгоритм размещения на основе графа создает структурированную и свободную от коллизий компоновку. На основе этой компоновки метод Formation Pattern Sampling (FPS) генерирует геометрию объектов с использованием многошаговой выборки и реконструктивной оптимизации, обеспечивая быстрый и реалистичный синтез. Для обеспечения глобальной согласованности DreamScene применяет прогрессивную стратегию выборки камеры, адаптированную как для внутренних, так и для внешних сцен. Наконец, система поддерживает детализированное редактирование сцены, включая перемещение объектов, изменение внешнего вида и 4D-динамическое движение. Эксперименты показывают, что DreamScene превосходит предыдущие методы по качеству, согласованности и гибкости, предлагая практическое решение для создания 3D-контента в открытой области. Код и демонстрации доступны по адресу https://jahnsonblack.github.io/DreamScene-Full/.

Шаг 3: Масштабный, но доступный — совместное проектирование модели и системы для экономически эффективного декодирования
Step-3 is Large yet Affordable: Model-system Co-design for Cost-effective Decoding

Jul 25