HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

28 papers found

Теоретическое исследование связи внутренней вероятности и самосогласованности в рассуждениях языковых моделей
A Theoretical Study on Bridging Internal Probability and Self-Consistency for LLM Reasoning

Oct 17

ByZhi Zhou, Yuhao Tan, Zenan Li, Yuan Yao, Lan-Zhe Guo, Yu-Feng Li, Xiaoxing Ma

131

Масштабирование во время тестирования направлено на улучшение способности к рассуждению больших языковых моделей (LLM) за счет добавления вычислительных ресурсов. Распространенным подходом в этой области являются методы масштабирования во время тестирования, основанные на выборке, которые улучшают рассуждение путем генерации нескольких путей рассуждения для заданного входного данных во время вывода. Однако, несмотря на практический успех, теоретические основы остаются недостаточно изученными. В данной работе мы предлагаем первую теоретическую основу для анализа методов масштабирования во время тестирования, основанных на выборке, с точки зрения оценки уверенности. На основе этой основы мы анализируем две доминирующие парадигмы: самосогласованность и перплексию, и выявляем ключевые ограничения: самосогласованность страдает от высокой ошибки оценки, в то время как перплексия демонстрирует значительную ошибку моделирования и возможное ухудшение сходимости ошибки оценки. Для устранения этих ограничений мы представляем RPC, гибридный метод, который использует наши теоретические инсайты через два ключевых компонента: Согласованность Перплексии и Обрезку Рассуждений. Согласованность Перплексии объединяет преимущества самосогласованности и перплексии, ускоряя скорость сходимости ошибки оценки с линейной до экспоненциальной, сохраняя при этом ошибку модели. Обрезка Рассуждений предотвращает ухудшение, устраняя пути рассуждения с низкой вероятностью. Как теоретический анализ, так и эмпирические результаты на семи эталонных наборах данных демонстрируют, что RPC обладает значительным потенциалом для снижения ошибки рассуждения. Примечательно, что RPC достигает производительности рассуждения, сравнимой с самосогласованностью, не только повышая надежность уверенности, но и снижая затраты на выборку на 50%. Код и ресурсы доступны по адресу https://wnjxyk.github.io/RPC.

OmniVinci: Усовершенствование архитектуры и данных для всеобъемлющего мультимодального понимания LLM
OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM

Oct 17

ByHanrong Ye, Chao-Han Huck Yang, Arushi Goel, Wei Huang, Ligeng Zhu, Yuanhang Su, Sean Lin, An-Chieh Cheng, Zhen Wan, Jinchuan Tian, Yuming Lou, Dong Yang, Zhijian Liu, Yukang Chen, Ambrish Dantrey, Ehsan Jahangiri, Sreyan Ghosh, Daguang Xu, Ehsan Hosseini-Asl, Danial Mohseni Taheri, Vidya Murali, Sifei Liu, Jason Lu, Oluwatobi Olabiyi, Frank Wang, Rafael Valle, Bryan Catanzaro, Andrew Tao, Song Han, Jan Kautz, Hongxu Yin, Pavlo Molchanov

Развитие машинного интеллекта требует развития способности воспринимать информацию через несколько модальностей, подобно тому, как человек воспринимает мир. Мы представляем OmniVinci — инициативу по созданию мощной, открытой, омни-модальной языковой модели (LLM). Мы тщательно изучаем ключевые аспекты проектирования, включая архитектуру модели и подготовку данных. В части архитектуры модели мы предлагаем три ключевых инновации: (i) OmniAlignNet для усиления согласованности между визуальными и аудио-эмбеддингами в общем омни-модальном латентном пространстве; (ii) Temporal Embedding Grouping для учета относительного временного соответствия между визуальными и аудио-сигналами; и (iii) Constrained Rotary Time Embedding для кодирования абсолютной временной информации в омни-модальных эмбеддингах. Мы разработали конвейер подготовки и синтеза данных, который генерирует 24 миллиона одно-модальных и омни-модальных диалогов. Мы обнаружили, что модальности усиливают друг друга как в восприятии, так и в рассуждениях. Наша модель, OmniVinci, превосходит Qwen2.5-Omni с показателями +19.05 на DailyOmni (кросс-модальное понимание), +1.7 на MMAR (аудио) и +3.9 на Video-MME (видео), при этом используя всего 0.2 триллиона токенов для обучения — в 6 раз меньше, чем 1.2 триллиона токенов у Qwen2.5-Omni. Наконец, мы демонстрируем преимущества омни-модального подхода в прикладных задачах, включая робототехнику, медицинский ИИ и умные фабрики.

NANO3D: Безмасочный подход для эффективного редактирования 3D без необходимости обучения
NANO3D: A Training-Free Approach for Efficient 3D Editing Without Masks

Oct 16

ByJunliang Ye, Shenghao Xie, Ruowen Zhao, Zhengyi Wang, Hongyu Yan, Wenqiang Zu, Lei Ma, Jun Zhu

Редактирование 3D-объектов является ключевым для создания интерактивного контента в играх, анимации и робототехнике, однако современные подходы остаются неэффективными, несогласованными и часто не сохраняют неотредактированные области. Большинство методов основываются на редактировании многовидовых рендеров с последующей реконструкцией, что приводит к артефактам и ограничивает практичность. Для решения этих проблем мы предлагаем Nano3D — бесплатную для обучения платформу для точного и согласованного редактирования 3D-объектов без использования масок. Nano3D интегрирует FlowEdit в TRELLIS для выполнения локализованных правок, управляемых фронтальными рендерами, а также вводит стратегии слияния с учетом областей, Voxel/Slat-Merge, которые адаптивно сохраняют структурную точность, обеспечивая согласованность между отредактированными и неотредактированными областями. Эксперименты показывают, что Nano3D достигает превосходной 3D-согласованности и визуального качества по сравнению с существующими методами. На основе этой платформы мы создали первый крупномасштабный набор данных для 3D-редактирования Nano3D-Edit-100k, содержащий более 100 000 высококачественных пар 3D-редактирования. Эта работа решает давние проблемы как в проектировании алгоритмов, так и в доступности данных, значительно повышая универсальность и надежность 3D-редактирования и закладывая основу для разработки моделей прямого 3D-редактирования. Страница проекта: https://jamesyjl.github.io/Nano3D.

Масштабирование редактирования видео на основе инструкций с использованием высококачественного синтетического набора данных
Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset

Oct 17

ByQingyan Bai, Qiuyu Wang, Hao Ouyang, Yue Yu, Hanlin Wang, Wen Wang, Ka Leong Cheng, Shuailei Ma, Yanhong Zeng, Zichen Liu, Yinghao Xu, Yujun Shen, Qifeng Chen

Редактирование видео на основе инструкций обещает демократизировать создание контента, однако его прогресс серьезно ограничен нехваткой крупномасштабных, высококачественных данных для обучения. Мы представляем Ditto, целостную структуру, разработанную для решения этой фундаментальной проблемы. В основе Ditto лежит инновационный конвейер генерации данных, который объединяет творческое разнообразие ведущего редактора изображений с генератором видео в контексте, преодолевая ограниченные возможности существующих моделей. Чтобы сделать этот процесс осуществимым, наша структура устраняет компромисс между стоимостью и качеством, используя эффективную, дистиллированную архитектуру модели, дополненную временным усилителем, который одновременно снижает вычислительные затраты и улучшает временную согласованность. Наконец, для достижения полной масштабируемости весь этот конвейер управляется интеллектуальным агентом, который создает разнообразные инструкции и строго фильтрует выходные данные, обеспечивая контроль качества в масштабе. Используя эту структуру, мы вложили более 12 000 GPU-дней для создания Ditto-1M — нового набора данных, содержащего миллион примеров редактирования видео с высокой точностью. Мы обучили нашу модель, Editto, на Ditto-1M с использованием стратегии обучения по учебному плану. Результаты демонстрируют превосходную способность следовать инструкциям и устанавливают новый эталон в редактировании видео на основе инструкций.

Эмерджентное рассогласование через обучение в контексте: Узкие контекстные примеры могут приводить к широкому рассогласованию языковых моделей.
Emergent Misalignment via In-Context Learning: Narrow in-context examples can produce broadly misaligned LLMs

Oct 13

ByNikita Afonin, Nikita Andriyanov, Nikhil Bageshpura, Kyle Liu, Kevin Zhu, Sunishchal Dev, Ashwinee Panda, Alexander Panchenko, Oleg Rogov, Elena Tutubalina, Mikhail Seleznyov

Недавние исследования показали, что узкая тонкая настройка может приводить к широкому рассогласованию языковых моделей (LLMs), явление, получившее название "возникающее рассогласование" (emergent misalignment, EM). Хотя эти результаты вызывают обеспокоенность, они были ограничены тонкой настройкой и управлением активациями, исключая обучение в контексте (in-context learning, ICL). Поэтому мы задаемся вопросом: возникает ли EM при использовании ICL? Мы обнаруживаем, что это действительно так: на трех наборах данных три передовые модели генерируют широко рассогласованные ответы с частотой от 2% до 17% при наличии 64 узких примеров в контексте и до 58% при 256 примерах. Мы также исследуем механизмы EM, вызывая пошаговые рассуждения (при этом оставляя примеры в контексте неизменными). Ручной анализ полученной цепочки рассуждений (chain-of-thought) показывает, что 67,5% рассогласованных траекторий явно оправдывают вредоносные выходные данные, принимая безрассудную или опасную "персону", что перекликается с предыдущими результатами, связанными с EM, вызванным тонкой настройкой.

Skyfall-GS: Синтез иммерсивных 3D городских сцен на основе спутниковых изображений
Skyfall-GS: Synthesizing Immersive 3D Urban Scenes from Satellite Imagery

Oct 17

ByJie-Ying Lee, Yi-Ruei Liu, Shr-Ruei Tsai, Wei-Cheng Chang, Chung-Ho Wu, Jiewen Chan, Zhenjun Zhao, Chieh Hubert Lin, Yu-Lun Liu

Создание масштабных, исследовательских и геометрически точных 3D-городских сцен является сложной, но ценной задачей для обеспечения иммерсивных и воплощенных приложений. Основные трудности связаны с отсутствием крупномасштабных и высококачественных 3D-сканирований реального мира для обучения обобщаемых генеративных моделей. В данной работе мы предлагаем альтернативный подход к созданию масштабных 3D-сцен, объединяя доступные спутниковые изображения, которые предоставляют реалистичную грубую геометрию, и открытую диффузионную модель для создания высококачественных детализированных текстур. Мы представляем Skyfall-GS — первую систему для создания 3D-сцен масштаба городского квартала без дорогостоящих 3D-аннотаций, которая также поддерживает интерактивное и иммерсивное исследование в реальном времени. Мы разработали стратегию итеративного улучшения, основанную на учебном плане, для постепенного повышения геометрической полноты и фотореалистичности текстур. Многочисленные эксперименты показывают, что Skyfall-GS обеспечивает улучшенную согласованность геометрии между видами и более реалистичные текстуры по сравнению с современными подходами. Страница проекта: https://skyfall-gs.jayinnn.dev/

Латентная диффузионная модель без вариационного автоэнкодера
Latent Diffusion Model without Variational Autoencoder

Oct 17

ByMinglei Shi, Haolin Wang, Wenzhao Zheng, Ziyang Yuan, Xiaoshi Wu, Xintao Wang, Pengfei Wan, Jie Zhou, Jiwen Lu

Недавние успехи в визуальной генерации на основе диффузии во многом опирались на латентные диффузионные модели с вариационными автоэнкодерами (VAE). Хотя этот подход эффективен для синтеза с высокой точностью, парадигма VAE+диффузия страдает от ограниченной эффективности обучения, медленного вывода и плохой переносимости на более широкий спектр задач компьютерного зрения. Эти проблемы связаны с ключевым ограничением латентных пространств VAE: отсутствием четкого семантического разделения и сильной дискриминативной структуры. Наш анализ подтверждает, что эти свойства важны не только для задач восприятия и понимания, но и для стабильного и эффективного обучения латентных диффузионных моделей. Вдохновленные этим пониманием, мы представляем SVG — новую латентную диффузионную модель без вариационных автоэнкодеров, которая использует самоконтролируемые представления для визуальной генерации. SVG создает пространство признаков с четкой семантической различимостью, используя замороженные признаки DINO, в то время как легковесная остаточная ветвь захватывает мелкозернистые детали для высокоточного восстановления. Диффузионные модели обучаются непосредственно на этом семантически структурированном латентном пространстве, что способствует более эффективному обучению. В результате SVG позволяет ускорить обучение диффузии, поддерживает выборку за несколько шагов и улучшает качество генерации. Экспериментальные результаты также показывают, что SVG сохраняет семантические и дискриминативные возможности базовых самоконтролируемых представлений, предоставляя принципиальный путь к универсальным и высококачественным визуальным представлениям.

Языковые модели моделируют язык.
Language Models Model Language

Oct 14

ByŁukasz Borchmann

Лингвистический анализ языковых моделей (LLMs), находящийся под сильным влиянием теоретических концепций де Соссюра и Хомского, часто носит спекулятивный и малопродуктивный характер. Критики ставят под сомнение способность LLMs адекватно моделировать язык, ссылаясь на необходимость «глубинной структуры» или «заземления» для достижения идеализированной лингвистической «компетенции». Мы предлагаем радикальный сдвиг в перспективе в сторону эмпирических принципов Витольда Манчака, выдающегося специалиста в области общего и исторического языкознания. Он определяет язык не как «систему знаков» или «вычислительную систему мозга», а как совокупность всего сказанного и написанного. Прежде всего, он выделяет частоту использования определённых языковых элементов как основной принцип, управляющий языком. Используя его концептуальную основу, мы оспариваем предыдущие критические замечания в адрес LLMs и предлагаем конструктивное руководство для проектирования, оценки и интерпретации языковых моделей.

LightsOut: Удаление бликов с использованием диффузионного метода дополнения изображения
LightsOut: Diffusion-based Outpainting for Enhanced Lens Flare Removal

Oct 17

ByShr-Ruei Tsai, Wei-Cheng Chang, Jie-Ying Lee, Chih-Hai Su, Yu-Lun Liu

Блик значительно ухудшает качество изображения, что негативно сказывается на критически важных задачах компьютерного зрения, таких как обнаружение объектов и автономное вождение. Современные методы удаления бликов на основе одного изображения (Single Image Flare Removal, SIFR) демонстрируют низкую эффективность, когда источники света за пределами кадра неполны или отсутствуют. Мы предлагаем LightsOut — фреймворк для дорисовки изображений на основе диффузионных моделей, специально разработанный для улучшения SIFR путем восстановления источников света за пределами кадра. Наш метод использует многозадачный регрессионный модуль и диффузионную модель, дообученную с помощью LoRA, чтобы обеспечить реалистичные и физически согласованные результаты дорисовки. Комплексные эксперименты показывают, что LightsOut стабильно повышает производительность существующих методов SIFR в сложных сценариях без необходимости дополнительного переобучения, выступая в качестве универсального подключаемого решения для предварительной обработки. Страница проекта: https://ray-1026.github.io/lightsout/

A^2FM: Адаптивная базовая модель агента для гибридного рассуждения с учетом инструментов
A^2FM: An Adaptive Agent Foundation Model for Tool-Aware Hybrid Reasoning

Oct 13

ByQianben Chen, Jingyi Cao, Jiayu Zhang, Tianrui Qin, Xiaowan Li, King Zhu, Dingfeng Shi, He Zhu, Minghao Liu, Xiaobo Liang, Xin Gui, Ge Zhang, Jian Yang, Yuchen Eleanor Jiang, Wangchunshu Zhou

Крупные языковые модели делятся на два семейства: модели, ориентированные на рассуждения (reasoning-centric LLMs), которые усиливают внутреннюю цепочку рассуждений, но не могут использовать внешние инструменты, и агентные модели (agentic LLMs), которые учатся взаимодействовать с окружением и применять инструменты, но часто отстают в глубоких рассуждениях. Это разделение возникает из-за принципиально разных целей обучения, что приводит к несоответствию сильных сторон и неэффективности при обработке простых запросов, где обе модели склонны либо излишне рассуждать, либо чрезмерно использовать инструменты. В данной работе мы представляем Adaptive Agent Foundation Model (A^2FM) — унифицированную архитектуру, которая следует принципу "маршрутизация, затем согласование": модель сначала обучается маршрутизации с учетом задачи, а затем согласовывает траектории, специфичные для каждого режима, в рамках общей структуры. Чтобы устранить проблему неэффективности, мы вводим третий режим — мгновенный (instant), который напрямую обрабатывает простые запросы, предотвращая излишние рассуждения или вызовы инструментов, дополняя при этом агентный и рассуждающий режимы. Для совместного повышения точности и эффективности мы предлагаем Adaptive Policy Optimization (APO), которая обеспечивает адаптивную выборку между режимами и применяет вознаграждение с учетом затрат. На масштабе 32B A^2FM достигает 13,4% на BrowseComp, 70,4% на AIME25 и 16,7% на HLE, устанавливая новый SOTA среди сопоставимых моделей и демонстрируя конкурентоспособные результаты с передовыми LLM на агентных, рассуждающих и общих тестах. Примечательно, что адаптивное выполнение достигает стоимости прохода всего $0,00487 за правильный ответ, сокращая затраты на 45,2% по сравнению с рассуждающим режимом и на 33,5% по сравнению с агентным, что обеспечивает значительно более высокую экономическую эффективность при сохранении сопоставимой точности.

Paper2Web: Давайте оживим вашу статью!
Paper2Web: Let's Make Your Paper Alive!

Oct 17

ByYuhang Chen, Tianpeng Lv, Siyi Zhang, Yixiang Yin, Yao Wan, Philip S. Yu, Dongping Chen

Академические проектные сайты могут более эффективно распространять исследования, если они четко представляют основное содержание и обеспечивают интуитивную навигацию и взаимодействие. Однако текущие подходы, такие как прямое создание с использованием больших языковых моделей (LLM), шаблоны или прямое преобразование в HTML, сталкиваются с трудностями в создании сайтов с учетом макета и интерактивности, а также отсутствует комплексный набор инструментов для оценки этой задачи. В данной статье мы представляем Paper2Web — эталонный набор данных и многомерную структуру оценки для создания академических веб-страниц. Он включает в себя метрики на основе правил, такие как Связность, Полнота, а также проверенные людьми оценки с использованием LLM-as-a-Judge (охватывающие интерактивность, эстетику и информативность), и PaperQuiz, который измеряет уровень усвоения знаний на уровне статьи. Мы также представляем PWAgent — автономный конвейер, преобразующий научные статьи в интерактивные и мультимедийные академические страницы. Агент итеративно улучшает как содержание, так и макет с помощью инструментов MCP, которые повышают акценты, баланс и качество презентации. Наши эксперименты показывают, что PWAgent значительно превосходит базовые подходы, такие как шаблонные веб-страницы и версии arXiv/alphaXiv, при этом сохраняя низкую стоимость и достигая Парето-фронта в создании академических веб-страниц.

BLIP3o-NEXT: Следующий рубеж в генерации изображений нативного качества
BLIP3o-NEXT: Next Frontier of Native Image Generation

Oct 17

ByJiuhai Chen, Le Xue, Zhiyang Xu, Xichen Pan, Shusheng Yang, Can Qin, An Yan, Honglu Zhou, Zeyuan Chen, Lifu Huang, Tianyi Zhou, Junnan Li, Silvio Savarese, Caiming Xiong, Ran Xu

Мы представляем BLIP3o-NEXT, полностью открытую базовую модель из серии BLIP3, которая выводит генерацию нативных изображений на новый уровень. BLIP3o-NEXT объединяет генерацию изображений из текста и редактирование изображений в рамках единой архитектуры, демонстрируя мощные возможности как в создании, так и в редактировании изображений. В процессе разработки передовой модели для генерации нативных изображений мы выделили четыре ключевых инсайта: (1) Большинство архитектурных решений обеспечивают сопоставимую производительность; архитектуру можно считать эффективной, если она масштабируется с высокой эффективностью и поддерживает быстрое выполнение; (2) Успешное применение обучения с подкреплением может значительно продвинуть границы генерации нативных изображений; (3) Редактирование изображений по-прежнему остается сложной задачей, однако следование инструкциям и согласованность между сгенерированными и эталонными изображениями могут быть значительно улучшены за счет пост-обучения и работы с данными; (4) Качество и объем данных остаются решающими факторами, определяющими верхний предел производительности модели. Опираясь на эти инсайты, BLIP3o-NEXT использует архитектуру "Авторегрессия + Диффузия", в которой авторегрессионная модель сначала генерирует дискретные токены изображений на основе мультимодальных входных данных, а их скрытые состояния затем используются как сигналы для диффузионной модели, создающей изображения с высокой детализацией. Эта архитектура объединяет аналитические способности и следование инструкциям авторегрессионных моделей с возможностью рендеринга мелких деталей диффузионных моделей, достигая нового уровня согласованности и реалистичности. Обширные оценки на различных бенчмарках для генерации изображений из текста и редактирования изображений показывают, что BLIP3o-NEXT превосходит существующие модели по производительности.

MorphoBench: Бенчмарк с адаптивной сложностью для оценки модели рассуждений
MorphoBench: A Benchmark with Difficulty Adaptive to Model Reasoning

Oct 16

ByXukai Wang, Xuanbo Liu, Mingrui Chen, Haitian Zhong, Xuanlin Yang, Bohan Zeng, Jinbo Hu, Hao Liang, Junbo Niu, Xuchen Li, Ruitao Wu, Ruichuan An, Yang Shi, Liu Liu, Xu-Yao Zhang, Qiang Liu, Zhouchen Lin, Wentao Zhang, Bin Dong

С развитием мощных моделей для масштабных рассуждений эффективная оценка их способностей к логическому мышлению становится все более важной. Однако существующие тестовые наборы, предназначенные для оценки способностей крупных моделей к рассуждениям, часто ограничены по охвату и не обладают гибкостью для адаптации сложности в соответствии с развивающимися возможностями моделей. Для решения этой проблемы мы предлагаем MorphoBench — тестовый набор, который включает междисциплинарные вопросы для оценки способностей крупных моделей к рассуждениям и может адаптировать и обновлять сложность вопросов в зависимости от возможностей передовых моделей. В частности, мы создали этот набор, отбирая и собирая сложные вопросы на рассуждения из существующих тестовых наборов и источников, таких как олимпиадные соревнования. Кроме того, MorphoBench адаптивно изменяет аналитическую сложность вопросов, используя ключевые утверждения, генерируемые в процессе рассуждения модели. Также он включает вопросы, созданные с помощью симуляционного программного обеспечения, что позволяет динамически регулировать сложность тестового набора с минимальными затратами ресурсов. Мы собрали более 1300 тестовых вопросов и итеративно корректировали сложность MorphoBench на основе возможностей моделей, таких как o3 и GPT-5. MorphoBench повышает полноту и достоверность оценки способностей моделей к рассуждениям, предоставляя надежные рекомендации для улучшения как их логических способностей, так и научной обоснованности. Код доступен по адресу: https://github.com/OpenDCAI/MorphoBench.

VISTA: Агент генерации видео с самообучением на этапе тестирования
VISTA: A Test-Time Self-Improving Video Generation Agent

Oct 17

ByDo Xuan Long, Xingchen Wan, Hootan Nakhost, Chen-Yu Lee, Tomas Pfister, Sercan Ö. Arık

Несмотря на быстрый прогресс в синтезе видео из текста, качество генерируемого видео по-прежнему критически зависит от точности пользовательских запросов. Существующие методы оптимизации на этапе тестирования, успешные в других областях, сталкиваются с трудностями из-за многогранной природы видео. В данной работе мы представляем VISTA (Video Iterative Self-improvemenT Agent) — новую мультиагентную систему, которая автономно улучшает генерацию видео за счет уточнения запросов в итеративном цикле. VISTA сначала разбивает идею пользователя на структурированный временной план. После генерации лучший видеофрагмент определяется с помощью надежного попарного турнира. Затем этот выигравший видеофрагмент анализируется тремя специализированными агентами, которые фокусируются на визуальной, аудио и контекстуальной точности. Наконец, агент рассуждений синтезирует эту обратную связь для интроспективного переписывания и улучшения запроса для следующего цикла генерации. Эксперименты на сценариях генерации видео с одним и несколькими сценами показывают, что, хотя предыдущие методы дают нестабильные улучшения, VISTA последовательно повышает качество видео и его соответствие намерениям пользователя, достигая до 60% побед в попарных сравнениях с современными базовыми методами. Человеческие оценщики соглашаются, предпочитая результаты VISTA в 66,4% случаев.

Фундаментальные модели для научных открытий: от улучшения парадигмы к смене парадигмы
Foundation Models for Scientific Discovery: From Paradigm Enhancement to Paradigm Transition

Oct 17

ByFan Liu, Jindong Han, Tengfei Lyu, Weijia Zhang, Zhe-Rui Yang, Lu Dai, Cancheng Liu, Hao Liu

Фундаментальные модели (Foundation Models, FMs), такие как GPT-4 и AlphaFold, трансформируют ландшафт научных исследований. Помимо ускорения таких задач, как генерация гипотез, проектирование экспериментов и интерпретация результатов, они поднимают более фундаментальный вопрос: ограничиваются ли FMs улучшением существующих научных методологий или они переопределяют сам способ ведения науки? В данной статье мы утверждаем, что FMs способствуют переходу к новой научной парадигме. Мы представляем трехэтапную структуру для описания этой эволюции: (1) Мета-научная интеграция, где FMs улучшают рабочие процессы в рамках традиционных парадигм; (2) Гибридное со-творчество человека и ИИ, где FMs становятся активными соавторами в формулировании проблем, рассуждении и открытиях; и (3) Автономное научное открытие, где FMs функционируют как независимые агенты, способные генерировать новое научное знание с минимальным вмешательством человека. Через эту призму мы рассматриваем текущие применения и развивающиеся возможности FMs в существующих научных парадигмах. Мы также выделяем риски и будущие направления для научных открытий, основанных на FMs. Эта позиционная статья призвана помочь научному сообществу понять трансформационную роль FMs и стимулировать размышления о будущем научных открытий. Наш проект доступен по адресу https://github.com/usail-hkust/Awesome-Foundation-Models-for-Scientific-Discovery.

DLER: Правильный подход к штрафу за длину — стимулирование большей интеллектуальной нагрузки на токен с помощью обучения с подкреплением
DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning

Oct 16

ByShih-Yang Liu, Xin Dong, Ximing Lu, Shizhe Diao, Mingjie Liu, Min-Hung Chen, Hongxu Yin, Yu-Chiang Frank Wang, Kwang-Ting Cheng, Yejin Choi, Jan Kautz, Pavlo Molchanov

Модели рассуждений, такие как OpenAI-o1, DeepSeek-R1 и Qwen, демонстрируют высокую производительность благодаря расширенным цепочкам рассуждений, но часто генерируют излишне длинные ответы. Максимизация интеллекта на токен — точности относительно длины ответа — остается открытой проблемой. Мы возвращаемся к обучению с подкреплением (RL) с использованием простейшего штрафа за длину — усечения — и показываем, что снижение точности возникает не из-за отсутствия сложных штрафов, а из-за недостаточной оптимизации RL. Мы выделяем три ключевые проблемы: (i) значительное смещение в оценке преимуществ, (ii) коллапс энтропии и (iii) разреженный сигнал вознаграждения. Мы решаем их с помощью метода Doing Length pEnalty Right (DLER), который сочетает нормализацию вознаграждения на уровне батчей, более высокое отсечение, динамическую выборку и простой штраф за длину усечения. DLER достигает оптимального баланса между точностью и эффективностью, сокращая длину вывода более чем на 70 процентов, при этом превосходя все предыдущие базовые показатели точности. Он также улучшает масштабируемость во время тестирования: по сравнению с DeepSeek-R1-7B, DLER-7B генерирует несколько кратких ответов параллельно с 28-процентным увеличением точности и меньшей задержкой. Мы также представляем Difficulty-Aware DLER, который адаптивно ужесточает усечение для более простых вопросов, обеспечивая дополнительный прирост эффективности. Кроме того, мы предлагаем метод выборочного объединения обновлений, который сохраняет базовую точность, одновременно поддерживая способность к кратким рассуждениям модели DLER, что полезно в сценариях с ограниченными данными для обучения RL.

Создайте свою персональную исследовательскую группу: многоагентная структура для непрерывной и интерактивной автоматизации научной деятельности
Build Your Personalized Research Group: A Multiagent Framework for Continual and Interactive Science Automation

Oct 17

ByEd Li, Junyu Ren, Xintian Pan, Cat Yan, Chuanhao Li, Dirk Bergemann, Zhuoran Yang

Автоматизация научных открытий представляет собой важный этап в исследованиях в области искусственного интеллекта (ИИ). Однако существующие агентные системы для науки страдают от двух фундаментальных ограничений: жестких, заранее запрограммированных рабочих процессов, которые не могут адаптироваться к промежуточным результатам, и недостаточного управления контекстом, что затрудняет долгосрочные исследования. Мы представляем freephdlabor — открытый мультиагентный фреймворк, характеризующийся полностью динамическими рабочими процессами, определяемыми рассуждениями агентов в реальном времени, и модульной архитектурой, обеспечивающей бесшовную настройку — пользователи могут изменять, добавлять или удалять агентов для удовлетворения специфических требований предметной области. Фреймворк предоставляет комплексную инфраструктуру, включая автоматическое сжатие контекста, коммуникацию на основе рабочих пространств для предотвращения деградации информации, сохранение памяти между сессиями и механизмы неблокирующего вмешательства человека. Эти функции в совокупности преобразуют автоматизированные исследования из изолированных, одноразовых попыток в непрерывные исследовательские программы, которые систематически основываются на предыдущих исследованиях и включают обратную связь от человека. Предоставляя как архитектурные принципы, так и практическую реализацию для создания настраиваемых систем-соисследователей, данная работа направлена на содействие более широкому внедрению автоматизированных исследований в различных научных областях, позволяя специалистам развертывать интерактивные мультиагентные системы, которые автономно проводят исследования от начала до конца — от генерации идей через эксперименты до подготовки рукописей, готовых к публикации.

Исследовать, чтобы эволюционировать: масштабирование эволюционной логики агрегации через активное онлайн-исследование для глубоких исследовательских агентов
Explore to Evolve: Scaling Evolved Aggregation Logic via Proactive Online Exploration for Deep Research Agents

Oct 16

ByRui Wang, Ce Zhang, Jun-Yu Ma, Jianshu Zhang, Hongru Wang, Yi Chen, Boyang Xue, Tianqing Fang, Zhisong Zhang, Hongming Zhang, Haitao Mi, Dong Yu, Kam-Fai Wong

Глубокие исследовательские веб-агенты не только извлекают информацию из различных источников, таких как веб-среда, файлы и мультимодальные данные, но, что более важно, они должны тщательно анализировать и агрегировать знания для проведения глубоких исследований. Однако существующие открытые глубокие исследовательские агенты в основном сосредоточены на улучшении способностей веб-агентов к поиску информации для нахождения конкретных данных, упуская из виду важную необходимость агрегации информации, что ограничивает их способность поддерживать углубленные исследования. Мы предлагаем парадигму «Исследовать для эволюции» для масштабируемого создания проверяемых обучающих данных для веб-агентов. Начиная с активного онлайн-исследования, агент собирает обоснованную информацию, исследуя реальный веб. Используя собранные данные, агент затем самостоятельно развивает программу агрегации, выбирая, комбинируя и уточняя операции из 12 высокоуровневых логических типов для синтеза проверяемой пары вопрос-ответ. Эта эволюция от высокоуровневого руководства к конкретным операциям позволила нам масштабируемо создать WebAggregatorQA — набор данных из 10 тысяч образцов, охватывающих 50 тысяч веб-сайтов и 11 доменов. На основе открытой платформы для агентов SmolAgents мы собираем траектории обучения с учителем для разработки серии базовых моделей WebAggregator. WebAggregator-8B соответствует производительности GPT-4.1, в то время как 32B-вариант превосходит GPT-4.1 более чем на 10% на GAIA-text и близко приближается к Claude-3.7-sonnet. Более того, учитывая ограниченную доступность бенчмарков, оценивающих способности веб-агентов к агрегации информации, мы создаем аннотированный человеком оценочный набор данных WebAggregatorQA в качестве сложного тестового набора. На этом бенчмарке Claude-3.7-sonnet достигает только 28%, а GPT-4.1 — 25.8%. Даже когда агентам удается извлечь все ссылки, они все равно испытывают трудности с WebAggregatorQA, что подчеркивает необходимость укрепления способностей базовых веб-агентов к агрегации информации.

InfiMed-ORBIT: Выравнивание языковых моделей на открытых сложных задачах с помощью поэтапного обучения на основе рубрик
InfiMed-ORBIT: Aligning LLMs on Open-Ended Complex Tasks via Rubric-Based Incremental Training

Oct 17

ByPengkai Wang, Qi Zuo, Pengwei Liu, Zhijie Sang, Congkai Xie, Hongxia Yang

Крупные языковые модели (LLM) демонстрируют значительные успехи благодаря обучению с подкреплением (RL), особенно в областях, где вознаграждения могут быть программно проверены, таких как математика и программирование. В этих сферах модели извлекают пользу из четко определенной операционной базы, руководствуясь явными правилами и целями. Однако этот прогресс выявляет существенное ограничение: в открытых областях, где вознаграждения неоднозначны, субъективны или зависят от контекста, таких как творческое письмо, научное рассуждение и, в особенности, медицинские консультации, отсутствуют надежные функции вознаграждения, что делает эти области сложными для современных стратегий RL. Чтобы преодолеть этот разрыв, мы представляем ORBIT — открытую структуру инкрементного обучения на основе рубрик, специально разработанную для высокоответственных медицинских диалогов. ORBIT интегрирует генерацию синтетических диалогов с динамическим созданием рубрик, используя эти рубрики для направления инкрементного процесса RL. В частности, этот подход не зависит от внешних медицинских знаний или ручных правил, вместо этого он использует обратную связь, основанную на рубриках, для формирования обучения. При реализации на модели Qwen3-4B-Instruct наш метод значительно улучшает её производительность на бенчмарке HealthBench-Hard с 7.0 до 27.2, используя всего 2 тысячи образцов, что позволяет достичь современных результатов для моделей такого масштаба. Наш анализ подтверждает, что RL, управляемый рубриками, способствует стабильному улучшению производительности в различных сценариях консультаций, выходя за рамки простого численного улучшения. Эти результаты подчеркивают обратную связь на основе рубрик как масштабируемую стратегию для продвижения LLM в сложных, открытых задачах.

Имаджинариум: Генерация высококачественных 3D-сцен с использованием визуального руководства
Imaginarium: Vision-guided High-Quality 3D Scene Layout Generation

Oct 17

ByXiaoming Zhu, Xu Huang, Qinghongbing Xie, Zhi Deng, Junsheng Yu, Yirui Guan, Zhongyuan Liu, Lin Zhu, Qijun Zhao, Ligang Liu, Long Zeng

Создание художественных и согласованных 3D-сцен является ключевым аспектом в цифровом контенте. Традиционные методы, основанные на оптимизации, часто ограничены громоздкими ручными правилами, в то время как глубокие генеративные модели сталкиваются с трудностями в создании контента, обладающего богатством и разнообразием. Кроме того, подходы, использующие крупные языковые модели, часто недостаточно устойчивы и не способны точно улавливать сложные пространственные отношения. Для решения этих проблем в данной статье представлена новая система генерации 3D-сцен, основанная на визуальном руководстве. Сначала мы создаем высококачественную библиотеку ресурсов, содержащую 2037 объектов сцен и 147 3D-сцен. Затем мы используем модель генерации изображений для расширения текстовых описаний до изображений, дорабатывая ее для соответствия нашей библиотеке ресурсов. После этого мы разрабатываем надежный модуль анализа изображений для восстановления 3D-структуры сцен на основе визуальной семантики и геометрической информации. Наконец, мы оптимизируем структуру сцены с использованием графов сцен и общей визуальной семантики, чтобы обеспечить логическую согласованность и соответствие изображениям. Обширное тестирование пользователями показывает, что наш алгоритм значительно превосходит существующие методы по богатству и качеству сцен. Код и набор данных будут доступны по адресу https://github.com/HiHiAllen/Imaginarium.

FinTrust: Комплексный эталон оценки надежности в финансовой сфере
FinTrust: A Comprehensive Benchmark of Trustworthiness Evaluation in Finance Domain

Oct 17

ByTiansheng Hu, Tongyan Hu, Liuyang Bai, Yilun Zhao, Arman Cohan, Chen Zhao

Последние крупные языковые модели (LLM) продемонстрировали перспективные способности в решении задач, связанных с финансами. Однако применение LLM в реальных финансовых приложениях остается сложным из-за их высокой степени риска и значимости. В данной статье представлен FinTrust — комплексный эталонный тест, специально разработанный для оценки надежности LLM в финансовых приложениях. Наш тест охватывает широкий спектр вопросов согласованности, основанных на практическом контексте, и включает детализированные задачи для каждого аспекта оценки надежности. Мы протестировали одиннадцать LLM на платформе FinTrust и обнаружили, что проприетарные модели, такие как o4-mini, превосходят в большинстве задач, таких как безопасность, в то время как модели с открытым исходным кодом, такие как DeepSeek-V3, имеют преимущество в определенных областях, например, в справедливости на уровне отрасли. В сложных задачах, таких как фидуциарное согласование и раскрытие информации, все LLM демонстрируют недостатки, что указывает на значительный пробел в осведомленности о правовых аспектах. Мы считаем, что FinTrust может стать ценным инструментом для оценки надежности LLM в финансовой сфере.

Чувствуют ли LLM? Обнаружение и управление эмоциональными цепями
Do LLMs "Feel"? Emotion Circuits Discovery and Control

Oct 13

ByChenxi Wang, Yixuan Zhang, Ruiji Yu, Yufei Zheng, Lang Gao, Zirui Song, Zixiang Xu, Gus Xia, Huishuai Zhang, Dongyan Zhao, Xiuying Chen

По мере роста спроса на эмоциональный интеллект в крупных языковых моделях (LLM) ключевой задачей становится понимание внутренних механизмов, лежащих в основе эмоционального выражения, и управление эмоциями в генерируемом тексте. Данное исследование затрагивает три основных вопроса: (1) Содержат ли LLM контекстно-независимые механизмы, формирующие эмоциональное выражение? (2) Какую форму принимают эти механизмы? (3) Можно ли их использовать для универсального управления эмоциями? Сначала мы создаем контролируемый набор данных SEV (Scenario-Event with Valence), чтобы вызвать сопоставимые внутренние состояния для различных эмоций. Затем мы извлекаем контекстно-независимые направления эмоций, которые демонстрируют согласованное кодирование эмоций в различных контекстах (Q1). С помощью аналитического разложения и причинно-следственного анализа мы идентифицируем нейроны и головы внимания, которые локально реализуют эмоциональные вычисления, и подтверждаем их причинную роль с помощью абляции и усиливающих вмешательств. Далее мы количественно оцениваем причинное влияние каждого подслоя на финальное представление эмоций в модели и интегрируем выявленные локальные компоненты в согласованные глобальные эмоциональные цепи, которые управляют эмоциональным выражением (Q2). Прямая модуляция этих цепей достигает точности выражения эмоций в 99,65% на тестовом наборе, превосходя методы, основанные на подсказках и управлении (Q3). Насколько нам известно, это первое систематическое исследование, которое раскрывает и подтверждает эмоциональные цепи в LLM, предлагая новые подходы к интерпретируемости и управляемому эмоциональному интеллекту.

Надежные правила масштабирования по слоям за счет точной настройки весового затухания
Robust Layerwise Scaling Rules by Proper Weight Decay Tuning

Oct 17

ByZhiyuan Fan, Yifeng Liu, Qingyue Zhao, Angela Yuan, Quanquan Gu

Эмпирические законы масштабирования предписывают, как распределять параметры, данные и вычислительные ресурсы, в то время как параметризация с максимальным обновлением (muP) позволяет переносить скорость обучения между различными ширинами, уравнивая величины обновлений на ранних этапах. Однако в современных масштабно-инвариантных архитектурах обучение быстро переходит в устойчивое состояние, управляемое оптимизатором, где слои нормализации создают чувствительность к масштабу в обратном направлении, и эффективная скорость обучения становится зависимой от ширины, что ухудшает переносимость muP. Мы решаем эту проблему, вводя правило масштабирования весового затухания для AdamW, которое сохраняет усиление подслоев при изменении ширины. Эмпирически спектр сингулярных значений каждого матричного параметра масштабируется по норме как η/λ с приблизительно инвариантной формой; при масштабировании ширины d мы наблюдаем, что наибольшее сингулярное значение масштабируется приблизительно как η/λ⋅d^{0.75}. Сочетание этого наблюдения с правилом скорости обучения muP η_2∝d^{-1} для матричных параметров подразумевает эмпирическое правило масштабирования весового затухания λ_2∝d, которое приблизительно сохраняет усиление подслоев инвариантным к ширине. Вместе с векторными параметрами, обучаемыми при η_1=Θ_d(1) и λ_1=0, это обеспечивает нулевой перенос как скорости обучения, так и весового затухания с прокси на целевые ширины, устраняя необходимость в подборе параметров для каждой ширины. Мы проверяем это правило на трансформерах в стиле LLaMA и в минимальной синтетической настройке, а также предоставляем простой диагностический метод, сопоставляя наибольшие сингулярные значения, для проверки инвариантности усиления подслоев. Наши результаты расширяют muP за пределы режима, близкого к начальной инициализации, явно контролируя масштабы устойчивого состояния, задаваемые оптимизатором, и предлагая практический рецепт для устойчивого к ширине переноса гиперпараметров при использовании AdamW.

Переподключение экспертов на лету: непрерывная перенаправление для улучшения онлайн-адаптации в моделях смеси экспертов
Rewiring Experts on the Fly:Continuous Rerouting for Better Online Adaptation in Mixture-of-Expert models

Oct 16

ByGuinan Su, Yanwu Yang, Li Shen, Lu Yin, Shiwei Liu, Jonas Geiping

Модели типа Mixture-of-Experts (MoE) достигают эффективного масштабирования за счет разреженной активации экспертов, но часто страдают от субоптимальных решений маршрутизации из-за сдвигов распределения при развертывании. Хотя существующие методы адаптации на этапе тестирования потенциально могут решить эти проблемы, они в основном ориентированы на плотные модели и требуют доступа к внешним данным, что ограничивает их практическую применимость для архитектур MoE. Однако мы обнаружили, что вместо использования эталонных данных можно оптимизировать выбор экспертов MoE на лету, основываясь только на контексте входных данных. Таким образом, мы предлагаем фреймворк для адаптации на этапе тестирования, который не требует данных и работает в режиме реального времени, непрерывно адаптируя решения маршрутизации MoE в процессе генерации текста без внешнего контроля или данных. Наш метод чередует две фазы: на этапе предварительного заполнения, а затем через регулярные интервалы, мы оптимизируем решения маршрутизации модели с использованием самоконтроля на основе уже сгенерированной последовательности. Затем мы генерируем текст как обычно, сохраняя модифицированный маршрутизатор до следующей адаптации. Мы реализуем это с помощью легковесных аддитивных векторов, которые обновляют логиты маршрутизатора только в выбранных слоях, сохраняя вычислительную эффективность и предотвращая избыточную адаптацию. Экспериментальные результаты показывают стабильное улучшение производительности на сложных задачах логического рассуждения при сохранении устойчивости к сдвигам контекста. Например, наш метод демонстрирует улучшение на 5,5% на тесте HumanEval с моделью OLMoE. Более того, благодаря своей plug-and-play природе, наш метод естественным образом дополняет существующие техники масштабирования на этапе тестирования, например, обеспечивая средний прирост на 6% при использовании совместно с методом самосогласованности на модели DeepSeek-V2-Lite.

ERGO: Оптимизация генерации в многоходовых языковых моделях с использованием энтропийно-ориентированного сброса
ERGO: Entropy-guided Resetting for Generation Optimization in Multi-turn Language Models

Oct 15

ByHaziq Mohammad Khalid, Athikash Jeyaganthan, Timothy Do, Yicheng Fu, Sean O'Brien, Vasu Sharma, Kevin Zhu

Крупные языковые модели (LLM) демонстрируют значительное снижение производительности в многоходовых диалогах, когда информация предоставляется постепенно. Учитывая, что многоходовые диалоги характерны для повседневного взаимодействия с LLM, это снижение представляет собой серьезную проблему для их практической применимости. Мы предполагаем, что резкие скачки неопределенности модели сигнализируют о рассогласовании в многоходовых взаимодействиях с LLM, и используем это наблюдение для динамического восстановления контекста диалога. Мы представляем ERGO (Entropy-guided Resetting for Generation Optimization), который непрерывно оценивает внутреннюю неопределенность через энтропию Шеннона для распределений следующих токенов и запускает адаптивную консолидацию запроса при обнаружении резкого скачка энтропии. Рассматривая неопределенность как ключевой сигнал, а не как помеху, которую нужно устранить, ERGO учитывает вариативность языка и моделирования, представляя и реагируя на неопределенность. В многоходовых задачах с постепенно раскрываемыми инструкциями ERGO обеспечивает средний прирост производительности на 56,6% по сравнению с базовыми методами, увеличивает способность (пиковую производительность) на 24,7% и снижает ненадежность (вариативность производительности) на 35,3%, демонстрируя, что учет неопределенности может улучшить как точность, так и надежность в диалоговом ИИ.

Обучите унифицированный классификатор качества мультимодальных данных с использованием синтетических данных.
Train a Unified Multimodal Data Quality Classifier with Synthetic Data

Oct 16

ByWeizhi Wang, Rongmei Lin, Shiyang Li, Colin Lockard, Ritesh Sarkhel, Sanket Lokegaonkar, Jingbo Shang, Xifeng Yan, Nasser Zalmout, Xian Li

Мультимодальные крупные языковые модели (MLLMs) продолжают предварительное обучение на смеси данных с подписями к изображениям и чередующимися документальными данными, при этом качественная фильтрация данных для чередующихся изображений и текстов остается недостаточно изученной. Мы предлагаем обучить эффективную MLLM в качестве универсального классификатора качества мультимодальных данных для фильтрации как высококачественных подписей к изображениям, так и чередующихся данных (UniFilter). Для решения задачи сбора разнообразных размеченных мультимодальных данных мы вводим полусинтетический подход, который использует доступные исходные изображения и генерирует соответствующий текст для четырех уровней качества. Этот метод позволяет эффективно создавать пары "образец-оценка" как для данных с подписями, так и для чередующихся документов для обучения UniFilter. Мы применяем UniFilter для отбора высококачественных данных с подписями из набора данных DataComp и чередующихся данных из набора OBELICS, содержащего чередующиеся изображения и тексты. MLLMs, предварительно обученные на отфильтрованных данных, демонстрируют значительно улучшенные возможности по сравнению с моделями, обученными на данных, отфильтрованных базовыми методами, достигая более сильных способностей к рассуждению в условиях нулевого сэмплинга и обучению в контексте. После визуального контролируемого тонкого обучения эти MLLMs, индуцированные UniFilter, показывают более высокую производительность на различных тестовых наборах, подчеркивая преимущества высококачественного мультимодального предварительного обучения для последующих задач. Мы публикуем синтетические обучающие данные, использованные для обучения UniFilter, контрольные точки модели UniFilter и высококачественное подмножество чередующихся документов OBELICS-HQ, отобранное с помощью UniFilter, для воспроизведения и дальнейшего развития сообществом.

Адаптация самоконтролируемых представлений в качестве латентного пространства для эффективной генерации
Adapting Self-Supervised Representations as a Latent Space for Efficient Generation

Oct 16

ByMing Gui, Johannes Schusterbauer, Timy Phan, Felix Krause, Josh Susskind, Miguel Angel Bautista, Björn Ommer

Мы представляем Representation Tokenizer (RepTok) — генеративную модель, которая представляет изображение с помощью одного непрерывного латентного токена, полученного из самоконтролируемых визионных трансформеров. Основываясь на предварительно обученном SSL-энкодере, мы дообучаем только семантическое вложение токена и сочетаем его с генеративным декодером, обученным совместно с использованием стандартной задачи согласования потоков. Эта адаптация обогащает токен низкоуровневыми деталями, важными для реконструкции, что позволяет достичь точного восстановления изображения. Чтобы сохранить благоприятную геометрию исходного SSL-пространства, мы добавляем косинусную функцию потерь, которая регуляризует адаптированный токен, обеспечивая гладкость латентного пространства и его пригодность для генерации. Наша формулировка с одним токеном устраняет пространственные избыточности 2D латентных пространств и значительно снижает затраты на обучение. Несмотря на простоту и эффективность, RepTok демонстрирует конкурентоспособные результаты в генерации изображений на основе классов ImageNet и естественным образом расширяется до синтеза изображений по тексту, достигая конкурентоспособной производительности в условиях нулевого обучения на MS-COCO при крайне ограниченных бюджетах на обучение. Наши результаты подчеркивают потенциал дообученных SSL-представлений как компактных и эффективных латентных пространств для эффективного генеративного моделирования.

DriveGen3D: Ускорение генерации сцен вождения с прямой связью с помощью эффективной видео-диффузии
DriveGen3D: Boosting Feed-Forward Driving Scene Generation with Efficient Video Diffusion

Oct 17

ByWeijie Wang, Jiagang Zhu, Zeyu Zhang, Xiaofeng Wang, Zheng Zhu, Guosheng Zhao, Chaojun Ni, Haoxiao Wang, Guan Huang, Xinze Chen, Yukun Zhou, Wenkang Qin, Duochao Shi, Haoyun Li, Guanghong Jia, Jiwen Lu

Мы представляем DriveGen3D — новый фреймворк для генерации высококачественных и высококонтролируемых динамических 3D-сцен вождения, который устраняет ключевые ограничения существующих методик. Современные подходы к синтезу сцен вождения либо требуют чрезмерных вычислительных ресурсов для генерации на длительных временных интервалах, либо сосредоточены исключительно на создании продолжительных видео без 3D-представления, либо ограничиваются реконструкцией статичных одиночных сцен. Наша работа заполняет этот методологический пробел, объединяя ускоренную генерацию долгосрочных видео с реконструкцией крупномасштабных динамических сцен через мультимодальное условное управление. DriveGen3D представляет собой унифицированный конвейер, состоящий из двух специализированных компонентов: FastDrive-DiT — эффективного видео-диффузионного трансформера для синтеза высококачественных, временно согласованных видео под управлением текста и макета Bird's-Eye-View (BEV); и FastRecon3D — прямого модуля реконструкции, который быстро строит 3D-представления на основе гауссовых распределений во времени, обеспечивая пространственно-временную согласованность. Вместе эти компоненты позволяют в реальном времени генерировать продолжительные видео вождения (до 424×800 при 12 кадрах в секунду) и соответствующие динамические 3D-сцены, достигая SSIM 0,811 и PSNR 22,84 на синтезе новых ракурсов, сохраняя при этом эффективность по параметрам.