HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

24 papers found

DataFlow: LLM-управляемая платформа для унифицированной подготовки данных и автоматизации рабочих процессов в эпоху центрированной на данных ИИ
DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI

Dec 18

ByHao Liang, Xiaochen Ma, Zhou Liu, Zhen Hao Wong, Zhengyang Zhao, Zimo Meng, Runming He, Chengyu Shen, Qifeng Cai, Zhaoyang Han, Meiyi Qiang, Yalin Feng, Tianyi Bai, Zewei Pan, Ziyi Guo, Yizhen Jiang, Jingwen Deng, Qijie You, Peichao Lai, Tianyu Guo, Chi Hsu Tsai, Hengyi Feng, Rui Hu, Wenkai Yu, Junbo Niu, Bohan Zeng, Ruichuan An, Lu Ma, Jihao Huang, Yaowei Zheng, Conghui He, Linpeng Tang, Bin Cui, Weinan E, Wentao Zhang

217

Быстро растущий спрос на качественные данные для больших языковых моделей (LLM) обострил потребность в масштабируемых, надежных и семантически насыщенных конвейерах подготовки данных. Однако текущие подходы по-прежнему доминируют нестандартизированные скрипты и слабо специфицированные рабочие процессы, которые лишены принципиальных абстракций, затрудняют воспроизводимость и предлагают ограниченную поддержку генерации данных с участием модели в цикле. Для решения этих проблем мы представляем DataFlow — унифицированную и расширяемую платформу подготовки данных на основе LLM. DataFlow спроектирована с системными абстракциями, обеспечивающими модульные, повторно используемые и композируемые преобразования данных, и предоставляет API для построения конвейеров в стиле PyTorch, позволяющий создавать отлаживаемые и оптимизируемые потоки данных. Фреймворк включает около 200 повторно используемых операторов и шесть доменно-независимых конвейеров, охватывающих текстовые данные, математические рассуждения, код, Text-to-SQL, агентский RAG и крупномасштабное извлечение знаний. Для дальнейшего повышения удобства использования мы представляем DataFlow-Agent, который автоматически преобразует спецификации на естественном языке в исполняемые конвейеры посредством синтеза операторов, планирования пайплайнов и итерационной верификации. В шести репрезентативных сценариях использования DataFlow последовательно улучшает производительность нижестоящих LLM. Наши конвейеры для математики, кода и текста превосходят курируемые человеческие наборы данных и специализированные синтетические базовые линии, демонстрируя до +3% точности исполнения в Text-to-SQL по сравнению с SynSQL, +7% среднего улучшения на код-бенчмарках и прирост на 1–3 пункта на MATH, GSM8K и AIME. Более того, унифицированный набор данных из 10 тысяч примеров, созданный с помощью DataFlow, позволяет базовым моделям превзойти аналоги, обученные на 1 миллионе данных Infinity-Instruct. Эти результаты демонстрируют, что DataFlow предоставляет практичный и высокопроизводительный фундамент для надежной, воспроизводимой и масштабируемой подготовки данных для LLM и закладывает системную основу для будущего развития AI, ориентированного на данные.

Гипотеза призмы: согласование семантических и пиксельных представлений с помощью унифицированного автоэнкодинга
The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding

Dec 22

ByWeichen Fan, Haiwen Diao, Quan Wang, Dahua Lin, Ziwei Liu

Глубокие представления в различных модальностях по своей природе взаимосвязаны. В данной работе мы систематически анализируем спектральные характеристики различных семантических и пиксельных энкодеров. Примечательно, что наше исследование выявляет высокоинтересную и редко изучаемую корреляцию между спектром признаков энкодера и его функциональной ролью: семантические энкодеры преимущественно захватывают низкочастотные компоненты, кодирующие абстрактное значение, тогда как пиксельные энкодеры дополнительно сохраняют высокочастотную информацию, передающую детализированные нюансы. Это эвристическое открытие предлагает унифицирующую перспективу, связывающую поведение энкодера с его лежащей в основе спектральной структурой. Мы определяем это как Призменную Гипотезу, где каждая модальность данных может рассматриваться как проекция реального мира на общий спектр признаков, подобно призме. Основываясь на этом инсайте, мы предлагаем Unified Autoencoding (UAE) — модель, которая гармонизирует семантическую структуру и пиксельные детали посредством инновационного модулятора частотных полос, обеспечивая их бесшовное сосуществование. Многочисленные эксперименты на бенчмарках ImageNet и MS-COCO подтверждают, что наш UAE эффективно объединяет семантическую абстракцию и пиксельную точность в едином латентном пространстве с передовой производительностью.

Регионально-ограниченное контекстное редактирование инструктивных видео
Region-Constraint In-Context Generation for Instructional Video Editing

Dec 19

ByZhongwei Zhang, Fuchen Long, Wei Li, Zhaofan Qiu, Wu Liu, Ting Yao, Tao Mei

Недавно предложенная парадигма контекстной генерации продемонстрировала высокую эффективность в редактировании изображений по инструкциям, сочетая как экономию данных, так и качество синтеза. Однако применение такого контекстного обучения для редактирования видео на основе инструкций является нетривиальной задачей. Без указания областей редактирования результаты могут страдать от проблемы неточного определения редактируемых областей и интерференции токенов между редактируемыми и нередактируемыми зонами в процессе денизинга. Для решения этих проблем мы представляем ReCo — новую парадигму редактирования видео по инструкциям, которая углубляется в моделирование ограничений между редактируемыми и нередактируемыми областями в ходе контекстной генерации. Технически ReCo объединяет исходное и целевое видео по ширине для совместного денизинга. Для калибровки обучения диффузионной модели видео ReCo использует два регуляризационных члена: латентную регуляризацию и регуляризацию внимания, применяемые к латентным представлениям после одного шага обратного денизинга и картам внимания соответственно. Первый увеличивает латентное расхождение редактируемой области между исходным и целевым видео, одновременно уменьшая его для нередактируемых областей, что акцентирует модификацию целевой зоны и снижает нежелательную генерацию контента за её пределами. Второй подавляет внимание токенов в редактируемой области к токенам соответствующей области исходного видео, тем самым mitigating их интерференцию при генерации новых объектов в целевом видео. Кроме того, мы представляем крупномасштабный высококачественный набор данных для редактирования видео ReCo-Data, содержащий 500 тыс. пар «инструкция-видео» для улучшения обучения моделей. Многочисленные эксперименты, проведенные на четырех основных задачах редактирования видео по инструкциям, демонстрируют превосходство нашего предложения.

QuCo-RAG: Количественная оценка неопределенности из предобучающего корпуса для динамического поисково-дополненного генеративного моделирования
QuCo-RAG: Quantifying Uncertainty from the Pre-training Corpus for Dynamic Retrieval-Augmented Generation

Dec 22

ByDehai Min, Kailin Zhang, Tongtong Wu, Lu Cheng

Динамическое поисково-дополненное генерирование адаптивно определяет, когда выполнять поиск в процессе генерации, чтобы снизить уровень галлюцинаций в больших языковых моделях. Однако существующие методы полагаются на внутренние сигналы модели (например, логиты, энтропию), которые в принципе ненадежны, поскольку LLM обычно плохо калиброваны и часто проявляют высокую уверенность в ошибочных результатах. Мы предлагаем QuCo-RAG, который переходит от субъективной уверенности к объективной статистике, вычисленной на данных предварительного обучения. Наш метод количественно оценивает неопределенность в два этапа: (1) до генерации мы идентифицируем редкие сущности, указывающие на пробелы в знаниях о длинном хвосте; (2) в процессе генерации мы проверяем совместную встречаемость сущностей в корпусе предварительного обучения, где нулевая совместная встречаемость часто сигнализирует о риске галлюцинации. Оба этапа используют Infini-gram для запросов с задержкой в миллисекунды по 4 триллионам токенов, инициируя поиск при высокой неопределенности. Эксперименты на бенчмарках многозвенного вопросно-ответного поиска показывают, что QuCo-RAG достигает прироста по точному совпадению (EM) на 5–12 пунктов по сравнению с передовыми базовыми методами с моделями OLMo-2 и эффективно переносится на модели с закрытыми данными предварительного обучения (Llama, Qwen, GPT), улучшая EM до 14 пунктов. Обобщение на биомедицинскую QA-область дополнительно подтверждает устойчивость нашей парадигмы. Эти результаты устанавливают верификацию на основе корпуса как принципиальную, практически модельно-независимую парадигму для динамического RAG. Наш код общедоступен по адресу https://github.com/ZhishanQ/QuCo-RAG.

WorldWarp: Распространение 3D-геометрии с помощью асинхронной видео-диффузии
WorldWarp: Propagating 3D Geometry with Asynchronous Video Diffusion

Dec 22

ByHanyang Kong, Xingyi Yang, Xiaoxu Zheng, Xinchao Wang

Создание геометрически согласованных видео большой протяженности сталкивается с фундаментальной дилеммой: хотя согласованность требует строгого соблюдения 3D-геометрии в пространстве пикселей, современные генеративные модели наиболее эффективно работают в латентном пространстве с условиями на камеру. Этот разрыв приводит к тому, что существующие методы плохо справляются с окклюзированными областями и сложными траекториями камеры. Для преодоления этого разрыва мы предлагаем WorldWarp — фреймворк, сочетающий 3D-структурный якорь с 2D-генеративным уточнителем. Для обеспечения геометрической обоснованности WorldWarp поддерживает онлайн-кэш 3D-геометрии, построенный с помощью гауссовского сплайтинга (3DGS). Явным образом преобразуя исторический контент в новые ракурсы, этот кэш служит структурным каркасом, гарантируя, что каждый новый кадр соответствует предыдущей геометрии. Однако статическое преобразование неизбежно оставляет дыры и артефакты из-за окклюзий. Мы решаем эту проблему с помощью Spatio-Temporal Diffusion (ST-Diff) модели, предназначенной для задачи «заполнения и ревизии». Ключевым нововведением является пространственно-временной изменяемый график зашумления: пустые области получают полный шум для инициации генерации, тогда как преобразованные области получают частичный шум для возможности уточнения. Динамически обновляя 3D-кэш на каждом шаге, WorldWarp сохраняет согласованность между фрагментами видео. В результате достигается высочайшая точность за счет того, что 3D-логика направляет структуру, а диффузионная логика совершенствует текстуру. Страница проекта: https://hyokong.github.io/worldwarp-page/.

Бесконечная гомография как надежное условие для управления камерой при генерации видео
Infinite-Homography as Robust Conditioning for Camera-Controlled Video Generation

Dec 18

ByMin-Jung Kim, Jeongho Kim, Hoiyeong Jin, Junha Hyung, Jaegul Choo

Последние достижения в области видео-диффузионных моделей стимулируют растущий интерес к генерации видео с новых ракурсов с управлением камерой для динамических сцен, что направлено на предоставление создателям возможностей кинематографического контроля камеры на этапе пост-продакшена. Ключевой проблемой в генерации видео с управлением камерой является обеспечение соответствия заданной позе камеры при сохранении согласованности видов и восстановлении загороженной геометрии на основе ограниченных наблюдений. Для решения этой задачи существующие методы либо обучают модель генерации видео, обусловленную траекторией, на наборе данных пар "траектория-видео", либо оценивают глубину из входного видео для его репроекции вдоль целевой траектории и генерации неспроецированных областей. Тем не менее, существующие методы сталкиваются с трудностями в генерации высококачественных видео, точно соответствующих позе камеры, по двум основным причинам: (1) подходы на основе репроекции сильно подвержены ошибкам, вызванным неточным оценением глубины; и (2) ограниченное разнообразие траекторий камеры в существующих наборах данных сужает возможности обученных моделей. Для преодоления этих ограничений мы представляем InfCam — свободный от оценки глубины фреймворк для видео-к-видео генерации с управлением камерой, обеспечивающий высокую точность соответствия позе. Фреймворк интегрирует два ключевых компонента: (1) бесконечное гомографическое преобразование, которое кодирует 3D-вращения камеры непосредственно в 2D-латентном пространстве видео-диффузионной модели. Условие на основе этой зашумленной ротационной информации позволяет предсказать остаточный параллаксовый член с помощью сквозного обучения для достижения высокой точности соответствия позе камеры; и (2) конвейер аугментации данных, преобразующий существующие синтетические многовидовые наборы данных в последовательности с разнообразными траекториями и фокусными расстояниями. Результаты экспериментов демонстрируют, что InfCam превосходит базовые методы по точности соответствия позе камеры и визуальному качеству, хорошо обобщаясь с синтетических на реальные данные. Ссылка на страницу проекта: https://emjay73.github.io/InfCam/

LoGoPlanner: Стратегия навигации на основе локализации с метрически-осознанной визуальной геометрией
LoGoPlanner: Localization Grounded Navigation Policy with Metric-aware Visual Geometry

Dec 22

ByJiaqi Peng, Wenzhe Cai, Yuqiang Yang, Tai Wang, Yuan Shen, Jiangmiao Pang

Планирование траектории в неструктурированных средах является фундаментальной и сложной задачей для мобильных роботов. Традиционные модульные конвейеры страдают от задержек и каскадных ошибок между модулями восприятия, локализации, картографирования и планирования. Новые сквозные методы обучения напрямую отображают необработанные визуальные наблюдения в управляющие сигналы или траектории, обещая более высокую производительность и эффективность в условиях реального мира. Однако большинство существующих сквозных подходов по-прежнему зависят от отдельных модулей локализации, которые требуют точной внешней калибровки сенсоров для оценки собственного состояния, что ограничивает обобщение между различными платформами и средами. Мы представляем LoGoPlanner — сквозную навигационную систему, основанную на локализации, которая решает эти ограничения за счет: (1) дообучения бэкбона визуальной геометрии для прогнозирования с абсолютным метрическим масштабом, обеспечивая неявную оценку состояния для точной локализации; (2) реконструкции геометрии окружающей сцены из исторических наблюдений для обеспечения плотного, детального восприятия среды для надежного избегания препятствий; и (3) обусловливания политики неявной геометрией, инициализированной вышеупомянутыми вспомогательными задачами, тем самым снижая распространение ошибок. Мы оцениваем LoGoPlanner в симуляции и реальных условиях, где его полностью сквозная архитектура снижает кумулятивную ошибку, а метрически осведомленная геометрическая память улучшает согласованность планирования и избегание препятствий, что приводит к улучшению более чем на 27,3% по сравнению с базовыми методами, использующими точную локализацию, и демонстрирует сильное обобщение между платформами и средами. Код и модели общедоступны на https://steinate.github.io/logoplanner.github.io/{странице проекта}.

Могут ли языковые модели оценить трудности учащихся? Согласование человеческого и искусственного интеллекта в оценке сложности с помощью симуляции уровня владения для прогнозирования трудности заданий
Can LLMs Estimate Student Struggles? Human-AI Difficulty Alignment with Proficiency Simulation for Item Difficulty Prediction

Dec 21

ByMing Li, Han Chen, Yunze Xiao, Jian Chen, Hong Jiao, Tianyi Zhou

Точная оценка сложности заданий (вопросов или задач) имеет ключевое значение для образовательного тестирования, однако страдает от проблемы "холодного старта". Хотя большие языковые модели демонстрируют сверхчеловеческие способности к решению задач, остается открытым вопрос, могут ли они воспринимать когнитивные трудности учащихся-людей. В данной работе представлен масштабный эмпирический анализ согласованности оценок сложности между человеком и ИИ для более чем 20 моделей в различных областях, таких как медицинские знания и математические рассуждения. Наши результаты выявляют систематическое рассогласование: увеличение размера модели не приводит к надежному улучшению; вместо сближения с человеческими оценками модели сходятся к общему "машинному консенсусу". Мы наблюдаем, что высокая производительность моделей часто препятствует точной оценке сложности, поскольку модели не могут адекватно симулировать ограниченные возможности учащихся даже при явных указаниях адаптироваться к конкретным уровням подготовки. Кроме того, мы выявляем критическое отсутствие интроспекции — модели не способны предсказать собственные ограничения. Эти результаты свидетельствуют, что общая способность решать задачи не подразумевает понимания человеческих когнитивных трудностей, что подчеркивает сложность использования современных моделей для автоматического прогнозирования сложности.

Is There a Better Source Distribution than Gaussian? Exploring Source Distributions for Image Flow Matching

Dec 20

ByJunho Lee, Kwanseok Kim, Joonseok Lee

Flow matching has emerged as a powerful generative modeling approach with flexible choices of source distribution. While Gaussian distributions are commonly used, the potential for better alternatives in high-dimensional data generation remains largely unexplored. In this paper, we propose a novel 2D simulation that captures high-dimensional geometric properties in an interpretable 2D setting, enabling us to analyze the learning dynamics of flow matching during training. Based on this analysis, we derive several key insights about flow matching behavior: (1) density approximation can paradoxically degrade performance due to mode discrepancy, (2) directional alignment suffers from path entanglement when overly concentrated, (3) Gaussian's omnidirectional coverage ensures robust learning, and (4) norm misalignment incurs substantial learning costs. Building on these insights, we propose a practical framework that combines norm-aligned training with directionally-pruned sampling. This approach maintains the robust omnidirectional supervision essential for stable flow learning, while eliminating initializations in data-sparse regions during inference. Importantly, our pruning strategy can be applied to any flow matching model trained with a Gaussian source, providing immediate performance gains without the need for retraining. Empirical evaluations demonstrate consistent improvements in both generation quality and sampling efficiency. Our findings provide practical insights and guidelines for source distribution design and introduce a readily applicable technique for improving existing flow matching models. Our code is available at https://github.com/kwanseokk/SourceFM.

Палитра рассуждений: Модуляция рассуждений через латентную контекстуализацию для управляемого исследования в (V)LM
Reasoning Palette: Modulating Reasoning via Latent Contextualization for Controllable Exploration for (V)LMs

Dec 19

ByRujiao Long, Yang Li, Xingyao Zhang, Weixun Wang, Tianqianjin Lin, Xi Zhao, Yuchi Xu, Wenbo Su, Junchi Yan, Bo Zheng

Способность к исследованию влияет как на производительность во время вывода, так и на обучение с подкреплением (RL) для больших (визуально-) языковых моделей, поскольку стохастическая выборка часто порождает избыточные пути рассуждений с низким высокоуровневым разнообразием. В данной статье предлагается Reasoning Palette, новая framework-структура латентной модуляции, которая наделяет модель стохастической латентной переменной для стратегической контекстуализации, направляя её внутреннее планирование до генерации токенов. Этот латентный контекст выводится из усреднённого эмбеддинга пары вопрос-ответ с помощью вариационного автоэнкодера (VAE), где каждый сэмплированный латент потенциально кодирует уникальный контекст рассуждений. Во время вывода сэмплированный латент декодируется в обучаемые префиксы токенов и добавляется к входному промпту, модулируя внутреннюю траекторию рассуждений модели. Таким образом, модель выполняет внутреннюю выборку среди стратегий рассуждений до генерации вывода, что формирует стиль и структуру всей выходной последовательности. Краткая фаза контролируемого тонкого настроя (SFT) позволяет модели адаптироваться к этому латентному обусловливанию. В рамках RL-оптимизации Reasoning Palette способствует структурированному исследованию, позволяя по требованию внедрять различные режимы рассуждений, что значительно повышает эффективность исследования и устойчивую способность к обучению. Эксперименты на нескольких бенчмарках рассуждений демонстрируют, что наш метод обеспечивает интерпретируемый и контролируемый контроль над стратегическим поведением (визуально-) языковой модели, достигая таким образом стабильного прироста производительности по сравнению со стандартными RL-методами.

UCoder: Неавтоматическая генерация кода посредством внутреннего анализа больших языковых моделей
UCoder: Unsupervised Code Generation by Internal Probing of Large Language Models

Dec 19

ByJiajun Wu, Jian Yang, Wei Zhang, Lin Jing, Yuqing Ma, Ensheng Shi, Yuchi Ma, Zhoujun Li, Xianglong Liu

Крупные языковые модели (LLM) продемонстрировали впечатляющие способности в задачах генерации кода. Однако их эффективность в значительной степени зависит от обучения с учителем на обширных размеченных (например, парах «вопрос-ответ») или неразмеченных наборах данных (например, фрагментах кода), которые зачастую дорого и сложно получить в больших объемах. Чтобы устранить это ограничение, в данной статье представлен метод IPC — неконтролируемая структура, которая использует внутреннее зондирование LLM для генерации кода без какого-либо внешнего корпуса, включая даже неразмеченные фрагменты кода. Мы вводим зондирование пространства задач, зондирование понимания тестов, зондирование пространства решений, а также консолидацию и закрепление знаний для исследования внутренних знаний и паттернов уверенности, существующих в LLM. Кроме того, IPC идентифицирует надежные кандидаты в коде с помощью механизмов самосогласованности и оценки качества на основе репрезентаций для обучения UCoder (кодера с неконтролируемым обучением). Мы проверяем предложенный подход на нескольких эталонных тестах по коду, демонстрируя, что неконтролируемые методы могут достичь конкурентоспособной производительности по сравнению с контролируемыми подходами, одновременно значительно снижая зависимость от размеченных данных и вычислительных ресурсов. Аналитические эксперименты показывают, что внутренние состояния модели содержат богатые сигналы о качестве и корректности кода, и что правильное использование этих сигналов позволяет осуществлять эффективное неконтролируемое обучение для задач генерации кода, открывая новые направления для обучения кодогенерирующих LLM в условиях ограниченных ресурсов.

StoryMem: Многокадровое повествование длинных видео с использованием памяти
StoryMem: Multi-shot Long Video Storytelling with Memory

Dec 22

ByKaiwen Zhang, Liming Jiang, Angtian Wang, Jacob Zhiyuan Fang, Tiancheng Zhi, Qing Yan, Hao Kang, Xin Lu, Xingang Pan

Визуальное повествование требует генерации многокадровых видео с кинематографическим качеством и долгосрочной согласованностью. Вдохновляясь человеческой памятью, мы предлагаем StoryMem — парадигму, которая переформулирует создание длинных видео-историй как итеративный синтез кадров, обусловленный явной визуальной памятью, превращая предварительно обученные модели диффузии для одиночных кадров в многокадровых рассказчиков. Это достигается за счёт новой архитектуры «Память-в-Видео» (Memory-to-Video, M2V), которая поддерживает компактный и динамически обновляемый банк памяти, содержащий ключевые кадры из ранее сгенерированных сцен. Сохранённая память затем внедряется в модели диффузии для одиночных кадров посредством конкатенации в латентном пространстве и отрицательных сдвигов RoPE, используя лишь тонкую настройку LoRA. Стратегия семантического выбора ключевых кадров в сочетании с фильтрацией по эстетическим предпочтениям дополнительно обеспечивает информативную и стабильную память на протяжении всей генерации. Более того, предложенная框架 естественным образом поддерживает плавные переходы между сценами и приложения для генерации пользовательских историй. Для облегчения оценки мы представляем ST-Bench — разнообразный бенчмарк для многокадрового визуального повествования. Многочисленные эксперименты демонстрируют, что StoryMem достигает превосходной межкадровой согласованности по сравнению с предыдущими методами, сохраняя при этом высокое эстетическое качество и соответствие промпту, что знаменует значительный шаг к созданию связных минутных видео-историй.

GenEnv: Согласованная по сложности коэволюция между агентами LLM и симуляторами среды
GenEnv: Difficulty-Aligned Co-Evolution Between LLM Agents and Environment Simulators

Dec 22

ByJiacheng Guo, Ling Yang, Peter Chen, Qixin Xiao, Yinjie Wang, Xinzhe Juan, Jiahao Qiu, Ke Shen, Mengdi Wang

Обучение эффективных агентов на основе больших языковых моделей (LLM) критически ограничено высокой стоимостью и статичностью данных реального взаимодействия. Мы решаем эту проблему, представляя GenEnv — фреймворк, который устанавливает коэволюционную игру с выравниванием по сложности между агентом и масштабируемым генеративным симулятором окружения. В отличие от традиционных методов, которые развивают модели на статических наборах данных, GenEnv реализует эволюцию данных: симулятор действует как динамическая политика построения учебного плана, непрерывно генерируя задачи, специально адаптированные под «зону ближайшего развития» агента. Этот процесс направляется простой, но эффективной α-Curriculum Reward, которая согласовывает сложность задачи с текущими возможностями агента. Мы оцениваем GenEnv на пяти тестовых наборах, включая API-Bank, ALFWorld, BFCL, Bamboogle и TravelPlanner. На этих задачах GenEnv улучшает производительность агента до +40,3% по сравнению с базовыми моделями объемом 7B и соответствует или превосходит среднюю производительность более крупных моделей. По сравнению с оффлайн-аугментацией данных на основе Gemini 2.5 Pro, GenEnv демонстрирует лучшую производительность, используя при этом в 3,3 раза меньше данных. Переходя от статического контроля к адаптивной симуляции, GenEnv обеспечивает ресурсоэффективный путь для масштабирования возможностей агентов.

LoPA: Масштабирование вывода dLLM с помощью опережающего параллельного декодирования
LoPA: Scaling dLLM Inference via Lookahead Parallel Decoding

Dec 18

ByChenkai Xu, Yijie Jin, Jiajun Li, Yi Tu, Guoping Long, Dandan Tu, Mingcong Song, Hongjie Si, Tianqi Hou, Junchi Yan, Zhijie Deng

Диффузионные большие языковые модели (dLLM) продемонстрировали значительный потенциал для высокоскоростного вывода. Однако современные стратегии декодирования, основанные на уверенности, ограничены низкой степенью параллелизма, обычно достигая лишь 1–3 токенов за один прямой проход (TPF). В данной работе мы выявляем, что степень параллелизма при выводе в dLLM сильно зависит от порядка заполнения токенов (TFO). Затем мы представляем Lookahead PArallel Decoding LoPA — бесплатный, готовый к использованию алгоритм, не требующий дообучения, для определения оптимального TFO и, как следствие, ускорения вывода. LoPA параллельно исследует различные кандидаты TFO через параллельные ветви и выбирает вариант с наибольшим потенциалом для будущего параллелизма на основе уверенности ветвей. Мы применяем LoPA к передовой модели D2F и наблюдаем существенное повышение эффективности декодирования. Примечательно, что LoPA увеличивает TPF модели D2F-Dream до 10.1 на наборе данных GSM8K при сохранении производительности, превосходящей базовый уровень Dream. Кроме того, для обеспечения такой беспрецедентной степени параллелизма мы разработали специализированную систему вывода для нескольких устройств, реализующую параллелизм ветвей (BP), которая достигает пропускной способности на один образец в 1073.9 токенов в секунду при развертывании на нескольких GPU. Код доступен по адресу https://github.com/zhijie-group/LoPA.

MobileWorld: Оценка автономных мобильных агентов в интерактивных средах взаимодействия агент-пользователь и средах, расширенных MCP
MobileWorld: Benchmarking Autonomous Mobile Agents in Agent-User Interactive, and MCP-Augmented Environments

Dec 22

ByQuyu Kong, Xu Zhang, Zhenyu Yang, Nolan Gao, Chen Liu, Panrong Tong, Chenglin Cai, Hanzhang Zhou, Jianan Zhang, Liangyu Chen, Zhidan Liu, Steven Hoi, Yue Wang

Среди существующих онлайн-бенчмарков для мобильных устройств AndroidWorld стал доминирующим благодаря воспроизводимой среде и детерминистической оценке. Однако недавние агенты, достигшие успеха более чем в 90% случаев, указывают на его насыщаемость и подчеркивают необходимость создания более сложного бенчмарка. Кроме того, его среда lacks ключевых категорий приложений, таких как электронная коммерция и корпоративная коммуникация, и не отражает реалистичные сценарии мобильного использования, для которых характерны нечеткие пользовательские инструкции и гибридное использование инструментов. Чтобы устранить этот пробел, мы представляем MobileWorld — значительно более сложный бенчмарк, разработанный для лучшего отражения реального мобильного использования. Он включает 201 задачу в 20 приложениях, сохраняя при том же уровне воспроизводимость оценки, что и AndroidWorld. Сложность MobileWorld двунаправлена. Во-первых, он делает акцент на долгосрочных задачах с межприложенными взаимодействиями: MobileWorld требует в среднем почти вдвое больше шагов для выполнения задачи (27.8 против 14.3) и включает значительно больше многоприложных задач (62.2% против 9.5%) по сравнению с AndroidWorld. Во-вторых, MobileWorld выходит за рамки стандартных манипуляций с GUI, вводя новые категории задач, включая взаимодействие агента с пользователем и задачи, расширенные MCP. Для обеспечения надежной оценки мы предоставляем среду на основе снимков контейнеров и точные функциональные проверки, включая инспекцию бэкенд-баз данных и API обратных вызовов задач. Мы также разработали планерно-исполнительный агентский фреймворк с расширенными пространствами действий для поддержки пользовательских взаимодействий и MCP-вызовов. Наши результаты демонстрируют резкое падение производительности по сравнению с AndroidWorld: лучший агентский фреймворк и end-to-end модель достигают успеха лишь в 51.7% и 20.9% случаев соответственно. Наш анализ показывает, что современные модели испытывают значительные трудности с пользовательским взаимодействием и MCP-вызовами, что определяет стратегический путь к созданию более надежного мобильного интеллекта следующего поколения.

CASA: Кросс-внимание через самовнимание для эффективного объединения визуальных и языковых данных
CASA: Cross-Attention via Self-Attention for Efficient Vision-Language Fusion

Dec 22

ByMoritz Böhle, Amélie Royer, Juliette Marrie, Edouard Grave, Patrick Pérez

Модели «визуальный язык» (VLMs) обычно обучаются путем вставки токенов изображений из предварительно обученного визуального энкодера в текстовый поток языковой модели. Это позволяет текстовой и визуальной информации полностью взаимодействовать внутри модели, однако становится крайне затратным для изображений высокого разрешения, длинных диалогов или потокового видео — как по памяти, так и по вычислительным ресурсам. VLMs, использующие перекрестное внимание (cross-attention), являются эффективной альтернативой вставке токенов, но демонстрируют явный разрыв в производительности, особенно в задачах, требующих работы с мелкими визуальными деталями. Мы обнаружили, что ключом к улучшению таких моделей является также обеспечение локального взаимодействия «текст-текст» в специализированных слоях перекрестного внимания. Основываясь на этом, мы предлагаем CASA (Cross-Attention via Self-Attention) — простую и эффективную парадигму, которая существенно сокращает разрыв с полной вставкой токенов на стандартных бенчмарках понимания изображений, сохраняя при этом такую же масштабируемость, как и модели с перекрестным вниманием, при применении к многомодальным задачам с длинным контекстом, таким как описание потокового видео. Примеры и код доступны на странице проекта: https://kyutai.org/casa.

Over++: Генеративное видеомонтажное наложение для эффектов межслойного взаимодействия
Over++: Generative Video Compositing for Layer Interaction Effects

Dec 22

ByLuchao Qi, Jiaye Wu, Jun Myeong Choi, Cary Phillips, Roni Sengupta, Dan B Goldman

В профессиональных рабочих процессах компоновки видео художники должны вручную создавать взаимодействия с окружающей средой — такие как тени, отражения, пыль и брызги — между объектами переднего плана и фоновыми слоями. Существующие генеративные модели видео с трудом сохраняют исходное видео при добавлении подобных эффектов, а современные методы видео-инпейнтинга либо требуют трудоемких масок для каждого кадра, либо дают неправдоподобные результаты. Мы представляем расширенную компоновку — новую задачу, которая синтезирует реалистичные полупрозрачные эффекты окружающей среды на основе текстовых промптов и входных видео слоев, сохраняя при этом оригинальную сцену. Для решения этой задачи мы предлагаем Over++, фреймворк для генерации видеоэффектов, который не делает предположений о позе камеры, стационарности сцены или данных о глубине. Мы создали парный набор данных эффектов, адаптированный для этой задачи, и представляем стратегию непарного аугментирования, которая сохраняет возможность текстового управления редактированием. Наш метод также поддерживает опциональное управление масками и направляющие ключевые кадры без необходимости плотной аннотации. Несмотря на обучение на ограниченных данных, Over++ создает разнообразные и реалистичные эффекты окружающей среды и превосходит существующие базовые методы как в генерации эффектов, так и в сохранении сцены.

Сходится ли баланс? На пути к автономным юридическим агентам в венчурном капитале
Does It Tie Out? Towards Autonomous Legal Agents in Venture Capital

Dec 21

ByPierre Colombo, Malik Boudiaf, Allyn Sweet, Michael Desa, Hongxi Wang, Kevin Candra, Syméon del Marmol

До закрытия раундов венчурного финансирования юристы проводят комплексную проверку, которая включает сверку таблицы капитализации: проверку того, что каждая ценная бумага (например, акции, опционы, варранты) и условие выпуска (например, графики наделения правом, триггеры ускоренного наделения, ограничения на передачу) подтверждены обширными массивами исходной юридической документации. Хотя большие языковые модели продолжают совершенствоваться в решении юридических задач, специализированные рабочие процессы, такие как сверка капитализации, остаются недоступными даже для продвинутых агентских систем. Эта задача требует анализа множества документов, строгой отслеживаемости доказательств и детерминированных результатов, чего современные подходы не могут надежно обеспечить. Мы определяем сверку капитализации как пример реального теста для юридического искусственного интеллекта, анализируем и сравниваем производительность существующих агентских систем, а также предлагаем архитектуру модели мира для автоматизации сверки и, в более широком смысле, в качестве основы для прикладного юридического интеллекта.

MatSpray: Интеграция знаний о двумерных материалах в трёхмерную геометрию
MatSpray: Fusing 2D Material World Knowledge on 3D Geometry

Dec 20

ByPhilipp Langsteiner, Jan-Niklas Dihlmann, Hendrik P. A. Lensch

Ручное моделирование материальных параметров и 3D-геометрии является трудоемкой, но необходимой задачей в игровой и киноиндустрии. Хотя последние достижения в области 3D-реконструкции позволили получить точные приближения геометрии и внешнего вида сцены, эти методы часто оказываются несостоятельными в сценариях переосвещения из-за отсутствия точных, пространственно варьирующихся материальных параметров. В то же время диффузионные модели, работающие с 2D-изображениями, продемонстрировали высокую производительность в прогнозировании параметров, основанных на физическом рендеринге (PBR), таких как альбедо, шероховатость и металличность. Однако перенос этих 2D-карт материалов на реконструированную 3D-геометрию остается серьезной проблемой. Мы предлагаем фреймворк для объединения 2D-данных о материалах с 3D-геометрией с использованием комбинации новых подходов на основе машинного обучения и проекционных методов. Мы начинаем с реконструкции геометрии сцены с помощью гауссовского сплайнинга. На основе входных изображений диффузионная модель генерирует 2D-карты для параметров альбедо, шероховатости и металличности. Может быть применена любая существующая диффузионная модель, способная преобразовывать изображения или видео в PBR-материалы. Предсказания далее интегрируются в 3D-представление либо путем оптимизации loss-функции на основе изображений, либо путем прямой проекции материальных параметров на гауссовы функции с использованием гауссовского трассирования лучей. Для повышения точности в мелком масштабе и согласованности между видами мы дополнительно вводим этап легковесной нейросетевой доработки (Neural Merger), который принимает в качестве входных данных трассированные лучами материальные характеристики и производит детальные корректировки. Наши результаты демонстрируют, что предложенные методы превосходят существующие техники как по количественным метрикам, так и по воспринимаемому визуальному реализму. Это позволяет получать более точные, переосвещаемые и фотореалистичные рендеры из реконструированных сцен, значительно повышая реализм и эффективность рабочих процессов создания ассетов в конвейерах производства контента.

Real2Edit2Real: Генерация роботизированных демонстраций с помощью 3D-интерфейса управления
Real2Edit2Real: Generating Robotic Demonstrations via a 3D Control Interface

Dec 22

ByYujie Zhao, Hongwei Fan, Di Chen, Shengcong Chen, Liliang Chen, Xiaoqi Li, Guanghui Ren, Hao Dong

Недавние успехи в области обучения роботов обусловлены использованием крупномасштабных наборов данных и мощных архитектур визуомоторных стратегий, однако надежность стратегий остается ограниченной из-за значительных затрат на сбор разнообразных демонстраций, особенно для пространственной генерализации в задачах манипулирования. Чтобы сократить повторяющийся сбор данных, мы представляем фреймворк Real2Edit2Real, который генерирует новые демонстрации, объединяя 3D-редактируемость с 2D-визуальными данными через 3D-интерфейс управления. Наш подход сначала восстанавливает геометрию сцены из многовидовых RGB-наблюдений с помощью метрической 3D-модели реконструкции. На основе восстановленной геометрии мы выполняем надежное по глубине 3D-редактирование облаков точек для генерации новых траекторий манипулирования, одновременно геометрически корректируя позы робота для восстановления физически согласованной глубины, что служит надежным условием для синтеза новых демонстраций. Наконец, мы предлагаем многокондиционную модель генерации видео, управляемую глубиной в качестве основного сигнала контроля вместе с картами действий, границ и лучей, для синтеза пространственно усиленных многовидовых видео манипулирования. Эксперименты на четырех реальных задачах манипулирования показывают, что стратегии, обученные на данных, сгенерированных всего из 1-5 исходных демонстраций, могут сравниться или превзойти стратегии, обученные на 50 реальных демонстрациях, повышая эффективность использования данных до 10-50 раз. Более того, результаты экспериментов по редактированию высоты и текстуры демонстрируют гибкость и расширяемость фреймворка, указывая на его потенциал в качестве универсальной системы генерации данных.

Определение детали: 3D-сегментация и наименование компонентов
Name That Part: 3D Part Segmentation and Naming

Dec 19

BySoumava Paul, Prakhar Kaushik, Ankit Vaidya, Anand Bhattad, Alan Yuille

Мы рассматриваем задачу семантической 3D-сегментации на части: декомпозицию объектов на части, имеющие осмысленные названия. Хотя существуют наборы данных с аннотациями частей, их определения не согласованы между наборами данных, что ограничивает возможность надежного обучения. Предыдущие методы создают неразмеченные декомпозиции или извлекают отдельные части без полных аннотаций формы. Мы предлагаем метод ALIGN-Parts, который формулирует задачу присвоения имен частям как задачу прямого выравнивания множеств. Наш метод декомпозирует формы на партлеты — неявные 3D-представления частей, — которые сопоставляются с текстовыми описаниями частей посредством двудольного назначения. Мы комбинируем геометрические подсказки из 3D-полей частей, визуальные признаки из многовидовых изображений и семантические знания из аффордансных описаний, сгенерированных языковыми моделями. Функция потерь на выравнивание с текстом обеспечивает нахождение партлетов и текста в общем пространстве embeddings, что позволяет теоретически реализовать открытую словарную систему сопоставления при наличии достаточных данных. Наш эффективный и новый метод одноэтапной 3D-сегментации и наименования частей находит применение в ряде последующих задач, включая использование в качестве масштабируемого механизма аннотирования. Поскольку наша модель поддерживает сопоставление с произвольными описаниями в режиме zero-shot и уверенные, калиброванные предсказания для известных категорий, мы, с помощью верификации человеком, создали унифицированную онтологию, объединяющую PartNet, 3DCoMPaT++ и Find3D, которая состоит из 1794 уникальных 3D-частей. Мы также демонстрируем примеры из нашего нового набора данных Tex-Parts. Кроме того, мы вводим две новые метрики, подходящие для задачи наименованной 3D-сегментации на части.

SecureCode v2.0: Промышленный набор данных для обучения моделей генерации кода с учетом безопасности
SecureCode v2.0: A Production-Grade Dataset for Training Security-Aware Code Generation Models

Dec 20

ByScott Thornton

ИИ-ассистенты производят уязвимый код в 45% сценариев, связанных с безопасностью, что приводит к массовому внедрению уязвимостей в промышленные системы. Однако существующие наборы данных по безопасному программированию не соответствуют требованиям. Им не хватает привязки к реальным инцидентам, они не обеспечивают масштаба, необходимого для современного обучения, и упускают операционный контекст безопасности, нужный разработчикам для промышленного развертывания. Мы представляем SecureCode v2.0 — промышленный набор данных из 1215 примеров кода, сфокусированных на безопасности, которые прошли структурную валидацию и экспертный анализ безопасности. Каждый пример привязан к реальным задокументированным инцидентам безопасности со ссылками на CVE, содержит уязвимую и безопасную реализации, демонстрирует конкретные атаки и включает рекомендации по глубокой эшелонированной защите для эксплуатации. Набор данных охватывает 11 категорий уязвимостей (полный OWASP Top 10:2025 плюс угрозы безопасности ИИ/МО) для 11 языков программирования (Python, JavaScript, Java, Go, PHP, C#, TypeScript, Ruby, Rust, Kotlin и YAML для инфраструктуры как кода). Наша система обеспечения качества гарантирует полную привязку к инцидентам. Каждый пример включает стратегии интеграции с SIEM, рекомендации по усилению защиты инфраструктуры (конфигурации Docker, AppArmor, WAF) и подходы к тестированию с использованием соответствующих языку фреймворков. Набор данных использует 4-шаговую диалоговую структуру, отражающую реальное взаимодействие разработчика с ИИ: от базовых реализаций к расширенным вопросам безопасности и рекомендациям по глубокой защите. Наш вклад: (1) 1215 тщательно проверенных примеров, разделенных на 989 для обучения, 122 для валидации и 104 для тестирования; (2) автоматизированная система валидации, обеспечивающая согласованность набора данных; (3) 4-шаговая диалоговая структура, отражающая реалистичные рабочие процессы безопасности; (4) комплексные операционные руководства по безопасности со стратегиями интеграции SIEM; (5) полная достоверность языко-специфичных реализаций; (6) открытая публикация данных, инструментов валидации и протоколов тестирования.

Мозговые оси для чтения и управления состояниями больших языковых моделей
Brain-Grounded Axes for Reading and Steering LLM States

Dec 22

BySandro Andric

Методы интерпретируемости больших языковых моделей (БЯМ) обычно выводят направления на основе текстовой разметки, что может быть лишено внешнего обоснования. Мы предлагаем использовать активность человеческого мозга не как обучающий сигнал, а как систему координат для чтения и управления состояниями БЯМ. Используя набор данных SMN4Lang MEG, мы строим пословный мозговой атлас паттернов фазо-синхронизационной связи (Phase-Locking Value, PLV) и извлекаем скрытые оси с помощью ICA. Мы валидируем оси с помощью независимых лексиконов и меток на основе NER (части речи/логарифмическая частота используются для проверки адекватности), затем обучаем легковесные адаптеры, которые отображают скрытые состояния БЯМ на эти мозговые оси без дообучения самой модели. Управление вдоль полученных мозговых направлений выявляет устойчивую лексическую ось (связанную с частотой) в среднем слое TinyLlama, которая сохраняется при контроле по перплексии, а сравнение мозгового и текстового проб показывает большие сдвиги по логарифмической частоте (относительно текстового проба) при меньшей перплексии для мозговой оси. Ось функция/содержание (ось 13) демонстрирует последовательное управление в TinyLlama, Qwen2-0.5B и GPT-2, с подтверждением на текстовом уровне при сопоставимой перплексии. Эффекты в 4-м слое TinyLlama значительны, но нестабильны, поэтому мы рассматриваем их как вторичные (Приложение). Структура осей стабильна при перестроении атласа без признаков изменения эмбеддингов GPT или с эмбеддингами word2vec (|r|=0.64–0.95 для сопоставимых осей), что снижает опасения циклической зависимости. Предварительная привязка к fMRI данных предполагает потенциальное соответствие для изменения эмбеддингов и логарифмической частоты, но эффекты чувствительны к предположениям гемодинамического моделирования и рассматриваются лишь как доказательство на уровне популяции. Эти результаты подтверждают новый интерфейс: нейрофизиологически обоснованные оси предоставляют интерпретируемые и управляемые рычаги для воздействия на поведение БЯМ.

Понимание силлогистических рассуждений в больших языковых моделях: формальный и естественно-языковой подходы
Understanding Syllogistic Reasoning in LLMs from Formal and Natural Language Perspectives

Dec 14

ByAheli Poddar, Saptarshi Sahoo, Sujata Ghosh

Мы исследуем силлогистические рассуждения в больших языковых моделях (LLM) с логической и лингвистической точек зрения. В процессе этого мы изучаем фундаментальные способности LLM к рассуждению и направление развития данной области исследований. Для проведения исследований мы используем 14 крупных языковых моделей и исследуем их способности к силлогистическим рассуждениям с точки зрения символьных выводов, а также понимания естественного языка. Хотя данный механизм рассуждений не является универсальным эмерджентным свойством для всех LLM, безупречные результаты некоторых моделей в символьных операциях заставляют задуматься: не становятся ли LLM все более формальными механизмами рассуждений, вместо того чтобы раскрывать тонкости человеческого мышления.