HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

20 papers found

VIDEOP2R: Видеопонимание от восприятия к рассуждению
VIDEOP2R: Video Understanding from Perception to Reasoning

Nov 14

ByYifan Jiang, Yueying Wang, Rui Zhao, Toufiq Parag, Zhimin Chen, Zhenyu Liao, Jayakrishnan Unnikrishnan

108

Метод подстройки с подкреплением (RFT), представляющий собой двухэтапную структуру, включающую контролируемую тонкую настройку (SFT) и обучение с подкреплением (RL), продемонстрировал перспективные результаты в улучшении способности крупных языковых моделей (LLM) к рассуждениям. Однако применение RFT к крупным видео-языковым моделям (LVLM) остается сложной задачей. Мы предлагаем VideoP2R — новую процессно-ориентированную RFT-структуру для видео, которая улучшает видеорассуждения за счет моделирования восприятия и рассуждений как отдельных процессов. На этапе SFT мы разработали трехшаговый конвейер для создания VideoP2R-CoT-162K — высококачественного, процессно-ориентированного набора данных цепочек рассуждений (CoT) для восприятия и рассуждений. На этапе RL мы представляем новый процессно-ориентированный алгоритм оптимизации групповой относительной политики (PA-GRPO), который предоставляет отдельные вознаграждения за восприятие и рассуждения. Многочисленные эксперименты показывают, что VideoP2R достигает наилучших результатов (state-of-the-art, SotA) в шести из семи тестов для оценки видеорассуждений и понимания видео. Абляционные исследования дополнительно подтверждают эффективность нашего процессно-ориентированного моделирования и алгоритма PA-GRPO и демонстрируют, что выходные данные восприятия модели содержат достаточную информацию для последующих рассуждений.

Think-at-Hard: Селективные латентные итерации для улучшения языковых моделей рассуждений
Think-at-Hard: Selective Latent Iterations to Improve Reasoning Language Models

Nov 11

ByTianyu Fu, Yichen You, Zekai Chen, Guohao Dai, Huazhong Yang, Yu Wang

107

Повышение способностей к рассуждению у больших языковых моделей (LLM), особенно при ограничениях на количество параметров, крайне важно для практического применения. Предыдущие работы предлагали рекуррентные трансформеры, которые выделяют фиксированное количество дополнительных итераций на токен для улучшения качества генерации. После первого стандартного прямого прохода вместо вербализации скрытые состояния последнего слоя подаются обратно на вход для дополнительных итераций с целью уточнения предсказаний токенов. Однако мы выявили феномен латентного «перемудривания»: предсказания простых токенов, уже верные после первого прохода, иногда исправляются на ошибочные в ходе дополнительных итераций. Для решения этой проблемы мы предлагаем метод Think-at-Hard (TaH) — динамическое латентное мышление, которое углубленно итерирует только на сложных токенах. Он использует легковесный нейросетевой модуль принятия решений для запуска латентных итераций только на тех токенах, которые, вероятно, неверны после стандартного прямого прохода. Во время латентных итераций модули Low-Rank Adaptation (LoRA) смещают цель LLM с общего предсказания следующего токена на целенаправленное уточнение сложных токенов. Мы также вводим механизм дуо-каузального внимания, который расширяет внимание от последовательности токенов до дополнительного измерения глубины итерации. Это обеспечивает поток информации между итерациями при сохранении полной последовательной параллельности. Эксперименты показывают, что TaH повышает производительность LLM в рассуждениях на пяти сложных бенчмарках при сохранении того же количества параметров. По сравнению с базовыми методами, которые выполняют две итерации для всех выходных токенов, TaH обеспечивает прирост точности на 8,1–11,3%, освобождая 94% токенов от второй итерации. По сравнению с сильными одноитерационными моделями Qwen3, дообученными на тех же данных, он также дает прирост точности на 4,0–5,0%. При использовании менее 3% дополнительных параметров от LoRA и модуля принятия решений прирост увеличивается до 8,5–12,6% и 5,3–5,4% соответственно. Наш код доступен по адресу https://github.com/thu-nics/TaH.

AraLingBench: Аннотированный экспертами эталонный набор данных для оценки лингвистических способностей крупных языковых моделей в арабском языке
AraLingBench A Human-Annotated Benchmark for Evaluating Arabic Linguistic Capabilities of Large Language Models

Nov 18

ByMohammad Zbib, Hasan Abed Al Kader Hammoud, Sina Mukalled, Nadine Rizk, Fatima Karnib, Issam Lakkis, Ammar Mohanna, Bernard Ghanem

Мы представляем AraLingBench: полностью аннотированный экспертами эталонный набор данных для оценки арабской лингвистической компетенции крупных языковых моделей (LLM). Этот набор охватывает пять ключевых категорий: грамматику, морфологию, орфографию, понимание текста и синтаксис, включая 150 экспертно разработанных вопросов с множественным выбором, которые напрямую оценивают понимание структуры языка. Оценка 35 арабских и двуязычных LLM показывает, что современные модели демонстрируют высокий уровень поверхностного владения языком, но испытывают трудности с более глубоким грамматическим и синтаксическим анализом. AraLingBench подчеркивает устойчивый разрыв между высокими результатами на тестах, основанных на знаниях, и подлинным лингвистическим мастерством, показывая, что многие модели достигают успеха за счет запоминания или распознавания шаблонов, а не подлинного понимания. Изолируя и измеряя фундаментальные лингвистические навыки, AraLingBench предоставляет диагностическую основу для разработки арабских LLM. Полный код оценки доступен публично на GitHub.

Стиль стоит одного кода: раскрытие потенциала генерации изображений из кода в стиле с помощью дискретного стилевого пространства
A Style is Worth One Code: Unlocking Code-to-Style Image Generation with Discrete Style Space

Nov 13

ByHuijie Liu, Shuhao Cui, Haoxiang Cao, Shuai Ma, Kai Wu, Guoliang Kang

Инновационная визуальная стилизация является краеугольным камнем художественного творчества, однако генерация новых и последовательных визуальных стилей остается серьезной проблемой. Существующие генеративные подходы обычно полагаются на пространные текстовые промпты, референсные изображения или эффективную тонкую настройку параметров для управления стиле-ориентированной генерацией изображений, но часто сталкиваются с проблемами согласованности стиля, ограниченной креативностью и сложностью представления стилей. В данной работе мы утверждаем, что стиль стоит одного числового кода, вводя новую задачу генерации изображений по коду стиля (code-to-style), которая производит изображения с новыми, последовательными визуальными стилями, обусловленными исключительно числовым стилевым кодом. На сегодняшний день эта область исследовалась в основном индустрией (например, Midjourney), при этом отсутствуют открытые академические разработки. Чтобы заполнить этот пробел, мы предлагаем CoTyle — первый открытый метод для решения данной задачи. В частности, мы сначала обучаем дискретный стилевой кодбук на коллекции изображений для извлечения стилевых эмбеддингов. Эти эмбеддинги служат условиями для диффузионной модели текст-изображение (T2I-DM) для генерации стилизованных изображений. Затем мы обучаем авторегрессивный генератор стилей на дискретных стилевых эмбеддингах для моделирования их распределения, что позволяет синтезировать новые стилевые эмбеддинги. На этапе вывода числовой стилевой код отображается генератором стилей в уникальный стилевой эмбеддинг, который направляет T2I-DM для генерации изображений в соответствующем стиле. В отличие от существующих методов, наш подход предлагает беспрецедентную простоту и разнообразие, раскрывая огромное пространство воспроизводимых стилей из минимального ввода. Многочисленные эксперименты подтверждают, что CoTyle эффективно превращает числовой код в контроллер стиля, демонстрируя, что стиль стоит одного кода.

Крупные языковые модели и экстремальная многоклассовая классификация: масштабирование и мультимодальный подход
Large Language Models Meet Extreme Multi-label Classification: Scaling and Multi-modal Framework

Nov 17

ByDiego Ortego, Marlon Rodríguez, Mario Almagro, Kunal Dahiya, David Jiménez, Juan C. SanMiguel

Фундаментальные модели произвели революцию в области искусственного интеллекта в многочисленных доменах, однако их преобразующий потенциал в значительной степени остается нераскрытым в задаче экстремальной многометочной классификации (Extreme Multi-label Classification, XMC). В XMC запросы ассоциируются с релевантными метками из чрезвычайно больших пространств меток, где критически важно соблюдать баланс между эффективностью и производительностью. Поэтому многие современные подходы эффективно формулируют задачу XMC как поиск максимального скалярного произведения между эмбеддингами, полученными с помощью небольших трансформерных архитектур, использующих только кодировщик. В данной статье мы рассматриваем два важных аспекта в XMC: как эффективно использовать более крупные модели, основанные только на декодере, и как задействовать визуальную информацию, сохраняя вычислительную эффективность. Мы демонстрируем, что оба аспекта по отдельности играют критическую роль в XMC и могут быть объединены для повышения производительности. Мы показываем, что декодер размером в несколько миллиардов параметров может обеспечить существенное улучшение, сохраняя при этом управляемые вычислительные затраты. Кроме того, наша система Vision-enhanced eXtreme Multi-label Learning (ViXML) эффективно интегрирует фундаментальные модели компьютерного зрения путем агрегации признаков изображения в один эмбеддинг. Это ограничивает рост вычислительной сложности, одновременно открывая возможности для мультимодального подхода. Примечательно, что ViXML с небольшими кодировщиками в большинстве случаев превосходит текстовые модели, использующие только декодер, что демонстрирует, что одно изображение эквивалентно миллиардам параметров. Наконец, мы представляем расширение существующих текстовых наборов данных для использования визуальных метаданных и делаем их доступными для будущего сравнительного анализа. Всесторонние эксперименты на четырех публичных текстовых наборах данных и их соответствующих версиях, дополненных изображениями, подтверждают эффективность наших предложений, превосходя предыдущие state-of-the-art методы на величину до +8,21% по метрике P@1 на самом крупном наборе данных. Код ViXML доступен по адресу https://github.com/DiegoOrtego/vixml.

Могут ли мировые симуляторы рассуждать? Gen-ViRe: Генеративный бенчмарк для проверки зрительного мышления
Can World Simulators Reason? Gen-ViRe: A Generative Visual Reasoning Benchmark

Nov 17

ByXinxin Liu, Zhaopan Xu, Kai Wang, Yong Jae Lee, Yuzhang Shang

Хотя метод Chain-of-Thought (CoT) позволяет крупным языковым моделям выполнять сложные символьные рассуждения, он остается ограниченным дискретным текстом и не может моделировать непрерывную, управляемую физикой динамику реального мира. Недавно появившиеся модели генерации видео стали потенциальными симуляторами мира благодаря рассуждениям по методу Chain-of-Frames (CoF) — материализации мысли в виде последовательности визуальных кадров, где каждый кадр представляет собой физически обоснованный шаг рассуждений. Несмотря на впечатляющие демонстрации, сохраняется проблема: существующие бенчмарки, ориентированные на точность или соответствие, не оценивают рассуждения CoF и, следовательно, не могут измерить ключевые когнитивные способности в области многошагового планирования, алгоритмической логики или экстраполяции абстрактных паттернов. Этот пробел в оценке препятствует систематическому пониманию возможностей моделей и принципиальному руководству по их улучшению. Мы представляем Gen-ViRe (Generative Visual Reasoning Benchmark) — фреймворк, основанный на когнитивной науке и реальных применениях ИИ, который декомпозирует рассуждения CoF на шесть когнитивных измерений (от перцептивной логики до абстрактного планирования) и 24 подзадачи. Благодаря курированию данных из множества источников, минималистичным промпт-протоколам и гибридной оценке с помощью VLMs по детализированным критериям, Gen-ViRe обеспечивает первую количественную оценку видео-моделей как систем рассуждений. Наши эксперименты с передовыми системами выявляют существенные расхождения между впечатляющим визуальным качеством и реальной глубиной рассуждений, устанавливая базовые уровни и диагностические инструменты для развития подлинных симуляторов мира.

REVISOR: За пределами текстового отражения к мультимодальному интроспективному мышлению в понимании длинных видео
REVISOR: Beyond Textual Reflection, Towards Multimodal Introspective Reasoning in Long-Form Video Understanding

Nov 17

ByJiaze Li, Hao Yin, Wenhui Tan, Jingyang Chen, Boshen Xu, Yuxun Qu, Yijing Chen, Jianzhong Ju, Zhenbo Luo, Jian Luan

Механизмы саморефлексии, основанные исключительно на текстовых процессах переосмысления, демонстрируют хорошие результаты в большинстве мультимодальных задач. Однако при прямом применении к сценариям понимания длинных видео они проявляют очевидные ограничения. Фундаментальные причины этого заключаются в двух аспектах: (1) понимание длинных видео связано с более богатым и динамичным визуальным входным потоком, что означает, что переосмысления лишь текстовой информации недостаточно и требуется дальнейший процесс рефлексии, специально нацеленный на визуальную информацию; (2) чисто текстовые механизмы рефлексии не обладают способностью к кросс-модальному взаимодействию, что не позволяет им полностью интегрировать визуальную информацию в процессе размышления. Мотивированные этими инсайтами, мы предлагаем REVISOR (REflective VIsual Segment Oriented Reasoning) — новую структуру для инструментально-расширенной мультимодальной рефлексии. REVISOR позволяет MLLM совместно выстраивать интроспективные процессы рефлексии across текстовой и визуальной модальностями, значительно усиливая их способность к рассуждению для понимания длинных видео. Чтобы гарантировать, что REVISOR научится точно анализировать высокорелевантные вопросу сегменты видео в процессе обучения с подкреплением, мы разработали механизм награды с разделенной двойной атрибуцией (DADR). Интегрированный в стратегию обучения GRPO, этот механизм обеспечивает каузальное соответствие между рассуждениями модели и выбранным видео-контекстом. Примечательно, что структура REVISOR значительно улучшает способность MLLM к пониманию длинных видео без необходимости дополнительного контролируемого тонкого настроения или внешних моделей, демонстрируя впечатляющие результаты на четырех тестовых наборах, включая VideoMME, LongVideoBench, MLVU и LVBench.

MVI-Bench: Комплексный бенчмарк для оценки устойчивости больших языково-визуальных моделей к вводящим в заблуждение визуальным данным
MVI-Bench: A Comprehensive Benchmark for Evaluating Robustness to Misleading Visual Inputs in LVLMs

Nov 18

ByHuiyi Chen, Jiawei Peng, Dehai Min, Changchang Sun, Kaijie Chen, Yan Yan, Xu Yang, Lu Cheng

Оценка устойчивости больших визуально-языковых моделей (LVLM) имеет ключевое значение для их дальнейшего развития и ответственного внедрения в реальных приложениях. Однако существующие бенчмарки устойчивости обычно сосредоточены на галлюцинациях или вводящих в заблуждение текстовых входных данных, в значительной степени упуская из виду не менее важную проблему, связанную с misleading визуальными входными данными при оценке визуального понимания. Для заполнения этого важного пробела мы представляем MVI-Bench — первый комплексный бенчмарк, специально разработанный для оценки того, как вводящие в заблуждение визуальные входные данные (Misleading Visual Inputs) подрывают устойчивость LVLM. Основываясь на фундаментальных визуальных примитивах, конструкция MVI-Bench сосредоточена на трех иерархических уровнях misleading визуальных входных данных: визуальное понятие, визуальный атрибут и визуальное отношение. Используя эту таксономию, мы отобрали шесть репрезентативных категорий и составили 1248 экспертно аннотированных вопросно-ответных примеров (VQA). Для облегчения детальной оценки устойчивости мы дополнительно вводим MVI-Чувствительность — новую метрику, характеризующую устойчивость LVLM на гранулярном уровне. Эмпирические результаты, полученные на 18 современных LVLM, выявляют выраженные уязвимости к misleading визуальным входным данным, а наши углубленные анализы на MVI-Bench предоставляют практические insights, которые могут направлять разработку более надежных и устойчивых LVLM. Бенчмарк и кодовая база доступны по адресу https://github.com/chenyil6/MVI-Bench.

Агентские README: Эмпирическое исследование контекстных файлов для агентного программирования
Agent READMEs: An Empirical Study of Context Files for Agentic Coding

Nov 17

ByWorawalan Chatlatanagulchai, Hao Li, Yutaro Kashiwa, Brittany Reid, Kundjanasith Thonglek, Pattara Leelaprute, Arnon Rungsawang, Bundit Manaskasemsak, Bram Adams, Ahmed E. Hassan, Hajimu Iida

Инструменты агентного программирования получают цели, сформулированные на естественном языке, разбивают их на конкретные задачи и пишут или выполняют реальный код при минимальном вмешательстве человека. Ключевым элементом этого процесса являются файлы контекста агента («README для агентов»), которые содержат постоянные инструкции на уровне проекта. В данной статье мы проводим первое крупномасштабное эмпирическое исследование 2303 файлов контекста агента из 1925 репозиториев, чтобы охарактеризовать их структуру, поддержку и содержание. Мы обнаружили, что эти файлы представляют собой не статичную документацию, а сложные, трудные для восприятия артефакты, которые эволюционируют подобно конфигурационному коду и поддерживаются за счет частых небольших дополнений. Наш контент-анализ 16 типов инструкций показывает, что разработчики отдают приоритет функциональному контексту, такому как команды сборки и запуска (62,3%), деталям реализации (69,9%) и архитектуре (67,7%). Мы также выявили значительный пробел: нефункциональные требования, такие как безопасность (14,5%) и производительность (14,5%), указываются редко. Эти результаты свидетельствуют о том, что хотя разработчики используют файлы контекста для обеспечения функциональности агентов, они практически не устанавливают ограничений для гарантии безопасности или производительности кода, написанного агентами, что подчеркивает необходимость улучшения инструментов и практик.

Агент-R1: Обучение мощных агентов на основе больших языковых моделей с помощью сквозного обучения с подкреплением
Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning

Nov 18

ByMingyue Cheng, Jie Ouyang, Shuo Yu, Ruiran Yan, Yucong Luo, Zirui Liu, Daoyu Wang, Qi Liu, Enhong Chen

Крупные языковые модели (LLM) все активнее исследуются для создания агентов, способных к активному взаимодействию со средой (например, посредством использования инструментов) для решения сложных задач. Обучение с подкреплением (RL) считается ключевой технологией, обладающей значительным потенциалом для тренировки таких агентов; однако эффективное применение RL к агентам на основе LLM все еще находится на начальной стадии и сталкивается со значительными трудностями. В настоящее время в этой зарождающейся области отсутствуют глубокие исследования методов RL, специально адаптированных для контекста агентов LLM, наряду с дефицитом гибких и легко расширяемых учебных фреймворков, предназначенных для этих целей. Для содействия развитию данной области в данной статье сначала пересматриваются и уточняются методологии обучения с подкреплением для агентов LLM путем систематического расширения框架 марковских процессов принятия решений (MDP) для всестороннего определения ключевых компонентов агента LLM. Во-вторых, мы представляем Agent-R1 — модульный, гибкий и удобный фреймворк для обучения агентов LLM на основе RL, разработанный для простой адаптации к различным сценариям задач и интерактивным средам. Мы провели эксперименты на бенчмарках задач Multihop QA, предоставив первоначальное подтверждение эффективности наших предложенных методов и фреймворка.

OmniZip: Аудио-управляемое динамическое сжатие токенов для быстрых омнимодальных больших языковых моделей
OmniZip: Audio-Guided Dynamic Token Compression for Fast Omnimodal Large Language Models

Nov 18

ByKeda Tao, Kele Shao, Bohan Yu, Weiqiang Wang, Jian liu, Huan Wang

В последнее время универсальные большие языковые модели (OmniLLMs) привлекают все больше исследовательского внимания к решению задачи единого понимания аудио-видео контента. Однако обработка последовательностей аудио-видео токенов создает значительное вычислительное узкое место. Существующие методы сжатия токенов еще не адаптированы к этой новой потребности в совместном сжатии мультимодальных токенов. Чтобы устранить этот пробел, мы представляем OmniZip — не требующую обучения аудио-управляемую систему сжатия аудиовизуальных токенов, которая оптимизирует мультимодальное представление токенов и ускоряет вывод. В частности, OmniZip сначала идентифицирует значимые аудио-токены, затем вычисляет показатель сохранности аудио для каждой временной группы, чтобы capture плотность информации, тем самым динамически направляя pruning видео-токенов и сохраняя ключевые cues от аудио-якорей, усиленные кросс-модальным сходством. Для каждого временного окна OmniZip сжимает видео-токены с помощью чередующейся пространственно-временной схемы. Обширные эмпирические результаты демонстрируют преимущества OmniZip: система достигает 3.42-кратного ускорения вывода и 1.4-кратного сокращения использования памяти по сравнению с другими ведущими аналогами, сохраняя производительность без необходимости обучения.

Орион: унифицированный визуальный агент для мультимодального восприятия, расширенного визуального анализа и выполнения задач
Orion: A Unified Visual Agent for Multimodal Perception, Advanced Visual Reasoning and Execution

Nov 18

ByN Dinesh Reddy, Sudeep Pillai

Мы представляем Orion — фреймворк визуального агента, способный воспринимать данные любой модальности и генерировать выходные сигналы любой модальности. Используя агентский фреймворк с множественными возможностями вызова инструментов, Orion разработан для задач визуального искусственного интеллекта и демонстрирует результаты уровня state-of-the-art. В отличие от традиционных визуально-языковых моделей, которые выдают описательные результаты, Orion координирует набор специализированных инструментов компьютерного зрения, включая обнаружение объектов, локализацию ключевых точек, паноптическую сегментацию, оптическое распознавание символов и геометрический анализ, для выполнения сложных многоэтапных визуальных workflow. Система демонстрирует конкурентоспособные результаты на бенчмарках MMMU, MMBench, DocVQA и MMLongBench, расширяя возможности монолитных визуально-языковых моделей до промышленного уровня визуального интеллекта. Комбинируя нейронное восприятие с символьным исполнением, Orion обеспечивает автономное визуальное мышление, знаменуя переход от пассивного визуального понимания к активному, инструментально-ориентированному визуальному интеллекту.

ATLAS: Высокосложный междисциплинарный эталон для проверки передового научного мышления
ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning

Nov 18

ByHongwei Liu, Junnan Liu, Shudong Liu, Haodong Duan, Yuqiang Li, Mao Su, Xiaohong Liu, Guangtao Zhai, Xinyu Fang, Qianhong Ma, Taolin Zhang, Zihan Ma, Yufeng Zhao, Peiheng Zhou, Linchen Xiao, Wenlong Zhang, Shijie Zhou, Xingjian Ma, Siqi Sun, Jiaye Ge, Meng Li, Yuhong Liu, Jianxin Dong, Jiaying Li, Hui Wu, Hanwen Liang, Jintai Lin, Yanting Wang, Jie Dong, Tong Zhu, Tianfan Fu, Conghui He, Qi Zhang, Songyang Zhang, Lei Bai, Kai Chen

Быстрое развитие больших языковых моделей (LLM) привело к насыщению их производительности на многих существующих тестовых наборах, что ставит под вопрос способность этих тестов различать передовые модели. В то же время современные наборы задач повышенной сложности часто страдают от узкой дисциплинарной направленности, упрощенных форматов ответов и уязвимости к загрязнению данных, создавая разрыв с реальной научной практикой. Для решения этих проблем мы представляем ATLAS (AGI-Oriented Testbed for Logical Application in Science) — масштабный, сложный и междисциплинарный оценочный комплекс, состоящий из приблизительно 800 оригинальных задач. Разработанный экспертами (уровня PhD и выше), ATLAS охватывает семь ключевых научных областей: математику, физику, химию, биологию, информатику, науки о Земле и материаловедение. Его основные особенности включают: (1) Высокую оригинальность и устойчивость к загрязнению данных — все вопросы созданы заново или существенно адаптированы для предотвращения утечки тестовых данных; (2) Междисциплинарную направленность, предназначенную для оценки способности моделей интегрировать знания и рассуждать в различных научных областях; (3) Высокую достоверность ответов с приоритетом сложных, открытых ответов, требующих многошаговых рассуждений и выражений в формате LaTeX, вместо простых вопросов с множественным выбором; и (4) Строгий контроль качества с использованием многоэтапного процесса экспертной оценки и адверсарного тестирования для обеспечения сложности, научной ценности и корректности вопросов. Мы также предлагаем надежную парадигму оценки с использованием группы LLM-судей для автоматизированного, нюансированного оценивания сложных ответов. Предварительные результаты тестирования ведущих моделей демонстрируют эффективность ATLAS в дифференциации их продвинутых научных reasoning-способностей. Мы планируем развивать ATLAS в долгосрочную, открытую, управляемую сообществом платформу для обеспечения надежного «измерительного инструмента» прогресса на пути к искусственному общему интеллекту.

Φeat: Физически обоснованное представление признаков
Φeat: Physically-Grounded Feature Representation

Nov 14

ByGiuseppe Vecchio, Adrien Kaiser, Rouffet Romain, Rosalie Martin, Elena Garces, Tamy Boubekeur

Фундаментальные модели стали эффективной основой для многих задач компьютерного зрения. Однако современные самоконтролируемые признаки смешивают высокоуровневую семантику с низкоуровневыми физическими факторами, такими как геометрия и освещение, что затрудняет их использование в задачах, требующих явного физического анализа. В данной статье мы представляем Φeat — новую физически обоснованную визуальную модель, которая формирует представление, чувствительное к идентичности материала, включая признаки отражательной способности и мезоструктуру геометрии. Наша ключевая идея заключается в использовании стратегии предварительного обучения, основанной на контрастировании пространственных срезов и физических аугментаций одного материала при различных формах и условиях освещения. Хотя аналогичные данные использовались в сложных контролируемых задачах, таких как интринсик-декомпозиция или оценка материалов, мы демонстрируем, что чисто самоконтролируемая стратегия обучения без явных меток уже формирует сильный априорный признак для задач, требующих устойчивых к внешним физическим факторам характеристик. Мы оцениваем полученные представления через анализ сходства признаков и селекцию материалов, показывая, что Φeat захватывает физически обоснованную структуру, выходящую за рамки семантической группировки. Эти результаты подчеркивают перспективность неконтролируемого обучения физическим признакам как основы для физически осознанного восприятия в компьютерном зрении и графике.

Проактивные слуховые ассистенты для изоляции эгоцентричных разговоров
Proactive Hearing Assistants that Isolate Egocentric Conversations

Nov 14

ByGuilin Hu, Malek Itani, Tuochao Chen, Shyamnath Gollakota

Мы представляем проактивные слуховые ассистенты, которые автоматически идентифицируют и выделяют собеседников пользователя без явных команд. Наша система работает на эгоцентричном бинауральном аудио и использует собственную речь пользователя в качестве якоря, применяя анализ очередности реплик и динамики диалога для определения собеседников и подавления остальных голосов. Для обеспечения работы в реальном времени на устройстве мы предлагаем двухмодельную архитектуру: облегченная потоковая модель запускается каждые 12,5 мс для низколатентного выделения собеседников, тогда как более медленная модель работает реже для захвата долгосрочной динамики беседы. Результаты на реальных тестовых наборах диалогов с 2 и 3 участниками, записанных с помощью бинаурального эгоцентричного оборудования от 11 участников (общей продолжительностью 6,8 часов), демонстрируют обобщающую способность системы в идентификации и изоляции собеседников в условиях множественных бесед. Наша работа представляет шаг к созданию слуховых ассистентов, адаптирующихся к динамике разговора и вовлеченности. Дополнительная информация доступна на нашем сайте: https://proactivehearing.cs.washington.edu/

Ошибко-ориентированное редактирование сцены для пространственного позиционирования в больших языковых моделях
Error-Driven Scene Editing for 3D Grounding in Large Language Models

Nov 18

ByYue Zhang, Zun Wang, Han Lin, Jialu Li, Jianing Yang, Yonatan Bitton, Idan Szpektor, Mohit Bansal

Несмотря на недавний прогресс в области 3D-LLM, они по-прежнему ограничены в точном привязывании языка к визуальным и пространственным элементам в 3D-средах. Это ограничение частично проистекает из обучающих данных, которые фокусируются на языковых рассуждениях, а не на пространственном понимании, из-за скудности 3D-ресурсов, что оставляет нерешенными присущие смещения в привязке. Чтобы решить эту проблему, мы предлагаем использовать редактирование 3D-сцен в качестве ключевого механизма для генерации точных визуальных контрафактов, которые устраняют эти смещения посредством детализированного пространственного манипулирования, не требуя дорогостоящего перестроения сцен или масштабного сбора 3D-данных. Более того, чтобы сделать эти правки целенаправленными и напрямую устранять конкретные слабости модели, мы представляем DEER-3D — ошибко-ориентированную структуру, следующую структурированному рабочему процессу «Декомпозиция, Диагностическая оценка, Редактирование и Переобучение», в отличие от широкого или случайного аугментирования данных, как в традиционных подходах. Конкретно, при выявлении ошибки привязки 3D-LLM наша структура сначала диагностирует точную ошибку на уровне предиката (например, атрибута или пространственного отношения). Затем она выполняет минимальные, согласованные с предикатом правки 3D-сцены, такие как перекрашивание или изменение положения, чтобы создать целенаправленное контрафактное обучение для итеративной тонкой настройки модели, значительно повышая точность привязки. Мы оцениваем наш конвейер редактирования на нескольких бенчмарках для задач 3D-привязки и понимания сцен, последовательно демонстрируя улучшения на всех оцениваемых наборах данных благодаря итеративному уточнению. DEER-3D подчеркивает эффективность целенаправленного, ошибко-ориентированного редактирования сцен для объединения лингвистических способностей к рассуждению с пространственной привязкой в 3D-LLM.

Смягчение смещения по длине меток в больших языковых моделях
Mitigating Label Length Bias in Large Language Models

Nov 18

ByMario Sanz-Guerrero, Katharina von der Wense

Крупные языковые модели (LLMs) демонстрируют мощные возможности обучения в условиях нулевого и малого числа примеров. Однако при прогнозировании из набора кандидатных вариантов LLMs подвержены смещениям, связанным с метками, а существующие методы калибровки не учитывают смещения, возникающие из-за меток классов, состоящих из нескольких токенов. Мы решаем проблему, которую называем **смещением по длине метки**, когда метки разной длины обрабатываются непоследовательно, даже после стандартной нормализации по длине. Для её устранения мы предлагаем **нормализованную контекстуальную калибровку (NCC)** — эффективный метод, который нормализует и калибрует прогнозы на уровне полной метки. NCC обеспечивает статистически значимое улучшение по сравнению с предыдущими подходами на множестве наборов данных и моделей, с приростом до 10% по F1. Более того, NCC расширяет смягчение смещений на более широкий класс задач, таких как ответы на вопросы с множественным выбором. Наш анализ показывает, что в сочетании с обучением в контексте NCC менее чувствительна к выбору примеров для немногих попыток, требует меньше примеров для достижения конкурентоспособной производительности и даёт более надёжные оценки уверенности. Эти результаты подчёркивают важность устранения смещений на уровне полных меток для повышения производительности и устойчивости методов на основе LLM, особенно в реальных приложениях, где метки классов естественным образом состоят из нескольких токенов.

Мозговая волна кодирует тысячу токенов: моделирование межкортикальных нейронных взаимодействий для эффективного распознавания эмоций на основе ЭЭГ
A Brain Wave Encodes a Thousand Tokens: Modeling Inter-Cortical Neural Interactions for Effective EEG-based Emotion Recognition

Nov 17

ByNilay Kumar, Priyansh Bhandari, G. Maragatham

Человеческие эмоции сложно передать словами и они часто абстрагируются в процессе описания; однако сигналы электроэнцефалограммы (ЭЭГ) могут предложить более прямой взгляд на эмоциональную активность мозга. Недавние исследования показывают, что модели глубокого обучения способны обрабатывать эти сигналы для распознавания эмоций с высокой точностью. Однако многие существующие подходы упускают из виду динамическое взаимодействие между различными областями мозга, которое может быть crucial для понимания того, как эмоции возникают и развиваются во времени, что потенциально способствует более точному распознаванию эмоций. Чтобы решить эту проблему, мы предлагаем RBTransformer — нейросетевую архитектуру на основе Transformer, которая моделирует межкортикальную нейродинамику мозга в латентном пространстве, чтобы лучше улавливать структурированные нейронные взаимодействия для эффективного распознавания эмоций на основе ЭЭГ. Сначала сигналы ЭЭГ преобразуются в токены Band Differential Entropy (BDE), которые затем пропускаются через Electrode Identity embeddings для сохранения пространственной принадлежности. Эти токены обрабатываются последовательными межкортикальными блоками многоголового внимания, которые строят матрицу внимания "электрод x электрод", позволяя модели изучать межкортикальные нейронные зависимости. Полученные признаки затем пропускаются через классификационную голову для получения окончательного прогноза. Мы провели обширные эксперименты, в частности, в условиях, зависимых от субъекта, на наборах данных SEED, DEAP и DREAMER, по всем трем измерениям — Валентность, Возбуждение и Доминантность (для DEAP и DREAMER), в условиях как бинарной, так и многоклассовой классификации. Результаты демонстрируют, что предложенный RBTransformer превосходит все предыдущие современные методы на всех трех наборах данных, по всем трем измерениям в обоих режимах классификации. Исходный код доступен по адресу: https://github.com/nnilayy/RBTransformer.

Полностью автоматизированный хаос-инжиниринг на основе LLM: к созданию доступных систем устойчивого программного обеспечения
LLM-Powered Fully Automated Chaos Engineering: Towards Enabling Anyone to Build Resilient Software Systems at Low Cost

Nov 11

ByDaisuke Kikuta, Hiroki Ikeuchi, Kengo Tajiri

Инженерия хаоса (ИХ) — это инженерная методика, направленная на повышение устойчивости распределенных систем. Она предполагает преднамеренное внесение сбоев в систему для проверки её устойчивости, выявления слабых мест и их устранения до того, как они приведут к отказам в промышленной эксплуатации. Современные инструменты ИХ автоматизируют выполнение заранее определенных экспериментов. Однако планирование таких экспериментов и улучшение системы на основе их результатов по-прежнему остаются ручными процессами. Эти процессы трудоемки и требуют многопрофильной экспертизы. Для решения этих задач и обеспечения возможности создания устойчивых систем с низкими затратами в данной статье предлагается система ChaosEater, которая автоматизирует полный цикл ИХ с помощью больших языковых моделей (БЯМ). Система предопределяет агентный рабочий процесс в соответствии с систематическим циклом ИХ и распределяет разделенные на подзадачи процессы внутри workflow между БЯМ. ChaosEater ориентирована на ИХ для программных систем, построенных на Kubernetes. Следовательно, БЯМ в ChaosEater выполняют циклы ИХ через задачи программной инженерии, включая определение требований, генерацию кода, тестирование и отладку. Мы оцениваем ChaosEater на примере кейсов с системами на Kubernetes малого и крупного масштаба. Результаты показывают, что система стабильно завершает обоснованные циклы ИХ со значительно низкими временными и финансовыми затратами. Её циклы также качественно проверяются инженерами-людьми и БЯМ.

TopoPerception: оценка глобального визуального восприятия крупных языково-визуальных моделей без использования ярлыков
TopoPerception: A Shortcut-Free Evaluation of Global Visual Perception in Large Vision-Language Models

Nov 14

ByWenhao Zhou, Hao Zheng, Rong Zhao

Крупные визуально-языковые модели (LVLM) обычно согласуют визуальные признаки из энкодера с предварительно обученной большой языковой моделью (LLM). Однако это делает модуль визуального восприятия узким местом, что ограничивает общие возможности LVLM. Традиционные оценочные тесты, хотя и богаты визуальной семантикой, часто содержат неизбежные локальные сокращённые пути (shortcuts), которые могут привести к завышенной оценке перцептивных способностей моделей. Здесь мы представляем TopoPerception — тестовый набор, использующий топологические свойства для строгой оценки глобальных возможностей визуального восприятия LVLM на различных уровнях детализации. Поскольку топология зависит от глобальной структуры изображения и инвариантна к локальным признакам, TopoPerception позволяет провести оценку глобального восприятия, свободную от сокращённых путей, что принципиально отличает его от семантически насыщенных задач. Мы оценили передовые модели на TopoPerception и обнаружили, что даже на самом грубом уровне перцептивной детализации все модели работают не лучше случайного угадывания, что указывает на глубокую неспособность воспринимать глобальные визуальные признаки. Примечательно, что внутри семейств моделей наблюдается последовательная тенденция: более мощные модели с более сильными reasoning-способностями демонстрируют более низкую точность. Это позволяет предположить, что простое масштабирование моделей недостаточно для устранения этого дефицита и может даже усугубить его. Прогресс может потребовать новых парадигм обучения или архитектур. TopoPerception не только выявляет критическое узкое место в современных LVLM, но и предлагает перспективу и направление для улучшения их глобального визуального восприятия. Данные и код общедоступны по адресу: https://github.com/Wenhao-Zhou/TopoPerception.