Ежедневно отобранные исследовательские статьи по ИИ с переводами
Крупные языковые модели (LLM) часто генерируют ответы с присущими им предубеждениями, что снижает их надежность в реальных приложениях. Существующие методы оценки часто упускают из виду предубеждения в длинных ответах и внутреннюю изменчивость выходных данных LLM. Для решения этих проблем мы предлагаем FiSCo (Fine-grained Semantic Computation) — новый статистический фреймворк для оценки групповой справедливости в LLM путем обнаружения тонких семантических различий в длинных ответах для различных демографических групп. В отличие от предыдущих работ, сосредоточенных на анализе тональности или сравнении на уровне токенов, FiSCo выходит за рамки поверхностного анализа, работая на уровне утверждений и используя проверку логической связанности для оценки согласованности смысла в ответах. Мы разбиваем выходные данные модели на семантически независимые утверждения и применяем статистическую проверку гипотез для сравнения межгруппового и внутригруппового сходства, что позволяет надежно обнаруживать тонкие предубеждения. Мы формализуем новое определение групповой контрфактической справедливости и проверяем FiSCo на синтетических и аннотированных человеком наборах данных, охватывающих гендер, расу и возраст. Эксперименты показывают, что FiSCo более надежно выявляет нюансированные предубеждения, снижая влияние стохастической изменчивости LLM, и превосходит различные метрики оценки.
Мы представляем AnimaX, прямую (feed-forward) фреймворк для 3D-анимации, который объединяет априорные знания о движении из видео-диффузионных моделей с контролируемой структурой скелетной анимации. Традиционные методы синтеза движения либо ограничены фиксированными топологиями скелетов, либо требуют затратной оптимизации в высокоразмерных пространствах деформаций. В отличие от них, AnimaX эффективно переносит знания о движении, основанные на видео, в 3D-область, поддерживая разнообразные артикулированные меши с произвольными скелетами. Наш метод представляет 3D-движение как многовидовые, многокадровые 2D-карты поз и позволяет совместную видео-позную диффузию, обусловленную рендерингом шаблонов и текстовым описанием движения. Мы вводим общие позиционные кодировки и модально-зависимые вложения, чтобы обеспечить пространственно-временное выравнивание между видео- и позными последовательностями, эффективно перенося априорные знания из видео в задачу генерации движения. Полученные многовидовые последовательности поз триангулируются в 3D-позиции суставов и преобразуются в анимацию мешей с помощью обратной кинематики. Обучаясь на новом наборе данных из 160 000 риггированных последовательностей, AnimaX достигает передовых результатов на VBench по обобщению, точности движения и эффективности, предлагая масштабируемое решение для категорийно-независимой 3D-анимации. Страница проекта: https://anima-x.github.io/{https://anima-x.github.io/}.
Мы представляем Matrix-Game — интерактивную модель-основу для генерации управляемых игровых миров. Matrix-Game обучается с использованием двухэтапного подхода: сначала выполняется масштабное предварительное обучение без меток для понимания окружения, за которым следует обучение с метками действий для генерации интерактивного видео. Для поддержки этого процесса мы создали Matrix-Game-MC — всеобъемлющий набор данных из Minecraft, включающий более 2700 часов неразмеченных видеоклипов игрового процесса и более 1000 часов высококачественных размеченных клипов с детализированными аннотациями действий клавиатуры и мыши. Наша модель использует управляемую парадигму генерации "изображение-в-мир", учитывая эталонное изображение, контекст движения и действия пользователя. Благодаря более чем 17 миллиардам параметров, Matrix-Game обеспечивает точный контроль над действиями персонажа и движениями камеры, сохраняя при этом высокое визуальное качество и временную согласованность. Для оценки производительности мы разработали GameWorld Score — унифицированный бенчмарк, измеряющий визуальное качество, временное качество, управляемость действий и понимание физических правил для генерации миров в Minecraft. Многочисленные эксперименты показывают, что Matrix-Game стабильно превосходит предыдущие открытые модели генерации миров в Minecraft (включая Oasis и MineWorld) по всем метрикам, с особенно значительным улучшением в управляемости и физической согласованности. Двойные слепые оценки людьми дополнительно подтверждают превосходство Matrix-Game, подчеркивая её способность генерировать воспринимаемо реалистичные и точно управляемые видео в разнообразных игровых сценариях. Для содействия будущим исследованиям в области интерактивной генерации "изображение-в-мир" мы опубликуем веса модели Matrix-Game и бенчмарк GameWorld Score на https://github.com/SkyworkAI/Matrix-Game.
Недавние подходы в обучении с подкреплением, такие как GRPO с контролем по результатам, продвинули использование цепочек рассуждений (Chain-of-Thought) в больших языковых моделях (LLM), однако их адаптация к мультимодальным LLM (MLLM) остается неисследованной. Чтобы восполнить недостаток строгой оценки методов пост-обучения для MLLM, мы представляем SEED-Bench-R1 — бенчмарк, включающий сложные реальные видеоролики, требующие сбалансированного восприятия и рассуждений. Он предлагает обширный набор данных для обучения и оценивает обобщающую способность в трех усложняющихся сценариях: в рамках одного распределения, в кросс-средовых и кросс-средово-задачных условиях. Используя SEED-Bench-R1, мы обнаружили, что стандартный GRPO, хотя и улучшает точность ответов, часто снижает логическую согласованность между шагами рассуждений и ответами, достигая лишь 57,9% согласованности. Это связано с тем, что сигналы вознаграждения сосредоточены исключительно на конечных ответах, поощряя использование "коротких путей", а строгие штрафы KL ограничивают исследование. Чтобы решить эту проблему, мы предлагаем GRPO-CARE — RL-фреймворк, учитывающий согласованность, который оптимизирует как правильность ответов, так и логическую связность рассуждений без явного контроля. GRPO-CARE вводит двухуровневую систему вознаграждения: (1) базовое вознаграждение за правильность ответа и (2) адаптивный бонус за согласованность, вычисляемый путем сравнения вероятности перехода от рассуждений к ответу (с использованием медленно эволюционирующей референсной модели) с аналогичными показателями других моделей. Этот двойной механизм усиливает вознаграждение за рассуждения, которые одновременно правильны и логически согласованы. Заменив штрафы KL на этот адаптивный бонус, GRPO-CARE превосходит стандартный GRPO на SEED-Bench-R1, достигая улучшения производительности на 6,7% на самом сложном уровне оценки и повышения согласованности на 24,5%. Он также демонстрирует сильную переносимость, улучшая производительность модели на различных бенчмарках для понимания видео. Наша работа вносит вклад в систематически разработанный бенчмарк и обобщаемый фреймворк пост-обучения, способствуя развитию более интерпретируемых и устойчивых MLLM.
Инженерия программного обеспечения (ИПО) недавно стала важной испытательной площадкой для агентов следующего поколения на основе крупных языковых моделей (LLM), требуя от них ключевых способностей в двух аспектах: устойчивое итеративное решение задач (например, более 50 раундов взаимодействия) и разрешение зависимостей в длинных контекстах (например, более 32 тыс. токенов). Однако процесс подготовки данных в ИПО остается крайне трудоемким, так как он в значительной степени зависит от ручной аннотации для фильтрации файлов с кодом и настройки специализированных сред выполнения для запуска и проверки модульных тестов. В результате большинство существующих наборов данных ограничены всего несколькими тысячами примеров, взятых из GitHub. В связи с этим мы предлагаем инкрементальный, автоматизированный конвейер подготовки данных, который систематически масштабирует объем и разнообразие наборов данных для ИПО. Наш набор данных включает 10 169 реальных задач на Python из 2 531 уникального репозитория GitHub, каждая из которых сопровождается задачей, описанной на естественном языке, и образом среды выполнения для автоматизированной проверки модульных тестов. Мы тщательно отобрали более 8 000 успешно проверенных траекторий обучения из нашего набора данных для ИПО. При тонкой настройке модели Skywork-SWE на этих траекториях мы обнаружили удивительный феномен масштабирования данных: производительность обученной модели в задачах ИПО продолжает улучшаться с увеличением объема данных, не показывая признаков насыщения. Примечательно, что наша модель Skywork-SWE достигает точности 38,0% по метрике pass@1 на бенчмарке SWE-bench Verified без использования верификаторов или множественных прогонов, устанавливая новый рекорд (SOTA) среди LLM на основе Qwen2.5-Coder-32B, построенных на фреймворке OpenHands. Более того, с применением техник масштабирования на этапе тестирования производительность дополнительно улучшается до 47,0%, превосходя предыдущие результаты SOTA для моделей с менее чем 32 млрд параметров. Мы публикуем контрольную точку модели Skywork-SWE-32B для ускорения будущих исследований.
В данной статье представлена стратегия ScaleCap для масштабируемого создания подписей к изображениям на этапе вывода, которая генерирует всесторонние и детализированные описания изображений. Основные проблемы высококачественного создания подписей связаны с внутренними предубеждениями LVLM (моделей, работающих с мультимодальными данными): мультимодальное предубеждение, приводящее к несбалансированной гранулярности описаний, когда одни элементы описываются подробно, а другие лишь упоминаются; лингвистическое предубеждение, вызывающее галлюцинации в виде описаний несуществующих объектов. Для решения этих проблем мы предлагаем масштабируемую стратегию создания подписей с устранением предубеждений, которая постепенно обогащает и калибрует описание с увеличением бюджета вывода. В частности, мы предлагаем два новых компонента: эвристическое ответы на вопросы и контрастное оценивание предложений. Первый компонент генерирует вопросы, специфичные для содержания изображения, и отвечает на них, чтобы постепенно добавлять релевантную информацию в описание. Второй компонент использует оффлайн-контрастное декодирование на уровне предложений для эффективного выявления и устранения галлюцинаций, вызванных лингвистическими предубеждениями. С увеличением затрат на вывод ScaleCap задает больше эвристических вопросов, чтобы постепенно захватывать дополнительные визуальные детали, создавая более точные, сбалансированные и информативные подписи. Эксперименты по выравниванию модальностей демонстрируют эффективность ScaleCap. Аннотирование 450 тысяч изображений с использованием ScaleCap и их применение для предварительного обучения LVLM приводит к устойчивому улучшению производительности на 11 широко используемых бенчмарках. Кроме того, ScaleCap демонстрирует превосходное богатство и точность генерируемых подписей в двух дополнительных задачах: замене изображений на подписи в задаче VQA и реконструкции изображений из подписей для оценки семантического охвата. Код доступен по адресу https://github.com/Cooperx521/ScaleCap.
Ретушь фотографий стала неотъемлемой частью современного визуального повествования, позволяя пользователям передавать эстетику и выражать творческие идеи. Хотя профессиональные инструменты, такие как Adobe Lightroom, предлагают мощные возможности, они требуют значительного опыта и ручной работы. В то же время существующие решения на основе ИИ обеспечивают автоматизацию, но часто страдают от ограниченной настраиваемости и слабой обобщаемости, не удовлетворяя разнообразные и персонализированные потребности в редактировании. Чтобы устранить этот разрыв, мы представляем JarvisArt — агента, управляемого мультимодальной крупной языковой моделью (MLLM), который понимает намерения пользователя, имитирует процесс рассуждения профессиональных художников и интеллектуально координирует более 200 инструментов ретуши в Lightroom. JarvisArt проходит двухэтапный процесс обучения: начальную тонкую настройку с использованием Chain-of-Thought для формирования базовых навыков рассуждения и использования инструментов, за которой следует Group Relative Policy Optimization for Retouching (GRPO-R) для дальнейшего улучшения принятия решений и владения инструментами. Мы также предлагаем протокол Agent-to-Lightroom для обеспечения бесшовной интеграции с Lightroom. Для оценки производительности мы разработали MMArt-Bench — новый бенчмарк, созданный на основе реальных пользовательских правок. JarvisArt демонстрирует удобство взаимодействия, превосходную обобщаемость и детальный контроль как над глобальными, так и над локальными корректировками, открывая новые горизонты для интеллектуальной ретуши фотографий. Примечательно, что он превосходит GPT-4o с улучшением на 60% по средним пиксельным метрикам на MMArt-Bench для точности передачи содержания, сохраняя при этом сопоставимые способности следовать инструкциям. Страница проекта: https://jarvisart.vercel.app/.
Вариативность человеческой аннотации (т. е. разногласия в аннотациях) является распространённым явлением в NLP и часто отражает важную информацию, такую как субъективность задачи и неоднозначность образцов. Хотя крупные языковые модели (LLM) всё чаще используются для автоматической аннотации с целью сокращения человеческих усилий, их оценка обычно сосредоточена на предсказании меток, основанных на большинстве голосов («истинных» меток). Однако до сих пор неясно, способны ли эти модели также учитывать информативную вариативность человеческой аннотации. Наша работа восполняет этот пробел, проводя всестороннюю оценку способности LLM предсказывать разногласия в аннотациях без доступа к повторным человеческим меткам. Наши результаты показывают, что LLM испытывают трудности с моделированием разногласий, что может быть упущено при оценке, основанной на метках большинства. Примечательно, что, хотя рассуждения в стиле RLVR (обучение с подкреплением с проверяемыми вознаграждениями) в целом повышают производительность LLM, они ухудшают её в предсказании разногласий. Наши выводы подчеркивают критическую необходимость оценки и улучшения LLM-аннотаторов в моделировании разногласий. Код и данные доступны по адресу: https://github.com/EdisonNi-hku/Disagreement_Prediction.
Разрешение сложных проблем SQL остается значительным узким местом в реальных приложениях баз данных. Современные крупные языковые модели (LLM), хотя и эффективны в переводе текста в SQL, не были тщательно оценены на более сложной задаче отладки SQL-проблем. Чтобы устранить этот пробел, мы представляем BIRD-CRITIC, новый бенчмарк для отладки SQL-проблем, включающий 530 задач PostgreSQL (BIRD-CRITIC-PG) и 570 мультидиалектных задач (BIRD-CRITIC-Multi), извлеченных из реальных пользовательских проблем и воспроизведенных в новых средах для обеспечения строгой оценки. Базовые оценки подчеркивают сложность задачи: ведущая модель рассуждений O3-Mini достигает успеха только в 38,87% случаев на BIRD-CRITIC-PG и 33,33% на BIRD-CRITIC-Multi. В то же время развитие открытых моделей для задач баз данных имеет решающее значение для поддержки локальной разработки и защиты конфиденциальности данных. Поэтому мы представляем Six-Gym (Sql-fIX-Gym), среду обучения для повышения возможностей открытых моделей в отладке SQL-проблем. Эта среда использует стратегию SQL-Rewind, которая автоматически генерирует исполняемые наборы данных проблем-решений путем обратного проектирования проблем из проверенных SQL. Однако популярные методы тонкой настройки на основе траекторий не исследуют существенные сигналы надзора. Мы также предлагаем f-Plan Boosting, который извлекает высокоуровневые планы отладки из SQL-решений, позволяя учительским LLM генерировать на 73,7% больше успешных траекторий для обучения. Мы интегрируем эти компоненты в открытый агент Bird-Fixer. На основе Qwen-2.5-Coder-14B, Bird-Fixer достигает успеха в 38,11% случаев на BIRD-CRITIC-PG и 29,65% на BIRD-CRITIC-Multi, превосходя ведущие проприетарные модели, такие как Claude-3.7-Sonnet и GPT-4.1, что знаменует значительный шаг к демократизации сложных возможностей отладки SQL. Таблица лидеров и исходный код доступны по адресу: https://bird-critic.github.io/
Крупные языковые модели (LLM) достигли значительных успехов в задачах, требующих рассуждений, однако оптимальная интеграция контролируемой тонкой настройки (Supervised Fine-Tuning, SFT) и обучения с подкреплением (Reinforcement Learning, RL) остается фундаментальной проблемой. Проведя всесторонний анализ распределений токенов, динамики обучения и механизмов интеграции с точки зрения энтропии, мы выявили ключевые различия между этими подходами: SFT вызывает крупномасштабные глобальные изменения в распределениях политик LLM, тогда как RL выполняет более детализированную избирательную оптимизацию, причем энтропия служит важным индикатором эффективности обучения. На основе этих наблюдений мы предлагаем метод Supervised Reinforcement Fine-Tuning (SRFT), который объединяет оба подхода к тонкой настройке в рамках единого этапа с использованием механизмов взвешивания, учитывающих энтропию. Наш подход одновременно применяет SFT и RL для прямой оптимизации LLM с использованием демонстраций и самостоятельных исследований, вместо двухэтапных последовательных методов. Эксперименты показывают, что SRFT достигает средней точности 59,1%, превосходя методы без RL на 9,0% на пяти тестах математического рассуждения и на 10,9% на трех тестах с данными, выходящими за пределы распределения.
Латентные диффузионные модели стали ведущей парадигмой для эффективной генерации видео. Однако, по мере того как ожидания пользователей смещаются в сторону более высокого разрешения, использование исключительно латентных вычислений становится недостаточным. Перспективный подход заключается в разделении процесса на два этапа: генерация семантического содержания и синтез деталей. Первый этап использует вычислительно интенсивную базовую модель на низких разрешениях, тогда как второй применяет легковесную каскадную модель супер-разрешения видео (VSR) для достижения высокого разрешения. В данной работе мы сосредоточились на изучении ключевых принципов проектирования каскадных моделей VSR, которые в настоящее время недостаточно исследованы. Во-первых, мы предлагаем две стратегии деградации для создания обучающих пар, которые лучше имитируют характеристики выходных данных базовой модели, обеспечивая согласованность между моделью VSR и её вышестоящим генератором. Во-вторых, мы предоставляем важные инсайты о поведении модели VSR через систематический анализ (1) стратегий выборки временных шагов, (2) эффектов шумового усиления на входных данных низкого разрешения (LR). Эти выводы напрямую информируют наши архитектурные и обучающие инновации. Наконец, мы вводим чередующиеся временные блоки и разреженное локальное внимание для достижения эффективного обучения и вывода, значительно сокращая вычислительные затраты. Многочисленные эксперименты демонстрируют превосходство нашей структуры над существующими методами, а исследования с исключением подтверждают эффективность каждого выбора дизайна. Наша работа устанавливает простую, но эффективную базовую линию для каскадной генерации супер-разрешения видео, предлагая практические инсайты для руководства будущими достижениями в эффективных каскадных системах синтеза.
Классификаторно-независимое управление (Classifier-Free Guidance, CFG) стало важным компонентом современных условных диффузионных моделей. Несмотря на высокую эффективность на практике, механизмы, благодаря которым CFG улучшает качество, детализацию и соответствие запросам, до конца не изучены. Мы предлагаем новый взгляд на CFG, анализируя его эффекты в частотной области, и показываем, что низкие и высокие частоты по-разному влияют на качество генерации. В частности, управление низкими частотами определяет глобальную структуру и соответствие условиям, тогда как управление высокими частотами в основном улучшает визуальную точность. Однако применение единого масштаба ко всем частотам — как это делается в стандартном CFG — приводит к перенасыщению и снижению разнообразия при высоких масштабах, а также к ухудшению визуального качества при низких масштабах. На основе этих наблюдений мы предлагаем частотно-разделенное управление (Frequency-Decoupled Guidance, FDG), эффективный подход, который разлагает CFG на низко- и высокочастотные компоненты и применяет отдельные силы управления к каждому компоненту. FDG улучшает качество изображений при низких масштабах управления и избегает недостатков высоких масштабов CFG по своей конструкции. В ходе обширных экспериментов на множестве наборов данных и моделей мы демонстрируем, что FDG последовательно повышает точность выборок, сохраняя разнообразие, что приводит к улучшению показателей FID и recall по сравнению с CFG, устанавливая наш метод как готовую альтернативу стандартному классификаторно-независимому управлению.
Кодовое переключение (CSW) — это практика чередования двух или более языков в рамках одного дискурса. Это явление широко распространено в многоязычных сообществах и становится всё более частым в онлайн-контенте, где пользователи естественным образом смешивают языки в повседневном общении. В результате крупные языковые модели (LLM), которые сейчас играют ключевую роль в обработке и генерации контента, часто сталкиваются с входами, содержащими кодовое переключение. Учитывая их широкое использование, крайне важно понять, как LLM обрабатывают и анализируют такие смешанные тексты. В данной статье представлена систематическая оценка понимания LLM в условиях кодового переключения путём создания CSW-вариантов устоявшихся тестов на логическое мышление и понимание. Хотя ухудшение результатов наблюдается, когда иностранные элементы нарушают структуру английского текста — даже при наличии лингвистических ограничений — встраивание английского в другие языки часто улучшает понимание. Хотя использование подсказок даёт неоднозначные результаты, тонкая настройка моделей предлагает более стабильный путь для смягчения ухудшения.
Модели, объединяющие зрение, язык и действия (Vision-Language-Action models, VLAs), привлекают значительное внимание благодаря своему потенциалу в развитии роботизированных манипуляций. Однако предыдущие подходы в основном полагаются на общие способности к пониманию моделей, объединяющих зрение и язык (Vision-Language Models, VLMs), для генерации сигналов действий, часто упуская из виду богатую временную и причинно-следственную структуру, заложенную в визуальных наблюдениях. В данной статье мы представляем UniVLA — унифицированную и нативную мультимодальную модель VLA, которая авторегрессивно моделирует сигналы зрения, языка и действий в виде последовательностей дискретных токенов. Такая формулировка позволяет гибко обучаться мультимодальным задачам, особенно на основе крупномасштабных видеоданных. Благодаря включению моделирования мира в процессе пост-обучения, UniVLA захватывает причинно-следственные динамики из видео, что способствует эффективному переносу на обучение стратегий для последующих задач — особенно для задач с длительным горизонтом. Наш подход устанавливает новые рекорды на нескольких широко используемых симуляционных тестах, включая CALVIN, LIBERO и Simplenv-Bridge, значительно превосходя предыдущие методы. Например, UniVLA достигает средней успешности 95,5% на тесте LIBERO, превосходя показатель pi0-FAST в 85,5%. Мы также демонстрируем её широкую применимость в реальных задачах манипуляции с использованием ALOHA и автономного вождения.
Крупные языковые модели (LLM) демонстрируют потенциал в автоматизации задач анализа данных, однако модели с открытым исходным кодом сталкиваются с существенными ограничениями в сценариях, требующих интенсивного рассуждения. В данной работе мы исследуем стратегии для улучшения возможностей анализа данных у открытых LLM. Создав базовый набор данных, включающий разнообразные реалистичные сценарии, мы оцениваем модели по трем направлениям: понимание данных, генерация кода и стратегическое планирование. Наш анализ выявил три ключевых результата: (1) Качество стратегического планирования является основным фактором, определяющим производительность модели; (2) Дизайн взаимодействия и сложность задачи существенно влияют на способности к рассуждению; (3) Качество данных оказывает большее влияние, чем их разнообразие, для достижения оптимальной производительности. Используя эти выводы, мы разработали методологию синтеза данных, которая демонстрирует значительное улучшение аналитических способностей открытых LLM.
Самообучение (SSL) произвело революцию в представлениях аудиоданных, однако модели часто остаются узкоспециализированными, сосредотачиваясь либо на задачах, связанных с речью, либо на задачах, не связанных с речью. В данной работе мы представляем универсальный подход к обучению представлений аудиоданных — Universal Speech and Audio Distillation (USAD), который объединяет различные типы аудио (речь, звуки и музыку) в единую модель. USAD использует эффективное послойное дистилляционное обучение от узкоспециализированных SSL-моделей для тренировки студенческой модели на обширном наборе аудиоданных. USAD демонстрирует конкурентоспособные результаты на различных бенчмарках и наборах данных, включая задачи обработки речи на уровне фреймов и экземпляров, классификацию аудио и звуков, достигая результатов, близких к современным, с использованием одного энкодера на бенчмарках SUPERB и HEAR.
Крупные языковые модели (LLM), особенно модели с медленным мышлением, часто демонстрируют сильные галлюцинации, выдавая некорректный контент из-за неспособности точно распознавать границы знаний в процессе рассуждений. Хотя обучение с подкреплением (RL) может улучшить способности к сложным рассуждениям, его ориентированный на результат механизм вознаграждения часто не обеспечивает фактического контроля над процессом мышления, что еще больше усугубляет проблему галлюцинаций. Для решения проблемы высокого уровня галлюцинаций в моделях с медленным мышлением мы предлагаем Knowledge-enhanced RL, или KnowRL. KnowRL направляет модели на выполнение медленного мышления, основанного на фактах, путем интеграции вознаграждения за фактическую достоверность, основанного на проверке знаний, в процесс обучения RL, помогая им распознавать свои границы знаний. Этот целенаправленный ввод фактической информации в процессе обучения RL позволяет модели изучать и усваивать стратегии рассуждений, основанные на фактах. Непосредственно вознаграждая соблюдение фактов на этапах рассуждений, KnowRL способствует более надежному процессу мышления. Результаты экспериментов на трех наборах данных для оценки галлюцинаций и двух наборах данных для оценки рассуждений показывают, что KnowRL эффективно снижает галлюцинации в моделях с медленным мышлением, сохраняя при этом их изначальные сильные способности к рассуждениям. Наш код доступен по адресу https://github.com/zjunlp/KnowRL.
Данное исследование изучает эффективность моделей прогнозирующего технического обслуживания и оптимизацию интеллектуальных систем эксплуатации и технического обслуживания (O&M) для повышения эффективности выработки ветровой энергии. С помощью качественного исследования были проведены структурированные интервью с пятью инженерами ветряных электростанций и менеджерами по техническому обслуживанию, каждый из которых обладает обширным опытом в эксплуатации турбин. Используя тематический анализ, исследование выявило, что, хотя модели прогнозирующего технического обслуживания эффективно сокращают простои, выявляя крупные неисправности, они часто сталкиваются с трудностями в обнаружении мелких, постепенных отказов. Ключевые вызовы включают ложные срабатывания, неисправности датчиков и сложности интеграции новых моделей с устаревшими системами турбин. Передовые технологии, такие как цифровые двойники, SCADA-системы и мониторинг состояния, значительно улучшили практики технического обслуживания турбин. Однако эти технологии все еще требуют доработок, особенно в области совершенствования ИИ и интеграции данных в реальном времени. Результаты подчеркивают необходимость непрерывного развития для полной оптимизации производительности ветряных турбин и поддержки более широкого внедрения возобновляемой энергии.
Модели рассуждений преуспевают в генерации длинных цепочек мыслей, но декодирование получающихся тысяч токенов происходит медленно. Спекулятивное декодирование на уровне токенов (SD) помогает, но его эффективность ограничена, поскольку вероятность того, что вся догадка из гамма-токенов будет верной, экспоненциально снижается с ростом гаммы. Это означает, что выделение большего объема вычислений для более длинных черновиков токенов сталкивается с алгоритмическим потолком, что делает ускорение скромным и независимым от оборудования. Мы поднимаем этот потолок с помощью метода Lookahead Reasoning, который использует второй уровень параллелизма на уровне шагов. Наше ключевое понимание заключается в том, что модели рассуждений генерируют пошагово, и каждый шаг должен быть семантически правильным, а не точным совпадением токенов. В Lookahead Reasoning легковесная модель-черновик предлагает несколько будущих шагов; целевая модель расширяет каждое предложение за один пакетный проход, а верификатор сохраняет семантически правильные шаги, позволяя целевой модели перегенерировать те, которые не прошли проверку. Спекулятивное декодирование на уровне токенов по-прежнему работает внутри каждого шага рассуждения, поэтому два уровня параллелизма умножаются. Мы показываем, что Lookahead Reasoning повышает пиковое ускорение SD как теоретически, так и эмпирически. На тестах GSM8K, AIME и других бенчмарках Lookahead Reasoning улучшает ускорение SD с 1.4x до 2.1x, сохраняя качество ответов, и его ускорение лучше масштабируется с увеличением пропускной способности GPU. Наш код доступен по адресу https://github.com/hao-ai-lab/LookaheadReasoning.
Ортогональная тонкая настройка (OFT) обеспечивает высокую параметрическую эффективность адаптации, предотвращая катастрофическое забывание, однако её высокие требования к времени выполнения и памяти ограничивают практическое применение. Мы выявили, что основное вычислительное узкое место в OFT связано с её реализацией, ориентированной на веса, которая опирается на дорогостоящие матрично-матричные умножения с кубической сложностью. Чтобы преодолеть это, мы предлагаем OFTv2 — переформулировку, ориентированную на входные данные, которая вместо этого использует матрично-векторные умножения (т.е. вычисления без матриц), снижая вычислительную стоимость до квадратичной. Мы также вводим параметризацию Кэли-Неймана — эффективную ортогональную параметризацию, которая аппроксимирует инверсию матрицы в преобразовании Кэли с помощью усечённого ряда Неймана. Эти модификации позволяют OFTv2 достичь до 10-кратного ускорения обучения и 3-кратного снижения использования памяти GPU без ущерба для производительности. Кроме того, мы расширяем OFTv2 для поддержки тонкой настройки квантованных базовых моделей и показываем, что она превосходит популярный метод QLoRA по стабильности обучения, эффективности и использованию памяти.
Навигация на основе зрения и языка (Vision-and-Language Navigation, VLN) в крупномасштабных городских средах требует от воплощенных агентов способности связывать лингвистические инструкции с комплексными сценами и воспроизводить релевантный опыт на протяжении длительных временных интервалов. Предыдущие модульные подходы обеспечивают интерпретируемость, но страдают от отсутствия единой памяти, в то время как сквозные агенты на основе (мультимодальных) языковых моделей (MLLM) преуспевают в объединении зрения и языка, но ограничены фиксированными контекстными окнами и неявным пространственным рассуждением. Мы представляем Mem4Nav — иерархическую систему пространственного познания с долгосрочной и краткосрочной памятью, которая может быть интегрирована в любой базовый VLN-алгоритм. Mem4Nav объединяет разреженную октодеревь для детального воксельного индексирования с семантическим топологическим графом для связи ключевых ориентиров высокого уровня, сохраняя оба компонента в обучаемых токенах памяти, встроенных через обратимый трансформер. Долгосрочная память (LTM) сжимает и сохраняет исторические наблюдения как на уровне октодерева, так и на узлах графа, в то время как краткосрочная память (STM) кэширует недавние мультимодальные данные в относительных координатах для избегания препятствий и локального планирования в реальном времени. На каждом шаге извлечение из STM значительно сокращает динамический контекст, а при необходимости более глубокой истории токены LTM декодируются без потерь для восстановления прошлых вложений. Оценка на наборах данных Touchdown и Map2Seq с использованием трех базовых архитектур (модульной, современной VLN с LLM на основе подсказок и современной VLN с MLLM с шаговым вниманием) показала, что Mem4Nav обеспечивает улучшение на 7–13 процентных пунктов (pp) в показателе завершения задачи, достаточное снижение SPD и увеличение nDTW более чем на 10 pp. Абляционные исследования подтверждают незаменимость как иерархической карты, так и двойных модулей памяти. Наш код доступен по адресу https://github.com/tsinghua-fib-lab/Mem4Nav.