HuggingFace Daily Papers

Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

22 papers found

Avanzando en los Modelos de Mundo de Código Abierto
Advancing Open-source World Models

Jan 28

ByRobbyant Team, Zelin Gao, Qiuyu Wang, Yanhong Zeng, Jiapeng Zhu, Ka Leong Cheng, Yixuan Li, Hanlin Wang, Yinghao Xu, Shuailei Ma, Yihang Chen, Jie Liu, Yansong Cheng, Yao Yao, Jiayi Zhu, Yihao Meng, Kecheng Zheng, Qingyan Bai, Jingye Chen, Zehong Shen, Yue Yu, Xing Zhu, Yujun Shen, Hao Ouyang

119

Presentamos LingBot-World, un simulador mundial de código abierto derivado de la generación de vídeo. Posicionado como un modelo de mundo de primer nivel, LingBot-World ofrece las siguientes características. (1) Mantiene una alta fidelidad y dinámicas robustas en un amplio espectro de entornos, incluyendo realismo, contextos científicos, estilos de animación y más. (2) Permite un horizonte a nivel de minuto mientras preserva la coherencia contextual en el tiempo, también conocida como "memoria a largo plazo". (3) Admite interactividad en tiempo real, logrando una latencia inferior a 1 segundo al producir 16 fotogramas por segundo. Proporcionamos acceso público al código y al modelo en un esfuerzo por reducir la brecha entre las tecnologías de código abierto y cerrado. Creemos que nuestra publicación dotará a la comunidad de aplicaciones prácticas en áreas como la creación de contenido, los videojuegos y el aprendizaje robótico.

Más Difícil es Mejor: Potenciando el Razonamiento Matemático mediante GRPO Consciente de la Dificultad y Reformulación de Preguntas Multi-Aspecto
Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation

Jan 28

ByYanqi Dai, Yuxiang Ji, Xiao Zhang, Yong Wang, Xiangxiang Chu, Zhiwu Lu

116

El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) ofrece un mecanismo robusto para mejorar el razonamiento matemático en modelos grandes. Sin embargo, identificamos una falta sistemática de énfasis en preguntas más desafiantes en los métodos existentes, tanto desde perspectivas algorítmicas como de datos, a pesar de su importancia para refinar capacidades subdesarrolladas. Algorítmicamente, la ampliamente utilizada Optimización de Políticas Relativa a Grupos (GRPO) sufre de un desequilibrio implícito donde la magnitud de las actualizaciones de la política es menor para preguntas más difíciles. En cuanto a los datos, los enfoques de aumento principalmente reformulan preguntas para mejorar la diversidad sin aumentar sistemáticamente la dificultad intrínseca. Para abordar estos problemas, proponemos un marco dual MathForge para mejorar el razonamiento matemático orientándose a preguntas más difíciles desde ambas perspectivas, el cual comprende un algoritmo de Optimización de Políticas de Grupo Consciente de la Dificultad (DGPO) y una estrategia de Reformulación de Preguntas Multi-Aspecto (MQR). Específicamente, DGPO primero rectifica el desequilibrio implícito en GRPO mediante una estimación de ventaja grupal balanceada por dificultad, y además prioriza preguntas más difíciles mediante una ponderación a nivel de pregunta consciente de la dificultad. Mientras tanto, MQR reformula preguntas en múltiples aspectos para aumentar la dificultad manteniendo la respuesta de oro original. En general, MathForge forma un bucle sinérgico: MQR expande la frontera de datos, y DGPO aprende efectivamente de los datos aumentados. Experimentos exhaustivos muestran que MathForge supera significativamente a los métodos existentes en varias tareas de razonamiento matemático. El código y los datos aumentados están disponibles en https://github.com/AMAP-ML/MathForge.

Innovador-VL: Un Modelo de Lenguaje Multimodal a Gran Escala para el Descubrimiento Científico
Innovator-VL: A Multimodal Large Language Model for Scientific Discovery

Jan 27

ByZichen Wen, Boxue Yang, Shuang Chen, Yaojie Zhang, Yuhang Han, Junlong Ke, Cong Wang, Yicheng Fu, Jiawang Zhao, Jiangchao Yao, Xi Fang, Zhen Wang, Henxing Cai, Lin Yao, Zhifeng Gao, Yanhui Hong, Nang Yuan, Yixuan Li, Guojiang Zhao, Haoyi Tao, Nan Wang, Han Lyu, Guolin Ke, Ning Liao, Xiaoxing Wang, Kai Chen, Zhiyu Li, Feiyu Xiong, Sihan Hu, Kun Chen, Yanfeng Wang, Weinan E, Linfeng Zhang, Linfeng Zhang

Presentamos Innovator-VL, un modelo lingüístico grande multimodal científico diseñado para impulsar la comprensión y el razonamiento en diversos dominios científicos, manteniendo al mismo tiempo un rendimiento excelente en tareas visuales generales. A diferencia de la tendencia de depender de preentrenamientos masivos específicos de dominio y pipelines opacos, nuestro trabajo demuestra que un diseño de entrenamiento basado en principios y una metodología transparente pueden producir una sólida inteligencia científica con requisitos de datos sustancialmente reducidos. (i) En primer lugar, ofrecemos un pipeline de entrenamiento completamente transparente y reproducible de extremo a extremo, que abarca la recopilación, limpieza, preprocesamiento, ajuste fino supervisado, aprendizaje por refuerzo y evaluación de datos, junto con recetas detalladas de optimización. Esto facilita la extensión sistemática por parte de la comunidad. (ii) En segundo lugar, Innovator-VL exhibe una notable eficiencia de datos, logrando un rendimiento competitivo en diversas tareas científicas utilizando menos de cinco millones de muestras curadas y sin un preentrenamiento a gran escala. Estos resultados subrayan que se puede lograr un razonamiento efectivo mediante una selección de datos basada en principios, en lugar de un escalado indiscriminado. (iii) En tercer lugar, Innovator-VL demuestra una fuerte generalización, alcanzando un rendimiento competitivo en benchmarks de visión general, razonamiento multimodal y científicos. Esto indica que la alineación científica puede integrarse en un modelo unificado sin comprometer las capacidades de propósito general. Nuestras prácticas sugieren que es posible construir modelos multimodales científicos eficientes, reproducibles y de alto rendimiento incluso sin datos a gran escala, proporcionando una base práctica para futuras investigaciones.

DeepSeek-OCR 2: Flujo Causal Visual
DeepSeek-OCR 2: Visual Causal Flow

Jan 28

ByHaoran Wei, Yaofeng Sun, Yukun Li

Presentamos DeepSeek-OCR 2 para investigar la viabilidad de un nuevo codificador —DeepEncoder V2— capaz de reordenar dinámicamente los tokens visuales según la semántica de la imagen. Los modelos convencionales de visión y lenguaje (VLM) procesan invariablemente los tokens visuales en un orden rígido de exploración en raster (de arriba-izquierda a abajo-derecha) con codificación posicional fija cuando se introducen en los LLM. Sin embargo, esto contradice la percepción visual humana, que sigue patrones de exploración flexibles pero semánticamente coherentes impulsados por estructuras lógicas inherentes. Particularmente para imágenes con diseños complejos, la visión humana exhibe un procesamiento secuencial basado en relaciones causales. Inspirados por este mecanismo cognitivo, DeepEncoder V2 está diseñado para dotar al codificador de capacidades de razonamiento causal, permitiéndole reordenar inteligentemente los tokens visuales antes de la interpretación del contenido basada en LLM. Este trabajo explora un nuevo paradigma: si la comprensión de imágenes 2D puede lograrse efectivamente mediante dos estructuras de razonamiento causal 1D en cascada, ofreciendo así un nuevo enfoque arquitectónico con potencial para alcanzar un razonamiento 2D genuino. Los códigos y los pesos del modelo son de acceso público en http://github.com/deepseek-ai/DeepSeek-OCR-2.

Aprendizaje por Refuerzo mediante Auto-Destilación
Reinforcement Learning via Self-Distillation

Jan 28

ByJonas Hübotter, Frederike Lübeck, Lejs Behric, Anton Baumann, Marco Bagatella, Daniel Marta, Ido Hakimi, Idan Shenfeld, Thomas Kleine Buening, Carlos Guestrin, Andreas Krause

Los modelos de lenguaje a gran escala son cada vez más sometidos a post-entrenamiento con aprendizaje por refuerzo en dominios verificables como el código y las matemáticas. Sin embargo, los métodos actuales de aprendizaje por refuerzo con recompensas verificables (RLVR, por sus siglas en inglés) aprenden únicamente a partir de una recompensa escalar de resultado por intento, lo que crea un severo cuello de botella en la asignación de crédito. Muchos entornos verificables proporcionan, en realidad, retroalimentación textual enriquecida, como errores de tiempo de ejecución o evaluaciones de un juez, que explican por qué un intento falló. Formalizamos este escenario como aprendizaje por refuerzo con retroalimentación enriquecida e introducimos la Optimización de Políticas por Auto-Destilación (SDPO), que convierte la retroalimentación tokenizada en una señal de aprendizaje densa sin necesidad de un profesor externo o un modelo de recompensa explícito. SDPO trata al modelo actual condicionado por la retroalimentación como un auto-profesor y destila sus predicciones de siguiente token, informadas por la retroalimentación, de vuelta a la política. De esta manera, SDPO aprovecha la capacidad del modelo para identificar retrospectivamente sus propios errores en contexto. En tareas de razonamiento científico, uso de herramientas y programación competitiva en LiveCodeBench v6, SDPO mejora la eficiencia muestral y la precisión final en comparación con sólidos modelos de referencia de RLVR. Notablemente, SDPO también supera a los modelos de referencia en entornos RLVR estándar que solo devuelven retroalimentación escalar, utilizando para ello las ejecuciones exitosas como retroalimentación implícita para los intentos fallidos. Finalmente, aplicar SDPO a preguntas individuales en tiempo de prueba acelera el descubrimiento en tareas difíciles con recompensa binaria, logrando la misma probabilidad de descubrimiento que el muestreo del mejor de k o las conversaciones multiturno, pero con 3 veces menos intentos.

Spark: Exploración Estratégica Consciente de Políticas mediante Ramificación Dinámica para el Aprendizaje Agéntico de Largo Horizonte
Spark: Strategic Policy-Aware Exploration via Dynamic Branching for Long-Horizon Agentic Learning

Jan 28

ByJinyang Wu, Shuo Yang, Changpeng Yang, Yuhao Shen, Shuai Zhang, Zhengqi Wen, Jianhua Tao

El aprendizaje por refuerzo ha permitido que los modelos de lenguaje grandes actúen como agentes inteligentes, pero entrenarlos para tareas de horizonte largo sigue siendo un desafío debido a la escasez de trayectorias de alta calidad, especialmente con recursos limitados. Los métodos existentes suelen aumentar masivamente el número de simulaciones y asignan recursos computacionales de manera indiscriminada entre los pasos intermedios. Estos intentos desperdician inherentemente un presupuesto computacional sustancial en pasos triviales, sin garantizar la calidad de las muestras. Para abordar esto, proponemos Spark (Exploración Estratégica Consciente de la Política mediante Ramificación Dinámica en Estados Clave), un marco novedoso que ramifica selectivamente en estados de decisión críticos para una exploración eficiente de recursos. Nuestra idea clave es activar una exploración de ramificación adaptativa en puntos de decisión críticos para sondear trayectorias prometedoras, logrando así una asignación precisa de recursos que prioriza la calidad del muestreo sobre la cobertura ciega. Este diseño aprovecha las señales intrínsecas de toma de decisiones del agente para reducir la dependencia de previos humanos, permitiendo que el agente expanda autónomamente la exploración y logre una generalización más sólida. Experimentos en diversas tareas (por ejemplo, planificación embodada) demuestran que Spark alcanza tasas de éxito superiores con significativamente menos muestras de entrenamiento, exhibiendo una generalización robusta incluso en escenarios no vistos.

Las representaciones lineales en los modelos de lenguaje pueden cambiar drásticamente durante una conversación.
Linear representations in language models can change dramatically over a conversation

Jan 28

ByAndrew Kyle Lampinen, Yuxuan Li, Eghbal Hosseini, Sangnie Bhardwaj, Murray Shanahan

Las representaciones de los modelos de lenguaje a menudo contienen direcciones lineales que corresponden a conceptos de alto nivel. Aquí, estudiamos la dinámica de estas representaciones: cómo evolucionan las representaciones a lo largo de estas dimensiones dentro del contexto de conversaciones (simuladas). Encontramos que las representaciones lineales pueden cambiar dramáticamente durante una conversación; por ejemplo, la información que se representa como factual al inicio de una conversación puede representarse como no factual al final, y viceversa. Estos cambios son dependientes del contenido; mientras que las representaciones de la información relevante para la conversación pueden cambiar, la información genérica generalmente se conserva. Estos cambios son robustos incluso para dimensiones que separan la factualidad de patrones de respuesta más superficiales, y ocurren en diferentes familias de modelos y capas del modelo. Estos cambios de representación no requieren conversaciones de política activa; incluso reproducir un guion de conversación escrito por un modelo completamente diferente puede producir cambios similares. Sin embargo, la adaptación es mucho más débil al simplemente tener una historia de ciencia ficción en el contexto que está enmarcada más explícitamente como tal. También mostramos que dirigir la representación a lo largo de una dirección puede tener efectos dramáticamente diferentes en distintos puntos de una conversación. Estos resultados son consistentes con la idea de que las representaciones pueden evolucionar en respuesta al modelo que desempeña un papel particular sugerido por una conversación. Nuestros hallazgos pueden plantear desafíos para la interpretabilidad y el direccionamiento —en particular, implican que puede ser engañoso utilizar interpretaciones estáticas de características o direcciones, o sondas que asumen que un rango particular de características corresponde consistentemente a un valor de verdad específico. Sin embargo, estos tipos de dinámicas representacionales también apuntan a nuevas y emocionantes direcciones de investigación para comprender cómo los modelos se adaptan al contexto.

AACR-Bench: Evaluating Automatic Code Review with Holistic Repository-Level Context

Jan 27

ByLei Zhang, Yongda Yu, Minghui Yu, Xinxin Guo, Zhengqi Zhuang, Guoping Rong, Dong Shao, Haifeng Shen, Hongyu Kuang, Zhengfeng Li, Boge Wang, Guoan Zhang, Bangyu Xiang, Xiaobin Xu

High-quality evaluation benchmarks are pivotal for deploying Large Language Models (LLMs) in Automated Code Review (ACR). However, existing benchmarks suffer from two critical limitations: first, the lack of multi-language support in repository-level contexts, which restricts the generalizability of evaluation results; second, the reliance on noisy, incomplete ground truth derived from raw Pull Request (PR) comments, which constrains the scope of issue detection. To address these challenges, we introduce AACR-Bench a comprehensive benchmark that provides full cross-file context across multiple programming languages. Unlike traditional datasets, AACR-Bench employs an "AI-assisted, Expert-verified" annotation pipeline to uncover latent defects often overlooked in original PRs, resulting in a 285% increase in defect coverage. Extensive evaluations of mainstream LLMs on AACR-Bench reveal that previous assessments may have either misjudged or only partially captured model capabilities due to data limitations. Our work establishes a more rigorous standard for ACR evaluation and offers new insights on LLM based ACR, i.e., the granularity/level of context and the choice of retrieval methods significantly impact ACR performance, and this influence varies depending on the LLM, programming language, and the LLM usage paradigm e.g., whether an Agent architecture is employed. The code, data, and other artifacts of our evaluation set are available at https://github.com/alibaba/aacr-bench .

SERA: Agentes de Repositorio Eficientes de Verificación Suave
SERA: Soft-Verified Efficient Repository Agents

Jan 28

ByEthan Shen, Danny Tormoen, Saurabh Shah, Ali Farhadi, Tim Dettmers

Los agentes de codificación de pesos abiertos deberían tener una ventaja fundamental sobre los sistemas de código cerrado: pueden especializarse para bases de código privadas, codificando información específica del repositorio directamente en sus pesos. Sin embargo, el costo y la complejidad del entrenamiento han mantenido esta ventaja en el plano teórico. Demostramos que ahora es práctica. Presentamos Soft-Verified Efficient Repository Agents (SERA), un método eficiente para entrenar agentes de codificación que permite la creación rápida y económica de agentes especializados en bases de código privadas. Utilizando solo ajuste fino supervisado (SFT), SERA logra resultados de vanguardia entre los modelos completamente de código abierto (datos, método y código abiertos) mientras iguala el rendimiento de modelos de pesos abiertos de frontera como Devstral-Small-2. Crear modelos SERA es 26 veces más barato que el aprendizaje por refuerzo y 57 veces más barato que los métodos anteriores de datos sintéticos para alcanzar un rendimiento equivalente. Nuestro método, Soft Verified Generation (SVG), genera miles de trayectorias a partir de un único repositorio de código. Combinado con la rentabilidad, esto permite la especialización para bases de código privadas. Más allá de la especialización de repositorios, aplicamos SVG a un corpus más grande de bases de código, generando más de 200,000 trayectorias sintéticas. Utilizamos este conjunto de datos para proporcionar un análisis detallado de las leyes de escalamiento, ablaciones y factores de confusión para el entrenamiento de agentes de codificación. En general, creemos que nuestro trabajo acelerará enormemente la investigación sobre agentes de codificación abierta y demostrará la ventaja de los modelos de código abierto que pueden especializarse para bases de código privadas. Publicamos SERA como el primer modelo de la serie Open Coding Agents de Ai2, junto con todo nuestro código, datos e integración con Claude Code para apoyar a la comunidad investigadora.

Optimización de Aprendizaje por Refuerzo Basada en Robustez Distribucional Grupal para el Razonamiento de Modelos de Lenguaje Grandes
Group Distributionally Robust Optimization-Driven Reinforcement Learning for LLM Reasoning

Jan 27

ByKishan Panaganti, Zhenwen Liang, Wenhao Yu, Haitao Mi, Dong Yu

Los recientes avances en el razonamiento de los Modelos de Lenguaje a Gran Escala (LLM) están cada vez más impulsados por el refinamiento de las funciones de pérdida posteriores al entrenamiento y las estrategias de alineación. Sin embargo, los paradigmas estándar de Aprendizaje por Refuerzo (RL), como la Optimización de Políticas Relativas por Grupos (GRPO), siguen limitados por una uniformidad estática: muestreo uniforme de prompts y un número fijo de rollouts por prompt. Para datos de razonamiento heterogéneos y de cola pesada, esto crea ineficiencias estructurales que desperdician capacidad de cómputo en patrones ya resueltos, mientras que se entrena insuficientemente la larga cola de problemas difíciles. Para abordar esto, proponemos la Optimización Robusta de Distribución por Grupos Multi-Adversario (GDRO), un marco de optimización-primero que va más allá de los modelos de razonamiento uniformes al adaptar dinámicamente la distribución de entrenamiento. Introducimos un Clasificador de Dificultad Online que divide los prompts en grupos dinámicos de dificultad según pass@k. Luego proponemos dos juegos GDRO independientes para el post-entrenamiento: (1) Prompt-GDRO, que emplea un muestreador bandit de pesos multiplicativos con corrección de sesgo por Media Móvil Exponencial (EMA) para apuntar al margen de dificultad intensivo y aumentar el peso de los grupos persistentemente difíciles sin sesgo de frecuencia; y (2) Rollout-GDRO, que utiliza un controlador de precio sombra para reasignar rollouts entre grupos, maximizando la reducción de la varianza del gradiente en tareas difíciles bajo un presupuesto medio fijo (neutral en cómputo). Proporcionamos garantías de no-lamento para ambos controladores y, además, un análisis proxy de varianza que motiva una asignación óptima de rollouts en raíz cuadrada para Rollout-GDRO. Validamos nuestro marco en el conjunto de datos DAPO 14.1k utilizando modelos Qwen3-Base. Prompt-GDRO y Rollout-GDRO logran ganancias relativas promedio de +10.6% y +10.1%, respectivamente, en la precisión pass@8 a través de escalas de 1.7B, 4B y 8B en comparación con la línea base GRPO. El análisis cualitativo muestra un currículo emergente: los adversarios desplazan recursos hacia la frontera de razonamiento en evolución, mejorando el rendimiento del modelo de razonamiento.

OmegaUse: Construcción de un Agente GUI de Propósito General para la Ejecución Autónoma de Tareas
OmegaUse: Building a General-Purpose GUI Agent for Autonomous Task Execution

Jan 28

ByLe Zhang, Yixiong Xiao, Xinjiang Lu, Jingjia Cao, Yusai Zhao, Jingbo Zhou, Lang An, Zikan Feng, Wanxiang Sha, Yu Shi, Congxi Xiao, Jian Xiong, Yankai Zhang, Hua Wu, Haifeng Wang

Los agentes de interfaz gráfica de usuario (GUI) muestran un gran potencial para permitir que los modelos fundacionales completen tareas del mundo real, revolucionando la interacción humano-computadora y mejorando la productividad humana. En este informe presentamos OmegaUse, un modelo de agente GUI de propósito general para la ejecución autónoma de tareas en plataformas móviles y de escritorio, compatible con escenarios de uso informático y telefónico. La construcción de un modelo de agente GUI efectivo depende de dos factores: (1) datos de alta calidad y (2) métodos de entrenamiento efectivos. Para abordarlos, introducimos una pipeline de construcción de datos cuidadosamente diseñada y un paradigma de entrenamiento desacoplado. Para la construcción de datos, aprovechamos conjuntos de datos de código abierto rigurosamente curados e introducimos un novedoso framework de síntesis automatizada que integra exploración autónoma bottom-up con generación guiada por taxonomía top-down para crear datos sintéticos de alta fidelidad. Para el entrenamiento, adoptamos una estrategia de dos etapas: Fine-Tuning Supervisado (SFT) para establecer la sintaxis de interacción fundamental, seguido de Optimización de Políticas Relativas Grupales (GRPO) para mejorar la fundamentación espacial y la planificación secuencial. Para equilibrar la eficiencia computacional con la capacidad de razonamiento agéntico, OmegaUse se construye sobre una arquitectura Mixture-of-Experts (MoE). Para evaluar las capacidades cross-terminal en un entorno offline, presentamos OS-Nav, un conjunto de benchmarks que abarca múltiples sistemas operativos: ChiM-Nav, dirigido a entornos móviles Android chinos, y Ubu-Nav, centrado en interacciones rutinarias de escritorio en Ubuntu. Experimentos exhaustivos demuestran que OmegaUse es altamente competitivo en benchmarks GUI establecidos, logrando un puntaje state-of-the-art (SOTA) del 96.3% en ScreenSpot-V2 y una tasa de éxito por paso líder del 79.1% en AndroidControl. OmegaUse también muestra un rendimiento sólido en OS-Nav, alcanzando un 74.24% de éxito por paso en ChiM-Nav y un 55.9% de éxito promedio en Ubu-Nav.

How AI Impacts Skill Formation

Jan 28

ByJudy Hanwen Shen, Alex Tamkin

AI assistance produces significant productivity gains across professional domains, particularly for novice workers. Yet how this assistance affects the development of skills required to effectively supervise AI remains unclear. Novice workers who rely heavily on AI to complete unfamiliar tasks may compromise their own skill acquisition in the process. We conduct randomized experiments to study how developers gained mastery of a new asynchronous programming library with and without the assistance of AI. We find that AI use impairs conceptual understanding, code reading, and debugging abilities, without delivering significant efficiency gains on average. Participants who fully delegated coding tasks showed some productivity improvements, but at the cost of learning the library. We identify six distinct AI interaction patterns, three of which involve cognitive engagement and preserve learning outcomes even when participants receive AI assistance. Our findings suggest that AI-enhanced productivity is not a shortcut to competence and AI assistance should be carefully adopted into workflows to preserve skill formation -- particularly in safety-critical domains.

FP8-RL: A Practical and Stable Low-Precision Stack for LLM Reinforcement Learning

Jan 26

ByZhaopeng Qiu, Shuang Yu, Jingqi Zhang, Shuai Zhang, Xue Huang, Jingyi Yang, Junjie Lai

Reinforcement learning (RL) for large language models (LLMs) is increasingly bottlenecked by rollout (generation), where long output sequence lengths make attention and KV-cache memory dominate end-to-end step time. FP8 offers an attractive lever for accelerating RL by reducing compute cost and memory traffic during rollout, but applying FP8 in RL introduces unique engineering and algorithmic challenges: policy weights change every step (requiring repeated quantization and weight synchronization into the inference engine) and low-precision rollouts can deviate from the higher-precision policy assumed by the trainer, causing train-inference mismatch and potential instability. This report presents a practical FP8 rollout stack for LLM RL, implemented in the veRL ecosystem with support for common training backends (e.g., FSDP/Megatron-LM) and inference engines (e.g., vLLM/SGLang). We (i) enable FP8 W8A8 linear-layer rollout using blockwise FP8 quantization, (ii) extend FP8 to KV-cache to remove long-context memory bottlenecks via per-step QKV scale recalibration, and (iii) mitigate mismatch using importance-sampling-based rollout correction (token-level TIS/MIS variants). Across dense and MoE models, these techniques deliver up to 44% rollout throughput gains while preserving learning behavior comparable to BF16 baselines.

VERGE: Motor de Refinamiento Formal y Guía para el Razonamiento Verificable en LLM
VERGE: Formal Refinement and Guidance Engine for Verifiable LLM Reasoning

Jan 27

ByVikash Singh, Darion Cassel, Nathaniel Weir, Nick Feng, Sam Bayless

A pesar de la fluidez sintáctica de los Modelos de Lenguaje a Gran Escala (LLMs), garantizar su corrección lógica en dominios de alto riesgo sigue siendo un desafío fundamental. Presentamos un marco neurosimbólico que combina LLMs con solucionadores SMT para producir respuestas guiadas por verificación mediante refinamiento iterativo. Nuestro enfoque descompone las salidas de los LLMs en afirmaciones atómicas, las autoformaliza en lógica de primer orden y verifica su coherencia lógica mediante demostración automática de teoremas. Introducimos tres innovaciones clave: (1) consenso multi-modelo mediante verificación de equivalencia semántica formal para garantizar la alineación a nivel lógico entre candidatos, eliminando el sesgo sintáctico de las métricas de forma superficial, (2) enrutamiento semántico que dirige diferentes tipos de afirmaciones a estrategias de verificación apropiadas: solucionadores simbólicos para afirmaciones lógicas y conjuntos de LLMs para razonamiento de sentido común, y (3) localización precisa de errores lógicos mediante Subconjuntos de Corrección Mínima (MCS), que identifican el subconjunto exacto de afirmaciones a revisar, transformando señales de fallo binarias en retroalimentación accionable. Nuestro marco clasifica las afirmaciones por su estado lógico y agrega múltiples señales de verificación en una puntuación unificada con penalización basada en varianza. El sistema refina iterativamente las respuestas utilizando retroalimentación estructurada hasta que se cumplen los criterios de aceptación o se logra la convergencia. Este enfoque híbrido ofrece garantías formales donde es posible y verificación por consenso en otros casos, avanzando hacia una IA confiable. Con el modelo GPT-OSS-120B, VERGE demuestra una mejora de rendimiento promedio del 18.7% en convergencia a través de un conjunto de benchmarks de razonamiento en comparación con enfoques de pasada única.

Entrenamiento de Modelos de Razonamiento en Problemas Saturados mediante Acondicionamiento por Prefijo de Falla
Training Reasoning Models on Saturated Problems via Failure-Prefix Conditioning

Jan 28

ByMinwu Kim, Safal Shrestha, Keith Ross

El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) ha mejorado sustancialmente las capacidades de razonamiento de los modelos de lenguaje grandes (LLM), sin embargo, el entrenamiento a menudo se estanca a medida que los problemas se saturan. Identificamos que el desafío central es la baja accesibilidad de los fallos informativos: las señales de aprendizaje existen, pero rara vez se encuentran durante las ejecuciones estándar. Para abordar esto, proponemos el condicionamiento por prefijos de fallo, un método simple y efectivo para aprender de problemas saturados. En lugar de comenzar desde la pregunta original, nuestro enfoque reasigna la exploración condicionando el entrenamiento en prefijos derivados de trayectorias de razonamiento incorrectas poco frecuentes, exponiendo así al modelo a estados propensos al fallo. Observamos que el condicionamiento por prefijos de fallo produce ganancias de rendimiento equivalentes a las del entrenamiento en problemas de dificultad media, preservando la eficiencia de tokens. Además, analizamos la robustez del modelo, encontrando que nuestro método reduce la degradación del rendimiento bajo prefijos de fallo engañosos, aunque con un ligero equilibrio en la adherencia al razonamiento correcto temprano. Finalmente, demostramos que un enfoque iterativo, que actualiza los prefijos de fallo durante el entrenamiento, desbloquea ganancias adicionales después de que el rendimiento alcanza mesetas. En general, nuestros resultados sugieren que el condicionamiento por prefijos de fallo ofrece una vía efectiva para extender el entrenamiento RLVR en problemas saturados.

UPLiFT: Muestreo Ascendente Eficiente de Características a Nivel de Píxel con Atención Local
UPLiFT: Efficient Pixel-Dense Feature Upsampling with Local Attenders

Jan 25

ByMatthew Walmer, Saksham Suri, Anirud Aggarwal, Abhinav Shrivastava

El espacio de sobremuestreo de características independiente de la tarea ha surgido como un área de investigación prometedora para crear eficientemente características más densas a partir de *backbones* visuales preentrenados. Estos métodos actúan como un atajo para lograr características densas a una fracción del costo, aprendiendo a mapear características de baja resolución a versiones de alta resolución. Si bien los primeros trabajos en este ámbito utilizaron enfoques iterativos de sobremuestreo, trabajos más recientes han cambiado a métodos basados en atención cruzada, los cuales corren el riesgo de caer en los mismos problemas de escalabilidad de eficiencia de los *backbones* que están sobremuestreando. En este trabajo, demostramos que los métodos iterativos de sobremuestreo aún pueden competir con los métodos basados en atención cruzada; además, pueden alcanzar un rendimiento de vanguardia con menores costos de inferencia. Proponemos UPLiFT, una arquitectura para Transformadas Ligeras de Características Densas a Nivel de Píxel Universales. También proponemos un operador eficiente de Atención Local para superar las limitaciones de los métodos iterativos previos de sobremuestreo de características. Este operador utiliza una formulación alternativa de agrupación atencional definida completamente de forma local. Demostramos que nuestro Atención Local permite a UPLiFT mantener características estables durante todo el sobremuestreo, logrando un rendimiento de vanguardia con costos de inferencia más bajos que los sobremuestreadores de características densas a nivel de píxel existentes. Además, aplicamos UPLiFT a tareas generativas posteriores y mostramos que logra un rendimiento competitivo con los modelos de vanguardia de Acoplamiento de Flujo para el sobremuestreo de características VAE. En conjunto, UPLiFT ofrece un enfoque versátil y eficiente para crear características más densas.

SE-DiCoW: Whisper Condicionado por Diarización con Autoinscripción
SE-DiCoW: Self-Enrolled Diarization-Conditioned Whisper

Jan 27

ByAlexander Polok, Dominik Klement, Samuele Cornell, Matthew Wiesner, Jan Černocký, Sanjeev Khudanpur, Lukáš Burget

El reconocimiento automático del habla atribuido al hablante (ASR) en entornos multi-hablante sigue siendo un gran desafío. Si bien algunos enfoques logran un rendimiento sólido cuando se ajustan en dominios específicos, pocos sistemas generalizan bien en conjuntos de datos fuera de dominio. Nuestro trabajo anterior, Diarization-Conditioned Whisper (DiCoW), aprovecha las salidas de la diarización de hablantes como información de condicionamiento y, con un ajuste mínimo, demostró un fuerte rendimiento multilingüe y multi-dominio. En este artículo, abordamos una limitación clave de DiCoW: la ambigüedad en las máscaras Silencio-Objetivo-NoObjetivo-Solapamiento (STNO), donde dos o más hablantes completamente superpuestos pueden tener un condicionamiento casi idéntico a pesar de tener transcripciones diferentes. Presentamos SE-DiCoW (Self-Enrolled Diarization-Conditioned Whisper), que utiliza la salida de diarización para localizar un segmento de inscripción en cualquier parte de la conversación donde el hablante objetivo esté más activo. Este segmento de inscripción se utiliza como condicionamiento fijo mediante atención cruzada en cada capa del codificador. Además, refinamos DiCoW con una mejor segmentación de datos, inicialización del modelo y aumento de datos. En conjunto, estos avances producen ganancias sustanciales: SE-DiCoW reduce el tcpWER promedio macro en un 52.4% en relación con el DiCoW original en el benchmark EMMA MT-ASR.

La activación de roles como lente para el razonamiento social en los LLM
Persona Prompting as a Lens on LLM Social Reasoning

Jan 28

ByJing Yang, Moritz Hechtbauer, Elisabeth Khalilov, Evelyn Luise Brinkmann, Vera Schmitt, Nils Feldhus

Para tareas socialmente sensibles como la detección de discurso de odio, la calidad de las explicaciones de los Grandes Modelos de Lenguaje (LLMs) es crucial para factores como la confianza del usuario y la alineación del modelo. Si bien el prompting de personalidad (PP) se utiliza cada vez más como una forma de dirigir el modelo hacia una generación específica del usuario, su efecto en las racionalidades del modelo sigue siendo poco explorado. Investigamos cómo varían las racionalidades generadas por LLMs cuando se condicionan a diferentes personalidades demográficas simuladas. Utilizando conjuntos de datos anotados con racionalidades a nivel de palabra, medimos la concordancia con anotaciones humanas de diferentes grupos demográficos y evaluamos el impacto del PP en el sesgo del modelo y la alineación humana. Nuestra evaluación en tres LLMs revela tres hallazgos clave: (1) El PP mejora la clasificación en la tarea más subjetiva (discurso de odio) pero degrada la calidad de la racionalidad. (2) Las personalidades simuladas no logran alinearse con sus contrapartes demográficas del mundo real, y la alta concordancia inter-personalidad muestra que los modelos son resistentes a una dirección significativa. (3) Los modelos exhiben sesgos demográficos consistentes y una fuerte tendencia a sobre-marcar contenido como dañino, independientemente del PP. Nuestros hallazgos revelan una disyuntiva crítica: si bien el PP puede mejorar la clasificación en tareas socialmente sensibles, a menudo lo hace a costa de la calidad de la racionalidad y no logra mitigar los sesgos subyacentes, lo que urge precaución en su aplicación.

RIR-Mega-Speech: Un Corpus de Habla Reverberante con Metadatos Acústicos Integrales y Evaluación Reproducible
RIR-Mega-Speech: A Reverberant Speech Corpus with Comprehensive Acoustic Metadata and Reproducible Evaluation

Jan 25

ByMandip Goswami

A pesar de décadas de investigación sobre el habla reverberante, la comparación de métodos sigue siendo difícil porque la mayoría de los corpus carecen de anotaciones acústicas por archivo o proporcionan documentación limitada para su reproducción. Presentamos RIR-Mega-Speech, un corpus de aproximadamente 117,5 horas creado mediante la convolución de enunciados de LibriSpeech con aproximadamente 5.000 respuestas impulsionales de sala simuladas de la colección RIR-Mega. Cada archivo incluye el RT60, la relación directo-reverberante (DRR) y el índice de claridad (C₅₀) calculados a partir de la RIR fuente utilizando procedimientos claramente definidos y reproducibles. También proporcionamos scripts para reconstruir el conjunto de datos y reproducir todos los resultados de evaluación. Utilizando Whisper small en 1.500 enunciados emparejados, medimos un 5,20% de Tasa de Error de Palabra (TEP) (IC del 95%: 4,69–5,78) en habla limpia y un 7,70% (7,04–8,35) en las versiones reverberantes, lo que corresponde a un aumento emparejado de 2,50 puntos porcentuales (2,06–2,98). Esto representa una degradación relativa del 48%. La TEP aumenta monótonamente con el RT60 y disminuye con la DRR, lo que es consistente con estudios perceptuales previos. Si bien el hallazgo central de que la reverberación perjudica el reconocimiento está bien establecido, nuestro objetivo es proporcionar a la comunidad un recurso estandarizado donde las condiciones acústicas sean transparentes y los resultados puedan verificarse de forma independiente. El repositorio incluye instrucciones de reconstrucción con un solo comando para entornos tanto Windows como Linux.

GDCNet: Red Generativa de Comparación de Discrepancias para la Detección Multimodal de Sarcasmo
GDCNet: Generative Discrepancy Comparison Network for Multimodal Sarcasm Detection

Jan 28

ByShuguang Zhang, Junhong Lian, Guoxin Yu, Baoxun Xu, Xiang Ao

La detección multimodal de sarcasmo (MSD, por sus siglas en inglés) tiene como objetivo identificar el sarcasmo en pares de imagen-texto mediante el modelado de incongruencias semánticas entre modalidades. Los métodos existentes a menudo explotan la desalineación de incrustaciones cruzadas para detectar inconsistencias, pero presentan dificultades cuando el contenido visual y textual está débilmente relacionado o es semánticamente indirecto. Si bien los enfoques recientes aprovechan los modelos de lenguaje extensos (LLMs) para generar pistas sarcásticas, la diversidad inherente y la subjetividad de estas generaciones a menudo introducen ruido. Para abordar estas limitaciones, proponemos la Red de Comparación de Discrepancias Generativas (GDCNet). Este marco captura conflictos cruzados mediante el uso de descripciones de imágenes objetivas y basadas en hechos, generadas por LLMs multimodales (MLLMs), como anclajes semánticos estables. Específicamente, GDCNet calcula las discrepancias semánticas y de sentimiento entre la descripción objetiva generada y el texto original, junto con la medición de la fidelidad visual-textual. Estas características de discrepancia se fusionan luego con las representaciones visuales y textuales a través de un módulo de compuerta para equilibrar de manera adaptativa las contribuciones de las modalidades. Experimentos exhaustivos en puntos de referencia de MSD demuestran la precisión y robustez superiores de GDCNet, estableciendo un nuevo estado del arte en el benchmark MMSD2.0.

Shallow-π: Distilación de Conocimiento para VLAs Basadas en Flujo
Shallow-π: Knowledge Distillation for Flow-based VLAs

Jan 28

ByBoseong Jeon, Yunho Choi, Taehan Kim

La creciente demanda de despliegue robótico en tiempo real requiere inferencia rápida y en el dispositivo para los modelos visión-lenguaje-acción (VLA). En la literatura sobre VLA, la eficiencia se ha estudiado extensamente a nivel de tokens, como la poda de tokens visuales. En contraste, la reducción sistemática de capas del transformador ha recibido una atención limitada y, hasta donde sabemos, no se ha explorado para modelos VLA basados en flujos bajo destilación de conocimiento. En este trabajo, proponemos Shallow-pi, un marco de destilación de conocimiento fundamentado que reduce agresivamente la profundidad del transformador tanto en el *backbone* VLM como en la cabeza de acción basada en flujos, comprimiendo el modelo de 18 a 6 capas. Shallow-pi logra una inferencia más de dos veces más rápida con una caída de menos del uno por ciento en la tasa de éxito en *benchmarks* estándar de manipulación, estableciendo un rendimiento de vanguardia entre los modelos VLA reducidos. Crucialmente, validamos nuestro enfoque mediante experimentos en el mundo real a escala industrial en Jetson Orin y Jetson Thor a través de múltiples plataformas robóticas, incluidos sistemas humanoides, en escenarios de manipulación complejos y dinámicos.

SketchDynamics: Exploración de Bocetos Libres para la Expresión de Intenciones Dinámicas en la Generación de Animación
SketchDynamics: Exploring Free-Form Sketches for Dynamic Intent Expression in Animation Generation

Jan 28

ByBoyu Li, Lin-Ping Yuan, Zeyu Wang, Hongbo Fu

El bocetaje ofrece una forma intuitiva de transmitir la intención dinámica en la creación de animaciones (es decir, cómo los elementos cambian en el tiempo y el espacio), lo que lo convierte en un medio natural para la creación automática de contenido. Sin embargo, los enfoques existentes a menudo limitan los bocetos a tokens de comando fijos o formas visuales predefinidas, pasando por alto su naturaleza libre y el papel central de los humanos en la configuración de la intención. Para abordar esto, presentamos un paradigma de interacción en el que los usuarios transmiten la intención dinámica a un modelo de visión y lenguaje mediante bocetos libres, instanciado aquí en un flujo de trabajo de storyboard de bocetos a gráficos en movimiento. Implementamos una interfaz y la mejoramos mediante un estudio de tres etapas con 24 participantes. El estudio muestra cómo los bocetos transmiten movimiento con una entrada mínima, cómo su ambigüedad inherente requiere que los usuarios intervengan para aclarar, y cómo los bocetos pueden guiar visualmente el refinamiento del video. Nuestros hallazgos revelan el potencial de la interacción entre el boceto y la IA para cerrar la brecha entre la intención y el resultado, y demuestran su aplicabilidad en la animación 3D y la generación de video.