Artículos de investigación en IA seleccionados diariamente con traducciones
En este informe presentamos ERNIE 5.0, un modelo fundacional nativamente autoregresivo diseñado para la comprensión y generación multimodal unificada a través de texto, imagen, video y audio. Todas las modalidades se entrenan desde cero bajo un objetivo unificado de predicción del siguiente grupo de tokens, basado en una arquitectura ultra-esparsa de mezcla de expertos (MoE) con un enrutamiento de expertos independiente de la modalidad. Para abordar los desafíos prácticos en el despliegue a gran escala bajo diversas restricciones de recursos, ERNIE 5.0 adopta un nuevo paradigma de entrenamiento elástico. Dentro de una única ejecución de pre-entrenamiento, el modelo aprende una familia de submodelos con diferentes profundidades, capacidades de expertos y dispersión de enrutamiento, lo que permite compensaciones flexibles entre rendimiento, tamaño del modelo y latencia de inferencia en escenarios con limitaciones de memoria o tiempo. Además, abordamos sistemáticamente los desafíos de escalar el aprendizaje por refuerzo para modelos fundacionales unificados, garantizando así un post-entrenamiento eficiente y estable bajo arquitecturas MoE ultra-esparsas y diversos entornos multimodales. Experimentos exhaustivos demuestran que ERNIE 5.0 logra un rendimiento sólido y equilibrado en múltiples modalidades. Hasta donde sabemos, entre los modelos públicamente revelados, ERNIE 5.0 representa la primera realización a escala de producción de un modelo autoregresivo unificado de billón de parámetros que admite tanto la comprensión como la generación multimodal. Para facilitar futuras investigaciones, presentamos visualizaciones detalladas del enrutamiento de expertos independiente de la modalidad en el modelo unificado, junto con un análisis empírico exhaustivo del entrenamiento elástico, con el objetivo de ofrecer perspectivas profundas a la comunidad.
El despliegue de Modelos de Lenguaje a Gran Escala (LLMs) enfrenta un cuello de botella crítico al procesar entradas extensas: la huella de memoria prohibitiva de la caché de Clave-Valor (KV). Para abordar este problema, el paradigma de la poda de *tokens* aprovecha la dispersión de la atención para retener selectivamente un subconjunto pequeño y crítico de *tokens*. Sin embargo, los enfoques existentes son insuficientes: los métodos estáticos arriesgan una pérdida irreversible de información, mientras que las estrategias dinámicas emplean heurísticas que capturan de manera insuficiente la naturaleza dependiente de la consulta de la importancia de los *tokens*. Proponemos FASA, un marco novedoso que logra la expulsión de *tokens* consciente de la consulta mediante la predicción dinámica de su importancia. FASA surge de una nueva perspectiva sobre RoPE: el descubrimiento de una dispersión funcional a nivel de fragmentos de frecuencia (*Frequency-Chunks* o FC). Nuestro hallazgo clave es que un subconjunto pequeño e identificable de FCs "dominantes" exhibe consistentemente una alta concordancia contextual con la cabeza de atención completa. Esto proporciona un *proxy* robusto y computacionalmente gratuito para identificar *tokens* salientes. Basándose en esta idea, FASA primero identifica un conjunto crítico de *tokens* utilizando las FCs dominantes, y luego realiza el cálculo de atención focalizado únicamente en este subconjunto podado. Al acceder solo a una pequeña fracción de la caché KV, FASA reduce drásticamente los requisitos de ancho de banda de memoria y el coste computacional. En un espectro de tareas de contexto largo, desde el modelado de secuencias hasta el razonamiento CoT complejo, FASA supera consistentemente a todos los métodos de referencia de expulsión de *tokens* y logra una precisión casi óptima, demostrando una robustez notable incluso bajo presupuestos restrictivos. Cabe destacar que, en LongBench-V1, FASA alcanza casi el 100% del rendimiento de la KV completa conservando solo 256 *tokens*, y logra una aceleración de 2.56 veces utilizando solo el 18.9% de la caché en AIME24.
Los recientes avances en los Modelos de Lenguaje a Gran Escala (LLMs) se han centrado principalmente en el escalado en profundidad, donde un único agente resuelve problemas de largo horizonte mediante razonamiento multi-turno y uso de herramientas. Sin embargo, a medida que las tareas se vuelven más amplias, el cuello de botella clave cambia de la competencia individual a la capacidad organizativa. En este trabajo, exploramos una dimensión complementaria de escalado en amplitud mediante sistemas multi-agente para abordar la búsqueda de información amplia. Los sistemas multi-agente existentes a menudo dependen de flujos de trabajo manuales e interacciones por turnos que no logran paralelizar el trabajo de manera efectiva. Para cerrar esta brecha, proponemos WideSeek-R1, un marco de agente líder-subagente entrenado mediante aprendizaje por refuerzo multi-agente (MARL) para sinergizar la orquestación escalable y la ejecución paralela. Al utilizar un LLM compartido con contextos aislados y herramientas especializadas, WideSeek-R1 optimiza conjuntamente al agente líder y a los subagentes paralelos en un conjunto de datos curado de 20.000 tareas de búsqueda de información amplia. Experimentos exhaustivos muestran que WideSeek-R1-4B alcanza una puntuación F1 de elementos del 40.0% en el benchmark WideSearch, lo cual es comparable al rendimiento del agente único DeepSeek-R1-671B. Además, WideSeek-R1-4B exhibe ganancias de rendimiento consistentes a medida que aumenta el número de subagentes paralelos, destacando la efectividad del escalado en amplitud.
Los Modelos de Recompensa de Procesos Multimodales (MPRM) son fundamentales para la supervisión a nivel de paso en el razonamiento visual de los MLLM. El entrenamiento de los MPRM normalmente requiere corpus anotados a gran escala con Monte Carlo (MC), lo que conlleva un coste de entrenamiento sustancial. Este artículo estudia la eficiencia de datos para el entrenamiento de MPRM. Nuestros experimentos preliminares revelan que el entrenamiento de MPRM se satura rápidamente con submuestreos aleatorios de los datos de entrenamiento, lo que indica una redundancia sustancial en los corpus anotados con MC existentes. Para explicar esto, formalizamos un marco teórico y revelamos que las actualizaciones de gradiente informativas dependen de dos factores: las mezclas de etiquetas de pasos positivos/negativos y la fiabilidad de las etiquetas (puntuaciones MC promedio de los pasos positivos). Guiados por estas observaciones, proponemos la Puntuación de Información Equilibrada (BIS), que prioriza tanto la mezcla como la fiabilidad basándose en las señales MC existentes a nivel de *rollout*, sin incurrir en ningún coste adicional. En dos arquitecturas base (InternVL2.5-8B y Qwen2.5-VL-7B) evaluadas en VisualProcessBench, los subconjuntos seleccionados por BIS igualan e incluso superan consistentemente el rendimiento obtenido con todos los datos, utilizando solo pequeñas fracciones de estos. Notablemente, el subconjunto BIS alcanza el rendimiento de los datos completos utilizando solo el 10% de los datos de entrenamiento, mejorando el submuestreo aleatorio en un 4.1% relativo.
Los Modelos de Lenguaje Grandes Omnimodales (Omni-LLM) han demostrado sólidas capacidades en tareas de comprensión audiovisual. Sin embargo, su dependencia de secuencias largas de tokens multimodales conlleva una sobrecarga computacional sustancial. A pesar de este desafío, los métodos de compresión de tokens diseñados para Omni-LLM siguen siendo limitados. Para subsanar esta carencia, proponemos OmniSIFT (Compresión de Tokens de Grano Fino con Información Espacio-Temporal Omnimodal), un marco de compresión de tokens de modalidad asimétrica diseñado específicamente para Omni-LLM. En concreto, OmniSIFT adopta una estrategia de compresión en dos etapas: (i) un módulo de poda de video espacio-temporal que elimina la redundancia del video derivada tanto de la estructura intra-cuadro como de la superposición inter-cuadros, y (ii) un módulo de selección de audio guiado por visión que filtra los tokens de audio. Todo el marco se optimiza de extremo a extremo mediante un estimador diferenciable de paso directo. Experimentos exhaustivos en cinco benchmarks representativos demuestran la eficacia y robustez de OmniSIFT. Cabe destacar que, para Qwen2.5-Omni-7B, OmniSIFT introduce solo 4.85 millones de parámetros mientras mantiene una latencia más baja que los métodos base que no requieren entrenamiento, como OmniZip. Con apenas el 25% del contexto original de tokens, OmniSIFT supera consistentemente a todos los métodos base de compresión e incluso supera el rendimiento del modelo que utiliza todos los tokens en varias tareas.
Este trabajo presenta la Atención Híbrida Dispersa (HySparse), una nueva arquitectura que intercala cada capa de atención completa con varias capas de atención dispersa. Aunque conceptualmente simple, HySparse deriva estratégicamente la selección de tokens y las cachés KV de cada capa dispersa directamente de la capa de atención completa precedente. Esta arquitectura resuelve dos limitaciones fundamentales de los métodos de atención dispersa anteriores. En primer lugar, los enfoques convencionales suelen depender de proxies adicionales para predecir la importancia de los tokens, lo que introduce complejidad extra y un rendimiento potencialmente subóptimo. Por el contrario, HySparse utiliza la capa de atención completa como un oráculo preciso para identificar los tokens importantes. En segundo lugar, los diseños de atención dispersa existentes a menudo reducen el cómputo sin ahorrar en la caché KV. HySparse permite que las capas de atención dispersa reutilicen la caché KV de la atención completa, reduciendo así tanto el cómputo como la memoria. Evaluamos HySparse en modelos densos de 7B y modelos MoE de 80B. En todos los escenarios, HySparse supera consistentemente tanto a la atención completa como a las líneas base híbridas SWA. Cabe destacar que, en el modelo MoE de 80B con 49 capas en total, solo 5 capas emplean atención completa, y aun así HySparse logra ganancias sustanciales de rendimiento mientras reduce el almacenamiento de la caché KV en casi 10 veces.
La implementación de robots humanoides en entornos del mundo real es fundamentalmente desafiante, ya que exige una integración estrecha de la percepción, la locomoción y la manipulación bajo observaciones de información parcial y en entornos que cambian dinámicamente, así como la transición robusta entre subtareas de diferente naturaleza. Para abordar estos desafíos, proponemos una nueva tarea: EgoActing, que requiere la fundamentación directa de instrucciones de alto nivel en diversas acciones humanoides, precisas y espacialmente conscientes. Instanciamos esta tarea mediante la introducción de EgoActor, un modelo unificado y escalable de visión y lenguaje (VLM) que puede predecir primitivas de locomoción (por ejemplo, caminar, girar, moverse lateralmente, cambiar la altura), movimientos de la cabeza, comandos de manipulación e interacciones humano-robot para coordinar la percepción y la ejecución en tiempo real. Aprovechamos una supervisión amplia sobre datos egocéntricos de solo RGB procedentes de demostraciones del mundo real, de respuestas a preguntas de razonamiento espacial y de demostraciones en entornos simulados, lo que permite a EgoActor tomar decisiones robustas y conscientes del contexto, y realizar inferencias de acciones fluidas (en menos de 1s) tanto con modelos de 8B como de 4B de parámetros. Evaluaciones exhaustivas en entornos tanto simulados como del mundo real demuestran que EgoActor puentea efectivamente la planificación abstracta de tareas y la ejecución motora concreta, al mismo tiempo que generaliza a través de diversas tareas y entornos no vistos.
A pesar del rápido progreso en la difusión de video autorregresivo, un cuello de botella algorítmico emergente en el sistema limita tanto la capacidad de despliegue como la de generación: la memoria caché KV. En los modelos de generación de video autorregresivos, la caché KV crece con el historial de generación y rápidamente domina la memoria de la GPU, a menudo superando los 30 GB, lo que impide su implementación en hardware ampliamente disponible. Más críticamente, los presupuestos restringidos de la caché KV limitan la memoria de trabajo efectiva, degradando directamente la coherencia a largo plazo en identidad, disposición y movimiento. Para abordar este desafío, presentamos Quant VideoGen (QVG), un marco de cuantización de caché KV sin necesidad de entrenamiento para modelos de difusión de video autorregresivos. QVG aprovecha la redundancia espaciotemporal del video mediante Suavizado Semánticamente Consciente, produciendo residuos de baja magnitud y amigables para la cuantización. Además, introduce Cuantización Progresiva de Residuos, un esquema multifase de grueso a fino que reduce el error de cuantización al tiempo que permite una compensación fluida entre calidad y memoria. En los puntos de referencia LongCat Video, HY WorldPlay y Self Forcing, QVG establece una nueva frontera de Pareto entre calidad y eficiencia de memoria, reduciendo la memoria caché KV hasta 7.0 veces con una sobrecarga de latencia de extremo a extremo inferior al 4%, superando consistentemente a las líneas base existentes en calidad de generación.
Los recientes avances en agentes autónomos de LLM demuestran su capacidad para mejorar el rendimiento mediante la interacción iterativa con el entorno. Definimos este paradigma como Mejora en Tiempo de Prueba (TTI). Sin embargo, los mecanismos subyacentes sobre cómo y por qué la TTI tiene éxito o fracasa siguen siendo poco comprendidos, y las métricas de evaluación existentes no logran capturar su eficiencia en la optimización de tareas, la adaptación del comportamiento tras acciones erróneas y la utilidad específica de la memoria de trabajo para la finalización de tareas. Para abordar estas brechas, proponemos Evaluación Diagnóstica de Mejora en Tiempo de Prueba (TIDE), un marco independiente del agente y del entorno que descompone la TTI en tres dimensiones integrales e interconectadas. El marco mide (1) la dinámica temporal general de la finalización de tareas e (2) identifica si el rendimiento está limitado principalmente por comportamientos de bucle recursivo o (3) por una memoria acumulada excesivamente gravosa. A través de experimentos exhaustivos en diversos agentes y entornos, TIDE destaca que mejorar el rendimiento del agente requiere algo más que escalar el razonamiento interno, exigiendo optimizar explícitamente la dinámica de interacción entre el agente y el entorno.
La simulación de objetos deformables bajo interacciones complejas sigue siendo un desafío fundamental para la manipulación robótica real-to-sim, con dinámicas impulsadas conjuntamente por efectos ambientales y acciones del robot. Los simuladores existentes dependen de física predefinida o dinámicas basadas en datos sin control condicionado por el robot, lo que limita la precisión, estabilidad y generalización. Este artículo presenta SoMA, un simulador basado en *Gaussian Splatting* 3D para la manipulación de cuerpos blandos. SoMA acopla dinámicas deformables, fuerzas ambientales y acciones articuladas del robot en un espacio neuronal latente unificado para simulación real-to-sim de extremo a extremo. Modelar interacciones sobre *splats* gaussianos aprendidos permite una manipulación estable y controlable a largo plazo, con generalización más allá de las trayectorias observadas, sin necesidad de modelos físicos predefinidos. SoMA mejora la precisión de resimulación y la generalización en manipulación robótica del mundo real en un 20%, permitiendo la simulación estable de tareas complejas como el plegado de tejidos a largo plazo.
Los Modelos de Lenguaje Grandes de Difusión (dLLMs, por sus siglas en inglés) han surgido como una alternativa prometedora a los modelos de lenguaje puramente autoregresivos debido a su capacidad para decodificar múltiples tokens en paralelo. Sin embargo, los dLLMs de última generación basados en bloques dependen de un mecanismo de "reenmascaramiento" que decodifica únicamente los tokens más confiables y descarta el resto, desperdiciando efectivamente capacidad de cómputo. Demostramos que reciclar el cómputo de los tokens descartados es beneficioso, ya que estos tokens conservan información contextual útil para iteraciones de decodificación posteriores. En vista de esto, proponemos Difusión de Contexto Residual (RCD, por sus siglas en inglés), un módulo que convierte estas representaciones de tokens descartados en residuos contextuales y los inyecta de nuevo para el siguiente paso de eliminación de ruido. RCD utiliza un pipeline de entrenamiento en dos etapas desacopladas para evitar los cuellos de botella de memoria asociados con la retropropagación. Validamos nuestro método tanto en modelos de razonamiento CoT largo (SDAR) como en modelos de seguimiento de instrucciones CoT corto (LLaDA). Demostramos que un dLLM estándar puede convertirse eficientemente al paradigma RCD con apenas ~1 mil millones de tokens. RCD mejora consistentemente a los dLLMs de vanguardia en 5-10 puntos de precisión con una sobrecarga computacional adicional mínima en una amplia gama de benchmarks. Notablemente, en las tareas AIME más desafiantes, RCD casi duplica la precisión de la línea base y alcanza hasta 4-5 veces menos pasos de eliminación de ruido en niveles de precisión equivalentes.
El aprendizaje por refuerzo (RL) se ha convertido en un pilar fundamental para el ajuste fino de Modelos de Lenguaje Grandes (LLMs), siendo la Optimización de Políticas Proximales (PPO) el algoritmo estándar de facto. A pesar de su ubicuidad, argumentamos que el mecanismo central de recorte de ratio en PPO es estructuralmente inadecuado para los vocabularios extensos inherentes a los LLMs. PPO restringe las actualizaciones de la política en función de la proporción de probabilidad de los tokens muestreados, que sirve como una estimación ruidosa de Monte Carlo de una sola muestra de la verdadera divergencia de la política. Esto crea una dinámica de aprendizaje subóptima: las actualizaciones de tokens de baja probabilidad son penalizadas excesivamente de forma agresiva, mientras que los cambios potencialmente catastróficos en tokens de alta probabilidad están infra-restringidos, lo que conduce a ineficiencia e inestabilidad en el entrenamiento. Para abordar esto, proponemos la Optimización de Políticas Proximales por Divergencia (DPPO), que sustituye el recorte heurístico por una restricción más fundamentada basada en una estimación directa de la divergencia de políticas (por ejemplo, Variación Total o KL). Para evitar una enorme huella de memoria, introducimos las aproximaciones eficientes Binaria y Top-K para capturar la divergencia esencial con un overhead insignificante. Evaluaciones empíricas exhaustivas demuestran que DPPO logra una estabilidad y eficiencia de entrenamiento superiores en comparación con los métodos existentes, ofreciendo una base más robusta para el ajuste fino de LLMs basado en RL.
Los modelos recientes de texto a imagen basados en DiT adoptan cada vez más LLMs como codificadores de texto; sin embargo, el condicionamiento textual sigue siendo en gran medida estático y a menudo utiliza solo una única capa del LLM, a pesar de la pronunciada jerarquía semántica entre las capas del LLM y la dinámica no estacionaria de eliminación de ruido a lo largo del tiempo de difusión y la profundidad de la red. Para igualar mejor el proceso dinámico de la generación con DiT y, por lo tanto, mejorar la capacidad generativa del modelo de difusión, introducimos un marco unificado de fusión convexa normalizada equipado con compuertas ligeras para organizar sistemáticamente los estados ocultos multi-capa del LLM mediante fusión temporal, por profundidad y conjunta. Los experimentos establecen el Enrutamiento Semántico por Profundidad como la estrategia de condicionamiento superior, mejorando consistentemente la alineación texto-imagen y la generación compositiva (por ejemplo, +9.97 en la tarea de Conteo de GenAI-Bench). Por el contrario, encontramos que la fusión puramente temporal puede degradar paradójicamente la fidelidad de la generación visual. Atribuimos esto a un desajuste en la trayectoria entrenamiento-inferencia: bajo la guía libre de clasificador, los pasos de tiempo nominales no logran rastrear la SNR efectiva, causando una inyección de características semánticamente desincronizada durante la inferencia. En general, nuestros resultados posicionan el enrutamiento por profundidad como una línea base sólida y efectiva, y destacan la necesidad crítica de señales conscientes de la trayectoria para permitir un condicionamiento dependiente del tiempo robusto.
Si bien los recientes avances en representaciones neuronales y modelos generativos han revolucionado la creación de contenido 3D, el campo sigue limitado por importantes cuellos de botella en el procesamiento de datos. Para abordar este problema, presentamos HY3D-Bench, un ecosistema de código abierto diseñado para establecer una base unificada y de alta calidad para la generación 3D. Nuestras contribuciones son triples: (1) Recopilamos una biblioteca de 250k objetos 3D de alta fidelidad destilados de repositorios a gran escala, empleando un pipeline riguroso para ofrecer artefactos listos para el entrenamiento, incluyendo mallas estancas y representaciones multi-vista; (2) Introducimos una descomposición estructurada a nivel de piezas, proporcionando la granularidad esencial para una percepción detallada y una edición controlable; y (3) Cerramos las brechas de distribución del mundo real mediante un pipeline escalable de síntesis AIGC (Contenido Generado por IA), contribuyendo con 125k activos sintéticos para mejorar la diversidad en categorías de cola larga. Validado empíricamente mediante el entrenamiento de Hunyuan3D-2.1-Small, HY3D-Bench democratiza el acceso a recursos de datos robustos, con el objetivo de catalizar la innovación en percepción 3D, robótica y creación de contenido digital.
Las ilustraciones científicas de alta calidad son cruciales para comunicar eficazmente conceptos científicos y técnicos complejos, sin embargo, su creación manual sigue siendo un cuello de botella ampliamente reconocido tanto en el ámbito académico como en el industrial. Presentamos FigureBench, el primer benchmark a gran escala para generar ilustraciones científicas a partir de textos científicos extensos. Contiene 3.300 pares texto-figura de alta calidad, que abarcan diversas tareas de conversión de texto a ilustración procedentes de artículos científicos, revisiones, blogs y libros de texto. Además, proponemos AutoFigure, el primer marco de trabajo agéntico que genera automáticamente ilustraciones científicas de alta calidad basándose en textos científicos extensos. Específicamente, antes de renderizar el resultado final, AutoFigure lleva a cabo un extenso proceso de razonamiento, recombinación y validación para producir un diseño que sea estructuralmente sólido y estéticamente refinado, generando una ilustración científica que logra tanto la integridad estructural como el atractivo estético. Aprovechando los datos de alta calidad de FigureBench, realizamos experimentos exhaustivos para evaluar el rendimiento de AutoFigure frente a varios métodos baseline. Los resultados demuestran que AutoFigure supera consistentemente a todos los métodos baseline, produciendo ilustraciones científicas listas para su publicación. El código, el conjunto de datos y el espacio de HuggingFace se han publicado en https://github.com/ResearAI/AutoFigure.
El Group Relative Policy Optimization (GRPO) ha surgido recientemente como una receta práctica para alinear modelos de lenguaje grandes con objetivos verificables. Sin embargo, bajo recompensas terminales dispersas, el GRPO a menudo se estanca porque las simulaciones dentro de un grupo reciben con frecuencia recompensas idénticas, lo que provoca que las ventajas relativas colapsen y las actualizaciones desaparezcan. Proponemos GRPO alineado con auto-pistas y supervisión privilegiada (SAGE), un marco de aprendizaje por refuerzo *on-policy* que inyecta pistas privilegiadas durante el entrenamiento para remodelar la distribución de las simulaciones bajo la misma recompensa terminal del verificador. Para cada instrucción x, el modelo muestrea una pista compacta h (por ejemplo, un plan o descomposición) y luego genera una solución τ condicionada a (x,h). Crucialmente, la recompensa de la tarea R(x,τ) permanece inalterada; las pistas solo aumentan la diversidad de resultados dentro del grupo bajo un muestreo finito, evitando que las ventajas del GRPO colapsen bajo recompensas dispersas. En el momento de la prueba, establecemos h=vacío y desplegamos la política sin pistas, sin ninguna información privilegiada. Además, el muestreo de diversas auto-pistas sirve como un plan de estudios adaptativo que rastrea los cuellos de botella del aprendiz de manera más efectiva que las pistas fijas de una política inicial o de un modelo externo más fuerte. Los experimentos en 6 puntos de referencia con 3 LLM muestran que SAGE supera consistentemente a GRPO, en promedio +2.0 en Llama-3.2-3B-Instruct, +1.2 en Qwen2.5-7B-Instruct y +1.3 en Qwen3-4B-Instruct. El código está disponible en https://github.com/BaohaoLiao/SAGE.
Los modelos lingüísticos (LM) actuales sobresalen en el razonamiento sobre instrucciones utilizando conocimiento preentrenado. Sin embargo, las tareas del mundo real son mucho más complejas y dependientes del contexto: los modelos deben aprender del contexto específico de la tarea y aprovechar conocimientos nuevos más allá de lo aprendido durante el preentrenamiento para razonar y resolver tareas. Denominamos a esta capacidad **aprendizaje contextual**, una habilidad crucial que los humanos poseen de forma natural pero que ha sido ampliamente pasada por alto. Con este fin, presentamos CL-bench, un benchmark del mundo real que consta de 500 contextos complejos, 1.899 tareas y 31.607 rúbricas de verificación, todos elaborados por expertos en dominio con experiencia. Cada tarea está diseñada de modo que el nuevo contenido necesario para resolverla está contenido dentro del contexto correspondiente. Resolver las tareas en CL-bench requiere que los modelos aprendan del contexto, desde nuevos conocimientos específicos del dominio, sistemas de reglas y procedimientos complejos hasta leyes derivadas de datos empíricos, todos ellos ausentes en el preentrenamiento. Esto va mucho más allá de las tareas de contexto largo, que principalmente prueban la recuperación o la comprensión lectora, y de las tareas de aprendizaje en contexto, donde los modelos aprenden patrones de tarea simples mediante instrucciones y demostraciones. Nuestras evaluaciones de diez LM de vanguardia encuentran que los modelos resuelven solo el 17,2% de las tareas en promedio. Incluso el modelo con mejor rendimiento, GPT-5.1, resuelve solo el 23,7%, lo que revela que los LM aún no han logrado un aprendizaje contextual efectivo, lo que supone un cuello de botella crítico para abordar tareas del mundo real complejas y dependientes del contexto. CL-bench representa un paso hacia la construcción de LM con esta capacidad fundamental, haciéndolos más inteligentes y avanzando en su despliegue en escenarios del mundo real.
Durante la última década, la trayectoria de la inteligencia artificial generativa ha estado dominada por un paradigma centrado en el modelo impulsado por leyes de escalamiento. A pesar de los avances significativos en fidelidad visual, este enfoque ha topado con un "techo de usabilidad" manifestado como la Brecha Intenciòn-Ejecución (es decir, la disparidad fundamental entre la intención de alto nivel de un creador y la naturaleza estocástica de caja negra de los modelos actuales de un solo paso). En este artículo, inspirados por la Programación por Vibración, presentamos la Vibración IAGC, un nuevo paradigma para la generación de contenido mediante orquestación agentica, que representa la síntesis autónoma de flujos de trabajo jerárquicos multiagente. Bajo este paradigma, el rol del usuario trasciende la ingeniería de prompts tradicional, evolucionando hacia un Comandante que proporciona una Vibración, una representación de alto nivel que abarca preferencias estéticas, lógica funcional, etc. Un Metaplanificador centralizado funciona entonces como un arquitecto de sistemas, deconstruyendo esta "Vibración" en pipelines agenticos ejecutables, verificables y adaptativos. Al transitar de la inferencia estocástica a la orquestación lógica, la Vibración IAGC salva la brecha entre la imaginación humana y la ejecución de la máquina. Sostenemos que este cambio redefinirá la economía colaborativa humano-IA, transformando a la IA de un motor de inferencia frágil en un partner de ingeniería a nivel de sistema robusto que democratiza la creación de activos digitales complejos y de horizonte prolongado.
¿Por qué fallan las políticas de difusión o de correspondencia de flujos preentrenadas cuando la misma tarea se realiza cerca de un obstáculo, sobre una superficie de apoyo desplazada o en medio de un desorden moderado? Estos fallos rara vez reflejan la falta de habilidades motoras; en cambio, exponen una limitación del aprendizaje por imitación bajo cambios entre entrenamiento y prueba, donde la generación de acciones está estrechamente acoplada a configuraciones espaciales y especificaciones de tarea específicas del entrenamiento. Reentrenar o ajustar finamente para abordar estos fallos es costoso y conceptualmente desalineado, ya que los comportamientos requeridos ya existen pero no pueden adaptarse selectivamente durante la prueba. Proponemos Vision-Language Steering (VLS), un marco libre de entrenamiento para la adaptación en tiempo de inferencia de políticas generativas robóticas congeladas. VLS trata la adaptación como un problema de control en tiempo de inferencia, dirigiendo el proceso de muestreo de una política preentrenada de difusión o correspondencia de flujos en respuesta a entradas de observación-lenguaje fuera de distribución sin modificar los parámetros de la política. Al aprovechar los modelos de visión y lenguaje para sintetizar funciones de recompensa diferenciables con respecto a la trayectoria, VLS guía la eliminación de ruido hacia trayectorias de acción que satisfacen los requisitos espaciales y de tarea en tiempo de prueba. En evaluaciones tanto en simulación como en el mundo real, VLS supera consistentemente a métodos de dirección previos, logrando una mejora del 31% en CALVIN y una ganancia del 13% en LIBERO-PRO. El despliegue en el mundo real en un robot Franka demuestra además una adaptación robusta en tiempo de inferencia bajo cambios espaciales y semánticos durante la prueba. Página del proyecto: https://vision-language-steering.github.io/webpage/
Los modelos de lenguaje de vanguardia han demostrado sólidas capacidades de razonamiento y uso de herramientas a largo plazo. Sin embargo, los sistemas RAG existentes no logran aprovechar estas capacidades. Siguen dependiendo de dos paradigmas: (1) diseñar un algoritmo que recupera pasajes de una sola vez y los concatena en la entrada del modelo, o (2) predefinir un flujo de trabajo y solicitar al modelo que lo ejecute paso a paso. Ninguno de estos paradigmas permite que el modelo participe en las decisiones de recuperación, lo que impide una escalabilidad eficiente con las mejoras del modelo. En este artículo, presentamos A-RAG, un marco RAG Agéntico que expone interfaces de recuperación jerárquicas directamente al modelo. A-RAG proporciona tres herramientas de recuperación: búsqueda por palabras clave, búsqueda semántica y lectura de fragmentos, permitiendo que el agente busque y recupere información de forma adaptativa en múltiples niveles de granularidad. Los experimentos en múltiples benchmarks de QA de dominio abierto muestran que A-RAG supera consistentemente a los enfoques existentes con un número comparable o menor de tokens recuperados, demostrando que A-RAG aprovecha efectivamente las capacidades del modelo y se adapta dinámicamente a diferentes tareas RAG. Además, estudiamos sistemáticamente cómo A-RAG escala con el tamaño del modelo y la capacidad computacional en tiempo de prueba. Liberaremos nuestro código y conjunto de evaluación para facilitar la investigación futura. El código y el conjunto de evaluación están disponibles en https://github.com/Ayanami0730/arag.
Los agentes de búsqueda son modelos de lenguaje (LM) que razonan y consultan bases de conocimiento (o la web) para responder preguntas; métodos recientes supervisan únicamente la precisión de la respuesta final utilizando aprendizaje por refuerzo con recompensas verificables (RLVR). La mayoría de los agentes de búsqueda RLVR abordan preguntas y respuestas (QA) de dominio general, lo que limita su relevancia para sistemas de IA técnica en ciencia, ingeniería y medicina. En este trabajo, proponemos entrenar agentes para buscar y razonar sobre artículos científicos; esto pone a prueba la capacidad de respuesta a preguntas técnicas, es directamente relevante para científicos reales, y estas capacidades serán cruciales para futuros sistemas de IA Científica. Concretamente, publicamos un corpus de búsqueda de 16 millones de resúmenes de artículos biomédicos y construimos un desafiante conjunto de datos de QA factual llamado PaperSearchQA con 60.000 muestras que pueden responderse a partir del corpus, junto con puntos de referencia. Entrenamos agentes de búsqueda en este entorno para superar a los baselines de recuperación no-RL; también realizamos un análisis cuantitativo adicional y observamos comportamientos interesantes de los agentes, como la planificación, el razonamiento y la auto-verificación. Nuestro corpus, conjuntos de datos y puntos de referencia son utilizables con el popular código base Search-R1 para el entrenamiento RLVR y se publican en https://huggingface.co/collections/jmhb/papersearchqa. Finalmente, nuestros métodos de creación de datos son escalables y fácilmente extensibles a otros dominios científicos.
El rápido crecimiento de los modelos de lenguaje grandes (LLM) ha superado la evolución del hardware de GPU única, haciendo que la escala del modelo esté cada vez más limitada por la capacidad de memoria en lugar del cómputo. Si bien los sistemas de entrenamiento modernos amplían la memoria de la GPU mediante paralelismo distribuido y descarga a través de niveles de CPU y almacenamiento, fundamentalmente conservan un paradigma de ejecución centrado en la GPU, en el que las GPU albergan réplicas persistentes del modelo y grafos de autograd completos. Como resultado, escalar modelos grandes sigue estando estrechamente ligado a clústeres multi-GPU, entornos de ejecución distribuidos complejos y un consumo de memoria del host impredecible, creando barreras sustanciales para cargas de trabajo posteriores al entrenamiento a escala de nodo, como el ajuste por instrucciones, la alineación y la adaptación de dominio. Presentamos Horizon-LM, un sistema de entrenamiento centrado en la memoria que redefine los roles de la CPU y la GPU para la optimización de modelos grandes. Horizon-LM trata la memoria del host como el almacén de parámetros autoritativo y utiliza las GPU únicamente como motores de cómputo transitorios mediante un modelo de ejecución CPU-maestro, GPU-trabajador. Al eliminar los módulos residentes persistentes en la GPU y los grafos de autograd, emplear recomputación explícita con propagación manual de gradientes e introducir un motor de ejecución canalizado con doble búfer, Horizon-LM desacopla la escala del modelo del número de GPU y limita el uso de memoria a la huella teórica de parámetros. En una sola GPU H200 con 1,5 TB de RAM del host, Horizon-LM entrena de forma fiable modelos de hasta 120B de parámetros. En una máquina estándar con una sola A100, Horizon-LM logra un rendimiento de entrenamiento hasta 12,2 veces mayor que DeepSpeed ZeRO-3 con descarga a la CPU, preservando la corrección numérica. En todas las plataformas y escalas, Horizon-LM mantiene una alta utilización del dispositivo y un crecimiento de memoria predecible, demostrando que la memoria del host, no la memoria de la GPU, define el verdadero límite de viabilidad para el entrenamiento de modelos grandes a escala de nodo.
La evolución de los agentes de Modelos de Lenguaje a Gran Escala (LLM) para ingeniería de software (SWE) se ve limitada por la escasez de conjuntos de datos verificables, un cuello de botella que surge de la complejidad de construir entornos ejecutables en diversos lenguajes. Para abordar este problema, presentamos MEnvAgent, un marco de trabajo multilingüe para la construcción automatizada de entornos que facilita la generación escalable de instancias de tareas verificables. MEnvAgent emplea una arquitectura multiagente de Planificación-Ejecución-Verificación para resolver autónomamente fallos de construcción e integra un novedoso Mecanismo de Reutilización de Entornos que reduce la sobrecarga computacional mediante la aplicación incremental de parches a entornos históricos. Las evaluaciones en MEnvBench, un nuevo benchmark que comprende 1.000 tareas en 10 lenguajes, demuestran que MEnvAgent supera a los métodos de referencia, mejorando las tasas de Fallo-a-Aprobado (F2P) en un 8,6% mientras reduce los costes de tiempo en un 43%. Adicionalmente, demostramos la utilidad de MEnvAgent construyendo MEnvData-SWE, el mayor conjunto de datos poliglota de código abierto de entornos Docker realistas y verificables hasta la fecha, junto con trayectorias de solución que permiten ganancias consistentes de rendimiento en tareas SWE en una amplia gama de modelos. Nuestro código, benchmark y conjunto de datos están disponibles en https://github.com/ernie-research/MEnvAgent.
Los Modelos de Lenguaje Grandes (LLM) pueden adquirir sesgos no intencionados a partir de datos de entrenamiento aparentemente benignos, incluso sin indicaciones explícitas o contenido malicioso. Los métodos existentes tienen dificultades para detectar dichos riesgos antes del ajuste fino, lo que hace que la evaluación *post hoc* sea costosa e ineficiente. Para abordar este desafío, presentamos Data2Behavior, una nueva tarea para predecir comportamientos no deseados del modelo antes del entrenamiento. También proponemos Manipulación de Características de Datos (MDF, por sus siglas en inglés), un enfoque ligero que resume los datos candidatos a través de sus representaciones medias y los inyecta en el pase hacia adelante de un modelo base, permitiendo que las señales estadísticas latentes en los datos moldeen las activaciones del modelo y revelen posibles sesgos y riesgos de seguridad sin actualizar ningún parámetro. MDF logra una predicción confiable mientras consume solo aproximadamente el 20% de los recursos de GPU requeridos para el ajuste fino. Experimentos en Qwen3-14B, Qwen2.5-32B-Instruct y Gemma-3-12b-it confirman que MDF puede anticipar comportamientos no deseados y proporcionar información sobre vulnerabilidades en el pre-entrenamiento.
La gestión del pensamiento y la observación del agente durante las interacciones multi-turno agente-entorno es una estrategia emergente para mejorar la eficiencia del agente. Sin embargo, los estudios existentes tratan todas las trayectorias de interacción por igual, pasando por alto que la necesidad de pensamiento y la utilidad de la observación varían entre turnos. Para abordarlo, primero realizamos investigaciones cuantitativas sobre cómo el pensamiento y la observación afectan la efectividad y eficiencia del agente. Basándonos en nuestros hallazgos, proponemos Agent-Omit, un marco de entrenamiento unificado que permite a los agentes de LLM omitir adaptativamente pensamientos y observaciones redundantes. Específicamente, primero sintetizamos una pequeña cantidad de datos de arranque en frío, que incluyen escenarios de omisión tanto de un solo turno como multi-turno, para ajustar el agente hacia comportamientos de omisión. Además, introducimos un enfoque de aprendizaje por refuerzo agentico consciente de la omisión, incorporando un mecanismo de muestreo dual y una recompensa de omisión personalizada para incentivar la capacidad de omisión adaptativa del agente. Teóricamente, demostramos que la desviación de nuestra política de omisión está acotada superiormente por la divergencia KL. Los resultados experimentales en cinco benchmarks de agentes muestran que nuestro Agent-Omit-8B puede obtener un rendimiento comparable al de siete agentes LLM de vanguardia y lograr el mejor equilibrio entre efectividad y eficiencia que siete métodos de agentes LLM eficientes. Nuestro código y datos están disponibles en https://github.com/usail-hkust/Agent-Omit.
El uso efectivo de herramientas y el razonamiento son capacidades esenciales para los grandes modelos de razonamiento (LRM) a fin de abordar problemas complejos del mundo real. Mediante análisis empírico, identificamos que los LRM actuales carecen de la capacidad de descomposición de subtareas en escenarios complejos de uso de herramientas, lo que conduce a un Razonamiento Perezoso. Para abordar esto, proponemos un marco de entrenamiento de dos etapas, D-CORE (Descomposición de tareas y Composición de procesos de Razonamiento), que primero incentiva la capacidad de razonamiento por descomposición de tareas de los LRM mediante auto-destilación, seguido de un aprendizaje por refuerzo (RL) consciente de la diversidad para restaurar la capacidad de razonamiento reflexivo de los LRM. D-CORE logra mejoras robustas en el uso de herramientas en diversos benchmarks y escalas de modelos. Los experimentos en BFCLv3 demuestran la superioridad de nuestro método: D-CORE-8B alcanza un 77.7% de precisión, superando al mejor modelo de 8B en un 5.7%. Mientras tanto, D-CORE-14B establece un nuevo estado del arte con un 79.3%, superando a modelos de 70B a pesar de ser 5 veces más pequeño. El código fuente está disponible en https://github.com/alibaba/EfficientAI.
Los recientes avances en modelos multimodales unificados (UMM) han demostrado un progreso notable tanto en tareas de comprensión como de generación. Sin embargo, sigue sin estar claro si estas dos capacidades están genuinamente alineadas e integradas dentro de un único modelo. Para investigar esta cuestión, presentamos GapEval, un benchmark bidireccional diseñado para cuantificar la brecha entre las capacidades de comprensión y generación, y medir cuantitativamente la coherencia cognitiva de las dos direcciones "unificadas". Cada pregunta puede responderse en ambas modalidades (imagen y texto), permitiendo una evaluación simétrica de la capacidad de inferencia bidireccional de un modelo y de su consistencia cross-modal. Los experimentos revelan una brecha persistente entre las dos direcciones en una amplia gama de UMM con diferentes arquitecturas, lo que sugiere que los modelos actuales logran solo una unificación superficial en lugar de una convergencia cognitiva profunda de ambas. Para explorar más a fondo el mecanismo subyacente, realizamos un estudio empírico desde la perspectiva de la manipulación del conocimiento para ilustrar las limitaciones subyacentes. Nuestros hallazgos indican que el conocimiento dentro de los UMM a menudo permanece disociado. La emergencia de capacidades y el conocimiento a través de las modalidades no están sincronizados, allanando el camino para una mayor exploración.
El razonamiento espacial es un aspecto fundamental de la cognición humana, pero sigue siendo un desafío importante para los modelos visión-lenguaje (VLM) contemporáneos. Trabajos previos se basaron en gran medida en entornos sintéticos o generados por LLM con diseños de tareas limitados y configuraciones similares a rompecabezas, sin lograr capturar la complejidad del mundo real, el ruido visual y las diversas relaciones espaciales que encuentran los VLMs. Para abordar esto, presentamos SpatiaLab, un benchmark integral para evaluar el razonamiento espacial de los VLMs en contextos realistas y sin restricciones. SpatiaLab comprende 1.400 pares de preguntas y respuestas visuales en seis categorías principales: Posicionamiento Relativo, Profundidad y Oclusión, Orientación, Tamaño y Escala, Navegación Espacial y Geometría 3D, cada una con cinco subcategorías, lo que da como resultado 30 tipos de tareas distintos. Cada subcategoría contiene al menos 25 preguntas, y cada categoría principal incluye al menos 200 preguntas, admitiendo evaluación tanto de opción múltiple como de respuesta abierta. Los experimentos con diversos VLMs de vanguardia, incluyendo modelos de código abierto y cerrado, modelos centrados en el razonamiento y modelos especializados en razonamiento espacial, revelan una brecha sustancial en las capacidades de razonamiento espacial en comparación con los humanos. En la configuración de opción múltiple, InternVL3.5-72B alcanza un 54.93% de precisión frente al 87.57% de los humanos. En el entorno de respuesta abierta, todos los modelos muestran una caída en el rendimiento de alrededor del 10-25%, con GPT-5-mini obteniendo la puntuación más alta con un 40.93% frente al 64.93% de los humanos. Estos resultados destacan limitaciones clave en el manejo de relaciones espaciales complejas, percepción de profundidad, navegación y geometría 3D. Al proporcionar un marco de evaluación diverso y del mundo real, SpatiaLab expone desafíos y oportunidades críticos para avanzar en el razonamiento espacial de los VLMs, ofreciendo un benchmark para guiar la investigación futura hacia una comprensión espacial robusta y alineada con las capacidades humanas. SpatiaLab está disponible en: https://spatialab-reasoning.github.io/.
El entrenamiento de LLMs para tareas relacionadas con código generalmente depende de pares de código-documentación de alta calidad, los cuales son costosos de curar y a menudo escasos para lenguajes de programación especializados. Presentamos BatCoder, un marco de aprendizaje por refuerzo auto-supervisado diseñado para optimizar conjuntamente la generación de código y la producción de documentación. BatCoder emplea una estrategia de retro-traducción: primero se genera documentación a partir del código, y luego la documentación generada se utiliza para reconstruir el código original. La similitud semántica entre el código original y el reconstruido sirve como recompensa implícita, permitiendo que el aprendizaje por refuerzo mejore el rendimiento del modelo tanto en generar código a partir de documentación como viceversa. Este enfoque permite entrenar modelos utilizando solo código, aumentando sustancialmente los ejemplos de entrenamiento disponibles. Evaluado en HumanEval y MBPP con un modelo de 7B, BatCoder alcanzó un 83.5% y un 81.0% en pass@1, superando a sólidos baselines de código abierto. Además, el marco demuestra un escalado consistente con respecto tanto al tamaño del corpus de entrenamiento como a la capacidad del modelo.
El ajuste fino de modelos de lenguaje grandes (LLM) en puntos de referencia de razonamiento mediante aprendizaje por refuerzo requiere una función de recompensa específica, a menudo binaria, para cada benchmark. Esto conlleva dos limitaciones potenciales: la necesidad de diseñar la recompensa y la naturaleza potencialmente dispersa de las recompensas binarias. Aquí, investigamos sistemáticamente las recompensas derivadas de la probabilidad o log-probabilidad de emitir la respuesta de referencia (o cualquier otra continuación del prompt presente en los datos), que tienen la ventaja de no depender de verificadores específicos y estar disponibles a gran escala. Varios trabajos recientes han abogado por el uso de recompensas similares (por ejemplo, VeriFree, JEPO, RLPR, NOVER). Comparamos sistemáticamente variantes de recompensas basadas en verosimilitud con líneas de base estándar, evaluando el rendimiento tanto en puntos de referencia estándar de razonamiento matemático como en respuestas de formato largo donde no hay un verificador externo disponible. Encontramos que usar la log-probabilidad de la respuesta de referencia como recompensa para el aprendizaje de cadena de pensamiento (CoT) es la única opción que funciona bien en todas las configuraciones. Esta recompensa también es consistente con la pérdida de log-verosimilitud del siguiente token utilizada durante el preentrenamiento. En entornos verificables, las recompensas de log-probabilidad ofrecen tasas de éxito comparables o mejores que el refuerzo con recompensas binarias estándar, y producen una perplejidad mucho mejor. En entornos no verificables, su rendimiento es similar al de SFT. Por otro lado, los métodos basados en probabilidad, como VeriFree, se estancan en entornos no verificables debido a las probabilidades que se desvanecen de obtener la respuesta correcta. En general, esto establece las recompensas de log-probabilidad como un método viable para el ajuste fino de CoT, tendiendo un puente entre los entornos de respuestas cortas y verificables y los de respuestas largas y no verificables.
La evaluación actual de VLM corporizados se basa en puntos de referencia estáticos, definidos por expertos y anotados manualmente que presentan una grave redundancia y un desequilibrio en la cobertura. Este paradigma intensivo en mano de obra agota los recursos computacionales y de anotación, infla los costos y distorsiona la clasificación de los modelos, sofocando en última instancia el desarrollo iterativo. Para abordar esto, proponemos Evaluación Automática Agéntica (A2Eval), el primer marco agéntico que automatiza la curación y evaluación de benchmarks mediante dos agentes colaborativos. El Agente de Datos induce de forma autónoma dimensiones de capacidad y ensambla un conjunto de evaluación equilibrado y compacto, mientras que el Agente de Eval sintetiza y valida pipelines de evaluación ejecutables, permitiendo una evaluación completamente autónoma y de alta fidelidad. Evaluado en 10 benchmarks y 13 modelos, A2Eval comprime los conjuntos de evaluación en un 85%, reduce los costos computacionales totales en un 77% y ofrece una aceleración de 4.6x manteniendo la calidad de la evaluación. Crucialmente, A2Eval corrige los sesgos sistemáticos de clasificación, mejora la alineación humana a un rho de Spearman=0.85 y mantiene una alta fidelidad en la clasificación (tau de Kendall=0.81), estableciendo un nuevo estándar para la evaluación corporizada de alta fidelidad y bajo costo. Nuestro código y datos serán públicos próximamente.
La Reconocimiento de Entidades Nombradas Multimodal con Anclaje Visual (GMNER) tiene como objetivo extraer entidades basadas en texto, asignarles categorías semánticas y anclarlas a regiones visuales correspondientes. En este trabajo, exploramos el potencial de los Modelos de Lenguaje Grandes Multimodales (MLLMs) para realizar GMNER de manera integral, yendo más allá de su papel típico como herramientas auxiliares dentro de pipelines en cascada. De manera crucial, nuestra investigación revela un desafío fundamental: los MLLMs exhiben un sesgo de modalidad, que incluye sesgo visual y sesgo textual, el cual surge de su tendencia a tomar atajos unimodales en lugar de realizar una verificación cruzada rigurosa. Para abordar esto, proponemos el Razonamiento de Consciencia de Modalidad (MCR), que impone un razonamiento cruzado estructurado mediante la Inyección de Esquemas de Razonamiento Multi-estilo (MRSI) y la Optimización Verificable Guiada por Restricciones (CVO). MRSI transforma restricciones abstractas en cadenas de razonamiento ejecutables, mientras que CVO capacita al modelo para alinear dinámicamente sus trayectorias de razonamiento con la Optimización de Política Relativa Grupal (GRPO). Experimentos en tareas de GMNER y anclaje visual demuestran que MCR mitiga efectivamente el sesgo de modalidad y logra un rendimiento superior en comparación con los baselines existentes.
El modelo de difusión de video autorregresivo ha despertado reciente interés investigativo debido a su modelado causal y desruido iterativo. En este trabajo, identificamos que la autoatención multi-cabezal en estos modelos subutiliza los fotogramas históricos: aproximadamente el 25% de las cabezas atienden casi exclusivamente al fotograma actual, y descartar sus cachés de claves-valores incurre solo en una degradación menor del rendimiento. Basándonos en esto, proponemos Dummy Forcing, un método sencillo pero efectivo para controlar la accesibilidad del contexto entre diferentes cabezas. Específicamente, la asignación heterogénea de memoria propuesta reduce la redundancia contextual por cabeza, acompañada de una programación dinámica de cabezas para clasificar adaptativamente los tipos de cabeza. Además, desarrollamos una técnica de empaquetado de contexto para lograr una compresión de caché más agresiva. Sin entrenamiento adicional, nuestro Dummy Forcing logra una aceleración de hasta 2.0x sobre la línea base, permitiendo generar video a 24.3 FPS con una caída de calidad inferior al 0.5%. La página del proyecto está disponible en https://csguoh.github.io/project/DummyForcing/.
Investigamos la traducción automática para cinco pares de lenguas túrquicas: ruso-bashkir, ruso-kazajo, ruso-kirguís, inglés-tártaro, inglés-chuvasio. El ajuste fino de nllb-200-distilled-600M con LoRA en datos sintéticos logró un chrF++ de 49.71 para el kazajo y 46.94 para el bashkir. La técnica de prompting con DeepSeek-V3.2 utilizando ejemplos similares recuperados alcanzó un chrF++ de 39.47 para el chuvasio. Para el tártaro, los enfoques zero-shot o basados en recuperación lograron un chrF++ de 41.6, mientras que para el kirguís el enfoque zero-shot alcanzó 45.6. Publicamos el conjunto de datos y los pesos obtenidos.
La Discusión Multi-Agente (MAD, por sus siglas en inglés) ha captado una atención creciente recientemente, donde múltiples instancias de LLM resuelven problemas de manera colaborativa mediante discusiones estructuradas. Sin embargo, descubrimos que los métodos MAD actuales sufren fácilmente de inconsistencia en la discusión, donde los LLM no logran alcanzar una solución coherente debido a la desalineación entre sus contextos individuales. En este artículo, presentamos un método de aprendizaje de contexto multi-LLM (M2CL) que entrena un generador de contexto para cada agente, capaz de generar instrucciones de contexto dinámicamente en cada ronda de discusión mediante la organización y refinamiento automático de la información. Específicamente, inspirados por nuestras perspectivas teóricas sobre la instrucción de contexto, M2CL entrena a los generadores para controlar la coherencia del contexto y las discrepancias en las salidas mediante un mecanismo de auto-adaptación cuidadosamente diseñado. Esto permite a los LLM evitar la convergencia prematura en el ruido mayoritario y alcanzar progresivamente el consenso correcto. Evaluamos M2CL en tareas desafiantes, incluyendo razonamiento académico, tareas corporizadas y control móvil. Los resultados muestran que el rendimiento de M2CL supera significativamente a los métodos existentes en un 20%–50%, mientras que disfruta de una favorable transferibilidad y eficiencia computacional.
La rápida proliferación de modelos generativos 3D ha creado un cuello de botella crítico en los pipelines de animación: el rigging. Los métodos automatizados existentes están fundamentalmente limitados por su enfoque del skinning, tratándolo como una tarea de regresión mal planteada y de alta dimensionalidad que es ineficiente de optimizar y que normalmente está desacoplada de la generación del esqueleto. Postulamos que esto es un problema de representación e introducimos SkinTokens: una representación aprendida, compacta y discreta para los pesos de skinning. Al aprovechar un FSQ-CVAE para capturar la dispersión intrínseca del skinning, replanteamos la tarea de una regresión continua a un problema más manejable de predicción de secuencias de tokens. Esta representación permite TokenRig, un marco autoregresivo unificado que modela el rig completo como una única secuencia de parámetros esqueléticos y SkinTokens, aprendiendo las complejas dependencias entre esqueletos y deformaciones de la piel. El modelo unificado es entonces susceptible a una etapa de aprendizaje por refuerzo, donde recompensas geométricas y semánticas personalizadas mejoran la generalización a activos complejos fuera de distribución. Cuantitativamente, la representación SkinTokens conduce a una mejora del 98%-133% en la precisión del skinning respecto a los métodos más avanzados, mientras que el marco completo TokenRig, refinado con RL, mejora la predicción de huesos en un 17%-22%. Nuestro trabajo presenta un enfoque generativo y unificado para el rigging que produce una mayor fidelidad y robustez, ofreciendo una solución escalable a un desafío de larga data en la creación de contenido 3D.
Este trabajo presenta el método de Monte Carlo secuencial con autorrecompensa (SMC), un algoritmo de escalado en tiempo de inferencia que permite un muestreo efectivo de modelos de lenguaje de difusión enmascarada (MDLM). Nuestro algoritmo surge de la observación de que la mayoría de los MDLM existentes se basan en una estrategia de muestreo basada en la confianza, donde solo se preservan los tokens con la mayor confianza predictiva en cada paso. Esto restringe la generación a un paradigma de decodificación codicioso y sensible al ruido, lo que resulta en un colapso inevitable de la diversidad de trayectorias posibles. Abordamos este problema lanzando múltiples procesos de difusión que interactúan en paralelo, denominados partículas, para la exploración de trayectorias. Es importante destacar que introducimos la confianza a nivel de trayectoria como una señal de autorrecompensa para asignar pesos de importancia a las partículas. Durante el muestreo, las partículas son ponderadas y remuestreadas iterativamente para dirigir sistemáticamente la generación hacia muestras globalmente confiables y de alta calidad. Nuestro SMC con autorrecompensa se verifica en varios modelos de lenguaje de difusión enmascarada y benchmarks, logrando una mejora significativa sin necesidad de entrenamiento adicional o guía de recompensas, mientras convierte efectivamente la capacidad de inferencia paralela en una mejora de la calidad del muestreo. Nuestro código está disponible en https://github.com/Algolzw/self-rewarding-smc.
Presentamos el modelado autoregresivo de proteínas (PAR), el primer marco autoregresivo multiescala para la generación de estructuras proteicas mediante predicción de siguiente escala de grueso a fino. Aprovechando la naturaleza jerárquica de las proteínas, PAR genera estructuras que imitan esculpir una estatua, formando primero una topología gruesa y refinando después los detalles estructurales a través de escalas. Para lograrlo, PAR consta de tres componentes clave: (i) operaciones de submuestreo multiescala que representan las estructuras proteicas en múltiples escalas durante el entrenamiento; (ii) un transformador autoregresivo que codifica información multiescala y produce *embeddings* condicionales para guiar la generación de estructuras; (iii) un decodificador de estructura basado en *flows* que genera los átomos de la estructura principal condicionados por estos *embeddings*. Además, los modelos autoregresivos sufren de *exposure bias*, causado por la discrepancia entre el procedimiento de entrenamiento y el de generación, lo que degrada sustancialmente la calidad de la generación estructural. Mitigamos eficazmente este problema adoptando el aprendizaje con contexto ruidoso y el *scheduled sampling*, permitiendo una generación robusta de la estructura principal. Notablemente, PAR exhibe una fuerte generalización *zero-shot*, soportando la generación condicional flexible guiada por el usuario y el *scaffolding* de motivos sin necesidad de ajuste fino. En el benchmark de generación incondicional, PAR aprende eficazmente las distribuciones de proteínas y produce estructuras de alta calidad de diseño, mostrando un comportamiento de escalado favorable. En conjunto, estas propiedades establecen a PAR como un marco prometedor para la generación de estructuras proteicas.
El análisis radiológico se beneficia cada vez más de representaciones visuales preentrenadas que pueden respaldar tareas posteriores heterogéneas en diversas modalidades de imagen. En este trabajo presentamos OmniRad, un modelo base radiológico de autoaprendizaje preentrenado con 1,2 millones de imágenes médicas, diseñado bajo principios inspirados en radiología que enfatizan la reutilización de representaciones y la transferibilidad entre tareas. Evaluamos el codificador preentrenado bajo múltiples regímenes de adaptación posteriores, incluyendo adaptadores ligeros específicos por tarea con una red principal congelada, así como ajuste fino completo de extremo a extremo para clasificación, lo que nos permite evaluar tanto la calidad de la representación como el rendimiento específico por tarea. OmniRad se evalúa en un amplio conjunto de benchmarks públicos que abarcan clasificación y segmentación en múltiples modalidades. En la colección MedMNISTv2, OmniRad mejora el F1 de clasificación hasta en un 2,05% respecto a modelos base competidores. Para predicción densa, OmniRad logra mejoras en la puntuación Dice promedio en seis conjuntos de datos de MedSegBench al utilizar representaciones congeladas. Los análisis cualitativos y las visualizaciones del espacio latente sugieren una mejor agrupación de características y una separación relacionada con la modalidad.
La Optimización de Políticas Proximales (PPO) ha sido posicionada por la literatura reciente como el método canónico para la parte de RL del RLHF. PPO funciona bien empíricamente, pero tiene una motivación heurística, maneja la restricción de divergencia KL utilizada en LM-RLHF de manera ad-hoc y sufre de oscilaciones de recompensa, colapso de entropía, deriva de la función de valor y divergencia súbita de la política que requieren reinicios frecuentes y un extenso ajuste de hiperparámetros. En este artículo, desarrollamos un nuevo método de RL puro actor-crítico en política para el entorno LM-RLHF. Presentamos SAFE (Sintonización Estable de Alineación con Control Consciente de la Entropía), un novedoso algoritmo de RLHF que combina un Crítico de Doble Mínimo Suave para la estimación pesimista de valores con un nuevo marco de estabilización multicapa que combina una regulación KL controlada por entropía y umbrales adaptativos controlados por PID. A diferencia de las penalizaciones KL simétricas del PPO estándar, SAFE distingue entre la exploración de alta entropía y el colapso modal de baja entropía, y ajusta las penalizaciones dinámicamente en función de la velocidad de recompensa. Los experimentos en un modelo de 3B de parámetros muestran que SAFE logra una recompensa promedio de entrenamiento un +5.15% superior a la de PPO (0.725 vs 0.689), colapsos de recompensa insignificantes y un control KL superior al de PPO. Nuestro método añade una sobrecarga computacional mínima y proporciona un marco de RLHF interpretable y resistente a colapsos que mantiene una velocidad de aprendizaje agresiva mientras garantiza una optimización estable a largo plazo adecuada para despliegue en producción. El código está disponible en https://github.com/ryyzn9/SAFE.
Los modelos lingüísticos modernos se entrenan casi exclusivamente en secuencias de tokens producidas por un tokenizador fijo, un compresor externo sin pérdidas que a menudo opera sobre secuencias de bytes UTF-8, acoplando así el modelo a ese compresor. Este trabajo introduce la *compresión proxy*, un esquema de entrenamiento alternativo que preserva los beneficios de eficiencia de las entradas comprimidas, al tiempo que proporciona una interfaz de bytes crudos de extremo a extremo durante la inferencia. Durante el entrenamiento, un modelo lingüístico se entrena conjuntamente en secuencias de bytes crudos y en vistas comprimidas generadas por compresores externos; a través de este proceso, el modelo aprende a alinear internamente las secuencias comprimidas con los bytes crudos. Esta alineación permite una fuerte transferencia entre los dos formatos, incluso cuando el entrenamiento se realiza predominantemente con entradas comprimidas que se descartan en la inferencia. Experimentos exhaustivos en modelado lingüístico de código demuestran que la compresión proxy mejora sustancialmente la eficiencia del entrenamiento y supera significativamente a los modelos de referencia de nivel de byte puro, dados unos presupuestos computacionales fijos. A medida que aumenta la escala del modelo, estas ganancias se vuelven más pronunciadas, y los modelos entrenados con proxy eventualmente igualan o rivalizan con los enfoques basados en tokenizadores, todo ello operando únicamente con bytes crudos y conservando la robustez inherente del modelado a nivel de byte.
La generación 4D ha logrado un progreso notable en la síntesis de objetos 3D dinámicos a partir de texto, imágenes o vídeos de entrada. Sin embargo, los métodos existentes suelen representar el movimiento como un campo de deformación implícito, lo que limita el control directo y la capacidad de edición. Para abordar este problema, proponemos SkeletonGaussian, un novedoso marco de trabajo para generar Gaussianas 3D dinámicas y editables a partir de vídeos monoculares. Nuestro enfoque introduce una representación articulada jerárquica que descompone el movimiento en un movimiento rígido disperso, impulsado explícitamente por un esqueleto, y un movimiento no rígido de grano fino. Concretamente, extraemos un esqueleto robusto y accionamos el movimiento rígido mediante *linear blend skinning*, seguido de un refinamiento basado en hexplanos para las deformaciones no rígidas, mejorando la interpretabilidad y la editabilidad. Los resultados experimentales demuestran que SkeletonGaussian supera a los métodos existentes en calidad de generación, a la vez que permite una edición intuitiva del movimiento, estableciendo un nuevo paradigma para la generación 4D editable. Página del proyecto: https://wusar.github.io/projects/skeletongaussian/
Si bien los sistemas multiagente basados en modelos de lenguaje grande (LLM) logran un rendimiento de razonamiento superior mediante el debate iterativo, su implementación práctica se ve limitada por su alto coste computacional y la propagación de errores. Este artículo propone AgentArk, un marco novedoso para destilar la dinámica multiagente en los pesos de un modelo único, transformando efectivamente las interacciones explícitas en tiempo de prueba en capacidades implícitas del modelo. Esto dota a un solo agente con la inteligencia de los sistemas multiagente manteniendo la eficiencia computacional. Específicamente, investigamos tres estrategias de destilación jerárquica en diversos modelos, tareas, escalas y escenarios: ajuste fino potenciado por razonamiento; aumento basado en trayectorias; y destilación consciente del proceso. Al trasladar la carga computacional de la inferencia al entrenamiento, los modelos destilados preservan la eficiencia de un agente mientras exhiben un fuerte rendimiento de razonamiento y autocorrección de múltiples agentes. Además, demuestran una mayor robustez y generalización en diversas tareas de razonamiento. Esperamos que este trabajo pueda iluminar futuras investigaciones sobre el desarrollo multiagente eficiente y robusto. Nuestro código está disponible en https://github.com/AIFrontierLab/AgentArk.
Las fallas de razonamiento en los modelos de lenguaje grandes (LLMs) generalmente se miden solo al final de una generación, sin embargo, muchas fallas se manifiestan como una ruptura a nivel del proceso: el modelo "pierde el hilo" a mitad del razonamiento. Estudiamos si tales rupturas son detectables a partir de observables disponibles en tiempo de inferencia en las API estándar (probabilidades logarítmicas de los tokens), sin necesidad de entrenamiento o ajuste fino. Definimos una señal de inestabilidad simple que combina el cambio distribucional en pasos consecutivos (JSD) y la incertidumbre (entropía), resumimos cada traza por su fuerza de inestabilidad máxima, y demostramos que esta señal predice las fallas de manera confiable. En GSM8K y HotpotQA, la fuerza de inestabilidad predice respuestas incorrectas con un AUC superior al azar y produce una disminución monótona y a gran escala de la precisión por niveles de agrupación ('bucket-level') en todos los tamaños de modelos. Crucialmente, demostramos que la inestabilidad no es uniformemente perjudicial: la inestabilidad temprana puede reflejar una posterior estabilización y una respuesta final correcta (inestabilidad correctiva), mientras que la inestabilidad tardía es más frecuentemente seguida por una falla (inestabilidad destructiva), incluso con magnitudes máximas comparables, lo que indica que la recuperabilidad depende no solo de cuán fuertemente cambia la distribución, sino también de cuándo ocurren tales cambios en relación con el horizonte de decodificación restante. El método es independiente del modelo, libre de entrenamiento y reproducible, y se presenta como una lente de diagnóstico en lugar de un mecanismo correctivo o de control.
Los métodos de alineación directa se utilizan cada vez más para alinear los grandes modelos de lenguaje (LLM) con las preferencias humanas. Sin embargo, muchos problemas de alineación del mundo real implican múltiples objetivos en conflicto, donde la agregación ingenua de preferencias puede conducir a un entrenamiento inestable y a compensaciones deficientes. En particular, los métodos de pérdida ponderada pueden fallar en identificar direcciones de actualización que mejoren simultáneamente todos los objetivos, y los enfoques multiobjetivo existentes a menudo dependen de modelos de recompensa explícitos, introduciendo complejidad adicional y distorsionando las preferencias especificadas por el usuario. Las contribuciones de este artículo son dos. Primero, proponemos un marco de Alineación Libre de Recompensas para Objetivos en Conflicto (RACO, por sus siglas en inglés) que aprovecha directamente los datos de preferencias por pares y resuelve los conflictos de gradiente mediante una novedosa variante recortada del descenso de gradientes que evita conflictos. Proporcionamos garantías de convergencia hacia puntos Pareto-críticos que respetan los pesos objetivos especificados por el usuario, y además demostramos que el recorte puede mejorar estrictamente la tasa de convergencia en el escenario de dos objetivos. En segundo lugar, mejoramos nuestro método utilizando algunas heurísticas y realizamos experimentos para demostrar la compatibilidad del marco propuesto para la alineación de LLM. Tanto las evaluaciones cualitativas como cuantitativas en tareas de alineación multiobjetivo de resumen y seguridad, realizadas en múltiples familias de LLM (Qwen 3, Llama 3, Gemma 3), muestran que nuestro método logra consistentemente mejores compensaciones de Pareto en comparación con los métodos base existentes de alineación multiobjetivo.
Presentamos LongVPO, un novedoso marco de Optimización Directa de Preferencias en dos etapas que permite a los modelos de visión y lenguaje de contexto corto comprender de forma robusta vídeos ultra largos sin necesidad de anotaciones de vídeos largos. En la Etapa 1, sintetizamos tripletes de preferencias anclando preguntas a clips cortos individuales, intercalándolos con distractores y aplicando filtros de similitud visual y especificidad de la pregunta para mitigar el sesgo posicional y garantizar una supervisión inequívoca. También aproximamos la puntuación del modelo de referencia sobre contextos largos evaluando únicamente el clip ancla, reduciendo la sobrecarga computacional. En la Etapa 2, empleamos un pipeline de subtitulado recursivo en vídeos largos para generar metadatos a nivel de escena, luego utilizamos un modelo de lenguaje grande para elaborar consultas de razonamiento multi-segmento y respuestas no preferidas, alineando las preferencias del modelo mediante tareas de razonamiento multi-segmento. Con solo 16K ejemplos sintéticos y sin costosas etiquetas humanas, LongVPO supera a los modelos de código abierto más avanzados en múltiples benchmarks de vídeo largo, manteniendo al mismo tiempo un rendimiento sólido en vídeos cortos (por ejemplo, en MVBench), ofreciendo un paradigma escalable para una comprensión eficiente de vídeos de larga duración.
Presentamos FOTBCD, un conjunto de datos a gran escala para la detección de cambios en edificaciones, derivado de ortofotos autorizadas francesas y datos topográficos de edificios proporcionados por el IGN de Francia. A diferencia de los benchmarks existentes, que están geográficamente limitados a ciudades individuales o regiones reducidas, FOTBCD abarca 28 departamentos de la Francia metropolitana, utilizando 25 para entrenamiento y reservando tres departamentos geográficamente disjuntos para evaluación. El conjunto de datos cubre diversos entornos urbanos, suburbanos y rurales con una resolución de 0.2m/píxel. Publicamos FOTBCD-Binary, un dataset que comprende aproximadamente 28,000 pares de imágenes de antes/después con máscaras binarias a nivel de píxel de cambios en edificios, cada una asociada con metadatos espaciales a nivel de parche. El conjunto de datos está diseñado para evaluación comparativa y evaluación a gran escala bajo desplazamiento de dominio geográfico, con muestras de validación y prueba extraídas de los departamentos reservados y verificadas manualmente para garantizar la calidad de las etiquetas. Además, publicamos FOTBCD-Instances, un subconjunto anotado a nivel de instancia que comprende varios miles de pares de imágenes, el cual ilustra el esquema de anotación completo utilizado en la versión completa a nivel de instancia de FOTBCD. Utilizando una línea de base de referencia fija, evaluamos FOTBCD-Binary comparándolo con LEVIR-CD+ y WHU-CD, proporcionando evidencia empírica sólida de que la diversidad geográfica a nivel del conjunto de datos está asociada con una mejora en la generalización cruzada de dominio en la detección de cambios en edificaciones.
Los transformadores de solo codificador siguen siendo indispensables en sistemas de recuperación, clasificación y ranking donde la latencia, la estabilidad y el coste son primordiales. Sin embargo, la mayoría de los codificadores de propósito general se entrenan con corpus genéricos que tienen una cobertura limitada de dominios especializados. Presentamos RexBERT, una familia de codificadores estilo BERT diseñados específicamente para la semántica del comercio electrónico. Realizamos tres contribuciones. Primero, publicamos Ecom-niverse, un corpus de 350 mil millones de tokens curado a partir de diversas fuentes minoristas y de compras. Describimos una canalización modular que aísla y extrae contenido de comercio electrónico de FineFineWeb y otros recursos web abiertos, y caracterizamos la distribución de dominios resultante. Segundo, presentamos una receta de preentrenamiento reproducible basada en los avances arquitectónicos de ModernBERT. La receta consta de tres fases: preentrenamiento general, extensión de contexto y especialización de dominio recocida. Tercero, entrenamos modelos RexBERT que van desde 17M hasta 400M de parámetros y los evaluamos en tareas de clasificación de tokens, similitud semántica y comprensión general del lenguaje natural utilizando conjuntos de datos de comercio electrónico. A pesar de tener 2-3 veces menos parámetros, RexBERT supera a codificadores de propósito general más grandes y iguala o supera a modelos modernos de contexto largo en puntos de referencia específicos del dominio. Nuestros resultados demuestran que los datos de dominio de alta calidad combinados con un enfoque de entrenamiento fundamentado proporcionan una base más sólida para las aplicaciones de comercio electrónico que el simple escalado indiscriminado.
Los modelos de lenguaje grande (LLM) aún producen afirmaciones fácticas que suenan plausibles pero carecen de base, un problema que se agrava en el diálogo multiturno a medida que el contexto crece y los errores iniciales se propagan. Presentamos HalluHard, un punto de referencia exigente para evaluar alucinaciones en conversaciones multiturno, que consta de 950 preguntas semilla que abarcan cuatro dominios de alto impacto: casos legales, preguntas de investigación, pautas médicas y programación. Operacionalizamos la fundamentación exigiendo citas en línea para las afirmaciones fácticas. Para apoyar una evaluación fiable en entornos de respuesta abierta, proponemos un sistema de evaluación que recupera evidencia de forma iterativa mediante búsqueda web. Este sistema puede recuperar, filtrar y analizar fuentes de texto completo (incluidos PDFs) para determinar si el material citado respalda realmente el contenido generado. En un conjunto diverso de modelos propietarios de vanguardia y modelos de pesos abiertos, las alucinaciones siguen siendo sustanciales incluso con búsqueda web (aproximadamente 30% para la configuración más sólida, Opus-4.5 con búsqueda web), y los errores de vinculación entre contenido y base factual persisten en tasas elevadas. Finalmente, demostramos que el comportamiento de las alucinaciones está influenciado por la capacidad del modelo, la posición en el turno de conversación, el razonamiento efectivo y el tipo de conocimiento requerido.