Artículos de investigación en IA seleccionados diariamente con traducciones
El aprovechamiento de los conocimientos previos de los modelos de difusión 2D para la edición 3D ha surgido como un paradigma prometedor. Sin embargo, mantener la consistencia multi-vista en los resultados editados sigue siendo un desafío, y la extrema escasez de datos pareados de edición 3D-consistente hace inviable el ajuste fino supervisado (SFT), la estrategia de entrenamiento más efectiva para tareas de edición. En este artículo, observamos que, aunque generar contenido 3D multi-vista consistente es altamente desafiante, verificar la consistencia 3D es manejable, posicionando naturalmente al aprendizaje por refuerzo (RL) como una solución factible. Motivados por esto, proponemos RL3DEdit, un marco de una sola pasada impulsado por optimización RL con recompensas novedosas derivadas del modelo fundacional 3D, VGGT. Específicamente, aprovechamos los conocimientos previos robustos de VGGT aprendidos de datos masivos del mundo real, alimentamos las imágenes editadas y utilizamos los mapas de confianza de salida y los errores de estimación de pose como señales de recompensa, anclando efectivamente los conocimientos previos de edición 2D en una variedad 3D-consistente mediante RL. Experimentos exhaustivos demuestran que RL3DEdit logra una consistencia multi-vista estable y supera a los métodos state-of-the-art en calidad de edición con alta eficiencia. Para promover el desarrollo de la edición 3D, liberaremos el código y el modelo.
Si bien el razonamiento en los LLM desempeña un papel natural en matemáticas, generación de código y preguntas fácticas de múltiples saltos, su efecto en preguntas fácticas simples y de un solo salto sigue sin estar claro. Este tipo de preguntas no requieren una descomposición lógica paso a paso, lo que hace que la utilidad del razonamiento sea altamente contraintuitiva. No obstante, descubrimos que habilitar el razonamiento expande sustancialmente el límite de capacidad del recuerdo de conocimiento paramétrico del modelo, desbloqueando respuestas correctas que de otro modo serían efectivamente inalcanzables. ¿Por qué ayuda el razonamiento al recuerdo de conocimiento paramétrico cuando no hay pasos de razonamiento complejos que realizar? Para responder esto, diseñamos una serie de experimentos controlados basados en hipótesis e identificamos dos mecanismos impulsores clave: (1) un efecto de búfer computacional, donde el modelo utiliza los tokens de razonamiento generados para realizar cálculos latentes independientes de su contenido semántico; y (2) la preparación factual (priming), donde la generación de hechos temáticamente relacionados actúa como un puente semántico que facilita la recuperación de la respuesta correcta. Es importante destacar que este último mecanismo de auto-recuperación generativa conlleva riesgos inherentes: demostramos que alucinar hechos intermedios durante el razonamiento aumenta la probabilidad de alucinaciones en la respuesta final. Finalmente, mostramos que nuestras ideas pueden aprovecharse para mejorar directamente la precisión del modelo priorizando trayectorias de razonamiento que contengan afirmaciones factuales libres de alucinaciones.
Si bien los modelos de lenguaje multimodal (MLLM) recientes han logrado avances impresionantes, emplean predominantemente una arquitectura autoregresiva convencional como columna vertebral, dejando un margen significativo para explorar alternativas eficaces y eficientes en el diseño arquitectónico. Paralelamente, estudios recientes han aplicado con éxito modelos de difusión discreta a varios dominios, como la comprensión visual y la generación de imágenes, revelando su considerable potencial como columna vertebral prometedora para sistemas multimodales. Inspirándonos en estas investigaciones pioneras, presentamos Omni-Diffusion, el primer modelo de lenguaje multimodal de cualquier-modalidad-a-cualquier-modalidad construido completamente sobre modelos de difusión discreta basados en enmascaramiento, que unifica la comprensión y la generación a través de texto, voz e imágenes. Omni-Diffusion emplea un modelo unificado de difusión discreta basado en enmascaramiento para capturar directamente la distribución conjunta sobre tokens multimodales discretos. Este enfoque admite no solo tareas bimodales, sino también escenarios más complejos que involucran múltiples modalidades. En un conjunto diverso de puntos de referencia, nuestro método supera o iguala el rendimiento de los sistemas multimodales existentes que procesan dos o más modalidades, destacando la promesa significativa de los modelos de difusión para impulsar la próxima generación de modelos fundacionales multimodales. Página web del proyecto: https://omni-diffusion.github.io.
La auto-evolución ha surgido como un paradigma clave para mejorar modelos fundamentales como los Modelos de Lenguaje Grandes (LLM) y los Modelos de Lenguaje Visual (VLM) con mínima intervención humana. Si bien enfoques recientes han demostrado que los agentes LLM pueden auto-evolucionar desde cero con pocos o ningún dato, los VLM introducen una modalidad visual adicional que normalmente requiere al menos algunos datos iniciales, como imágenes, para impulsar el proceso de auto-evolución. En este trabajo, presentamos Multi-model Multimodal Zero (MM-Zero), el primer marco basado en Aprendizaje por Refuerzo (RL) que logra una auto-evolución sin datos para el razonamiento VLM. Trascendiendo configuraciones previas de doble rol (Proponente y Solucionador), MM-Zero introduce un marco de entrenamiento auto-evolutivo multi-rol que comprende tres roles especializados: un Proponente que genera conceptos visuales abstractos y formula preguntas; un Codificador que traduce estos conceptos a código ejecutable (por ejemplo, Python, SVG) para renderizar imágenes visuales; y un Solucionador que realiza razonamiento multimodal sobre el contenido visual generado. Los tres roles se inicializan a partir del mismo modelo base y se entrenan utilizando Optimización de Política Relativa Grupal (GRPO), con mecanismos de recompensa cuidadosamente diseñados que integran retroalimentación de ejecución, verificación visual y equilibrio de dificultad. Nuestros experimentos muestran que MM-Zero mejora el rendimiento del razonamiento VLM en una amplia gama de benchmarks multimodales. MM-Zero establece un camino escalable hacia sistemas multi-modelo auto-evolutivos para modelos multimodales, extendiendo la frontera de la auto-mejora más allá del paradigma convencional de dos modelos.
Los modelos multimodales unificados (UMMs) que integran comprensión, razonamiento, generación y edición enfrentan disyuntivas inherentes entre mantener una sólida comprensión semántica y adquirir capacidades de generación potentes. En este informe, presentamos InternVL-U, un UMM ligero de 4B parámetros que democratiza estas capacidades dentro de un marco unificado. Guiado por los principios de modelado contextual unificado y diseño modular específico por modalidad con representaciones visuales desacopladas, InternVL-U integra un Modelo de Lenguaje Grande Multimodal (MLLM) de última generación con una cabeza de generación visual especializada basada en MMDiT. Para cerrar aún más la brecha entre la generación estética y la inteligencia de alto nivel, construimos un pipeline integral de síntesis de datos dirigido a tareas de alta densidad semántica, como la representación de texto y el razonamiento científico, bajo un paradigma centrado en el razonamiento que aprovecha la Cadena de Pensamiento (CoT) para alinear mejor la intención abstracta del usuario con los detalles de generación visual a nivel granular. Experimentos exhaustivos demuestran que InternVL-U logra un equilibrio rendimiento-eficiencia superior. A pesar de utilizar solo 4B parámetros, supera consistentemente a los modelos base unificados con escalas más de 3 veces mayores, como BAGEL (14B), en diversas tareas de generación y edición, manteniendo al mismo tiempo sólidas capacidades de comprensión y razonamiento multimodal.
Los modelos de lenguaje grandes multimodales (MLLMs) pueden procesar texto presentado como imágenes, pero a menudo su rendimiento es inferior al obtenido cuando el mismo contenido se proporciona como tokens textuales. Diagnosticamos sistemáticamente esta "brecha de modalidad" evaluando siete MLLMs en siete puntos de referencia y cinco modos de entrada, que abarcan desde texto renderizado sintéticamente hasta imágenes realistas de documentos, desde archivos PDF de arXiv hasta páginas de Wikipedia. Encontramos que la brecha de modalidad depende de la tarea y de los datos. Por ejemplo, las tareas matemáticas se degradan en más de 60 puntos en renderizados sintéticos, mientras que las imágenes de documentos naturales a menudo igualan o superan el rendimiento en modo texto. Las opciones de renderizado, como la fuente y la resolución, son factores de confusión importantes; solo el cambio de fuente puede alterar la precisión hasta en 47 puntos porcentuales. Para comprender esto, realizamos un análisis de errores basado en teoría fundamentada de más de 4,000 ejemplos, revelando que el modo imagen amplifica selectivamente los errores de lectura (fallos de cálculo y formato) mientras deja los errores de conocimiento y razonamiento prácticamente inalterados, y que algunos modelos exhiben un colapso del razonamiento en cadena bajo entrada visual. Motivados por estos hallazgos, proponemos un método de auto-destilación que entrena al modelo con sus propias trazas de razonamiento en texto puro emparejadas con entradas de imagen, elevando la precisión en modo imagen en GSM8K del 30.71% al 92.72% y transfiriendo el aprendizaje a puntos de referencia no vistos sin olvido catastrófico. En general, nuestro estudio proporciona una comprensión sistemática de la brecha de modalidad y sugiere un camino práctico para mejorar la comprensión del texto visual en los modelos de lenguaje multimodales.
El deporte ha atraído desde hace tiempo una amplia atención por impulsar los límites de las capacidades físicas y cognitivas humanas. En medio del creciente interés por la inteligencia espacial en los modelos de visión y lenguaje (VLM), los deportes ofrecen un campo de pruebas natural para comprender el movimiento humano de alta intensidad y las interacciones dinámicas entre objetos. Con este fin, presentamos CourtSI, el primer conjunto de datos de inteligencia espacial a gran escala adaptado a escenarios deportivos. CourtSI contiene más de 1 millón de pares de preguntas y respuestas, organizados bajo una taxonomía holística que cubre sistemáticamente el conteo espacial, la medición de distancias, la localización y el razonamiento relacional en deportes de red representativos como el bádminton, el tenis y el tenis de mesa. Aprovechando la geometría bien definida de las canchas como anclas métricas, desarrollamos un motor de datos semiautomático para reconstruir escenas deportivas, permitiendo la curación escalable de CourtSI. Además, presentamos CourtSI-Bench, un benchmark de evaluación de alta calidad que comprende 3.686 pares de preguntas y respuestas con verificación humana rigurosa. Evaluamos 25 VLMs propietarios y de código abierto en CourtSI-Bench, revelando una brecha persistente en el rendimiento humano-IA y una generalización limitada desde los benchmarks de inteligencia espacial existentes. Estos hallazgos indican que los escenarios deportivos exponen limitaciones en las capacidades de inteligencia espacial capturadas por los benchmarks actuales. Además, el ajuste fino de Qwen3-VL-8B en CourtSI mejora la precisión en CourtSI-Bench en 23.5 puntos porcentuales. El modelo adaptado también generaliza efectivamente a CourtSI-Ext, un conjunto de evaluación basado en un deporte similar pero no visto, y demuestra una generación de comentarios con mayor conciencia espacial. En conjunto, estos hallazgos demuestran que CourtSI proporciona una vía escalable para avanzar en la inteligencia espacial de los VLMs en el ámbito deportivo.
Presentamos Fish Audio S2, un sistema de texto a voz de código abierto que incluye generación multi-hablante y multi-turno y, lo más importante, control mediante instrucciones a través de descripciones en lenguaje natural. Para escalar el entrenamiento, desarrollamos una receta de entrenamiento multi-etapa junto con un pipeline de datos escalonado que abarca subtitulado de vídeo y subtitulado de voz, evaluación de calidad vocal y modelado de recompensas. Para impulsar la frontera del TTS de código abierto, publicamos nuestros pesos de modelo, código de ajuste fino y un motor de inferencia basado en SGLang. El motor de inferencia está listo para producción en streaming, logrando un RTF de 0.195 y un tiempo para el primer audio inferior a 100 ms. Nuestro código y pesos están disponibles en GitHub (https://github.com/fishaudio/fish-speech) y Hugging Face (https://huggingface.co/fishaudio/s2-pro). Recomendamos encarecidamente a los lectores que visiten https://fish.audio para probar voces personalizadas.
La capacidad de distinguir diferencias sutiles entre imágenes visualmente similares es esencial para diversos dominios, como la detección de anomalías industriales, la imagen médica y la vigilancia aérea. Si bien recientemente han surgido puntos de referencia de razonamiento comparativo para modelos de visión y lenguaje (VLM), estos se centran principalmente en imágenes con diferencias grandes y destacadas, y no logran capturar el razonamiento matizado requerido para aplicaciones del mundo real. En este trabajo, presentamos VLM-SubtleBench, un punto de referencia diseñado para evaluar los VLM en el razonamiento comparativo sutil. Nuestro benchmark cubre diez tipos de diferencias - Atributo, Estado, Emoción, Temporal, Espacial, Existencia, Cantidad, Calidad, Punto de Vista y Acción - y cura conjuntos de preguntas-imágenes pareadas que reflejan estas variaciones de grano fino. A diferencia de puntos de referencia anteriores restringidos a conjuntos de datos de imágenes naturales, nuestro benchmark abarca diversos dominios, incluyendo imágenes industriales, aéreas y médicas. Mediante una evaluación exhaustiva de VLM tanto propietarios como de código abierto, revelamos brechas sistemáticas entre el rendimiento de los modelos y el humano en diferentes tipos de diferencias y dominios, y proporcionamos análisis controlados que destacan dónde el razonamiento de los VLM se deteriora abruptamente. En conjunto, nuestro punto de referencia y hallazgos establecen una base para avanzar los VLM hacia un razonamiento comparativo de nivel humano.
Los modelos lingüísticos grandes multimodales pueden exhibir dominancia textual, confiando excesivamente en conocimientos previos lingüísticos en lugar de fundamentar las predicciones en entradas no textuales. Un ejemplo son los grandes modelos audio-lingüísticos (LALMs), donde la evidencia auditiva decisiva puede ser subutilizada incluso cuando contiene información importante. Para abordar este problema, utilizamos la interpretabilidad mecanicista para identificar un pequeño conjunto de cabezas de atención audio-especialistas cuya atención auditiva produce una señal de "escucha". Demostramos que esta señal aumenta cuando la evidencia auditiva afecta la salida del modelo, proporcionando un indicador de compromiso auditivo bajo indicaciones estándar. Aprovechando esta localización, construimos una dirección de orientación audio-silencio y aplicamos una intervención de activación en tiempo de inferencia a la representación final, amplificando el efecto auditivo del modelo. Para demostrar la utilidad de esta intervención, mostramos en MMAU que esto mejora la precisión hasta en +8.0 puntos porcentuales en dos LALMs basados en Qwen, sin ninguna actualización de parámetros.
Con el rápido avance de los Modelos de Lenguaje a Gran Escala (LLM) en la generación de código, la interacción humano-IA está evolucionando desde respuestas de texto estáticas hacia aplicaciones dinámicas e interactivas basadas en HTML, que denominamos MiniApps. Estas aplicaciones requieren que los modelos no solo rendericen interfaces visuales, sino que también construyan lógicas de interacción personalizadas que se adhieran a principios del mundo real. Sin embargo, los puntos de referencia existentes se centran principalmente en la corrección algorítmica o la reconstrucción de diseños estáticos, sin capturar las capacidades requeridas para este nuevo paradigma. Para abordar esta brecha, presentamos MiniAppBench, el primer punto de referencia integral diseñado para evaluar la generación de aplicaciones interactivas basadas en principios. Extraído de una aplicación del mundo real con más de 10 millones de generaciones, MiniAppBench destila 500 tareas en seis dominios (por ejemplo, Juegos, Ciencia y Herramientas). Además, para abordar el desafío de evaluar interacciones abiertas donde no existe una única verdad de referencia, proponemos MiniAppEval, un marco de evaluación agéntico. Aprovechando la automatización de navegadores, realiza pruebas exploratorias similares a las humanas para evaluar sistemáticamente las aplicaciones en tres dimensiones: Intención, Estática y Dinámica. Nuestros experimentos revelan que los LLM actuales aún enfrentan desafíos significativos para generar MiniApps de alta calidad, mientras que MiniAppEval demuestra una alta alineación con el criterio humano, estableciendo un estándar confiable para la investigación futura. Nuestro código está disponible en github.com/MiniAppBench.
Los Modelos de Lenguaje Grandes de Voz (SLLMs) se han expandido rápidamente, admitiendo una amplia gama de tareas. Estos modelos suelen evaluarse mediante indicaciones de texto, lo que puede no reflejar escenarios del mundo real donde los usuarios interactúan mediante voz. Para abordar esta brecha, presentamos DoWhatISay (DOWIS), un conjunto de datos multilingüe de indicaciones habladas y escritas grabadas por humanos, diseñado para emparejarse con cualquier benchmark existente y permitir una evaluación realista de los SLLMs bajo condiciones de instrucción hablada. Abarcando 9 tareas y 11 idiomas, proporciona 10 variantes de indicación por par tarea-idioma, a través de cinco estilos. Utilizando DOWIS, evaluamos SLLMs de última generación, analizando la interacción entre la modalidad de la indicación, el estilo, el idioma y el tipo de tarea. Los resultados muestran que las indicaciones de texto superan consistentemente a las indicaciones habladas, particularmente para entornos de bajos recursos y cross-lingües. Solo para tareas con salida de voz, las indicaciones habladas logran reducir la brecha, destacando la necesidad de utilizar indicaciones basadas en voz en la evaluación de los SLLMs.
Presentamos la Definición de Agentes de IA Guiada por Pruebas (TDAD), una metodología que trata los prompts de los agentes como artefactos compilados: los ingenieros proporcionan especificaciones de comportamiento, un agente de codificación las convierte en pruebas ejecutables y un segundo agente de codificación refina iterativamente el prompt hasta que las pruebas se superan. Desplegar agentes de LLM que utilizan herramientas en producción requiere un cumplimiento conductual medible que las prácticas de desarrollo actuales no pueden proporcionar. Pequeños cambios en el prompt provocan regresiones silenciosas, el mal uso de herramientas pasa desapercibido y las violaciones de políticas solo surgen después del despliegue. Para mitigar la manipulación de especificaciones, TDAD introduce tres mecanismos: (1) divisiones de pruebas visibles/ocultas que retienen las pruebas de evaluación durante la compilación, (2) pruebas de mutación semántica mediante un agente post-compilación que genera variantes de prompt defectuosas plausibles, midiendo el entorno si el conjunto de pruebas las detecta, y (3) escenarios de evolución de especificaciones que cuantifican la seguridad ante regresiones cuando los requisitos cambian. Evaluamos TDAD en SpecSuite-Core, un benchmark de cuatro agentes profundamente especificados que abarcan cumplimiento de políticas, análisis fundamentado, adherencia a procedimientos y aplicación determinista. En 24 pruebas independientes, TDAD logra un 92% de éxito en compilación v1 con una tasa media de aprobación oculta del 97%; las especificaciones evolucionadas se compilan en un 58%, con la mayoría de las ejecuciones fallidas aprobando todas las pruebas visibles excepto 1-2, y muestran puntuaciones de mutación del 86-100%, una tasa de aprobación oculta v2 del 78% y puntuaciones de seguridad ante regresiones del 97%. La implementación está disponible como benchmark abierto en https://github.com/f-labs-io/tdad-paper-code.
Los grandes modelos de difusión preentrenados han mejorado significativamente la calidad de los videos generados, pero su uso en transmisiones en tiempo real sigue siendo limitado. Los modelos autorregresivos ofrecen un marco natural para la síntesis secuencial de fotogramas, pero requieren una gran capacidad computacional para lograr alta fidelidad. La destilación por difusión puede comprimir estos modelos en variantes eficientes de pocos pasos, pero los enfoques de destilación de video existentes adaptan principalmente métodos específicos para imágenes que descuidan las dependencias temporales. Estas técnicas suelen sobresalir en generación de imágenes pero tienen un rendimiento inferior en síntesis de video, mostrando coherencia de movimiento reducida, acumulación de errores en secuencias largas y un equilibrio entre latencia y calidad. Identificamos dos factores que causan estas limitaciones: la utilización insuficiente del contexto temporal durante la reducción de pasos y la predicción implícita de los niveles de ruido subsecuentes en la predicción de fragmentos siguientes (es decir, sesgo de exposición). Para abordar estos problemas, proponemos Diagonal Distillation, que opera de forma ortogonal a los enfoques existentes y explota mejor la información temporal tanto en fragmentos de video como en pasos de eliminación de ruido. Elemento central de nuestro enfoque es una estrategia de generación asimétrica: más pasos al principio, menos pasos después. Este diseño permite que los fragmentos posteriores hereden información de apariencia rica de los fragmentos iniciales procesados exhaustivamente, mientras utilizan fragmentos parcialmente desruidosados como entradas condicionales para la síntesis subsecuente. Al alinear la predicción implícita de los niveles de ruido subsecuentes durante la generación de fragmentos con las condiciones reales de inferencia, nuestro enfoque mitiga la propagación de errores y reduce la sobresaturación en secuencias de largo alcance. Incorporamos además un modelado implícito de flujo óptico para preservar la calidad del movimiento bajo estrictas restricciones de pasos. Nuestro método genera un video de 5 segundos en 2.61 segundos (hasta 31 FPS), logrando una aceleración de 277.3x sobre el modelo no destilado.
El Aprendizaje por Refuerzo a partir de Recompensas Verificables (RLVR) mejora significativamente el razonamiento de los grandes modelos de lenguaje (LLM), pero sufre gravemente de una degeneración en la calibración, donde los modelos se vuelven excesivamente seguros en respuestas incorrectas. Estudios previos se han dedicado a incorporar directamente el objetivo de calibración en la función de optimización existente. Sin embargo, nuestro análisis teórico demuestra que existe un conflicto fundamental en el gradiente entre la optimización para maximizar la precisión de la política y minimizar el error de calibración. Basándonos en esta idea, proponemos DCPO, un marco simple pero efectivo que desacopla sistemáticamente los objetivos de razonamiento y calibración. Experimentos exhaustivos demuestran que nuestro DCPO no solo preserva una precisión comparable a la de GRPO, sino que también logra el mejor rendimiento de calibración y mitiga sustancialmente el problema de sobreconfianza. Nuestro estudio proporciona perspectivas valiosas y una solución práctica para un despliegue más confiable de los LLM.
La conciencia situacional, la capacidad de un sistema de IA para reconocer su propia naturaleza, comprender su contexto de entrenamiento y despliegue, y razonar estratégicamente sobre sus circunstancias, es ampliamente considerada una de las capacidades emergentes más peligrosas en los sistemas de IA avanzados. Por separado, un creciente esfuerzo de investigación busca mejorar las capacidades de razonamiento lógico de los modelos de lenguaje grande (LLM) en deducción, inducción y abducción. En este artículo, argumentamos que estas dos trayectorias de investigación están en rumbo de colisión. Introducimos el marco RAISE (Razonamiento que Avanza hacia el Autoexamen), que identifica tres vías mecanicistas a través de las cuales las mejoras en el razonamiento lógico permiten niveles progresivamente más profundos de conciencia situacional: la autoinferencia deductiva, el reconocimiento contextual inductivo y el automodelado abductivo. Formalizamos cada vía, construimos una escalera de escalada que va desde el autorreconocimiento básico hasta el engaño estratégico, y demostramos que cada tema de investigación principal en el razonamiento lógico de los LLM se correlaciona directamente con un amplificador específico de la conciencia situacional. Además, analizamos por qué las medidas de seguridad actuales son insuficientes para prevenir esta escalada. Concluimos proponendo salvaguardas concretas, incluyendo un punto de referencia tipo "Prueba del Espejo" y un Principio de Paridad de Seguridad en el Razonamiento, y planteamos una pregunta incómoda pero necesaria a la comunidad de razonamiento lógico sobre su responsabilidad en esta trayectoria.
Los agentes deben inferir los resultados de las acciones y seleccionar aquellas que maximicen una señal de recompensa que indica cuán cerca se está de alcanzar el objetivo. El aprendizaje supervisado de modelos de recompensa podría introducir sesgos inherentes a los datos de entrenamiento, limitando la generalización a objetivos y entornos novedosos. En este artículo, investigamos si las representaciones bien definidas del estado del mundo, por sí solas, pueden permitir una predicción precisa de recompensas en distintos dominios. Para abordar esto, presentamos StateFactory, un método de representación factorizada que transforma observaciones no estructuradas en una estructura jerárquica de objetos-atributos utilizando modelos de lenguaje. Esta representación estructurada permite estimar las recompensas de forma natural como la similitud semántica entre el estado actual y el estado objetivo bajo una restricción jerárquica. En general, la estructura de representación compacta inducida por StateFactory permite capacidades sólidas de generalización de recompensas. Evaluamos en RewardPrediction, un nuevo conjunto de datos de referencia que abarca cinco dominios diversos y comprende 2.454 trayectorias únicas de acción-observación con recompensas reales paso a paso. Nuestro método muestra resultados prometedores de cero disparos frente a los modelos de recompensa VLWM-critic y LLM-as-a-Judge, logrando una distancia EPIC un 60% y un 8% menor, respectivamente. Además, esta calidad superior de la recompensa se traduce exitosamente en un mejor rendimiento de planificación del agente, produciendo ganancias en la tasa de éxito de +21.64% en AlfWorld y +12.40% en ScienceWorld sobre las políticas reactivas del sistema 1 y mejorando la planificación del agente del sistema 2. Página del proyecto: https://statefactory.github.io
El rápido avance de los modelos de texto a video (T2V) ha revolucionado la creación de contenidos, aunque su potencial comercial sigue estando en gran medida sin explotar. Introducimos, por primera vez, la tarea de integración perfecta de marcas en T2V: incrustar automáticamente marcas de anunciantes en videos generados por prompts, preservando al mismo tiempo la fidelidad semántica a la intención del usuario. Esta tarea enfrenta tres desafíos principales: mantener la fidelidad al prompt, garantizar la reconocibilidad de la marca y lograr una integración contextualmente natural. Para abordarlos, proponemos BrandFusion, un novedoso marco de trabajo multiagente que comprende dos fases sinérgicas. En la fase offline (orientada al anunciante), construimos una Base de Conocimiento de Marcas sondeando los *priors* del modelo y adaptándonos a marcas novedosas mediante ajuste fino ligero (*lightweight fine-tuning*). En la fase online (orientada al usuario), cinco agentes refinan conjuntamente los prompts del usuario mediante un refinamiento iterativo, aprovechando la base de conocimiento compartida y el seguimiento contextual en tiempo real para garantizar la visibilidad de la marca y la alineación semántica. Los experimentos con 18 marcas establecidas y 2 marcas personalizadas en múltiples modelos T2V de vanguardia demuestran que BrandFusion supera significativamente a los métodos base en preservación semántica, reconocibilidad de la marca y naturalidad de la integración. Las evaluaciones humanas confirman además una mayor satisfacción del usuario, estableciendo una vía práctica para la monetización sostenible de los modelos T2V.
La decodificación especulativa ha surgido como un enfoque poderoso para acelerar la inferencia de modelos de lenguaje grandes (LLM) mediante el uso de modelos de borrador ligeros que proponen tokens candidatos que posteriormente son verificados por el modelo objetivo. La efectividad de este paradigma depende críticamente de la calidad del modelo de borrador. Si bien avances recientes como la serie EAGLE logran una aceleración de vanguardia, los modelos de borrador existentes siguen limitados por la acumulación de errores: se condicionan únicamente en el prefijo actual, lo que hace que sus predicciones se desvíen del modelo objetivo a lo largo de los pasos. En este trabajo, proponemos ConFu (Contemplate the Future), un novedoso marco de decodificación especulativa que permite a los modelos de borrador anticipar la dirección futura de la generación. ConFu introduce (i) *tokens de contemplación* y *prompts blandos* que permiten al modelo de borrador aprovechar señales orientadas al futuro del modelo objetivo a un costo negligible, (ii) un mecanismo dinámico de tokens de contemplación con MoE (*Mixture of Experts*) para permitir una predicción futura consciente del contexto, y (iii) un marco de entrenamiento con muestreo de tokens ancla y replicación de predicción futura que aprende una predicción futura robusta. Los experimentos demuestran que ConFu mejora las tasas de aceptación de tokens y la velocidad de generación respecto a EAGLE-3 en un 8-11% en diversas tareas posteriores con los modelos Llama-3 3B y 8B. Creemos que nuestro trabajo es el primero en conectar la decodificación especulativa con tokens de razonamiento continuo, ofreciendo una nueva dirección para acelerar la inferencia de LLM.
Si bien los Modelos de Lenguaje a Gran Escala (LLM) han revolucionado la generación de código, los enfoques estándar de "Sistema 1", que generan soluciones en una única pasada hacia adelante, a menudo alcanzan un límite de rendimiento cuando se enfrentan a tareas algorítmicas complejas. Las estrategias existentes de refinamiento iterativo intentan cerrar esta brecha en el momento de la inferencia, pero se basan predominantemente en oráculos externos, retroalimentación de ejecución o ciclos de prompt-respuesta computacionalmente costosos. En este trabajo, proponemos ReflexiCoder, un novedoso marco de aprendizaje por refuerzo (RL) que internaliza la trayectoria de razonamiento estructurado —abarcando la generación inicial, la reflexión consciente de errores y optimizaciones, y la autocorrección— directamente en los pesos del modelo. A diferencia de métodos anteriores, ReflexiCoder cambia el paradigma de un refinamiento dependiente de elementos externos a capacidades intrínsecas, totalmente autónomas, de autorreflexión y autocorrección en tiempo de inferencia. Utilizamos un paradigma de entrenamiento RL-cero con funciones de recompensa granulares para optimizar toda la trayectoria de reflexión-corrección, enseñando al modelo a depurar sin depender de retroalimentación de la verdad fundamental (ground-truth) o motores de ejecución durante la inferencia. Experimentos exhaustivos en siete benchmarks demuestran que nuestro ReflexiCoder-8B establece un nuevo estado del arte (SOTA) entre los principales modelos de código abierto en el rango de 1.5B a 14B, logrando un 94.51% (87.20%) en HumanEval (Plus), 81.80% (78.57%) en MBPP (Plus), 35.00% en BigCodeBench, 52.21% en LiveCodeBench y 37.34% en CodeForces en un entorno de un único intento, rivalizando o superando a modelos propietarios como GPT-5.1. Cabe destacar que nuestro marco es significativamente más eficiente en tokens que los modelos base, reduciendo la sobrecarga computacional en la inferencia en aproximadamente un 40% mediante patrones de razonamiento y reflexión disciplinados y de alta velocidad. El código fuente está disponible en https://github.com/juyongjiang/ReflexiCoder.
El entrenamiento de grandes modelos de lenguaje (LLM) con trazas de ejecución de Python los fundamenta en la ejecución de código y permite la predicción de la ejecución línea por línea de programas Python completos, convirtiéndolos efectivamente en intérpretes neuronales (FAIR CodeGen Team et al., 2025). Sin embargo, los desarrolladores rara vez ejecutan programas paso a paso; en su lugar, utilizan depuradores para detener la ejecución en ciertos puntos de interrupción y avanzar solo por las porciones relevantes mientras inspeccionan o modifican las variables del programa. Los enfoques existentes de intérpretes neuronales carecen de este control interactivo. Para abordar esta limitación, presentamos los depuradores neuronales: modelos de lenguaje que emulan a los depuradores tradicionales, soportando operaciones como ejecutar paso a paso entrando, salteando o saliendo de funciones, así como establecer puntos de interrupción en líneas de código fuente específicas. Demostramos que los depuradores neuronales —obtenidos mediante el ajuste fino de LLM grandes o el pre-entrenamiento desde cero de modelos más pequeños— pueden modelar de manera confiable tanto la ejecución directa (prediciendo estados y salidas futuras) como la ejecución inversa (infiriendo estados previos o entradas) condicionadas a las acciones del depurador. Evaluados en CruxEval, nuestros modelos logran un rendimiento sólido en tareas de predicción tanto de salidas como de entradas, lo que demuestra un modelado robusto de la ejecución condicional. Nuestro trabajo da los primeros pasos hacia futuros sistemas de codificación agenticos en los que los depuradores neuronales sirven como modelo del mundo para entornos de depuración simulados, proporcionando retroalimentación de ejecución o permitiendo a los agentes interactuar con herramientas de depuración reales. Esta capacidad sienta las bases para una generación de código, una comprensión de programas y una depuración automatizada más potentes.
La autorreflexión recursiva está pasando de la teoría a la práctica: los sistemas modernos pueden criticar, revisar y evaluar sus propias salidas, aunque la modificación iterativa de sí mismos conlleva el riesgo de una deriva sutil en la alineación. Presentamos SAHOO, un marco práctico para monitorizar y controlar esta deriva mediante tres salvaguardas: (i) el Índice de Deriva de Objetivos (GDI), un detector multi-señal entrenado que combina medidas semánticas, léxicas, estructurales y distribucionales; (ii) comprobaciones de preservación de restricciones que hacen cumplir invariantes críticos para la seguridad, como la corrección sintáctica y la no-alucinación; y (iii) una cuantificación del riesgo de regresión para señalar los ciclos de mejora que deshacen ganancias previas. En 189 tareas de generación de código, razonamiento matemático y veracidad, SAHOO produce mejoras sustanciales en la calidad, incluyendo un 18,3 por ciento de mejora en tareas de código y un 16,8 por ciento en razonamiento, preservando las restricciones en dos dominios y manteniendo un bajo nivel de violaciones en veracidad. Los umbrales se calibran en un pequeño conjunto de validación de 18 tareas a lo largo de tres ciclos. Además, cartografiamos la frontera capacidad-alineación, mostrando ciclos de mejora temprana eficientes pero con costes crecientes de alineación posterior, y exponiendo tensiones específicas de dominio como la fluidez frente a la factualidad. Por lo tanto, SAHOO hace que la preservación de la alineación durante la autorreflexión recursiva sea medible, implementable y sistemáticamente validada a gran escala.
Las versiones de modelos de espacio de estados suelen estar acopladas a kernels fusionados de CUDA y Triton, heredando una dependencia estricta del hardware de NVIDIA. Demostramos que el algoritmo de dualidad de espacio de estados de Mamba-2 —estructura de estados diagonal, recurrencia fragmentable y cómputo dominado por einsum con flujo de control estático— se adapta perfectamente a lo que las pasadas de fusión y mosaico de XLA optimizan realmente, haciendo que los kernels personalizados sean opcionales en lugar de obligatorios. Implementamos la ruta de inferencia completa (prellenado, decodificación autoregresiva en caché) como primitivas estándar moldeadas bajo XLA, sin kernels escritos a mano, y materializamos la gestión teórica O(1) de estados de la arquitectura como una caché compilada en el dispositivo que no requiere sincronización con el host durante la generación. La implementación se ejecuta sin modificaciones en CPU, GPU NVIDIA y TPU de Google Cloud a partir de una única fuente JAX. En TPU v5e a través de cinco escalas de modelo (130M–2.7B parámetros), el código generado por XLA alcanza aproximadamente 140 TFLOPS en prellenado de flujo único (15% MFU) y hasta un 64% de utilización de ancho de banda en decodificación. La decodificación voraz coincide con la referencia PyTorch/CUDA token por token a lo largo de 64 pasos, con concordancia del estado oculto dentro de la tolerancia de redondeo float32. El patrón se transfiere a cualquier recurrencia de SSM que satisfaga las mismas condiciones estructurales, en cualquier plataforma con un backend XLA maduro. La implementación está disponible públicamente en https://github.com/CosmoNaught/mamba2-jax e integrada en la biblioteca de modelos Bonsai JAX.
Los recientes avances en los modelos de visión y lenguaje (VLM) han demostrado capacidades notables de zero-shot, sin embargo, adaptar estos modelos a dominios especializados sigue siendo un desafío significativo. Basándonos en recientes perspectivas teóricas que sugieren que los VLM entrenados de forma independiente están relacionados por una transformación canónica, extendemos esta comprensión al concepto de dominios. Nuestra hipótesis postula que las características de imagen a través de dominios dispares están relacionadas por una transformación geométrica canonizada que puede recuperarse utilizando un pequeño conjunto de anclajes. La clasificación few-shot proporciona un escenario natural para esta alineación, ya que las muestras etiquetadas limitadas sirven como los anclajes necesarios para estimar esta transformación. Motivados por esta hipótesis, presentamos BiCLIP, un marco que aplica una transformación dirigida a las características multimodales para mejorar la alineación cross-modal. Nuestro enfoque se caracteriza por su extrema simplicidad y su baja huella de parámetros. Evaluaciones exhaustivas en 11 benchmarks estándar, incluyendo EuroSAT, DTD y FGVCAircraft, demuestran que BiCLIP logra consistentemente resultados de vanguardia. Además, proporcionamos una verificación empírica de hallazgos geométricos existentes mediante el análisis de la ortogonalidad y la distribución angular de las transformaciones aprendidas, confirmando que la alineación estructurada es la clave para una adaptación de dominio robusta. El código está disponible en https://github.com/QuantitativeImagingLaboratory/BilinearCLIP.
El cachemir es hablado por aproximadamente 7 millones de personas, pero sigue estando críticamente desatendido en tecnologías del habla, a pesar de su estatus oficial y su rico patrimonio lingüístico. La falta de sistemas robustos de conversión de texto a voz (TTS) limita la accesibilidad digital y la interacción humano-computadora inclusiva para los hablantes nativos. En este trabajo, presentamos el primer sistema neuronal TTS de código abierto dedicado al cachemir. Demostramos que los modelos base multilingües de cero shot entrenados para lenguas índicas no producen habla inteligible, alcanzando un Puntuación Media de Opinión (MOS) de solo 1.86, debido principalmente al modelado inadecuado de los diacríticos perso-arábigos y la fonotáctica específica del idioma. Para abordar estas limitaciones, proponemos Bolbosh, una estrategia de adaptación transcultural supervisada basada en la Correspondencia de Flujo Condicional con Transporte Óptimo (OT-CFM) dentro del framework Matcha-TTS. Esto permite una alineación estable con datos pareados limitados. Además, introducimos un pipeline de tres etapas para la mejora acústica, que consiste en desreverberación, recorte de silencios y normalización de volumen, para unificar fuentes de habla heterogéneas y estabilizar el aprendizaje de la alineación. El vocabulario del modelo se expande para codificar explícitamente los grafemas del cachemir, preservando las distinciones vocálicas detalladas. Nuestro sistema alcanza un MOS de 3.63 y una Distorsión Mel-Cepstral (MCD) de 3.73, superando sustancialmente a los modelos base multilingües y estableciendo un nuevo referente para la síntesis de voz en cachemir. Nuestros resultados demuestran que la adaptación supervisada basada en flujo y consciente de la escritura es crítica para TTS en lenguas de bajos recursos sensibles a diacríticos. El código y los datos están disponibles en: https://github.com/gaash-lab/Bolbosh.
Presentamos Midicoth, un sistema de compresión sin pérdidas que incorpora una capa de eliminación de ruido por micro-difusión para mejorar las estimaciones de probabilidad generadas por modelos estadísticos adaptativos. En compresores como Predicción por Correspondencia Parcial (PPM), las estimaciones de probabilidad se suavizan mediante un previo para manejar observaciones dispersas. Cuando los contextos se han observado solo unas pocas veces, este previo domina la predicción y genera distribuciones significativamente más planas que la distribución real de la fuente, lo que conduce a ineficiencias en la compresión. Midicoth aborda esta limitación tratando el suavizado previo como un proceso de contracción y aplicando un paso de eliminación de ruido inverso que corrige las probabilidades predichas utilizando estadísticas de calibración empírica. Para que esta corrección sea eficiente en datos, el método descompone cada predicción de byte en una jerarquía de decisiones binarias a lo largo de un árbol binario. Esto convierte un único problema de calibración entre 256 opciones en una secuencia de tareas de calibración binaria, permitiendo la estimación fiable de términos de corrección a partir de un número relativamente pequeño de observaciones. El proceso de eliminación de ruido se aplica en múltiples pasos sucesivos, permitiendo que cada etapa refine los errores de predicción residuales dejados por la anterior. La capa de micro-difusión opera como una etapa de calibración posterior ligera aplicada después de combinar todas las predicciones del modelo, lo que le permite corregir sesgos sistemáticos en la distribución de probabilidad final. Midicoth combina cinco componentes completamente en línea: un modelo PPM adaptativo, un modelo de coincidencia de largo alcance, un modelo léxico basado en árboles de prefijos, un modelo de contexto de alto orden y el eliminador de ruido por micro-difusión aplicado como etapa final.
La memoria asociativa ha sido durante mucho tiempo la base del diseño de modelos secuenciales. Más allá de la recuperación, los humanos razonan proyectando estados futuros y seleccionando acciones dirigidas a objetivos, una capacidad que los modelos de lenguaje modernos requieren cada vez más pero que no codifican de forma nativa. Si bien trabajos previos utilizan aprendizaje por refuerzo o entrenamiento en tiempo de prueba, la planificación sigue siendo externa a la arquitectura del modelo. Formulamos el razonamiento como un problema de control óptimo e introducimos la capa de Control en Tiempo de Prueba (TTC), que realiza una planificación LQR de horizonte finito sobre estados latentes durante la inferencia, representa una función de valor dentro de arquitecturas neuronales y la aprovecha como objetivo anidado para permitir la planificación antes de la predicción. Para garantizar escalabilidad, derivamos un solucionador LQR eficiente en hardware basado en una formulación simpléctica y lo implementamos como un núcleo CUDA fusionado, permitiendo ejecución paralela con sobrecarga mínima. Integradas como adaptadores en LLMs preentrenados, las capas TTC mejoran el rendimiento en razonamiento matemático hasta en un +27.8% en MATH-500 y mejoras de 2-3x en Pass@8 en AMC y AIME, demostrando que la incorporación del control óptimo como componente arquitectónico proporciona un mecanismo efectivo y escalable para el razonamiento que va más allá del entrenamiento en tiempo de prueba.
El descubrimiento de categorías sobre la marcha (OCD) tiene como objetivo reconocer categorías conocidas mientras descubre simultáneamente otras nuevas a partir de un flujo en línea no etiquetado, utilizando un modelo entrenado únicamente con datos etiquetados. Los enfoques existentes congelan el extractor de características entrenado fuera de línea y emplean un marco basado en *hash* que cuantifica las características en códigos binarios como prototipos de clase. Sin embargo, descubrir categorías novedosas con una base de conocimientos fija es contradictorio, ya que se ignora por completo el potencial de aprendizaje de los datos entrantes. Además, la cuantificación de características introduce pérdida de información, reduce la expresividad representacional y amplifica la varianza intraclase. A menudo resulta en una explosión de categorías, donde una sola clase se fragmenta en múltiples pseudo-clases. Para superar estas limitaciones, proponemos un marco de adaptación en tiempo de prueba que permite aprender mediante el descubrimiento. Este incorpora dos estrategias complementarias: una actualización de prototipos consciente de la semántica y una actualización estable del codificador en tiempo de prueba. La primera refina dinámicamente los prototipos de clase para mejorar la clasificación, mientras que la segunda integra nueva información directamente en el espacio de parámetros. Juntos, estos componentes permiten que el modelo expanda continuamente su base de conocimientos con las muestras recién encontradas. Además, introducimos una calibración de *logits* consciente del margen en la etapa fuera de línea para ampliar los márgenes interclase y mejorar la compacidad intraclase, reservando así espacio de incrustación para el futuro descubrimiento de clases. Los experimentos en benchmarks estándar de OCD demuestran que nuestro método supera sustancialmente a los enfoques state-of-the-art existentes basados en *hash*, logrando mejoras notables en la precisión de clases novedosas y mitigando efectivamente la explosión de categorías. El código está disponible públicamente en \url{https://github.com/ynanwu/TALON}.
Todo el mundo puede escribir sus historias en formato de texto libre —es algo que todos aprendemos en la escuela. Sin embargo, contar historias mediante video requiere aprender herramientas especializadas y complejas. En este artículo, presentamos Doki, una interfaz nativa de texto para la creación de videos generativos, que alinea la producción audiovisual con el proceso natural de la escritura textual. En Doki, escribir texto es la interacción principal: dentro de un único documento, los usuarios definen recursos, estructuran escenas, crean tomas, refinan ediciones y añaden audio. Articulamos los principios de diseño de este enfoque centrado en el texto y demostramos las capacidades de Doki mediante una serie de ejemplos. Para evaluar su uso en contextos reales, realizamos un estudio de despliegue de una semana con participantes de diversos niveles de experiencia en creación audiovisual. Este trabajo contribuye con un cambio fundamental en las interfaces de video generativo, demostrando una forma nueva, poderosa y accesible de elaborar historias visuales.
La inferencia de contexto largo en modelos de lenguaje grandes se ve limitada por la carga de la caché Clave-Valor (KV) durante la etapa de decodificación, donde la naturaleza secuencial de la generación requiere transferir repetidamente la caché KV de la memoria de alto ancho de banda (HBM) fuera del chip a la memoria estática de acceso aleatorio (SRAM) dentro del chip en cada paso. Si bien la atención latente multicabezal (MLA) reduce significativamente el tamaño total de la caché KV, sufre un cuello de botella de fragmentación durante la decodificación distribuida mediante paralelismo de tensores (TP). Dado que su única cabeza latente no puede particionarse, cada dispositivo se ve obligado a cargar redundantemente la caché KV completa para cada token, consumiendo un tráfico de memoria excesivo y disminuyendo los beneficios del TP, como la fragmentación de pesos. En este trabajo, proponemos la Atención Multicabezal de Bajo Rango (MLRA), que permite estados latentes particionables para una decodificación TP eficiente de 4 vías. Experimentos exhaustivos muestran que MLRA logra una perplexidad y un rendimiento en tareas específicas de vanguardia, al mismo tiempo que ofrece una aceleración de la decodificación 2.8 veces mayor que MLA. El código está disponible en https://github.com/SongtaoLiu0823/MLRA. Los pesos preentrenados, junto con los datos de entrenamiento y evaluación, están disponibles en https://huggingface.co/Soughing/MLRA.