Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de lenguaje grande (LLM) han transformado fundamentalmente el desarrollo de software automatizado al permitir la traducción directa de descripciones en lenguaje natural a código funcional, impulsando la adopción comercial a través de herramientas como Github Copilot (Microsoft), Cursor (Anysphere), Trae (ByteDance) y Claude Code (Anthropic). Si bien el campo ha evolucionado drásticamente desde sistemas basados en reglas hasta arquitecturas basadas en Transformer, logrando mejoras de rendimiento desde tasas de éxito de un solo dígito hasta más del 95% en benchmarks como HumanEval. En este trabajo, proporcionamos una síntesis integral y una guía práctica (una serie de experimentos analíticos y de sondeo) sobre los LLM de código, examinando sistemáticamente el ciclo de vida completo del modelo, desde la curación de datos hasta el post-entrenamiento, a través de paradigmas avanzados de prompting, pre-entrenamiento de código, ajuste fino supervisado, aprendizaje por refuerzo y agentes autónomos de codificación. Analizamos la capacidad de código de los LLM generales (GPT-4, Claude, LLaMA) y los LLM especializados en código (StarCoder, Code LLaMA, DeepSeek-Coder y QwenCoder), examinando críticamente las técnicas, decisiones de diseño y compensaciones. Además, articulamos la brecha entre la investigación y la práctica, entre la investigación académica (por ejemplo, benchmarks y tareas) y el despliegue en el mundo real (por ejemplo, tareas de código relacionadas con el software), incluyendo la corrección del código, la seguridad, la conciencia contextual de grandes bases de código y la integración con los flujos de trabajo de desarrollo, y mapeamos direcciones de investigación prometedoras con necesidades prácticas. Por último, realizamos una serie de experimentos para proporcionar un análisis integral del pre-entrenamiento de código, el ajuste fino supervisado y el aprendizaje por refuerzo, cubriendo la ley de escalamiento, la selección de frameworks, la sensibilidad de los hiperparámetros, las arquitecturas de modelo y las comparaciones de conjuntos de datos.
Los modelos multimodales grandes (LMMs) han demostrado un gran potencial para el razonamiento en vídeo mediante Cadenas de Pensamiento textuales. Sin embargo, siguen siendo vulnerables a las alucinaciones, especialmente al procesar vídeos de larga duración donde la evidencia es escasa y está temporalmente dispersa. Inspirados en cómo los humanos comprenden vídeos largos —primero hojeando globalmente y luego examinando fragmentos relevantes para obtener detalles— presentamos LongVT, un marco agente de extremo a extremo que permite "Pensar con Vídeos Largos" mediante una Cadena de Pensamiento-Herramienta multimodal intercalada. Específicamente, aprovechamos la capacidad inherente de los LMMs para la fundamentación temporal como una herramienta nativa de recorte de vídeo para hacer zoom en un fragmento específico y remuestrear fotogramas de vídeo más detallados. Este bucle de razonamiento global-a-local continúa hasta que las respuestas se fundamentan en la evidencia visual recuperada. Dada la escasez de datos de preguntas y respuestas (QA) detallados para la tarea de razonamiento en vídeos largos, hemos creado y liberaremos un conjunto de datos llamado VideoSIAH para facilitar tanto el entrenamiento como la evaluación. En concreto, nuestro conjunto de datos de entrenamiento consta de 247,9K muestras para el ajuste fino supervisado en frío con herramientas integradas, 1,6K muestras para el aprendizaje por refuerzo agente y 15,4K muestras para el ajuste fino por refuerzo agente, respectivamente. Nuestro benchmark de evaluación consta de 1.280 pares de QA que han sido cuidadosamente seleccionados mediante un pipeline de datos semi-automático con validación humana en el bucle. Con una estrategia de entrenamiento meticulosamente diseñada en tres etapas y una extensa validación empírica, LongVT supera consistentemente a las líneas base sólidas existentes en cuatro benchmarks desafiantes de comprensión y razonamiento en vídeos largos. Nuestros códigos, datos y puntos de control del modelo están disponibles públicamente en https://github.com/EvolvingLMMs-Lab/LongVT.
Los modelos multimodales actuales buscan trascender las limitaciones de las representaciones unimodales mediante la unificación de la comprensión y la generación, utilizando a menudo tareas de texto a imagen (T2I) para calibrar la coherencia semántica. Sin embargo, su dependencia de la generación de imágenes estáticas individuales en el entrenamiento y la evaluación conduce a un sobreajuste hacia la coincidencia de patrones estáticos y la fusión semántica, a la vez que obstaculiza fundamentalmente su capacidad para modelar procesos dinámicos que se desarrollan en el tiempo. Para abordar estas limitaciones, proponemos Envision, un benchmark causal de progresión de eventos para la generación encadenada de texto a múltiples imágenes. Fundamentado en conocimiento del mundo y estructurado por causalidad espacio-temporal, reorganiza las dimensiones de evaluación existentes e incluye 1.000 indicaciones de cuatro etapas que abarcan seis dominios científicos y humanísticos. Para transicionar la evaluación de imágenes individuales a secuencias de frames y evaluar si los modelos internalizan verdaderamente el conocimiento del mundo mientras se adhieren a restricciones causal-temporales, introducimos Envision-Score, una métrica holística que integra coherencia multidimensional, fisicalidad y estética. La evaluación exhaustiva de 15 modelos (10 modelos T2I especializados, 5 modelos unificados) revela: los modelos T2I especializados demuestran competencia en renderizado estético pero carecen de conocimiento del mundo intrínseco. Los modelos multimodales unificados salvan esta brecha, superando consistentemente a sus contrapartes especializadas en coherencia narrativa causal. No obstante, incluso estas arquitecturas unificadas permanecen subordinadas a los modelos de código cerrado y luchan por superar el desafío central de la coherencia espacio-temporal. Esto demuestra que un enfoque en imágenes únicas causalmente aisladas impide el razonamiento y la generación multiframe, promoviendo la coincidencia de patrones estáticos sobre el modelado dinámico del mundo, lo que en última instancia limita la internalización y generación del conocimiento del mundo.
Este artículo propone una formulación novedosa para el aprendizaje por refuerzo (RL) con modelos de lenguaje extensos, explicando por qué y bajo qué condiciones la recompensa real a nivel de secuencia puede optimizarse mediante un objetivo sustituto a nivel de token en métodos de gradiente de políticas como REINFORCE. Específicamente, mediante una aproximación de primer orden, demostramos que este sustituto se vuelve cada vez más válido solo cuando se minimizan tanto la discrepancia entrenamiento-inferencia como el desfase de la política. Esta perspectiva proporciona una explicación fundamentada del papel crucial de varias técnicas ampliamente adoptadas para estabilizar el entrenamiento de RL, incluyendo la corrección por muestreo de importancia, el recorte y, particularmente, la Reproducción de Enrutamiento para modelos de Mezcla de Expertos (MoE). A través de extensos experimentos con un modelo MoE de 30B que totalizan cientos de miles de horas de GPU, mostramos que para el entrenamiento *on-policy*, el algoritmo básico de gradiente de políticas con corrección por muestreo de importancia logra la mayor estabilidad en el entrenamiento. Cuando se introducen actualizaciones *off-policy* para acelerar la convergencia, la combinación de recorte y Reproducción de Enrutamiento se vuelve esencial para mitigar la inestabilidad causada por el desfase de la política. Cabe destacar que, una vez estabilizado el entrenamiento, la optimización prolongada produce consistentemente un rendimiento final comparable, independientemente de la inicialización desde cero. Esperamos que las perspectivas compartidas y las recetas desarrolladas para un entrenamiento de RL estable faciliten la investigación futura.
Los Agentes de Investigación Profunda (DRA) tienen como objetivo producir automáticamente informes de nivel analítico mediante la recuperación y síntesis iterativa de información. Sin embargo, la mayoría de los DRA existentes se validaron en benchmarks de preguntas y respuestas, mientras que la investigación sobre la generación de informes integrales sigue estando desatendida. Peor aún, los benchmarks actuales para la síntesis de informes adolecen de complejidad de tarea y métricas subjetivas, lo que no refleja las demandas de los usuarios y limita la utilidad práctica de los informes generados. Para abordar estas deficiencias, presentamos Fine-grained DEepResearch bench (FINDER), un benchmark mejorado que consta de 100 tareas de investigación curadas por humanos con 419 ítems de lista de verificación estructurados que estandarizan la estructura del informe, la profundidad analítica y la base fáctica. Basándonos en aproximadamente 1.000 informes producidos por DRA convencionales, proponemos además Deep rEsearch Failure Taxonomy (DEFT), la primera taxonomía de fallos para agentes de investigación profunda. DEFT contiene 14 modos de fallo de grano fino en razonamiento, recuperación y generación, y se construye sobre teoría fundamentada con co-anotación humano-LLM y validación de confiabilidad inter-anotadores. Nuestros hallazgos experimentales revelan que los DRA actuales no tienen dificultades con la comprensión de la tarea, sino con la integración de evidencias, la verificación y la planificación resiliente al razonamiento.
Los modelos recientes de difusión de video pueden sintetizar clips visualmente atractivos, pero a menudo violan leyes físicas básicas: los objetos flotan, las aceleraciones se desvían y las colisiones se comportan de manera inconsistente, lo que revela una brecha persistente entre el realismo visual y el realismo físico. Proponemos NewtonRewards, el primer marco de post-entrenamiento basado en física para la generación de video que utiliza recompensas verificables. En lugar de depender de retroalimentación humana o de modelos de lenguaje visual (VLM), NewtonRewards extrae proxies medibles de los videos generados utilizando modelos utilitarios congelados: el flujo óptico sirve como proxy para la velocidad, mientras que las características de apariencia de alto nivel sirven como proxy para la masa. Estos proxies permiten la aplicación explícita de la estructura newtoniana mediante dos recompensas complementarias: una restricción cinemática newtoniana que impone dinámicas de aceleración constante, y una recompensa de conservación de la masa que evita soluciones triviales y degeneradas. Evaluamos NewtonRewards en cinco Primitivas de Movimiento Newtoniano (caída libre, lanzamiento horizontal/parabólico y deslizamiento en rampa hacia abajo/arriba) utilizando nuestro nuevo benchmark a gran escala, NewtonBench-60K. En todas las primitivas y en métricas visuales y físicas, NewtonRewards mejora consistentemente la plausibilidad física, la suavidad del movimiento y la coherencia temporal en comparación con métodos de post-entrenamiento anteriores. Además, mantiene un rendimiento sólido bajo cambios fuera de distribución en altura, velocidad y fricción. Nuestros resultados demuestran que las recompensas verificables basadas en física ofrecen un camino escalable hacia la generación de video consciente de la física.
Trabajos previos han explorado diversas tareas de generación personalizada a partir de una imagen de referencia, pero aún enfrentan limitaciones para generar detalles finos consistentes. En este artículo, nuestro objetivo es resolver el problema de inconsistencia en las imágenes generadas aplicando un enfoque de postedición guiado por referencia y presentamos nuestro ImageCritic. Primero construimos un conjunto de datos de tripletas referencia-degradada-objetivo, obtenidas mediante selección basada en Modelos de Lenguaje Visual (VLM) y degradación explícita, lo que simula eficazmente las inexactitudes o inconsistencias comunes observadas en los modelos de generación existentes. Además, basándonos en un examen exhaustivo de los mecanismos de atención y las representaciones intrínsecas del modelo, diseñamos consecuentemente una pérdida por alineación de atención y un codificador de detalles para rectificar con precisión las inconsistencias. ImageCritic puede integrarse en un marco de agente para detectar automáticamente inconsistencias y corregirlas mediante edición multirround y local en escenarios complejos. Experimentos exhaustivos demuestran que ImageCritic puede resolver efectivamente problemas relacionados con detalles en varios escenarios de generación personalizada, proporcionando mejoras significativas respecto a métodos existentes.
Los actuales modelos de difusión de video autoregresivos están limitados por tres cuellos de botella principales: (i) el horizonte temporal finito impuesto por el Embedding Posicional Rotatorio 3D (3D-RoPE) del modelo base, (ii) la lenta capacidad de respuesta a los prompts para mantener un control de acción granular durante generaciones de larga duración, y (iii) la incapacidad de realizar transiciones cinematográficas discontinuas dentro de un único flujo de generación. Presentamos infty-RoPE, un marco unificado de inferencia que aborda las tres limitaciones mediante tres componentes interconectados: RoPE Block-Relativistic, KV Flush y RoPE Cut. RoPE Block-Relativistic reformula la codificación temporal como un marco de referencia local en movimiento, donde cada nuevo bloque latente generado se rota en relación con el horizonte máximo de frames del modelo base, mientras que los bloques anteriores se rotan hacia atrás para preservar la geometría temporal relativa. Esta formulación relativística elimina las posiciones temporales fijas, permitiendo una generación de video continua mucho más allá de los límites posicionales base. Para obtener un control de acción granular sin necesidad de re-codificación, KV Flush renueva la caché KV reteniendo solo dos frames latentes: el sumidero global y el último frame latente generado, garantizando así una respuesta inmediata al prompt. Finalmente, RoPE Cut introduce discontinuidades controladas en las coordenadas temporales de RoPE, permitiendo transiciones de escena multicorte dentro de una única generación continua. En conjunto, estos componentes establecen a infty-RoPE como una base libre de entrenamiento para la difusión de video de horizonte infinito, controlable y cinematográfico. Experimentos exhaustivos demuestran que infty-RoPE supera consistentemente a los modelos autoregresivos anteriores en las puntuaciones generales de VBench.
Los modelos multimodales unificados (UMMs) tienen como objetivo realizar conjuntamente la comprensión y generación multimodal dentro de un único marco. Presentamos TUNA, un UMM nativo que construye una representación visual continua unificada mediante la cascada de un codificador VAE con un codificador de representaciones. Este espacio de representación unificado permite el procesamiento de principio a fin de imágenes y vídeos tanto para tareas de comprensión como de generación. En comparación con UMMs previos con representaciones desacopladas, el espacio visual unificado de TUNA evita los desajustes de formato de representación introducidos por codificadores separados, superando a las alternativas desacopladas tanto en comprensión como en generación. Además, observamos que codificadores de representación preentrenados más potentes producen sistemáticamente un mejor rendimiento en todas las tareas multimodales, lo que subraya la importancia del codificador de representaciones. Finalmente, en este marco unificado, el entrenamiento conjunto con datos de comprensión y generación permite que ambas tareas se beneficien mutuamente en lugar de interferir. Nuestros extensos experimentos en benchmarks de comprensión y generación multimodal muestran que TUNA logra resultados de vanguardia en comprensión de imágenes y vídeos, generación de imágenes y vídeos, y edición de imágenes, demostrando la efectividad y escalabilidad de su diseño de representación unificada.
Presentamos LFM2, una familia de Modelos de Fundación Líquidos diseñados para implementación eficiente en dispositivos y sólidas capacidades multitarea. Mediante búsqueda de arquitectura con hardware en el bucle bajo restricciones de latencia y memoria periféricas, obtenemos un backbone híbrido compacto que combina convoluciones cortas con compuertas con un número reducido de bloques de atención de consultas agrupadas, logrando hasta 2x más velocidad en prellenado y decodificación en CPUs comparado con modelos de tamaño similar. La familia LFM2 abarca 350M-8.3B parámetros, incluyendo modelos densos (350M, 700M, 1.2B, 2.6B) y una variante de mezcla de expertos (8.3B totales, 1.5B activos), todos con longitud de contexto de 32K. La pipeline de entrenamiento de LFM2 incluye un objetivo de destilación de conocimiento Top-K templado y desacoplado que evita incompatibilidad de soporte; aprendizaje curricular con datos ordenados por dificultad; y una receta de post-entrenamiento en tres etapas: ajuste fino supervisado, optimización de preferencias con longitud normalizada y fusión de modelos. Preentrenados en 10-12T tokens, los modelos LFM2 logran resultados sólidos en diversos benchmarks; por ejemplo, LFM2-2.6B alcanza 79.56% en IFEval y 82.41% en GSM8K. Desarrollamos además variantes multimodales y de recuperación: LFM2-VL para tareas visión-lenguaje, LFM2-Audio para audio, y LFM2-ColBERT para recuperación. LFM2-VL soporta compensaciones ajustables de precisión-latencia mediante procesamiento visual eficiente en tokens, mientras LFM2-Audio separa las vías de entrada y salida de audio para permitir interacción voz-a-voz en tiempo real competitiva con modelos 3x más grandes. LFM2-ColBERT proporciona un codificador de baja latencia para consultas y documentos, permitiendo recuperación de alto rendimiento en múltiples idiomas. Todos los modelos se publican con pesos abiertos y paquetes de despliegue para ExecuTorch, llama.cpp y vLLM, haciendo de LFM2 una base práctica para aplicaciones periféricas que requieren inferencia rápida, eficiente en memoria y sólidas capacidades multitarea.
Los grafos de conocimiento (KGs) proporcionan una base estructurada y verificable para los modelos de lenguaje grande (LLMs), pero los sistemas actuales basados en LLMs comúnmente utilizan los KGs como estructuras auxiliares para la recuperación de texto, dejando su calidad intrínseca poco explorada. En este trabajo, proponemos Wikontic, una pipeline multi-etapa que construye KGs a partir de texto de dominio abierto mediante la extracción de tripletas candidatas con calificadores, la aplicación de restricciones de tipo y relación basadas en Wikidata, y la normalización de entidades para reducir la duplicación. Los KGs resultantes son compactos, consistentes con la ontología y bien conectados; en MuSiQue, la entidad de respuesta correcta aparece en el 96% de las tripletas generadas. En HotpotQA, nuestra configuración que utiliza solo tripletas alcanza un F1 de 76.0, y en MuSiQue un F1 de 59.8, igualando o superando a varias líneas base de generación aumentada por recuperación que aún requieren contexto textual. Además, Wikontic logra un rendimiento de retención de información de vanguardia en el benchmark MINE-1 (86%), superando a métodos previos de construcción de KGs. Wikontic también es eficiente en tiempo de construcción: la construcción del KG utiliza menos de 1,000 tokens de salida, aproximadamente 3 veces menos que AriGraph y <1/20 de GraphRAG. La pipeline propuesta mejora la calidad del KG generado y ofrece una solución escalable para aprovechar el conocimiento estructurado en los LLMs.
Los recientes avances en los modelos de lenguaje a gran escala (LLM) han sido impulsados por sus capacidades emergentes de razonamiento, particularmente mediante el prompting de cadena de pensamiento extensa (CoT), que permite una exploración y deliberación exhaustivas. A pesar de estos avances, los LLM con CoT extensa a menudo exhiben comportamientos de razonamiento subóptimos, como la sobre-reflexión y cadenas de razonamiento excesivamente prolongadas, lo que puede afectar negativamente al rendimiento. En este artículo, analizamos los procesos de razonamiento desde una perspectiva de optimización, enmarcando CoT como un procedimiento de descenso de gradiente donde cada paso de razonamiento constituye una actualización hacia la resolución del problema. Basándonos en esta perspectiva, presentamos RePro (Recompensa Rectificadora a Nivel de Proceso), un enfoque novedoso para refinar el razonamiento de los LLM durante el post-entrenamiento. RePro define una función objetivo sustituta para evaluar el proceso de optimización subyacente a CoT, utilizando un mecanismo de puntuación dual para cuantificar su intensidad y estabilidad. Estas puntuaciones se agregan en una recompensa compuesta a nivel de proceso, integrada perfectamente en pipelines de aprendizaje por refuerzo con recompensas verificables (RLVR) para optimizar los LLM. Experimentos exhaustivos con múltiples algoritmos de aprendizaje por refuerzo y diversos LLM, evaluados en benchmarks que abarcan matemáticas, ciencias y programación, demuestran que RePro mejora consistentemente el rendimiento del razonamiento y mitiga los comportamientos de razonamiento subóptimos.
Los Modelos de Difusión han surgido como una clase líder de modelos generativos, pero su proceso de muestreo iterativo sigue siendo computacionalmente costoso. La destilación de pasos temporales es una técnica prometedora para acelerar la generación, pero a menudo requiere un entrenamiento extenso y conduce a una degradación de la calidad de la imagen. Además, el ajuste fino de estos modelos destilados para objetivos específicos, como el atractivo estético o la preferencia del usuario, utilizando Aprendizaje por Refuerzo (RL) es notoriamente inestable y cae fácilmente en la manipulación de recompensas. En este trabajo, presentamos Flash-DMD, un marco novedoso que permite una convergencia rápida con destilación y un refinamiento conjunto basado en RL. Específicamente, primero proponemos una estrategia de destilación eficiente y consciente del paso temporal que reduce significativamente el costo de entrenamiento con un realismo mejorado, superando a DMD2 con solo el 2.1% de su costo de entrenamiento. En segundo lugar, introducimos un esquema de entrenamiento conjunto donde el modelo se ajusta con un objetivo de RL mientras el entrenamiento de destilación de pasos temporales continúa simultáneamente. Demostramos que la pérdida estable y bien definida de la destilación en curso actúa como un poderoso regularizador, estabilizando efectivamente el proceso de entrenamiento de RL y evitando el colapso de la política. Experimentos exhaustivos con modelos basados en puntuación y de emparejamiento de flujos muestran que nuestro Flash-DMD propuesto no solo converge significativamente más rápido, sino que también logra una calidad de generación de vanguardia en el régimen de muestreo de pocos pasos, superando a los métodos existentes en calidad visual, preferencia humana y métricas de alineación texto-imagen. Nuestro trabajo presenta un paradigma efectivo para entrenar modelos generativos eficientes, de alta fidelidad y estables. Los códigos estarán disponibles pronto.
Los modelos Visión-Lenguaje-Acción (VLA) son cada vez más competentes en diversas tareas robóticas. Sin embargo, su despliegue en el mundo real sigue siendo lento e ineficiente: los vídeos de demostración a menudo se aceleran de 5 a 10 veces para parecer fluidos, con paradas de acción perceptibles y reacciones retardadas a los cambios ambientales. La inferencia asíncrona ofrece una solución prometedora para lograr un control continuo y de baja latencia al permitir que los robots ejecuten acciones y realicen inferencias simultáneamente. No obstante, dado que el robot y el entorno continúan evolucionando durante la inferencia, surge un desajuste temporal entre los intervalos de predicción y ejecución. Esto conduce a una inestabilidad de acción significativa, mientras que los métodos existentes o bien degradan la precisión o introducen sobrecarga computacional para mitigarla. Proponemos VLASH, un marco de inferencia asíncrona general para VLAs que proporciona un control de reacción fluido, preciso y rápido sin sobrecarga adicional ni cambios arquitectónicos. VLASH estima el estado futuro en el momento de la ejecución haciendo avanzar el estado del robot con el fragmento de acción generado previamente, cerrando así la brecha entre la predicción y la ejecución. Los experimentos muestran que VLASH logra una aceleración de hasta 2.03x y reduce la latencia de reacción hasta 17.4x en comparación con la inferencia síncrona, preservando completamente la precisión original. Además, permite a los VLAs manejar tareas de alta precisión y reacción rápida, como jugar al ping-pong o al topo, donde la inferencia síncrona tradicional falla. El código está disponible en https://github.com/mit-han-lab/vlash.
Presentamos GR-RL, un marco de aprendizaje robótico que convierte una política generalista de visión-lenguaje-acción (VLA) en un especialista altamente capacitado para la manipulación diestra de largo horizonte. La suposición de la optimalidad de las demostraciones humanas es fundamental para las políticas VLA existentes. Sin embargo, afirmamos que en tareas de manipulación altamente diestras y precisas, las demostraciones humanas son ruidosas y subóptimas. GR-RL propone un pipeline de entrenamiento multietapa que filtra, aumenta y refuerza las demostraciones mediante aprendizaje por refuerzo. Primero, GR-RL aprende un indicador de progreso de la tarea condicionado por visión y lenguaje, filtra las trayectorias de demostración y solo conserva las transiciones que contribuyen positivamente al progreso. Específicamente, demostramos que al aplicar directamente RL offline con recompensa dispersa, los valores Q resultantes pueden tratarse como una función de progreso robusta. A continuación, introducimos una aumentación por simetría morfológica que mejora enormemente la generalización y el rendimiento de GR-RL. Por último, para alinear mejor la política VLA con sus comportamientos de despliegue para un control de alta precisión, realizamos RL online aprendiendo un predictor de ruido en el espacio latente. Con este pipeline, GR-RL es, hasta donde sabemos, la primera política basada en aprendizaje que puede atar un zapato de forma autónoma, pasando las agujetas por múltiples ojales con una tasa de éxito del 83,3%, una tarea que requiere razonamiento de largo horizonte, precisión a nivel milimétrico e interacción compliant con cuerpos blandos. Esperamos que GR-RL suponga un paso hacia la especialización de los modelos de base robóticos generalistas en expertos confiables para el mundo real.
El preentrenamiento a gran escala de vídeo-texto logra un rendimiento sólido, pero depende de subtítulos sintéticos y ruidosos con cobertura semántica limitada, que a menudo pasan por alto conocimiento implícito del mundo como el movimiento de objetos, la geometría 3D y las pistas físicas. Por el contrario, el modelado de vídeo enmascarado (MVM) explota directamente las estructuras espacio-temporales, pero se queda por detrás de los métodos supervisados por texto en tareas generales. Descubrimos que esta brecha surge de problemas arquitectónicos pasados por alto: la reconstrucción a nivel de píxeles lucha con la convergencia y su requisito de bajo nivel a menudo entra en conflicto con la semántica, mientras que la predicción latente a menudo fomenta el aprendizaje por atajos. Para abordar esto, separamos el diseño tradicional codificador-decodificador en un marco Codificador-Predictor-Decodificador (EPD), donde el predictor actúa como un modelo de mundo latente, y proponemos InternVideo-Next, un esquema de preentrenamiento en dos etapas que construye un espacio latente semánticamente consistente pero que preserva detalles para este modelo de mundo. Primero, el decodificador lineal convencional en MVM de píxeles obliga a que el latente de salida del predictor se proyecte linealmente a, y por lo tanto sea separable en, el espacio de píxeles, causando el conflicto con la abstracción semántica. Nuestra Etapa 1 propone un decodificador de difusión condicional e inyecta previos semánticos confiables a nivel de imagen para mejorar la semántica y la convergencia, tendiendo así un puente entre la fidelidad a nivel de píxel y la abstracción semántica de alto nivel. La Etapa 2 aprende aún más conocimiento del mundo prediciendo objetivos congelados de la Etapa 1 dentro de este espacio, mitigando el aprendizaje por atajos. Entrenado en vídeos públicos y sin etiquetar, InternVideo-Next logra resultados de vanguardia en diversos benchmarks y proporciona un camino escalable hacia el aprendizaje de representaciones de vídeo generales.
Los modelos generativos basados en flujos han demostrado recientemente un alto rendimiento, aunque el muestreo normalmente depende de la costosa integración numérica de ecuaciones diferenciales ordinarias (EDO). Rectified Flow permite el muestreo en un solo paso aprendiendo trayectorias de probabilidad casi rectas, pero lograr dicha rectitud requiere múltiples iteraciones computacionalmente intensivas de reflujo. MeanFlow logra la generación en un paso mediante el modelado directo de la velocidad promedio en el tiempo; sin embargo, cuando se entrena con flujos altamente curvados, sufre de convergencia lenta y supervisión ruidosa. Para abordar estas limitaciones, proponemos Rectified MeanFlow, un marco que modela el campo de velocidad media a lo largo de la trayectoria rectificada utilizando solo un único paso de reflujo. Esto elimina la necesidad de trayectorias perfectamente rectificadas al tiempo que permite un entrenamiento eficiente. Además, introducimos una heurística de truncamiento simple pero efectiva que busca reducir la curvatura residual y mejorar aún más el rendimiento. Experimentos exhaustivos en ImageNet con resoluciones de 64, 256 y 512 píxeles muestran que Re-MeanFlow supera consistentemente a métodos previos de destilación de flujo en un paso y a Rectified Flow, tanto en calidad de muestras como en eficiencia de entrenamiento. El código está disponible en https://github.com/Xinxi-Zhang/Re-MeanFlow.
En este artículo, señalamos que el objetivo de los algoritmos de recuperación es alinearse con el LLM, lo cual es similar al objetivo de la destilación de conocimiento en los LLM. Analizamos la similitud en el enfoque de información entre el modelo de lenguaje destilado (DLM) y el LLM original desde la perspectiva de la teoría de la información, y por lo tanto proponemos un nuevo paradigma que aprovecha un DLM como algoritmo de recuperación. Basándonos en esta idea, presentamos SpeContext, un diseño conjunto de algoritmo y sistema para el razonamiento de contexto largo. (1) A nivel de algoritmo, SpeContext propone un cabezal de recuperación ligero basado en los pesos de atención a nivel de cabezal del DLM, logrando una reducción de >90% en los parámetros mediante la poda de la redundancia. (2) A nivel de sistema, SpeContext diseña un flujo de datos de prebúsqueda asíncrona mediante la estrategia de carga elástica, solapando eficazmente la recuperación de la caché KV con el cálculo del LLM. (3) A nivel de compilación, SpeContext construye el modelo de memoria teórico e implementa un sistema de gestión de memoria adaptativo para lograr una aceleración maximizando la utilización de la memoria de la GPU. Desplegamos y evaluamos SpeContext en dos entornos con recursos limitados, la nube y el edge. Experimentos exhaustivos demuestran que, en comparación con el framework Huggingface, SpeContext logra una mejora de rendimiento de hasta 24.89x en la nube y una aceleración de 10.06x en el edge con una pérdida de precisión negligible, desplazando la frontera de Pareto de precisión y rendimiento.
Los Modelos de Lenguaje Grandes para Video en Streaming (VideoLLMs) han demostrado un rendimiento impresionante en diversas tareas de comprensión de vídeo, pero se enfrentan a desafíos significativos para su implementación en tiempo real debido al alto coste computacional de procesar tokens visuales densos procedentes de flujos de vídeo continuos. En escenarios de vídeo en streaming, el principal cuello de botella reside en la etapa de codificación del Transformer de Visión (ViT), donde el procesamiento redundante de fotogramas temporalmente similares conduce a ineficiencias. Además, las secuencias de tokens infladas durante la pre-limpieza del LLM exacerban aún más la latencia y la sobrecarga de memoria. Para abordar estos desafíos, proponemos la Compresión de Tokens en Streaming (STC), un marco jerárquico plug-and-play que se integra perfectamente en los VideoLLMs de streaming existentes, optimizando tanto la etapa de codificación ViT como la de pre-limpieza del LLM para acelerar el procesamiento. STC introduce dos aceleradores a nivel de token: STC-Cacher, que reduce la sobrecarga de codificación ViT almacenando en caché y reutilizando características de fotogramas temporalmente similares, y STC-Pruner, que comprime la secuencia de tokens visuales antes de que entre en el LLM, preservando solo los tokens más destacados en función de su relevancia espacial y temporal. Experimentos exhaustivos en cuatro VideoLLMs de streaming de referencia a lo largo de cinco benchmarks demuestran que STC supera a otros métodos de compresión. Cabe destacar que STC retiene hasta el 99% de la precisión en el marco ReKV mientras reduce la latencia de codificación ViT y la latencia de pre-limpieza del LLM en un 24,5% y un 45,3%, respectivamente.
Los grandes modelos de lenguaje (LLM) sustentan aplicaciones en generación de código, razonamiento matemático y flujos de trabajo basados en agentes. En la práctica, los sistemas acceden a los LLM mediante APIs comerciales o despliegues de código abierto, y el panorama de modelos (por ejemplo, GPT, Claude, Llama) evoluciona rápidamente. Esta rápida evolución obliga a cambios frecuentes de modelo impulsados por la capacidad, el coste, las restricciones de despliegue y la privacidad. Sin embargo, los *prompts* son altamente sensibles al modelo: reutilizar un *prompt* diseñado para un modelo en otro a menudo produce un rendimiento sustancialmente peor que un *prompt* optimizado para el modelo objetivo. Denominamos a este fenómeno *Model Drifting* (Deriva del Modelo). A través de un extenso análisis empírico en diversas configuraciones de LLM, demostramos que la deriva del modelo es común y severa. Para abordar este desafío, presentamos PromptBridge, un marco de trabajo que no requiere entrenamiento y que preserva la efectividad del *prompt* ante cambios de modelo, permitiendo la transferencia de *prompts* entre modelos sin la costosa re-optimización por tarea o por modelo. PromptBridge requiere solo un pequeño conjunto de tareas de alineación para su calibración. Primero aplica la Evolución de *Prompt* Reflexiva y Adaptativa al Modelo (MAP-RPE) para obtener *prompts* óptimos específicos de la tarea y del modelo mediante un refinamiento reflexivo iterativo y una evaluación cuantitativa. Utilizando los pares de *prompts* calibrados resultantes para los modelos fuente y objetivo, PromptBridge aprende un mapeo de *prompts* entre modelos. En el momento de la prueba, es decir, para una tarea no vista, dado un *prompt* del modelo fuente, este mapeo produce directamente un *prompt* optimizado para el modelo objetivo. Los experimentos en entornos de agente único y multi-agente muestran que PromptBridge mejora consistentemente la precisión en las tareas posteriores (*downstream*) mientras reduce el esfuerzo de migración. El código estará disponible próximamente.
La escalado de cómputo en tiempo de prueba ha surgido como un paradigma poderoso para mejorar el razonamiento matemático en modelos de lenguaje grandes (LLM) mediante la asignación de recursos computacionales adicionales durante la inferencia. Sin embargo, los métodos actuales emplean una distribución uniforme de recursos en todos los subproblemas de razonamiento, creando cuellos de botella fundamentales donde los subproblemas desafiantes reciben atención insuficiente mientras que las operaciones rutinarias consumen recursos desproporcionados. Esta asignación uniforme crea cuellos de botella de rendimiento donde los recursos computacionales adicionales producen rendimientos decrecientes. Inspirados por la teoría del proceso dual, proponemos SCALE (Asignación Selectiva de Recursos), un marco que asigna recursos computacionales de manera selectiva según la dificultad del subproblema. SCALE opera a través de cuatro etapas: (1) descomposición del problema en subproblemas de razonamiento secuenciales, (2) evaluación de la dificultad de cada subproblema para distinguir entre operaciones rutinarias y subproblemas computacionalmente desafiantes, (3) asignación selectiva del modo de procesamiento entre Sistema 1 para subproblemas simples y Sistema 2 para los complejos, y (4) ejecución secuencial con propagación de contexto. Al concentrar recursos en subproblemas desafiantes mientras se procesan las operaciones rutinarias de manera eficiente, SCALE logra mejoras sustanciales de rendimiento con una utilización superior de recursos. Experimentos exhaustivos demuestran que SCALE supera significativamente a los baselines de escalado uniforme, logrando mejoras en precisión de hasta 13.75 puntos porcentuales (del 57.50% al 71.25% en AIME25) mientras reduce los costos computacionales en un 33%-53%, representando un avance importante en el escalado en tiempo de prueba que aborda las limitaciones fundamentales de los enfoques actuales.
Los modelos multilingües de texto a imagen (T2I) han avanzado rápidamente en cuanto a realismo visual y alineación semántica, y hoy en día se utilizan ampliamente. Sin embargo, los resultados varían según los contextos culturales: dado que el lenguaje conlleva connotaciones culturales, las imágenes sintetizadas a partir de instrucciones multilingües deberían preservar la consistencia cultural translingüe. Realizamos un análisis exhaustivo que muestra que los modelos T2I actuales a menudo producen resultados culturalmente neutros o sesgados hacia el inglés con instrucciones multilingües. Los análisis de dos modelos representativos indican que el problema no surge de un conocimiento cultural faltante, sino de una activación insuficiente de las representaciones relacionadas con la cultura. Proponemos un método de sondeo que localiza las señales sensibles a la cultura en un pequeño conjunto de neuronas de unas pocas capas fijas. Guiados por este hallazgo, introducimos dos estrategias de alineación complementarias: (1) una activación cultural en tiempo de inferencia que amplifica las neuronas identificadas sin ajustar el modelo base; y (2) una mejora cultural dirigida por capas que actualiza únicamente las capas culturalmente relevantes. Los experimentos en nuestro CultureBench demuestran mejoras consistentes respecto a líneas base sólidas en consistencia cultural, preservando al mismo tiempo la fidelidad y la diversidad.
El rápido crecimiento de tokens visuales en los modelos de lenguaje grandes multimodales (MLLMs) conduce a un consumo excesivo de memoria y una latencia de inferencia elevada, especialmente al procesar imágenes y videos de alta resolución. La poda de tokens es una técnica utilizada para mitigar este problema eliminando redundancias, pero los métodos existentes a menudo ignoran la relevancia respecto a la consulta del usuario o sufren las limitaciones de los mecanismos de atención, lo que reduce su adaptabilidad y efectividad. Para abordar estos desafíos, proponemos Script, un método de poda plug-and-play que no requiere reentrenamiento y generaliza a través de diversos MLLMs. Script comprende dos módulos: un módulo de poda con estructura de grafo que elimina tokens visuales redundantes, y un módulo de poda semántica condicionado por la consulta que preserva la información visual relevante para la misma. En conjunto, mejoran el rendimiento en tareas multimodales. Los experimentos en catorce benchmarks de tareas de comprensión de imágenes y videos muestran que Script logra consistentemente una mayor eficiencia del modelo y una precisión predictiva superior en comparación con los métodos de poda existentes. En LLaVA-NeXT-7B, alcanza una aceleración de prellenado de hasta 6.8x y una reducción de 10x en las operaciones de punto flotante (FLOPs), manteniendo el 96.88% del rendimiento original.
La recuperación de propiedades geométricas a nivel de píxel a partir de una única imagen es un problema intrínsecamente mal planteado debido a la ambigüedad de apariencia y a las asignaciones no inyectivas entre las observaciones 2D y las estructuras 3D. Si bien los modelos de regresión discriminativa logran un alto rendimiento mediante supervisión a gran escala, su éxito está limitado por la escala, calidad y diversidad de los datos disponibles, así como por un razonamiento físico limitado. Los modelos de difusión recientes exhiben potentes *priors* del mundo que codifican geometría y semántica aprendidas de datos masivos de imagen-texto; sin embargo, reutilizar directamente su formulación generativa estocástica es subóptimo para la inferencia geométrica determinista: la primera está optimizada para la generación de imágenes diversas y de alta fidelidad, mientras que la segunda requiere predicciones estables y precisas. En este trabajo, proponemos Lotus-2, un marco determinista de dos etapas para la predicción densa geométrica estable, precisa y de grano fino, con el objetivo de proporcionar un protocolo de adaptación óptimo para explotar completamente los *priors* generativos preentrenados. Específicamente, en la primera etapa, el predictor principal emplea una formulación determinista de un solo paso con un objetivo de datos limpios y un módulo liviano de continuidad local (LCM) para generar estructuras globalmente coherentes sin artefactos de grilla. En la segunda etapa, el agudizador de detalles realiza un refinamiento de flujo rectificado multi-paso y restringido dentro de la variedad definida por el predictor principal, mejorando la geometría de grano fino mediante una correspondencia de flujo determinista libre de ruido. Utilizando solo 59K muestras de entrenamiento, menos del 1% de los conjuntos de datos a gran escala existentes, Lotus-2 establece nuevos resultados de vanguardia en estimación de profundidad monocular y una predicción de normales de superficie altamente competitiva. Estos resultados demuestran que los modelos de difusión pueden servir como *priors* deterministas del mundo, permitiendo un razonamiento geométrico de alta calidad más allá de los paradigmas tradicionales discriminativos y generativos.
La comprensión de vídeo en streaming requiere que los modelos no solo procesen fotogramas entrantes temporalmente, sino que también anticipen la intención del usuario para aplicaciones realistas como las gafas de realidad aumentada. Si bien los benchmarks de streaming anteriores evalúan el razonamiento temporal, ninguno mide si los MLLM pueden interpretar o aprovechar las señales de la mirada humana en un entorno de streaming. Para llenar este vacío, presentamos StreamGaze, el primer benchmark diseñado para evaluar cuán efectivamente los MLLM utilizan la mirada para el razonamiento temporal y proactivo en vídeos en streaming. StreamGaze introduce tareas pasadas, presentes y proactivas guiadas por la mirada que evalúan integralmente la comprensión de vídeo en streaming. Estas tareas evalúan si los modelos pueden utilizar la mirada en tiempo real para seguir la atención cambiante e inferir las intenciones del usuario solo a partir de los fotogramas observados en el pasado y actualmente. Para construir StreamGaze, desarrollamos un pipeline de generación de preguntas y respuestas (QA) de vídeo y mirada que alinea vídeos en primera persona con trayectorias de mirada crudas mediante extracción de fijaciones, *prompting* visual específico de regiones y construcción de *scanpaths*. Este pipeline produce pares de QA espaciotemporalmente fundamentados que reflejan estrechamente la dinámica perceptual humana. En todas las tareas de StreamGaze, observamos brechas sustanciales de rendimiento entre los MLLM más avanzados y el rendimiento humano, revelando limitaciones fundamentales en el razonamiento temporal basado en la mirada, el modelado de intenciones y la predicción proactiva. Además, proporcionamos análisis detallados de las estrategias de *prompting* con mirada, los comportamientos de razonamiento y los modos de fallo específicos de cada tarea, ofreciendo una visión más profunda de por qué los MLLM actuales tienen dificultades y qué capacidades deben desarrollar los modelos futuros. Todos los datos y código se publicarán públicamente para apoyar la investigación continua en la comprensión de vídeo en streaming guiada por la mirada.
Los modelos recientes de razonamiento multimodal, inspirados en DeepSeek-R1, han avanzado significativamente los sistemas de visión y lenguaje. Sin embargo, en tareas de percepción remota (RS), observamos un razonamiento pseudo-generalizado: los modelos narran el proceso de razonamiento en lugar de razonar genuinamente hacia la respuesta correcta basándose en evidencia visual. Atribuimos esto al Efecto Mirada, donde una percepción única y gruesa de imágenes RS a gran escala resulta en una comprensión incompleta y un razonamiento basado en la autoconsistencia lingüística en lugar de en la evidencia visual. Para abordar esto, proponemos RS-EoT (Evidencia-del-Pensamiento en Percepción Remota), un paradigma iterativo de búsqueda de evidencia visual impulsado por el lenguaje. Para inculcar este paradigma, proponemos SocraticAgent, un sistema multiagente de autojuego que sintetiza trazas de razonamiento mediante ciclos alternos de razonamiento e inspección visual. Para mejorar y generalizar estos patrones, proponemos una estrategia RL progresiva de dos etapas: primero, RL en tareas de Grounding de grano fino para mejorar las capacidades de RS-EoT, seguido de RL en VQA de RS para generalizar a escenarios de comprensión más amplios. Los experimentos muestran que RS-EoT logra un rendimiento de vanguardia en múltiples benchmarks de VQA y grounding de RS. Los análisis revelan claros ciclos iterativos de razonamiento y búsqueda de evidencia, confirmando que RS-EoT mitiga el Efecto Mirada y permite un razonamiento genuinamente basado en evidencia. Nuestro código, datos y modelos están disponibles en https://geox-lab.github.io/Asking_like_Socrates.
Los agentes de interfaz gráfica de usuario (GUI) requieren un uso efectivo del contexto histórico para realizar tareas de navegación secuencial. Si bien incorporar acciones y observaciones pasadas puede mejorar la toma de decisiones, el uso ingenuo del historial completo genera una sobrecarga computacional excesiva y distracción por información irrelevante. Para abordar esto, presentamos HiconAgent, un agente GUI entrenado con Optimización de Políticas Consciente del Contexto Histórico (HCPO) para un uso eficiente y efectivo de la información histórica. HCPO optimiza el uso del historial tanto en el muestreo como en las actualizaciones de políticas mediante dos componentes complementarios: (1) El Muestreo Dinámico de Contexto (DCS) presenta al agente historiales de longitud variable durante el muestreo, permitiendo un uso adaptativo del contexto más relevante; (2) La Compresión de Historial Guiada por Anclas (AHC) refina la fase de actualización de políticas con una estrategia de doble rama donde la rama comprimida elimina las observaciones del historial manteniendo las acciones históricas como anclas de flujo de información. Las ramas comprimida y no comprimida se acoplan mediante una pérdida de alineación mejorada con historial para imponer un uso consistente del historial manteniendo la eficiencia. Los experimentos en benchmarks principales de navegación GUI demuestran un rendimiento sólido. A pesar de ser más pequeño, HiconAgent-3B supera a GUI-R1-7B en +8.46% de precisión de grounding y +11.32% de tasa de éxito por paso en GUI-Odyssey, mientras que logra resultados comparables en AndroidControl y AITW con hasta 2.47x de aceleración computacional y una reducción del 60% en FLOPS.
Los Modelos de Razonamiento a Gran Escala (LRM) logran un rendimiento sólido en matemáticas, generación de código y planificación de tareas, pero su dependencia de largas cadenas de tokens verbosos de "pensamiento" conlleva una alta latencia, redundancia y trayectorias de razonamiento incoherentes. Inspirados por la Hipótesis del Lenguaje del Pensamiento, que postula que el razonamiento humano opera sobre un lenguaje mental simbólico y compositivo llamado Mentalés, presentamos un marco que entrena a los modelos para razonar en un estilo igualmente compacto. El Mentalés codifica el razonamiento abstracto como tokens ultracomprimidos y estructurados, permitiendo a los modelos resolver problemas complejos con muchos menos pasos. Para mejorar tanto la eficiencia como la precisión, proponemos la OPTIMIZACIÓN DE PREFERENCIA POR LONGITUD REDUCIDA (SLPO), un método de aprendizaje por refuerzo que premia soluciones concisas que mantienen la corrección, permitiendo al mismo tiempo un razonamiento más extenso cuando sea necesario. Aplicado a modelos alineados con el Mentalés, SLPO produce tasas de compresión significativamente más altas al permitir un razonamiento conciso que preserva los beneficios del pensamiento detallado sin la sobrecarga computacional. En diversos benchmarks, como AIME 2024 y 2025, MinervaMath, OlympiadBench, Math500 y AMC, nuestros modelos ORION producen trazas de razonamiento con 4-16 veces menos tokens, logran una latencia de inferencia hasta 5 veces menor y reducen los costes de entrenamiento entre 7 y 9 veces en comparación con el modelo DeepSeek R1 Distilled, manteniendo entre el 90% y el 98% de su precisión. ORION también supera a Claude y ChatGPT-4o hasta en un 5% en precisión, manteniendo una compresión de 2x. Estos resultados demuestran que el razonamiento comprimido al estilo del Mentalés supone un paso hacia la eficiencia cognitiva similar a la humana, permitiendo un razonamiento en tiempo real y rentable sin sacrificar la precisión.
El paradigma de inversión-denoising, basado en modelos de difusión, sobresale en diversas tareas de edición y restauración de imágenes. Revisamos su mecanismo y revelamos un factor crítico y pasado por alto en la degradación de la reconstrucción: el error de aproximación del ruido. Este error surge de aproximar el ruido en el paso t con la predicción del paso t-1, lo que resulta en una severa acumulación de errores durante todo el proceso de inversión. Introducimos Mínimos Cuadrados Ortogonales de Proyección para una Inversión Robusta y Adaptativa (POLARIS), que reformula la inversión, transformándola de un problema de compensación de errores a un problema de origen del error. En lugar de optimizar *embeddings* o códigos latentes para compensar la deriva acumulada, POLARIS trata la escala de guía ω como una variable paso a paso y deriva una fórmula matemáticamente fundamentada para minimizar el error de inversión en cada paso. Notablemente, POLARIS mejora la calidad del latente de inversión con solo una línea de código. Con un overhead de rendimiento insignificante, mitiga sustancialmente los errores de aproximación del ruido y mejora consistentemente la precisión de las tareas posteriores.
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) ha avanzado la capacidad de razonamiento de los modelos de lenguaje grandes (LLMs), permitiendo agentes autónomos que pueden llevar a cabo un razonamiento efectivo multi-turno e integrado con herramientas. Si bien las instrucciones sirven como el protocolo principal para definir a los agentes, el RLVR típicamente depende de instrucciones estáticas y diseñadas manualmente. Sin embargo, esas instrucciones pueden ser subóptimas para el modelo base, y la instrucción óptima puede cambiar a medida que la política del agente mejora y explora la interacción con el entorno. Para cerrar esta brecha, presentamos INSPO, un novedoso marco de co-evolución Instrucción-Política que integra la optimización de instrucciones como un componente dinámico del bucle de aprendizaje por refuerzo (RL). INSPO mantiene una población dinámica de candidatos de instrucción que son muestreados con preguntas, donde las señales de recompensa en los bucles de RL se atribuyen automáticamente a cada instrucción, y los candidatos de bajo rendimiento son podados periódicamente. Nuevas instrucciones son generadas y verificadas a través de un mecanismo de reflexión *on-policy*, donde un optimizador basado en LLM analiza experiencias pasadas de un búfer de repetición y evoluciona estrategias más efectivas dada la política actual. Realizamos experimentos exhaustivos en tareas de recuperación y razonamiento multi-turno, demostrando que INSPO supera sustancialmente a fuertes líneas base que dependen de instrucciones estáticas. INSPO descubre instrucciones innovadoras que guían al agente hacia trayectorias de razonamiento más estratégicas, logrando ganancias sustanciales de rendimiento con solo un aumento marginal en la sobrecarga computacional.
Los asistentes de IA clínicos especializados se están incorporando rápidamente a la práctica médica, presentándose a menudo como más seguros o confiables que los modelos de lenguaje extenso (LLM) de propósito general. Sin embargo, a diferencia de los modelos de vanguardia, estas herramientas clínicas rara vez son sometidas a evaluaciones cuantitativas e independientes, lo que genera una brecha crítica de evidencia a pesar de su creciente influencia en el diagnóstico, la clasificación de pacientes (triage) y la interpretación de guías clínicas. Evaluamos dos sistemas de IA clínica ampliamente implementados (OpenEvidence y UpToDate Expert AI) frente a tres LLM generalistas de última generación (GPT-5, Gemini 3 Pro y Claude Sonnet 4.5) utilizando un mini-benchmark de 1,000 ítems que combina tareas de MedQA (conocimiento médico) y HealthBench (alineación con criterios clínicos). Los modelos generalistas superaron consistentemente a las herramientas clínicas, con GPT-5 logrando las puntuaciones más altas, mientras que OpenEvidence y UpToDate mostraron deficiencias en exhaustividad, calidad de la comunicación, conciencia contextual y razonamiento de seguridad basado en sistemas. Estos hallazgos revelan que las herramientas comercializadas para el apoyo a la decisión clínica pueden a menudo estar por detrás de los LLM de vanguardia, subrayando la necesidad urgente de una evaluación transparente e independiente antes de su implementación en flujos de trabajo asistenciales.
La escalado en tiempo de prueba (TTS) —la asignación dinámica de capacidad de cómputo durante la inferencia— es una dirección prometedora para mejorar el razonamiento en los modelos de lenguaje grandes (LLMs). Sin embargo, falta una comparación sistemática de las estrategias TTS conocidas en condiciones idénticas, y la influencia del tipo de modelo y la dificultad del problema en el rendimiento sigue sin estar clara. Para abordar estas lagunas, realizamos el primer estudio a gran escala de TTS, que abarca más de treinta mil millones de tokens generados utilizando ocho LLMs de código abierto (de 7B a 235B parámetros), en cuatro conjuntos de datos de razonamiento. Observamos tres tendencias consistentes: (1) ninguna estrategia TTS domina universalmente; (2) los modelos de razonamiento exhiben patrones distintos de calidad de traza según la dificultad del problema y la longitud de la traza, formando categorías de horizonte corto y horizonte largo; y (3) para un tipo de modelo dado, el rendimiento TTS óptimo escala monótonamente con el presupuesto de cómputo. Con base en estas observaciones, ofrecemos una receta práctica para seleccionar la mejor estrategia TTS, considerando la dificultad del problema, el tipo de modelo y el presupuesto de cómputo, proporcionando así una guía práctica para un escalado efectivo en tiempo de inferencia.
Los modelos recientes de edición de imágenes poseen capacidades inteligentes de última generación, facilitando la edición de imágenes basada en cognición y creatividad. Sin embargo, los puntos de referencia existentes ofrecen un ámbito de evaluación demasiado limitado, sin lograr evaluar de manera integral estas capacidades avanzadas. Para abordar esto, presentamos WiseEdit, un punto de referencia intensivo en conocimiento para la evaluación integral de la edición de imágenes basada en cognición y creatividad, que presenta una profundidad de tarea profunda y una amplitud de conocimiento amplia. Haciendo una analogía con la creación cognitiva humana, WiseEdit descompone la edición de imágenes en tres pasos en cascada: Conciencia, Interpretación e Imaginación, cada uno correspondiente a una tarea que supone un desafío para que los modelos completen en el paso específico. También abarca tareas complejas, donde ninguno de los tres pasos puede completarse fácilmente. Además, WiseEdit incorpora tres tipos fundamentales de conocimiento: conocimiento declarativo, procedimental y metacognitivo. En última instancia, WiseEdit comprende 1.220 casos de prueba, revelando objetivamente las limitaciones de los modelos de edición de imágenes SoTA en capacidades de razonamiento cognitivo basado en conocimiento y composición creativa. El punto de referencia, el código de evaluación y las imágenes generadas por cada modelo se harán públicos próximamente. Página del proyecto: https://qnancy.github.io/wiseedit_project_page/.
Aunque los modelos predominantes de generación de vídeo controlado por cámara pueden producir resultados cinematográficos, elevarlos directamente a la generación de vídeos multi-vista sincronizados temporalmente, con alta fidelidad y consistencia 3D, sigue siendo un desafío. Esta capacidad es fundamental para dominar mundos 4D. Algunos trabajos recurren a la aumentación de datos o a la optimización en tiempo de prueba, pero estas estrategias están limitadas por una generalización limitada del modelo y problemas de escalabilidad. Para ello, proponemos ChronosObserver, un método libre de entrenamiento que incluye un Hiperspacio del Estado Mundial para representar las restricciones espacio-temporales de una escena de mundo 4D, y un Muestreo Guiado por Hiperspacio para sincronizar las trayectorias de muestreo de difusión de múltiples vistas utilizando el hiperspacio. Los resultados experimentales demuestran que nuestro método logra la generación de vídeos multi-vista sincronizados temporalmente, con alta fidelidad y consistencia 3D, sin necesidad de entrenar o ajustar los modelos de difusión.
Introducimos un marco novedoso que aprende directamente una base espectral para el análisis de formas y variedades a partir de datos no estructurados, eliminando la necesidad de la selección tradicional de operadores, la discretización y los solucionadores de autovalores. Fundamentado en la teoría de aproximación óptima, entrenamos una red para descomponer un operador de aproximación implícita minimizando el error de reconstrucción en la base aprendida sobre una distribución elegida de funciones de prueba. Para distribuciones adecuadas, estas pueden verse como una aproximación del operador Laplaciano y su descomposición en autovalores, fundamentales en el procesamiento geométrico. Además, nuestro método recupera de manera unificada no solo la base espectral, sino también la densidad de muestreo de la métrica implícita y los autovalores del operador subyacente. Notablemente, nuestro método no supervisado no realiza suposiciones sobre la variedad de datos, como la mallado o la dimensionalidad de la variedad, lo que le permite escalar a conjuntos de datos arbitrarios de cualquier dimensión. En nubes de puntos situadas sobre superficies en 3D y variedades de imágenes de alta dimensión, nuestro enfoque produce bases espectrales significativas, que pueden asemejarse a las del Laplaciano, sin la construcción explícita de un operador. Al reemplazar la selección, construcción y descomposición en autovalores tradicionales de operadores con un enfoque basado en aprendizaje, nuestro marco ofrece una alternativa fundamentada y guiada por datos a los flujos de trabajo convencionales. Esto abre nuevas posibilidades en el procesamiento geométrico para datos no estructurados, particularmente en espacios de alta dimensión.
Un objetivo de larga data en visión por computadora es modelar movimientos a partir de vídeos, mientras que las representaciones subyacentes a estos movimientos, es decir, las interacciones físicas invisibles que causan que los objetos se deformen y muevan, permanecen en gran medida inexploradas. En este artículo, estudiamos cómo recuperar las fuerzas invisibles a partir de observaciones visuales, por ejemplo, estimar el campo de viento observando una hoja caer al suelo. Nuestra innovación clave es un marco de gráficos inversos diferenciable de extremo a extremo, que modela conjuntamente la geometría del objeto, las propiedades físicas y las interacciones directamente a partir de vídeos. A través de la retropropagación, nuestro enfoque permite la recuperación de representaciones de fuerza a partir de los movimientos de los objetos. Validamos nuestro método en escenarios tanto sintéticos como del mundo real, y los resultados demuestran su capacidad para inferir campos de fuerza plausibles a partir de vídeos. Además, mostramos las aplicaciones potenciales de nuestro enfoque, incluyendo la generación y edición de vídeos basada en física. Esperamos que nuestro enfoque arroje luz sobre la comprensión y modelado del proceso físico detrás de los píxeles, tendiendo un puente entre la visión y la física. Por favor, consulte más resultados en vídeo en nuestra {página del proyecto} https://chaoren2357.github.io/seeingthewind/.
Si bien los grandes modelos de lenguaje sobresalen en tareas multilingües de alta disponibilidad de recursos, las lenguas índicas con recursos escasos y extremadamente escasos siguen estando severamente subevaluadas. Presentamos IndicParam, un benchmark curado manualmente que contiene más de 13,000 preguntas de opción múltiple que cubren 11 de estas lenguas (Nepalí, Gujarati, Marathi, Odia como lenguas de recursos escasos; Dogri, Maithili, Rajasthani, Sánscrito, Bodo, Santali, Konkani como lenguas de recursos extremadamente escasos) más un conjunto de código mixto Sánscrito-Inglés. Evaluamos 19 LLMs, tanto propietarios como de pesos abiertos, lo que revela que incluso el mejor desempeño, GPT-5, alcanza solo un 45.0% de precisión promedio, seguido por DeepSeek-3.2 (43.1%) y Claude-4.5 (42.7%). Además, etiquetamos cada pregunta como orientada al conocimiento o puramente lingüística para discriminar el recuerdo factual de la competencia gramatical. Asimismo, evaluamos la capacidad de los LLMs para manejar diversos formatos de preguntas —como emparejamiento basado en listas, pares de afirmación-razón y ordenamiento de secuencias— junto con las preguntas de opción múltiple convencionales. IndicParam proporciona información valiosa sobre las limitaciones de la transferencia transcultural y establece un punto de referencia desafiante para las lenguas índicas. El conjunto de datos está disponible en https://huggingface.co/datasets/bharatgenai/IndicParam. Los scripts para ejecutar el benchmark se encuentran en https://github.com/ayushbits/IndicParam.
Los métodos actuales de visualización de historias tienden a posicionar a los sujetos únicamente mediante texto y enfrentan desafíos para mantener la coherencia artística. Para abordar estas limitaciones, presentamos DreamingComics, un marco de visualización de historias consciente del diseño de página. Partimos de un modelo preentrenado de transformador de difusión de video (DiT), aprovechando sus antecedentes espacio-temporales para mejorar la coherencia de identidad y estilo. Para el control de posición basado en diseño, proponemos RegionalRoPE, un esquema de codificación posicional consciente de la región que reindexa los embeddings según el diseño objetivo. Adicionalmente, introducimos una pérdida por condición enmascarada para restringir aún más las características visuales de cada sujeto a su región designada. Para inferir diseños a partir de guiones en lenguaje natural, integramos un generador de diseños basado en LLM entrenado para producir diseños de estilo cómic, permitiendo un condicionamiento de diseño flexible y controlable. Presentamos una evaluación exhaustiva de nuestro enfoque, mostrando un aumento del 29.2% en la coherencia de personajes y del 36.2% en la similitud de estilo en comparación con métodos anteriores, mientras se exhibe una alta precisión espacial. Nuestra página del proyecto está disponible en https://yj7082126.github.io/dreamingcomics/
El pensamiento causal permite a los seres humanos comprender no solo lo que se ve, sino por qué sucede. Para replicar esta capacidad en los sistemas modernos de IA, presentamos la tarea de descubrimiento causal visual. Esta requiere que los modelos infieran relaciones de causa y efecto entre entidades visuales en diversos escenarios, en lugar de simplemente percibir su presencia. Con este fin, primero construimos el conjunto de datos Visual Causal Graph (VCG-32K), una colección a gran escala de más de 32,000 imágenes anotadas con grafos causales a nivel de entidad, y además desarrollamos CauSight, un novedoso modelo de visión y lenguaje para realizar descubrimiento causal visual mediante un razonamiento consciente de la causalidad. Nuestra metodología de entrenamiento integra tres componentes: (1) curación de datos de entrenamiento a partir de VCG-32K, (2) Árbol-del-Pensamiento-Causal (ToCT) para sintetizar trayectorias de razonamiento, y (3) aprendizaje por refuerzo con una recompensa causal diseñada para refinar la política de razonamiento. Los experimentos muestran que CauSight supera a GPT-4.1 en descubrimiento causal visual, logrando una mejora de rendimiento de más del triple (una ganancia absoluta del 21%). Nuestro código, modelo y conjunto de datos son completamente de código abierto en la página del proyecto: https://github.com/OpenCausaLab/CauSight.
Recientemente, las estrategias de ajuste fino en dos etapas, por ejemplo, adquirir conocimientos esenciales de conducción mediante ajuste fino supervisado (SFT) y mejorar aún más la toma de decisiones y la planificación mediante ajuste fino por refuerzo (RFT), han mostrado un gran potencial para avanzar en el paradigma de la conducción autónoma (AD) basada en el conocimiento. Sin embargo, la naturaleza del aprendizaje del SFT aún limita la generalización del razonamiento, restringiendo así todo el potencial del rendimiento de conducción. Mientras tanto, los enfoques actuales de RFT se aplican principalmente a tareas posteriores, dado que la comprensión de escenas es un problema abierto donde las recompensas correspondientes son difíciles de cuantificar. Para abordar estas limitaciones, proponemos OpenREAD, un marco de conducción autónoma (AD) basado en un modelo de lenguaje visual (VLM) reforzado con razonamiento abierto (OPEN-ended REasoning reinforced), que permite un RFT integral de extremo a extremo en todo el espectro, desde el razonamiento de alto nivel hasta la planificación de trayectorias de bajo nivel. Específicamente, comenzamos construyendo anotaciones de Cadena de Pensamiento (CoT) a gran escala en conjuntos de datos de conocimiento de código abierto relacionados con la conducción, y empleamos el potente modelo de lenguaje grande (LLM) Qwen3 como crítico en el RFT para cuantificar la calidad del razonamiento en preguntas abiertas durante el modelado de recompensas. Experimentos exhaustivos confirman que el RFT conjunto de extremo a extremo produce mejoras sustanciales tanto en tareas iniciales como posteriores, permitiendo a OpenREAD alcanzar un rendimiento de vanguardia en benchmarks de razonamiento y planificación.
Se ha logrado un progreso significativo en los modelos de lenguaje grande (LLM) de traducción de solo texto de código abierto, con mejor cobertura lingüística y calidad. Sin embargo, estos modelos solo pueden utilizarse en pipelines en cascada para la traducción de voz (ST), realizando primero el reconocimiento automático del habla seguido de la traducción. Esto introduce una latencia adicional, que es particularmente crítica en la traducción simultánea de voz (SimulST), e impide que el modelo aproveche el contexto multimodal, como las imágenes, que pueden ayudar en la desambiguación. Los modelos fundacionales multimodales preentrenados (MMFM) ya poseen fuertes capacidades de percepción y razonamiento en múltiples modalidades, pero generalmente carecen de la cobertura multilingüe y el rendimiento de traducción especializado de los LLM de traducción dedicados. Para construir un sistema de traducción multimodal efectivo, proponemos un enfoque de extremo a extremo que fusiona los MMFM con los LLM de traducción. Introducimos una novedosa estrategia de fusión que conecta los estados ocultos de múltiples capas de un MMFM preentrenado a un LLM de traducción, permitiendo un entrenamiento conjunto de extremo a extremo. El modelo resultante, OmniFusion, construido sobre Omni 2.5-7B como MMFM y SeedX PPO-7B como LLM de traducción, puede realizar traducciones de voz a texto, voz e imagen a texto, y texto e imagen a texto. Los experimentos demuestran que OmniFusion aprovecha efectivamente tanto las entradas de audio como las visuales, logra una reducción de latencia de 1 segundo en SimulST en comparación con los pipelines en cascada y también mejora la calidad general de la traducción. El código está disponible en https://github.com/saikoneru/OmniFusion.
El movimiento de cámara y de objetos es fundamental para la narrativa de un video. Sin embargo, editar con precisión estos movimientos capturados sigue siendo un desafío significativo, especialmente bajo movimientos complejos de objetos. Los enfoques actuales de imagen a video (I2V) controlados por movimiento a menudo carecen de contexto de escena completa para una edición de video consistente, mientras que los métodos de video a video (V2V) proporcionan cambios de punto de vista o traslación básica de objetos, pero ofrecen un control limitado sobre el movimiento granular de los objetos. Presentamos un marco V2V condicionado por seguimiento que permite la edición conjunta del movimiento de cámara y de objetos. Logramos esto condicionando un modelo de generación de video sobre un video fuente y pares de trayectorias de puntos 3D que representan los movimientos fuente y objetivo. Estas trayectorias 3D establecen correspondencias dispersas que transfieren un contexto enriquecido desde el video fuente a nuevos movimientos, preservando al mismo tiempo la coherencia espacio-temporal. Crucialmente, en comparación con las trayectorias 2D, las trayectorias 3D proporcionan indicios de profundidad explícitos, permitiendo al modelo resolver el orden de profundidad y manejar oclusiones para una edición precisa del movimiento. Entrenado en dos etapas con datos sintéticos y reales, nuestro modelo admite diversas ediciones de movimiento, incluyendo la manipulación conjunta de cámara/objeto, transferencia de movimiento y deformación no rígida, desbloqueando un nuevo potencial creativo en la edición de video.
La creciente prevalencia del cáncer de tiroides a nivel mundial ha impulsado el desarrollo de diversos métodos de detección asistida por computadora. La segmentación precisa de los nódulos tiroideos es un primer paso crítico en el desarrollo de sistemas de apoyo a la decisión clínica asistidos por IA. Este estudio se centra en la segmentación por instancias de nódulos tiroideos utilizando algoritmos YOLOv5 en imágenes de ultrasonido. Evaluamos múltiples variantes de YOLOv5 (Nano, Pequeño, Mediano, Grande y XGrande) en dos versiones de conjuntos de datos, con y sin imágenes Doppler. El algoritmo YOLOv5-Grande logró el mayor rendimiento con un índice de Dice del 91% y un mAP de 0,87 en el conjunto de datos que incluía imágenes Doppler. Cabe destacar que nuestros resultados demuestran que las imágenes Doppler, que los médicos suelen excluir, pueden mejorar significativamente el rendimiento de la segmentación. El modelo YOLOv5-Pequeño alcanzó un índice de Dice del 79% cuando se excluyeron las imágenes Doppler, mientras que su inclusión mejoró el rendimiento en todas las variantes del modelo. Estos hallazgos sugieren que la segmentación por instancias con YOLOv5 proporciona un enfoque efectivo en tiempo real para la detección de nódulos tiroideos, con potenciales aplicaciones clínicas en sistemas de diagnóstico automatizado.
Presentamos decodificadores basados en Conformer para la competición LibriBrain 2025 PNPL, centrándonos en dos tareas fundamentales de MEG: Detección de Voz y Clasificación de Fonemas. Nuestro enfoque adapta un Conformer compacto a las señales MEG crudas de 306 canales, utilizando una capa de proyección convolucional ligera y cabezales específicos para cada tarea. Para la Detección de Voz, una técnica SpecAugment orientada a MEG proporcionó una primera exploración de aumento de datos específico para MEG. Para la Clasificación de Fonemas, utilizamos una ponderación de clases inversa a la raíz cuadrada y un cargador de agrupación dinámica para manejar ejemplos promediados de 100 muestras. Además, una normalización simple a nivel de instancia resultó crucial para mitigar los cambios de distribución en la división de holdout. Utilizando las divisiones oficiales de la pista Estándar y F1-macro para la selección de modelos, nuestros mejores sistemas alcanzaron un 88,9% (Voz) y un 65,8% (Fonemas) en el ranking, superando los baselines de la competición y situándose entre los 10 primeros en ambas tareas. Para más detalles de implementación, la documentación técnica, el código fuente y los checkpoints están disponibles en https://github.com/neural2speech/libribrain-experiments.
El Modelo y Notación de Procesos de Negocio (BPMN) es un estándar ampliamente adoptado para representar flujos de trabajo empresariales complejos. Si bien los diagramas BPMN a menudo se intercambian como imágenes visuales, los métodos existentes se basan principalmente en representaciones XML para el análisis computacional. En este trabajo, presentamos un pipeline que aprovecha los Modelos de Visión y Lenguaje (VLMs) para extraer representaciones estructuradas en JSON de diagramas BPMN directamente desde imágenes, sin requerir archivos fuente del modelo o anotaciones textuales. También incorporamos el reconocimiento óptico de caracteres (OCR) para el enriquecimiento textual y evaluamos las listas de elementos generadas frente a datos de referencia derivados de los archivos XML fuente. Nuestro enfoque permite una extracción robusta de componentes en escenarios donde los archivos fuente originales no están disponibles. Evaluamos múltiples VLMs y observamos mejoras en el rendimiento de varios modelos cuando se utiliza OCR para el enriquecimiento de texto. Además, realizamos extensos análisis estadísticos de los métodos de enriquecimiento basados en OCR y estudios de ablación de prompts, proporcionando una comprensión más clara de su impacto en el rendimiento del modelo.