Artículos de investigación en IA seleccionados diariamente con traducciones
En escenarios reales de respuesta a preguntas sobre videos, estos a menudo solo proporcionan pistas visuales localizadas, mientras que las respuestas verificables se distribuyen en la web abierta; por lo tanto, los modelos deben realizar conjuntamente extracción de pistas entre frames, recuperación iterativa y verificación basada en razonamiento multietapa. Para cerrar esta brecha, construimos el primer benchmark de investigación profunda en video, VideoDR. VideoDR se centra en la respuesta a preguntas de dominio abierto condicionadas por video, que requiere extracción de anclajes visuales entre frames, recuperación web interactiva y razonamiento multietapa sobre evidencia conjunta video-web; mediante una rigurosa anotación humana y control de calidad, obtenemos muestras de investigación profunda en video de alta calidad que abarcan seis dominios semánticos. Evaluamos múltiples modelos de lenguaje grandes multimodales, tanto de código cerrado como abierto, bajo los paradigmas de Flujo de Trabajo y Agéntico, y los resultados muestran que el enfoque Agéntico no es consistentemente superior al de Flujo de Trabajo: sus ventajas dependen de la capacidad de un modelo para mantener los anclajes visuales iniciales a lo largo de largas cadenas de recuperación. Un análisis adicional indica que la deriva de objetivos y la consistencia a largo plazo son los cuellos de botella centrales. En resumen, VideoDR proporciona un benchmark sistemático para estudiar agentes de video en entornos de web abierta y revela los desafíos clave para los agentes de investigación profunda en video de próxima generación.
Si bien los humanos desarrollan habilidades visuales fundamentales mucho antes de adquirir lenguaje, los Modelos de Lenguaje Multimodales (MLLMs) contemporáneos aún dependen en gran medida de conocimientos lingüísticos previos para compensar su frágil comprensión visual. Hemos descubierto un hecho crucial: los MLLMs más avanzados fallan consistentemente en tareas visuales básicas que los humanos, incluso niños de 3 años, pueden resolver sin esfuerzo. Para investigar esta brecha de manera sistemática, presentamos BabyVision, un benchmark diseñado para evaluar las capacidades visuales fundamentales de los MLLMs, independientemente del conocimiento lingüístico. BabyVision abarca una amplia gama de tareas, con 388 ítems divididos en 22 subclases dentro de cuatro categorías clave. Los resultados empíricos y la evaluación humana revelan que los principales MLLMs tienen un rendimiento significativamente inferior al de los humanos de referencia. Gemini3-Pro-Preview obtiene una puntuación de 49.7, quedando por detrás de humanos de 6 años y muy por debajo de la puntuación adulta promedio de 94.1. Estos resultados muestran que, a pesar de su excelente rendimiento en evaluaciones que requieren mucho conocimiento, los MLLMs actuales aún carecen de primitivas visuales fundamentales. El progreso en BabyVision representa un paso hacia capacidades de percepción y razonamiento visual a nivel humano. También exploramos la resolución del razonamiento visual con modelos de generación proponiendo BabyVision-Gen y un kit de herramientas de evaluación automática. Nuestro código y datos del benchmark están disponibles en https://github.com/UniPat-AI/BabyVision para su reproducción.
Introducimos Razonamiento Coordinado en Paralelo (PaCoRe), un marco de entrenamiento e inferencia diseñado para superar una limitación central de los modelos de lenguaje contemporáneos: su incapacidad para escalar el cómputo en tiempo de prueba (TTC, por sus siglas en inglés) más allá del razonamiento secuencial bajo una ventana de contexto fija. PaCoRe se aparta del paradigma secuencial tradicional al impulsar el TTC mediante una exploración masiva en paralelo coordinada a través de una arquitectura de paso de mensajes en múltiples rondas. Cada ronda lanza muchas trayectorias de razonamiento paralelas, compacta sus hallazgos en mensajes acotados por el contexto y sintetiza estos mensajes para guiar la siguiente ronda y, en última instancia, producir la respuesta final. Entrenado de extremo a extremo con aprendizaje por refuerzo a gran escala basado en resultados, el modelo domina las habilidades de síntesis requeridas por PaCoRe y escala a TTC efectivo de múltiples millones de tokens sin exceder los límites del contexto. El enfoque produce mejoras sólidas en diversos dominios, y notablemente lleva el razonamiento más allá de los sistemas de vanguardia en matemáticas: un modelo de 8B alcanza un 94.5% en HMMT 2025, superando el 93.2% de GPT-5 al escalar el TTC efectivo a aproximadamente dos millones de tokens. Liberamos como código abierto los puntos de control del modelo, los datos de entrenamiento y la canalización completa de inferencia para acelerar el trabajo de seguimiento.
Si bien la arquitectura Transformer domina numerosos campos, su complejidad cuadrática de autoatención dificulta su uso en aplicaciones a gran escala. La atención lineal ofrece una alternativa eficiente, pero su aplicación directa a menudo degrada el rendimiento, y las soluciones existentes suelen reintroducir sobrecarga computacional mediante módulos adicionales (por ejemplo, convolución separable en profundidad) que frustran el propósito original. En este trabajo, identificamos un modo de fallo clave en estos métodos: el colapso del contexto global, donde el modelo pierde diversidad representacional. Para abordarlo, proponemos la Atención Lineal Multi-Cabezal (MHLA), que preserva esta diversidad calculando la atención dentro de cabezales divididos a lo largo de la dimensión de tokens. Demostramos que MHLA mantiene una complejidad lineal mientras recupera gran parte del poder expresivo de la atención softmax, y verificamos su eficacia en múltiples dominios, logrando una mejora del 3.6% en clasificación de ImageNet, una ganancia del 6.3% en PLN, una mejora del 12.6% en generación de imágenes y una mejora del 41% en generación de vídeo bajo la misma complejidad temporal.
La programación competitiva presenta grandes desafíos para los LLMs de código debido a sus intensas demandas de razonamiento y alta complejidad lógica. Sin embargo, los LLMs de código actuales aún dependen en gran medida de datos del mundo real, lo que limita su escalabilidad. En este artículo, exploramos un enfoque completamente sintético: entrenar LLMs de código con tareas, soluciones y casos de prueba totalmente generados, para potenciar los modelos de razonamiento de código sin depender de datos del mundo real. Para respaldar esto, aprovechamos la síntesis basada en características para proponer una novedosa canalización de síntesis de datos llamada SynthSmith. SynthSmith muestra un gran potencial para producir tareas diversas y desafiantes, junto con soluciones y pruebas verificadas, compatible tanto con el ajuste fino supervisado como con el aprendizaje por refuerzo. Basándonos en los conjuntos de datos sintéticos SFT y RL propuestos, presentamos la serie de modelos X-Coder, que logra una tasa de aprobación notable de 62.9 avg@8 en LiveCodeBench v5 y 55.8 en v6, superando a DeepCoder-14B-Preview y AReal-boba2-14B a pesar de tener solo 7B de parámetros. Un análisis en profundidad revela que las leyes de escalamiento se mantienen en nuestro conjunto de datos sintético, y exploramos qué dimensiones son más efectivas para escalar. Además, proporcionamos información sobre el aprendizaje por refuerzo centrado en el código y destacamos los factores clave que moldean el rendimiento mediante ablaciones y análisis detallados. Nuestros hallazgos demuestran que escalar datos sintéticos de alta calidad y adoptar un entrenamiento por etapas puede avanzar enormemente el razonamiento de código, al mismo tiempo que mitiga la dependencia de datos de codificación del mundo real.
Los recientes avances en modelos de razonamiento y sistemas de IA agenticos han llevado a una mayor dependencia de información externa diversa. Sin embargo, este cambio introduce contextos de entrada inherentemente ruidosos, una realidad que los benchmarks actuales, excesivamente depurados, no logran capturar. Presentamos NoisyBench, un benchmark integral que evalúa sistemáticamente la robustez de los modelos a través de 11 conjuntos de datos en tareas de RAG, razonamiento, alineación y uso de herramientas, frente a diversos tipos de ruido, incluyendo documentos aleatorios, historiales de chat irrelevantes y distractores negativos difíciles. Nuestra evaluación revela una caída catastrófica del rendimiento de hasta un 80% en modelos de última generación cuando se enfrentan a distractores contextuales. Crucialmente, encontramos que los flujos de trabajo agenticos a menudo amplifican estos errores al confiar excesivamente en salidas ruidosas de herramientas, y que los distractores pueden desencadenar una desalineación emergente incluso sin intención adversarial. Determinamos que el prompting, la ingeniería de contexto, el Fine-Tuning Supervisado (SFT) y el Aprendizaje por Refuerzo con recompensa basada únicamente en el resultado no garantizan la robustez; en contraste, nuestra Recompensa Consciente de la Razonamiento (RARE, por sus siglas en inglés) fortalece significativamente la resiliencia al incentivar la identificación de información útil dentro del ruido. Finalmente, descubrimos una tendencia de escalado inverso donde un mayor cómputo en tiempo de prueba conduce a un peor rendimiento en entornos ruidosos, y demostramos mediante visualización de atención que los modelos se enfocan desproporcionadamente en los tokens distractores, proporcionando insights vitales para construir la próxima generación de agentes robustos y con capacidad de razonamiento.
Los Modelos de Razonamiento de Gran Escala (LRM) logran un rendimiento notable al generar explícitamente cadenas de pensamiento de múltiples pasos, pero esta capacidad conlleva una latencia de inferencia y un coste computacional sustanciales. La inferencia colaborativa ofrece una solución prometedora al asignar selectivamente el trabajo entre modelos ligeros y grandes, aunque persiste un desafío fundamental: determinar cuándo un paso de razonamiento requiere la capacidad de un modelo grande o la eficiencia de uno pequeño. Las estrategias de enrutamiento existentes se basan en probabilidades locales de tokens o en verificación posterior, lo que introduce una sobrecarga significativa en la inferencia. En este trabajo, proponemos una nueva perspectiva sobre la colaboración paso a paso: la dificultad de un paso de razonamiento puede inferirse a partir de su primer token. Inspirados por el fenómeno del "Momento Ajá" en los LRM, demostramos que la entropía del token inicial sirve como un fuerte predictor de la dificultad del paso. Basándonos en esta idea, presentamos GlimpRouter, un marco de colaboración paso a paso que no requiere entrenamiento. GlimpRouter emplea un modelo ligero para generar únicamente el primer token de cada paso de razonamiento y deriva el paso a un modelo más grande solo cuando la entropía del token inicial supera un umbral. Los experimentos en múltiples benchmarks demuestran que nuestro enfoque reduce significativamente la latencia de inferencia mientras preserva la precisión. Por ejemplo, GlimpRouter logra una mejora sustancial del 10.7% en precisión mientras reduce la latencia de inferencia en un 25.9% en comparación con un modelo grande independiente en AIME25. Estos resultados sugieren un mecanismo simple pero efectivo para el razonamiento: asignar el cómputo basándose en un vistazo del pensamiento en lugar de una evaluación completa del paso.
Si bien los Modelos de Visión y Lenguaje (VLM) han impulsado significativamente a los Agentes de Uso Informático (CUA), los marcos actuales presentan deficiencias en cuanto a robustez en flujos de trabajo de largo horizonte y generalización en dominios novedosos. Estas limitaciones surgen de la falta de control granular sobre la curación del contexto visual histórico y la ausencia de una recuperación de tutoriales consciente de lo visual. Para cerrar estas brechas, presentamos OS-Symphony, un marco holístico que comprende un Orquestador que coordina dos innovaciones clave para una automatización robusta: (1) un Agente de Memoria-Reflexión que utiliza una memoria a largo plazo impulsada por hitos para permitir la autocorrección a nivel de trayectoria, mitigando efectivamente la pérdida de contexto visual en tareas de largo horizonte; (2) Agentes de Herramientas Versátiles que incluyen un Buscador Multimodal que adopta un paradigma SeeAct para navegar en un entorno de pruebas basado en navegador y sintetizar tutoriales en vivo y alineados visualmente, resolviendo así los problemas de fidelidad en escenarios no vistos. Los resultados experimentales demuestran que OS-Symphony ofrece ganancias sustanciales de rendimiento en diversas escalas de modelos, estableciendo nuevos resultados de vanguardia en tres puntos de referencia en línea, logrando notablemente un 65.84% en OSWorld.
Los Modelos de Lenguaje de Difusión (DLM) ofrecen una alternativa prometedora para el modelado del lenguaje al permitir una decodificación paralela mediante refinamiento iterativo. Sin embargo, la mayoría de los DLM se basan en enmascaramiento binario rígido y asignaciones discretas de tokens, lo que dificulta la revisión de decisiones tempranas y subutiliza las representaciones probabilísticas intermedias. En este artículo, proponemos EvoToken-DLM, un novedoso enfoque de modelado del lenguaje basado en difusión que reemplaza las máscaras binarias rígidas con distribuciones de tokens suaves y evolutivas. EvoToken-DLM permite una transición progresiva de estados enmascarados a salidas discretas, apoyando una decodificación revisable. Para respaldar eficazmente esta evolución, introducimos una supervisión de trayectoria continua, que alinea los objetivos de entrenamiento con las actualizaciones probabilísticas iterativas. Experimentos exhaustivos en múltiples benchmarks muestran que EvoToken-DLM logra consistentemente un rendimiento superior, superando a sólidas líneas base basadas en difusión y DLM enmascarados. Página web del proyecto: https://aim-uofa.github.io/EvoTokenDLM.
El rápido desarrollo de sistemas de IA interactivos y autónomos marca nuestra entrada en la era agentiva. El entrenamiento y evaluación de agentes en tareas agentivas complejas como la ingeniería de software y el uso de computadoras requiere no solo un cómputo eficiente de modelos, sino también una infraestructura sofisticada capaz de coordinar vastas interacciones agente-entorno. Sin embargo, no existe infraestructura de código abierto que pueda soportar efectivamente el entrenamiento y evaluación a gran escala en este tipo de tareas agentivas complejas. Para abordar este desafío, presentamos MegaFlow, un sistema de orquestación distribuido a gran escala que permite una planificación eficiente, asignación de recursos y gestión detallada de tareas para cargas de trabajo agente-entorno. MegaFlow abstrae la infraestructura de entrenamiento de agentes en tres servicios independientes (Servicio de Modelo, Servicio de Agente y Servicio de Entorno) que interactúan mediante interfaces unificadas, permitiendo un escalado independiente y una asignación flexible de recursos en diversas configuraciones agente-entorno. En nuestros despliegues de entrenamiento de agentes, MegaFlow orquesta exitosamente decenas de miles de tareas de agentes concurrentes mientras mantiene una alta estabilidad del sistema y logra una utilización eficiente de los recursos. Al permitir este entrenamiento de agentes a gran escala, MegaFlow aborda una brecha crítica de infraestructura en el emergente panorama de la IA agentiva.
A medida que los agentes basados en LLM se utilizan cada vez más en interacciones a largo plazo, la memoria acumulativa es crucial para permitir la personalización y mantener la coherencia estilística. Sin embargo, la mayoría de los sistemas existentes adoptan un enfoque de "todo o nada" en el uso de la memoria: incorporar toda la información pasada relevante puede conducir a un Anclaje de Memoria, donde el agente queda atrapado por interacciones pasadas, mientras que excluir la memoria por completo resulta en una subutilización y la pérdida de un historial de interacciones importante. Demostramos que la dependencia de la memoria de un agente puede modelarse como una dimensión explícita y controlable por el usuario. Primero introducimos una métrica conductual de dependencia de memoria para cuantificar la influencia de interacciones pasadas en las salidas actuales. Luego proponemos Steerable Memory Agent, SteeM, un marco que permite a los usuarios regular dinámicamente la dependencia de la memoria, desde un modo de inicio fresco que promueve la innovación hasta un modo de alta fidelidad que sigue estrechamente el historial de interacciones. Experimentos en distintos escenarios demuestran que nuestro enfoque supera consistentemente a la inducción convencional y a las estrategias rígidas de enmascaramiento de memoria, logrando un control más matizado y efectivo para la colaboración personalizada entre humanos y agentes.
A medida que los datos de alta calidad son cada vez más difíciles de obtener, la auto-evolución sin datos ha surgido como un paradigma prometedor. Este enfoque permite que los modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) generen y resuelvan problemas complejos de forma autónoma, mejorando así sus capacidades de razonamiento. Sin embargo, los agentes de búsqueda multi-turno enfrentan dificultades en la auto-evolución sin datos debido a la limitada diversidad de preguntas y a los considerables recursos computacionales requeridos para el razonamiento multi-paso y el uso de herramientas. En este trabajo, presentamos Dr. Zero, un marco que permite a los agentes de búsqueda auto-evolucionar eficazmente sin ningún dato de entrenamiento. En particular, diseñamos un bucle de retroalimentación de auto-evolución en el que un proponente genera preguntas diversas para entrenar a un resolvedor inicializado a partir del mismo modelo base. A medida que el resolvedor evoluciona, incentiva al proponente a producir tareas cada vez más difíciles pero resolubles, estableciendo así un currículum automatizado para refinar a ambos agentes. Para mejorar la eficiencia del entrenamiento, también presentamos la optimización de políticas relativas agrupadas por saltos (HRPO). Este método agrupa preguntas estructuralmente similares para construir líneas de base a nivel de grupo, minimizando efectivamente la sobrecarga de muestreo en la evaluación de la dificultad y solubilidad individual de cada consulta. En consecuencia, HRPO reduce significativamente los requisitos computacionales para el entrenamiento del resolvedor sin comprometer el rendimiento o la estabilidad. Resultados experimentales exhaustivos demuestran que Dr. Zero, operando sin datos, iguala o supera a los agentes de búsqueda totalmente supervisados, probando que capacidades complejas de razonamiento y búsqueda pueden emerger únicamente a través de la auto-evolución.
Los modelos de generación de vídeo, como una forma de modelos del mundo, han surgido como una de las fronteras más emocionantes de la IA, prometiendo a los agentes la capacidad de imaginar el futuro modelando la evolución temporal de escenas complejas. En la conducción autónoma, esta visión da lugar a los modelos del mundo de conducción: simuladores generativos que imaginan futuros del vehículo ego y de otros agentes, permitiendo simulación escalable, pruebas seguras de casos límite y generación de datos sintéticos ricos. Sin embargo, a pesar de la rápida expansión de la actividad investigadora, el campo carece de un benchmark riguroso para medir el progreso y guiar las prioridades. Las evaluaciones existentes siguen siendo limitadas: las métricas genéricas de vídeo pasan por alto factores de imagen críticos para la seguridad; la plausibilidad de trayectorias rara vez se cuantifica; se descuida la coherencia temporal y a nivel de agente; y se ignora la controllabilidad respecto al condicionamiento del vehículo ego. Además, los conjuntos de datos actuales no logran cubrir la diversidad de condiciones requeridas para el despliegue en el mundo real. Para abordar estas lagunas, presentamos DrivingGen, el primer benchmark integral para modelos generativos del mundo de conducción. DrivingGen combina un conjunto de datos de evaluación diverso, seleccionado tanto de conjuntos de datos de conducción como de fuentes de vídeo a escala de internet, que abarca condiciones meteorológicas variadas, momentos del día, regiones geográficas y maniobras complejas, con un conjunto de nuevas métricas que evalúan conjuntamente el realismo visual, la plausibilidad de trayectorias, la coherencia temporal y la controllabilidad. La evaluación comparativa de 14 modelos de última generación revela compensaciones claras: los modelos generales tienen mejor apariencia pero violan la física, mientras que los específicos de conducción capturan el movimiento de manera realista pero van a la zaga en calidad visual. DrivingGen ofrece un marco de evaluación unificado para fomentar modelos del mundo de conducción fiables, controlables y desplegables, permitiendo simulación escalable, planificación y toma de decisiones basada en datos.
Los Modelos de Difusión Latente (LDM) generan imágenes de alta calidad operando en un espacio latente comprimido, típicamente obtenido mediante tokenizadores de imagen como los Autoencoders Variacionales (VAE). En la búsqueda de un VAE favorable para la generación, estudios recientes han explorado el uso de Modelos Base de Visión (VFM) como objetivos de alineación de representaciones para los VAE, reflejando el enfoque comúnmente adoptado para los LDM. Aunque esto produce ciertas mejoras de rendimiento, utilizar el mismo objetivo de alineación tanto para VAE como para LDM pasa por alto sus requisitos de representación fundamentalmente diferentes. Sostenemos que, mientras los LDM se benefician de latentes que conservan conceptos semánticos de alto nivel, los VAE deberían sobresalir en el desentrelazamiento semántico, permitiendo codificar información a nivel de atributos de manera estructurada. Para abordar esto, proponemos el VAE de Desentrelazamiento Semántico (Send-VAE), optimizado explícitamente para el aprendizaje de representaciones desentrelazadas mediante la alineación de su espacio latente con la jerarquía semántica de VFM preentrenados. Nuestro enfoque emplea una red mapeadora no lineal para transformar los latentes del VAE, alineándolos con los VFM para cerrar la brecha entre el desentrelazamiento a nivel de atributos y la semántica de alto nivel, facilitando una guía efectiva para el aprendizaje del VAE. Evaluamos el desentrelazamiento semántico mediante sondeo lineal en tareas de predicción de atributos, mostrando una fuerte correlación con la mejora del rendimiento generativo. Finalmente, utilizando Send-VAE, entrenamos transformers basados en flujos (SiT); los experimentos muestran que Send-VAE acelera significativamente el entrenamiento y alcanza un FID state-of-the-art de 1.21 y 1.75 con y sin guía libre de clasificador en ImageNet 256x256.
Los Modelos de Lenguaje Grandes (LLMs) pueden extender los límites de conocimiento de sus parámetros adoptando el paradigma de Razonamiento con Integración de Herramientas (TIR). Sin embargo, los marcos de entrenamiento de agentes basados en LLM existentes a menudo se centran en la precisión de las respuestas, pasando por alto la alineación específica de los patrones de comportamiento. En consecuencia, el agente a menudo exhibe acciones ineficaces durante las tareas TIR, como llamadas a herramientas redundantes e insuficientes. Cómo calibrar los patrones de comportamiento erróneos al ejecutar tareas TIR, explorando así trayectorias efectivas, sigue siendo un problema abierto. En este artículo, proponemos ET-Agent, un marco de entrenamiento para calibrar el comportamiento de uso de herramientas del agente a través de dos perspectivas sinérgicas: la Rueda de Datos de Auto-evolución y el Entrenamiento de Calibración de Comportamiento. Específicamente, introducimos una rueda de datos auto-evolutiva para generar datos mejorados, utilizados para afinar el LLM y mejorar su capacidad de exploración. Sobre esta base, implementamos un marco de entrenamiento de calibración de comportamiento en dos fases. Está diseñado para calibrar progresivamente los patrones de comportamiento erróneos hacia comportamientos óptimos. Experimentos posteriores en profundidad confirman la superioridad del marco en múltiples dimensiones, incluyendo corrección, eficiencia, concisión del razonamiento y precisión en la ejecución de herramientas. Nuestro marco ET-Agent proporciona perspectivas prácticas para la investigación en el campo del TIR. El código puede encontrarse en https://github.com/asilverlight/ET-Agent.
Los puntos de referencia actuales de visión y lenguaje presentan predominantemente preguntas bien estructuradas con instrucciones claras y explícitas. Sin embargo, las consultas de usuarios reales suelen ser informales y están subespecificadas. Los usuarios, de forma natural, dejan mucho sin decir, confiando en las imágenes para transmitir el contexto. Presentamos HAERAE-Vision, un punto de referencia compuesto por 653 preguntas visuales del mundo real obtenidas de comunidades en línea coreanas (0.76% de supervivencia de 86K candidatos), cada una emparejada con una reescritura explícita, dando un total de 1,306 variantes de consulta. Al evaluar 39 Modelos de Lenguaje Visual (VLMs), encontramos que incluso los modelos más avanzados (GPT-5, Gemini 2.5 Pro) obtienen menos del 50% de precisión en las consultas originales. Crucialmente, la mera explicitación de la consulta produce mejoras de 8 a 22 puntos, beneficiando más a los modelos más pequeños. Además, demostramos que incluso con búsqueda web, las consultas subespecificadas tienen un rendimiento inferior al de las consultas explícitas sin búsqueda, revelando que la recuperación de información actual no puede compensar lo que los usuarios omiten. Nuestros hallazgos demuestran que una parte sustancial de la dificultad de los VLMs proviene de la subespecificación natural de las consultas, y no de la capacidad del modelo, destacando una brecha crítica entre la evaluación en puntos de referencia y la implementación en el mundo real.
Si bien el pensamiento en cadena dota a los Grandes Modelos de Lenguaje y Visión de capacidades de razonamiento multi-etapa, las explicaciones textuales explícitas adolecen de un cuello de botella en el ancho de banda de información, donde los detalles visuales continuos se descartan durante la tokenización discreta. Los métodos recientes de razonamiento latente intentan abordar este desafío, pero a menudo sucumben a un colapso semántico prematuro debido a objetivos autorregresivos demasiado rígidos. En este artículo, proponemos Laser, un paradigma novedoso que reformula la deducción visual mediante el Aprendizaje de Alineación Dinámica por Ventanas (DWAL). En lugar de forzar una predicción punto por punto, Laser alinea el estado latente con una ventana de validez dinámica de semántica futura. Este mecanismo impone una jerarquía cognitiva de "Bosque antes que Árboles", permitiendo al modelo mantener una superposición probabilística de características globales antes de concretar en detalles locales. Crucialmente, Laser mantiene la interpretabilidad mediante trayectorias decodificables, a la vez que estabiliza el aprendizaje no restringido mediante una Superposición de Auto-refinamiento. Experimentos exhaustivos en 6 benchmarks demuestran que Laser logra un rendimiento de vanguardia entre los métodos de razonamiento latente, superando en un 5.03% de media al sólido baseline Monet. Notablemente, alcanza estas mejoras con extrema eficiencia, reduciendo los tokens de inferencia en más de un 97%, y demuestra una generalización robusta en dominios fuera de distribución.
La planificación de viajes es un proceso sofisticado de toma de decisiones que requiere sintetizar información multifacética para construir itinerarios. Sin embargo, los enfoques existentes de planificación de viajes enfrentan varios desafíos: (1) Podar los puntos de interés (POIs) candidatos manteniendo una alta tasa de recuperación; (2) Una única ruta de razonamiento restringe la capacidad de exploración dentro del espacio de soluciones factibles para la planificación de viajes; (3) Optimizar simultáneamente las restricciones duras y las restricciones blandas sigue siendo una dificultad significativa. Para abordar estos desafíos, proponemos TourPlanner, un marco integral que presenta razonamiento multipath y aprendizaje por refuerzo con compuerta de restricciones. Específicamente, primero introducimos un flujo de trabajo de Optimización de Recuperación Personalizada y Espacial (PReSO) para construir un conjunto de POIs candidatos con conciencia espacial. Posteriormente, proponemos Cadena de Pensamiento de Consenso Competitivo (CCoT), un paradigma de razonamiento multipath que mejora la capacidad de explorar el espacio de soluciones factibles. Para refinar aún más el plan, integramos un mecanismo de compuerta basado en sigmoide en la etapa de aprendizaje por refuerzo, que prioriza dinámicamente la satisfacción de restricciones blandas solo después de que se cumplen las restricciones duras. Los resultados experimentales en benchmarks de planificación de viajes demuestran que TourPlanner logra un rendimiento de vanguardia, superando significativamente a los métodos existentes tanto en factibilidad como en alineación con las preferencias del usuario.
A medida que los Modelos de Lenguaje a Gran Escala (LLMs) evolucionan de interfaces de diálogo estáticas a agentes generales autónomos, una memoria efectiva es primordial para garantizar la coherencia a largo plazo. Sin embargo, los puntos de referencia existentes se centran principalmente en conversaciones casuales o diálogos orientados a tareas, sin capturar las interacciones **"orientadas a proyectos a largo plazo"** donde los agentes deben rastrear objetivos en evolución. Para cerrar esta brecha, presentamos **RealMem**, el primer punto de referencia basado en escenarios de proyectos realistas. RealMem comprende más de 2.000 diálogos intersesionales en once escenarios, utilizando consultas de usuarios naturales para la evaluación. Proponemos un pipeline de síntesis que integra la Construcción de la Base del Proyecto, la Generación de Diálogo Multi-Agente y la Gestión de Memoria y Cronogramas para simular la evolución dinámica de la memoria. Los experimentos revelan que los sistemas de memoria actuales enfrentan desafíos significativos para gestionar los estados de proyectos a largo plazo y las dependencias de contexto dinámicas inherentes a los proyectos del mundo real. Nuestro código y conjuntos de datos están disponibles en [https://github.com/AvatarMemory/RealMemBench](https://github.com/AvatarMemory/RealMemBench).
Presentamos OpenTinker, una infraestructura para el aprendizaje por refuerzo (RL) de agentes basados en modelos de lenguaje grandes (LLM) que se estructura en torno a una separación de responsabilidades en el diseño de algoritmos, la ejecución y la interacción agente-entorno. En lugar de depender de pipelines monolíticos de RL de extremo a extremo, OpenTinker descompone los sistemas de aprendizaje agentivo en componentes ligeros y componibles con límites de abstracción claramente definidos. Los usuarios especifican agentes, entornos y protocolos de interacción, mientras que la inferencia y el entrenamiento se delegan a un entorno de ejecución gestionado. OpenTinker introduce un planificador centralizado para gestionar cargas de trabajo de entrenamiento e inferencia, incluyendo RL basado en LoRA y de parámetros completos, ajuste fino supervisado e inferencia, sobre recursos compartidos. Además, discutimos los principios de diseño para extender OpenTinker al entrenamiento multiagente. Finalmente, presentamos un conjunto de casos de uso de RL que demuestran la efectividad del marco en escenarios prácticos de aprendizaje agentivo.
Los sistemas de información modernos frecuentemente involucran diferentes tipos de elementos, por ejemplo, una consulta de texto, una imagen, un clip de video o un segmento de audio. Esto motiva el desarrollo de modelos de *embedding* omnimodales que mapean modalidades heterogéneas en un espacio compartido para permitir una comparación directa. Sin embargo, la mayoría de los *embeddings* omnimodales recientes aún dependen en gran medida de la alineación implícita heredada de los modelos base de visión y lenguaje (*Vision-Language Models* o VLM) preentrenados. En la práctica, esto causa tres problemas comunes: (i) los *logits* de similitud presentan una nitidez dependiente de la modalidad, por lo que las puntuaciones no están en una escala consistente; (ii) los negativos dentro del lote (*in-batch*) se vuelven menos efectivos con el tiempo porque los lotes de modalidad mixta crean una distribución de dificultad desequilibrada; como resultado, muchos negativos se vuelven triviales rápidamente y contribuyen poco al gradiente; y (iii) los *embeddings* entre modalidades muestran estadísticas de primer y segundo orden desajustadas, lo que hace que las clasificaciones (*rankings*) sean menos estables. Para abordar estos problemas, proponemos E5-Omni, una receta liviana de alineación explícita que adapta VLMs disponibles en el mercado (*off-the-shelf*) en modelos robustos de *embedding* omnimodal. E5-Omni combina tres componentes simples: (1) calibración de temperatura consciente de la modalidad para alinear las escalas de similitud, (2) un currículum de negativos controlable con eliminación de sesgo (*debiasing*) para centrarse en los negativos confusos mientras se reduce el impacto de los falsos negativos, y (3) *blanqueamiento* de lotes (*batch whitening*) con regularización de covarianza para igualar mejor la geometría cross-modal en el espacio de *embedding* compartido. Los experimentos en MMEB-V2 y AudioCaps muestran mejoras consistentes respecto a líneas base bimodales y omnimodales sólidas, y la misma receta también se transfiere bien a otros modelos base VLM. Publicamos nuestro *checkpoint* del modelo en https://huggingface.co/Haon-Chen/e5-omni-7B.
Los enfoques actuales de memoria en Modelos de Lenguaje a Gran Escala (LLM) se basan predominantemente en la Generación Aumentada por Recuperación (RAG) estática, lo que a menudo resulta en una recuperación dispersa y no logra capturar las dependencias estructurales necesarias para el razonamiento complejo. Para los agentes autónomos, estas arquitecturas pasivas y planas carecen de la organización cognitiva necesaria para modelar la naturaleza dinámica y asociativa de la interacción a largo plazo. Para abordar esto, proponemos la Memoria de Eventos Episódicos Estructurada (SEEM), un marco jerárquico que sinergiza una capa de memoria en grafo para hechos relacionales con una capa de memoria episódica dinámica para la progresión narrativa. Basada en la teoría de marcos cognitivos, SEEM transforma los flujos de interacción en Marcos de Eventos Episódicos (EEF) estructurados anclados por punteros de procedencia precisos. Además, introducimos un mecanismo de fusión asociativa agéntica y de Expansión de Procedencia Inversa (RPE) para reconstruir contextos narrativos coherentes a partir de evidencia fragmentada. Los resultados experimentales en los benchmarks LoCoMo y LongMemEval demuestran que SEEM supera significativamente a los métodos base, permitiendo a los agentes mantener una coherencia narrativa y consistencia lógica superiores.
Los seres humanos comprenden el mundo principalmente a través de conceptos (por ejemplo, "perro"), representaciones mentales abstractas que estructuran la percepción, el razonamiento y el aprendizaje. Sin embargo, se comprende poco cómo los grandes modelos de lenguaje (LLMs) adquieren, retienen y olvidan dichos conceptos durante el preentrenamiento continuo. En este trabajo, estudiamos cómo se adquieren y olvidan conceptos individuales, así como cómo múltiples conceptos interactúan mediante interferencia y sinergia. Vinculamos estas dinámicas conductuales con los Circuitos Conceptuales internos de los LLMs, subgrafos computacionales asociados a conceptos específicos, e incorporamos Métricas de Grafo para caracterizar la estructura del circuito. Nuestro análisis revela: (1) Los circuitos conceptuales de los LLMs proporcionan una señal no trivial y estadísticamente significativa del aprendizaje y olvido de conceptos; (2) Los circuitos conceptuales exhiben un patrón temporal por etapas durante el preentrenamiento continuo, con un aumento inicial seguido de una disminución gradual y estabilización; (3) Los conceptos con mayores ganancias de aprendizaje tienden a exhibir un mayor olvido durante el entrenamiento posterior; (4) Los conceptos semánticamente similares inducen una interferencia más fuerte que los débilmente relacionados; (5) El conocimiento conceptual difiere en su transferibilidad, facilitando algunos significativamente el aprendizaje de otros. En conjunto, nuestros hallazgos ofrecen una visión a nivel de circuito de la dinámica del aprendizaje conceptual e informan el diseño de estrategias de entrenamiento más interpretables y robustas conscientes de los conceptos para los LLMs.
Los Modelos de Lenguaje a Gran Escala (LLM) pueden producir estimaciones sorprendentemente sofisticadas de su propia incertidumbre. Sin embargo, aún no está claro hasta qué punto esta confianza expresada está vinculada al razonamiento, conocimiento o toma de decisiones del modelo. Para evaluar esto, presentamos RiskEval: un marco diseñado para evaluar si los modelos ajustan sus políticas de abstención en respuesta a diferentes penalizaciones por error. Nuestra evaluación de varios modelos de vanguardia revela una disociación crítica: los modelos no son conscientes del costo al articular su confianza verbal, ni responden estratégicamente al decidir si participar o abstenerse en condiciones de alta penalización. Incluso cuando penalizaciones extremas hacen de la abstención frecuente la estrategia matemáticamente óptima, los modelos casi nunca se abstienen, lo que resulta en un colapso de la utilidad. Esto indica que las puntuaciones de confianza verbal calibrada pueden no ser suficientes para crear sistemas de IA confiables e interpretables, ya que los modelos actuales carecen de la agencia estratégica para convertir las señales de incertidumbre en decisiones óptimas y sensibles al riesgo.
Si bien la innovación en IA se acelera rápidamente, el proceso intelectual detrás de los avances —cómo los investigadores identifican vacíos, sintetizan trabajos previos y generan ideas— sigue estando poco comprendido. La falta de datos estructurados sobre el razonamiento científico dificulta el análisis sistemático y el desarrollo de agentes de investigación de IA. Presentamos Sci-Reasoning, el primer conjunto de datos que captura la síntesis intelectual detrás de la investigación de IA de alta calidad. Utilizando señales de calidad validadas por la comunidad y un proceso acelerado por LLM y verificado por humanos, rastreamos los artículos Oral y Spotlight de NeurIPS, ICML e ICLR (2023-2025) hasta sus predecesores clave, articulando enlaces de razonamiento específicos en un formato estructurado. Nuestro análisis identifica 15 patrones de pensamiento distintos, con tres estrategias dominantes que representan el 52,7%: Replanteamiento Basado en Vacíos (24,2%), Síntesis Transdisciplinaria (18,0%) y Cambio de Representación (10,5%). Las recetas de innovación más potentes combinan múltiples patrones: Replanteamiento Basado en Vacíos + Cambio de Representación, Síntesis Transdisciplinaria + Cambio de Representación, y Replanteamiento Basado en Vacíos + Síntesis Transdisciplinaria. Este conjunto de datos permite estudios cuantitativos del progreso científico y proporciona trayectorias de razonamiento estructuradas para entrenar a la próxima generación de agentes de investigación de IA.
A medida que los grandes modelos de lenguaje (LLM) como ChatGPT, Copilot, Claude y Gemini se integran en los flujos de trabajo de desarrollo de software, los desarrolladores dejan cada vez más rastros de la participación de la IA en los comentarios de su código. Entre estos, algunos comentarios reconocen explícitamente tanto el uso de IA generativa como la presencia de deficiencias técnicas. Analizando 6.540 comentarios de código que hacen referencia a LLM, extraídos de repositorios públicos de GitHub basados en Python y JavaScript (noviembre de 2022 - julio de 2025), identificamos 81 que también auto-admiten deuda técnica (SATD, por sus siglas en inglés). Los desarrolladores describen con mayor frecuencia pruebas pospuestas, adaptación incompleta y comprensión limitada del código generado por IA, lo que sugiere que la asistencia de IA afecta tanto al cuándo como al porqué surge la deuda técnica. Proponemos el término Deuda Técnica Auto-admitida Inducida por IA Generativa (GIST, por sus siglas en inglés) como un lente conceptual para describir casos recurrentes en los que los desarrolladores incorporan código generado por IA mientras expresan explícitamente incertidumbre sobre su comportamiento o corrección.
La prefiguración y su resolución son dispositivos narrativos omnipresentes mediante los cuales los autores introducen compromisos narrativos tempranamente y los resuelven a través de desenlaces concretos y observables. Sin embargo, a pesar de los avances en generación de historias, los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) frecuentemente fallan en conectar estas dependencias narrativas de largo alcance, dejando a menudo "fusiles de Chéjov" sin disparar, incluso cuando el contexto necesario está presente. Las evaluaciones existentes pasan por alto en gran medida este fallo estructural, centrándose en la coherencia superficial en lugar del cumplimiento lógico de las preparaciones narrativas. En este artículo, presentamos la Generación Codificada de Prefiguración-Desenlace (CFPG, por sus siglas en inglés), un marco novedoso que replantea la calidad narrativa a través del lente de la realización del desenlace. Reconociendo que los LLMs tienen dificultades para captar intuitivamente el "mecanismo de activación" de un evento prefigurado, CFPG transforma la continuidad narrativa en un conjunto de predicados causales ejecutables. Mediante la extracción y codificación de tríadas Prefiguración-Desencadenante-Desenlace del corpus BookSum, proporcionamos una supervisión estructurada que garantiza que los compromisos prefigurados no solo sean mencionados, sino también cumplidos temporal y lógicamente. Los experimentos demuestran que CFPG supera significativamente a los métodos base de prompting estándar en precisión del desenlace y alineación narrativa. Nuestros hallazgos sugieren que codificar explícitamente la mecánica narrativa es esencial para llevar a los LLMs de la fluidez superficial a una competencia narrativa genuina.
Los modelos de lenguaje grandes (LLM) pueden adaptarse a nuevas tareas mediante métodos de ajuste fino eficiente en parámetros (PEFT) que modifican solo un pequeño número de parámetros entrenables, frecuentemente a través de actualizaciones de bajo rango. En este trabajo, adoptamos una perspectiva inspirada en la teoría de la información cuántica para comprender su efectividad. Desde esta perspectiva, las parametrizaciones de bajo rango corresponden naturalmente a representaciones de Estados de Producto Matricial (MPS) de baja dimensionalidad, las cuales permiten caracterizaciones de la estructura de parámetros basadas en entrelazamiento. En consecuencia, denominamos y medimos el "Entrelazamiento Artificial", definido como la entropía de entrelazamiento de los parámetros en las redes neuronales artificiales (en particular, los LLM). Primero estudiamos el método PEFT representativo de adaptación de bajo rango (LoRA), junto con el ajuste fino completo (FFT), utilizando modelos LLaMA a escalas de 1B y 8B entrenados en los conjuntos de datos Tulu3 y OpenThoughts3, y descubrimos: (i) El entrelazamiento artificial interno en las actualizaciones de las matrices de proyección de consulta y valor en LoRA sigue una ley de volumen con una supresión central (denominada "Valle de Entrelazamiento"), la cual es sensible a los hiperparámetros y es distinta a la observada en FFT; (ii) El entrelazamiento artificial externo en las matrices de atención, correspondiente a las correlaciones token-token en el espacio de representación, sigue una ley de área con correcciones logarítmicas y se mantiene robusto frente a los hiperparámetros de LoRA y los pasos de entrenamiento. Estableciendo un paralelismo con el Teorema de la No-Pelambría en la física de agujeros negros, proponemos que, aunque LoRA y FFT inducen firmas de entrelazamiento interno distintas, tales diferencias no se manifiestan en las salidas de atención, sugiriendo una propiedad de "no-pelambría" que resulta en la efectividad de las actualizaciones de bajo rango. Además, proporcionamos soporte teórico basado en la teoría de matrices aleatorias y extendemos nuestro análisis a un método PEFT de Adaptación MPS, el cual exhibe comportamientos cualitativamente similares.
Las Interfaces Gráficas de Usuario (GUI) son fundamentales para la interacción humano-computadora, sin embargo, automatizar tareas complejas en GUI sigue siendo un desafío importante para los agentes autónomos, debido en gran parte a la falta de datos de entrenamiento escalables y de alta calidad. Si bien las grabaciones de demostraciones humanas ofrecen una fuente de datos rica, estas suelen ser largas, no estructuradas y carecen de anotaciones, lo que dificulta que los agentes aprendan de ellas. Para abordar este problema, presentamos ShowUI-Aloha, una canalización integral que transforma grabaciones de pantalla humanas no estructuradas y en entornos reales de escritorio en tareas estructuradas y accionables. Nuestro marco incluye cuatro componentes clave: Un grabador que captura video de la pantalla junto con interacciones precisas del usuario como clics del ratón, pulsaciones de teclas y desplazamientos. Un aprendiz que interpreta semánticamente estas interacciones en crudo y el contexto visual circundante, traduciéndolas a descripciones en lenguaje natural. Un planificador que lee las demostraciones analizadas, mantiene los estados de la tarea y formula dinámicamente el siguiente plan de acción de alto nivel basado en razonamiento contextual. Un ejecutor que lleva a cabo fielmente estos planes de acción a nivel del sistema operativo, realizando clics precisos, arrastres, entradas de texto y operaciones de ventana con verificaciones de seguridad y retroalimentación en tiempo real. Juntos, estos componentes proporcionan una solución escalable para recopilar y analizar datos humanos del mundo real, demostrando un camino viable hacia la construcción de agentes de GUI de propósito general que puedan aprender eficazmente con solo observar a los humanos.
La optimización posterior de modelos de lenguaje grandes alterna rutinariamente el ajuste fino supervisado (SFT) con el aprendizaje por refuerzo (RL). Estos dos métodos tienen objetivos diferentes: el SFT minimiza la pérdida de entropía cruzada entre las salidas del modelo y las respuestas expertas, mientras que el RL maximiza las señales de recompensa derivadas de preferencias humanas o verificadores basados en reglas. Los modelos de razonamiento modernos han adoptado ampliamente la práctica de alternar entrenamiento SFT y RL. Sin embargo, no existe una explicación teórica sobre si pueden desacoplarse. Demostramos que el desacoplamiento es imposible en cualquier orden: (1) Acoplamiento SFT-luego-RL: el RL aumenta la pérdida de SFT bajo optimalidad de SFT y (2) Acoplamiento RL-luego-SFT: el SFT reduce la recompensa alcanzada por el RL. Experimentos en Qwen3-0.6B confirman la degradación predicha, verificando que el SFT y el RL no pueden separarse sin pérdida del rendimiento previo en la optimización posterior.
Los registros del sistema son cruciales para monitorizar y diagnosticar la infraestructura informática moderna, pero su escala y complejidad requieren una interpretación automatizada fiable y eficiente. Dado que los niveles de severidad son metadatos predefinidos en los mensajes de registro del sistema, que un modelo simplemente los clasifique ofrece un valor práctico independiente limitado, revelando poco sobre su capacidad subyacente para interpretar dichos registros. Sostenemos que la clasificación por severidad es más informativa cuando se trata como un benchmark para sondear la comprensión de registros en tiempo de ejecución, en lugar de como una tarea final. Utilizando datos reales de journalctl procedentes de servidores de producción Linux, evaluamos nueve modelos de lenguaje pequeños (SLM) y modelos de lenguaje de razonamiento pequeños (SRLM) bajo estrategias de prompting zero-shot, few-shot y generación aumentada por recuperación (RAG). Los resultados revelan una fuerte estratificación. Qwen3-4B logra la mayor precisión, un 95.64%, con RAG, mientras que Gemma3-1B mejora desde un 20.25% bajo prompting few-shot hasta un 85.28% con RAG. Notablemente, el minúsculo Qwen3-0.6B alcanza un 88.12% de precisión a pesar de su débil rendimiento sin recuperación. En contraste, varios SRLM, incluyendo Qwen3-1.7B y DeepSeek-R1-Distill-Qwen-1.5B, se degradan sustancialmente cuando se combinan con RAG. Las mediciones de eficiencia separan aún más a los modelos: la mayoría de las variantes de Gemma y Llama completan la inferencia en menos de 1.2 segundos por registro, mientras que Phi-4-Mini-Reasoning supera los 228 segundos por registro logrando una precisión <10%. Estos hallazgos sugieren que (1) el diseño arquitectónico, (2) los objetivos de entrenamiento y (3) la capacidad de integrar contexto recuperado bajo restricciones estrictas de salida determinan conjuntamente el rendimiento. Al enfatizar modelos pequeños y desplegables, este benchmark se alinea con los requisitos de tiempo real de los sistemas de gemelos digitales (DT) y muestra que la clasificación por severidad sirve como una lente para evaluar la competencia del modelo y su capacidad de despliegue en tiempo real, con implicaciones para el análisis de causa raíz (RCA) y una integración más amplia de DT.
Los modelos generativos de lenguaje hablado preentrenados en audio crudo a gran escala pueden continuar un estímulo de habla con contenido apropiado mientras preservan atributos como el locutor y la emoción, funcionando como modelos base para diálogo hablado. En la literatura previa, estos modelos suelen evaluarse utilizando la "perplejidad de tokens global", que aplica directamente la formulación de perplejidad de texto a tokens de habla. Sin embargo, esta práctica pasa por alto diferencias fundamentales entre las modalidades de habla y texto, posiblemente conduciendo a una subestimación de las características del habla. En este trabajo, proponemos una variedad de métodos de evaluación basados en verosimilitud y generación que sirven como reemplazo de la ingenua perplejidad de tokens global. Demostramos que las evaluaciones propuestas reflejan más fielmente la calidad de generación percibida, como lo evidencia una correlación más fuerte con las puntuaciones de opinión media (MOS) evaluadas por humanos. Cuando se evalúa bajo las nuevas métricas, el panorama de rendimiento relativo de los modelos de lenguaje hablado se reconfigura, revelando una brecha significativamente reducida entre el modelo de mejor rendimiento y el nivel de referencia humano. En conjunto, estos resultados sugieren que una evaluación apropiada es crítica para valorar con precisión el progreso en el modelado del lenguaje hablado.
Diseñar una red neuronal unificada que procese de manera eficiente e inherente datos secuenciales con longitudes arbitrarias es un problema central y desafiante en el modelado de secuencias. Las decisiones de diseño en Transformer, que incluyen la complejidad cuadrática y la débil extrapolación de longitud, han limitado su capacidad para escalar a secuencias largas. En este trabajo, proponemos Gecko, una arquitectura neuronal que hereda el diseño de Mega y Megalodon (media móvil exponencial con atención mecanizada), e introduce además múltiples componentes técnicos para mejorar su capacidad de capturar dependencias de largo alcance, incluyendo la normalización por decaimiento temporal, el mecanismo de atención por fragmentos deslizantes y la memoria de trabajo adaptativa. En una comparación controlada de preentrenamiento con Llama2 y Megalodon a escala de 7 mil millones de parámetros y 2 billones de tokens de entrenamiento, Gecko logra una mejor eficiencia y escalabilidad de contexto largo. Gecko alcanza una pérdida de entrenamiento de 1.68, superando significativamente a Llama2-7B (1.75) y Megalodon-7B (1.70), y acercándose a Llama2-13B (1.67). Notablemente, sin depender de ninguna técnica de extensión de contexto, Gecko exhibe capacidades inherentes de procesamiento y recuperación de contexto largo, manejando de manera estable secuencias de hasta 4 millones de tokens y recuperando información de contextos hasta 4 veces más largos que su ventana de atención. Código: https://github.com/XuezheMax/gecko-llm
Los vehículos aéreos no tripulados (UAV) se despliegan cada vez más en proximidad a humanos para aplicaciones como entrega de paquetes, monitoreo de tráfico, respuesta ante desastres e inspecciones de infraestructuras. Garantizar una operación segura y confiable en estos entornos poblados exige una percepción precisa de las posturas y acciones humanas desde una perspectiva aérea. Este punto de vista desafía a los métodos existentes con baja resolución, ángulos de visión pronunciados y oclusiones (auto)incluidas, especialmente si la aplicación requiere modelos factibles en tiempo real. Entrenamos e implementamos FlyPose, un pipeline ligero de estimación de postura humana de tipo top-down para imágenes aéreas. Mediante entrenamiento multiconjunto de datos, logramos una mejora promedio de 6.8 mAP en la detección de personas a través de los conjuntos de prueba de Manipal-UAV, VisDrone, HIT-UAV y nuestro conjunto de datos personalizado. Para la estimación de postura humana en 2D reportamos una mejora de 16.3 mAP en el desafiante conjunto de datos UAV-Human. FlyPose funciona con una latencia de inferencia de ~20 milisegundos incluyendo preprocesamiento en un Jetson Orin AGX Developer Kit y se implementa a bordo de un UAV cuadrirrotor durante experimentos de vuelo. También publicamos FlyPose-104, un conjunto de datos pequeño pero desafiante para estimación de postura humana aérea, que incluye anotaciones manuales desde perspectivas aéreas difíciles: https://github.com/farooqhassaan/FlyPose.
La inferencia determinista es un ideal reconfortante en el software clásico: el mismo programa con la misma entrada siempre debe producir la misma salida. A medida que los grandes modelos lingüísticos se despliegan en el mundo real, este ideal se ha importado en bloque a las pilas de inferencia. Un trabajo reciente del Thinking Machines Lab ha presentado un análisis detallado del no determinismo en la inferencia de LLM, mostrando cómo los núcleos invariantes por lotes y la atención determinista pueden imponer salidas idénticas a nivel de bits, posicionando la inferencia determinista como un prerrequisito para la reproducibilidad y la fiabilidad empresarial. En este artículo, adoptamos la postura contraria. Argumentamos que, para los LLM, la inferencia determinista mata. Mata la capacidad de modelar la incertidumbre, suprime las habilidades emergentes, colapsa el razonamiento en una única vía frágil y debilita la alineación de seguridad al ocultar los riesgos de cola. Los LLM implementan distribuciones condicionales sobre las salidas, no funciones fijas. Colapsar estas distribuciones a una única finalización canónica puede parecer tranquilizador, pero oculta sistemáticamente propiedades centrales para la cognición artificial. En su lugar, defendemos el CAOS Estocástico, tratando la variabilidad distribucional como una señal que debe medirse y controlarse. Empíricamente, demostramos que la inferencia determinista es sistemáticamente engañosa. La evaluación determinista de una sola muestra subestima tanto la capacidad como la fragilidad, enmascarando la probabilidad de fallo bajo paráfrasis y ruido. Las transiciones de fase asociadas a las habilidades emergentes desaparecen bajo decodificación voraz. El razonamiento multipath se degrada cuando se fuerza sobre esquemas deterministas, reduciendo la precisión y la capacidad de diagnóstico. Finalmente, la evaluación determinista subestima el riesgo de seguridad al ocultar comportamientos raros pero peligrosos que solo aparecen bajo una evaluación multi-muestra.
Si bien los Modelos de Lenguaje Grandes Multimodales (MLLMs, por sus siglas en inglés) han logrado un progreso notable en comprensión visual, a menudo presentan dificultades al enfrentarse a la naturaleza no estructurada y ambigua de los bocetos generados por humanos. Esta limitación es particularmente pronunciada en la tarea poco explorada de la calificación visual, donde los modelos no solo deben resolver un problema, sino también diagnosticar errores en diagramas dibujados a mano. Dichas capacidades de diagnóstico dependen de un razonamiento estructural, semántico y metacognitivo complejo. Para cerrar esta brecha, presentamos SketchJudge, un nuevo punto de referencia diseñado específicamente para evaluar a los MLLMs como calificadores de diagramas STEM dibujados a mano. SketchJudge abarca 1,015 respuestas de estudiantes dibujadas a mano en cuatro dominios: geometría, física, gráficos y diagramas de flujo, presentando diversas variaciones estilísticas y tipos de errores distintos. Las evaluaciones en SketchJudge demuestran que incluso los MLLMs más avanzados están significativamente por detrás de los humanos, validando la efectividad del punto de referencia para exponer la fragilidad de la alineación visión-lenguaje actual en contextos simbólicos y ruidosos. Todos los datos, código y scripts de evaluación están disponibles públicamente en https://github.com/yuhangsu82/SketchJudge.
Los modelos de lenguaje grandes multimodales (MLLMs) exhiben sólidas capacidades de propósito general, pero aún presentan dificultades en la Clasificación Visual de Grano Fino (FGVC), una tarea de percepción fundamental que requiere una discriminación visual sutil y es crucial para muchas aplicaciones del mundo real. Una estrategia ampliamente adoptada para mejorar el rendimiento en tareas complejas como matemáticas y programación es el razonamiento en Cadena de Pensamiento (CoT). Sin embargo, varios trabajos previos han informado que CoT puede, de hecho, perjudicar el rendimiento en tareas de percepción visual. No obstante, estos estudios examinan el problema desde ángulos relativamente estrechos y dejan abierta la cuestión de por qué CoT degrada el rendimiento en tareas con alta carga perceptiva. Reexaminamos sistemáticamente el papel de CoT en FGVC a través de la lente de la evaluación zero-shot y múltiples paradigmas de entrenamiento. A través de estos escenarios, descubrimos una paradoja central: la degradación inducida por CoT está impulsada en gran medida por la longitud del razonamiento, en la que un razonamiento textual más largo reduce consistentemente la precisión de la clasificación. Denominamos a este fenómeno el "Costo del Pensamiento". Basándonos en este hallazgo, realizamos dos contribuciones clave: (1) \alg, un método de normalización simple y general plug-and-play para la optimización de múltiples recompensas que equilibra señales de recompensa heterogéneas, y (2) ReFine-RFT, un marco que combina recompensas de conjunto con \alg para restringir la longitud del razonamiento mientras proporciona retroalimentación densa orientada a la precisión. Experimentos exhaustivos demuestran la efectividad de nuestros hallazgos y del ReFine-RFT propuesto, logrando un rendimiento state-of-the-art en varios benchmarks de FGVC. El código y los modelos están disponibles en https://github.com/jiezhu23/ReFine-RFT{Enlace al Proyecto}.
La autoconsistencia ha surgido como una técnica popular para mejorar la precisión de los modelos de lenguaje grande en tareas de razonamiento. El enfoque es sencillo: generar múltiples rutas de razonamiento y seleccionar la respuesta más común mediante votación mayoritaria. Si bien esto aumenta de manera confiable la precisión, no está claro si estas ganancias reflejan mejoras genuinas en la calidad del razonamiento. Investigamos una cuestión fundamental que no se ha estudiado antes: ¿la escalabilidad de la inferencia mejora la fidelidad del razonamiento? Realizamos un estudio empírico exhaustivo en cuatro modelos de vanguardia (GPT-5.2, Claude Opus 4.5, Gemini-3-flash-preview y DeepSeek-v3.2) sobre 100 problemas de razonamiento matemático del conjunto de datos GSM8K. Nuestro análisis emplea intervalos de confianza bootstrap, pruebas de McNemar para comparaciones pareadas y tamaños del efecto d de Cohen para cuantificar los efectos de manera rigurosa. Los resultados revelan diferencias sorprendentes entre los modelos que desafían las suposiciones comunes sobre la autoconsistencia. GPT-5.2 muestra el patrón esperado: la precisión mejora del 78% al 90% en N=5, mientras que la fidelidad se mantiene relativamente estable (0.540 a 0.510). Claude Opus 4.5 cuenta una historia completamente diferente. Su precisión en realidad disminuye del 78% al 74.3%, mientras que la fidelidad aumenta dramáticamente de 0.270 a 0.891 en N=5. DeepSeek-v3.2, que ya tiene una precisión del 98%, muestra efectos de techo con ganancias modestas en fidelidad (0.440 a 0.541). Gemini-3-flash mejora del 81% al 86% en precisión con una ligera disminución en fidelidad (0.260 a 0.212). El análisis de la dificultad de los problemas revela que GPT-5.2 resuelve el 82% de los problemas difíciles, mientras que solo falla en el 13% de los problemas fáciles. Claude, por el contrario, falla en el 23% de los problemas fáciles, lo que explica su disminución en precisión. Estos hallazgos son importantes para los profesionales: la autoconsistencia no es universalmente beneficiosa, y los equipos deben probar sus modelos específicos antes del despliegue. Publicamos nuestro código y proporcionamos recomendaciones prácticas para navegar estas compensaciones.
Las expresiones no compositivas (por ejemplo, modismos, refranes y metáforas) plantean desafíos significativos para los sistemas de traducción automática neuronal porque sus significados no pueden derivarse únicamente de las palabras individuales. Estas expresiones codifican un significado cultural rico y poseen tanto sentidos figurados como literales, lo que dificulta una traducción precisa. Dado que los modelos son bastante buenos traduciendo texto compositivo, investigamos el ajuste fino de estilo GRPO utilizando modelos de Estimación de Calidad de Traducción Automática (MTQE) como funciones de recompensa para entrenar a los modelos a traducir mejor los modismos. Utilizando conjuntos de datos de modismos en chino e hindi, encontramos que la capacidad de traducción de modismos mejora en aproximadamente 14 puntos, la traducción general no idiomática mejora implícitamente en aproximadamente 8 puntos, y las capacidades de traducción cross-lingüística (entrenadas en un idioma y evaluadas en otro) mejoran en aproximadamente 6 puntos. En general, nuestro trabajo cuantifica la brecha de traducción no compositiva y ofrece perspectivas para desarrollar LLMs con una mayor comprensión del lenguaje figurativo y transcultural.
La Optimización Directa de Preferencias (DPO) es una alternativa escalable y fundamentada a RLHF para alinear modelos de lenguaje extenso a partir de preferencias por pares, pero su huella geométrica interna sigue estando poco caracterizada, lo que limita las auditorías, las comparaciones de puntos de control y la predicción de fallos. Presentamos SPINAL (Leyes de Escalado e Integración de Preferencias en Capas de Alineación Neuronal), un diagnóstico que mide cómo la alineación remodela las representaciones a lo largo de la profundidad del modelo rastreando el cambio estructural localizado capa por capa. En distintas familias de modelos, DPO produce un efecto de calibración por capas concentrado en los bloques finales del decodificador (a menudo las capas 21-30), donde los gradientes de preferencia afectan más directamente a la distribución del siguiente token. SPINAL codifica cada punto de control como un trazo de profundidad sobre (índice de capa, puntuación de contracción, puntuación de transporte). La puntuación de contracción resume la rapidez con la que decae la cola del espectro de una capa (la velocidad a la que desaparecen los modos pequeños); valores más altos indican una contracción más fuerte en menos direcciones efectivas. La puntuación de transporte resume cuánto se desplaza la distribución de tokens entre capas adyacentes utilizando una medida de solapamiento acotada; valores más bajos indican pasos más cortos y suaves a través del espacio de representación. Los puntos de control alineados muestran un aumento progresivo de la contracción en las últimas capas y una reducción suave del transporte, coherente con una masa de política más ajustada y estabilizada, mientras que los modelos no alineados trazan trayectorias de profundidad de mayor curvatura, más entrópicas y geométricamente incoherentes. En general, la alineación está geométricamente localizada: las capas finales codifican las correcciones dominantes inducidas por las preferencias. SPINAL convierte esta localización en una señal de auditoría práctica, cuantificando dónde se concentra la alineación, con qué fuerza se manifiesta y cuándo comienza a desestabilizarse durante el entrenamiento.
La inteligencia espacial se refiere a la capacidad de percibir, razonar y describir objetos y sus relaciones en entornos tridimensionales, formando una base para la percepción corporeizada y la comprensión de escenas. La generación de descripciones 3D tiene como objetivo describir escenas 3D en lenguaje natural; sin embargo, sigue siendo un desafío debido a la dispersión e irregularidad de las nubes de puntos y, más críticamente, a la débil anclaje y la limitada generalización fuera de distribución (OOD) de los descriptores existentes en entornos drásticamente diferentes, incluyendo escenas 3D interiores y exteriores. Para abordar este desafío, proponemos 3D CoCa v2, un marco de descripción 3D generalizable que unifica el aprendizaje contrastivo visión-lenguaje con la generación de descripciones 3D y mejora aún más la robustez mediante búsqueda en tiempo de prueba (TTS) sin actualizar los parámetros del descriptor. 3D CoCa v2 se construye sobre una base semántica preexistente basada en CLIP congelado, un codificador de escenas 3D espacialmente consciente para la geometría, y un decodificador multimodal optimizado conjuntamente con objetivos contrastivos y de descripción, evitando detectores externos o propuestas artesanales. En la inferencia, TTS produce diversos candidatos de descripción y realiza una selección guiada por recompensas utilizando un resumen compacto de la escena. Los experimentos muestran mejoras respecto a 3D CoCa de +1.50 CIDEr@0.5IoU en ScanRefer y +1.61 CIDEr@0.5IoU en Nr3D, y +3.8 CIDEr@0.25 en evaluación OOD de cero disparos en TOD3Cap. El código se liberará en https://github.com/AIGeeksGroup/3DCoCav2.
La evaluación de modelos de lenguaje (LM) en dominios especializados y de alto riesgo, como las finanzas, sigue siendo un desafío significativo debido a la escasez de conjuntos de datos abiertos, de alta calidad y específicos del dominio. Los puntos de referencia de propósito general existentes ofrecen una cobertura amplia, pero carecen de la profundidad y la fidelidad de dominio necesarias para evaluar las capacidades de los LM para el razonamiento financiero del mundo real, que requiere tanto comprensión conceptual como rigor cuantitativo. Para abordar esta brecha, presentamos FinForge, una canalización semi-sintética y escalable para construir puntos de referencia de evaluación específicos de finanzas mediante una combinación de curación de datos guiada por expertos y síntesis controlada basada en LM. FinForge combina la construcción manual y programática de corpus a partir de fuentes financieras autorizadas con la generación y validación estructurada de preguntas utilizando Gemini 2.5 Flash. Para demostrar la eficacia de la canalización, producimos FinForge-5k, un punto de referencia instantáneo que comprende más de 5,000 pares de preguntas y respuestas validadas por humanos en 11 subdominios financieros, derivados de un corpus curado de 100,000 documentos verificados que totalizan 143 millones de tokens. La evaluación de modelos de última generación, tanto de código abierto como cerrado, en FinForge-5k revela diferencias significativas en el razonamiento financiero, con los modelos líderes alcanzando niveles de precisión cercanos al 80%. Estos hallazgos subrayan la utilidad del marco para diagnosticar las limitaciones actuales de los modelos y guiar futuras mejoras en la competencia del dominio financiero. Todo el código y los datos están disponibles en https://github.com/gtfintechlab/FinForge.