Artículos de investigación en IA seleccionados diariamente con traducciones
A pesar del rápido progreso reciente en las capacidades terminales de los grandes modelos de lenguaje, las estrategias de datos de entrenamiento detrás de los agentes terminales de vanguardia permanecen en gran medida sin divulgar. Abordamos esta brecha mediante un estudio sistemático de las prácticas de ingeniería de datos para agentes terminales, realizando dos contribuciones clave: (1) Terminal-Task-Gen, un pipeline ligero de generación sintética de tareas que soporta la construcción de tareas basadas en semillas y en habilidades, y (2) un análisis exhaustivo de estrategias de datos y entrenamiento, incluyendo filtrado, aprendizaje curricular, entrenamiento de contexto largo y comportamiento de escalado. Nuestro pipeline produce Terminal-Corpus, un conjunto de datos de código abierto a gran escala para tareas terminales. Utilizando este conjunto de datos, entrenamos Nemotron-Terminal, una familia de modelos inicializados a partir de Qwen3 (8B, 14B, 32B) que logran mejoras sustanciales en Terminal-Bench 2.0: Nemotron-Terminal-8B mejora del 2.5% al 13.0%, Nemotron-Terminal-14B mejora del 4.0% al 20.2%, y Nemotron-Terminal-32B mejora del 3.4% al 27.4%, igualando el rendimiento de modelos significativamente más grandes. Para acelerar la investigación en este dominio, hemos liberado como código abierto nuestros puntos de control del modelo y la mayor parte de nuestros conjuntos de datos sintéticos en https://huggingface.co/collections/nvidia/nemotron-terminal.
Basándonos en el análisis existente de las cabezas de recuperación en los modelos de lenguaje grande, proponemos un marco alternativo de reranking que entrena modelos para estimar la relevancia pasaje-consulta utilizando las puntuaciones de atención de cabezas seleccionadas. Este enfoque proporciona una solución de tipo *listwise* que aprovecha información holística dentro de toda la lista corta de candidatos durante la clasificación. Al mismo tiempo, produce naturalmente puntuaciones de relevancia continuas, permitiendo el entrenamiento en conjuntos de datos de recuperación arbitrarios sin requerir supervisión basada en escalas Likert. Nuestro marco es liviano y efectivo, requiriendo sólo modelos a pequeña escala (por ejemplo, 4B parámetros) para lograr un rendimiento sólido. Experimentos exhaustivos demuestran que nuestro método supera a los rerankers *pointwise* y *listwise* de última generación existentes en múltiples dominios, incluyendo Wikipedia y conjuntos de datos narrativos largos. Además, establece un nuevo estado del arte en el benchmark LoCoMo, que evalúa las capacidades de comprensión de diálogos y uso de memoria. También demostramos que nuestro marco admite extensiones flexibles. Por ejemplo, aumentar los pasajes candidatos con información contextual mejora aún más la precisión de la clasificación, mientras que entrenar cabezas de atención de capas intermedias mejora la eficiencia sin sacrificar el rendimiento.
El aprendizaje por refuerzo para modelos multimodales agentivos a menudo sufre de colapso de interacción, donde los modelos aprenden a reducir el uso de herramientas y el razonamiento multiturno, limitando los beneficios del comportamiento agentivo. Presentamos PyVision-RL, un marco de aprendizaje por refuerzo para modelos multimodales de pesos abiertos que estabiliza el entrenamiento y mantiene la interacción. Nuestro enfoque combina una estrategia de muestreo excesivo-filtrado-clasificación para rollouts con una recompensa de herramienta acumulativa para prevenir el colapso y fomentar el uso multiturno de herramientas. Utilizando una canalización de entrenamiento unificada, desarrollamos PyVision-Image y PyVision-Video para la comprensión de imágenes y videos. Para el razonamiento sobre videos, PyVision-Video emplea una construcción de contexto bajo demanda, muestreando selectivamente fotogramas relevantes para la tarea durante el razonamiento para reducir significativamente el uso de tokens visuales. Los experimentos muestran un rendimiento sólido y una eficiencia mejorada, demostrando que la interacción sostenida y el procesamiento visual bajo demanda son críticos para agentes multimodales escalables.
El entrenamiento en el momento de la prueba (TTT) con enlace clave-valor como capa de modelado de secuencias se interpreta comúnmente como una forma de metaaprendizaje en línea que memoriza un mapeo clave-valor durante la prueba. Sin embargo, nuestro análisis revela múltiples fenómenos que contradicen esta interpretación basada en memorización. Motivados por estos hallazgos, revisitamos la formulación de TTT y demostramos que una amplia clase de arquitecturas TTT puede expresarse como una forma de operador de atención lineal aprendido. Más allá de explicar comportamientos del modelo previamente desconcertantes, esta perspectiva ofrece múltiples beneficios prácticos: permite simplificaciones arquitectónicas fundamentadas, admite formulaciones completamente paralelas que preservan el rendimiento mientras mejoran la eficiencia, y proporciona una reducción sistemática de diversas variantes de TTT a una forma estándar de atención lineal. En general, nuestros resultados reenfocan el TTT no como una memorización en el momento de la prueba, sino como una atención lineal aprendida con capacidad representacional mejorada.
Comprender la estructura física es esencial para aplicaciones del mundo real como agentes corporizados, diseño interactivo y manipulación de horizonte temporal prolongado. Sin embargo, las evaluaciones predominantes de Modelos de Visión y Lenguaje (VLM) aún se centran en configuraciones de un solo turno e independientes de la estructura (por ejemplo, VQA), que no logran evaluar la capacidad de los agentes para razonar sobre cómo la geometría, el contacto y las relaciones de soporte restringen conjuntamente qué acciones son posibles en un entorno dinámico. Para abordar esta brecha, presentamos el benchmark CHAIN (Causal Hierarchy of Actions and Interactions), un banco de pruebas interactivo en 3D y basado en física diseñado para evaluar si los modelos pueden comprender, planificar y ejecutar secuencias de acciones estructuradas basadas en restricciones físicas. CHAIN traslada la evaluación de la percepción pasiva a la resolución activa de problemas, abarcando tareas como rompecabezas mecánicos de ensamblaje por interlock y apilamiento/empaquetado en 3D. Realizamos un estudio exhaustivo de modelos VLM y basados en difusión de vanguardia bajo configuraciones interactivas unificadas. Nuestros resultados muestran que los modelos de mejor rendimiento aún tienen dificultades para internalizar la estructura física y las restricciones causales, a menudo fallando en producir planes confiables a largo plazo y sin poder traducir de manera robusta la estructura percibida en acciones efectivas. El proyecto está disponible en https://social-ai-studio.github.io/CHAIN/.
Estudiamos la recuperación eficiente de multivectores para la interacción tardía en cualquier modalidad. La interacción tardía ha surgido como un paradigma dominante para la recuperación de información en texto, imágenes, documentos visuales y vídeos, pero sus costes computacionales y de almacenamiento crecen linealmente con la longitud del documento, lo que la hace costosa para corpus ricos en imágenes, vídeo y audio. Para abordar esta limitación, exploramos métodos independientes de la consulta para comprimir representaciones documentales multivectoriales bajo un presupuesto vectorial constante. Introducimos cuatro enfoques para la compresión del índice: redimensionamiento de secuencias, tokens de memoria, agrupamiento jerárquico y un novedoso agrupamiento guiado por atención (AGC). AGC utiliza un mecanismo guiado por atención para identificar las regiones semánticamente más salientes de un documento como centroides de clúster y para ponderar la agregación de tokens. Evaluando estos métodos en tareas de recuperación que abarcan texto (BEIR), documentos visuales (ViDoRe) y vídeo (MSR-VTT, MultiVENT 2.0), demostramos que el agrupamiento guiado por atención supera consistentemente a otros métodos de compresión parametrizados (redimensionamiento de secuencias y tokens de memoria), ofrece mayor flexibilidad en el tamaño del índice que el agrupamiento jerárquico no paramétrico y logra un rendimiento competitivo o mejorado en comparación con un índice completo sin comprimir. El código fuente está disponible en: github.com/hanxiangqin/omni-col-press.
Los modelos visión-lenguaje-acción (VLA) unifican la percepción, el lenguaje y el control para agentes corporizados, pero enfrentan desafíos significativos en su implementación práctica debido a las crecientes demandas de cómputo y memoria, especialmente a medida que los modelos escalan a horizontes temporales más largos y backbones más grandes. Para abordar estos cuellos de botella, presentamos QuantVLA, un marco de cuantización posterior al entrenamiento (PTQ) libre de entrenamiento que, según nuestro conocimiento, es el primer enfoque PTQ para sistemas VLA y el primero en cuantizar exitosamente una cabeza de acción de transformador de difusión (DiT). QuantVLA incorpora tres componentes de escala calibrada: (1) un diseño de cuantización selectiva que convierte a enteros todas las capas lineales tanto en el backbone de lenguaje como en el DiT, manteniendo las proyecciones de atención en punto flotante para preservar el programa de operadores original; (2) ajuste de temperatura de atención, un mecanismo de escalado ligero por cabeza que estabiliza los logits de atención y se pliega en las escalas de descuantización durante la inferencia; y (3) balanceo de la cabeza de salida, una calibración de interfaz residual por capa que mitiga la deriva de energía posterior a la proyección. El marco no requiere entrenamiento adicional, utiliza solo un pequeño búfer de calibración no etiquetado y admite kernels enteros para pesos y activaciones de bajo bit, manteniendo inalterada la arquitectura. En modelos VLA representativos evaluados en LIBERO, QuantVLA supera las tasas de éxito de las líneas base de precisión completa, logra aproximadamente un 70% de ahorro relativo de memoria en los componentes cuantizados y ofrece una aceleración de 1.22x en la latencia de inferencia de extremo a extremo, proporcionando una vía práctica hacia la inteligencia corporizada de bajo bit escalable bajo estrictas restricciones de cómputo, memoria y potencia.
Los Agentes de Investigación Profunda generan informes de nivel analítico, sin embargo, evaluarlos sigue siendo un desafío debido a la ausencia de una única verdad de referencia y a la naturaleza multidimensional de la calidad investigadora. Benchmarks recientes proponen metodologías distintas, pero adolecen del Espejismo de la Síntesis, donde una fuerte fluidez superficial y una alineación de citas pueden ocultar defectos factuales y de razonamiento subyacentes. Caracterizamos esta brecha introduciendo una taxonomía en cuatro vertientes que expone una discordancia crítica de capacidades: los evaluadores estáticos carecen inherentemente de las capacidades de uso de herramientas necesarias para evaluar la validez temporal y la corrección factual. Para abordarlo, proponemos DREAM (Evaluación de Investigación Profunda con Métricas Agénticas), un marco que instancia el principio de paridad de capacidades haciendo que la evaluación misma sea agéntica. DREAM estructura la evaluación mediante un protocolo que combina métricas independientes de la consulta con métricas adaptativas generadas por un agente con capacidad de usar herramientas, permitiendo una cobertura consciente del tiempo, verificación fundamentada y sondeos de razonamiento sistemáticos. Evaluaciones controladas demuestran que DREAM es significativamente más sensible a la decadencia factual y temporal que los benchmarks existentes, ofreciendo un paradigma de evaluación escalable y libre de referencias.
A pesar de los recientes avances en los modelos de difusión, las imágenes generadas por IA aún suelen contener artefactos visuales que comprometen el realismo. Aunque un preentrenamiento más exhaustivo y modelos más grandes podrían reducir los artefactos, no hay garantía de que puedan eliminarse por completo, lo que convierte a la mitigación de artefactos en un área de estudio crucial. Las metodologías previas conscientes de los artefactos dependen de conjuntos de datos etiquetados manualmente, los cuales son costosos y difíciles de escalar, subrayando la necesidad de un enfoque automatizado para adquirir de manera confiable conjuntos de datos anotados con artefactos. En este artículo, proponemos ArtiAgent, que crea eficientemente pares de imágenes reales e imágenes con artefactos inyectados. Comprende tres agentes: un agente de percepción que reconoce y localiza entidades y subentidades en imágenes reales, un agente de síntesis que introduce artefactos mediante herramientas de inyección a través de una novedosa manipulación de embeddings por parches dentro de un transformer de difusión, y un agente de curación que filtra los artefactos sintetizados y genera explicaciones tanto locales como globales para cada instancia. Utilizando ArtiAgent, sintetizamos 100.000 imágenes con anotaciones ricas en artefactos y demostramos tanto eficacia como versatilidad en diversas aplicaciones. El código está disponible en el enlace.
Los recientes avances en la programación asistida por IA han permitido a los agentes ejecutar flujos de trabajo complejos mediante interfaces de línea de comandos. Sin embargo, los puntos de referencia existentes adolecen de horizontes de tarea cortos, contaminación de datos por el scraping de GitHub y una falta de métricas de evaluación detalladas, lo que impide evaluar rigurosamente las capacidades de planificación y ejecución a largo plazo esenciales para la ingeniería de software realista. Para abordar estas deficiencias, presentamos LongCLI-Bench, un punto de referencia integral diseñado para evaluar las capacidades de los agentes en tareas realistas y de largo horizonte. Seleccionamos 20 tareas de alta calidad y largo horizonte de entre más de 1,000 asignaciones de ciencias de la computación y flujos de trabajo del mundo real, cubriendo cuatro categorías de ingeniería: desde cero, adición de características, corrección de errores y refactorización. Proponemos un protocolo de prueba de doble conjunto para LongCLI-Bench, que mide el cumplimiento de requisitos (de fallo a aprobado) y la evitación de regresiones (de aprobado a aprobado), e incorpora una puntuación a nivel de paso para identificar fallos de ejecución. Experimentos exhaustivos revelan que incluso los agentes más avanzados logran tasas de aprobación inferiores al 20% en LongCLI-Bench. El análisis a nivel de paso indica además que la mayoría de las tareas se estancan en menos del 30% de finalización, destacando que los fallos críticos a menudo ocurren en las etapas iniciales. Aunque la autocorrección ofrece mejoras marginales, la colaboración humano-agente mediante la inyección de planes y la guía interactiva produce mejoras significativamente mayores. Estos resultados subrayan que la investigación futura debe enfatizar el desarrollo de flujos de trabajo humano-agente sinérgicos junto con avances en las capacidades de planificación y ejecución de los agentes para superar los desafíos clave en el rendimiento de tareas de largo horizonte.
La mayoría de los puntos de referencia para recomendaciones evalúan qué tan bien un modelo imita el comportamiento del usuario. Sin embargo, en la asesoría financiera, las acciones observadas pueden ser ruidosas o miopes bajo la volatilidad del mercado y pueden entrar en conflicto con los objetivos a largo plazo del usuario. Por lo tanto, tratar lo que los usuarios eligieron como la única verdad absoluta confunde la imitación conductual con la calidad de la decisión. Presentamos Conv-FinRe, un punto de referencia conversacional y longitudinal para la recomendación de acciones que evalúa a los LLMs más allá de la coincidencia conductual. Dada una entrevista inicial de incorporación, un contexto de mercado paso a paso y diálogos de asesoría, los modelos deben generar clasificaciones a lo largo de un horizonte de inversión fijo. Crucialmente, Conv-FinRe proporciona referencias de múltiples perspectivas que distinguen el comportamiento descriptivo de la utilidad normativa basada en las preferencias de riesgo específicas del inversor, permitiendo diagnosticar si un LLM sigue un análisis racional, imita el ruido del usuario o está impulsado por el momentum del mercado. Construimos el punto de referencia a partir de datos reales del mercado y trayectorias de decisiones humanas, instanciamos conversaciones de asesoría controladas y evaluamos un conjunto de LLMs de última generación. Los resultados revelan una tensión persistente entre la calidad racional de la decisión y la alineación conductual: los modelos que funcionan bien en la clasificación basada en utilidad a menudo no coinciden con las elecciones del usuario, mientras que los modelos alineados conductualmente pueden sobreajustarse al ruido a corto plazo. El conjunto de datos se ha publicado públicamente en Hugging Face, y el código base está disponible en GitHub.
Se espera cada vez más que los agentes LLM funcionen como sistemas de propósito general capaces de resolver solicitudes abiertas de los usuarios. Si bien los puntos de referencia existentes se centran en entornos específicos de dominio para desarrollar agentes especializados, la evaluación de agentes de propósito general requiere entornos más realistas que los desafíen a operar en múltiples habilidades y herramientas dentro de un entorno unificado. Presentamos General AgentBench, un punto de referencia que proporciona dicho marco unificado para evaluar agentes LLM generales en los dominios de búsqueda, codificación, razonamiento y uso de herramientas. Utilizando General AgentBench, estudiamos sistemáticamente los comportamientos de escalado en tiempo de prueba bajo escalado secuencial (interacción iterativa) y escalado paralelo (muestreo de múltiples trayectorias). La evaluación de diez agentes LLM líderes revela una degradación sustancial del rendimiento al pasar de evaluaciones específicas de dominio a este entorno de agente general. Además, encontramos que ninguna metodología de escalado produce mejoras de rendimiento efectivas en la práctica, debido a dos limitaciones fundamentales: el límite de contexto en el escalado secuencial y la brecha de verificación en el escalado paralelo. El código está disponible públicamente en https://github.com/cxcscmu/General-AgentBench.
La escalada en tiempo de prueba puede mejorar el rendimiento del modelo mediante la agregación de trayectorias de razonamiento estocástico. Sin embargo, lograr una autoconsistencia eficiente en muestras durante la prueba con un presupuesto limitado sigue siendo un desafío pendiente. Presentamos PETS (Autoconsistencia en Tiempo de Prueba Principlista y Eficiente), que inicia un estudio principlista de la asignación de trayectorias mediante un marco de optimización. Central a nuestro enfoque es la tasa de autoconsistencia, una nueva medida definida como el acuerdo con el voto mayoritario de presupuesto infinito. Esta formulación hace que la asignación eficiente de muestras en tiempo de prueba esté teóricamente fundamentada y sea susceptible de análisis riguroso. Estudiamos tanto entornos fuera de línea como en línea. En el régimen fuera de línea, donde todas las preguntas se conocen de antemano, conectamos la asignación de trayectorias con la crowdsourcing, un área clásica y bien desarrollada, modelando las trazas de razonamiento como trabajadores. Esta perspectiva nos permite aprovechar la rica teoría existente, generando garantías teóricas y un algoritmo de asignación eficiente basado en votación mayoritaria. En el régimen de transmisión en línea, donde las preguntas llegan secuencialmente y las asignaciones deben hacerse sobre la marcha, proponemos un método novedoso inspirado en el marco fuera de línea. Nuestro enfoque adapta los presupuestos a la dificultad de la pregunta mientras preserva sólidas garantías teóricas y eficiencia computacional. Los experimentos muestran que PETS supera consistentemente a la asignación uniforme. En GPQA, PETS logra una autoconsistencia perfecta en ambos entornos mientras reduce el presupuesto de muestreo hasta en un 75% (fuera de línea) y 55% (en línea) en comparación con la asignación uniforme. El código está disponible en https://github.com/ZDCSlab/PETS.
Los agentes de modelos de lenguaje han demostrado capacidades notables para resolver tareas que requieren múltiples interacciones con el entorno. Sin embargo, siguen siendo vulnerables en entornos donde un solo error suele conducir a un fallo irrecuperable, particularmente bajo restricciones estrictas de viabilidad. Analizamos sistemáticamente los marcos de agentes existentes, identificando la planificación imperfecta y la ejecución estocástica como las causas principales. Para abordar estos desafíos, proponemos Planificación Adaptativa Guiada por Herramientas con Ejecución Restringida (TAPE). TAPE mejora la capacidad de planificación mediante la agregación de múltiples planes en un grafo y el empleo de un solucionador externo para identificar una ruta viable. Durante la ejecución, TAPE utiliza decodificación restringida para reducir el ruido de muestreo, mientras replanifica de forma adaptativa cuando la retroalimentación del entorno se desvía del estado previsto. Los experimentos en Sokoban, ALFWorld, MuSiQue y GSM8K-Hard demuestran que TAPE supera consistentemente a los marcos existentes, con ganancias particularmente grandes en configuraciones difíciles, mejorando las tasas de éxito en 21.0 puntos porcentuales en promedio en entornos complejos, y en 20.0 puntos porcentuales para modelos base más débiles en promedio. Código y datos disponibles aquí.
Los Modelos de Lenguaje Grandes (LLMs) se benefician consistentemente del razonamiento en cadena de pensamiento (CoT) escalado, pero también sufren una elevada sobrecarga computacional. Para abordar este problema, el razonamiento eficiente busca incentivar trayectorias de pensamiento cortas pero precisas, típicamente mediante la configuración de recompensas con Aprendizaje por Refuerzo (RL). En este artículo, investigiamos sistemáticamente la mecánica del razonamiento eficiente en los LLMs. Para una evaluación integral, abogamos por métricas más detalladas, incluyendo la distribución de longitud condicionada a la corrección y el rendimiento en un amplio espectro de presupuestos de tokens que van desde 2k hasta 32k. Primero, revelamos que el proceso de entrenamiento sigue un paradigma de dos etapas: adaptación de longitud y refinamiento del razonamiento. Posteriormente, realizamos extensos experimentos (aproximadamente 0.2 millones de horas de GPU) en un protocolo unificado, deconstruyendo los *prompts* de entrenamiento y las simulaciones (*rollouts*), la configuración de recompensas y las estrategias de optimización. En particular, un hallazgo clave es entrenar con *prompts* relativamente más fáciles, garantizando la densidad de señales de recompensa positivas y evitando así el colapso de longitud. Mientras tanto, el sesgo de longitud aprendido puede generalizarse entre dominios. Destilamos todos los hallazgos en ideas valiosas y pautas prácticas, y además los validamos en la serie Qwen3, que abarca desde 0.6B hasta 30B, demostrando su robustez y generalización.
Los algoritmos de recuperación como BM25 y la verosimilitud de consulta con suavizado de Dirichlet siguen siendo clasificadores iniciales sólidos y eficientes, aunque las mejoras se han basado principalmente en la sintonización de parámetros y la intuición humana. Investigamos si un modelo de lenguaje grande, guiado por un evaluador y una búsqueda evolutiva, puede descubrir automáticamente algoritmos léxicos de recuperación mejorados. Presentamos RankEvolve, una configuración de evolución de programas basada en AlphaEvolve, en la que los algoritmos de clasificación candidatos se representan como código ejecutable y son mutados, recombinados y seleccionados iterativamente en función del rendimiento de recuperación en 12 conjuntos de datos de RI de BEIR y BRIGHT. RankEvolve comienza con dos programas semilla: BM25 y verosimilitud de consulta con suavizado de Dirichlet. Los algoritmos evolucionados son novedosos, efectivos y muestran una transferencia prometedora a los benchmarks completos de BEIR y BRIGHT, así como a TREC DL 19 y 20. Nuestros resultados sugieren que la evolución de programas con LLM guiada por un evaluador es un camino práctico hacia el descubrimiento automático de algoritmos de clasificación novedosos.
Reportamos el rendimiento de Aletheia (Feng et al., 2026b), un agente de investigación matemática impulsado por Gemini 3 Deep Think, en el desafío inaugural FirstProof. Dentro del plazo permitido del desafío, Aletheia resolvió de forma autónoma 6 problemas (2, 5, 7, 8, 9, 10) de 10, según la evaluación mayoritaria de expertos; cabe señalar que los expertos no fueron unánimes únicamente en el Problema 8. Para una total transparencia, explicamos nuestra interpretación de FirstProof y divulgamos detalles sobre nuestros experimentos y evaluación. Los *prompts* y resultados en bruto están disponibles en https://github.com/google-deepmind/superhuman/tree/main/aletheia.
El procesamiento eficiente de secuencias largas con modelos Transformer generalmente requiere dividir los cálculos entre aceleradores mediante paralelismo de contexto. Los enfoques dominantes en esta familia de métodos, como Ring Attention o DeepSpeed Ulysses, permiten escalar en la dimensión del contexto pero no se centran en la eficiencia de memoria, lo que limita las longitudes de secuencia que pueden soportar. Técnicas más avanzadas, como el Transformer Distribuido Totalmente Canalizado o la descarga de activaciones, pueden extender aún más la longitud de contexto posible a costa del rendimiento del entrenamiento. En este artículo, presentamos UPipe, una técnica de paralelismo de contexto simple pero efectiva que realiza una división en fragmentos de grano fino a nivel de cabezal de atención. Esta técnica reduce significativamente el uso de memoria de activaciones de la autoatención, superando la barrera de memoria de activaciones y permitiendo longitudes de contexto mucho mayores. Nuestro enfoque reduce el uso de memoria de tensores intermedios en la capa de atención hasta en un 87,5% para Transformers de 32B, al tiempo que iguala a las técnicas de paralelismo de contexto anteriores en términos de velocidad de entrenamiento. UPipe puede soportar una longitud de contexto de 5M de tokens al entrenar Llama3-8B en un solo nodo 8xH100, lo que supone una mejora de más del 25% respecto a métodos anteriores.
Los modelos de lenguaje basados en difusión discreta han atraído un interés generalizado por su potencial para ofrecer una generación más rápida que los modelos autorregresivos. Sin embargo, en la práctica, exhiben una degradación pronunciada de la calidad de las muestras en el régimen de pocos pasos, sin llegar a materializar dicha promesa. Aquí demostramos que los modelos de lenguaje que aprovechan la eliminación de ruido continua basada en flujos pueden superar a la difusión discreta tanto en calidad como en velocidad. Al revisar los fundamentos de los flujos sobre modalidades discretas, construimos un modelo de lenguaje basado en flujos (FLM) que realiza eliminación de ruido euclidiana sobre codificaciones one-hot de tokens. Demostramos que el modelo puede entrenarse prediciendo los datos limpios mediante un objetivo de entropía cruzada, donde introducimos una simple reparametrización temporal que mejora enormemente la estabilidad del entrenamiento y la calidad de la generación. Al destilar FLM en su mapa de flujo asociado, obtenemos un modelo de lenguaje de mapa de flujo destilado (FMLM) capaz de generación en pocos pasos. En los conjuntos de datos lingüísticos LM1B y OWT, FLM alcanza una calidad de generación que iguala a los modelos de difusión discreta de vanguardia. Con FMLM, nuestro enfoque supera en todos los aspectos a los modelos lingüísticos recientes de pocos pasos, donde la generación en un solo paso supera la calidad que estos logran en 8 pasos. Nuestro trabajo cuestiona la hipótesis ampliamente sostenida de que los procesos de difusión discreta son necesarios para el modelado generativo sobre modalidades discretas, y allana el camino hacia el modelado del lenguaje basado en flujos acelerado a gran escala. El código está disponible en https://github.com/david3684/flm.
Las solicitudes del mundo real dirigidas a agentes de IA son fundamentalmente imprecisas. La comunicación humana natural se basa en un contexto compartido y restricciones no expresadas que los hablantes esperan que los oyentes infieran. Los puntos de referencia actuales para agentes evalúan el seguimiento de instrucciones explícitas, pero no logran evaluar si los agentes pueden razonar sobre requisitos implícitos que abarcan necesidades de accesibilidad, límites de privacidad, riesgos catastróficos y restricciones contextuales. Presentamos Inteligencia Implícita, un marco de evaluación que prueba si los agentes de IA pueden ir más allá del seguimiento de indicaciones para convertirse en verdaderos cumplidores de objetivos, junto con Agente-como-Mundo (AaW), un entorno donde los mundos interactivos se definen en archivos YAML legibles por humanos y son simulados por modelos de lenguaje. Nuestros escenarios presentan una aparente simplicidad en las solicitudes del usuario, una complejidad oculta en las soluciones correctas y la capacidad de descubrir restricciones mediante la exploración ambiental. Al evaluar 16 modelos de vanguardia y de pesos abiertos en 205 escenarios, encontramos que incluso el modelo con mejor rendimiento alcanza solo un 48.3% de tasa de aprobación de escenarios, lo que revela un margen sustancial de mejora para cerrar la brecha entre el seguimiento literal de instrucciones y el razonamiento contextual similar al humano.
Los LLM incorporados dotan a los robots de razonamiento de alto nivel para tareas, pero no pueden reflexionar sobre qué salió mal o por qué, convirtiendo el despliegue en una secuencia de pruebas independientes donde los errores se repiten en lugar de acumularse como experiencia. Inspirándonos en los profesionales reflexivos humanos, presentamos la Planificación Reflexiva en Tiempo de Prueba, que integra dos modos de reflexión: la reflexión en la acción, donde el agente utiliza el escalado en tiempo de prueba para generar y puntuar múltiples acciones candidatas mediante reflexiones internas antes de la ejecución; y la reflexión sobre la acción, que utiliza el entrenamiento en tiempo de prueba para actualizar tanto su modelo de reflexión interno como su política de acción basándose en reflexiones externas tras la ejecución. También incluimos la reflexión retrospectiva, permitiendo al agente reevaluar decisiones anteriores y realizar actualizaciones del modelo con perspectiva retrospectiva para una correcta asignación de crédito a largo plazo. Los experimentos en nuestro nuevo benchmark de Hogar de Largo Horizonte y en el benchmark de Ajuste de Alacena MuJoCo muestran mejoras significativas respecto a los modelos base, con estudios de ablación que validan los roles complementarios de la reflexión en la acción y la reflexión sobre la acción. Los análisis cualitativos, incluyendo pruebas con robots reales, destacan la corrección conductual mediante la reflexión.
Los tokenizadores discretos de imágenes han surgido como un componente clave de los sistemas modernos de visión y multimodales, proporcionando una interfaz secuencial para arquitecturas basadas en transformadores. Sin embargo, la mayoría de los enfoques existentes siguen optimizados principalmente para la reconstrucción y compresión, a menudo produciendo tokens que capturan textura local en lugar de la estructura semántica a nivel de objeto. Inspirados por la naturaleza incremental y compositiva de la comunicación humana, presentamos COMiT (Tokenización Inspirada en la COMunicación), un marco para aprender secuencias de tokens visuales discretos y estructurados. COMiT construye un mensaje latente dentro de un presupuesto fijo de tokens mediante la observación iterativa de recortes de imagen localizados y la actualización recurrente de su representación discreta. En cada paso, el modelo integra nueva información visual mientras refina y reorganiza la secuencia de tokens existente. Tras varias iteraciones de codificación, el mensaje final condiciona un decodificador de emparejamiento de flujos que reconstruye la imagen completa. Tanto la codificación como la decodificación se implementan dentro de un único modelo transformador y se entrenan de extremo a extremo utilizando una combinación de pérdidas por reconstrucción de emparejamiento de flujos y pérdidas por alineación de representación semántica. Nuestros experimentos demuestran que, si bien la alineación semántica proporciona una base, la tokenización secuencial atenta es crítica para inducir una estructura de tokens interpretable y centrada en objetos, mejorando sustancialmente la generalización compositiva y el razonamiento relacional en comparación con métodos anteriores.
La predicción del tiempo de permanencia de contenedores de importación (ICDT) es una tarea clave para mejorar la productividad en las terminales de contenedores, ya que las predicciones precisas permiten reducir las operaciones de reubicación de contenedores por parte de las grúas de patio. Lograr este objetivo requiere predecir con exactitud el tiempo de permanencia de contenedores individuales. Sin embargo, los principales determinantes de este tiempo —la información del propietario y de la carga— se registran como texto no estructurado, lo que limita su uso efectivo en modelos de aprendizaje automático. Este estudio aborda esta limitación proponiendo un marco colaborativo que integra la inteligencia artificial generativa (Gen AI) con el aprendizaje automático. El marco propuesto emplea Gen AI para estandarizar la información no estructurada en códigos internacionales estándar, con repredicción dinámica activada por actualizaciones del estado de intercambio electrónico de datos, permitiendo que el modelo de aprendizaje automático prediga el ICDT con precisión. Experimentos exhaustivos realizados con datos reales de terminales de contenedores demuestran que la metodología propuesta logra una mejora del 13.88% en el error absoluto medio en comparación con modelos convencionales que no utilizan información estandarizada. Además, la aplicación de las predicciones mejoradas a las estrategias de apilamiento de contenedores consigue hasta un 14.68% de reducción en el número de reubicaciones, validando empíricamente el potencial de la Gen AI para mejorar la productividad en las operaciones de terminales de contenedores. En general, este estudio aporta perspectivas tanto técnicas como metodológicas sobre la adopción de la Gen AI en la logística portuaria y su efectividad.
La modelización del movimiento espinal es fundamental para comprender la biomecánica humana, pero sigue siendo poco explorada en visión artificial debido a la compleja cinemática multiarticular de la columna vertebral y la falta de anotaciones 3D a gran escala. Presentamos un marco de simulación de puntos clave consciente de la biomecánica que enriquece los conjuntos de datos existentes de posturas humanas con puntos clave espinales 3D anatómicamente consistentes derivados de modelización musculoesquelética. Utilizando este marco, creamos el primer conjunto de datos abierto, denominado SIMSPINE, que proporciona anotaciones espinales 3D escasas a nivel vertebral para movimientos naturales de cuerpo completo en entornos de captura multicámara en interiores sin restricciones externas. Con 2.14 millones de fotogramas, esto permite el aprendizaje basado en datos de la cinemática vertebral a partir de variaciones sutiles de postura y reduce la brecha entre la simulación musculoesquelética y la visión artificial. Adicionalmente, publicamos líneas base preentrenadas que cubren detectores 2D ajustados, modelos de elevación de postura 3D monoculares y pipelines de reconstrucción multivista, estableciendo un benchmark unificado para la estimación biomecánicamente válida del movimiento espinal. Específicamente, nuestras líneas base 2D para columna vertebral mejoran el estado del arte de 0.63 a 0.80 AUC en entornos controlados, y de 0.91 a 0.93 AP para el seguimiento espinal en condiciones naturales. En conjunto, el marco de simulación y el conjunto de datos SIMSPINE impulsan la investigación en biomecánica basada en visión, análisis de movimiento y modelización digital humana al permitir una estimación 3D de la columna vertebral reproducible y anatómicamente fundamentada en condiciones naturales.
Los modelos de difusión discreta de estado uniforme sobresalen en generación y guía con pocos pasos debido a su capacidad de autocorrección, lo que los hace preferibles sobre los modelos autoregresivos o de difusión enmascarada en estos contextos. Sin embargo, su calidad de muestreo se estanca con muestreadores ancestrales a medida que aumenta el número de pasos. Introducimos una familia de muestreadores Predictor-Corrector (PC) para difusión discreta que generalizan métodos previos y se aplican a procesos de ruido arbitrarios. Cuando se combinan con difusión de estado uniforme, nuestros muestreadores superan al muestreo ancestral tanto en modelado de lenguaje como de imágenes, logrando una menor perplejidad generativa con entropía unigrama equivalente en OpenWebText y mejores puntuaciones FID/IS en CIFAR10. Crucialmente, a diferencia de los muestreadores convencionales, nuestros métodos PC continúan mejorando con más pasos de muestreo. En conjunto, estos hallazgos cuestionan la suposición de que la difusión enmascarada es el futuro inevitable del modelado de lenguaje basado en difusión. Más allá del muestreo, desarrollamos un currículum eficiente en memoria para la fase de entrenamiento por relajación gaussiana, reduciendo el tiempo de entrenamiento en un 25% y la memoria en un 33% en comparación con Duo, manteniendo una perplejidad comparable en OpenWebText y LM1B y un sólido rendimiento en tareas posteriores. Publicamos código, puntos de control y un videotutorial en: https://s-sahoo.com/duo-ch2
El reconocimiento óptico de caracteres (OCR) ha avanzado rápidamente con el aprendizaje profundo y los modelos multimodales, aunque la mayoría de los métodos se centran en escrituras con amplios recursos como la latina y la china. Las lenguas de minorías étnicas siguen estando poco exploradas debido a sistemas de escritura complejos, anotaciones escasas y diversas formas históricas y modernas, lo que dificulta la generalización en entornos de bajos recursos o sin ejemplos previos. Para abordar estos desafíos, presentamos OmniOCR, un marco universal para escrituras de minorías étnicas. OmniOCR introduce la Adaptación Dinámica de Bajo Rango (Dynamic LoRA) para distribuir la capacidad del modelo entre capas y escrituras, permitiendo una adaptación efectiva mientras preserva el conocimiento. Una regularización de dispersión elimina las actualizaciones redundantes, garantizando una adaptación compacta y eficiente sin coste adicional en inferencia. Las evaluaciones en TibetanMNIST, Shui, yi antiguo y dongba muestran que OmniOCR supera a los modelos base sin ajuste previo y al entrenamiento posterior estándar, logrando una precisión de vanguardia con superior eficiencia de parámetros. En comparación con los modelos de referencia más avanzados, mejora la precisión entre un 39% y un 66% en estos cuatro conjuntos de datos. Código: https://github.com/AIGeeksGroup/OmniOCR.
Los Grandes Modelos de Visión y Lenguaje (VLMs) han demostrado un potencial significativo en tareas complejas de comprensión visual mediante métodos de optimización iterativa. Sin embargo, estos modelos generalmente carecen de mecanismos efectivos de autocorrección, lo que dificulta que rectifiquen de forma independiente los sesgos cognitivos. En consecuencia, durante revisiones multiturno, a menudo caen en intentos repetitivos e ineficaces, sin lograr mejoras estables en la calidad de las respuestas. Para abordar este problema, proponemos un novedoso marco de autocorrección iterativa que dota a los modelos con dos capacidades clave: Reflexión de Capacidad y Reflexión de Memoria. Este marco guía al modelo para que primero diagnostique errores y genere un plan de corrección mediante la Reflexión de Capacidad, luego aproveche la Reflexión de Memoria para revisar intentos pasados y evitar repeticiones mientras explora nuevas soluciones, y finalmente optimice la respuesta mediante un rerrazonamiento riguroso. Los experimentos en el complejo benchmark OCRBench v2 muestran que OCR-Agent supera al modelo SOTA de código abierto actual InternVL3-8B en +2.0 en el subconjunto inglés y +1.2 en el chino, logrando simultáneamente resultados state-of-the-art en Comprensión Visual (79.9) y Razonamiento (66.5), superando incluso a modelos fine-tuned más grandes. Nuestro método demuestra que la reflexión estructurada y autoconsciente puede mejorar significativamente la robustez del razonamiento de los VLMs sin entrenamiento adicional. Código: https://github.com/AIGeeksGroup/OCR-Agent.
La anonimización de documentos textuales es un problema altamente dependiente del contexto: el equilibrio adecuado entre la protección de la privacidad y la preservación de la utilidad varía según el dominio de los datos, los objetivos de privacidad y la aplicación posterior. Sin embargo, los métodos de anonimización existentes se basan en estrategias estáticas diseñadas manualmente que carecen de la flexibilidad para adaptarse a requisitos diversos y a menudo no logran generalizarse entre dominios. Introducimos la anonimización de texto adaptativa, una nueva formulación de tarea en la que las estrategias de anonimización se adaptan automáticamente a requisitos específicos de privacidad-utilidad. Proponemos un marco de optimización de instrucciones específico para la tarea que construye automáticamente instrucciones de anonimización para modelos de lenguaje, permitiendo la adaptación a diferentes objetivos de privacidad, dominios y patrones de uso posteriores. Para evaluar nuestro enfoque, presentamos un punto de referencia que abarca cinco conjuntos de datos con dominios diversos, restricciones de privacidad y objetivos de utilidad. En todos los escenarios evaluados, nuestro marco logra consistentemente un mejor equilibrio entre privacidad y utilidad que los métodos base existentes, manteniéndose computacionalmente eficiente y efectivo en modelos de lenguaje de código abierto, con un rendimiento comparable al de modelos propietarios más grandes. Adicionalmente, demostramos que nuestro método puede descubrir estrategias de anonimización novedosas que exploran diferentes puntos a lo largo de la frontera de equilibrio entre privacidad y utilidad.
La representación visual de texto (VTR) sigue siendo un desafío crítico en la generación de texto a imagen, donde incluso los modelos avanzados producen con frecuencia texto con anomalías estructurales como distorsión, desenfoque y desalineación. Sin embargo, descubrimos que los principales MLLM y los modelos especializados de OCR no logran percibir en gran medida estas anomalías estructurales, creando un cuello de botella crítico tanto para la evaluación de VTR como para la optimización basada en RL. Como resultado, incluso los generadores de última generación (por ejemplo, SeedDream4.0, Qwen-Image) aún luchan por representar texto estructuralmente fiel. Para abordar esto, proponemos TextPecker, una estrategia de RL perceptiva de anomalías estructurales plug-and-play que mitiga las señales de recompensa ruidosas y funciona con cualquier generador de texto a imagen. Para habilitar esta capacidad, construimos un conjunto de datos de reconocimiento con anotaciones de anomalías estructurales a nivel de carácter y desarrollamos un motor de síntesis por edición de trazos para ampliar la cobertura de errores estructurales. Los experimentos muestran que TextPecker mejora consistentemente diversos modelos de texto a imagen; incluso en el bien optimizado Qwen-Image, produce ganancias promedio significativas del 4% en fidelidad estructural y del 8.7% en alineación semántica para la representación de texto en chino, estableciendo un nuevo estado del arte en VTR de alta fidelidad. Nuestro trabajo llena un vacío en la optimización de VTR, proporcionando un paso fundamental hacia la generación de texto visual confiable y estructuralmente fiel.
Este artículo presenta LaS-Comp, un método de cero-shot y agnóstico a categorías que aprovecha los ricos priores geométricos de los modelos fundacionales 3D para permitir la compleción de formas 3D en diversos tipos de observaciones parciales. Nuestras contribuciones son tres: En primer lugar, se aprovechan estos potentes priores generativos para la compleción mediante un diseño complementario en dos etapas: (i) una etapa de reemplazo explícito que preserva la geometría de la observación parcial para garantizar una compleción fiel; y (ii) una etapa de refinamiento implícito que asegura límites sin discontinuidades entre las regiones observadas y las sintetizadas. En segundo lugar, nuestro marco es libre de entrenamiento y compatible con diferentes modelos fundacionales 3D. En tercer lugar, presentamos Omni-Comp, un benchmark integral que combina datos del mundo real y sintéticos con diversos y desafiantes patrones de parcialidad, permitiendo una evaluación más exhaustiva y realista. Tanto los experimentos cuantitativos como los cualitativos demuestran que nuestro método supera a los enfoques anteriores del estado del arte. Nuestro código y datos estarán disponibles en https://github.com/DavidYan2001/LaS-Comp{LaS-Comp}.
La creciente demanda de modelos de lenguaje grandes (LLM) requiere que los sistemas de servicio manejen muchas solicitudes concurrentes con diversos objetivos de nivel de servicio (SLO). Esto exacerba el bloqueo de cabecera de línea (HoL) durante la fase computacionalmente intensiva de prefilling, donde las solicitudes de larga duración monopolizan los recursos y retrasan las de mayor prioridad, lo que genera violaciones generalizadas de los SLO de tiempo hasta el primer token (TTFT). Si bien el prefilling fragmentado permite la interrupción, introduce una disyuntiva inherente entre capacidad de respuesta y rendimiento: reducir el tamaño del fragmento mejora la latencia de respuesta pero degrada la eficiencia computacional, mientras que aumentarlo maximiza el rendimiento pero exacerba el bloqueo. Esto hace necesario un mecanismo de prelación adaptativo. Sin embargo, equilibrar dinámicamente la granularidad de la ejecución con la sobrecarga de planificación sigue siendo un desafío clave. En este artículo, proponemos FlowPrefill, un sistema de servicio optimizado para TTFT y buen rendimiento (goodput) que resuelve este conflicto desacoplando la granularidad de la prelación de la frecuencia de planificación. Para lograr una planificación de prefilling adaptativa, FlowPrefill introduce dos innovaciones clave: 1) Prelación a Nivel de Operador, que aprovecha los límites de los operadores para permitir una interrupción de ejecución de grano fino sin la pérdida de eficiencia asociada a la fragmentación fija en tamaños pequeños; y 2) Planificación Dirigida por Eventos, que activa las decisiones de planificación solo ante eventos de llegada o finalización de solicitudes, apoyando así una prelación eficiente y receptiva mientras minimiza la sobrecarga del plano de control. La evaluación con trazas de producción del mundo real muestra que FlowPrefill mejora el buen rendimiento máximo hasta en 5.6 veces en comparación con los sistemas más avanzados, satisfaciendo al mismo tiempo SLO heterogéneos.
La detección de datos de entrenamiento en LLM generalmente se enmarca como un problema de ataque de inferencia de membresía (MIA). Sin embargo, los MIA convencionales operan de forma pasiva sobre pesos de modelo fijos, utilizando log-verosimilitudes o generaciones de texto. En este trabajo, presentamos el Ataque Activo de Reconstrucción de Datos (ADRA), una familia de MIA que induce activamente a un modelo a reconstruir un texto dado mediante entrenamiento. Nuestra hipótesis es que los datos de entrenamiento son más reconstruibles que los no miembros, y que la diferencia en su capacidad de reconstrucción puede explotarse para la inferencia de membresía. Motivados por hallazgos que indican que el aprendizaje por refuerzo (RL) agudiza comportamientos ya codificados en los pesos, aprovechamos el RL *on-policy* para elicitar activamente la reconstrucción de datos mediante el ajuste fino de una política inicializada a partir del modelo objetivo. Para utilizar el RL de manera efectiva en MIA, diseñamos métricas de reconstrucción y recompensas contrastivas. Los algoritmos resultantes, ADRA y su variante adaptativa ADRA+, mejoran tanto la reconstrucción como la detección dado un conjunto de datos candidatos. Los experimentos muestran que nuestros métodos superan consistentemente a los MIA existentes en la detección de datos de pre-entrenamiento, post-entrenamiento y destilación, con una mejora promedio del 10.7\% sobre el anterior subcampeón. En particular, ADRA+ mejora a Min-K\%++ en un 18.8\% en BookMIA para la detección de pre-entrenamiento y en un 7.6\% en AIME para la detección de post-entrenamiento.