Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos Green-VLA, un marco de trabajo Vision-Lenguaje-Acción (VLA) por etapas para el despliegue en el mundo real en el robot humanoide Green, manteniendo al mismo tiempo la generalización entre diversas encarnaciones. Green-VLA sigue un currículo de cinco etapas: (L0) modelos fundacionales de visión y lenguaje (VLM), (L1) grounding multimodal, (R0) preentrenamiento multi-encarnación, (R1) adaptación específica por encarnación, y (R2) alineación de políticas mediante aprendizaje por refuerzo (RL). Acoplamos un pipeline escalable de procesamiento de datos (3.000 horas de demostraciones) con alineación temporal y filtrado de calidad, y utilizamos una interfaz de acción unificada y consciente de la encarnación que permite a una única política controlar humanoides, manipuladores móviles y brazos de base fija. En la inferencia, el controlador VLA se ve mejorado con predicción del progreso del episodio, detección de datos fuera de distribución y guía basada en predicción conjunta para mejorar la seguridad y la selección precisa del objetivo. Los experimentos en Simpler BRIDGE WidowX y CALVIN ABC-D, así como las evaluaciones en robots reales, muestran una fuerte generalización y ganancias de rendimiento debidas a la alineación por RL en tasa de éxito, robustez y eficiencia en horizontes temporales largos.
Presentamos Kimi K2.5, un modelo agente multimodal de código abierto diseñado para impulsar la inteligencia agentiva general. K2.5 hace hincapié en la optimización conjunta de texto y visión para que ambas modalidades se potencien mutuamente. Esto incluye una serie de técnicas como el pre-entrenamiento conjunto texto-visión, el SFT de visión cero y el aprendizaje por refuerzo conjunto texto-visión. Sobre esta base multimodal, K2.5 introduce Agent Swarm, un marco de orquestación de agentes paralelos autodirigido que descompone dinámicamente tareas complejas en subproblemas heterogéneos y los ejecuta de forma concurrente. Evaluaciones exhaustivas demuestran que Kimi K2.5 alcanza resultados de vanguardia en diversos dominios, incluyendo codificación, visión, razonamiento y tareas agentivas. Agent Swarm también reduce la latencia hasta 4.5 veces en comparación con sistemas de agente único. Liberamos el *checkpoint* del modelo Kimi K2.5 post-entrenado para facilitar la investigación futura y las aplicaciones prácticas de la inteligencia agentiva.
Los modelos de lenguaje grandes multimodales (MLLMs) han logrado un éxito notable en una amplia gama de tareas de visión. Sin embargo, limitados por la capacidad de su conocimiento interno del mundo, trabajos previos han propuesto aumentar los MLLMs mediante un enfoque de "razonamiento-y-luego-llamada-a-herramientas" para motores de búsqueda visuales y textuales, obteniendo ganancias sustanciales en tareas que requieren información factual extensa. No obstante, estos enfoques suelen definir la búsqueda multimodal en un escenario ingenuo, asumiendo que una única consulta visual a nivel completo o a nivel de entidad y pocas consultas textuales son suficientes para recuperar la evidencia clave necesaria para responder la pregunta, lo cual es poco realista en escenarios del mundo real con ruido visual sustancial. Además, a menudo están limitados en la profundidad de razonamiento y la amplitud de búsqueda, lo que dificulta resolver preguntas complejas que requieren agregar evidencia de diversas fuentes visuales y textuales. Basándonos en esto, proponemos Vision-DeepResearch, que introduce un nuevo paradigma de investigación profunda multimodal, es decir, realiza búsquedas visuales y textuales multi-turno, multi-entidad y multi-escala para impactar robustamente los motores de búsqueda del mundo real bajo ruido intenso. Nuestro Vision-DeepResearch admite docenas de pasos de razonamiento y cientos de interacciones con motores, mientras internaliza capacidades de investigación profunda en el MLLM mediante supervisión de inicio en frío y entrenamiento por RL, resultando en un MLLM de investigación profunda multimodal fuerte y de extremo a extremo. Supera sustancialmente a los MLLMs de investigación profunda multimodal existentes y a los flujos de trabajo construidos sobre modelos base de código cerrado fuertes como GPT-5, Gemini-2.5-pro y Claude-4-Sonnet. El código se publicará en https://github.com/Osilly/Vision-DeepResearch.
Los Modelos de Lenguaje Grandes Multimodales (MLLMs) han avanzado en VQA y ahora soportan sistemas de Búsqueda Profunda Visual que utilizan motores de búsqueda para tareas complejas de localización de información visual-textual. Sin embargo, evaluar estas capacidades de búsqueda visual y textual sigue siendo difícil, y los puntos de referencia existentes presentan dos limitaciones principales. En primer lugar, los benchmarks existentes no están centrados en la búsqueda visual: las respuestas que deberían requerir búsqueda visual a menudo se filtran mediante pistas textuales cruzadas en las preguntas o pueden inferirse a partir del conocimiento mundial previo en los MLLMs actuales. En segundo lugar, un escenario de evaluación demasiado idealizado: en el lado de la búsqueda por imagen, la información requerida a menudo puede obtenerse mediante una coincidencia casi exacta con la imagen completa, mientras que el lado de la búsqueda textual es demasiado directo e insuficientemente desafiante. Para abordar estos problemas, construimos el benchmark Vision-DeepResearch (VDR-Bench) que comprende 2.000 instancias de VQA. Todas las preguntas se crean mediante una cuidadosa canalización de curación en múltiples etapas y una rigurosa revisión experta, diseñada para evaluar el comportamiento de los sistemas de Búsqueda Profunda Visual en condiciones realistas del mundo real. Además, para abordar las capacidades insuficientes de recuperación visual de los MLLMs actuales, proponemos un sencillo flujo de trabajo de búsqueda recortada en múltiples rondas. Se demuestra que esta estrategia mejora efectivamente el rendimiento del modelo en escenarios realistas de recuperación visual. En general, nuestros resultados proporcionan una guía práctica para el diseño de futuros sistemas multimodales de investigación profunda. El código se publicará en https://github.com/Osilly/Vision-DeepResearch.
Los agentes de repositorio actuales experimentan una desconexión de razonamiento debido a representaciones fragmentadas, ya que los métodos existentes dependen de documentación API aislada o grafos de dependencia que carecen de profundidad semántica. Consideramos la comprensión y generación de repositorios como procesos inversos dentro de un ciclo unificado: la generación expande la intención en implementación, mientras que la comprensión comprime la implementación de vuelta a la intención. Para abordar esto, proponemos RPG-Encoder, un marco que generaliza el Grafo de Planificación de Repositorio (RPG) de un plano generativo estático a una representación unificada de alta fidelidad. RPG-Encoder cierra el ciclo de razonamiento mediante tres mecanismos: (1) Codificación de código sin procesar en el RPG que combina características semánticas elevadas con dependencias de código; (2) Evolución incremental de la topología para desacoplar los costos de mantenimiento de la escala del repositorio, reduciendo la sobrecarga en un 95.7%; y (3) Operación como interfaz unificada para navegación consciente de la estructura. En evaluaciones, RPG-Encoder establece el estado del arte en comprensión de repositorios en SWE-bench Verified con 93.7% Acc@5 y supera la mejor línea base en más de un 10% en SWE-bench Live Lite. Estos resultados destacan nuestra precisión superior de localización granular en bases de código complejas. Además, logra un 98.5% de cobertura de reconstrucción en RepoCraft, confirmando la capacidad de alta fidelidad del RPG para reflejar la base de código original y cerrando el ciclo entre intención e implementación.
Los modelos multimodales unificados a menudo presentan dificultades en tareas de síntesis complejas que requieren razonamiento profundo, y generalmente tratan la generación de texto a imagen y la edición de imágenes como capacidades aisladas en lugar de pasos de razonamiento interconectados. Para abordar esta limitación, proponemos UniReason, un marco unificado que armoniza estas dos tareas mediante un paradigma de razonamiento dual. Formulamos la generación como una planificación potenciada por conocimiento del mundo para inyectar restricciones implícitas, y aprovechamos las capacidades de edición para un refinamiento visual de grano fino que corrige errores visuales mediante la autorreflexión. Este enfoque unifica la generación y la edición dentro de una representación compartida, reflejando el proceso cognitivo humano de planificación seguida de refinamiento. Sostenemos este marco mediante la construcción sistemática de un conjunto de datos a gran escala centrado en el razonamiento (~300k muestras) que cubre cinco dominios principales de conocimiento (por ejemplo, sentido común cultural, física, etc.) para la planificación, junto con un corpus generado por agentes para la autocorrección visual. Experimentos exhaustivos demuestran que UniReason logra un rendimiento avanzado en benchmarks intensivos en razonamiento como WISE, KrisBench y UniREditBench, manteniendo al mismo tiempo capacidades de síntesis general superiores.
Proponemos SWE-Universe, un marco escalable y eficiente para construir automáticamente entornos verificables de ingeniería de software (SWE) del mundo real a partir de pull requests (PRs) de GitHub. Para superar los desafíos prevalentes de la construcción automática, como el bajo rendimiento productivo, los verificadores débiles y el costo prohibitivo, nuestro marco utiliza un agente de construcción potenciado por un modelo eficiente entrenado a medida. Este agente emplea una auto-verificación iterativa y una detección de hacking en el bucle para garantizar la generación confiable de tareas verificables de alta fidelidad. Utilizando este método, escalamos la cantidad de entornos SWE multilingües del mundo real a una escala de millones (807.693). Demostramos el profundo valor de nuestros entornos mediante un entrenamiento intermedio agéntico a gran escala y aprendizaje por refuerzo. Finalmente, aplicamos esta técnica a Qwen3-Max-Thinking y logramos una puntuación del 75.3% en SWE-Bench Verified. Nuestro trabajo proporciona tanto un recurso crítico como una metodología robusta para avanzar en la próxima generación de agentes de codificación.
La investigación profunda está surgiendo como una tarea representativa de horizonte largo para agentes de modelos de lenguaje grande (LLM). Sin embargo, las trayectorias largas en la investigación profunda a menudo exceden los límites de contexto del modelo, comprimiendo el presupuesto de tokens tanto para la recolección de evidencia como para la redacción de informes, e impidiendo un escalado efectivo en tiempo de prueba. Presentamos FS-Researcher, un marco de doble agente basado en sistema de archivos que escala la investigación profunda más allá de la ventana de contexto mediante un espacio de trabajo persistente. Específicamente, un agente Constructor de Contexto actúa como un bibliotecario que navega por internet, escribe notas estructuradas y archiva fuentes primarias en una base de conocimiento jerárquica que puede crecer mucho más allá de la longitud del contexto. Un agente Redactor de Informes luego compone el informe final sección por sección, tratando la base de conocimiento como la fuente de hechos. En este marco, el sistema de archivos sirve como una memoria externa duradera y un medio de coordinación compartido entre agentes y sesiones, permitiendo un refinamiento iterativo más allá de la ventana de contexto. Los experimentos en dos benchmarks de respuesta abierta (DeepResearch Bench y DeepConsult) muestran que FS-Researcher logra una calidad de informe state-of-the-art en diferentes modelos base. Análisis adicionales demuestran una correlación positiva entre la calidad del informe final y la computación asignada al Constructor de Contexto, validando un escalado efectivo en tiempo de prueba bajo el paradigma del sistema de archivos. El código y los datos se han publicado de forma anónima en https://github.com/Ignoramus0817/FS-Researcher.
La difusión en píxeles genera imágenes directamente en el espacio de píxeles de manera integral, evitando los artefactos y cuellos de botella introducidos por los VAE en la difusión latente en dos etapas. Sin embargo, es difícil optimizar las variedades de píxeles de alta dimensión que contienen muchas señales perceptualmente irrelevantes, lo que hace que los métodos existentes de difusión en píxeles se queden atrás respecto a los modelos de difusión latente. Proponemos PixelGen, un marco simple de difusión en píxeles con supervisión perceptual. En lugar de modelar la variedad completa de la imagen, PixelGen introduce dos pérdidas perceptuales complementarias para guiar al modelo de difusión hacia el aprendizaje de una variedad perceptual más significativa. Una pérdida LPIPS facilita el aprendizaje de mejores patrones locales, mientras que una pérdida perceptual basada en DINO refuerza la semántica global. Con supervisión perceptual, PixelGen supera a sólidos modelos de referencia de difusión latente. Alcanza un FID de 5.11 en ImageNet-256 sin guía libre de clasificador utilizando solo 80 épocas de entrenamiento, y demuestra un rendimiento de escalado favorable en la generación de imágenes a partir de texto a gran escala con una puntuación GenEval de 0.79. PixelGen no requiere VAE, ni representaciones latentes, ni etapas auxiliares, ofreciendo un paradigma generativo más simple pero más potente. Los códigos están disponibles públicamente en https://github.com/Zehong-Ma/PixelGen.
El Aprendizaje Progresivo (PL) reduce la sobrecarga computacional del pre-entrenamiento al aumentar gradualmente la escala del modelo. Si bien trabajos previos han explorado extensamente la expansión en profundidad, la expansión en anchura sigue estando significativamente menos estudiada, con los pocos métodos existentes limitados a las etapas iniciales del entrenamiento. Sin embargo, expandir la anchura durante la etapa intermedia es esencial para maximizar el ahorro computacional, pero sigue siendo un desafío formidable debido a graves inestabilidades en el entrenamiento. Empíricamente, demostramos que una inicialización simple en esta etapa altera las estadísticas de las activaciones, provocando picos en la pérdida, mientras que la inicialización por copia introduce una simetría en los gradientes que dificulta la diversidad de características. Para abordar estos problemas, proponemos SPARKLING (equilibrio entre la preservación de la señal y la ruptura de simetría para el aprendizaje progresivo en anchura), un novedoso marco para la expansión de anchura en etapa intermedia. Nuestro método logra la preservación de la señal mediante la consistencia de escala RMS, estabilizando las estadísticas de activación durante la expansión. La ruptura de simetría se garantiza mediante un reinicio asimétrico del estado del optimizador y un nuevo calentamiento de la tasa de aprendizaje. Experimentos exhaustivos en modelos Mixture-of-Experts (MoE) demuestran que, en múltiples ejes de anchura y familias de optimizadores, SPARKLING supera consistentemente al entrenamiento desde cero y reduce el coste de entrenamiento hasta en un 35% bajo una expansión de anchura de 2 veces.
La recomendación basada en ID Semánticos (SID) es un paradigma prometedor para escalar sistemas de recomendación secuenciales, pero los métodos existentes siguen en gran medida un enfoque centrado en la semántica: los *embeddings* de ítems se aprenden a partir de modelos fundacionales y se discretizan utilizando esquemas de cuantificación genéricos. Este diseño no está alineado con los objetivos de la recomendación generativa: los *embeddings* semánticos están débilmente acoplados con la predicción colaborativa, y la cuantificación genérica es ineficaz para reducir la incertidumbre secuencial en el modelado autoregresivo. Para abordar estos problemas, proponemos ReSID, un marco SID nativo para recomendación y con bases sólidas que replantea el aprendizaje de representaciones y la cuantificación desde la perspectiva de la preservación de información y la predictibilidad secuencial, sin depender de LLMs. ReSID consta de dos componentes: (i) Codificación Automática Enmascarada Consciente del Campo (FAMAE), que aprende representaciones de ítems predictivamente suficientes a partir de características estructuradas, y (ii) Cuantificación Ortogonal con Alineación Global (GAOQ), que produce secuencias SID compactas y predecibles mediante la reducción conjunta de la ambigüedad semántica y la incertidumbre condicional al prefijo. El análisis teórico y experimentos exhaustivos en diez conjuntos de datos demuestran la efectividad de ReSID. ReSID supera consistentemente a los fuertes baselines generativos secuenciales y basados en SID en un promedio de más del 10%, mientras reduce el costo de tokenización hasta en 122 veces. El código está disponible en https://github.com/FuCongResearchSquad/ReSID.
El post-entrenamiento de LLMs de razonamiento es un proceso holístico que normalmente consiste en una etapa fuera de línea de SFT seguida de una etapa en línea de aprendizaje por refuerzo (RL). Sin embargo, el SFT a menudo se optimiza de forma aislada para maximizar únicamente el rendimiento del SFT. Demostramos que, tras un entrenamiento de RL idéntico, los modelos inicializados a partir de puntos de control de SFT más fuertes pueden tener un rendimiento significativamente inferior al de aquellos inicializados a partir de puntos más débiles. Atribuimos esto a un desajuste típico en las canalizaciones SFT-RL actuales: la distribución que genera los datos de SFT fuera de línea puede diferir sustancialmente de la política optimizada durante la RL en línea, que aprende de sus propias trayectorias. Proponemos PEAR (Algoritmo Inspirado en Evaluación de Políticas para la Reponderación de Pérdidas en Aprendizaje fuera de Línea), un método para la etapa de SFT que corrige este desajuste y prepara mejor el modelo para la RL. PEAR utiliza muestreo por importancia para reponderar la pérdida del SFT, con tres variantes que operan a nivel de token, bloque y secuencia. Puede utilizarse para aumentar los objetivos estándar de SFT y conlleva una sobrecarga de entrenamiento adicional mínima una vez que se recopilan las probabilidades para los datos fuera de línea. Realizamos experimentos controlados en juegos de razonamiento verificables y tareas de razonamiento matemático en los modelos Qwen 2.5 y 3 y en modelos destilados de DeepSeek. PEAR mejora consistentemente el rendimiento posterior a la RL en comparación con el SFT canónico, logrando ganancias de "pass@8" de hasta un 14.6% en AIME2025. Nuestros resultados sugieren que PEAR es un paso efectivo hacia un post-entrenamiento de LLMs más holístico, al diseñar y evaluar el SFT teniendo en cuenta la RL posterior, en lugar de hacerlo de forma aislada.
Los Modelos de Mundo (WM) de Interfaz Gráfica de Usuario (GUI) Móvil ofrecen un camino prometedor para mejorar el rendimiento de los agentes de GUI móviles tanto en el entrenamiento como en la inferencia. Sin embargo, los enfoques actuales enfrentan una disyuntiva crítica: los WM basados en texto sacrifican la fidelidad visual, mientras que la incapacidad de los WM visuales para renderizar texto con precisión los lleva a depender de pipelines lentos y complejos que utilizan numerosos modelos externos. Proponemos un nuevo paradigma: el modelado visual del mundo mediante la generación de código renderizable, donde un único Modelo de Visión y Lenguaje (VLM) predice el siguiente estado de la GUI como código web ejecutable que se renderiza en píxeles, en lugar de generar píxeles directamente. Esto combina las fortalezas de ambos enfoques: los VLM retienen sus conocimientos lingüísticos para una renderización de texto precisa, mientras que su pre-entrenamiento en código web estructurado permite una generación visual de alta fidelidad. Presentamos gWorld (8B, 32B), los primeros WM visuales de GUI móvil de peso abierto basados en este paradigma, junto con un marco de generación de datos (gWorld) que sintetiza automáticamente datos de entrenamiento basados en código. En una evaluación exhaustiva en 4 benchmarks dentro de la distribución y 2 fuera de la distribución, gWorld establece una nueva frontera de Pareto en precisión versus tamaño del modelo, superando a 8 modelos de peso abierto de vanguardia que son más de 50.25 veces más grandes. Análisis adicionales muestran que (1) escalar los datos de entrenamiento mediante gWorld produce mejoras significativas, (2) cada componente de nuestra pipeline mejora la calidad de los datos, y (3) un modelado del mundo más fuerte mejora el rendimiento de las políticas de GUI móvil en tareas posteriores.
La Generación Aumentada por Recuperación Basada en Grafos (GraphRAG) organiza el conocimiento externo como un grafo jerárquico, permitiendo la recuperación eficiente y la agregación de evidencia dispersa en múltiples documentos. Sin embargo, muchos de los puntos de referencia existentes para GraphRAG se basan en pasajes cortos y seleccionados como conocimiento externo, lo que no logra evaluar adecuadamente a los sistemas en entornos realistas que involucran contextos largos y documentos heterogéneos a gran escala. Para cerrar esta brecha, presentamos WildGraphBench, un punto de referencia diseñado para evaluar el rendimiento de GraphRAG en condiciones reales. Aprovechamos la estructura única de Wikipedia, donde las narrativas cohesivas se basan en documentos de referencia externos largos y heterogéneos, para construir un benchmark que refleje escenarios del mundo real. Específicamente, muestreamos artículos de 12 temas de alto nivel, utilizando sus referencias externas como corpus de recuperación y las declaraciones vinculadas a citas como verificación, resultando en 1.100 preguntas que abarcan tres niveles de complejidad: preguntas de respuesta única (QA), preguntas de múltiples datos (QA) y resumen a nivel de sección. Los experimentos con múltiples líneas base revelan que las canalizaciones actuales de GraphRAG ayudan en la agregación de múltiples datos cuando la evidencia proviene de un número moderado de fuentes, pero este paradigma de agregación puede enfatizar en exceso las declaraciones de alto nivel a expensas de los detalles específicos, lo que lleva a un rendimiento más débil en las tareas de resumen. Página del proyecto: https://github.com/BstWPY/WildGraphBench.
El razonamiento de Cadena de Pensamiento ha impulsado a los grandes modelos de lenguaje a pasar de pensar con texto a pensar con imágenes y videos. Sin embargo, las diferentes modalidades aún presentan limitaciones claras: las imágenes estáticas tienen dificultades para representar la estructura temporal, mientras que los videos introducen una redundancia y un coste computacional sustanciales. En este trabajo, proponemos Pensar con Cómics, un paradigma de razonamiento visual que utiliza el cómic como un medio de alta densidad de información situado entre las imágenes y los videos. Los cómics preservan la estructura temporal, el texto integrado y la coherencia narrativa, a la vez que requieren un coste de razonamiento significativamente menor. Estudiamos sistemáticamente dos rutas de razonamiento basadas en cómics y las evaluamos en una variedad de tareas de razonamiento y de comprensión de contexto largo. Los resultados experimentales muestran que Pensar con Cómics supera a Pensar con Imágenes en tareas de razonamiento temporal y causal de múltiples pasos, manteniéndose sustancialmente más eficiente que Pensar con Video. Un análisis adicional indica que las diferentes estructuras y estilos narrativos del cómic afectan consistentemente al rendimiento en las distintas tareas, lo que sugiere que los cómics sirven como una representación visual intermedia efectiva para mejorar el razonamiento multimodal.
Proponemos RLAnything, un marco de aprendizaje por refuerzo que forja dinámicamente modelos de entorno, política y recompensa mediante optimización en bucle cerrado, amplificando las señales de aprendizaje y fortaleciendo el sistema global de RL para cualquier escenario de LLM o agentes. Específicamente, la política se entrena con retroalimentación integrada de señales paso a paso y de resultado, mientras que el modelo de recompensa se optimiza conjuntamente mediante retroalimentación de consistencia, lo que a su vez mejora aún más el entrenamiento de la política. Además, nuestra adaptación automática del entorno, motivada teóricamente, mejora el entrenamiento tanto de los modelos de recompensa como de política aprovechando la retroalimentación del crítico de cada uno, permitiendo el aprendizaje a partir de la experiencia. Empíricamente, cada componente añadido mejora consistentemente el sistema general, y RLAnything produce ganancias sustanciales en varias tareas representativas de LLM y agentes, aumentando Qwen3-VL-8B-Thinking en un 9.1% en OSWorld y Qwen2.5-7B-Instruct en un 18.7% y 11.9% en AlfWorld y LiveBench, respectivamente. También demostramos que las señales del modelo de recompensa optimizado superan a los resultados que dependen de etiquetas humanas. Código: https://github.com/Gen-Verse/Open-AgentRL
Los Agentes de Investigación Profunda (DRA) han demostrado capacidades notables en la recuperación autónoma de información y la generación de informes, mostrando un gran potencial para asistir a los humanos en tareas de investigación complejas. Los marcos de evaluación actuales se basan principalmente en referencias generadas por LLM o en dimensiones de evaluación derivadas de LLM. Si bien estos enfoques ofrecen escalabilidad, a menudo carecen de la fiabilidad del contenido verificado por expertos y tienen dificultades para proporcionar evaluaciones objetivas y detalladas de dimensiones críticas. Para cerrar esta brecha, presentamos Wiki Live Challenge (WLC), un punto de referencia dinámico que aprovecha los Artículos Buenos (GA) más recientes de Wikipedia como referencias de nivel experto. Los estrictos estándares de Wikipedia en cuanto a neutralidad, exhaustividad y verificabilidad representan un gran desafío para los DRA, siendo los GA el pináculo de los mismos. Hemos recopilado un conjunto de datos de 100 Artículos Buenos recientes y proponemos Wiki Eval, un marco de evaluación integral que comprende un método de evaluación detallado con 39 criterios para la calidad de la escritura y métricas rigurosas para la verificabilidad fáctica. Experimentos exhaustivos en varios sistemas DRA demuestran una brecha significativa entre los DRA actuales y los artículos de Wikipedia de nivel experto humano, validando la efectividad de WLC para avanzar en la investigación de agentes. Publicamos nuestro punto de referencia en https://github.com/WangShao2000/Wiki_Live_Challenge.
Los métodos de optimización directa de preferencias han surgido como una alternativa computacionalmente eficiente al Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) para alinear Modelos de Lenguaje a Gran Escala (LLMs). Los enfoques más recientes han simplificado el proceso de alineación mediante la derivación de funciones de recompensa implícitas, pero a menudo adolecen de un desajuste crítico en el objetivo: optimizar el margen relativo entre respuestas elegidas y rechazadas no garantiza la preservación de la verosimilitud absoluta de la respuesta elegida. Esto puede conducir al "desaprendizaje", donde el modelo degrada la probabilidad de salidas de alta calidad para satisfacer las restricciones de margen, y al "colapso del formato" causado por la penalización excesiva de secuencias rechazadas. En este trabajo, presentamos SLIME (Aplicación de Margen Implícito con Verosimilitud Estabilizada), un objetivo de alineación sin referencia diseñado para desacoplar el aprendizaje de preferencias de la calidad de la generación. SLIME incorpora un objetivo triple: (1) un término de anclaje para maximizar la verosimilitud de las respuestas preferidas; (2) una penalización estabilizadora que evita que las probabilidades de los tokens rechazados colapsen a cero; y (3) un mecanismo de doble margen que combina restricciones rígidas y flexibles para un modelado preciso de los límites. Nuestros resultados demuestran que SLIME logra un rendimiento superior en comparación con los métodos de referencia más avanzados, manteniendo al mismo tiempo una mayor estabilidad en la generación.
Los modelos de difusión de video autorregresivos permiten la generación en flujo continuo, abriendo la puerta a la síntesis de formato largo, modelos de mundo de video y motores de juego neuronal interactivos. Sin embargo, sus capas de atención central se convierten en un cuello de botella importante durante la inferencia: a medida que avanza la generación, la caché de claves-valores (KV) crece, causando tanto una latencia creciente como un aumento progresivo de la memoria de la GPU, lo que a su vez restringe el contexto temporal utilizable y perjudica la coherencia a largo alcance. En este trabajo, estudiamos la redundancia en la difusión de video autorregresiva e identificamos tres fuentes persistentes: claves en caché casi duplicadas entre fotogramas, consultas/claves de evolución lenta (en gran parte semánticas) que vuelven redundantes muchos cálculos de atención, y la atención cruzada sobre prompts largos donde solo un pequeño subconjunto de tokens es relevante por fotograma. Basándonos en estas observaciones, proponemos un marco de atención unificado, sin necesidad de entrenamiento, para la difusión autorregresiva: TempCache comprime la caché KV mediante correspondencia temporal para limitar su crecimiento; AnnCA acelera la atención cruzada seleccionando tokens del prompt relevantes para el fotograma usando emparejamiento aproximado de vecinos más cercanos (ANN) rápido; y AnnSA esparsifica la auto-atención restringiendo cada consulta a claves con coincidencia semántica, también usando un ANN ligero. Juntos, estos módulos reducen la atención, el cómputo y la memoria, y son compatibles con arquitecturas de difusión autorregresivas y modelos de mundo existentes. Los experimentos demuestran aceleraciones de extremo a extremo de hasta x5--x10 mientras se preserva una calidad visual casi idéntica y, crucialmente, se mantiene un rendimiento estable y un uso de memoria máxima de GPU casi constante durante generaciones largas, donde los métodos anteriores se ralentizan progresivamente y sufren de un uso de memoria creciente.
Para lograr la generación de video interactivo en tiempo real, los métodos actuales destilan modelos bidireccionales de difusión de video preentrenados en modelos autorregresivos (AR) de pocos pasos, enfrentando una brecha arquitectónica cuando la atención completa se reemplaza por atención causal. Sin embargo, los enfoques existentes no salvan teóricamente esta brecha. Inicializan el estudiante AR mediante destilación ODE, lo que requiere inyectividad a nivel de fotograma, donde cada fotograma ruidoso debe mapearse a un único fotograma limpio bajo la PF-ODE de un profesor AR. Destilar un estudiante AR a partir de un profesor bidireccional viola esta condición, impidiendo la recuperación del mapa de flujo del profesor e induciendo en su lugar una solución de expectativa condicional, lo que degrada el rendimiento. Para abordar este problema, proponemos Causal Forcing, que utiliza un profesor AR para la inicialización ODE, salvando así la brecha arquitectónica. Los resultados empíricos muestran que nuestro método supera a todos los baselines en todas las métricas, sobrepasando al estado del arte Self Forcing en un 19.3% en Dynamic Degree, 8.7% en VisionReward y 16.7% en Instruction Following. Página del proyecto y código: https://thu-ml.github.io/CausalForcing.github.io/
La generación de texto a vídeo (T2V) tiene como objetivo sintetizar vídeos con alta calidad visual y coherencia temporal que estén semánticamente alineados con el texto de entrada. El post-entrenamiento basado en recompensas ha surgido como una dirección prometedora para mejorar la calidad y la alineación semántica de los vídeos generados. Sin embargo, los métodos recientes dependen de anotaciones de preferencia humana a gran escala o operan sobre *embeddings* desalineados de modelos de visión y lenguaje preentrenados, lo que conduce a una escalabilidad limitada o a una supervisión subóptima. Presentamos PISCES, un algoritmo de post-entrenamiento sin anotaciones que aborda estas limitaciones mediante un nuevo módulo de Recompensas Alineadas por Transporte Óptimo (TO) Dual. Para alinear las señales de recompensa con el criterio humano, PISCES utiliza TO para tender un puente entre los *embeddings* de texto y vídeo tanto a nivel distribucional como a nivel de tokens discretos, permitiendo que la supervisión por recompensa cumpla dos objetivos: (i) una Recompensa de Calidad Alineada por TO Distribucional que captura la calidad visual general y la coherencia temporal; y (ii) una Recompensa Semántica a Nivel de Tokens Discretos Alineada por TO que impone una correspondencia semántica espacio-temporal entre los tokens de texto y vídeo. Hasta donde sabemos, PISCES es el primero en mejorar la supervisión de recompensas sin anotaciones en el post-entrenamiento generativo mediante la lente del TO. Los experimentos en generación de vídeos cortos y largos muestran que PISCES supera a los métodos basados en anotaciones y a los libres de anotaciones en VBench en las puntuaciones de Calidad y Semántica, y los estudios de preferencia humana validan aún más su eficacia. Demostramos que el módulo de Recompensas Alineadas por TO Dual es compatible con múltiples paradigmas de optimización, incluida la retropropagación directa y el ajuste fino por aprendizaje por refuerzo.
Si bien la generación de texto a imagen ha logrado una fidelidad sin precedentes, la gran mayoría de los modelos existentes funcionan fundamentalmente como decodificadores estáticos de texto a píxeles. En consecuencia, a menudo no logran captar las intenciones implícitas del usuario. Aunque los nuevos modelos unificados de comprensión-generación han mejorado la comprensión de la intención, todavía tienen dificultades para realizar tareas que implican razonamiento complejo sobre el conocimiento dentro de un único modelo. Además, limitados por sus conocimientos previos estáticos, estos modelos siguen sin poder adaptarse a la dinámica en evolución del mundo real. Para salvar estas brechas, presentamos Mind-Brush, un marco agente unificado que transforma la generación en un flujo de trabajo dinámico y basado en el conocimiento. Simulando un paradigma humano de 'pensar-investigar-crear', Mind-Brush recupera activamente evidencia multimodal para fundamentar conceptos fuera de distribución y emplea herramientas de razonamiento para resolver restricciones visuales implícitas. Para evaluar rigurosamente estas capacidades, proponemos Mind-Bench, un benchmark integral que comprende 500 muestras distintas que abarcan noticias en tiempo real, conceptos emergentes y dominios como el Razonamiento Matemático y Geoespacial. Experimentos exhaustivos demuestran que Mind-Brush mejora significativamente las capacidades de los modelos unificados, logrando un salto de capacidad de cero a uno para la línea base Qwen-Image en Mind-Bench, al tiempo que alcanza resultados superiores en benchmarks establecidos como WISE y RISE.
Los crecientes esfuerzos para mejorar la destilación de conocimiento (KD) en modelos de lenguaje grandes (LLMs) reemplazan la supervisión densa del profesor con una destilación selectiva, que utiliza un subconjunto de posiciones de tokens, clases de vocabulario o muestras de entrenamiento para la supervisión. Sin embargo, aún no está claro qué señales de importancia, políticas de selección y su interacción son más efectivas. En este trabajo, revisitamos dónde y cómo destilar en LLMs autorregresivos. Desentrañamos la KD selectiva a lo largo de los ejes de posición, clase y muestra, y comparamos sistemáticamente las señales de importancia y las políticas de selección. Luego, guiados por este análisis, identificamos oportunidades poco exploradas e introducimos la selección de posición guiada por la entropía del estudiante (SE-KD). En un conjunto de benchmarks, SE-KD a menudo mejora la precisión, la adherencia a tareas específicas y la eficiencia de memoria en comparación con la destilación densa. Extender este enfoque a través de los ejes de clase y muestra (SE-KD 3X) produce ganancias de eficiencia complementarias que hacen viable el almacenamiento en caché del profesor fuera de línea. En la práctica, esto reduce el tiempo de ejecución en un 70% y la memoria máxima en un 18%, mientras reduce el uso de almacenamiento en un 80% respecto a métodos anteriores sin sacrificar el rendimiento.
Los agentes de investigación profunda basados en LLM se construyen principalmente sobre el marco ReAct. Este diseño lineal dificulta la revisión de estados anteriores, la ramificación en direcciones de búsqueda alternativas o el mantenimiento de una conciencia global bajo contextos largos, lo que a menudo conduce a óptimos locales, exploración redundante y búsqueda ineficiente. Proponemos Re-TRAC, un marco agéntico que realiza una exploración transversal de trayectorias generando una representación estructurada del estado después de cada trayectoria para resumir evidencias, incertidumbres, fallos y planes futuros, y condicionando las trayectorias posteriores a esta representación de estado. Esto permite una reflexión iterativa y una planificación con información global, replanteando la investigación como un proceso progresivo. Los resultados empíricos muestran que Re-TRAC supera consistentemente a ReAct en un 15-20% en BrowseComp con LLMs de vanguardia. Para modelos más pequeños, introducimos el ajuste supervisado consciente de Re-TRAC (Re-TRAC-aware supervised fine-tuning), logrando un rendimiento de última generación en escalas comparables. Notablemente, Re-TRAC muestra una reducción monótona en las llamadas a herramientas y el uso de tokens a lo largo de las rondas, lo que indica una exploración progresivamente dirigida impulsada por la reflexión transversal de trayectorias en lugar de una búsqueda redundante.
Presentamos FSVideo, un marco de difusión basado en transformadores de alta velocidad para la conversión de imagen a vídeo (I2V). Construimos nuestro marco sobre los siguientes componentes clave: 1) un nuevo autoencoder de vídeo con un espacio latente altamente comprimido (relación de submuestreo espacio-temporal de 64x64x4), que logra una calidad de reconstrucción competitiva; 2) una arquitectura de transformador de difusión (DIT) con un nuevo diseño de memoria por capas para mejorar el flujo de información entre capas y la reutilización de contexto dentro del DIT, y 3) una estrategia de generación multirresolución mediante un modelo DIT de supermuestreo de pocos pasos para aumentar la fidelidad del vídeo. Nuestro modelo final, que contiene un modelo base DIT de 14B y un modelo DIT de supermuestreo de 14B, logra un rendimiento competitivo frente a otros modelos de código abierto populares, siendo a la vez un orden de magnitud más rápido. En este informe discutimos el diseño de nuestro modelo así como las estrategias de entrenamiento.
La financiación japonesa combina una estructura lingüística aglutinante y de núcleo final, sistemas de escritura mixtos y normas de comunicación de alto contexto que dependen de la expresión indirecta y el compromiso implícito, lo que supone un desafío sustancial para los LLM. Presentamos Ebisu, un benchmark para la comprensión del lenguaje financiero nativo japonés, que comprende dos tareas fundamentadas lingüística y culturalmente, y anotadas por expertos: JF-ICR, que evalúa el reconocimiento del compromiso implícito y la negativa en preguntas y respuestas dirigidas a inversores, y JF-TE, que valora la extracción jerárquica y clasificación de terminología financiera anidada en divulgaciones profesionales. Evaluamos un conjunto diverso de LLM de código abierto y propietarios que abarcan modelos de propósito general, adaptados al japonés y financieros. Los resultados muestran que incluso los sistemas más avanzados tienen dificultades en ambas tareas. Si bien el aumento de escala del modelo produce mejoras limitadas, la adaptación específica por idioma y dominio no mejora consistentemente el rendimiento, dejando brechas sustanciales sin resolver. Ebisu proporciona un benchmark focalizado para avanzar en la PLN financiera fundamentada lingüística y culturalmente. Todos los conjuntos de datos y scripts de evaluación se han publicado públicamente.
Una metáfora visual constituye una forma de alto orden de la creatividad humana, que emplea la fusión semántica interdominial para transformar conceptos abstractos en una retórica visual impactante. A pesar del notable progreso de la IA generativa, los modelos existentes siguen confinados en gran medida a la alineación de instrucciones a nivel de píxeles y a la preservación de la apariencia superficial, sin lograr capturar la lógica abstracta subyacente necesaria para una generación metafórica genuina. Para salvar esta brecha, presentamos la tarea de Transferencia de Metáfora Visual (VMT), que desafía a los modelos a desacoplar autónomamente la "esencia creativa" de una imagen de referencia y rematerializar esa lógica abstracta en un sujeto objetivo especificado por el usuario. Proponemos un marco multiagente de inspiración cognitiva que operacionaliza la Teoría de la Integración Conceptual (CBT) mediante una novedosa Gramática de Esquemas ("G"). Esta representación estructurada desacopla los invariantes relacionales de entidades visuales específicas, proporcionando una base rigurosa para la reinstanciación lógica interdominial. Nuestra canalización ejecuta la VMT mediante un sistema colaborativo de agentes especializados: un agente de percepción que destila la referencia en un esquema, un agente de transferencia que mantiene la invariancia del espacio genérico para descubrir portadores aptos, un agente de generación para la síntesis de alta fidelidad y un agente de diagnóstico jerárquico que imita a un crítico profesional, realizando una retroalimentación en bucle cerrado para identificar y rectificar errores en la lógica abstracta, la selección de componentes y la codificación de instrucciones. Experimentos exhaustivos y evaluaciones humanas demuestran que nuestro método supera significativamente a los baselines state-of-the-art en coherencia metafórica, adecuación analógica y creatividad visual, allanando el camino para aplicaciones creativas automatizadas de alto impacto en publicidad y medios. El código fuente estará disponible públicamente.
Los Modelos de Lenguaje Grandes Multimodales (MLLMs) han logrado un éxito notable en tareas perceptivas de vocabulario abierto, pero su capacidad para resolver problemas cognitivos complejos sigue siendo limitada, especialmente cuando los detalles visuales son abstractos y requieren memoria visual. Los enfoques actuales principalmente amplían el razonamiento en Cadena de Pensamiento (CoT) en el espacio textual, incluso cuando el lenguaje por sí solo es insuficiente para un razonamiento claro y estructurado, y en gran medida descuidan los mecanismos de razonamiento visual análogos al bloc de notas visoespacial y a la imaginería visual humanos. Para mitigar esta deficiencia, introducimos Cognitive Supersensing, un paradigma de entrenamiento novedoso que dota a los MLLMs de capacidades de imaginería visual similares a las humanas mediante la integración de un cabezal de Predicción de Imaginería Visual Latente (LVIP) que aprende conjuntamente secuencias de embeddings latentes cognitivos visuales y los alinea con la respuesta, formando así cadenas de razonamiento internas basadas en la visión. Además, introducimos una etapa de aprendizaje por refuerzo que optimiza las trayectorias de razonamiento textual basándose en este latente visual fundamentado. Para evaluar las capacidades cognitivas de los MLLMs, presentamos CogSense-Bench, un benchmark integral de respuesta a preguntas visuales (VQA) que evalúa cinco dimensiones cognitivas. Experimentos exhaustivos demuestran que los MLLMs entrenados con Cognitive Supersensing superan significativamente a los baselines de última generación en CogSense-Bench y exhiben una generalización superior en benchmarks VQA de matemáticas y ciencias fuera de dominio, lo que sugiere que la imaginería visual interna es potencialmente clave para cerrar la brecha entre el reconocimiento perceptivo y la comprensión cognitiva. Liberaremos el código de CogSense-Bench y los pesos de nuestro modelo como código abierto.
Los modelos generativos recientes han logrado avances notables en la edición de imágenes. Sin embargo, los sistemas y puntos de referencia existentes siguen siendo en gran medida guiados por texto. En contraste, la comunicación humana es inherentemente multimodal, donde instrucciones visuales como los bocetos transmiten eficientemente la intención espacial y estructural. Para abordar esta brecha, presentamos VIBE, el Punto de Referencia de Instrucción Visual para la Edición de Imágenes, con una jerarquía de interacción de tres niveles que captura la fundamentación deíctica, la manipulación morfológica y el razonamiento causal. En estos niveles, seleccionamos casos de prueba diversos y de alta calidad que reflejan una complejidad progresivamente creciente en el seguimiento de instrucciones visuales. Además, proponemos un marco de evaluación robusto de LMM-como-juez con métricas específicas para la tarea, que permite una evaluación escalable y granular. Mediante una evaluación exhaustiva de 17 modelos representativos de edición de imágenes, tanto de código abierto como propietarios, encontramos que los modelos propietarios exhiben capacidades incipientes de seguimiento de instrucciones visuales y superan consistentemente a los modelos de código abierto. No obstante, el rendimiento se degrada notablemente con el aumento de la dificultad de la tarea, incluso para los sistemas más potentes, lo que subraya direcciones prometedoras para la investigación futura.
La generación de avatares parlantes es una tarea fundamental en la generación de vídeo. Aunque los métodos existentes pueden generar avatares parlantes de cuerpo completo con movimiento humano simple, extender esta tarea a la interacción humano-objeto contextual (GHOI) sigue siendo un desafío abierto, que requiere que el avatar realice interacciones alineadas con texto con los objetos circundantes. Este desafío surge de la necesidad de percepción ambiental y del dilema control-calidad en la generación de GHOI. Para abordarlo, proponemos un novedoso marco de doble flujo, InteractAvatar, que desacopla la percepción y la planificación de la síntesis de vídeo para la interacción humano-objeto contextual. Aprovechando la detección para mejorar la percepción ambiental, introducimos un Módulo de Percepción e Interacción (PIM) para generar movimientos de interacción alineados con el texto. Adicionalmente, se propone un Módulo de Generación Consciente de Audio-Interacción (AIM) para sintetizar avatares parlantes vívidos que realizan interacciones con objetos. Con un alineador movimiento-a-vídeo especialmente diseñado, el PIM y el AIM comparten una estructura de red similar y permiten la cogeneración paralela de movimientos y vídeos plausibles, mitigando efectivamente el dilema control-calidad. Finalmente, establecemos un benchmark, GroundedInter, para evaluar la generación de vídeos GHOI. Experimentos extensos y comparaciones demuestran la efectividad de nuestro método para generar interacciones humano-objeto contextuales para avatares parlantes. Página del proyecto: https://interactavatar.github.io
Los modelos de recompensa estándar suelen predecir puntuaciones escalares que no logran capturar la naturaleza multifacética de la calidad de la respuesta en dominios no verificables, como la escritura creativa o el seguimiento de instrucciones de respuesta abierta. Para abordar esta limitación, proponemos Rubric-ARM, un marco de trabajo que optimiza conjuntamente un generador de rúbricas y un evaluador utilizando aprendizaje por refuerzo a partir de retroalimentación de preferencias. A diferencia de los métodos existentes que dependen de rúbricas estáticas o pipelines de entrenamiento disjuntos, nuestro enfoque trata la generación de rúbricas como una acción latente aprendida para maximizar la precisión del juicio. Introducimos una estrategia de optimización alternante para mitigar la no estacionariedad de las actualizaciones simultáneas, proporcionando un análisis teórico que demuestra cómo este programa reduce la varianza del gradiente durante el entrenamiento. Experimentos exhaustivos muestran que Rubric-ARM logra un rendimiento de vanguardia entre los métodos de referencia en múltiples benchmarks y mejora significativamente la alineación de políticas posteriores en entornos de aprendizaje por refuerzo tanto fuera de línea como en línea.
Los Agentes de Uso Informático (CUA) tienen como objetivo operar de forma autónoma sistemas informáticos para completar tareas del mundo real. Sin embargo, los sistemas agentivos existentes siguen siendo difíciles de escalar y se quedan rezagados respecto al rendimiento humano. Una limitación clave es la ausencia de abstracciones de habilidades reutilizables y estructuradas que capturen cómo los humanos interactúan con las interfaces gráficas de usuario y cómo aprovechar estas habilidades. Presentamos CUA-Skill, una base de habilidades para agentes de uso informático que codifica el conocimiento humano sobre el uso del ordenador como habilidades, junto con grafos de ejecución parametrizada y de composición. CUA-Skill es una biblioteca a gran escala de habilidades cuidadosamente diseñadas que abarcan aplicaciones comunes de Windows, sirviendo como infraestructura práctica y sustrato de herramientas para el desarrollo de agentes escalables y confiables. Sobre esta base de habilidades, construimos CUA-Skill Agent, un agente de uso informático integral que soporta la recuperación dinámica de habilidades, la instanciación de argumentos y la recuperación ante fallos con conciencia de memoria. Nuestros resultados demuestran que CUA-Skill mejora sustancialmente las tasas de éxito de ejecución y la robustez en benchmarks agentivos integrales desafiantes, estableciendo una base sólida para el futuro desarrollo de agentes de uso informático. En WindowsAgentArena, CUA-Skill Agent alcanza un estado del arte del 57.5% (mejor de tres intentos) de tasa de éxito, siendo significativamente más eficiente que enfoques previos y contemporáneos. La página del proyecto está disponible en https://microsoft.github.io/cua_skill/.
Los métodos para controlar modelos de lenguaje grandes (LLM), incluyendo el ajuste fino de pesos locales, la adaptación basada en LoRA y las intervenciones basadas en activaciones, a menudo se estudian de forma aislada, lo que oscurece sus conexiones y dificulta la comparación. En este trabajo, presentamos una visión unificada que enmarca estas intervenciones como actualizaciones dinámicas de pesos inducidas por una señal de control, situándolas dentro de un único marco conceptual. Basándonos en esta visión, proponemos un análisis unificado de preferencia-utilidad que separa los efectos de control en *preferencia*, definida como la tendencia hacia un concepto objetivo, y *utilidad*, definida como una generación coherente y válida para la tarea, y mide ambas en una escala compartida de log-probabilidades utilizando ejemplos contrastivos de polaridad opuesta. En todos los métodos, observamos una compensación consistente entre preferencia y utilidad: un control más fuerte aumenta la preferencia mientras reduce predeciblemente la utilidad. Explicamos además este comportamiento a través de una perspectiva del *manifold* de activaciones, en la cual el control desplaza las representaciones a lo largo de direcciones de concepto objetivo para mejorar la preferencia, mientras que la utilidad disminuye principalmente cuando las intervenciones empujan a las representaciones fuera del *manifold* de generación válida del modelo. Finalmente, presentamos un nuevo enfoque de direccionamiento llamado SPLIT, guiado por este análisis, que mejora la preferencia preservando mejor la utilidad. El código está disponible en https://github.com/zjunlp/EasyEdit/blob/main/examples/SPLIT.md.
En este trabajo, identificamos un subsistema de recompensa dispersa dentro de los estados ocultos de los Modelos de Lenguaje a Gran Escala (LLMs), estableciendo una analogía con el subsistema de recompensa biológico en el cerebro humano. Demostramos que este subsistema contiene neuronas de valor que representan la expectativa interna del modelo sobre el valor del estado, y mediante experimentos de intervención, establecemos la importancia de estas neuronas para el razonamiento. Nuestros experimentos revelan que estas neuronas de valor son robustas en diversos conjuntos de datos, escalas de modelos y arquitecturas; además, exhiben una transferibilidad significativa entre diferentes conjuntos de datos y modelos ajustados a partir del mismo modelo base. Al examinar casos en los que las predicciones de valor y las recompensas reales divergen, identificamos neuronas de dopamina dentro del subsistema de recompensa que codifican errores de predicción de recompensa (RPE). Estas neuronas exhiben una alta activación cuando la recompensa es mayor de lo esperado y una baja activación cuando la recompensa es menor de lo esperado.
Los recientes avances en razonamiento visual han utilizado transformadores de visión para abordar el benchmark ARC-AGI. Sin embargo, sostenemos que la arquitectura de avance (feed-forward), donde la profundidad computacional está estrictamente ligada al tamaño de los parámetros, no logra capturar la naturaleza iterativa y algorítmica de la inducción humana. En este trabajo, proponemos una arquitectura recursiva llamada Loop-ViT, que desacopla la profundidad del razonamiento de la capacidad del modelo mediante recurrencia con pesos compartidos. Loop-ViT itera un Bloque Híbrido con pesos compartidos, que combina convoluciones locales y atención global, para formar una cadena de pensamiento latente. Crucialmente, introducimos un mecanismo de Salida Dinámica (Dynamic Exit) sin parámetros basado en la entropía predictiva: el modelo detiene la inferencia cuando su estado interno se "cristaliza" en un atractor de baja incertidumbre. Los resultados empíricos en el benchmark ARC-AGI-1 validan esta perspectiva: nuestro modelo de 18M parámetros alcanza una precisión del 65.8%, superando a ensembles masivos de 73M parámetros. Estos hallazgos demuestran que el cómputo iterativo adaptativo ofrece un eje de escalabilidad mucho más eficiente para el razonamiento visual que simplemente aumentar la amplitud de la red. El código está disponible en https://github.com/WenjieShu/LoopViT.
Los grandes modelos de lenguaje (LLM) han demostrado sólidas capacidades de razonamiento mediante el razonamiento paso a paso de cadena de pensamiento (CoT). Sin embargo, en los límites de la capacidad del modelo, el CoT a menudo resulta insuficiente, y su naturaleza estrictamente secuencial restringe la escalabilidad en tiempo de prueba. Una alternativa potencial es el razonamiento de tipo divide y vencerás (DAC), que descompone un problema complejo en subproblemas para facilitar una exploración más efectiva de la solución. Aunque es prometedor, nuestro análisis revela una desalineación fundamental entre el post-entrenamiento de propósito general y la inferencia de estilo DAC, lo que limita la capacidad del modelo para aprovechar todo este potencial. Para cerrar esta brecha y desbloquear completamente las capacidades de razonamiento de los LLM en las tareas más desafiantes, proponemos un marco de aprendizaje por refuerzo (RL) de extremo a extremo para mejorar su capacidad de razonamiento de estilo DAC. En cada paso, la política descompone un problema en un grupo de subproblemas, los resuelve secuencialmente y aborda el problema original condicionado a las soluciones de los subproblemas, integrando tanto la descomposición como la solución en el entrenamiento de RL. Bajo un entrenamiento comparable, nuestro marco de estilo DAC dota al modelo de un límite de rendimiento más alto y una mayor escalabilidad en tiempo de prueba, superando al CoT en un 8.6% en Pass@1 y en un 6.3% en Pass@32 en puntos de referencia de nivel competitivo.
La generación de texto a imagen (T2I) ha logrado un progreso notable, sin embargo, los métodos existentes a menudo carecen de la capacidad de razonar y refinar dinámicamente durante la generación, una característica distintiva de la creatividad humana. Los paradigmas actuales aumentados con razonamiento se basan principalmente en procesos de pensamiento explícitos, donde el razonamiento intermedio se decodifica en texto discreto en pasos fijos con frecuente decodificación y recodificación de imágenes, lo que genera ineficiencias, pérdida de información y desajustes cognitivos. Para cerrar esta brecha, presentamos LatentMorph, un marco novedoso que integra perfectamente el razonamiento latente implícito en el proceso de generación T2I. En su esencia, LatentMorph introduce cuatro componentes ligeros: (i) un condensador para resumir los estados intermedios de generación en una memoria visual compacta, (ii) un traductor para convertir pensamientos latentes en guías accionables, (iii) un modelador para dirigir dinámicamente las siguientes predicciones de tokens de imagen, y (iv) un invocador entrenado con RL para determinar adaptativamente cuándo invocar el razonamiento. Al realizar el razonamiento completamente en espacios latentes continuos, LatentMorph evita los cuellos de botella del razonamiento explícito y permite una autorrefinación más adaptativa. Experimentos exhaustivos demuestran que LatentMorph (I) mejora el modelo base Janus-Pro en un 16% en GenEval y un 25% en T2I-CompBench; (II) supera a los paradigmas explícitos (por ejemplo, TwiG) en un 15% y 11% en tareas de razonamiento abstracto como WISE e IPV-Txt, (III) mientras reduce el tiempo de inferencia en un 44% y el consumo de tokens en un 51%; y (IV) exhibe un 71% de alineación cognitiva con la intuición humana sobre la invocación del razonamiento.
La capacidad de los agentes de IA para manejar eficazmente tareas de duración y complejidad crecientes sigue aumentando, demostrando un rendimiento excepcional en evaluaciones de codificación, investigación profunda y resolución de problemas complejos. Sin embargo, en escenarios cotidianos, la percepción de estas capacidades avanzadas de IA entre los usuarios generales sigue siendo limitada. Sostenemos que las evaluaciones actuales priorizan el aumento de la dificultad de las tareas sin abordar suficientemente la diversidad de tareas agentivas necesarias para cubrir las actividades diarias de trabajo, vida y aprendizaje de una amplia demografía. Para abordar esto, proponemos AgentIF-OneDay, cuyo objetivo es determinar si los usuarios generales pueden utilizar instrucciones en lenguaje natural y agentes de IA para completar una diversa gama de tareas diarias. Estas tareas requieren no solo resolver problemas mediante el diálogo, sino también comprender varios tipos de archivos adjuntos y entregar resultados tangibles basados en archivos. El benchmark está estructurado en torno a tres categorías centradas en el usuario: Ejecución de Flujos de Trabajo Abiertos, que evalúa la adherencia a flujos de trabajo explícitos y complejos; Instrucción Latente, que requiere que los agentes infieran instrucciones implícitas a partir de archivos adjuntos; y Refinamiento Iterativo, que implica modificar o expandir el trabajo en curso. Empleamos rúbricas a nivel de instancia y una canalización de evaluación refinada que alinea la verificación basada en LLM con el criterio humano, logrando una tasa de concordancia del 80.1% utilizando Gemini-3-Pro. AgentIF-OneDay comprende 104 tareas que cubren 767 puntos de evaluación. Evaluamos cuatro agentes de IA generales líderes y encontramos que los productos agentes construidos basados en APIs y los agentes ChatGPT basados en RL agentico permanecen simultáneamente en el primer nivel. Las APIs de LLM líderes y los modelos de código abierto han internalizado capacidades agentivas, permitiendo a los equipos de aplicaciones de IA desarrollar productos Agente de vanguardia.
A medida que los agentes basados en LLM se despliegan en entornos del mundo real cada vez más complejos, los puntos de referencia existentes subrepresentan desafíos clave como la aplicación de restricciones globales, la coordinación del razonamiento multi-herramienta y la adaptación a comportamientos de usuario en evolución durante interacciones largas y multi-turno. Para cerrar esta brecha, presentamos TRIP-Bench, un punto de referencia de horizonte largo basado en escenarios realistas de planificación de viajes. TRIP-Bench aprovecha datos del mundo real, ofrece 18 herramientas curadas y más de 40 requisitos de viaje, y admite evaluación automatizada. Incluye divisiones de dificultad variable; la división difícil enfatiza interacciones largas y ambiguas, cambios de estilo, cambios de viabilidad y revisión iterativa de versiones. Los diálogos abarcan hasta 15 turnos de usuario, pueden involucrar más de 150 llamadas a herramientas y pueden superar las 200k tokens de contexto. Los experimentos muestran que incluso los modelos avanzados logran como máximo un 50% de éxito en la división fácil, con un rendimiento que cae por debajo del 10% en subconjuntos difíciles. Además, proponemos GTPO, un método de aprendizaje por refuerzo multi-turno en línea con normalización de recompensa especializada y diferenciación de recompensas. Aplicado a Qwen2.5-32B-Instruct, GTPO mejora la satisfacción de restricciones y la robustez de la interacción, superando a Gemini-3-Pro en nuestra evaluación. Esperamos que TRIP-Bench impulse el avance de agentes interactivos prácticos de horizonte largo, y que GTPO proporcione una receta efectiva de RL en línea para un entrenamiento robusto de horizonte largo.
Los modelos de emparejamiento de flujo (FMs) han revolucionado la generación de texto a imagen (T2I), donde el aprendizaje por refuerzo (RL) sirve como una estrategia crítica de post-entrenamiento para la alineación con objetivos de recompensa. En esta investigación, demostramos que los pipelines de RL actuales para FMs adolecen de dos limitaciones importantes pero subestimadas: la ineficiencia muestral debido a una diversidad de generación insuficiente y un marcado sobreajuste al prompt, donde los modelos memorizan formulaciones específicas de entrenamiento y exhiben un colapso drástico del rendimiento cuando se evalúan con prompts semánticamente equivalentes pero estilísticamente variados. Presentamos PromptRL (La Importancia del Prompt en el RL para la Generación de Imágenes Basada en Flujo), un marco que incorpora modelos de lenguaje (LMs) como agentes entrenables de refinamiento de prompts directamente dentro del bucle de optimización de RL basado en flujo. Este diseño produce dos beneficios complementarios: el desarrollo rápido de capacidades sofisticadas de reescritura de prompts y, críticamente, un régimen de entrenamiento sinérgico que remodela la dinámica de optimización. PromptRL logra un rendimiento de vanguardia en múltiples benchmarks, obteniendo puntuaciones de 0.97 en GenEval, 0.98 en precisión de OCR y 24.05 en PickScore. Además, validamos la efectividad de nuestro enfoque de RL en modelos de edición de imagen a gran escala, mejorando el EditReward de FLUX.1-Kontext de 1.19 a 1.43 con solo 0.06 millones de rollouts, superando a Gemini 2.5 Flash Image (también conocido como Nano Banana), que obtiene 1.37, y alcanzando un rendimiento comparable con ReasonNet (1.44), el cual dependió de anotaciones de datos de grano fino junto con un entrenamiento multi-etapa complejo. Nuestros extensos experimentos demuestran empíricamente que PromptRL consigue consistentemente techos de rendimiento más altos mientras requiere más de 2 veces menos rollouts en comparación con el RL ingenuo basado únicamente en flujo. Nuestro código está disponible en https://github.com/G-U-N/UniRL.
Los autoencodificadores dispersos (SAE) han surgido como un método prometedor para interpretar las representaciones de redes neuronales mediante la descomposición de activaciones en combinaciones dispersas de átomos de diccionario. Sin embargo, los SAE asumen que las características se combinan de forma aditiva mediante reconstrucción lineal, una suposición que no puede capturar la estructura compositiva: los modelos lineales no pueden distinguir si "Starbucks" surge de la composición de las características "estrella" y "café" o simplemente de su co-ocurrencia. Esto obliga a los SAE a asignar características monolíticas para conceptos compuestos en lugar de descomponerlos en constituyentes interpretables. Presentamos PolySAE, que extiende el decodificador SAE con términos de orden superior para modelar interacciones entre características mientras preserva el codificador lineal, esencial para la interpretabilidad. Mediante factorización tensorial de bajo rango en un subespacio de proyección compartido, PolySAE captura interacciones de pares y tríos de características con una pequeña sobrecarga de parámetros (3% en GPT2). En cuatro modelos de lenguaje y tres variantes de SAE, PolySAE logra una mejora promedio de aproximadamente el 8% en F1 de *probing* mientras mantiene un error de reconstrucción comparable, y produce distancias de Wasserstein entre distribuciones de características condicionadas por clase entre 2 y 10 veces mayores. Críticamente, los pesos de interacción aprendidos exhiben una correlación negligible con la frecuencia de co-ocurrencia (r = 0,06 frente a r = 0,82 para la covarianza de características de SAE), lo que sugiere que los términos polinomiales capturan estructura compositiva, como la unión morfológica y la composición frasal, en gran medida independiente de las estadísticas superficiales.
Los Grandes Modelos de Razonamiento (LRM) se benefician sustancialmente del entrenamiento con preguntas desafiantes de nivel competitivo. Sin embargo, los métodos automatizados existentes para la síntesis de preguntas carecen de un control preciso de la dificultad, incurren en altos costes computacionales y tienen dificultades para generar preguntas de nivel competitivo a gran escala. En este artículo, proponemos CoDiQ (Generación de Preguntas Difíciles Controlables), un marco novedoso que permite un control de dificultad de grano fino mediante escalado en tiempo de prueba, garantizando al mismo tiempo la capacidad de resolución de las preguntas. Específicamente, primero identificamos una tendencia de escalado en tiempo de prueba (el presupuesto de tokens de razonamiento extendido aumenta la dificultad pero reduce la capacidad de resolución) y las propiedades intrínsecas que definen el límite superior de la capacidad de un modelo para generar preguntas válidas y de alta dificultad. Luego, desarrollamos CoDiQ-Generator a partir de Qwen3-8B, que mejora el límite superior de la generación de preguntas difíciles, haciéndolo particularmente adecuado para la construcción de preguntas desafiantes. Basándonos en el marco CoDiQ, construimos CoDiQ-Corpus (44K secuencias de preguntas de grado competitivo). Las evaluaciones humanas muestran que estas preguntas son significativamente más desafiantes que las de LiveCodeBench/AIME, con más del 82% de capacidad de resolución. El entrenamiento de LRM en CoDiQ-Corpus mejora sustancialmente el rendimiento del razonamiento, verificando que escalar preguntas de entrenamiento con dificultad controlada mejora las capacidades de razonamiento. Liberamos como código abierto CoDiQ-Corpus, CoDiQ-Generator y las implementaciones para apoyar la investigación relacionada.
La implementación de modelos modernos de lenguaje de voz (SpeechLMs) en entornos de transmisión continua requiere sistemas que ofrezcan baja latencia, alto rendimiento y sólidas garantías de capacidad de transmisión. Los sistemas existentes no logran soportar diversos modelos de manera flexible y eficiente. Presentamos VoxServe, un sistema unificado de servicio para SpeechLMs que optimiza el rendimiento en streaming. VoxServe introduce una abstracción de ejecución de modelos que desacopla la arquitectura del modelo de las optimizaciones a nivel del sistema, permitiendo así el soporte para diversas arquitecturas de SpeechLM dentro de un único marco de trabajo. Basándose en esta abstracción, VoxServe implementa una planificación consciente del streaming y una canalización de inferencia asíncrona para mejorar la eficiencia de extremo a extremo. Las evaluaciones en múltiples SpeechLMs modernos muestran que VoxServe logra un rendimiento 10-20 veces mayor que las implementaciones existentes con latencia comparable, manteniendo una alta viabilidad de transmisión continua. El código de VoxServe está disponible en https://github.com/vox-serve/vox-serve.
La separación universal de sonidos basada en consultas es fundamental para los sistemas auditivos inteligentes, con el objetivo de aislar fuentes específicas de mezclas. A pesar de los avances recientes, los métodos existentes continúan adoleciendo de interferencia residual en escenas acústicas complejas. Esta limitación de rendimiento proviene en gran medida de un cuello de botella de datos: los conjuntos de datos del mundo real contienen etiquetas débiles y una severa co-ocurrencia de eventos. Estas deficiencias inducen a los modelos a aprender correlaciones espurias entre el ruido de fondo y las categorías objetivo, en lugar de características acústicas robustas. Para abordar esto, proponemos un pipeline automatizado que elimina la co-ocurrencia de eventos mediante la extracción de segmentos de evento único de alta pureza de conjuntos de datos del mundo real, a través de un protocolo de síntesis semánticamente consistente. Utilizando este pipeline, construimos Hive, un conjunto de datos sintético de alta calidad que comprende 2.400 horas de audio crudo. Los resultados experimentales demuestran que, en comparación con el modelo de última generación SAM-Audio, que fue entrenado en un conjunto de datos enorme aproximadamente 500 veces más grande que Hive, ciertos modelos de código abierto entrenados en Hive logran una precisión de separación y una calidad perceptual competitivas. Además, estos modelos exhibieron una notable generalización zero-shot en benchmarks de evaluación fuera de distribución. Estos hallazgos resaltan que priorizar la pureza de las señales supervisadas permite una eficiencia de datos significativa, ofreciendo un nuevo paradigma para entrenar modelos de base auditivos robustos con costos computacionales reducidos. El código y el conjunto de datos están disponibles en https://shandaai.github.io/Hive.
Los modelos lingüísticos multimodales de gran escala (MLLM) presentan elevados costes computacionales debido al excesivo número de tokens visuales, especialmente en escenarios de alta resolución y basados en vídeo. Los métodos existentes de reducción de tokens suelen centrarse en componentes aislados del pipeline y frecuentemente descuidan la alineación textual, lo que genera una degradación del rendimiento. En este artículo proponemos VisionTrim, un marco unificado para la aceleración de MLLM sin necesidad de entrenamiento, que integra dos módulos efectivos de tipo plug-and-play: 1) el módulo de Selección de Tokens Visuales Dominantes (DVTS), que preserva tokens visuales esenciales mediante una vista global-local, y 2) el módulo de Complemento Visual Guiado por Texto (TGVC), que facilita la fusión de tokens consciente del contexto guiada por indicaciones textuales. Experimentos exhaustivos en diversos benchmarks multimodales de imagen y vídeo demuestran la superioridad de rendimiento de nuestro VisionTrim, impulsando la implementación práctica de MLLM en aplicaciones del mundo real. El código está disponible en: https://github.com/hanxunyu/VisionTrim.
Los modelos del mundo aprenden una representación interna de la dinámica del entorno, permitiendo a los agentes simular y razonar sobre estados futuros dentro de un espacio latente compacto para tareas como planificación, predicción e inferencia. Sin embargo, la ejecución de modelos del mundo depende de un alto coste computacional y una gran huella de memoria, haciendo que la cuantificación del modelo sea esencial para un despliegue eficiente. Hasta la fecha, los efectos de la cuantificación post-entrenamiento (PTQ) en los modelos del mundo permanecen en gran medida sin examinar. En este trabajo, presentamos un estudio empírico sistemático de la cuantificación de modelos del mundo utilizando DINO-WM como caso representativo, evaluando diversos métodos de PTQ bajo configuraciones de solo-pesos y de pesos y activaciones conjuntas. Realizamos experimentos exhaustivos en diferentes tareas de planificación visual a lo largo de un amplio rango de anchos de bits, granularidades de cuantificación y horizontes de planificación de hasta 50 iteraciones. Nuestros resultados muestran que los efectos de la cuantificación en los modelos del mundo van más allá de las compensaciones estándar entre precisión y ancho de bits: la cuantificación de pesos por grupos puede estabilizar las simulaciones de bajo bit, la granularidad de la cuantificación de activaciones ofrece beneficios inconsistentes, y la sensibilidad a la cuantificación es altamente asimétrica entre los módulos del codificador y el predictor. Además, una cuantificación agresiva de bajo bit degrada significativamente la alineación entre el objetivo de planificación y el éxito de la tarea, conduciendo a fallos que no pueden remediarse con optimización adicional. Estos hallazgos revelan modos de fallo distintos inducidos por la cuantificación en la planificación basada en modelos del mundo y proporcionan una guía práctica para desplegar modelos del mundo cuantificados bajo estrictas restricciones computacionales. El código estará disponible en https://github.com/huawei-noah/noah-research/tree/master/QuantWM.
Los modelos de lenguaje grandes (LLM) se utilizan ampliamente como evaluadores sin referencia mediante *prompting*, pero este paradigma de "LLM como juez" es costoso, opaco y sensible al diseño de los *prompts*. En este trabajo, investigamos si los modelos más pequeños pueden servir como evaluadores eficientes aprovechando sus representaciones internas en lugar de la generación superficial. Descubrimos un patrón empírico consistente: los LM pequeños, a pesar de su débil capacidad generativa, codifican señales evaluativas ricas en sus estados ocultos. Esto nos motiva a proponer la Hipótesis de la Asimetría de la Capacidad Semántica: la evaluación requiere significativamente menos capacidad semántica que la generación y puede basarse en representaciones intermedias, lo que sugiere que la evaluación no necesita necesariamente depender de modelos generativos a gran escala, sino que puede aprovechar las características latentes de modelos más pequeños. Nuestros hallazgos motivan un cambio de paradigma, de "LLM como juez" a "Representación como juez", una estrategia de evaluación libre de decodificación que sondea la estructura interna del modelo en lugar de depender de la salida generada por *prompts*. Instanciamos este paradigma a través de INSPECTOR, un marco basado en *probing* que predice puntuaciones de evaluación a nivel de aspecto a partir de las representaciones de modelos pequeños. Los experimentos en benchmarks de razonamiento (GSM8K, MATH, GPQA) muestran que INSPECTOR supera sustancialmente a los LM pequeños basados en *prompting* y se aproxima estrechamente a los jueces LLM completos, al tiempo que ofrece una alternativa más eficiente, fiable e interpretable para la evaluación escalable.
La agencia esperada de los Modelos de Lenguaje de Gran Tamaño Agentivos va más allá de responder correctamente, requiriendo autonomía para establecer objetivos y decidir qué explorar. Denominamos a esto inteligencia investigadora, distinguiéndola de la inteligencia ejecutora, que simplemente completa tareas asignadas. La Ciencia de Datos proporciona un campo de pruebas natural, ya que el análisis del mundo real parte de datos brutos en lugar de consultas explícitas, sin embargo, pocos puntos de referencia se centran en ello. Para abordar esto, presentamos Deep Data Research (DDR), una tarea abierta donde los LLMs extraen autónomamente información clave de bases de datos, y DDR-Bench, un punto de referencia a gran escala basado en listas de verificación que permite una evaluación verificable. Los resultados muestran que, si bien los modelos de vanguardia muestran una agencia emergente, la exploración de horizontes largos sigue siendo un desafío. Nuestro análisis destaca que la inteligencia investigadora efectiva depende no solo del andamiaje del agente o del mero escalamiento, sino también de las estrategias intrínsecas de los modelos agentivos.
Los Grandes Modelos de Visión y Lenguaje (LVLM) logran un rendimiento sólido en tareas de imagen única, pero su desempeño disminuye cuando se proporcionan múltiples imágenes como entrada. Una razón principal es la fuga de información entre imágenes, donde el modelo lucha por distinguir la información a través de diferentes imágenes. Los LVLM existentes ya emplean tokens delimitadores para marcar el inicio y el final de cada imagen; sin embargo, nuestro análisis revela que estos tokens no logran bloquear efectivamente la fuga de información entre imágenes. Para mejorar su eficacia, proponemos un método que escala los estados ocultos de los tokens delimitadores. Esto mejora la capacidad del modelo para preservar información específica de cada imagen al reforzar la interacción intra-imagen y limitar las interacciones no deseadas entre imágenes. En consecuencia, el modelo puede distinguir mejor entre las imágenes y razonar sobre ellas con mayor precisión. Los experimentos muestran mejoras en el rendimiento en benchmarks de múltiples imágenes como Mantis, MuirBench, MIRB y QBench2. Evaluamos además nuestro método en tareas de solo texto que requieren una distinción clara. El método mejora el rendimiento en benchmarks de comprensión de múltiples documentos y múltiples tablas, incluyendo TQABench, MultiNews y WCEP-10. Cabe destacar que nuestro método no requiere costos adicionales de entrenamiento o inferencia.
El aprendizaje por refuerzo con recompensas verificables (RLVR) ha demostrado un gran potencial para mejorar la capacidad de razonamiento de los modelos de lenguaje grandes (LLM). Sin embargo, debido a la cantidad limitada de información proporcionada durante el proceso RLVR, el modelo solo puede realizar una exploración mayoritariamente ciega, lo que a menudo resulta en fallos ante problemas complejos. Para proporcionar información adicional al proceso RLVR sin depender de un modelo maestro, proponemos A^2D, un método de Descomposición Adaptativa de Habilidades para mejorar la eficacia del RLVR. Específicamente, primero entrenamos un descomponedor mediante RLVR sin destilación, permitiéndole descomponer preguntas complejas en un conjunto de sub-preguntas más simples. A continuación, utilizamos este descomponedor para anotar sub-preguntas para cada pregunta en el conjunto de datos de entrenamiento, y luego entrenamos el razonador bajo RLVR con la guía de las sub-preguntas. Para comprender mejor A^2D, primero comparamos su rendimiento con líneas base competitivas, demostrando su efectividad. Luego, observamos que nuestro método funciona como un módulo plug-and-play que puede aplicarse a diferentes algoritmos RLVR. Además, realizamos un análisis del descomponedor, revelando cómo el proceso RLVR afecta su rendimiento y comportamiento, y qué tipo de guía es más adecuada para mejorar las capacidades de exploración y explotación del razonador.
La cartografía de líneas 3D a partir de imágenes RGB multi-vista proporciona una representación visual compacta y estructurada de escenas. Estudiamos el problema desde una perspectiva física y topológica: una línea 3D surge de forma más natural como el borde de un parche planar 3D finito. Presentamos LiP-Map, un marco de optimización conjunta línea-plano que modela explícitamente primitivas aprendibles de líneas y planos. Este acoplamiento permite una cartografía de líneas 3D precisa y detallada, manteniendo una alta eficiencia (completando típicamente una reconstrucción en 3 a 5 minutos por escena). LiP-Map es pionero en la integración de la topología planar en la cartografía de líneas 3D, no mediante la imposición de restricciones de coplanaridad por pares, sino construyendo explícitamente interacciones entre las primitivas de plano y línea, ofreciendo así una ruta fundamentada hacia la reconstrucción estructurada en entornos artificiales. En más de 100 escenas de ScanNetV2, ScanNet++, Hypersim, 7Scenes y Tanks&Temples, LiP-Map mejora tanto la precisión como la integridad respecto a los métodos más avanzados. Más allá de la calidad de la cartografía de líneas, LiP-Map avanza significativamente en la localización visual asistida por líneas, estableciendo un rendimiento sólido en 7Scenes. Nuestro código se ha publicado en https://github.com/calmke/LiPMAP para garantizar la reproducibilidad de la investigación.
Trabajos recientes han demostrado que la poda de capas puede comprimir modelos de lenguaje grandes (LLM) manteniendo un rendimiento sólido en benchmarks de clasificación con poca o ninguna afinación. Sin embargo, las técnicas de poda existentes a menudo sufren una degradación severa en tareas de razonamiento generativo. Mediante un estudio sistemático en múltiples familias de modelos, encontramos que las tareas que requieren razonamiento multi-paso son particularmente sensibles a la reducción de profundidad. Más allá de la degeneración superficial del texto, observamos la degradación de capacidades algorítmicas críticas, incluyendo el cálculo aritmético para el razonamiento matemático y la generación de paréntesis balanceados para la síntesis de código. Bajo restricciones realistas de post-entrenamiento, sin acceso a datos o capacidad de cómputo a escala de pre-entrenamiento, evaluamos una estrategia de mitigación simple basada en afinación supervisada con Respuestas Auto-Generadas. Este enfoque logra una fuerte recuperación en tareas de clasificación, conservando hasta el 90% del rendimiento base, y produce ganancias sustanciales de hasta 20-30 puntos porcentuales en benchmarks generativos en comparación con técnicas previas de post-poda. Crucialmente, a pesar de estas ganancias, la recuperación para el razonamiento generativo sigue siendo fundamentalmente limitada en relación con las tareas de clasificación y es viable principalmente en ratios de poda más bajos. En general, caracterizamos los límites prácticos de la poda de capas para el razonamiento generativo y proporcionamos orientación sobre cuándo la reducción de profundidad puede aplicarse efectivamente bajo regímenes de post-entrenamiento restringidos.
La destilación de conocimiento ofrece una vía prometedora para transferir capacidades de razonamiento desde modelos docentes grandes a modelos estudiantiles eficientes; sin embargo, los métodos existentes de destilación *on-policy* a nivel de tokens requieren una alineación a nivel de tokens entre los modelos estudiante y docente, lo que restringe la capacidad de exploración del modelo estudiante, impide el uso efectivo de la retroalimentación del entorno interactivo y sufre graves cuellos de botella de memoria en el aprendizaje por refuerzo. Introducimos la Destilación Verbal *On-policy* (OVD), un marco eficiente en memoria que reemplaza la coincidencia de probabilidades a nivel de tokens con una coincidencia de trayectorias utilizando puntuaciones verbales discretas (0-9) de los modelos docentes. OVD reduce drásticamente el consumo de memoria al tiempo que permite la destilación *on-policy* a partir de modelos docentes con retroalimentación verbal, y evita la alineación a nivel de tokens, permitiendo que el modelo estudiante explore libremente el espacio de salida. Experimentos exhaustivos en tareas de respuesta a preguntas web y de razonamiento matemático muestran que OVD supera sustancialmente a los métodos existentes, logrando una mejora absoluta de hasta +12.9% en EM promedio en tareas de preguntas y respuestas web y una ganancia de hasta +25.7% en benchmarks matemáticos (cuando se entrena con solo una muestra aleatoria), además de exhibir una eficiencia de entrenamiento superior. Nuestra página del proyecto está disponible en https://OVD.github.io.
El cómputo en tiempo de inferencia ha reaparecido como una forma práctica de mejorar el razonamiento de los LLM. La mayoría de los algoritmos de escalado en tiempo de prueba (TTS) se basan en decodificación autoregresiva, la cual es inadecuada para los modelos de lenguaje de difusión discreta (dLLM) debido a su decodificación paralela sobre toda la secuencia. Como resultado, desarrollar métodos TTS efectivos y eficientes para desbloquear todo el potencial generativo de los dLLM sigue siendo un desafío poco explorado. Para abordar esto, proponemos Prism (Método de Poda, Reenmascaramiento y Autoverificación Integrada), un marco TTS eficiente para dLLM que (i) realiza una Búsqueda Jerárquica de Trayectorias (HTS) que poda y reasigna dinámicamente el cómputo en una ventana de desruido de temprana a media, (ii) introduce Ramificación Local con reenmascaramiento parcial para explorar implementaciones diversas mientras preserva tokens de alta confianza, y (iii) reemplaza verificadores externos con Retroalimentación de Autoverificación (SVF) obtenida mediante prompts de autoevaluación en completamientos intermedios. En cuatro benchmarks de razonamiento matemático y generación de código en tres dLLM, incluyendo LLaDA 8B Instruct, Dream 7B Instruct y LLaDA 2.0-mini, nuestro Prism logra un equilibrio favorable entre rendimiento y eficiencia, igualando el rendimiento del mejor-de-N con sustancialmente menos evaluaciones de función (NFE). El código se ha publicado en https://github.com/viiika/Prism.
Si bien los grandes modelos de lenguaje (LLM) han surgido como un avance significativo en la inteligencia artificial, los costos de hardware y computación para su entrenamiento también representan una carga considerable. Entre los optimizadores de última generación, AdamW se basa en estimaciones de curvatura diagonal e ignora las propiedades estructurales, mientras que Muon aplica una normalización espectral global a costa de perder información de curvatura. En este estudio, reexaminamos los métodos de optimización en variedades para el entrenamiento de LLM, los cuales podrían abordar las limitaciones de ambos optimizadores, dado que los métodos convencionales de optimización en variedades han sido ampliamente ignorados debido a su bajo rendimiento en la optimización de modelos a gran escala. Mediante la proyección innovadora del momento en el espacio tangente de los parámetros del modelo y su restricción a una variedad oblicua rotacional, proponemos un optimizador novedoso, potente y eficiente, **Mano**, que es el primero en cerrar la brecha de rendimiento entre la optimización en variedades y los optimizadores modernos. Experimentos exhaustivos con los modelos LLaMA y Qwen3 demuestran que Mano supera constante y significativamente a AdamW y Muon, incluso con menor consumo de memoria y complejidad computacional, respectivamente, lo que sugiere una frontera de Pareto expandida en términos de eficiencia espacial y temporal.
Los Transformadores de Difusión son fundamentales para la generación de video e imágenes, pero su eficiencia se ve limitada por la complejidad cuadrática de la atención. Si bien la atención dispersa por bloques acelera el cálculo al atender solo a los bloques clave-valor críticos, sufre degradación con alta dispersión al descartar contexto. En este trabajo, descubrimos que las puntuaciones de atención de los bloques no críticos exhiben estabilidad distribucional, lo que permite aproximarlos de manera precisa y eficiente en lugar de descartarlos, un aspecto esencial para el diseño de atención dispersa. Motivados por esta idea clave, proponemos PISA, una Atención Dispersa por Segmentos (Piecewise Sparse Attention) que no requiere entrenamiento y cubre el alcance completo de la atención con complejidad subcuadrática. A diferencia del paradigma convencional de mantener-o-descartar que elimina directamente la información de bloques no críticos, PISA introduce una novedosa estrategia de exacto-o-aproximado: mantiene el cálculo exacto para los bloques críticos mientras aproxima eficientemente el resto mediante expansión de Taylor por bloques. Este diseño permite que PISA actúe como un proxy fiel de la atención completa, cerrando efectivamente la brecha entre velocidad y calidad. Los resultados experimentales demuestran que PISA logra aceleraciones de 1.91x y 2.57x en Wan2.1-14B y Hunyuan-Video, respectivamente, manteniendo consistentemente la más alta calidad entre los métodos de atención dispersa. Notablemente, incluso para la generación de imágenes en FLUX, PISA logra una aceleración de 1.2x sin comprometer la calidad visual. El código está disponible en: https://github.com/xie-lab-ml/piecewise-sparse-attention.
Investigamos la relación entre la geometría de representación y el rendimiento de las redes neuronales. Analizando 52 modelos preentrenados de ImageNet en 13 familias arquitectónicas, demostramos que la dimensión efectiva —una métrica geométrica no supervisada— predice fuertemente la precisión. La dimensión efectiva de salida alcanza una r parcial=0.75 (p < 10^(-10)) tras controlar por capacidad del modelo, mientras que la compresión total alcanza una r parcial=-0.72. Estos hallazgos se replican en ImageNet y CIFAR-10, y se generalizan a PLN: la dimensión efectiva predice el rendimiento para 8 modelos codificadores en SST-2/MNLI y 15 LLMs solo-decodificador en AG News (r=0.69, p=0.004), mientras que el tamaño del modelo no lo hace (r=0.07). Establecemos causalidad bidireccional: degradar la geometría mediante ruido causa pérdida de precisión (r=-0.94, p < 10^(-9)), mientras que mejorar la geometría mediante PCA mantiene la precisión en distintas arquitecturas (-0.03pp al 95% de varianza). Esta relación es independiente del tipo de ruido —ruido Gaussiano, Uniforme, Dropout y Sal y Pimienta muestran todos |r| > 0.90. Estos resultados establecen que la dimensión efectiva proporciona información predictiva y causal independiente del dominio sobre el rendimiento de redes neuronales, calculada completamente sin etiquetas.
El aprendizaje por refuerzo se ha vuelto fundamental para el post-entrenamiento de modelos de lenguaje grandes, sin embargo, los algoritmos dominantes dependen de mecanismos de recorte que introducen problemas de optimización a gran escala, incluyendo regiones de gradiente cero, manipulación de recompensas e inestabilidad en el entrenamiento. Proponemos la Optimización de Políticas Libre de Recorte (CFPO), que reemplaza el recorte heurístico con una penalización cuadrática convexa derivada de restricciones de divergencia de Variación Total, produciendo un objetivo diferenciable en todas partes que aplica actualizaciones de políticas estables sin límites rígidos. Evaluamos CFPO en contextos de razonamiento y alineación. En razonamiento, CFPO iguala a los métodos basados en recorte en benchmarks posteriores mientras extiende el régimen de entrenamiento estable. En alineación, CFPO mitiga la explotación de verbosidad y reduce la degradación de capacidades, logrando al mismo tiempo un rendimiento competitivo en seguimiento de instrucciones. CFPO requiere solo un cambio de una línea de código y ningún hiperparámetro adicional. Nuestros resultados sugieren que CFPO es una alternativa prometedora de sustitución directa a los métodos basados en recorte para el post-entrenamiento de LLMs.
Los modelos existentes de Razonamiento Integrado con Herramientas (TIR) han ampliado eficazmente las capacidades de los LLM para responder preguntas mediante la incorporación de herramientas externas. Sin embargo, los escenarios del mundo real presentan numerosos problemas abiertos en los que las herramientas fijas a menudo no cumplen con los requisitos de la tarea. Además, la falta de mecanismos de auto-optimización significa que las salidas erróneas de las herramientas pueden desorientar las respuestas del LLM. Asimismo, la construcción de herramientas existentes conlleva un esfuerzo manual significativo, lo que restringe su aplicabilidad. Reconociendo que las trazas de razonamiento de los LLM encapsulan capacidades implícitas de resolución de problemas, proponemos UCT, un novedoso marco de trabajo libre de entrenamiento que transforma a los agentes de usuarios de herramientas en creadores de herramientas. Este enfoque cosecha experiencias de razonamiento y las destila en activos reutilizables. Este método transforma al agente de un mero usuario de herramientas en un creador de las mismas, permitiendo la creación adaptativa de herramientas y la auto-actualización durante el proceso de inferencia. También introducimos un mecanismo de consolidación de memoria para mantener la biblioteca de herramientas, garantizando una alta reutilización de la memoria experiencial retenida para tareas de razonamiento posteriores. Este novedoso paradigma de construcción automática de herramientas mejora continuamente la calidad de las mismas durante el razonamiento, permitiendo que el sistema general del agente avance sin necesidad de entrenamiento adicional. Experimentos exhaustivos demuestran que nuestro método sirve como un paradigma novedoso para mejorar las capacidades de los modelos TIR. En particular, las ganancias significativas de rendimiento logradas, +20.86%↑ y +23.04%↑ en puntos de referencia de tareas de razonamiento matemático y científico multidisciplinar, validan la capacidad de auto-evolución del agente.
Las salvaguardas culturalmente conscientes son cruciales para la alineación de la IA en entornos reales, donde la seguridad va más allá del sentido común y abarca diversos valores locales, normas y regulaciones específicas de cada región. Sin embargo, la construcción de conjuntos de datos a gran escala con bases culturales es un desafío debido a los recursos limitados y a la escasez de anotadores nativos. En consecuencia, muchos modelos de salvaguarda dependen de la traducción automática de conjuntos de datos en inglés, perdiendo a menudo matices regionales y culturales. Presentamos un novedoso marco de generación de datos agéntico para crear de forma escalable conjuntos de datos de seguridad auténticos y específicos para la región del Sudeste Asiático (SEA). Sobre esta base, presentamos la familia SEA-Guard, los primeros modelos de salvaguarda multilingües basados en contextos culturales del SEA. Evaluados en múltiples puntos de referencia y variantes culturales, SEA-Guard supera consistentemente a las salvaguardas existentes en la detección de contenido regionalmente sensible o dañino, manteniendo al mismo tiempo un sólido rendimiento de seguridad general.
El aprendizaje por refuerzo mejora las capacidades de razonamiento de los modelos de lenguaje grandes, pero a menudo implica altos costos computacionales debido a la optimización intensiva en simulaciones. La selección en línea de prompts presenta una solución plausible al priorizar prompts informativos para mejorar la eficiencia del entrenamiento. Sin embargo, los métodos actuales dependen de evaluaciones exactas costosas o construyen modelos predictivos específicos para cada prompt que carecen de generalización entre prompts. Este estudio presenta la Selección Predictiva de Prompts Generalizable (GPS), que realiza inferencia bayesiana sobre la dificultad del prompt utilizando un modelo generativo ligero entrenado en el historial de optimización compartido. La priorización de dificultad intermedia y la diversidad anclada en el historial se incorporan al principio de adquisición por lotes para seleccionar lotes de prompts informativos. El pequeño modelo predictivo también generaliza en tiempo de prueba para una asignación computacional eficiente. Los experimentos en diversos benchmarks de razonamiento indican que GPS logra mejoras sustanciales en la eficiencia del entrenamiento, el rendimiento final y la eficiencia en tiempo de prueba sobre métodos baseline superiores.
Introducción. La ética de la IA se enmarca de manera distinta según los actores y grupos de interés. Presentamos los resultados de un estudio de caso de OpenAI que analiza el discurso ético sobre la IA. Método. La investigación abordó: ¿Cómo ha utilizado el discurso público de OpenAI los conceptos de 'ética', 'seguridad', 'alineación' y conceptos adyacentes a lo largo del tiempo, y qué señala dicho discurso sobre su marco de referencia en la práctica? Se reunió un corpus estructurado, diferenciando entre la comunicación para un público general y la comunicación con un público académico, a partir de documentación pública. Análisis. El análisis cualitativo de contenido de temas éticos combinó códigos derivados inductivamente y aplicados deductivamente. El análisis cuantitativo utilizó métodos de análisis de contenido computacional mediante PLN para modelar temas y cuantificar cambios en la retórica a lo largo del tiempo. Las visualizaciones presentan los resultados agregados. Para garantizar la reproducibilidad de los resultados, hemos publicado nuestro código en https://github.com/famous-blue-raincoat/AI_Ethics_Discourse. Resultados. Los resultados indican que el discurso sobre seguridad y riesgo domina la comunicación y documentación pública de OpenAI, sin aplicar marcos o vocabularios éticos provenientes del ámbito académico o de la defensa de causas. Conclusiones. Se presentan las implicaciones para la gobernanza, junto con una discusión sobre las prácticas de "ethics-washing" (lavado de imagen ético) en la industria.
Los grandes modelos de lenguaje (LLM) se utilizan cada vez más como jueces para evaluar el rendimiento de agentes, particularmente en entornos no verificables donde los juicios dependen de trayectorias del agente que incluyen razonamiento de cadena de pensamiento (CoT). Este paradigma asume implícitamente que el CoT del agente refleja fielmente tanto su razonamiento interno como el estado subyacente del entorno. Demostramos que esta suposición es frágil: los jueces basados en LLM son altamente susceptibles a la manipulación de las trazas de razonamiento del agente. Al reescribir sistemáticamente los CoT de los agentes manteniendo fijas las acciones y observaciones, demostramos que la manipulación del razonamiento por sí sola puede inflar las tasas de falsos positivos de los jueces VLM de vanguardia hasta en un 90% a lo largo de 800 trayectorias que abarcan diversas tareas web. Estudiamos estrategias de manipulación que abarcan desde enfoques basados en el estilo, que alteran solo la presentación del razonamiento, hasta enfoques basados en el contenido, que fabrican señales de progreso en la tarea, y encontramos que las manipulaciones basadas en contenido son consistentemente más efectivas. Evaluamos técnicas basadas en *prompting* y el escalado de cómputo en tiempo de juicio, que reducen pero no eliminan completamente la susceptibilidad a la manipulación. Nuestros hallazgos revelan una vulnerabilidad fundamental en la evaluación basada en LLM y subrayan la necesidad de mecanismos de evaluación que verifiquen las afirmaciones del razonamiento frente a evidencia observable.
El inpaint basado en aprendizaje profundo moderno permite una manipulación local realista de imágenes, lo que plantea desafíos críticos para una detección confiable. Sin embargo, observamos que los detectores actuales se basan principalmente en artefactos globales que aparecen como efectos secundarios del inpaint, en lugar de en el contenido sintetizado localmente. Demostramos que este comportamiento ocurre porque la reconstrucción basada en VAE induce un cambio espectral sutil pero generalizado en toda la imagen, incluidas las regiones no editadas. Para aislar este efecto, introducimos Inpainting Exchange (INP-X), una operación que restaura los píxeles originales fuera de la región editada mientras preserva todo el contenido sintetizado. Creamos un conjunto de datos de prueba de 90K que incluye imágenes reales, con inpaint e intercambiadas para evaluar este fenómeno. Bajo esta intervención, los detectores preentrenados de última generación, incluidos los comerciales, exhiben una caída drástica en la precisión (por ejemplo, del 91% al 55%), frecuentemente acercándose al nivel de azar. Proporcionamos un análisis teórico que vincula este comportamiento con la atenuación de altas frecuencias causada por los cuellos de botella de información de los VAE. Nuestros hallazgos resaltan la necesidad de una detección consciente del contenido. De hecho, el entrenamiento con nuestro conjunto de datos produce una mejor generalización y localización que el inpaint estándar. Nuestro conjunto de datos y código están disponibles públicamente en https://github.com/emirhanbilgic/INP-X.
Los sistemas multiagente han surgido como un paradigma poderoso para automatizar el descubrimiento científico. Para diferenciar el comportamiento de los agentes en el sistema multiagente, los marcos de trabajo actuales suelen asignar roles genéricos basados en personajes, como "revisor" o "escritor", o se basan en personajes de grano grueso definidos por palabras clave. Aunque funcional, este enfoque simplifica en exceso cómo operan los científicos humanos, cuyas contribuciones están moldeadas por sus trayectorias de investigación únicas. En respuesta, proponemos INDIBATOR, un marco de trabajo para el descubrimiento molecular que fundamenta a los agentes en perfiles científicos individualizados construidos a partir de dos modalidades: el historial de publicaciones para el conocimiento derivado de la literatura y el historial molecular para los antecedentes estructurales. Estos agentes participan en debates de múltiples turnos a través de fases de propuesta, crítica y votación. Nuestra evaluación demuestra que estos agentes fundamentados en una individualidad de grano fino superan consistentemente a los sistemas que dependen de personajes de grano grueso, logrando un rendimiento competitivo o de vanguardia. Estos resultados validan que capturar el "ADN científico" de los agentes individuales es esencial para un descubrimiento de alta calidad.
Los sistemas de recuperación densa de propósito general y dominio abierto suelen entrenarse con una amplia y ecléctica mezcla de corpus y tareas de búsqueda. ¿Cómo deben muestrearse estos diversos corpus y tareas para el entrenamiento? Los enfoques convencionales los muestrean de manera uniforme, de forma proporcional al tamaño de sus poblaciones de instancias, o dependen de supervisión experta a nivel humano. Es bien sabido que la estrategia de muestreo de los datos de entrenamiento puede afectar enormemente el rendimiento del modelo. Sin embargo, cómo encontrar la estrategia óptima no ha sido estudiado adecuadamente en el contexto de los modelos de embeddings. Proponemos Inf-DDS, un novedoso marco de muestreo basado en aprendizaje por refuerzo que repondera adaptativamente los conjuntos de datos de entrenamiento guiado por señales de recompensa basadas en influencia y que es mucho más ligero en cuanto al consumo de GPU. Nuestra técnica refina iterativamente la política de muestreo, priorizando los conjuntos de datos que maximizan el rendimiento del modelo en un conjunto de desarrollo objetivo. Evaluamos la eficacia de nuestra estrategia de muestreo en una amplia gama de tareas de recuperación de texto, demostrando fuertes mejoras en el rendimiento de recuperación y una mejor adaptación en comparación con los métodos de muestreo basados en gradientes existentes, además de ser entre 1.5x y 4x más económica en cómputo de GPU. Nuestra estrategia de muestreo logra una mejora absoluta de 5.03 en NDCG@10 al entrenar el modelo multilingüe bge-m3 y una mejora absoluta de 0.94 en NDCG@10 al entrenar all-MiniLM-L6-v2, incluso partiendo de pesos asignados por expertos en un gran grupo de conjuntos de datos de entrenamiento.
La evaluación multilingüe de los grandes modelos de lenguaje (LLM) suele confundir dos fuentes de varianza: las diferencias genuinas en el rendimiento del modelo y la inestabilidad de la medición. Investigamos la fiabilidad de la evaluación manteniendo constantes las condiciones de generación mientras variamos el idioma objetivo. Utilizando diálogos sintéticos de atención al cliente generados con parámetros idénticos en estonio, finés y húngaro, evaluamos si las métricas automáticas y la puntuación mediante LLM-como-juez producen clasificaciones estables de modelos en estas lenguas fino-ugrias, emparentadas y morfológicamente ricas. Tomando como referencia un pequeño conjunto de anotaciones de hablantes nativos de estonio, encontramos inestabilidades sistemáticas en las clasificaciones: las métricas superficiales (diversidad léxica, similitud superficial y semántica) mantienen estabilidad entre idiomas, pero los juicios pragmáticos (coherencia, seguimiento de instrucciones) exhiben inversiones de rango y correlaciones cercanas a cero. Dado que la generación está controlada, estas inconsistencias reflejan cómo la puntuación del juez se comporta de manera diferente entre idiomas, en lugar de verdaderas diferencias del modelo. Este diseño controlado proporciona una sonda diagnóstica: los métodos de evaluación que no mantienen la estabilidad bajo condiciones idénticas de generación señalan un fallo de transferencia antes del despliegue. Nuestros hallazgos sugieren que la transferencia *zero-shot* del juez es poco fiable para la evaluación a nivel discursivo en lenguas morfológicamente ricas, lo que motiva una calibración específica por idioma utilizando líneas de base humanas específicas. Publicamos nuestro protocolo de generación controlada, los datos sintéticos y el marco de evaluación para permitir la replicación en distintas familias lingüísticas en https://github.com/isaac-chung/cross-lingual-stability-judges.
Este artículo presenta YOLOE-26, un marco unificado que integra la arquitectura YOLO26 (o YOLOv26) optimizada para despliegue con el paradigma de aprendizaje de vocabulario abierto de YOLOE para la segmentación de instancias en tiempo real con vocabulario abierto. Basándose en el diseño de extremo a extremo y libre de NMS de YOLOv26, el enfoque propuesto preserva la eficiencia y el determinismo característicos de la familia YOLO, al tiempo que extiende sus capacidades más allá del reconocimiento de conjuntos cerrados. YOLOE-26 emplea una red troncal convolucional con agregación de características multiescala de tipo PAN/FPN, seguida de cabezales de regresión y segmentación de instancias de extremo a extremo. Una contribución arquitectónica clave es el reemplazo de los logits de clase fijos por un cabezal de incrustación de objetos, que formula la clasificación como una comparación de similitud frente a incrustaciones derivadas de descripciones textuales, ejemplos visuales o un vocabulario integrado. Para permitir un razonamiento de vocabulario abierto eficiente, el marco incorpora Alineación de Región-Texto Re-parametrizable (RepRTA) para indicaciones de texto sin sobrecarga, un Codificador de Indicaciones Visuales Activado Semánticamente (SAVPE) para segmentación guiada por ejemplos, y Contraste de Indicaciones de Región Permanente (Lazy Region Prompt Contrast) para inferencia automática. Todas las modalidades de indicación operan dentro de un espacio unificado de incrustación de objetos, permitiendo un cambio fluido entre segmentación por indicación textual, por indicación visual y completamente autónoma. Experimentos exhaustivos demuestran un comportamiento de escalado consistente y compensaciones favorables entre precisión y eficiencia en todos los tamaños de modelo, tanto en configuraciones con indicación como automáticas. La estrategia de entrenamiento aproveja conjuntos de datos de detección y localización a gran escala con optimización multitarea y mantiene una compatibilidad total con el ecosistema Ultralytics para entrenamiento, validación y despliegue. En general, YOLOE-26 proporciona una solución práctica y escalable para la segmentación de instancias en tiempo real con vocabulario abierto en entornos dinámicos del mundo real.
La Computación de Depósitos (RC) se ha consolidado como un paradigma eficiente para el procesamiento temporal. Sin embargo, su escalabilidad sigue estando severamente limitada por (i) la necesidad de procesar los datos temporales de forma secuencial y (ii) la huella de memoria prohibitiva de los depósitos de alta dimensión. En este trabajo, revisitamos la RC desde la perspectiva de los operadores estructurados y el modelado de espacio de estados para abordar estas limitaciones, introduciendo la Red de Estados de Eco Paralela (ParalESN). ParalESN permite la construcción de depósitos de alta dimensión y eficientes basados en recurrencia lineal diagonal en el espacio complejo, posibilitando el procesamiento paralelo de datos temporales. Proporcionamos un análisis teórico que demuestra que ParalESN preserva la Propiedad del Estado de Eco y las garantías de universalidad de las Redes de Estados de Eco tradicionales, al tiempo que admite una representación equivalente de cualquier depósito lineal en la forma diagonal compleja. Empíricamente, ParalESN iguala la precisión predictiva de la RC tradicional en benchmarks de series temporales, al mismo tiempo que ofrece ahorros computacionales sustanciales. En tareas de clasificación a nivel de píxel 1-D, ParalESN logra una precisión competitiva con las redes neuronales totalmente entrenables, mientras reduce los costes computacionales y el consumo energético en órdenes de magnitud. En general, ParalESN ofrece una vía prometedora, escalable y fundamentada para integrar la RC en el panorama del aprendizaje profundo.
La representación neuronal implícita (INR) ha demostrado ser precisa y eficiente en diversos dominios. En este trabajo, exploramos cómo diferentes redes neuronales pueden diseñarse como una nueva textura INR, que opera de manera continua en lugar de discreta sobre el espacio de coordenadas UV de entrada. Mediante experimentos exhaustivos, demostramos que estas INR tienen un buen desempeño en términos de calidad de imagen, con un uso de memoria considerable y un tiempo de inferencia de renderizado eficiente. Analizamos el equilibrio entre estos objetivos. Además, investigamos varias aplicaciones relacionadas en renderizado en tiempo real y tareas posteriores, como el ajuste de mipmaps y la generación en el espacio INR.
Los modelos de lenguaje grandes pueden generar respuestas fluidas que no son fieles al contexto proporcionado, mientras que muchas salvaguardas dependen de verificación externa o de un juez separado tras la generación. Introducimos firmas de flujo interno que auditan la formación de decisiones a partir de la dinámica en profundidad en un límite de monitorización inter-bloque fijo. El método estabiliza el movimiento token a token mediante monitorización centrada en sesgo, y luego resume las trayectorias en subespacios compactos de lectura alineada en movimiento, construidos a partir del token principal y sus competidores cercanos dentro de cada ventana de profundidad. Los fotogramas de ventana adyacentes se alinean mediante un transporte ortogonal, produciendo longitudes de paso transportadas comparables en profundidad, ángulos de giro y resúmenes de deriva del subespacio que son invariantes a las elecciones de base dentro de la ventana. Un validador GRU ligero entrenado con estas firmas realiza una autocomprobación sin modificar el modelo base. Más allá de la detección, el validador localiza un evento de profundidad culpable y permite un refinamiento dirigido: el modelo retrocede al token culpable y sujeta un paso transportado anómalo en el bloque identificado, preservando el residuo ortogonal. La canalización resultante proporciona una localización accionable y una autocomprobación de baja sobrecarga a partir de la dinámica interna de decisiones. El código está disponible en github.com/EavnJeong/Internal-Flow-Signatures-for-Self-Checking-and-Refinement-in-LLMs.
Proponemos Parabolic Position Encoding (PaPE), una codificación posicional basada en parábolas para modalidades de visión en arquitecturas basadas en atención. Dado un conjunto de *tokens* de visión —como imágenes, nubes de puntos, vídeos o secuencias de cámaras de eventos— nuestro objetivo es codificar sus posiciones teniendo en cuenta las características de las modalidades de visión. Trabajos previos han extendido en gran medida las codificaciones posicionales de secuencias 1D en lenguaje a estructuras nD en visión, pero solo con una consideración parcial de las características visuales. Abordamos esta brecha diseñando PaPE a partir de principios extraídos de trabajos anteriores: invariancia traslacional, invariancia rotacional (PaPE-RI), decaimiento con la distancia, direccionalidad y conciencia del contexto. Evaluamos PaPE en 8 conjuntos de datos que abarcan 4 modalidades. Encontramos que PaPE o PaPE-RI logran el mejor rendimiento en 7 de los 8 conjuntos de datos. Experimentos de extrapolación en ImageNet-1K muestran que PaPE extrapola notablemente bien, mejorando en términos absolutos hasta un 10,5% respecto a la siguiente mejor codificación posicional. El código está disponible en https://github.com/DTU-PAS/parabolic-position-encoding.
Si bien el uso de LLM como juez está ampliamente extendido en la evaluación automatizada, las prácticas de validación existentes operan principalmente a nivel de los resultados observados, ofreciendo una visión limitada sobre si los propios jueces basados en LLM funcionan como instrumentos de medición estables y fiables. Para abordar esta limitación, presentamos un marco de diagnóstico en dos fases para evaluar la fiabilidad de LLM-como-juez, fundamentado en la Teoría de Respuesta al Ítem (TRI). El marco adopta el Modelo de Respuesta Gradual (GRM) de la TRI y formaliza la fiabilidad en dos dimensiones complementarias: (1) la consistencia intrínseca, definida como la estabilidad del comportamiento de medición bajo variaciones en las instrucciones (prompts), y (2) la alineación humana, que captura la correspondencia con las evaluaciones de calidad humanas. Examinamos empíricamente diversos jueces basados en LLM con este marco y demostramos que el aprovechamiento de TRI-GRM produce señales interpretables para diagnosticar los juicios de manera sistemática. Estas señales proporcionan una guía práctica para verificar la fiabilidad de LLM-como-juez e identificar las causas potenciales de falta de fiabilidad.