Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos Wan-Move, un marco de trabajo simple y escalable que incorpora control de movimiento a los modelos generativos de video. Los métodos existentes con capacidad de control de movimiento suelen adolecer de una granularidad de control tosca y una escalabilidad limitada, lo que hace que sus resultados sean insuficientes para un uso práctico. Reducimos esta brecha logrando un control de movimiento preciso y de alta calidad. Nuestra idea central es hacer directamente que las características de condición originales sean conscientes del movimiento para guiar la síntesis de video. Para ello, primero representamos los movimientos de los objetos con trayectorias de puntos densas, permitiendo un control de grano fino sobre la escena. Luego proyectamos estas trayectorias en el espacio latente y propagamos las características del primer fotograma a lo largo de cada trayectoria, produciendo un mapa de características espacio-temporales alineado que indica cómo debe moverse cada elemento de la escena. Este mapa de características sirve como la condición latente actualizada, que se integra naturalmente en el modelo estándar de imagen a video, por ejemplo, Wan-I2V-14B, como guía de movimiento sin ningún cambio arquitectónico. Elimina la necesidad de codificadores de movimiento auxiliares y hace que el ajuste fino de los modelos base sea fácilmente escalable. Mediante entrenamiento a escala, Wan-Move genera videos de 5 segundos y 480p cuya capacidad de control de movimiento rivaliza con la función comercial Motion Brush de Kling 1.5 Pro, según indican estudios de usuarios. Para respaldar una evaluación integral, diseñamos además MoveBench, un punto de referencia rigurosamente curado que presenta diversas categorías de contenido y anotaciones de verificación híbrida. Se distingue por un mayor volumen de datos, duraciones de video más largas y anotaciones de movimiento de alta calidad. Experimentos exhaustivos en MoveBench y en conjuntos de datos públicos muestran consistentemente la calidad de movimiento superior de Wan-Move. El código, los modelos y los datos del benchmark se han hecho públicos.
El renderizado neuronal, particularmente el Splatting Gaussiano 3D (3DGS), ha evolucionado rápidamente y se ha convertido en un componente clave para construir modelos del mundo. Sin embargo, las soluciones de visualización existentes siguen estando fragmentadas, son pesadas o están limitadas por pipelines heredados, lo que resulta en una alta fricción de despliegue y un soporte limitado para contenido dinámico y modelos generativos. En este trabajo, presentamos Visionary, una plataforma abierta y nativa de la web para el renderizado en tiempo real de diversos modelos de Splatting Gaussiano y mallas. Construida sobre un renderizador WebGPU eficiente con inferencia ONNX por fotograma, Visionary permite el procesamiento neuronal dinámico manteniendo una experiencia de navegador ligera y de "un clic para ejecutar". Introduce un contrato estandarizado de Generador Gaussiano, que no solo admite el renderizado estándar de 3DGS, sino que también permite que algoritmos plug-and-play generen o actualicen los Gaussianos en cada fotograma. Dicha inferencia también nos permite aplicar postprocesamiento generativo de tipo feedforward. La plataforma ofrece además un plugin para la biblioteca three.js con una API concisa en TypeScript para una integración perfecta en aplicaciones web existentes. Los experimentos muestran que, con activos de 3DGS idénticos, Visionary logra una eficiencia de renderizado superior en comparación con los visualizadores web actuales, gracias a la ordenación de primitivas basada en GPU. Ya admite múltiples variantes, incluyendo 3DGS basado en MLP, 4DGS, avatares neuronales, y redes de transformación de estilo o mejora. Al unificar la inferencia y el renderizado directamente en el navegador, Visionary reduce significativamente la barrera para la reproducción, comparación y despliegue de métodos de la familia 3DGS, sirviendo como un Portador de Modelos del Mundo unificado para paradigmas tanto reconstructivos como generativos.
El intercambio de caras en vídeo es crucial en la producción cinematográfica y de entretenimiento, donde lograr alta fidelidad y coherencia temporal en secuencias de vídeo largas y complejas sigue siendo un desafío significativo. Inspirados por los recientes avances en la edición de imágenes guiada por referencia, exploramos si los ricos atributos visuales de los vídeos fuente pueden aprovecharse de manera similar para mejorar tanto la fidelidad como la coherencia temporal en el intercambio de caras en vídeo. Basándonos en esta idea, este trabajo presenta LivingSwap, el primer modelo de intercambio de caras guiado por referencia de vídeo. Nuestro enfoque emplea fotogramas clave como señales de condicionamiento para inyectar la identidad objetivo, permitiendo una edición flexible y controlable. Al combinar el condicionamiento por fotogramas clave con la guía de referencia de vídeo, el modelo realiza una costura temporal para garantizar una preservación estable de la identidad y una reconstrucción de alta fidelidad en secuencias de vídeo largas. Para abordar la escasez de datos para el entrenamiento guiado por referencia, construimos un conjunto de datos de intercambio de caras emparejado, Face2Face, y además invertimos los pares de datos para asegurar una supervisión de verdad terreno confiable. Experimentos exhaustivos demuestran que nuestro método logra resultados de vanguardia, integrando perfectamente la identidad objetivo con las expresiones, iluminación y movimiento del vídeo fuente, mientras reduce significativamente el esfuerzo manual en los flujos de trabajo de producción. Página web del proyecto: https://aim-uofa.github.io/LivingSwap
La narrativa en videos del mundo real a menudo se desarrolla a través de múltiples planos: clips discontinuos pero semánticamente conectados que, en conjunto, transmiten una narrativa coherente. Sin embargo, los métodos existentes de generación de video multi-plano (MSV) tienen dificultades para modelar efectivamente el contexto de largo alcance entre planos, ya que dependen de ventanas temporales limitadas o del condicionamiento por un único fotograma clave, lo que conduce a un rendimiento degradado en narrativas complejas. En este trabajo, proponemos OneStory, que permite un modelado del contexto entre planos global pero compacto para una generación de narrativa consistente y escalable. OneStory reformula el MSV como una tarea de generación del siguiente plano, permitiendo una síntesis de planos autorregresiva mientras aprovecha modelos preentrenados de imagen a video (I2V) para un condicionamiento visual sólido. Introducimos dos módulos clave: un módulo de Selección de Fotogramas que construye una memoria global semánticamente relevante basada en fotogramas informativos de planos anteriores, y un Acondicionador Adaptativo que realiza una parcelación guiada por importancia para generar un contexto compacto para el condicionamiento directo. Además, creamos un conjunto de datos multi-plano de alta calidad con descripciones referenciales para reflejar patrones de narración del mundo real, y diseñamos estrategias de entrenamiento efectivas bajo el paradigma del siguiente plano. Entrenado a partir de un modelo I2V preentrenado en nuestro conjunto de datos curado de 60K ejemplos, OneStory logra una coherencia narrativa state-of-the-art en escenas diversas y complejas, tanto en configuraciones condicionadas por texto como por imagen, permitiendo una narración de video de formato largo, controlable e inmersiva.
El escalado del cómputo en tiempo de inferencia ha permitido a los Modelos de Lenguaje a Gran Escala (LLM) lograr un sólido rendimiento de razonamiento, pero la decodificación inherentemente secuencial conlleva una latencia sustancial, especialmente en tareas complejas. Trabajos recientes sobre razonamiento paralelo adaptativo buscan mejorar la eficiencia de la inferencia descomponiendo el proceso de resolución de problemas en hilos de razonamiento concurrentes cuando es beneficioso. Sin embargo, los métodos existentes para tareas realistas se limitan a la clonación de comportamiento supervisada o exhiben caídas significativas de precisión en comparación con las líneas de base secuenciales ampliamente utilizadas de cadena de pensamiento (CoT) larga. Además, muchos requieren motores de inferencia personalizados, lo que complica el despliegue. Presentamos ThreadWeaver, un marco para el razonamiento paralelo adaptativo que logra una precisión comparable a la de los modelos de razonamiento secuencial más populares de tamaño similar, reduciendo significativamente la latencia de inferencia. El rendimiento de ThreadWeaver se deriva de tres innovaciones clave: 1) un generador de trayectorias paralelas en dos etapas que produce datos CoT a gran escala y de alta calidad con anotaciones paralelas para el ajuste fino supervisado; 2) un co-diseño entrenamiento-inferencia basado en tries que permite el razonamiento paralelo en cualquier motor de inferencia autorregresivo estándar sin modificar los *embeddings* posicionales o las cachés KV; y 3) un marco de aprendizaje por refuerzo consciente de la paralelización que enseña al modelo a equilibrar la precisión con una paralelización efectiva. En seis benchmarks desafiantes de razonamiento matemático, ThreadWeaver entrenado sobre Qwen3-8B logra una precisión comparable a los modelos de razonamiento secuencial más avanzados (71.9% en promedio y 79.9% en AIME24) mientras ofrece una aceleración promedio de hasta 1.53x en la latencia por token, estableciendo una nueva frontera de Pareto entre precisión y eficiencia.
La Segmentación de Instancias en Video (VIS) enfrenta desafíos significativos de anotación debido a sus requisitos duales de máscaras a nivel de píxel y etiquetas de consistencia temporal. Si bien métodos recientes no supervisados como VideoCutLER eliminan las dependencias del flujo óptico mediante datos sintéticos, siguen limitados por la brecha de dominio sintético-real. Presentamos AutoQ-VIS, un novedoso marco no supervisado que salva esta brecha mediante el autoaprendizaje guiado por calidad. Nuestro enfoque establece un sistema de bucle cerrado entre la generación de pseudoetiquetas y la evaluación automática de calidad, permitiendo una adaptación progresiva de videos sintéticos a reales. Los experimentos demuestran un rendimiento de vanguardia con 52.6 AP_{50} en el conjunto de validación de YouTubeVIS-2019, superando en un 4.4% al anterior estado del arte, VideoCutLER, sin requerir anotaciones humanas. Esto demuestra la viabilidad del autoaprendizaje consciente de la calidad para VIS no supervisado. El código se liberará en https://github.com/wcbup/AutoQ-VIS.
Los Modelos de Lenguaje Grandes modernos logran capacidades de razonamiento impresionantes con largas Cadenas de Pensamiento, pero incurren en un coste computacional sustancial durante la inferencia, lo que motiva el desarrollo de técnicas para mejorar la relación rendimiento-coste. Entre estas técnicas, la Decodificación Especulativa acelera la inferencia empleando un modelo borrador rápido pero inexacto para proponer tokens de forma autoregresiva, los cuales luego son verificados en paralelo por un modelo objetivo más capaz. Sin embargo, debido a rechazos innecesarios causados por desajustes de tokens en pasos semánticamente equivalentes, la Decodificación Especulativa tradicional a nivel de token tiene dificultades en tareas de razonamiento. Aunque trabajos recientes han pasado a una verificación semántica a nivel de paso, que mejora la eficiencia aceptando o rechazando pasos de razonamiento completos, los métodos existentes a nivel de paso aún regeneran muchos pasos rechazados con poca mejora, desperdiciando valiosos recursos de cómputo del modelo objetivo. Para abordar este desafío, proponemos Arbitrage, un novedoso marco de generación especulativa a nivel de paso que dirige la generación dinámicamente basándose en la ventaja relativa entre los modelos borrador y objetivo. En lugar de aplicar un umbral de aceptación fijo, Arbitrage utiliza un enrutador ligero entrenado para predecir cuándo es probable que el modelo objetivo produzca un paso significativamente mejor. Este enrutamiento aproxima un Oráculo de Arbitraje ideal que siempre elige el paso de mayor calidad, logrando compensaciones de eficiencia-precisión casi óptimas. En múltiples benchmarks de razonamiento matemático, Arbitrage supera consistentemente los baselines previos de Decodificación Especulativa a nivel de paso, reduciendo la latencia de inferencia hasta aproximadamente 2 veces con la misma precisión.
El aprendizaje de imitación corporeizada se ve limitado por la escasez de datos diversos de manipulación robótica de horizonte largo. Los modelos existentes de generación de vídeo para este dominio se limitan a sintetizar clips cortos de acciones simples y a menudo dependen de trayectorias definidas manualmente. Para ello, presentamos MIND-V, un marco jerárquico diseñado para sintetizar vídeos físicamente plausibles y lógicamente coherentes de manipulación robótica de horizonte largo. Inspirado en la ciencia cognitiva, MIND-V conecta el razonamiento de alto nivel con la síntesis a nivel de píxel mediante tres componentes principales: un Centro de Razonamiento Semántico (SRH) que aprovecha un modelo visión-lenguaje preentrenado para la planificación de tareas; un Puente Semántico Conductual (BSB) que traduce instrucciones abstractas en representaciones invariantes al dominio; y un Generador de Vídeo Motor (MVG) para el renderizado condicional de vídeo. MIND-V emplea Despliegues Visuales Futuros Escalonados, una estrategia de optimización en tiempo de prueba para mejorar la robustez de horizonte largo. Para alinear los vídeos generados con las leyes físicas, introducimos una fase de post-entrenamiento por refuerzo GRPO guiada por una nueva recompensa de Coherencia de Previsión Física (PFC). PFC aprovecha el modelo mundial V-JEPA para imponer plausibilidad física alineando las evoluciones dinámicas predichas y reales en el espacio de características. MIND-V demuestra un rendimiento de vanguardia en la generación de vídeos de manipulación robótica de horizonte largo, estableciendo un paradigma escalable y controlable para la síntesis de datos corporeizados.
Se espera que los modelos de lenguaje multimodal (MLLM) interpreten conjuntamente la visión, el audio y el lenguaje; sin embargo, los puntos de referencia existentes para video rara vez evalúan el razonamiento detallado sobre el habla humana. Muchas tareas siguen siendo resolubles visualmente o solo evalúan el habla de manera superficial, ofreciendo una perspectiva limitada sobre si los modelos pueden alinear quién habla, qué se dice y cuándo ocurre. Presentamos AV-SpeakerBench, un punto de referencia curado de 3.212 preguntas de opción múltiple centradas en el razonamiento audiovisual centrado en el hablante en videos del mundo real. Sus características son: (1) una formulación centrada en el hablante que trata a los hablantes —no a las escenas— como la unidad central de razonamiento; (2) un diseño de preguntas basado en fusión que integra dependencias audiovisuales en la semántica de la pregunta; y (3) anotaciones curadas por expertos que garantizan precisión temporal y validez multimodal. Evaluaciones exhaustivas muestran que la familia Gemini supera consistentemente a los sistemas de código abierto, con Gemini 2.5 Pro logrando los mejores resultados. Entre los modelos abiertos, Qwen3-Omni-30B se acerca a Gemini 2.0 Flash pero se mantiene muy por detrás de Gemini 2.5 Pro, principalmente debido a una fusión audiovisual más débil y no a una percepción visual inferior. Creemos que AV-SpeakerBench establece una base rigurosa para avanzar en el razonamiento audiovisual de grano fino en futuros sistemas multimodales.
Los recientes avances en los modelos de lenguaje de gran escala (LLM) han dado lugar a potentes agentes de codificación, haciendo posible que los asistentes de código evolucionen hacia ingenieros de código. Sin embargo, los métodos existentes aún enfrentan desafíos significativos para lograr una síntesis de alta fidelidad de documento a base de código—como de artículos científicos a código—debido principalmente a un conflicto fundamental entre la sobrecarga de información y los cuellos de botella de contexto de los LLM. En este trabajo, presentamos DeepCode, un marco completamente autónomo que aborda este desafío de manera fundamental mediante una gestión basada en principios del flujo de información. Al tratar la síntesis de repositorios como un problema de optimización de canales, DeepCode orquesta de manera fluida cuatro operaciones de información para maximizar las señales relevantes para la tarea bajo presupuestos de contexto finitos: compresión de la fuente mediante destilación de planos, indexación estructurada usando memoria de código con estado, inyección condicional de conocimiento mediante generación aumentada por recuperación, y corrección de errores en bucle cerrado. Evaluaciones exhaustivas en el benchmark PaperBench demuestran que DeepCode logra un rendimiento de vanguardia, superando decisivamente a agentes comerciales líderes como Cursor y Claude Code, y, crucialmente, superando a expertos humanos de nivel doctoral de instituciones de primer nivel en métricas clave de reproducción. Al transformar sistemáticamente las especificaciones de los artículos en implementaciones de calidad de producción comparables a la de expertos humanos, este trabajo establece nuevas bases para la reproducción científica autónoma que puede acelerar la evaluación y el descubrimiento en investigación.
El post-entrenamiento por aprendizaje por refuerzo (RL) es crucial para alinear los modelos generativos con las preferencias humanas, pero su costo computacional prohibitivo sigue siendo una barrera importante para su adopción generalizada. Presentamos TreeGRPO, un novedoso marco de RL que mejora drásticamente la eficiencia del entrenamiento al reformular el proceso de eliminación de ruido como un árbol de búsqueda. A partir de muestras de ruido iniciales compartidas, TreeGRPO se ramifica estratégicamente para generar múltiples trayectorias candidatas mientras reutiliza eficientemente sus prefijos comunes. Este enfoque de estructura arbórea ofrece tres ventajas clave: (1) Alta eficiencia muestral, logrando un mejor rendimiento con la misma cantidad de muestras de entrenamiento; (2) Asignación de crédito de grano fino mediante retropropagación de recompensas que calcula ventajas específicas por paso, superando la limitación de asignación uniforme de crédito de los métodos basados en trayectorias; y (3) Cómputo amortizado, donde la ramificación de múltiples hijos permite múltiples actualizaciones de la política por pasada hacia adelante. Experimentos exhaustivos en modelos basados en difusión y flujos demuestran que TreeGRPO logra un entrenamiento 2.4 veces más rápido mientras establece un frente de Pareto superior en el espacio de compensación eficiencia-recompensa. Nuestro método supera consistentemente los baselines de GRPO en múltiples benchmarks y modelos de recompensa, proporcionando una vía escalable y efectiva para la alineación de modelos generativos visuales basada en RL. El sitio web del proyecto está disponible en treegrpo.github.io.
Este artículo presenta un marco modular de procesamiento neuronal de señales de imagen (ISP) que procesa datos en bruto y genera imágenes de alta calidad referidas a pantalla. A diferencia de diseños neuronales ISP anteriores, nuestro método introduce un alto grado de modularidad, proporcionando control total sobre múltiples etapas intermedias del proceso de renderizado. Este diseño modular no solo logra una alta precisión de renderizado, sino que también mejora la escalabilidad, la capacidad de depuración, la generalización a cámaras no vistas y la flexibilidad para adaptarse a diferentes estilos de preferencia del usuario. Para demostrar las ventajas de este diseño, desarrollamos una herramienta de edición fotográfica interactiva que aprovecha nuestro ISP neuronal para soportar diversas operaciones de edición y estilos de imagen. La herramienta está cuidadosamente diseñada para aprovechar el renderizado de alta calidad de nuestro ISP neuronal y permitir rerrenderizados posteriores ilimitados y editables. Nuestro método es un marco completamente basado en aprendizaje con variantes de diferentes capacidades, todas de tamaño moderado (oscilando entre ~0.5 M y ~3.9 M de parámetros para toda la pipeline), y ofrece consistentemente resultados cualitativos y cuantitativos competitivos en múltiples conjuntos de prueba. Vea el video complementario en: https://youtu.be/ByhQjQSjxVM
Los grandes modelos de lenguaje (LLM) sobresalen en generación, pero la decodificación autoregresiva (AR) dominante es inherentemente secuencial, creando un cuello de botella en el rendimiento. Los modelos de lenguaje de difusión (DLM), especialmente las variantes por bloques, permiten generación paralela y razonamiento bidireccional intra-bloque; sin embargo, entrenar grandes DLMs desde cero es costoso y desperdicia el conocimiento presente en los checkpoints AR maduros. Intentos previos de "adaptación" ya sea modifican los logits o expanden aleatoriamente las máscaras de atención hacia una difusión de secuencia completa, o simplemente trasplantan los pesos AR a una receta de difusión por bloques, dejando sin resolver una discrepancia fundamental entre la causalidad AR y la bidireccionalidad por bloques. Replanteamos la adaptación como una ruta intra-paradigma desde AR hacia Difusión por Bloques, visualizando AR como Difusión por Bloques con un tamaño de bloque=1. Concretamente, diseñamos la ruta de adaptación de la siguiente manera: utilizamos una máscara de atención causal-contextual (causal en el contexto, bidireccional solo dentro del bloque activo), un procedimiento de adaptación paralela eficiente, una pérdida AR auxiliar para maximizar la utilización de datos y retener el conocimiento preentrenado, y un incremento gradual del tamaño del bloque de generación. La receta se integra limpiamente con la difusión de bloques enmascarada y mantiene la consistencia entre entrenamiento e inferencia. Basados en estos componentes, NBDiff-7B (Base e Instruct) pudo heredar las capacidades de modelado de contexto largo y de razonamiento, y logró un rendimiento de vanguardia entre los DLMs de clase 7B, obteniendo ganancias significativas en puntos de referencia de conocimiento general, matemáticas y código sobre líneas base sólidas. Estos resultados demuestran que la adaptación principlada de AR a difusión por bloques es una alternativa efectiva y computacionalmente eficiente al entrenamiento de DLMs desde cero. Código: https://github.com/YuchuanTian/NBDiff.
La comprensión y reconstrucción de la geometría y el movimiento complejos de escenas dinámicas a partir de vídeo sigue siendo un desafío formidable en la visión por computador. Este artículo presenta D4RT, un modelo directo simple pero potente diseñado para resolver esta tarea de manera eficiente. D4RT utiliza una arquitectura unificada de transformadores para inferir conjuntamente la profundidad, la correspondencia espacio-temporal y los parámetros completos de la cámara a partir de un único vídeo. Su innovación principal es un novedoso mecanismo de consulta que evita la pesada computación de la decodificación densa por fotograma y la complejidad de gestionar múltiples decodificadores específicos para cada tarea. Nuestra interfaz de decodificación permite al modelo sondear de forma independiente y flexible la posición 3D de cualquier punto en el espacio y el tiempo. El resultado es un método ligero y altamente escalable que permite un entrenamiento e inferencia notablemente eficientes. Demostramos que nuestro enfoque establece un nuevo estado del arte, superando a métodos anteriores en un amplio espectro de tareas de reconstrucción 4D. Remitimos a la página web del proyecto para ver los resultados animados: https://d4rt-paper.github.io/.
Si bien los modelos de visión y lenguaje (VLM) recientes han mejorado la generalización en la navegación visión-lenguaje (VLN), los métodos existentes suelen depender de pipelines integrales que mapean las entradas de visión y lenguaje directamente a acciones discretas de corto alcance. Dichos diseños a menudo producen movimientos fragmentados, incurren en alta latencia y tienen dificultades con desafíos del mundo real, como la evitación dinámica de obstáculos. Proponemos DualVLN, el primer modelo base VLN de sistema dual que integra de forma sinérgica el razonamiento de alto nivel con la ejecución de acciones de bajo nivel. El Sistema 2, un planificador global basado en VLM, "se fundamenta lentamente" mediante la predicción de objetivos de puntos de referencia a medio plazo a través de un razonamiento basado en imágenes. El Sistema 1, una política de Transformador de Difusión ligera con condicionamiento multimodal, "se mueve rápidamente" aprovechando tanto objetivos de píxeles explícitos como características latentes del Sistema 2 para generar trayectorias suaves y precisas. El diseño de sistema dual permite un control robusto en tiempo real y una toma de decisiones local adaptativa en entornos complejos y dinámicos. Al desacoplar el entrenamiento, el VLM conserva su generalización, mientras que el Sistema 1 logra una navegación local interpretable y efectiva. DualVLN supera a los métodos anteriores en todos los benchmarks de VLN, y los experimentos en el mundo real demuestran una planificación robusta de largo alcance y una adaptabilidad en tiempo real en entornos dinámicos.
Los agentes de base han avanzado rápidamente en su capacidad de razonamiento e interacción con entornos reales, lo que hace que la evaluación de sus capacidades centrales sea cada vez más importante. Si bien se han desarrollado muchos puntos de referencia para evaluar el rendimiento de los agentes, la mayoría se concentra en entornos académicos o escenarios artificialmente diseñados, pasando por alto los desafíos que surgen en aplicaciones reales. Para abordar este problema, nos enfocamos en un entorno del mundo real altamente práctico: el dominio del comercio electrónico, que involucra un gran volumen de interacciones diversas de usuarios, condiciones dinámicas del mercado y tareas directamente vinculadas a procesos reales de toma de decisiones. Con este fin, presentamos EcomBench, un punto de referencia holístico de comercio electrónico diseñado para evaluar el rendimiento de los agentes en entornos realistas de comercio electrónico. EcomBench se construye a partir de demandas genuinas de usuarios integradas en los principales ecosistemas globales de comercio electrónico y está cuidadosamente curado y anotado por expertos humanos para garantizar claridad, precisión y relevancia en el dominio. Cubre múltiples categorías de tareas dentro de escenarios de comercio electrónico y define tres niveles de dificultad que evalúan a los agentes en capacidades clave como la recuperación profunda de información, el razonamiento de múltiples pasos y la integración de conocimiento de múltiples fuentes. Al basar la evaluación en contextos reales de comercio electrónico, EcomBench proporciona un banco de pruebas riguroso y dinámico para medir las capacidades prácticas de los agentes en el comercio electrónico moderno.
Los grandes modelos de razonamiento logran un alto rendimiento en tareas complejas generando cadenas de pensamiento extensas, pero a menudo "piensan demasiado": continúan razonando mucho después de tener suficiente información para responder correctamente. Esto desperdicia capacidad computacional en la inferencia y puede perjudicar la precisión. Los intentos existentes para detenerse temprano manipulan la decodificación con muestreo adicional y heurísticas, dependen de modelos verificadores auxiliares, o operan solo como pipelines de análisis post-hoc sin garantías formales. Presentamos LYNX, un mecanismo de salida temprana en línea que convierte la conciencia del estado oculto del modelo en decisiones de parada controladas por confianza. LYNX asocia decisiones de salida a indicios de razonamiento que ocurren naturalmente (ej. "hum", "espera") durante la generación, entrena un probe ligero en los estados ocultos en esos tokens indicio usando supervisión de salidas forzadas, y envuelve las puntuaciones resultantes en predicción conformal split para obtener control libre de distribución sobre las salidas prematuras. Crucialmente, entrenamos y calibramos este probe una vez en un corpus matemático genérico y lo reutilizamos sin cambios en diferentes benchmarks, temperaturas de decodificación e incluso tareas no matemáticas. En tres familias de modelos que abarcan de 1.5B a 32B parámetros, un único probe entrenado matemáticamente por modelo base produce sólidas compensaciones precisión-eficiencia. En GSM8K, LYNX iguala o mejora la precisión basal reduciendo tokens en un 40-65%; en MATH-500 mejora la precisión hasta 12 puntos con aproximadamente un 35-60% menos de tokens; en AIME 2024 recupera la precisión basal con ahorros de más del 50% en tokens; y en CommonsenseQA, un benchmark no matemático, se transfiere zero-shot con ganancias modestas de precisión y hasta un 70% menos de tokens. Comparado con los métodos state-of-the-art de salida temprana, LYNX ofrece fronteras de Pareto competitivas o superiores mientras permanece completamente en línea, no requiere modelos proxy en la inferencia y proporciona garantías de confianza explícitas y ajustables por el usuario.
El seguimiento 3D monocular tiene como objetivo capturar el movimiento a largo plazo de los píxeles en el espacio 3D a partir de un único vídeo monocular y ha experimentado un rápido progreso en los últimos años. Sin embargo, sostenemos que los métodos existentes de seguimiento 3D monocular aún no logran separar adecuadamente el movimiento de la cámara del movimiento dinámico en primer plano y no pueden realizar un seguimiento denso de los nuevos sujetos dinámicos que aparecen en los vídeos. Para abordar estas dos limitaciones, proponemos TrackingWorld, una novedosa canalización para el seguimiento 3D denso de casi todos los píxeles dentro de un sistema de coordenadas 3D céntrico en el mundo. En primer lugar, introducimos un "upsampler" de seguimiento que eleva eficientemente las pistas 2D dispersas arbitrarias a pistas 2D densas. Luego, para generalizar los métodos de seguimiento actuales a objetos de nueva aparición, aplicamos el upsampler a todos los fotogramas y reducimos la redundancia de las pistas 2D eliminando las pistas en las regiones superpuestas. Finalmente, presentamos un marco eficiente basado en optimización para reproyectar las pistas 2D densas en trayectorias 3D céntricas en el mundo, mediante la estimación de las poses de la cámara y las coordenadas 3D de estas pistas 2D. Evaluaciones exhaustivas en conjuntos de datos tanto sintéticos como del mundo real demuestran que nuestro sistema logra un seguimiento 3D preciso y denso en un marco de coordenadas céntrico en el mundo.
Los tumores cerebrales representan una amenaza significativa para la vida humana, por lo que es muy necesario detectarlos con precisión en las etapas iniciales para un mejor diagnóstico y tratamiento. Los radiólogos pueden detectar los tumores cerebrales manualmente a partir de las imágenes de resonancia magnética (IRM) de los pacientes. Sin embargo, la incidencia de tumores cerebrales ha aumentado entre niños y adolescentes en los últimos años, lo que genera un volumen sustancial de datos y, como resultado, la detección manual resulta lenta y difícil. Con el surgimiento de la inteligencia artificial en el mundo moderno y su vasta aplicación en el campo médico, podemos plantear un enfoque basado en sistemas CAD (Diagnóstico Asistido por Computadora) para la detección automática temprana de tumores cerebrales. Todos los modelos existentes para esta tarea no están completamente generalizados y tienen un rendimiento deficiente con los datos de validación. Por ello, hemos propuesto dos novedosas arquitecturas de aprendizaje profundo: (a) SAETCN (Red de Clasificación de Tumores con Mejora de Autoatención) para la clasificación de diferentes tipos de tumores cerebrales. Hemos logrado una precisión del 99.38% en el conjunto de datos de validación, lo que la convierte en una de las pocas arquitecturas novedosas basadas en aprendizaje profundo capaz de detectar tumores cerebrales con precisión. Entrenamos el modelo con un conjunto de datos que contiene imágenes de 3 tipos de tumores (glioma, meningioma y tumores pituitarios) y casos sin tumor. Y (b) SAS-Net (Red de Segmentación con Autoatención) para la segmentación precisa de tumores cerebrales. Hemos logrado una precisión global a nivel de píxel del 99.23%.
Los Modelos de Lenguaje Grandes Aumentados con Memoria (LLM) han demostrado una notable consistencia durante diálogos prolongados al almacenar recuerdos relevantes e incorporarlos como contexto. Esta personalización basada en memoria también es clave en entornos locales que permiten a los usuarios mantener sus conversaciones y datos privados. Sin embargo, los sistemas aumentados con memoria suelen depender de LLM que son demasiado costosos para su despliegue local. Aunque los Modelos de Lenguaje Pequeños (SLM) son más adecuados para la inferencia local que los LLM, no logran un rendimiento suficiente. Además, estos sistemas basados en LLM carecen de capacidades visuales nativas, lo que limita su aplicabilidad en contextos multimodales. En este artículo, presentamos (i) MemLoRA, un novedoso sistema de memoria que permite el despliegue local al equipar SLM con adaptadores de memoria especializados, y (ii) su extensión visual MemLoRA-V, que integra pequeños Modelos de Visión y Lenguaje (SVLM) en sistemas de memoria, permitiendo una comprensión visual nativa. Siguiendo principios de destilación de conocimiento, cada adaptador se entrena por separado para operaciones de memoria específicas: extracción de conocimiento, actualización de memoria y generación aumentada con memoria. Equipados con adaptadores de memoria, los modelos pequeños permiten operaciones de memoria locales precisas sin dependencia de la nube. En operaciones exclusivamente textuales, MemLoRA supera a modelos base 10 veces más grandes (p. ej., Gemma2-27B) y logra un rendimiento comparable a modelos 60 veces más grandes (p. ej., GPT-OSS-120B) en el benchmark LoCoMo. Para evaluar operaciones de comprensión visual, extendemos LoCoMo con tareas desafiantes de Respuesta a Preguntas Visuales que requieren razonamiento visual directo. En esto, nuestro MemLoRA-V integrado con VLM muestra mejoras masivas frente a enfoques basados en descripciones (81.3 vs. 23.3 de precisión) manteniendo un fuerte rendimiento en tareas basadas en texto, lo que demuestra la eficacia de nuestro método en contextos multimodales.
La Recuperación de Mallas Humanas (HMR) tiene como objetivo reconstruir la pose y la forma humana en 3D a partir de observaciones en 2D, siendo fundamental para la comprensión centrada en el ser humano en escenarios del mundo real. Si bien métodos recientes de HMR basados en imágenes, como SAM 3D Body, logran una gran robustez en imágenes in-the-wild, dependen de la inferencia por fotograma cuando se aplican a videos, lo que genera inconsistencias temporales y un rendimiento degradado ante oclusiones. Abordamos estos problemas sin entrenamiento adicional aprovechando la continuidad humana inherente en los videos. Proponemos SAM-Body4D, un marco de trabajo que no requiere entrenamiento para obtener HMR temporalmente consistente y robusto a oclusiones a partir de videos. Primero generamos máscaras consistentes en identidad utilizando un modelo de segmentación de video promptable, luego las refinamos con un módulo Consciente de la Oclusión para recuperar las regiones faltantes. Las máscaras refinadas guían a SAM 3D Body para producir trayectorias de mallas corporales completas y consistentes, mientras que una estrategia paralela basada en padding permite una inferencia eficiente para múltiples personas. Los resultados experimentales demuestran que SAM-Body4D logra una estabilidad temporal y una robustez mejoradas en videos in-the-wild desafiantes, sin necesidad de reentrenamiento. Nuestro código y demo están disponibles en: https://github.com/gaomingqi/sam-body4d.
Los sustitutos rápidos y generalizadores de geometría para flujo no estacionario siguen siendo un desafío. Presentamos una Red de Operadores Profunda (DeepONet) dependiente del tiempo y consciente de la geometría, que predice campos de velocidad para flujos con números de Reynolds moderados alrededor de formas paramétricas y no paramétricas. El modelo codifica la geometría mediante una rama principal de campo de distancia signada (SDF) y el historial de flujo mediante una rama de red neuronal convolucional (CNN), entrenado con 841 simulaciones de alta fidelidad. En formas no vistas durante el entrenamiento, alcanza un error relativo L2 de un solo paso de ∼5% y aceleraciones de hasta 1000X frente a la dinámica de fluidos computacional (CFC). Proporcionamos diagnósticos de evolución temporal centrados en la física, incluyendo error de fase en sondas y normas de divergencia, para cuantificar la fidelidad a largo plazo. Estos revelan transitorios precisos a corto plazo, pero una acumulación de error en las estelas de pequeña escala, más pronunciada en geometrías con esquinas agudas. Analizamos los modos de fallo y esbozamos mitigaciones prácticas. El código, las divisiones de datos y los scripts se publican abiertamente en: https://github.com/baskargroup/TimeDependent-DeepONet para apoyar la reproducibilidad y la evaluación comparativa.
El Splatting Gaussiano 3D (3DGS) ha surgido como una poderosa representación explícita que permite la reconstrucción 3D en tiempo real y de alta fidelidad, así como la síntesis de nuevas vistas. Sin embargo, su uso práctico se ve obstaculizado por las enormes demandas de memoria y computación necesarias para almacenar y renderizar millones de gaussianas. Estos desafíos se vuelven aún más severos en escenas dinámicas 4D. Para abordar estos problemas, el campo del Splatting Gaussiano Eficiente ha evolucionado rápidamente, proponiendo métodos que reducen la redundancia preservando la calidad de la reconstrucción. Esta revisión proporciona la primera visión unificada de las técnicas eficientes de Splatting Gaussiano en 3D y 4D. Tanto para entornos 3D como 4D, categorizamos sistemáticamente los métodos existentes en dos direcciones principales, Compresión de Parámetros y Compresión por Reestructuración, y resumimos exhaustivamente las ideas centrales y las tendencias metodológicas dentro de cada categoría. Además, cubrimos conjuntos de datos ampliamente utilizados, métricas de evaluación y comparativas representativas de benchmarks. Finalmente, discutimos las limitaciones actuales y esbozamos direcciones de investigación prometedoras hacia un Splatting Gaussiano escalable, compacto y en tiempo real para la representación de escenas 3D tanto estáticas como dinámicas.
Presentamos dos nuevos puntos de referencia, REST y REST+ (Pruebas de Estrés de Equivalencia de Renderizado), para permitir la evaluación sistemática de la inconsistencia cross-modal en los modelos de lenguaje multimodal (MLLMs). Los MLLMs se entrenan para representar la visión y el lenguaje en el mismo espacio de incrustación, sin embargo, no pueden realizar las mismas tareas en ambas modalidades. Nuestros puntos de referencia contienen muestras con la misma información semántica en tres modalidades (imagen, texto, mixta) y demostramos que los MLLMs más avanzados no pueden razonar de manera consistente sobre estas diferentes modalidades. Evaluamos 15 MLLMs y encontramos que el grado de inconsistencia modal varía sustancialmente, incluso teniendo en cuenta los problemas con el reconocimiento de texto (OCR). Ni renderizar texto como imagen ni renderizar una imagen como texto resuelve la inconsistencia. Incluso si el OCR es correcto, encontramos que las características visuales (color y resolución del texto, pero no la fuente) y el número de *tokens* visuales tienen un impacto en el rendimiento del modelo. Finalmente, encontramos que nuestra puntuación de consistencia se correlaciona con la brecha modal entre texto e imágenes, destacando una interpretación mecanicista de los MLLMs cross-modal inconsistentes.
Durante décadas, los mundos procedurales se han construido sobre funciones de ruido procedural como el ruido de Perlin, las cuales son rápidas e infinitas, pero fundamentalmente limitadas en realismo y coherencia a gran escala. Presentamos Terrain Diffusion, un sucesor de la era de la IA para el ruido de Perlin que une la fidelidad de los modelos de difusión con las propiedades que hicieron indispensable el ruido procedural: extensión infinita y sin costuras, consistencia de semilla y acceso aleatorio en tiempo constante. En su núcleo se encuentra InfiniteDiffusion, un algoritmo novedoso para generación infinita que permite la síntesis en tiempo real de paisajes ilimitados sin transiciones visibles. Una pila jerárquica de modelos de difusión combina el contexto planetario con el detalle local, mientras que una codificación Laplaciana compacta estabiliza las salidas a través de rangos dinámicos a escala terrestre. Un marco de trabajo de tensores infinitos de código abierto permite la manipulación con uso de memoria constante de tensores ilimitados, y una destilación de consistencia en pocos pasos posibilita una generación eficiente. En conjunto, estos componentes establecen a los modelos de difusión como una base práctica para la generación procedural de mundos, capaz de sintetizar planetas enteros de manera coherente, controlable y sin límites.