Artículos de investigación en IA seleccionados diariamente con traducciones
Soñamos con un futuro en el que las nubes de puntos de todos los dominios puedan unirse para dar forma a un único modelo que beneficie a todos ellos. Como paso hacia este objetivo, presentamos Utonia, un primer intento de entrenar un único codificador transformador para nubes de puntos con auto-supervisión en diversos dominios, que abarcan la teledetección, LiDAR exterior, secuencias RGB-D interiores, modelos CAD centrados en objetos y nubes de puntos generadas a partir de vídeos exclusivamente RGB. A pesar de sus distintas geometrías de captura, densidades y distribuciones previas, Utonia aprende un espacio de representación consistente que se transfiere entre dominios. Esta unificación mejora la capacidad de percepción y, al mismo tiempo, revela intrigantes comportamientos emergentes que solo surgen cuando los dominios se entrenan de forma conjunta. Más allá de la percepción, observamos que las representaciones de Utonia también pueden beneficiar el razonamiento encarnado y multimodal: condicionar políticas de visión-lenguaje-acción con las características de Utonia mejora la manipulación robótica, e integrarlas en modelos de visión y lenguaje produce mejoras en el razonamiento espacial. Esperamos que Utonia pueda servir como un paso hacia los modelos fundacionales para datos 3D dispersos y respalde aplicaciones posteriores en realidad aumentada/realidad virtual, robótica y conducción autónoma.
El mundo visual ofrece un eje crítico para avanzar más allá del lenguaje en los modelos fundacionales. A pesar del creciente interés en esta dirección, el espacio de diseño para modelos multimodales nativos sigue siendo opaco. Proporcionamos claridad empírica mediante experimentos controlados de preentrenamiento desde cero, aislando los factores que gobiernan el preentrenamiento multimodal sin interferencia del preentrenamiento lingüístico. Adoptamos el marco Transfusión, utilizando predicción del siguiente token para lenguaje y difusión para visión, para entrenar con datos diversos que incluyen texto, vídeo, pares imagen-texto e incluso vídeo condicionado por acciones. Nuestros experimentos arrojan cuatro conclusiones clave: (i) el Autoencoder de Representación (RAE) proporciona una representación visual unificada óptima al sobresalir tanto en comprensión como en generación visual; (ii) los datos visuales y lingüísticos son complementarios y producen sinergia para capacidades posteriores; (iii) el preentrenamiento multimodal unificado conduce naturalmente al modelado del mundo, emergiendo capacidades del entrenamiento general; y (iv) la Mezcla de Expertos (MoE) permite un escalado multimodal eficiente y efectivo mientras induce naturalmente especialización modal. Mediante análisis IsoFLOP, calculamos leyes de escalado para ambas modalidades y descubrimos una asimetría de escalado: la visión es significativamente más demandante de datos que el lenguaje. Demostramos que la arquitectura MoE armoniza esta asimetría de escalado al proporcionar la alta capacidad de modelo requerida por el lenguaje mientras acomoda la naturaleza intensiva en datos de la visión, allanando el camino para modelos multimodales verdaderamente unificados.
Los modelos multimodales unificados han demostrado recientemente una gran capacidad generativa, aunque sigue sin estar claro si y cuándo la generación mejora la comprensión. Los puntos de referencia existentes carecen de una exploración sistemática de las tareas específicas en las que la generación facilita la comprensión. Para ello, presentamos UniG2U-Bench, un punto de referencia integral que categoriza la evaluación de generación-comprensión (G2U) en 7 regímenes y 30 subtareas, que requieren distintos grados de transformaciones visuales implícitas o explícitas. La evaluación exhaustiva de más de 30 modelos revela tres hallazgos principales: 1) Los modelos unificados generalmente tienen un rendimiento inferior a sus Modelos de Lenguaje Visual (VLM) base, y la inferencia de Generar-y-Contestar (GtA) normalmente degrada el rendimiento en comparación con la inferencia directa. 2) Surgen mejoras consistentes en subtareas de inteligencia espacial, ilusiones visuales o razonamiento multironda, donde la percepción espacial y de formas mejorada, así como los estados de imagen intermedios multi-paso, resultan beneficiosos. 3) Las tareas con estructuras de razonamiento similares y los modelos que comparten arquitecturas exhiben comportamientos correlacionados, lo que sugiere que el acoplamiento generación-comprensión induce sesgos inductivos consistentes por clase sobre tareas, datos de preentrenamiento y arquitecturas de modelos. Estos hallazgos resaltan la necesidad de datos de entrenamiento más diversos y nuevos paradigmas para desbloquear plenamente el potencial del modelado multimodal unificado.
Presentamos Qwen3-Coder-Next, un modelo de lenguaje de código abierto especializado para agentes de programación. Qwen3-Coder-Next es un modelo de 80 mil millones de parámetros que activa únicamente 3 mil millones de parámetros durante la inferencia, logrando una sólida capacidad de codificación con una inferencia eficiente. En este trabajo, exploramos hasta qué punto las recetas de entrenamiento robustas pueden impulsar los límites de capacidad de modelos con huellas de parámetros reducidas. Para lograrlo, realizamos entrenamiento agentico mediante la síntesis a gran escala de tareas de programación verificables emparejadas con entornos ejecutables, permitiendo el aprendizaje directo a partir de la retroalimentación del entorno mediante entrenamiento intermedio y aprendizaje por refuerzo. En benchmarks centrados en agentes, como SWE-Bench y Terminal-Bench, Qwen3-Coder-Next alcanza un rendimiento competitivo en relación con su recuento de parámetros activos. Publicamos versiones de código abierto tanto base como ajustadas por instrucciones para apoyar la investigación y el desarrollo de agentes de programación en entornos reales.
Los benchmarks actuales para agentes de código evalúan principalmente correcciones específicas y limitadas a repositorios, pasando por alto desafíos críticos del mundo real como el razonamiento entre repositorios, la resolución de problemas especializados por dominio, la migración impulsada por dependencias y la generación completa de repositorios. Para abordar esta brecha, presentamos BeyondSWE, un benchmark integral que amplía las evaluaciones existentes a lo largo de dos ejes - el alcance de la resolución y el alcance del conocimiento - utilizando 500 casos reales en cuatro entornos distintos. Los resultados experimentales revelan una brecha de capacidad significativa: incluso los modelos más avanzados se estancan por debajo del 45% de éxito, y ningún modelo individual tiene un desempeño consistente entre los tipos de tareas. Para investigar sistemáticamente el rol del conocimiento externo, desarrollamos SearchSWE, un framework que integra búsqueda profunda con capacidades de codificación. Nuestros experimentos muestran que la aumentación con búsqueda produce ganancias inconsistentes y puede en algunos casos degradar el rendimiento, destacando la dificultad de emular flujos de trabajo similares a los de desarrolladores que intercalan búsqueda y razonamiento durante las tareas de codificación. Este trabajo ofrece tanto un benchmark de evaluación realista y desafiante como un framework flexible para avanzar en la investigación hacia agentes de código más capaces.
Los avances recientes en Modelos Generativos de Recompensa (GRM) han demostrado que escalar la longitud del razonamiento en cadena (CoT) mejora considerablemente la fiabilidad de la evaluación. Sin embargo, los trabajos actuales se basan predominantemente en un escalado de longitud no estructurado, ignorando la eficacia divergente de los distintos mecanismos de razonamiento: CoT de Amplitud (B-CoT, es decir, cobertura multidimensional de principios) y CoT de Profundidad (D-CoT, es decir, solidez de juicio sustantivo). Para abordar esto, presentamos Mix-GRM, un marco que reconfigura las razones primarias en B-CoT y D-CoT estructurados mediante una canalización de síntesis modular, empleando posteriormente el Fine-Tuning Supervisado (SFT) y el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) para internalizar y optimizar estos mecanismos. Experimentos exhaustivos demuestran que Mix-GRM establece un nuevo estado del arte en cinco benchmarks, superando a los principales modelos de recompensa de código abierto en un promedio del 8,2%. Nuestros resultados revelan una clara divergencia en el razonamiento: B-CoT beneficia las tareas de preferencia subjetiva, mientras que D-CoT sobresale en las tareas de corrección objetiva. En consecuencia, la desalineación del mecanismo de razonamiento con la tarea degrada directamente el rendimiento. Además, demostramos que RLVR actúa como un amplificador conmutador, induciendo una polarización emergente donde el modelo asigna espontáneamente su estilo de razonamiento para coincidir con las demandas de la tarea. Los datos y modelos sintetizados se publican en https://huggingface.co/collections/DonJoey/mix-grm, y el código se publica en https://github.com/Don-Joey/Mix-GRM.
La animación de personajes tiene como objetivo generar videos realistas transfiriendo la dinámica del movimiento desde un video conductor a una imagen de referencia. Los recientes avances en modelos generativos han allanado el camino para una animación de personajes de alta fidelidad. En este trabajo, presentamos Kling-MotionControl, un marco unificado basado en DiT diseñado específicamente para una animación de personajes holística robusta, precisa y expresiva. Aprovechando una estrategia de divide y vencerás dentro de un sistema cohesivo, el modelo orquesta representaciones de movimiento heterogéneas adaptadas a las características distintivas del cuerpo, el rostro y las manos, reconciliando efectivamente la estabilidad estructural a gran escala con la expresividad articulatoria de grano fino. Para garantizar una generalización robusta entre identidades, incorporamos un aprendizaje adaptativo independiente de la identidad, facilitando la retargeting natural del movimiento para diversos personajes, desde humanos realistas hasta dibujos animados estilizados. Simultáneamente, garantizamos una preservación fiel de la apariencia mediante diseños meticulosos de inyección y fusión de identidad, respaldados además por un mecanismo de librería de sujetos que aprovecha contextos de referencia integrales. Para asegurar la utilidad práctica, implementamos un marco de aceleración avanzado que utiliza destilación multietapa, aumentando la velocidad de inferencia en más de 10 veces. Kling-MotionControl se distingue por su comprensión semántica inteligente del movimiento y su precisa capacidad de respuesta al texto, permitiendo un control flexible más allá de las entradas visuales. Las evaluaciones de preferencia humana demuestran que Kling-MotionControl ofrece un rendimiento superior en comparación con las principales soluciones comerciales y de código abierto, logrando una fidelidad excepcional en el control holístico del movimiento, la generalización en dominios abiertos, y la calidad visual y la coherencia. Estos resultados establecen a Kling-MotionControl como una solución robusta para una animación de personajes de alta calidad, controlable y realista.
Los Modelos de Lenguaje Grandes (LLM) se despliegan cada vez más en dominios socialmente sensibles, pero sus comportamientos impredecibles, que van desde intenciones desalineadas hasta personalidades inconsistentes, plantean riesgos significativos. Presentamos SteerEval, un benchmark jerárquico para evaluar la capacidad de control de los LLM en tres dominios: características lingüísticas, sentimiento y personalidad. Cada dominio se estructura en tres niveles de especificación: L1 (qué expresar), L2 (cómo expresar) y L3 (cómo instanciar), conectando la intención conductual de alto nivel con la salida textual concreta. Utilizando SteerEval, evaluamos sistemáticamente métodos contemporáneos de direccionamiento, revelando que el control a menudo se degrada en los niveles más detallados. Nuestro benchmark ofrece un marco interpretable y basado en principios para un comportamiento de LLM seguro y controlable, sirviendo como base para futuras investigaciones.
La edición de vídeo basada en instrucciones ha experimentado un rápido progreso, aunque los métodos actuales a menudo presentan dificultades para un control visual preciso, ya que el lenguaje natural es inherentemente limitado para describir matices visuales complejos. Si bien la edición guiada por referencia ofrece una solución robusta, su potencial se ve actualmente limitado por la escasez de datos de entrenamiento pareados de alta calidad. Para salvar esta brecha, presentamos un pipeline escalable de generación de datos que transforma pares existentes de edición de vídeo en cuartetos de entrenamiento de alta fidelidad, aprovechando modelos generativos de imágenes para crear andamios de referencia sintetizados. Utilizando este pipeline, construimos RefVIE, un conjunto de datos a gran escala diseñado para tareas de seguimiento de instrucciones y referencias, y establecemos RefVIE-Bench para una evaluación exhaustiva. Además, proponemos una arquitectura de edición unificada, Kiwi-Edit, que sinergiza consultas aprendibles y características visuales latentes para la guía semántica de referencia. Nuestro modelo logra mejoras significativas en el seguimiento de instrucciones y la fidelidad a la referencia mediante un plan de entrenamiento progresivo multi-etapa. Experimentos exhaustivos demuestran que nuestros datos y arquitectura establecen un nuevo estado del arte en la edición de vídeo controlable. Todos los conjuntos de datos, modelos y código se publican en https://github.com/showlab/Kiwi-Edit.
La captura de dependencias temporales es crucial para el aprendizaje por refuerzo basado en modelos (MBRL) en dominios parcialmente observables y de alta dimensionalidad. Presentamos NE-Dreamer, un agente MBRL sin decodificador que utiliza un transformador temporal para predecir las incrustaciones del codificador del siguiente paso a partir de secuencias de estados latentes, optimizando directamente la alineación predictiva temporal en el espacio de representación. Este enfoque permite a NE-Dreamer aprender representaciones de estado coherentes y predictivas sin pérdidas de reconstrucción ni supervisión auxiliar. En DeepMind Control Suite, NE-Dreamer iguala o supera el rendimiento de DreamerV3 y de los principales agentes sin decodificador. En un subconjunto desafiante de tareas de DMLab que involucran memoria y razonamiento espacial, NE-Dreamer logra mejoras sustanciales. Estos resultados establecen la predicción de incrustaciones siguientes con transformadores temporales como un marco efectivo y escalable para MBRL en entornos complejos y parcialmente observables.
Los métodos DEEPTHINK mejoran el razonamiento mediante la generación, el refinamiento y la agregación de poblaciones de soluciones candidatas, lo que permite un alto rendimiento en tareas matemáticas y científicas complejas. Sin embargo, los marcos existentes a menudo carecen de señales de corrección confiables durante la inferencia, lo que crea un cuello de botella en la mejora de la población donde una deliberación más profunda amplifica los errores, suprime las soluciones minoritarias correctas y produce rendimientos decrecientes al aumentar el cómputo. En este artículo, presentamos una descomposición funcional de los sistemas DEEPTHINK y proponemos PRISM, un algoritmo de inferencia guiado por un Modelo de Recompensa de Procesos (PRM) que utiliza verificación a nivel de paso para guiar tanto el refinamiento de la población como la agregación de soluciones. Durante el refinamiento, PRISM trata las soluciones candidatas como partículas en un paisaje energético definido por el PRM y remodela la población mediante remuestreo guiado por puntuación y refinamiento estocástico, lo que concentra la masa de probabilidad en razonamientos de mayor calidad mientras preserva la diversidad. En diversos puntos de referencia matemáticos y científicos, PRISM es competitivo o supera a los métodos DEEPTHINK existentes, alcanzando 90.0%, 75.4% y 71.4% con gpt-oss-20b en AIME25, HMMT25 y GPQA Diamond, respectivamente, mientras iguala o supera a gpt-oss-120b. Adicionalmente, nuestro análisis muestra que PRISM produce una corrección neta direccional consistente durante el refinamiento, mantiene su fiabilidad cuando la población inicial contiene pocos candidatos correctos y a menudo se sitúa en la frontera de Pareto de cómputo-precisión.
A medida que los modelos de lenguaje grande (LLM) avanzan en sus capacidades matemáticas hacia el nivel de la Olimpiada Internacional de Matemáticas (IMO), la escasez de problemas desafiantes y de alta calidad para entrenamiento y evaluación se ha convertido en un cuello de botella significativo. Simultáneamente, los agentes de código recientes han demostrado habilidades sofisticadas en programación agentiva y razonamiento, lo que sugiere que la ejecución de código puede servir como un entorno escalable para la experimentación matemática. En este artículo, investigamos el potencial de los agentes de código para evolucionar autónomamente problemas matemáticos existentes hacia variaciones más complejas. Introducimos un marco multiagente diseñado para realizar la evolución de problemas mientras valida la resolubilidad y la mayor dificultad de los problemas generados. Nuestros experimentos demuestran que, dada una exploración suficiente en tiempo de prueba, los agentes de código pueden sintetizar nuevos problemas resolubles que son estructuralmente distintos y más desafiantes que los originales. Este trabajo proporciona evidencia empírica de que los agentes basados en código pueden servir como un mecanismo viable para sintetizar problemas de razonamiento matemático de alta dificultad dentro de entornos computacionales escalables. Nuestros datos están disponibles en https://github.com/TarferSoul/Code2Math.
El razonamiento humano a menudo implica trabajar con información limitada para llegar a conclusiones probabilísticas. En su forma más simple, esto implica hacer una inferencia que no se deduce estrictamente de una premisa, sino que solo es probable dada la premisa. Si bien los LLMs de razonamiento han demostrado un alto rendimiento en tareas lógicas y matemáticas, su comportamiento en este tipo de inferencias abiertas y no deterministas sigue siendo en gran medida inexplorado. Presentamos ProbCOPA, un conjunto de datos de 210 inferencias probabilísticas elaboradas manualmente en inglés, cada una anotada con la probabilidad de inferencia por 25-30 participantes humanos. Encontramos que las respuestas humanas son graduales y variadas, revelando juicios probabilísticos sobre las inferencias en nuestro conjunto de datos. Al comparar estos juicios con las respuestas de ocho LLMs de razonamiento de vanguardia, mostramos que los modelos consistentemente fallan en producir distribuciones similares a las humanas. Finalmente, al analizar las cadenas de razonamiento de los LLMs, encontramos evidencia de un patrón de razonamiento común utilizado para evaluar dichas inferencias. Nuestros hallazgos revelan diferencias persistentes entre humanos y LLMs, y subrayan la necesidad de evaluar el razonamiento más allá de entornos deterministas.
Los modelos de lenguaje agentes operan en un régimen de seguridad fundamentalmente diferente al de los modelos de chat: deben planificar, invocar herramientas y ejecutar acciones de largo horizonte, donde un solo paso en falso, como acceder a archivos o introducir credenciales, puede causar un daño irreversible. Los métodos de alineación existentes, optimizados en gran medida para la generación estática y la finalización de tareas, fallan en estos entornos debido a la toma de decisiones secuencial, la retroalimentación adversarial de herramientas y el razonamiento intermedio sobreconfiado. Presentamos MOSAIC, un marco de post-entrenamiento que alinea a los agentes para un uso seguro de herramientas multi-etapa, haciendo que las decisiones de seguridad sean explícitas y aprendibles. MOSAIC estructura la inferencia como un bucle de planificar, verificar, luego actuar o rechazar, con un razonamiento de seguridad explícito y el rechazo como acciones de primera clase. Para entrenar sin etiquetas a nivel de trayectoria, utilizamos el aprendizaje por refuerzo basado en preferencias con comparaciones por pares de trayectorias, lo que captura distinciones de seguridad que a menudo pasan desapercibidas para las recompensas escalares. Evaluamos MOSAIC de forma zero-shot en tres familias de modelos, Qwen2.5-7B, Qwen3-4B-Thinking y Phi-4, y en benchmarks fuera de distribución que abarcan tareas dañinas, inyección de prompts, uso benigno de herramientas y fugas de privacidad entre dominios. MOSAIC reduce el comportamiento dañino hasta en un 50%, aumenta el rechazo de tareas dañinas en más de un 20% en ataques de inyección, reduce las fugas de privacidad y preserva o mejora el rendimiento en tareas benignas, demostrando una generalización robusta entre modelos, dominios y configuraciones agentes.
Estimar la trayectoria 3D de cada píxel a partir de un vídeo monocular es crucial y prometedor para una comprensión integral de la dinámica 3D de los vídeos. Los trabajos recientes de seguimiento 3D monocular demuestran un rendimiento impresionante, pero se limitan a rastrear puntos dispersos en el primer fotograma o a un marco de trabajo lento basado en optimización para el seguimiento denso. En este artículo, proponemos un modelo de propagación directa, denominado Track4World, que permite un seguimiento 3D holístico y eficiente de cada píxel en el sistema de coordenadas céntrico en el mundo. Basado en la representación global de la escena 3D codificada por un ViT de estilo VGGT, Track4World aplica un novedoso esquema de correlación 3D para estimar simultáneamente el flujo denso 2D y 3D a nivel de píxel entre pares de fotogramas arbitrarios. El flujo de escena estimado, junto con la geometría 3D reconstruida, permite el posterior seguimiento 3D eficiente de cada píxel de este vídeo. Experimentos exhaustivos en múltiples benchmarks demuestran que nuestro enfoque supera consistentemente a los métodos existentes en la estimación de flujo 2D/3D y el seguimiento 3D, destacando su robustez y escalabilidad para tareas de reconstrucción 4D en entornos reales.
Reinterpretamos la capa softmax final del Modelo de Lenguaje Grande (LLM) como un Modelo Basado en Energía (EBM), descomponiendo la cadena de probabilidad secuencia-a-secuencia en múltiples EBMs que interactúan durante la inferencia. Este enfoque basado en principios nos permite rastrear las "fugas de energía" durante la decodificación, las cuales mostramos empíricamente que se correlacionan con errores fácticos, sesgos y fallos. De manera similar a Orgad et al. (2025), nuestro método localiza el *token* de respuesta exacto y posteriormente prueba si hay alucinaciones. Sin embargo, y esto es crucial, lo logramos sin necesidad de clasificadores *probe* entrenados o ablaciones de activaciones. En su lugar, introducimos dos métricas completamente libres de entrenamiento derivadas directamente de los *logits* de salida: la *energía fugada*, que captura la discrepancia entre los valores de energía en pasos de generación consecutivos que teóricamente deberían coincidir, y la *energía marginalizada*, que es medible en un solo paso. Evaluado en nueve *benchmarks* con modelos LLM de última generación (incluyendo LLaMA, Mistral y Gemma) y en operaciones algebraicas sintéticas (Qwen3), nuestro enfoque demuestra una detección de alucinaciones robusta y competitiva, así como una generalización transversal a tareas. Cabe destacar que estos resultados se mantienen tanto para variantes preentrenadas como ajustadas por instrucción, sin introducir ninguna sobrecarga computacional de entrenamiento. Código disponible en: github.com/OmnAI-Lab/spilled-energy
La mejora de las capacidades de razonamiento de los Modelos de Lenguaje a Gran Escala (LLMs) mediante el post-entrenamiento suele verse limitada por la disyuntiva entre eficiencia y el olvido catastrófico. Si bien investigaciones previas enfatizan el papel de los datos *on-policy* para mitigar el olvido, nosotros descubrimos —y validamos tanto teórica como empíricamente— un mecanismo crítico pero pasado por alto: la regularización implícita inherente a la estimación de recompensa de la Optimización Directa de Preferencias (DPO). Esto motiva nuestro Post-Entrenamiento Quirúrgico (SPoT), un nuevo paradigma diseñado para optimizar el razonamiento de manera eficiente mientras se preserva el conocimiento previo aprendido. SPoT consta de: (1) un pipeline de rectificación de datos que emplea un Oráculo para corregir quirúrgicamente los pasos erróneos mediante ediciones mínimas, generando datos próximos a la distribución del modelo; y (2) un objetivo de entropía cruzada binaria basado en recompensas. A diferencia del ranking relativo en DPO, este objetivo trata la corrección del razonamiento como un problema de clasificación binaria, aplicando señales de supervisión desacopladas. Empíricamente, con solo 4k pares de datos matemáticos rectificados, SPoT mejora la precisión de Qwen3-8B en un 6.2% en promedio en tareas internas y externas al dominio, requiriendo apenas 28 minutos de entrenamiento en 8 GPUs H800. Código: https://github.com/Visual-AI/SPoT
Los modelos de texto a imagen han avanzado rápidamente en realismo y controlabilidad, con enfoques recientes que aprovegan descripciones largas y detalladas para respaldar una generación de grano fino. Sin embargo, persiste una brecha paramétrica fundamental: los modelos existentes dependen del lenguaje descriptivo, mientras que los flujos de trabajo profesionales requieren un control numérico preciso sobre la ubicación, el tamaño y el color de los objetos. En este trabajo, presentamos BBQ, un modelo de texto a imagen a gran escala que se condiciona directamente sobre cuadros delimitadores numéricos y tripletes RGB dentro de un marco unificado de texto estructurado. Obtenemos un control espacial y cromático preciso mediante el entrenamiento con descripciones enriquecidas con anotaciones paramétricas, sin modificaciones arquitectónicas u optimización en el momento de la inferencia. Esto también permite interfaces de usuario intuitivas, como el arrastre de objetos y selectores de color, que reemplazan las indicaciones iterativas ambiguas con controles precisos y familiares. En evaluaciones exhaustivas, BBQ logra una fuerte alineación con los cuadros delimitadores y mejora la fidelidad del color RGB respecto a los mejores baselines actuales. En términos más amplios, nuestros resultados respaldan un nuevo paradigma en el que la intención del usuario se traduce a un lenguaje estructurado intermedio, consumido por un transformador basado en flujos que actúa como un renderizador y acomoda naturalmente los parámetros numéricos.
Las solicitudes de usuarios del mundo real a los agentes de LLM a menudo están subespecificadas. Los agentes deben interactuar para adquirir la información faltante y tomar decisiones posteriores correctas. Sin embargo, los métodos actuales basados en GRPO de múltiples turnos a menudo dependen del cálculo de recompensas a nivel de trayectoria, lo que genera problemas de asignación de crédito y señales de ventaja insuficientes dentro de los grupos de ejecución. Un enfoque viable es identificar turnos de interacción valiosos con un grano fino para impulsar un aprendizaje más dirigido. Para abordar esto, presentamos InfoPO (Optimización de Políticas Impulsada por Información), que enmarca la interacción de múltiples turnos como un proceso de reducción activa de la incertidumbre y calcula una recompensa de ganancia de información que acredita los turnos cuya retroalimentación cambia mensurablemente la distribución de acciones posteriores del agente en comparación con un contrafactual de retroalimentación enmascarada. Luego, combina esta señal con los resultados de la tarea mediante una fusión adaptativa con compuerta de varianza para identificar la importancia de la información manteniendo al mismo tiempo la dirección orientada a la tarea. En diversas tareas, incluyendo la clarificación de intenciones, la codificación colaborativa y la toma de decisiones aumentada con herramientas, InfoPO supera consistentemente a los métodos de prompting y a los baselines de RL de múltiples turnos. También demuestra robustez ante cambios en el simulador de usuario y generaliza eficazmente a tareas de interacción con el entorno. En general, InfoPO proporciona un mecanismo fundamentado y escalable para optimizar la compleja colaboración agente-usuario. El código está disponible en https://github.com/kfq20/InfoPO.
Los modelos recientes de edición de vídeo han logrado resultados impresionantes, pero la mayoría aún requiere conjuntos de datos pareados a gran escala. La recopilación de tales pares naturalmente alineados a escala sigue siendo un desafío importante y constituye un cuello de botella crítico, especialmente para datos locales de edición de vídeo. Las soluciones existentes transfieren la edición de imágenes a vídeo mediante control de movimiento global para una edición sin pares, pero estos diseños tienen dificultades con la coherencia temporal y del fondo. En este artículo, proponemos NOVA: Control Escaso y Síntesis Densa, un nuevo marco para la edición de vídeo no pareado. Específicamente, la rama escasa proporciona guía semántica a través de fotogramas clave editados por el usuario distribuidos a lo largo del vídeo, y la rama densa incorpora continuamente información de movimiento y textura del vídeo original para mantener alta fidelidad y coherencia. Además, introducimos una estrategia de entrenamiento por simulación de degradación que permite al modelo aprender la reconstrucción de movimiento y la coherencia temporal entrenando con vídeos artificialmente degradados, eliminando así la necesidad de datos pareados. Nuestros extensos experimentos demuestran que NOVA supera a los enfoques existentes en fidelidad de edición, preservación del movimiento y coherencia temporal.
Los modelos Visión-Lenguaje-Acción (VLA) representan una vía prometedora hacia la inteligencia embodada, aunque a menudo pasan por alto la estructura predictiva y temporal-causal subyacente a la dinámica visual. Los VLA de modelo del mundo abordan esto prediciendo fotogramas futuros, pero desperdician capacidad reconstruyendo fondos redundantes. Los VLA de acciones latentes codifican de forma compacta las transiciones entre fotogramas, pero carecen de un modelado dinámico temporalmente continuo y de conocimiento del mundo. Para superar estas limitaciones, presentamos CoWVLA (Chain-of-World VLA), un nuevo paradigma de "Cadena del Mundo" que unifica el razonamiento temporal del modelo del mundo con una representación de movimiento latente desentrelazada. Primero, un VAE de vídeo preentrenado actúa como extractor de movimiento latente, factorizando explícitamente segmentos de vídeo en latentes de estructura y movimiento. Luego, durante el preentrenamiento, el VLA aprende a partir de una instrucción y un fotograma inicial para inferir una cadena de movimiento latente continua y predecir el fotograma terminal del segmento. Finalmente, durante el ajuste fino conjunto, esta dinámica latente se alinea con la predicción de acciones discretas modelando conjuntamente fotogramas clave dispersos y secuencias de acciones en un decodificador autorregresivo unificado. Este diseño preserva los beneficios del modelo del mundo (razonamiento temporal y conocimiento del mundo) mientras mantiene la compacidad e interpretabilidad de las acciones latentes, permitiendo un aprendizaje visuomotor eficiente. Experimentos exhaustivos en benchmarks de simulación robótica muestran que CoWVLA supera a los enfoques existentes de modelo del mundo y acciones latentes y logra una eficiencia computacional moderada, destacando su potencial como paradigma de preentrenamiento VLA más efectivo. El sitio web del proyecto puede encontrarse en https://fx-hit.github.io/cowvla-io.
La transición de los Grandes Modelos de Lenguaje (LLM) de herramientas exploratorias a "sujetos de silicio" activos en las ciencias sociales carece de una validación extensa de su validez operativa. Este estudio introduce la Predicción de Comentarios Condicionada (CCP), una tarea en la que un modelo predice cómo un usuario comentaría sobre un estímulo dado mediante la comparación de salidas generadas con huellas digitales auténticas. Este marco permite una evaluación rigurosa de las capacidades actuales de los LLM con respecto a la simulación del comportamiento de usuarios en redes sociales. Evaluamos modelos abiertos de 8B parámetros (Llama3.1, Qwen3, Ministral) en escenarios en inglés, alemán y luxemburgués. Mediante la comparación sistemática de estrategias de *prompting* (explícito vs. implícito) y el impacto del Ajuste Supervisado (SFT), identificamos un desacoplamiento crítico entre forma y contenido en entornos de bajos recursos: mientras que el SFT alinea la estructura superficial de la salida de texto (longitud y sintaxis), degrada el anclaje semántico. Además, demostramos que el condicionamiento explícito (biografías generadas) se vuelve redundante bajo el ajuste fino, ya que los modelos realizan con éxito inferencia latente directamente a partir de historiales de comportamiento. Nuestros hallazgos desafían los paradigmas actuales de "*prompting* ingenuo" y ofrecen pautas operativas que priorizan las huellas conductuales auténticas sobre las descripciones de personalidad para una simulación de alta fidelidad.
La unificación del aprendizaje de representaciones visuales y la generación de texto a imagen (T2I) en un único modelo sigue siendo un desafío central en el aprendizaje multimodal. Presentamos DREAM, un marco unificado que optimiza conjuntamente objetivos discriminativos y generativos, mientras aprende representaciones visuales sólidas. DREAM se basa en dos técnicas clave: Durante el entrenamiento, el *Masking Warmup*, un programa de enmascaramiento progresivo, comienza con un enmascaramiento mínimo para establecer la alineación contrastiva necesaria para el aprendizaje de representaciones, y luego transita gradualmente hacia un enmascaramiento total para un entrenamiento generativo estable. En la inferencia, DREAM emplea el *Semantically Aligned Decoding* para alinear candidatos de imagen parcialmente enmascarados con el texto objetivo y seleccionar el mejor para un decodificado posterior, mejorando la fidelidad texto-imagen (+6.3%) sin rerankers externos. Entrenado únicamente con CC12M, DREAM alcanza un 72.7% de precisión en *linear-probing* en ImageNet (+1.1% sobre CLIP) y un FID de 4.25 (+6.2% sobre FLUID), con ganancias consistentes en clasificación *few-shot*, segmentación semántica y estimación de profundidad. Estos resultados demuestran que los objetivos discriminativos y generativos pueden ser sinérgicos, permitiendo modelos multimodales unificados que sobresalen tanto en comprensión visual como en generación.
El descubrimiento científico automatizado con modelos de lenguaje grandes está transformando el ciclo de vida de la investigación desde la ideación hasta la experimentación, aunque los agentes existentes tienen dificultades para procesar autónomamente datos brutos recopilados de experimentos científicos. Presentamos SciDER, un sistema integral centrado en datos que automatiza el ciclo de investigación. A diferencia de los marcos tradicionales, nuestros agentes especializados analizan y procesan colaborativamente datos científicos brutos, generan hipótesis y diseños experimentales basados en características específicas de los datos, y redactan y ejecutan el código correspondiente. La evaluación en tres benchmarks demuestra que SciDER sobresale en el descubrimiento científico especializado basado en datos y supera a agentes de propósito general y modelos de última generación mediante su memoria de auto-evolución y su bucle de retroalimentación dirigido por críticos. Distribuido como un paquete modular de Python, también proporcionamos paquetes PyPI fáciles de usar con una interfaz web ligera para acelerar la investigación autónoma basada en datos, con el objetivo de ser accesible para todos los investigadores y desarrolladores.
La Guía Libre de Clasificador (CFG) ha surgido como un enfoque central para mejorar la alineación semántica en los modelos de difusión basados en flujos. En este artículo, exploramos un marco unificado llamado CFG-Ctrl, que reinterpreta CFG como un control aplicado al flujo generativo continuo de primer orden, utilizando la discrepancia condicional-incondicional como una señal de error para ajustar el campo de velocidad. Desde esta perspectiva, resumimos la CFG estándar como un controlador proporcional (control-P) con ganancia fija, y las variantes típicas posteriores desarrollan diseños de leyes de control extendidas derivadas de ella. Sin embargo, los métodos existentes se basan principalmente en control lineal, lo que conduce inherentemente a inestabilidad, sobreimpulso y degradación de la fidelidad semántica, especialmente en escalas de guía grandes. Para abordar esto, introducimos CFG con Control por Modos Deslizantes (SMC-CFG), que fuerza al flujo generativo hacia una variedad deslizante de convergencia rápida. Específicamente, definimos una superficie de modo deslizante exponencial sobre el error de predicción semántica e introducimos un término de control conmutado para establecer una corrección guiada por retroalimentación no lineal. Además, proporcionamos un análisis de estabilidad de Lyapunov para respaldar teóricamente la convergencia en tiempo finito. Los experimentos en modelos de generación de texto a imagen, incluyendo Stable Diffusion 3.5, Flux y Qwen-Image, demuestran que SMC-CFG supera a la CFG estándar en alineación semántica y mejora la robustez en un amplio rango de escalas de guía. Página del proyecto: https://hanyang-21.github.io/CFG-Ctrl
A medida que los Modelos de Lenguaje a Gran Escala (LLM) saturan los puntos de referencia elementales, la frontera de la investigación se ha desplazado de la generación a la fiabilidad de la evaluación automatizada. Demostramos que los protocolos estándar de "LLM-como-Juez" sufren una Brecha de Alineamiento sistemática cuando se aplican a matemáticas de nivel universitario avanzado a posgrado inicial. Para cuantificar esto, presentamos QEDBench, el primer punto de referencia de alineamiento de doble rúbrica a gran escala diseñado para medir sistemáticamente la alineación con expertos humanos en pruebas matemáticas de nivel universitario, contrastando rúbricas específicas de cursos con criterios de conocimiento común de expertos. Mediante el despliegue de una matriz de evaluación dual (7 jueces x 5 solvers) frente a más de 1.000 horas de evaluación humana, revelamos que ciertos evaluadores de vanguardia como Claude Opus 4.5, DeepSeek-V3, Qwen 2.5 Max y Llama 4 Maverick exhiben un sesgo positivo significativo (con una inflación media de puntuación de hasta +0.18, +0.20, +0.30 y +0.36, respectivamente). Además, descubrimos una brecha crítica de razonamiento en el dominio discreto: mientras que Gemini 3.0 Pro alcanza un rendimiento de vanguardia (puntuación media de evaluación humana de 0.91), otros modelos de razonamiento como GPT-5 Pro y Claude Sonnet 4.5 ven su rendimiento degradarse significativamente en dominios discretos. Específicamente, sus puntuaciones medias de evaluación humana descienden a 0.72 y 0.63 en Matemáticas Discretas, y a 0.74 y 0.50 en Teoría de Grafos. Además de estos resultados de investigación, también publicamos QEDBench como un punto de referencia público para evaluar y mejorar los jueces de IA. Nuestro benchmark está publicado públicamente en https://github.com/qqliu/Yale-QEDBench.
Los sistemas multiagente (MAS) impulsados por modelos de lenguaje grande (LLM) coordinan agentes especializados mediante topologías de interacción predefinidas y han mostrado potencial para tareas complejas como la generación de código a nivel competitivo. Estudios recientes demuestran que los flujos de trabajo multiagente y los grafos de comunicación cuidadosamente diseñados pueden mejorar significativamente el rendimiento en generación de código mediante el razonamiento colaborativo. Sin embargo, los métodos existentes no adaptan la densidad de la topología a la dificultad de la tarea ni refinan iterativamente la topología dentro de una instancia utilizando retroalimentación de ejecución, lo que genera comunicación redundante y cuellos de botella en el rendimiento. Para abordar estos problemas, proponemos AgentConductor: un MAS optimizado por aprendizaje por refuerzo con un agente orquestador basado en LLM como núcleo, que permite la generación dinámica de topologías de interacción impulsada por retroalimentación de extremo a extremo. Para cada consulta, AgentConductor infiere los roles de los agentes y la dificultad de la tarea, luego construye una topología de grafo acíclico dirigido (DAG) en capas adaptada a la tarea y consciente de la densidad, respaldada por dos innovaciones clave. Primero, diseñamos una novedosa función de densidad topológica que captura caracterizaciones matemáticas conscientes de la comunicación para las interacciones multiagente. Segundo, adoptamos la partición por intervalos de dificultad para evitar una poda excesiva, permitiendo una medición precisa del límite superior de densidad topológica por nivel de dificultad y un control más granular. Empíricamente, en tres conjuntos de datos de código a nivel competitivo y dos fundamentales, AgentConductor logra una precisión de vanguardia, superando al baseline más fuerte hasta en un 14.6% en precisión pass@1, un 13% en reducción de densidad y un 68% en reducción de coste de tokens.
Los modelos de lenguaje a gran escala exhiben capacidades sofisticadas, sin embargo, comprender su funcionamiento interno sigue siendo un desafío central. Un obstáculo fundamental es que el entrenamiento selecciona por comportamiento, no por circuitos, por lo que muchas configuraciones de pesos pueden implementar la misma función. ¿Qué estructuras internas reflejan el cómputo y cuáles son accidentes de una ejecución de entrenamiento particular? Este trabajo extrae núcleos algorítmicos: subespacios compactos necesarios y suficientes para el rendimiento en la tarea. Transformadores entrenados de forma independiente aprenden pesos diferentes pero convergen a los mismos núcleos. Los transformadores de cadena de Markov incorporan núcleos 3D en subespacios casi ortogonales, pero recuperan espectros de transición idénticos. Los transformadores de adición modular descubren operadores cíclicos compactos durante el "grokking" que luego se inflan, produciendo un modelo predictivo de la transición de memorización a generalización. Los modelos de lenguaje GPT-2 gobiernan la concordancia sujeto-verbo a través de un único eje que, al invertirse, cambia el número gramatical en toda la generación a través de las escalas. Estos resultados revelan invariantes de baja dimensión que persisten a través de ejecuciones de entrenamiento y escalas, lo que sugiere que los cómputos del transformador se organizan alrededor de estructuras algorítmicas compactas y compartidas. La interpretabilidad mecanicista podría beneficiarse de apuntar a tales invariantes —la esencia computacional— en lugar de a detalles específicos de la implementación.
La transición de la computación secuencial a la paralela es esencial para las aplicaciones modernas de alto rendimiento, pero se ve obstaculizada por la pronunciada curva de aprendizaje de la programación concurrente. Este desafío se magnifica para las estructuras de datos irregulares (como grafos dispersos, árboles desbalanceados y mallas no uniformes) donde la planificación estática falla y las dependencias de datos son impredecibles. Los modelos de lenguaje grandes actuales a menudo fracasan catastróficamente en estas tareas, generando código plagado de condiciones de carrera sutiles, interbloqueos y escalado subóptimo. Cerramos esta brecha con ParEVO, un marco diseñado para sintetizar algoritmos paralelos de alto rendimiento para datos irregulares. Nuestras contribuciones incluyen: (1) El Corpus Parlay-Instruct, un conjunto de datos curado de 13.820 tareas sintetizadas mediante una canalización "Crítico-Refinamiento" que filtra explícitamente algoritmos empíricamente eficaces que utilizan eficientemente las primitivas paralelas Trabajo-Intervalo; (2) modelos especializados de DeepSeek, Qwen y Gemini ajustados para alinear la generación probabilística con la semántica rigurosa de la biblioteca ParlayLib; y (3) un Agente de Codificación Evolutivo que mejora la "última milla" de la corrección mediante la reparación iterativa del código utilizando retroalimentación de compiladores, detectores dinámicos de condiciones de carrera y generadores de perfiles de rendimiento. En el benchmark ParEval, ParEVO logra una aceleración promedio de 106x (con un máximo de 1103x) en toda la suite, y una aceleración robusta de 13.6x específicamente en problemas complejos de grafos irregulares, superando a los modelos comerciales más avanzados. Además, nuestro enfoque evolutivo iguala las líneas de base humanas expertas más avanzadas, logrando hasta una aceleración de 4.1x en núcleos altamente irregulares específicos. El código fuente y los conjuntos de datos están disponibles en https://github.com/WildAlg/ParEVO.
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) ha logrado un éxito notable en la mejora de modelos autorregresivos, especialmente en dominios que requieren corrección como el razonamiento matemático y la generación de código. Sin embargo, la aplicación directa de tales paradigmas a los Modelos de Lenguaje de Gran Escala de Difusión (dLLMs) se ve fundamentalmente obstaculizada por la intratabilidad del cálculo exacto de la verosimilitud, lo que obliga a los métodos existentes a depender de aproximaciones de alta varianza. Para salvar esta brecha, proponemos la Optimización de Políticas Libre de Verosimilitud (LFPO), un marco nativo que traslada el concepto de ajuste de flujo de campos vectoriales al espacio discreto de tokens. Específicamente, LFPO formula la alineación como una rectificación geométrica de velocidad, que optimiza directamente los logits de eliminación de ruido mediante actualizaciones contrastivas. Este diseño evita eficazmente los errores inherentes a la aproximación de verosimilitud, produciendo una estimación de gradiente precisa. Además, LFPO impone consistencia al predecir soluciones finales a partir de pasos intermedios, enderezando efectivamente el flujo de probabilidad para permitir una generación de alta calidad con significativamente menos iteraciones. Experimentos exhaustivos demuestran que LFPO no solo supera a los métodos de referencia más avanzados en benchmarks de código y razonamiento, sino que también acelera la inferencia en aproximadamente un 20% mediante la reducción de pasos de difusión.
Las arquitecturas Mixture-of-Experts (MoE) han surgido como un paradigma poderoso para escalar redes neuronales manteniendo la eficiencia computacional. Sin embargo, las implementaciones estándar de MoE se basan en dos supuestos de diseño rígidos: (1) el enrutamiento Top-K fijo, donde se activan exactamente K expertos por token, y (2) la asignación uniforme de expertos en todas las capas. Este artículo presenta DynaMoE, un novedoso marco MoE que relaja ambas restricciones mediante una activación dinámica de expertos a nivel de token y una asignación de capacidad adaptativa por capas. DynaMoE introduce un mecanismo de enrutamiento fundamentado donde el número de expertos activos por token varía según la complejidad de la entrada. Concurrentemente, el marco implementa seis estrategias de programación distintas para distribuir la capacidad de los expertos a lo largo de la profundidad de la red, incluyendo patrones descendentes, ascendentes, piramidales y de onda. Analizamos teóricamente las ganancias de expresividad del enrutamiento dinámico y derivamos límites sobre la eficiencia computacional. A través de extensos experimentos en MNIST, Fashion-MNIST, CIFAR-10 (clasificación de imágenes) y Recycling-the-Web (modelado de lenguaje) a través de múltiples escalas de modelos, demostramos que DynaMoE logra una eficiencia de parámetros superior en comparación con los baselines estáticos. Nuestro hallazgo clave es que las programaciones óptimas de expertos dependen de la tarea y la escala: las programaciones descendentes (concentrando capacidad en las primeras capas) superan a los baselines uniformes en clasificación de imágenes. Para el modelado de lenguaje, las programaciones óptimas varían según el tamaño del modelo, siendo descendente para Tiny, ascendente para Small y uniforme para Medium. Además, el enrutamiento dinámico reduce la varianza del gradiente durante el entrenamiento, conduciendo a una estabilidad de convergencia mejorada. DynaMoE establece un nuevo marco para la computación adaptable en redes neuronales, proporcionando una guía fundamentada para el diseño de arquitecturas MoE.
Los descubrimientos científicos deben comunicarse con claridad para alcanzar su máximo potencial. Sin una comunicación efectiva, incluso los hallazgos más revolucionarios corren el riesgo de ser pasados por alto o malinterpretados. La principal forma en que los científicos comunican su trabajo y reciben comentarios de la comunidad es a través de la revisión por pares. Sin embargo, el sistema actual a menudo proporciona comentarios inconsistentes entre los revisores, lo que en última instancia dificulta la mejora de un manuscrito y limita su impacto potencial. En este artículo, presentamos un método novedoso, APRES, impulsado por Modelos de Lenguaje a Gran Escala (LLMs), para actualizar el texto de artículos científicos basándose en una rúbrica de evaluación. Nuestro método automatizado descubre una rúbrica altamente predictiva de los recuentos futuros de citas y la integra con APRES en un sistema automatizado que revisa los artículos para mejorar su calidad e impacto. Crucialmente, este objetivo debe lograrse sin alterar el contenido científico central. Demostramos el éxito de APRES, que mejora la predicción de citas futuras en un 19.6% en el error promedio absoluto sobre la mejor línea base existente, y mostramos que nuestro proceso de revisión de artículos produce documentos que son preferidos sobre los originales por evaluadores expertos humanos el 79% de las veces. Nuestros hallazgos proporcionan un sólido respaldo empírico para el uso de LLMs como herramienta para ayudar a los autores a someter sus manuscritos a pruebas de estrés antes de su envío. En última instancia, nuestro trabajo busca aumentar, no reemplazar, el papel esencial de los revisores expertos humanos, pues deben ser los humanos quienes discernían qué descubrimientos importan realmente, guiando a la ciencia hacia el avance del conocimiento y el enriquecimiento de la vida.
El desaprendizaje automático, que permite a un modelo olvidar datos específicos, es crucial para garantizar la privacidad de los datos y la fiabilidad del modelo. Sin embargo, su eficacia puede verse gravemente socavada en escenarios del mundo real donde los modelos aprenden sesgos no deseados a partir de correlaciones espurias dentro de los datos. Este artículo investiga los desafíos únicos de desaprender a partir de dichos modelos sesgados. Identificamos un fenómeno novedoso que denominamos "desaprendizaje de atajos", donde los modelos exhiben una tendencia "fácil de aprender, pero difícil de olvidar". Específicamente, los modelos tienen dificultades para olvidar muestras fáciles de aprender y alineadas con el sesgo; en lugar de olvidar el atributo de clase, desaprenden el atributo de sesgo, lo que paradójicamente puede mejorar la precisión en la clase que se pretendía olvidar. Para abordar esto, proponemos CUPID, un nuevo marco de desaprendizaje inspirado en la observación de que las muestras con diferentes sesgos exhiben una nitidez distinta del paisaje de pérdidas. Nuestro método primero divide el conjunto a olvidar en subconjuntos aproximados de causal y sesgo basándose en la nitidez de las muestras, luego desentrelaza los parámetros del modelo en vías causales y de sesgo, y finalmente realiza una actualización dirigida enrutando gradientes refinados de causal y sesgo a sus respectivas vías. Experimentos exhaustivos en conjuntos de datos sesgados, incluidos Waterbirds, BAR y Biased NICO++, demuestran que nuestro método logra un rendimiento de olvido state-of-the-art y mitiga efectivamente el problema del desaprendizaje de atajos.
La convolución dinámica espacialmente variable proporciona un enfoque fundamentado para integrar la adaptabilidad espacial en redes neuronales profundas. Sin embargo, los diseños predominantes en segmentación médica generan comúnmente núcleos dinámicos mediante average pooling, lo que implícitamente colapsa los detalles espaciales de alta frecuencia en una representación comprimida espacialmente y tosca, conduciendo a predicciones sobresuavizadas que degradan la fidelidad de las estructuras clínicas de grano fino. Para abordar esta limitación, proponemos un novedoso mecanismo de Convolución Dinámica Guiada por Estructura (SGDC), que aprovecha una rama de extracción de estructura explícitamente supervisada para guiar la generación de núcleos dinámicos y señales de gating para una modulación de características consciente de la estructura. Específicamente, la información de alta fidelidad de los límites procedente de esta rama auxiliar se fusiona con las características semánticas para permitir una modulación de características espacialmente precisa. Al reemplazar la agregación de contexto con una guía estructural pixel a pixel, el diseño propuesto evita efectivamente la pérdida de información introducida por el average pooling. Los resultados experimentales muestran que SGDC logra un rendimiento de vanguardia en los conjuntos de datos ISIC 2016, PH2, ISIC 2018 y CoNIC, ofreciendo una fidelidad de límites superior al reducir la Distancia de Hausdorff (HD95) en 2.05 y proporcionando ganancias consistentes de IoU del 0.99%-1.49% sobre las líneas base basadas en pooling. Además, el mecanismo exhibe un fuerte potencial de extensión a otras tareas de visión de grano fino y sensibles a la estructura, como la detección de objetos pequeños, ofreciendo una solución fundamentada para preservar la integridad estructural en el análisis de imágenes médicas. Para facilitar la reproducibilidad y fomentar la investigación futura, el código de implementación de nuestros módulos SGE y SGDC ha sido liberado públicamente en https://github.com/solstice0621/SGDC.
A pesar de sus impresionantes capacidades, los modelos actuales de Texto a Imagen (T2I) siguen siendo propensos a generar contenido inseguro y tóxico. Si bien la activación dirigida (activation steering) ofrece una intervención prometedora en tiempo de inferencia, observamos que esta técnica lineal frecuentemente degrada la calidad de la imagen cuando se aplica a instrucciones benignas. Para abordar esta disyuntiva, primero construimos SafeSteerDataset, un conjunto de datos contrastivo que contiene 2300 pares de instrucciones seguras e inseguras con alta similitud de coseno. Aprovechando estos datos, proponemos Conditioned Activation Transport (CAT), un marco de trabajo que emplea un mecanismo de condicionamiento basado en geometría y mapas de transporte no lineales. Al condicionar los mapas de transporte para que se activen únicamente dentro de las regiones de activación inseguras, minimizamos la interferencia con las consultas benignas. Validamos nuestro enfoque en dos arquitecturas de vanguardia: Z-Image e Infinity. Los experimentos demuestran que CAT se generaliza eficazmente en estos modelos base, reduciendo significativamente la Tasa de Éxito de Ataque mientras mantiene la fidelidad de la imagen en comparación con las generaciones sin intervención. Advertencia: Este artículo contiene texto e imágenes potencialmente ofensivos.
Los recientes avances en los modelos de lenguaje de gran tamaño (LLM) han permitido el desarrollo de asistentes de chat cada vez más capaces. Sin embargo, la mayoría de los sistemas existentes se centran en entornos de usuario único y no se generalizan bien a chats grupales con múltiples usuarios, donde los agentes requieren una intervención más proactiva y precisa en contextos complejos y en evolución. Los enfoques existentes suelen depender de los LLM tanto para el razonamiento como para la generación, lo que conlleva un alto consumo de tokens, una escalabilidad limitada y posibles riesgos de privacidad. Para abordar estos desafíos, proponemos GroupGPT, un marco agéntico eficiente en tokens y que preserva la privacidad para asistentes de chat multiusuario. GroupGPT adopta una arquitectura colaborativa de modelos pequeños y grandes para desacoplar el momento de la intervención de la generación de respuestas, permitiendo una toma de decisiones eficiente y precisa. El marco también admite entradas multimodales, incluyendo memes, imágenes, vídeos y mensajes de voz. Además, presentamos MUIR, un conjunto de datos de referencia para el razonamiento de intervención de asistentes de chat multiusuario. MUIR contiene 2.500 segmentos de chat grupal anotados con etiquetas de intervención y justificaciones, lo que permite evaluar la precisión del momento de intervención y la calidad de la respuesta. Evaluamos una variedad de modelos en MUIR, desde grandes modelos de lenguaje hasta versiones más pequeñas. Experimentos exhaustivos demuestran que GroupGPT produce respuestas precisas y bien temporizadas, logrando una puntuación media de 4.72/5.0 en evaluaciones basadas en LLM, y es bien recibido por los usuarios en diversos escenarios de chat grupal. Además, GroupGPT reduce el uso de tokens hasta 3 veces en comparación con métodos base, al tiempo que proporciona un saneamiento de la privacidad de los mensajes de los usuarios antes de su transmisión a la nube. El código está disponible en: https://github.com/Eliot-Shen/GroupGPT.
Presentamos Whisper-RIR-Mega, un conjunto de datos de referencia de habla limpia y reverberante emparejada para evaluar la robustez del reconocimiento automático del habla (ASR) frente a la acústica ambiental. Cada muestra empareja un segmento de habla limpia de LibriSpeech con el mismo segmento convolucionado con una respuesta al impulso de sala real del corpus RIR-Mega, con divisiones estratificadas por tiempo de reverberación (RT60) y relación directo-reverberante (DRR). Evaluamos cinco modelos Whisper (desde tiny hasta large-v3) en 1600 muestras de prueba y reportamos la tasa de error por palabra (WER) y la tasa de error por carácter (CER) en condiciones limpias y reverberantes. La reverberación degrada consistentemente el rendimiento en todos los tamaños de modelo; la penalización por reverberación en WER oscila entre 0.12 y 1.07 puntos porcentuales según el modelo. Publicamos el conjunto de datos, el código de evaluación y los resultados de referencia para apoyar la investigación reproducible en ASR robusto.
El discurso de odio sutil e indirecto sigue siendo un desafío poco explorado en la investigación sobre seguridad en línea, particularmente cuando la intención dañina se incrusta en narrativas engañosas o manipuladoras. Los conjuntos de datos existentes sobre discurso de odio capturan principalmente la toxicidad explícita, subrepresentando las formas matizadas en que la desinformación puede incitar o normalizar el odio. Para abordar esta brecha, presentamos HateMirage, un novedoso conjunto de datos de comentarios de Falso Odio diseñado para avanzar en la investigación sobre razonamiento y explicabilidad del odio emergente de narrativas falsas o distorsionadas. El conjunto de datos se construyó identificando afirmaciones de desinformación ampliamente desacreditadas a partir de fuentes de verificación de datos y rastreando debates relacionados en YouTube, resultando en 4.530 comentarios de usuarios. Cada comentario está anotado a lo largo de tres dimensiones interpretables: Objetivo (quién es afectado), Intención (la motivación o objetivo subyacente detrás del comentario) e Implicación (su impacto social potencial). A diferencia de conjuntos de datos de explicabilidad anteriores como HateXplain y HARE, que ofrecen un razonamiento a nivel de token o unidimensional, HateMirage introduce un marco de explicación multidimensional que captura la interacción entre la desinformación, el daño y la consecuencia social. Evaluamos múltiples modelos de lenguaje de código abierto en HateMirage utilizando ROUGE-L F1 y similitud de Sentence-BERT para evaluar la coherencia de las explicaciones. Los resultados sugieren que la calidad de la explicación podría depender más de la diversidad del preentrenamiento y de los datos orientados al razonamiento que únicamente de la escala del modelo. Al acoplar el razonamiento sobre desinformación con la atribución de daño, HateMirage establece un nuevo punto de referencia para la detección de odio interpretable y la investigación en IA responsable.
La adaptación de políticas en tiempo de prueba para interacciones multiturno (T2PAM) es esencial para alinear los Modelos de Lenguaje Grandes (LLM) con las necesidades dinámicas del usuario durante el tiempo de inferencia. Sin embargo, los paradigmas existentes comúnmente tratan la adaptación en tiempo de prueba como un problema de un solo eje, ya sea refinando únicamente las instrucciones (Ingeniería de Prompt) o ajustando solo los pesos (Entrenamiento en Tiempo de Prueba), ignorando que los fallos de interacción provienen de una mezcla acoplada de ambigüedad e incapacidad. Sostenemos que estas dos vías de optimización no son meramente aditivas, sino sinérgicas: la claridad semántica actúa como un preacondicionador para las actualizaciones efectivas de parámetros. Para ello, proponemos ROSA2, un marco que reformula la interacción como un problema de optimización conjunta sobre el espacio heterogéneo de Palabras y Pesos. Al descomponer matemáticamente la señal de error, ROSA2 utiliza gradientes textuales para rectificar la ambigüedad de la intención y actualizaciones de parámetros para salvar las brechas de capacidad. Teóricamente, demostramos que esta co-adaptación reduce estrictamente el desplazamiento de parámetros requerido para la convergencia. Empíricamente, ROSA2 supera a los métodos de referencia más avanzados en un 30% en MATH mientras reduce los turnos de interacción en un 40%, demostrando que refinar el contexto desbloquea el verdadero potencial de las actualizaciones de parámetros.
Los Modelos de Lenguaje Grandes de Video (VLLMs, por sus siglas en inglés) demuestran una sólida comprensión de video, pero adolecen de ineficiencia debido a tokens visuales redundantes. Los métodos de poda existentes se centran principalmente en la redundancia espacial intra-frame o realizan la poda dentro del LLM con una sobrecarga de capas superficiales, lo que da lugar a una reducción espacio-temporal subóptima y no aprovecha suficientemente la compresibilidad del contexto largo. Todos ellos suelen descartar contextos sutiles pero informativos de los tokens fusionados o podados. En este artículo, proponemos una nueva perspectiva que elabora Anclas de tokens tanto intra-frame como inter-frame para agregar de manera integral los contextos informativos mediante Transporte Óptimo local-global (AOT). Específicamente, primero establecemos anclas de tokens conscientes de lo local y lo global dentro de cada frame bajo la guía de la atención, las cuales luego agregan, mediante transporte óptimo, los contextos informativos de los tokens podados, construyendo así anclas de tokens intra-frame. Luego, partiendo de clips de frames temporales, el primer frame dentro de cada clip se considera como las anclas del frame clave para ensamblar información similar de frames consecutivos a través del transporte óptimo, manteniendo al mismo tiempo tokens distintos para representar la dinámica temporal, lo que conduce a una reducción eficiente de tokens sin necesidad de entrenamiento. Evaluaciones exhaustivas muestran que nuestro AOT propuesto obtiene rendimientos competitivos en varios benchmarks de video corto y largo en los principales VLLMs, logrando una eficiencia computacional sustancial mientras preserva la fidelidad temporal y visual. Página web del proyecto: https://tyroneli.github.io/AOT{AOT}.
Se presenta un framework de código abierto en C++ para descubrir esquemas rápidos de multiplicación de matrices utilizando el enfoque del grafo de inversión. El framework admite múltiples anillos de coeficientes — binario (Z_2), ternario modular (Z_3) y ternario entero (Z_T = {-1,0,1}) — e implementa operadores de búsqueda de dimensión fija y meta-dimensional. Utilizando una codificación eficiente a nivel de bits para los vectores de coeficientes y paralelismo OpenMP, las herramientas permiten una exploración a gran escala en hardware estándar. El estudio abarca 680 esquemas que van desde (2 × 2 × 2) hasta (16 × 16 × 16), con 276 esquemas ahora en coeficientes Z_T y 117 en coeficientes enteros. Con este framework, se mejora la complejidad multiplicativa (rango) para 79 esquemas de multiplicación de matrices. Destaca el descubrimiento de un nuevo esquema 4 × 4 × 10 que requiere solo 115 multiplicaciones, logrando ω ≈ 2.80478 y superando el exponente de Strassen para este tamaño específico. Adicionalmente, se redescubren 93 esquemas en coeficientes ternarios que solo se conocían previamente sobre racionales o enteros, y 68 esquemas en coeficientes enteros que antes requerían fracciones. Todas las herramientas y esquemas descubiertos se ponen a disposición pública para permitir una investigación reproducible.
La preentrenamiento multidisciplinar de grafos integra conocimiento de diversos dominios para mejorar el rendimiento en los dominios objetivo, lo cual es crucial para construir modelos de base para grafos. A pesar del éxito inicial, las soluciones existentes a menudo no logran responder a una pregunta fundamental: ¿cómo se integra o transfiere el conocimiento entre dominios? Esta limitación teórica nos motiva a repensar la consistencia y transferibilidad entre el preentrenamiento del modelo y la adaptación de dominio. En este artículo, proponemos una nueva perspectiva de geometría riemanniana, cuya idea central es fusionar cualquier conjunto de datos de grafos en una variedad de Riemann unificada y suave, permitiendo una comprensión sistemática de la integración y transferencia de conocimiento. Para lograrlo, nuestra contribución clave es el establecimiento teórico del pegado de variedades neuronales, que primero caracteriza la geometría local utilizando un marco ortogonal adaptativo y luego "une" las piezas locales en un todo coherente. Sobre esta base teórica, presentamos el framework GraphGlue, que admite preentrenamiento por lotes con prototipado EMA y proporciona una medida de transferibilidad basada en la consistencia geométrica. Experimentos exhaustivos demuestran su rendimiento superior en diversos dominios de grafos. Además, validamos empíricamente la ley de escalamiento geométrico de GraphGlue, mostrando que mayores cantidades de conjuntos de datos mejoran la transferibilidad del modelo al producir una variedad más suave. Los códigos están disponibles en https://github.com/RiemannGraph/GraphGlue.
El trazado de rayos se ha convertido en un estándar para el modelado preciso de la propagación de radio, pero sufre de una complejidad computacional exponencial, ya que el número de trayectorias candidatas escala con el número de objetos elevado al orden de interacción. Este cuello de botella limita su uso en aplicaciones a gran escala o en tiempo real, lo que obliga a las herramientas tradicionales a depender de heurísticas para reducir el número de trayectorias candidatas a costa de una precisión potencialmente reducida. Para superar esta limitación, proponemos un marco integral asistido por aprendizaje automático que reemplaza la búsqueda exhaustiva de trayectorias con un muestreo inteligente mediante Generative Flow Networks. La aplicación de tales modelos generativos en este dominio presenta desafíos significativos, particularmente recompensas dispersas debido a la rareza de las trayectorias válidas, lo que puede conducir a fallos de convergencia y soluciones triviales al evaluar interacciones de alto orden en entornos complejos. Para garantizar un aprendizaje robusto y una exploración eficiente, nuestro marco incorpora tres componentes arquitectónicos clave. Primero, implementamos un búfer de recuperación de experiencias para capturar y retener trayectorias válidas raras. Segundo, adoptamos una política de exploración uniforme para mejorar la generalización y evitar que el modelo se sobreajuste a geometrías simples. Tercero, aplicamos una estrategia de enmascaramiento de acciones basada en física que filtra las trayectorias físicamente imposibles antes de que el modelo siquiera las considere. Como se demuestra en nuestra validación experimental, el modelo propuesto logra aceleraciones sustanciales sobre la búsqueda exhaustiva – hasta 10 veces más rápido en GPU y 1000 veces más rápido en CPU – manteniendo una alta precisión de cobertura y descubriendo exitosamente trayectorias de propagación complejas. El código fuente completo, las pruebas y el tutorial están disponibles en https://github.com/jeertmans/sampling-paths.