Artículos de investigación en IA seleccionados diariamente con traducciones
Este artículo aborda la investigación profunda de final abierto (OEDR, por sus siglas en inglés), un desafío complejo en el que los agentes de IA deben sintetizar información a gran escala de la web en informes perspicaces. Los enfoques actuales están plagados de limitaciones duales: pipelines de investigación estáticos que desacoplan la planificación de la adquisición de evidencia y paradigmas de generación en una sola pasada que sufren fácilmente problemas de fallos en contextos largos, como la "pérdida en el medio" y las alucinaciones. Para abordar estos desafíos, presentamos WebWeaver, un marco de trabajo de doble agente que emula el proceso de investigación humano. El planificador opera en un ciclo dinámico, intercalando iterativamente la adquisición de evidencia con la optimización del esquema para producir un esquema completo y fundamentado en fuentes, vinculado a un banco de memoria de evidencia. El escritor luego ejecuta un proceso jerárquico de recuperación y redacción, componiendo el informe sección por sección. Al realizar una recuperación dirigida de solo la evidencia necesaria del banco de memoria para cada parte, mitiga eficazmente los problemas de contexto largo. Nuestro marco establece un nuevo estado del arte en los principales puntos de referencia de OEDR, incluyendo DeepResearch Bench, DeepConsult y DeepResearchGym. Estos resultados validan nuestra metodología iterativa y centrada en el ser humano, demostrando que la planificación adaptativa y la síntesis enfocada son cruciales para producir informes de alta calidad, confiables y bien estructurados.
Los modelos de lenguaje de gran escala (LLMs) han evolucionado hacia sistemas agentes capaces de utilizar herramientas de forma autónoma y realizar razonamientos multi-paso para la resolución de problemas complejos. Sin embargo, los enfoques de post-entrenamiento basados en modelos base de propósito general muestran un rendimiento consistentemente inferior en tareas agentes, particularmente en implementaciones de código abierto. Identificamos la causa raíz: la ausencia de modelos base agentes robustos obliga a los modelos durante el post-entrenamiento a aprender simultáneamente comportamientos agentes diversos mientras los alinean con demostraciones expertas, creando así tensiones fundamentales de optimización. Con este fin, somos los primeros en proponer incorporar el Pre-entrenamiento Continuo Agente (Agentic CPT) en la pipeline de entrenamiento de agentes de investigación profunda para construir modelos base agentes potentes. Basándonos en este enfoque, desarrollamos un modelo de agente de investigación profunda llamado AgentFounder. Evaluamos nuestro AgentFounder-30B en 10 benchmarks y logramos un rendimiento de vanguardia mientras conserva una fuerte capacidad de uso de herramientas, destacando un 39.9% en BrowseComp-en, 43.3% en BrowseComp-zh y 31.5% Pass@1 en HLE.
Superar las limitaciones cognitivas humanas representa una frontera crítica en el entrenamiento de modelos de lenguaje grandes (LLM). Sistemas agentes propietarios como DeepResearch han demostrado capacidades sobrehumanas en puntos de referencia extremadamente complejos de búsqueda de información, como BrowseComp, un logro previamente inalcanzable. Postulamos que su éxito depende de un patrón de razonamiento sofisticado ausente en los modelos de código abierto: la capacidad de reducir sistemáticamente la incertidumbre extrema al navegar por vastos paisajes de información. Basándonos en esta idea, presentamos WebSailor, una metodología completa de posentrenamiento diseñada para inculcar esta capacidad crucial. Nuestro enfoque implica generar tareas novedosas de alta incertidumbre mediante muestreo estructurado y ofuscación de información, inicio en frío con RFT (Reinforcement Fine-Tuning), y un algoritmo eficiente de entrenamiento RL (Reinforcement Learning) agente, Optimización de Política de Muestreo Duplicado (DUPO). Con esta canalización integrada, WebSailor supera significativamente a todos los agentes de código abierto en tareas complejas de búsqueda de información, igualando el rendimiento de los agentes propietarios y cerrando la brecha de capacidades.
La inteligencia agentica avanzada es un requisito previo para implementar modelos de lenguaje de gran escala en aplicaciones prácticas del mundo real. Las diversas API del mundo real exigen una inteligencia de llamada a funciones precisa y robusta, lo que requiere que los agentes desarrollen estas capacidades a través de la interacción en entornos variados. La amplitud de la competencia en llamadas a funciones está estrechamente ligada a la diversidad de entornos en los que se entrenan los agentes. En este trabajo, escalamos los entornos como un paso hacia el avance de la inteligencia agentica general. Esto da lugar a dos desafíos centrales: (i) cómo escalar los entornos de manera fundamentada, y (ii) cómo entrenar eficazmente las capacidades agenticas a partir de las experiencias derivadas de las interacciones con estos entornos. Para abordarlos, diseñamos un marco escalable que construye automáticamente entornos heterogéneos completamente simulados, ampliando sistemáticamente el espacio de escenarios de llamadas a funciones. Además, adaptamos una estrategia de ajuste fino de agentes en dos fases: primero dotando a los agentes de capacidades agenticas fundamentales, y luego especializándolos para contextos específicos de dominio. Experimentos extensos en puntos de referencia agenticos, tau-bench, tau2-Bench y ACEBench, demuestran que nuestro modelo entrenado, AgentScaler, mejora significativamente la capacidad de llamada a funciones de los modelos.
Los recientes avances en sistemas de investigación profunda han demostrado el potencial de los agentes de IA para descubrir y sintetizar conocimiento de manera autónoma a partir de fuentes externas. En este artículo, presentamos WebResearcher, un marco novedoso para construir dichos agentes a través de dos componentes clave: (1) WebResearcher, un paradigma de investigación profunda iterativa que reformula la investigación profunda como un Proceso de Decisión de Markov, donde los agentes consolidan periódicamente hallazgos en informes en evolución mientras mantienen espacios de trabajo enfocados, superando la asfixia contextual y la contaminación por ruido que afectan a los enfoques mono-contextuales existentes; y (2) WebFrontier, un motor de síntesis de datos escalable que genera datos de entrenamiento de alta calidad mediante la escalada de complejidad aumentada por herramientas, permitiendo la creación sistemática de tareas de investigación que cierran la brecha entre la recuperación pasiva de conocimiento y la construcción activa de conocimiento. Cabe destacar que encontramos que los datos de entrenamiento de nuestro paradigma mejoran significativamente las capacidades de uso de herramientas incluso para los métodos mono-contextuales tradicionales. Además, nuestro paradigma escala naturalmente a través del pensamiento paralelo, permitiendo la exploración concurrente de múltiples agentes para obtener conclusiones más completas. Experimentos extensos en 6 benchmarks desafiantes demuestran que WebResearcher logra un rendimiento de vanguardia, superando incluso a sistemas propietarios de frontera.
Los agentes web basados en modelos de lenguaje de gran escala (LLM) demuestran un rendimiento sólido en tareas intensivas en conocimiento, pero se ven limitados por las restricciones de la ventana de contexto en paradigmas como ReAct. Las consultas complejas que involucran múltiples entidades, relaciones entrelazadas y alta incertidumbre requieren ciclos de búsqueda extensos que agotan rápidamente el presupuesto de contexto antes de alcanzar soluciones completas. Para superar este desafío, presentamos ReSum, un paradigma novedoso que permite una exploración indefinida mediante la resumización periódica del contexto. ReSum convierte historias de interacción crecientes en estados de razonamiento compactos, manteniendo la conciencia de descubrimientos previos mientras evita las limitaciones del contexto. Para la adaptación del paradigma, proponemos ReSum-GRPO, que integra GRPO con entrenamiento de trayectorias segmentadas y difusión de ventajas para familiarizar a los agentes con el razonamiento condicionado por resúmenes. Experimentos extensos en agentes web de diversas escalas en tres benchmarks demuestran que ReSum ofrece una mejora absoluta promedio del 4.5\% sobre ReAct, con ganancias adicionales de hasta el 8.2\% tras el entrenamiento con ReSum-GRPO. Notablemente, con solo 1K muestras de entrenamiento, nuestro WebResummer-30B (una versión entrenada con ReSum-GRPO de WebSailor-30B) alcanza un 33.3\% en Pass@1 en BrowseComp-zh y un 18.3\% en BrowseComp-en, superando a los agentes web de código abierto existentes.
Revisitamos la optimización de gradiente de políticas para Modelos de Lenguaje de Gran Escala (LLMs) desde una perspectiva de flujo único. Los métodos predominantes basados en grupos, como GRPO, reducen la varianza mediante líneas base calculadas sobre la marcha, pero adolecen de fallos críticos: los grupos degenerados frecuentes eliminan las señales de aprendizaje, y las barreras de sincronización dificultan la escalabilidad. Introducimos la Optimización de Políticas de Flujo Único (SPO), que elimina estos problemas por diseño. SPO reemplaza las líneas base por grupo con un rastreador de valor persistente y adaptable a KL, y normaliza las ventajas globalmente a través del lote, proporcionando una señal de aprendizaje estable y de baja varianza para cada muestra. Al no depender de grupos, SPO permite un mayor rendimiento y escala eficazmente en entornos de horizonte largo o con integración de herramientas, donde los tiempos de generación varían. Además, el rastreador de valor persistente habilita naturalmente un currículo adaptativo mediante muestreo prioritario. Los experimentos con Qwen3-8B muestran que SPO converge de manera más suave y alcanza una mayor precisión que GRPO, al tiempo que elimina el cómputo desperdiciado en grupos degenerados. Los estudios de ablación confirman que las mejoras de SPO se derivan de su enfoque fundamentado en la estimación de líneas base y la normalización de ventajas, ofreciendo un camino más robusto y eficiente para el razonamiento en LLMs. En cinco benchmarks difíciles de matemáticas con Qwen3 8B, SPO mejora el promedio maj@32 en +3.4 puntos porcentuales (pp) sobre GRPO, impulsado por ganancias absolutas sustanciales en conjuntos de datos desafiantes, incluyendo +7.3 pp en BRUMO 25, +4.4 pp en AIME 25, +3.3 pp en HMMT 25, y logra una ganancia relativa consistente en pass@k a través de los valores de k evaluados. El éxito de SPO cuestiona la tendencia predominante de añadir complejidad incidental a los algoritmos de RL, destacando un camino donde los principios fundamentales, no las soluciones arquitectónicas, impulsan la próxima ola de progreso en el razonamiento de LLMs.
La creación de activos 3D de alta calidad, un pilar fundamental del desarrollo de juegos moderno, ha estado tradicionalmente marcada por flujos de trabajo laboriosos y altamente especializados. Este artículo presenta Hunyuan3D Studio, una plataforma de creación de contenido impulsada por IA de extremo a extremo, diseñada para revolucionar la producción de juegos mediante la automatización y optimización de la generación de activos 3D listos para su uso. En su núcleo, Hunyuan3D Studio integra un conjunto de módulos neuronales avanzados (como Generación 3D a nivel de partes, Generación de polígonos, UV semántico, entre otros) en un sistema cohesivo y fácil de usar. Este marco unificado permite la transformación rápida de una única imagen conceptual o descripción textual en un modelo 3D completamente realizado, de calidad de producción, con geometría optimizada y texturas PBR de alta fidelidad. Demostramos que los activos generados por Hunyuan3D Studio no solo son visualmente atractivos, sino que también cumplen con los estrictos requisitos técnicos de los motores de juegos contemporáneos, reduciendo significativamente el tiempo de iteración y disminuyendo la barrera de entrada para la creación de contenido 3D. Al proporcionar un puente fluido desde la intención creativa hasta el activo técnico, Hunyuan3D Studio representa un avance significativo en los flujos de trabajo asistidos por IA para el desarrollo de juegos y medios interactivos.
Presentamos un modelo de visión y lenguaje consciente de Regiones Espaciales 3D (SR-3D) que conecta imágenes 2D de vista única y datos 3D multivista a través de un espacio compartido de tokens visuales. SR-3D admite indicaciones flexibles de regiones, permitiendo a los usuarios anotar regiones con cuadros delimitadores, máscaras de segmentación en cualquier fotograma o directamente en 3D, sin necesidad de un etiquetado exhaustivo en múltiples fotogramas. Logramos esto enriqueciendo las características visuales 2D con incrustaciones posicionales 3D, lo que permite al modelo 3D aprovechar fuertes prioridades 2D para un razonamiento espacial más preciso entre fotogramas, incluso cuando los objetos de interés no coinciden en la misma vista. Experimentos extensos tanto en benchmarks generales de visión y lenguaje 2D como en benchmarks especializados de espacialidad 3D demuestran que SR-3D alcanza un rendimiento de vanguardia, destacando su efectividad para unificar los espacios de representación 2D y 3D en la comprensión de escenas. Además, observamos aplicabilidad en videos en entornos naturales sin entradas sensoriales 3D o anotaciones 3D de referencia, donde SR-3D infiere con precisión relaciones espaciales y mediciones métricas.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han avanzado recientemente el campo de la Demostración Automática de Teoremas (ATP, por sus siglas en inglés), logrando mejoras sustanciales en el rendimiento mediante estrategias de escalado ampliamente adoptadas durante la fase de prueba, destacándose el razonamiento reflexivo de Cadena de Pensamiento (CoT, por sus siglas en inglés) y el aumento de pasadas de muestreo. Sin embargo, ambas estrategias introducen una sobrecarga computacional significativa durante la inferencia. Además, los análisis de costos existentes suelen regular únicamente el número de pasadas de muestreo, pasando por alto las disparidades sustanciales en los costos de muestreo introducidos por diferentes estrategias de escalado. En este artículo, comparamos sistemáticamente la eficiencia de diversas estrategias de escalado durante la prueba para modelos de ATP y demostramos la ineficiencia de los enfoques de código abierto más avanzados (SOTA, por sus siglas en inglés) actuales. Luego, investigamos enfoques para reducir significativamente el uso de tokens y las pasadas de muestreo mientras mantenemos el rendimiento original. Específicamente, proponemos dos métodos complementarios que pueden integrarse en una canalización unificada de EconRL para obtener beneficios amplificados: (1) un mecanismo de conmutación dinámica de Cadena de Pensamiento (CoT) diseñado para mitigar el consumo innecesario de tokens, y (2) Aprendizaje por Refuerzo (RL, por sus siglas en inglés) paralelo-escalado diverso con prefijos entrenables para mejorar las tasas de aprobación bajo pasadas de muestreo restringidas. Los experimentos en miniF2F y ProofNet demuestran que nuestro EconProver alcanza un rendimiento comparable a los métodos de referencia con solo el 12% del costo computacional. Este trabajo proporciona ideas prácticas para implementar modelos de ATP livianos sin sacrificar el rendimiento.
Presentamos un reemplazo simple, completamente correcto y con pocas suposiciones para el controvertido "extensión de dominio" en el Paso 9 de un algoritmo reciente de retículo QFT ventaneado con ventanas gaussianas complejas~chen2024quantum. El Paso~9 publicado sufre de una discrepancia entre periodicidad y soporte. Proponemos una construcción de diferencia por desplazamiento de pares que cancela coherentemente todos los desplazamientos desconocidos, produce un estado exacto de cosete CRT uniforme sobre Z_{P}, y luego utiliza la QFT para imponer la relación lineal modular prevista. La unitaria es reversible, utiliza puertas poli(log M_2), y preserva las asintóticas del algoritmo. Página del proyecto: https://github.com/yifanzhang-pro/quantum-lattice.
El razonamiento multimodal sigue siendo un desafío fundamental en la inteligencia artificial. A pesar de los avances significativos en el razonamiento basado en texto, incluso los modelos más avanzados, como GPT-3, tienen dificultades para mantener un rendimiento sólido en escenarios multimodales. Para abordar esta brecha, presentamos un marco de razonamiento asistido por subtítulos que efectivamente conecta las modalidades visual y textual. Nuestro enfoque obtuvo el primer lugar en el ICML 2025 AI for Math Workshop & Challenge 2: SeePhys, destacando su eficacia y robustez. Además, validamos su generalización en el benchmark MathVerse para el razonamiento geométrico, demostrando la versatilidad de nuestro método. Nuestro código está disponible públicamente en https://github.com/OpenDCAI/SciReasoner.
Recientemente, los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han captado una atención significativa en diversos dominios. Sin embargo, su adopción generalizada también ha planteado serias preocupaciones de seguridad. En este artículo, descubrimos un nuevo riesgo de seguridad en los MLLMs: la preferencia de salida de los MLLMs puede ser manipulada arbitrariamente mediante imágenes cuidadosamente optimizadas. Dichos ataques suelen generar respuestas contextualmente relevantes pero sesgadas, que no son abiertamente dañinas ni poco éticas, lo que dificulta su detección. Específicamente, presentamos un método novedoso, denominado Secuestro de Preferencias (Phi), para manipular las preferencias de respuesta de los MLLMs utilizando una imagen con preferencias secuestradas. Nuestro método opera en tiempo de inferencia y no requiere modificaciones en el modelo. Además, introducimos una perturbación universal de secuestro, un componente transferible que puede integrarse en diferentes imágenes para redirigir las respuestas de los MLLMs hacia las preferencias especificadas por el atacante. Los resultados experimentales en diversas tareas demuestran la eficacia de nuestro enfoque. El código de Phi está disponible en https://github.com/Yifan-Lan/Phi.
La digitalización de imágenes patológicas en imágenes de diapositivas completas (WSI, por sus siglas en inglés) de gigapíxeles ha abierto nuevas vías para la Patología Computacional (CPath). Dado que el tejido positivo constituye solo una pequeña fracción de las WSI de gigapíxeles, los métodos existentes de Aprendizaje de Múltiples Instancias (MIL, por sus siglas en inglés) suelen centrarse en identificar instancias destacadas mediante mecanismos de atención. Sin embargo, esto genera un sesgo hacia las instancias fáciles de clasificar, descuidando las más desafiantes. Estudios recientes han demostrado que los ejemplos difíciles son cruciales para modelar con precisión los límites discriminativos. Aplicando esta idea a nivel de instancia, desarrollamos un novedoso marco MIL con minería de instancias difíciles enmascaradas (MHIM-MIL), que utiliza una estructura Siamesa con una restricción de consistencia para explorar las instancias difíciles. Utilizando una probabilidad de instancia consciente de la clase, MHIM-MIL emplea un modelo maestro de momentum para enmascarar instancias destacadas y extraer implícitamente instancias difíciles para entrenar el modelo estudiante. Para obtener instancias difíciles diversas y no redundantes, adoptamos un enmascaramiento aleatorio a gran escala mientras utilizamos una red de reciclaje global para mitigar el riesgo de perder características clave. Además, el estudiante actualiza al maestro mediante un promedio móvil exponencial, lo que identifica nuevas instancias difíciles para iteraciones posteriores de entrenamiento y estabiliza la optimización. Los resultados experimentales en tareas de diagnóstico de cáncer, subtipificación, análisis de supervivencia y 12 benchmarks demuestran que MHIM-MIL supera a los métodos más recientes tanto en rendimiento como en eficiencia. El código está disponible en: https://github.com/DearCaat/MHIM-MIL.
Los recientes avances en la compresión de Modelos de Lenguaje de Gran Escala (LLM), como la cuantización y la poda, han logrado un éxito notable. Sin embargo, a medida que estas técnicas se acercan gradualmente a sus respectivos límites, confiar en un único método para una mayor compresión se ha vuelto cada vez más desafiante. En este trabajo, exploramos una solución alternativa combinando cuantización y dispersión. Este enfoque conjunto, aunque prometedor, introduce nuevas dificultades debido a los requisitos inherentemente conflictivos en las distribuciones de pesos: la cuantización favorece rangos compactos, mientras que la poda se beneficia de una alta varianza. Para abordar este problema, proponemos Optimal Brain Restoration (OBR), un marco general y sin entrenamiento que alinea la poda y la cuantización mediante la compensación de errores entre ambas. OBR minimiza la degradación del rendimiento en tareas posteriores basándose en un objetivo de segundo orden de Hessian, que luego se reformula en un problema manejable mediante aproximación sustitutiva y finalmente alcanza una solución de forma cerrada a través de la compensación de errores por grupos. Los experimentos muestran que OBR permite una cuantización agresiva W4A4KV4 con un 50% de dispersión en LLM existentes, y ofrece una aceleración de hasta 4.72x y una reducción de memoria de 6.4x en comparación con la línea base FP16-densa.
Presentamos Stable Part Diffusion 4D (SP4D), un marco para generar videos emparejados de RGB y partes cinemáticas a partir de entradas monoculares. A diferencia de los métodos convencionales de segmentación de partes que dependen de señales semánticas basadas en apariencia, SP4D aprende a producir partes cinemáticas: componentes estructurales alineados con la articulación del objeto y consistentes a través de vistas y tiempo. SP4D adopta un modelo de difusión de doble rama que sintetiza conjuntamente fotogramas RGB y mapas de segmentación de partes correspondientes. Para simplificar la arquitectura y permitir de manera flexible diferentes recuentos de partes, introducimos un esquema de codificación de color espacial que mapea máscaras de partes a imágenes continuas similares a RGB. Esta codificación permite que la rama de segmentación comparta el VAE latente de la rama RGB, mientras posibilita la recuperación de la segmentación de partes mediante un post-procesamiento sencillo. Un módulo de Fusión de Difusión Bidireccional (BiDiFuse) mejora la consistencia entre ramas, respaldado por una pérdida de consistencia de partes contrastiva para promover la alineación espacial y temporal de las predicciones de partes. Demostramos que los mapas de partes 2D generados pueden elevarse a 3D para derivar estructuras esqueléticas y pesos de skinning armónico con pocos ajustes manuales. Para entrenar y evaluar SP4D, construimos KinematicParts20K, un conjunto de datos curado de más de 20K objetos articulados seleccionados y procesados de Objaverse XL (Deitke et al., 2023), cada uno emparejado con secuencias de video RGB y de partes de múltiples vistas. Los experimentos muestran que SP4D generaliza fuertemente a diversos escenarios, incluyendo videos del mundo real, objetos generados novedosos y poses articuladas raras, produciendo salidas conscientes de la cinemática adecuadas para tareas posteriores de animación y movimiento.
Los robots de continuo están avanzando en los procedimientos de broncoscopia al acceder a vías respiratorias pulmonares complejas y permitir intervenciones dirigidas. Sin embargo, su desarrollo se ve limitado por la falta de entornos realistas para entrenamiento y pruebas: los datos reales son difíciles de obtener debido a restricciones éticas y preocupaciones sobre la seguridad del paciente, y el desarrollo de algoritmos de autonomía requiere imágenes realistas y retroalimentación física. Presentamos ROOM (Realistic Optical Observation in Medicine), un marco de simulación integral diseñado para generar datos de entrenamiento fotorealistas para broncoscopia. Al aprovechar tomografías computarizadas (TC) de pacientes, nuestra canalización genera datos de sensores multimodales, incluyendo imágenes RGB con ruido realista y especularidades de luz, mapas de profundidad métrica, normales de superficie, flujo óptico y nubes de puntos a escalas médicamente relevantes. Validamos los datos generados por ROOM en dos tareas canónicas para robótica médica: estimación de pose multivista y estimación de profundidad monocular, demostrando diversos desafíos que los métodos de vanguardia deben superar para transferirse a estos entornos médicos. Además, mostramos que los datos producidos por ROOM pueden usarse para ajustar modelos existentes de estimación de profundidad y superar estos desafíos, permitiendo también otras aplicaciones posteriores, como la navegación. Esperamos que ROOM permita la generación de datos a gran escala en diversas anatomías de pacientes y escenarios procedimentales que son difíciles de capturar en entornos clínicos. Código y datos: https://github.com/iamsalvatore/room.
Presentamos una metodología de entrenamiento novedosa denominada zELO, que optimiza el rendimiento en tareas de recuperación mediante el análisis de que las tareas de clasificación son estáticamente equivalentes a un modelo de Thurstone. Basándonos en el método zELO, utilizamos datos no supervisados para entrenar un conjunto de modelos de reordenamiento de última generación con pesos abiertos: zerank-1 y zerank-1-small. Estos modelos alcanzan los puntajes más altos en recuperación en múltiples dominios, incluyendo finanzas, derecho, código y STEM, superando a los reordenadores propietarios de código cerrado tanto en NDCG@10 como en Recall. Estos modelos también demuestran una gran versatilidad, manteniendo su rendimiento en 0-shot en conjuntos de datos fuera de dominio y en datos privados de clientes. Los datos de entrenamiento incluyeron 112,000 consultas y 100 documentos por consulta, y se entrenaron de extremo a extremo a partir de consultas y documentos no anotados en menos de 10,000 horas-H100.
Los seres humanos son notablemente eficientes en el uso de datos al adaptarse a nuevas condiciones no vistas, como conducir un automóvil nuevo. En contraste, los sistemas modernos de control robótico, como las políticas de redes neuronales entrenadas mediante Aprendizaje por Refuerzo (RL), están altamente especializados para entornos individuales. Debido a este sobreajuste, se sabe que fallan incluso ante pequeñas diferencias, como la brecha de Simulación a Realidad (Sim2Real), y requieren identificación del sistema y reentrenamiento incluso para cambios mínimos en el sistema. En este trabajo, presentamos RAPTOR, un método para entrenar una política base altamente adaptable para el control de cuadricópteros. Nuestro método permite entrenar una única política de red neuronal de extremo a extremo para controlar una amplia variedad de cuadricópteros. Probamos 10 cuadricópteros reales diferentes, desde 32 g hasta 2.4 kg, que también difieren en el tipo de motor (con escobillas vs. sin escobillas), tipo de estructura (flexible vs. rígida), tipo de hélice (2/3/4 palas) y controlador de vuelo (PX4/Betaflight/Crazyflie/M5StampFly). Encontramos que una política pequeña de tres capas con solo 2084 parámetros es suficiente para la adaptación inmediata (zero-shot) a una amplia variedad de plataformas. La adaptación mediante Aprendizaje en Contexto (In-Context Learning) se hace posible utilizando una recurrencia en la capa oculta. La política se entrena mediante un novedoso algoritmo de Meta-Aprendizaje por Imitación, donde muestreamos 1000 cuadricópteros y entrenamos una política maestra para cada uno de ellos utilizando Aprendizaje por Refuerzo. Posteriormente, las 1000 políticas maestras se destilan en una única política estudiantil adaptable. Encontramos que, en cuestión de milisegundos, la política base resultante se adapta inmediatamente (zero-shot) a cuadricópteros no vistos. Probamos exhaustivamente las capacidades de la política base bajo numerosas condiciones (seguimiento de trayectorias, interior/exterior, perturbaciones por viento, empujones, diferentes hélices).
La diferenciación automática a través de algoritmos de procesamiento digital de señales para el modelado virtual analógico ha ganado recientemente popularidad. Estos algoritmos suelen ser más eficientes computacionalmente que las redes neuronales de caja negra que dependen de multiplicaciones matriciales densas. Debido a su naturaleza diferenciable, pueden integrarse con redes neuronales y entrenarse conjuntamente utilizando algoritmos de descenso de gradiente, lo que resulta en sistemas más eficientes. Además, los algoritmos de procesamiento de señales tienen significativamente menos parámetros que las redes neuronales, lo que permite la aplicación del método de Newton-Raphson. Este método ofrece una convergencia más rápida y robusta que el descenso de gradiente, aunque a costa de un almacenamiento cuadrático. Este artículo presenta un método para emular amplificadores de nivelación analógica utilizando un compresor digital de avance con parámetros optimizados mediante el método de Newton-Raphson. Demostramos que un compresor digital puede aproximar con éxito el comportamiento de nuestra unidad objetivo, el Teletronix LA-2A. Se comparan diferentes estrategias para calcular la matriz Hessiana. Aprovechamos algoritmos paralelos para filtros recursivos para lograr un entrenamiento eficiente en GPU modernas. El modelo resultante se convierte en un plugin VST y se publica como código abierto en https://github.com/aim-qmul/4a2a.
La generación de datos sintéticos con privacidad diferencial (DP) es una técnica prometedora para utilizar conjuntos de datos privados que, de otro modo, no podrían exponerse para el entrenamiento de modelos u otros análisis. Si bien gran parte de la literatura de investigación se ha centrado en la generación de datos no estructurados privados, como texto e imágenes, en entornos empresariales los datos estructurados (por ejemplo, tabulares) son más comunes y a menudo incluyen campos o componentes de lenguaje natural. Las técnicas existentes de evaluación de datos sintéticos (por ejemplo, FID) tienen dificultades para capturar las propiedades estructurales y las correlaciones de dichos conjuntos de datos. En este trabajo, proponemos Struct-Bench, un marco de trabajo y un punto de referencia para evaluar conjuntos de datos sintéticos derivados de datos estructurados que contienen información en lenguaje natural. El marco de Struct-Bench requiere que los usuarios proporcionen una representación de la estructura de su conjunto de datos como una Gramática Libre de Contexto (CFG). Nuestro punto de referencia incluye 5 conjuntos de datos del mundo real y 2 generados sintéticamente, cada uno anotado con CFGs. Demostramos que estos conjuntos de datos representan un gran desafío incluso para los métodos más avanzados de generación de datos sintéticos con DP. Struct-Bench también incluye implementaciones de referencia de diferentes métricas y una tabla de clasificación, proporcionando así a los investigadores una plataforma de evaluación estandarizada para comparar e investigar métodos de generación de datos sintéticos que preservan la privacidad. Además, presentamos un estudio de caso que muestra cómo utilizar Struct-Bench para mejorar la calidad de los datos sintéticos generados por Private Evolution (PE) en datos estructurados. El punto de referencia y la tabla de clasificación están disponibles públicamente en https://struct-bench.github.io.