Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos Story2Board, un marco de trabajo sin entrenamiento para la generación expresiva de storyboards a partir de lenguaje natural. Los métodos existentes se centran de manera limitada en la identidad del sujeto, pasando por alto aspectos clave de la narrativa visual como la composición espacial, la evolución del fondo y el ritmo narrativo. Para abordar esto, introducimos un marco de consistencia ligero compuesto por dos componentes: Anclaje de Paneles Latentes, que preserva una referencia compartida de personajes a través de los paneles, y Mezcla de Valores de Atención Recíproca, que combina suavemente características visuales entre pares de tokens con una fuerte atención recíproca. Juntos, estos mecanismos mejoran la coherencia sin cambios arquitectónicos o ajustes finos, permitiendo que los modelos de difusión de última generación generen storyboards visualmente diversos pero consistentes. Para estructurar la generación, utilizamos un modelo de lenguaje preexistente para convertir historias de formato libre en indicaciones fundamentadas a nivel de panel. Para la evaluación, proponemos el Benchmark de Storyboards Enriquecidos, un conjunto de narrativas de dominio abierto diseñadas para evaluar la diversidad de diseño y la narrativa basada en el fondo, además de la consistencia. También introducimos una nueva métrica de Diversidad de Escena que cuantifica la variación espacial y de pose en los storyboards. Nuestros resultados cualitativos y cuantitativos, así como un estudio de usuarios, muestran que Story2Board produce storyboards más dinámicos, coherentes y narrativamente atractivos que las líneas base existentes.
Los modelos de lenguaje de gran escala (LLMs), especialmente los modelos de razonamiento de Cadena de Pensamiento Explícita Larga (CoT) como DeepSeek-R1 y QWQ, han demostrado capacidades de razonamiento potentes, logrando un rendimiento impresionante en razonamiento de sentido común e inferencia matemática. A pesar de su eficacia, los modelos de razonamiento Long-CoT suelen ser criticados por su capacidad limitada y baja eficiencia en dominios intensivos en conocimiento, como el descubrimiento de moléculas. El éxito en este campo requiere una comprensión precisa del conocimiento del dominio, incluyendo estructuras moleculares y principios químicos, lo cual es desafiante debido a la complejidad inherente de los datos moleculares y la escasez de anotaciones expertas de alta calidad. Para cerrar esta brecha, presentamos Mol-R1, un marco novedoso diseñado para mejorar la explicabilidad y el rendimiento de razonamiento de los LLMs de tipo R1 en la generación de moléculas basada en texto. Nuestro enfoque comienza con un conjunto de datos de razonamiento de alta calidad curado mediante la Regulación Previa a través de Destilación en Contexto (PRID), una estrategia de destilación dedicada para generar de manera efectiva trazas de razonamiento guiadas por regulaciones previas. Sobre esta base, introducimos MoIA, Adaptación Iterativa Molecular, una estrategia de entrenamiento sofisticada que combina iterativamente el Ajuste Fino Supervisado (SFT) con la Optimización de Políticas Reforzadas (RPO), diseñada para potenciar el rendimiento de razonamiento de los modelos tipo R1 en el descubrimiento de moléculas. Finalmente, examinamos el rendimiento de Mol-R1 en la tarea de generación de razonamiento molecular basado en texto, mostrando un rendimiento superior frente a los baselines existentes.
Generar videos humanos de alta fidelidad que coincidan con identidades especificadas por el usuario es importante pero desafiante en el campo de la IA generativa. Los métodos existentes suelen depender de un número excesivo de parámetros de entrenamiento y carecen de compatibilidad con otras herramientas de AIGC. En este artículo, proponemos Stand-In, un marco ligero y plug-and-play para la preservación de identidades en la generación de videos. Específicamente, introducimos una rama de imagen condicional en el modelo preentrenado de generación de videos. El control de identidad se logra mediante auto-atenciones restringidas con mapeo posicional condicional, y puede aprenderse rápidamente con solo 2000 pares. A pesar de incorporar y entrenar apenas sim1\% de parámetros adicionales, nuestro marco logra resultados excelentes en calidad de video y preservación de identidad, superando a otros métodos de entrenamiento con todos los parámetros. Además, nuestro marco puede integrarse sin problemas para otras tareas, como la generación de videos impulsada por sujetos, generación de videos referenciados por poses, estilización e intercambio de rostros.
Presentamos M3-Agent, un novedoso marco de agente multimodal equipado con memoria a largo plazo. Al igual que los humanos, M3-Agent puede procesar entradas visuales y auditivas en tiempo real para construir y actualizar su memoria a largo plazo. Más allá de la memoria episódica, también desarrolla memoria semántica, lo que le permite acumular conocimiento del mundo con el tiempo. Su memoria está organizada en un formato multimodal centrado en entidades, permitiendo una comprensión más profunda y consistente del entorno. Dada una instrucción, M3-Agent realiza de manera autónoma un razonamiento iterativo de múltiples turnos y recupera información relevante de la memoria para completar la tarea. Para evaluar la efectividad de la memoria y el razonamiento basado en memoria en agentes multimodales, desarrollamos M3-Bench, un nuevo punto de referencia de respuesta a preguntas sobre videos largos. M3-Bench comprende 100 videos recién grabados del mundo real capturados desde la perspectiva de un robot (M3-Bench-robot) y 929 videos obtenidos de la web en diversos escenarios (M3-Bench-web). Anotamos pares de preguntas y respuestas diseñados para probar capacidades clave esenciales para aplicaciones de agentes, como la comprensión humana, la extracción de conocimiento general y el razonamiento multimodal. Los resultados experimentales muestran que M3-Agent, entrenado mediante aprendizaje por refuerzo, supera al modelo base más fuerte, un agente de indicaciones que utiliza Gemini-1.5-pro y GPT-4o, logrando una precisión 6.7%, 7.7% y 5.3% mayor en M3-Bench-robot, M3-Bench-web y VideoMME-long, respectivamente. Nuestro trabajo avanza los agentes multimodales hacia una memoria a largo plazo más similar a la humana y proporciona insights sobre su diseño práctico. El modelo, el código y los datos están disponibles en https://github.com/bytedance-seed/m3-agent.
Los Modelos de Lenguaje de Gran Escala basados en Difusión (dLLMs, por sus siglas en inglés) han surgido como una alternativa prometedora a los Modelos de Lenguaje de Gran Escala Autoregresivos (AR LLMs) para la generación de texto, con el potencial de decodificar múltiples tokens en una sola iteración. Sin embargo, ninguno de los dLLMs de código abierto existentes ha logrado una velocidad de inferencia superior a la de los AR LLMs de tamaño similar. Este artículo supera esta barrera basándose en una estrategia simple y efectiva denominada forzado de difusión discreta (D2F, por sus siglas en inglés). D2F dota a los dLLMs de dos capacidades clave: (1) generación autoregresiva por bloques para permitir la utilización de la caché KV; (2) predicción de tokens siguientes sin requerir la finalización de bloques previos para la decodificación paralela entre bloques. De esta manera, los dLLMs convencionales se transforman en un paradigma híbrido AR-difusión para una inferencia eficiente. D2F puede implementarse mediante un proceso de destilación asimétrica basado en dLLMs preentrenados. Además, proponemos un algoritmo de decodificación paralela en pipeline, que permite un equilibrio entre eficiencia y eficacia. Empíricamente, los dLLMs con D2F logran una velocidad de inferencia más de 2.5 veces superior a la de LLaMA3 y Qwen2.5 en GSM8K. En comparación con dLLMs convencionales como LLaDA y Dream, la aceleración puede superar las 50 veces mientras se mantiene una calidad de salida comparable. El código está disponible en https://github.com/zhijie-group/Discrete-Diffusion-Forcing.
El rápido avance de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) ha permitido a los agentes inteligentes aprovechar diversas herramientas externas para resolver problemas complejos del mundo real. Sin embargo, a medida que los agentes dependen cada vez más de múltiples herramientas, se enfrentan a nuevos desafíos: contextos extendidos provenientes de fuentes dispares y salidas de herramientas ruidosas o irrelevantes pueden socavar la confiabilidad y precisión del sistema. Estos desafíos subrayan la necesidad de una mayor estabilidad en los sistemas basados en agentes. Para abordar esto, introducimos mecanismos dinámicos de supervisión y maniobra, construyendo una arquitectura robusta y dinámica de Sistema Multi-Agente (MAS, por sus siglas en inglés) dentro del marco AWorld. En nuestro enfoque, el Agente de Ejecución invoca al Agente de Guardia en pasos críticos para verificar y corregir el proceso de razonamiento, reduciendo efectivamente los errores derivados del ruido y fortaleciendo la robustez en la resolución de problemas. Experimentos exhaustivos en el conjunto de pruebas GAIA revelan que nuestro mecanismo dinámico de maniobra mejora significativamente tanto la efectividad como la estabilidad de las soluciones, superando a los sistemas de agente único (SAS, por sus siglas en inglés) y a los sistemas estándar aumentados con herramientas. Como resultado, nuestro sistema dinámico MAS alcanzó el primer lugar entre los proyectos de código abierto en el prestigioso ranking GAIA. Estos hallazgos resaltan el valor práctico de los roles colaborativos de los agentes en el desarrollo de sistemas inteligentes más confiables y dignos de confianza.
Recientemente, GPT-4o ha captado una atención significativa por su destacado rendimiento en la generación de imágenes, aunque los modelos de código abierto aún se quedan atrás. Varios estudios han explorado la destilación de datos de imágenes de GPT-4o para mejorar los modelos de código abierto, logrando avances notables. Sin embargo, una pregunta clave persiste: dado que los conjuntos de datos de imágenes del mundo real ya constituyen una fuente natural de datos de alta calidad, ¿por qué deberíamos utilizar datos sintéticos generados por GPT-4o? En este trabajo, identificamos dos ventajas clave de las imágenes sintéticas. En primer lugar, pueden complementar escenarios raros en los conjuntos de datos del mundo real, como la fantasía surrealista o la generación de imágenes con múltiples referencias, que ocurren con frecuencia en las consultas de los usuarios. En segundo lugar, proporcionan una supervisión limpia y controlable. Los datos del mundo real a menudo contienen ruido de fondo complejo y desalineaciones inherentes entre las descripciones de texto y el contenido de las imágenes, mientras que las imágenes sintéticas ofrecen fondos puros y señales de supervisión de cola larga, facilitando una alineación más precisa entre texto e imagen. Basándonos en estas ideas, presentamos Echo-4o-Image, un conjunto de datos sintéticos de 180K generado por GPT-4o, aprovechando el poder de los datos de imágenes sintéticas para abordar los puntos ciegos en la cobertura del mundo real. Utilizando este conjunto de datos, ajustamos el modelo de generación multimodal unificado Bagel para obtener Echo-4o. Además, proponemos dos nuevos puntos de referencia de evaluación para una valoración más precisa y desafiante de las capacidades de generación de imágenes: GenEval++, que aumenta la complejidad de las instrucciones para mitigar la saturación de puntuaciones, e Imagine-Bench, que se centra en evaluar tanto la comprensión como la generación de contenido imaginativo. Echo-4o demuestra un rendimiento sólido en los puntos de referencia estándar. Además, la aplicación de Echo-4o-Image a otros modelos base (por ejemplo, OmniGen2, BLIP3-o) produce ganancias de rendimiento consistentes en múltiples métricas, destacando la fuerte transferibilidad del conjunto de datos.
Las metodologías de alineación han surgido como una vía crítica para mejorar las capacidades de alineación de los modelos de lenguaje. Si bien el ajuste fino supervisado (SFT, por sus siglas en inglés) acelera la convergencia mediante la intervención directa en la pérdida a nivel de tokens, su eficacia se ve limitada por la trayectoria de políticas fuera de línea. En contraste, el aprendizaje por refuerzo (RL, por sus siglas en inglés) facilita la optimización exploratoria de políticas, pero sufre de baja eficiencia en el uso de muestras y una estricta dependencia de modelos base de alta calidad. Para abordar estos desafíos duales, proponemos GRAO (Optimización de Alineación Relativa de Grupo), un marco unificado que sinergiza las fortalezas respectivas de SFT y RL a través de tres innovaciones clave: 1) Una estrategia de generación de múltiples muestras que permite la evaluación comparativa de calidad mediante retroalimentación de recompensas; 2) Una nueva formulación de Pérdida de Alineación Directa de Grupo que aprovecha la ponderación de ventaja relativa intra-grupo; 3) Actualizaciones de parámetros conscientes de referencias guiadas por dinámicas de preferencias por pares. Nuestro análisis teórico establece las garantías de convergencia de GRAO y sus ventajas en eficiencia de muestras sobre enfoques convencionales. Evaluaciones exhaustivas en tareas complejas de alineación humana demuestran el rendimiento superior de GRAO, logrando mejoras relativas del 57.70\%, 17.65\%, 7.95\% y 5.18\% sobre las líneas base de SFT, DPO, PPO y GRPO, respectivamente. Este trabajo proporciona tanto un marco de alineación teóricamente fundamentado como evidencia empírica para la evolución eficiente de capacidades en modelos de lenguaje.
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han demostrado capacidades notables en el razonamiento matemático visual a través de diversos puntos de referencia existentes. Sin embargo, estos puntos de referencia se basan predominantemente en entradas multimodales limpias o procesadas, sin incorporar las imágenes proporcionadas por usuarios educativos del mundo real desde Kindergarten hasta el grado 12 (K-12). Para abordar esta brecha, presentamos MathReal, un conjunto de datos meticulosamente curado que comprende 2,000 preguntas matemáticas con imágenes capturadas por dispositivos móviles portátiles en escenarios auténticos. Cada pregunta es una imagen que contiene el texto de la pregunta y un elemento visual. Clasificamos sistemáticamente las imágenes reales en tres categorías principales: degradación de la calidad de la imagen, variación de perspectiva e interferencia de contenido irrelevante, las cuales se subdividen en 14 subcategorías. Además, MathReal abarca cinco categorías principales de conocimiento y habilidad, que incluyen tres tipos de preguntas y se dividen en tres niveles de dificultad. Para evaluar de manera integral las habilidades de razonamiento matemático multimodal de los MLLMs más avanzados en escenarios del mundo real, diseñamos seis configuraciones experimentales que permiten un análisis sistemático de su rendimiento. A través de una extensa experimentación, encontramos que las habilidades de resolución de problemas de los MLLMs existentes se ven significativamente desafiadas en contextos educativos realistas. Con base en esto, realizamos un análisis exhaustivo de su rendimiento y patrones de error, proporcionando insights sobre sus capacidades de reconocimiento, comprensión y razonamiento, y delineando direcciones para futuras mejoras. Datos y código: https://github.com/junfeng0288/MathReal.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado un rendimiento notable en tareas de razonamiento, donde el aprendizaje por refuerzo (RL, por sus siglas en inglés) sirve como un algoritmo clave para mejorar sus capacidades de razonamiento. Actualmente, existen dos paradigmas principales de recompensas: recompensas basadas en modelos y recompensas basadas en reglas. Sin embargo, ambos enfoques presentan limitaciones: las recompensas basadas en reglas carecen de robustez, mientras que las recompensas basadas en modelos son vulnerables al "reward hacking" (manipulación de recompensas). Para abordar estos problemas, proponemos Cooper (Co-optimización del Modelo de Política y el Modelo de Recompensa), un marco de RL que optimiza conjuntamente tanto el modelo de política como el modelo de recompensa. Cooper aprovecha la alta precisión de las recompensas basadas en reglas al identificar respuestas correctas, y construye y selecciona dinámicamente pares de muestras positivas-negativas para continuar entrenando el modelo de recompensa. Este diseño mejora la robustez y mitiga el riesgo de "reward hacking". Para respaldar aún más a Cooper, introducimos una estrategia de anotación híbrida que genera datos de entrenamiento para el modelo de recompensa de manera eficiente y precisa. También proponemos un paradigma de modelado de recompensas basado en referencias, donde el modelo de recompensa toma una respuesta de referencia como entrada. Basándonos en este diseño, entrenamos un modelo de recompensa llamado VerifyRM, que logra una mayor precisión en VerifyBench en comparación con otros modelos del mismo tamaño. Realizamos aprendizaje por refuerzo utilizando tanto VerifyRM como Cooper. Nuestros experimentos muestran que Cooper no solo alivia el "reward hacking", sino que también mejora el rendimiento de RL de extremo a extremo, por ejemplo, logrando una ganancia del 0.54% en precisión promedio en Qwen2.5-1.5B-Instruct. Nuestros hallazgos demuestran que la actualización dinámica del modelo de recompensa es una forma efectiva de combatir el "reward hacking", proporcionando una referencia para integrar mejor los modelos de recompensa en RL.
El nuevo paradigma de escalado en tiempo de prueba ha generado avances notables en los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) (por ejemplo, modelos de razonamiento) y en modelos generativos de visión, permitiendo que los modelos asignen computación adicional durante la inferencia para abordar de manera efectiva problemas cada vez más complejos. A pesar de las mejoras de este enfoque, surge una limitación importante: el aumento sustancial en el tiempo de computación hace que el proceso sea lento e impráctico para muchas aplicaciones. Dado el éxito de este paradigma y su creciente uso, buscamos preservar sus beneficios mientras evitamos la sobrecarga de inferencia. En este trabajo proponemos una solución al problema crítico de integrar el conocimiento de escalado en tiempo de prueba en un modelo durante el posentrenamiento. Específicamente, reemplazamos la optimización de ruido guiada por recompensas en tiempo de prueba en modelos de difusión con una Hiperred de Ruido que modula el ruido inicial de entrada. Proponemos un marco teóricamente fundamentado para aprender esta distribución inclinada por recompensas para generadores destilados, a través de un objetivo en el espacio de ruido manejable que mantiene la fidelidad al modelo base mientras optimiza las características deseadas. Demostramos que nuestro enfoque recupera una porción sustancial de las ganancias de calidad de la optimización explícita en tiempo de prueba a una fracción del costo computacional. El código está disponible en https://github.com/ExplainableML/HyperNoise.
Los modelos de visión-lenguaje (VLMs, por sus siglas en inglés) han mostrado avances significativos en tareas como la localización visual, donde identifican objetos específicos en imágenes basándose en consultas de lenguaje natural e imágenes. Sin embargo, los problemas de seguridad en las tareas de localización visual para VLMs siguen siendo poco explorados, especialmente en el contexto de ataques de puerta trasera. En este artículo, presentamos un nuevo método de ataque de puerta trasera consciente de la entrada, IAG, diseñado para manipular el comportamiento de localización de los VLMs. Este ataque fuerza al modelo a localizar un objeto objetivo específico en la imagen de entrada, independientemente de la consulta del usuario. Proponemos un generador de disparadores adaptativo que incrusta la información semántica de la descripción del objetivo del ataque en la imagen original utilizando una U-Net condicionada por texto, superando así el desafío del ataque de vocabulario abierto. Para garantizar la discreción del ataque, utilizamos una pérdida de reconstrucción para minimizar las discrepancias visuales entre las imágenes envenenadas y las limpias. Además, introducimos un método unificado para generar datos de ataque. IAG es evaluado teórica y empíricamente, demostrando su viabilidad y efectividad. Cabe destacar que nuestro ASR@0.5 en InternVL-2.5-8B alcanza más del 65% en varios conjuntos de prueba. IAG también muestra un potencial prometedor en la manipulación de Ferret-7B y LlaVA-1.5-7B con una disminución mínima en la precisión de las muestras limpias. Experimentos específicos extensos, como el estudio de ablación y la defensa potencial, también indican la robustez y transferibilidad de nuestro ataque.
Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han avanzado significativamente en la integración de la comprensión visual y textual. Sin embargo, su capacidad para generar código a partir de entradas multimodales sigue siendo limitada. En este trabajo, presentamos VisCodex, un marco unificado que fusiona de manera fluida los modelos de visión y lenguaje de programación, dotando a los MLLMs de una sólida capacidad de generación de código multimodal. Aprovechando una técnica de fusión de modelos basada en vectores de tareas, integramos un modelo de lenguaje de programación de última generación en una arquitectura robusta de visión y lenguaje, preservando tanto la comprensión visual como las habilidades avanzadas de codificación. Para respaldar el entrenamiento y la evaluación, introducimos el Conjunto de Datos de Codificación Multimodal (MCD, por sus siglas en inglés), una colección diversa y a gran escala de 598k muestras, que incluye código HTML de alta calidad, pares de imágenes de gráficos y código, preguntas y respuestas de StackOverflow aumentadas con imágenes, y problemas algorítmicos. Además, proponemos InfiBench-V, un nuevo y desafiante punto de referencia diseñado específicamente para evaluar modelos en preguntas de programación del mundo real visualmente ricas, que requieren una comprensión matizada de contextos tanto textuales como visuales. Experimentos exhaustivos demuestran que VisCodex alcanza un rendimiento de vanguardia entre los MLLMs de código abierto y se acerca a modelos propietarios como GPT-4o, destacando la efectividad de nuestra estrategia de fusión de modelos y los nuevos conjuntos de datos.
Los recientes avances en los modelos de texto a imagen (T2I) han permitido la edición regional de imágenes sin necesidad de entrenamiento, aprovechando los priors generativos de los modelos base. Sin embargo, los métodos existentes luchan por equilibrar la adherencia al texto en las regiones editadas, la fidelidad del contexto en las áreas no editadas y la integración fluida de las ediciones. Presentamos CannyEdit, un marco novedoso sin entrenamiento que aborda estos desafíos a través de dos innovaciones clave: (1) Control Canny Selectivo, que enmascara la guía estructural de Canny ControlNet en las regiones editables especificadas por el usuario, mientras preserva estrictamente los detalles de las imágenes originales en las áreas no editadas mediante la retención de información de ControlNet en la fase de inversión. Esto permite ediciones precisas impulsadas por texto sin comprometer la integridad contextual. (2) Guía de Doble Prompt, que combina prompts locales para ediciones específicas de objetos con un prompt global objetivo para mantener interacciones coherentes en la escena. En tareas de edición de imágenes del mundo real (adición, reemplazo, eliminación), CannyEdit supera a métodos anteriores como KV-Edit, logrando una mejora del 2.93 al 10.49 por ciento en el equilibrio entre adherencia al texto y fidelidad del contexto. En términos de fluidez en la edición, estudios de usuario revelan que solo el 49.2 por ciento de los usuarios generales y el 42.0 por ciento de los expertos en AIGC identificaron los resultados de CannyEdit como editados por IA cuando se compararon con imágenes reales sin editar, frente al 76.08 al 89.09 por ciento para los métodos competidores.
En el campo en rápida evolución del Procesamiento del Lenguaje Natural Explicable (PLNE), las explicaciones textuales, es decir, las justificaciones similares a las humanas, son fundamentales para explicar las predicciones de los modelos y enriquecer los conjuntos de datos con etiquetas interpretables. Los enfoques tradicionales dependen de la anotación humana, que es costosa, laboriosa y obstaculiza la escalabilidad. En este trabajo, presentamos un marco automatizado que aprovecha múltiples modelos de lenguaje de última generación (LLMs, por sus siglas en inglés) para generar explicaciones textuales de alta calidad. Evaluamos rigurosamente la calidad de estas explicaciones generadas por LLMs utilizando un conjunto exhaustivo de métricas de Generación del Lenguaje Natural (GLN). Además, investigamos el impacto descendente de estas explicaciones en el rendimiento de modelos de lenguaje preentrenados (PLMs) y LLMs en tareas de inferencia del lenguaje natural en dos conjuntos de datos de referencia diversos. Nuestros experimentos demuestran que las explicaciones automatizadas exhiben una efectividad altamente competitiva en comparación con las explicaciones anotadas por humanos para mejorar el rendimiento de los modelos. Nuestros hallazgos subrayan una vía prometedora para la generación escalable y automatizada de explicaciones textuales basadas en LLMs, con el fin de ampliar los conjuntos de datos de PLN y mejorar el rendimiento de los modelos.
En los últimos años, ha crecido el interés y la adopción de los LLM (Modelos de Lenguaje de Gran Escala), con muTransfer convirtiéndose en una técnica clave para ajustar hiperparámetros en entrenamientos a gran escala. Paralelamente, la arquitectura Mixture-of-Experts (MoE) ha surgido como un enfoque líder en modelos extremadamente grandes. Sin embargo, la intersección de estos dos avances ha permanecido inexplorada. En este trabajo, derivamos una mu-Parametrización (muP) para MoE, proporcionando garantías teóricas para el aprendizaje de características a través de diferentes anchos de modelo, tanto en el enrutador como en los expertos. Validamos empíricamente nuestra parametrización y además investigamos cómo el escalado del número de expertos y la granularidad afecta la tasa de aprendizaje óptima.
Los grandes modelos de lenguaje entrenados con aprendizaje por refuerzo utilizando recompensas verificables tienden a intercambiar precisión por longitud, inflando el tamaño de las respuestas para lograr mejoras en la precisión. Si bien respuestas más largas pueden estar justificadas para problemas más difíciles, muchos tokens son simplemente "relleno": texto repetitivo y verboso que no aporta un avance real. Introducimos GFPO (Optimización de Política Filtrada por Grupos), que controla esta explosión de longitud muestreando grupos más grandes por problema durante el entrenamiento y filtrando las respuestas para entrenar en función de dos métricas clave: (1) la longitud de la respuesta y (2) la eficiencia de tokens: la relación de recompensa por token. Al muestrear más durante el entrenamiento, enseñamos a los modelos a pensar menos durante la inferencia. En el modelo Phi-4-reasoning, GFPO reduce la inflación de longitud de GRPO en un 46-71% en benchmarks desafiantes de STEM y programación (AIME 24/25, GPQA, Omni-MATH, LiveCodeBench) mientras mantiene la precisión. Optimizar la recompensa por token aumenta aún más las reducciones en la inflación de longitud a un 71-85%. También proponemos GFPO de Dificultad Adaptativa, que asigna dinámicamente más recursos de entrenamiento a problemas más difíciles basándose en estimaciones de dificultad en tiempo real, mejorando el equilibrio entre eficiencia computacional y precisión, especialmente en preguntas difíciles. GFPO demuestra que un mayor cómputo durante el entrenamiento se traduce directamente en un menor cómputo durante las pruebas, un intercambio simple pero efectivo para un razonamiento eficiente.
Reconstruir escenas 3D utilizando 3D Gaussian Splatting (3DGS) a partir de vistas dispersas es un problema mal planteado debido a la información insuficiente, lo que a menudo resulta en artefactos notables. Aunque enfoques recientes han buscado aprovechar priors generativos para completar la información en regiones sub-constreñidas, estos luchan por generar contenido que permanezca consistente con las observaciones de entrada. Para abordar este desafío, proponemos GSFixer, un marco novedoso diseñado para mejorar la calidad de las representaciones 3DGS reconstruidas a partir de entradas dispersas. El núcleo de nuestro enfoque es el modelo de restauración de video guiado por referencia, basado en un modelo de difusión de video DiT entrenado en renders 3DGS con artefactos y frames limpios con condiciones adicionales basadas en referencias. Considerando las vistas dispersas de entrada como referencias, nuestro modelo integra tanto características semánticas 2D como características geométricas 3D de las vistas de referencia extraídas del modelo fundacional de geometría visual, mejorando la coherencia semántica y la consistencia 3D al corregir artefactos en nuevas vistas. Además, considerando la falta de benchmarks adecuados para la evaluación de la restauración de artefactos en 3DGS, presentamos DL3DV-Res, que contiene frames con artefactos renderizados utilizando 3DGS de baja calidad. Experimentos extensivos demuestran que nuestro GSFixer supera a los métodos actuales más avanzados en la restauración de artefactos 3DGS y la reconstrucción 3D a partir de vistas dispersas. Página del proyecto: https://github.com/GVCLab/GSFixer.
Este artículo presenta el primer método descentralizado para permitir la manipulación en 6 grados de libertad (6-DoF) de una carga suspendida por cables utilizando un equipo de vehículos aéreos micro (MAVs, por sus siglas en inglés). Nuestro método aprovecha el aprendizaje por refuerzo multiagente (MARL, por sus siglas en inglés) para entrenar una política de control de bucle externo para cada MAV. A diferencia de los controladores de última generación que utilizan un esquema centralizado, nuestra política no requiere estados globales, comunicaciones entre MAVs ni información sobre los MAVs vecinos. En su lugar, los agentes se comunican implícitamente únicamente a través de observaciones de la pose de la carga, lo que permite una alta escalabilidad y flexibilidad. Además, esto reduce significativamente los costos computacionales durante el tiempo de inferencia, permitiendo la implementación de la política a bordo. Asimismo, introducimos un nuevo diseño de espacio de acción para los MAVs utilizando aceleración lineal y tasas de giro del cuerpo. Esta elección, combinada con un controlador de bajo nivel robusto, permite una transferencia confiable de simulación a realidad a pesar de las incertidumbres significativas causadas por la tensión del cable durante el movimiento dinámico en 3D. Validamos nuestro método en diversos experimentos del mundo real, incluyendo el control de la pose completa bajo incertidumbres del modelo de la carga, mostrando un rendimiento de seguimiento de puntos de referencia comparable al método centralizado de última generación. También demostramos la cooperación entre agentes con políticas de control heterogéneas y la robustez ante la pérdida completa en vuelo de un MAV. Videos de los experimentos: https://autonomousrobots.nl/paper_websites/aerial-manipulation-marl.
La resección precisa de lesiones depende de la identificación exacta de estructuras anatómicas de grano fino. Si bien muchos métodos de segmentación de grano grueso (CGS) han tenido éxito en la segmentación a gran escala (por ejemplo, órganos), se quedan cortos en escenarios clínicos que requieren segmentación de grano fino (FGS), lo cual sigue siendo un desafío debido a las variaciones individuales frecuentes en estructuras anatómicas a pequeña escala. Aunque los modelos recientes basados en Mamba han avanzado en la segmentación de imágenes médicas, a menudo dependen de órdenes de escaneo fijos definidos manualmente, lo que limita su adaptabilidad a las variaciones individuales en FGS. Para abordar esto, proponemos ASM-UNet, una arquitectura novedosa basada en Mamba para FGS. Introduce puntuaciones de escaneo adaptativas para guiar dinámicamente el orden de escaneo, generadas al combinar similitudes a nivel de grupo y variaciones a nivel individual. Los experimentos en dos conjuntos de datos públicos (ACDC y Synapse) y un nuevo conjunto de datos desafiante de FGS del tracto biliar, denominado BTMS, demuestran que ASM-UNet logra un rendimiento superior tanto en tareas de CGS como de FGS. Nuestro código y conjunto de datos están disponibles en https://github.com/YqunYang/ASM-UNet.
Los ataques de inferencia de membresía sirven como una herramienta útil para el uso justo de modelos de lenguaje, como la detección de posibles infracciones de derechos de autor y la auditoría de fugas de datos. Sin embargo, muchos de los ataques más avanzados actualmente requieren acceso a los estados ocultos o a la distribución de probabilidad de los modelos, lo que impide la investigación en modelos de acceso exclusivo a través de API, como GPT-4. En este trabajo, presentamos el Ataque de Cobertura N-Gram, un ataque de inferencia de membresía que se basa únicamente en las salidas de texto del modelo objetivo, permitiendo ataques en modelos completamente de caja negra. Aprovechamos la observación de que los modelos tienen más probabilidad de memorizar y, posteriormente, generar patrones de texto que se observaron comúnmente en sus datos de entrenamiento. Específicamente, para hacer una predicción sobre un candidato a miembro, el Ataque de Cobertura N-Gram primero obtiene múltiples generaciones del modelo condicionadas a un prefijo del candidato. Luego, utiliza métricas de superposición de n-gramas para calcular y agregar las similitudes de estas salidas con el sufijo de la verdad fundamental; las altas similitudes indican una probable membresía. Primero demostramos en un conjunto diverso de puntos de referencia existentes que el Ataque de Cobertura N-Gram supera a otros métodos de caja negra, mientras que también logra un rendimiento comparable o incluso mejor que los ataques de caja blanca más avanzados, a pesar de tener acceso solo a las salidas de texto. Curiosamente, encontramos que la tasa de éxito de nuestro método escala con el presupuesto de cómputo del ataque: a medida que aumentamos el número de secuencias generadas por el modelo objetivo condicionadas al prefijo, el rendimiento del ataque tiende a mejorar. Habiendo verificado la precisión de nuestro método, lo utilizamos para investigar modelos cerrados de OpenAI previamente no estudiados en múltiples dominios. Encontramos que modelos más recientes, como GPT-4o, exhiben una mayor robustez frente a la inferencia de membresía, sugiriendo una tendencia evolutiva hacia mejores protecciones de privacidad.
Los Modelos de Lenguaje de Gran Escala (LLMs) suelen ajustarse para tareas de razonamiento mediante un proceso de dos etapas que incluye Ajuste Fino Supervisado (SFT) seguido de Aprendizaje por Refuerzo (RL), un proceso propenso al olvido catastrófico y a compromisos subóptimos entre imitación y exploración. Métodos recientes de una sola etapa intentan unificar SFT y RL utilizando heurísticas, pero carecen de un mecanismo fundamentado para equilibrar dinámicamente ambos paradigmas. En este artículo, replanteamos este desafío a través de la lente teórica de recompensas implícitas, viendo SFT y RL no como métodos distintos sino como señales de recompensa complementarias. Introducimos Ajuste Fino Meta Adaptativo (AMFT), un novedoso algoritmo de una sola etapa que aprende el equilibrio óptimo entre la recompensa implícita a nivel de trayectoria de SFT y la recompensa explícita basada en resultados de RL. El núcleo de AMFT es un controlador de pesos adaptativo basado en meta-gradientes que trata el equilibrio SFT-RL como un parámetro aprendible, optimizándolo dinámicamente para maximizar el rendimiento a largo plazo en la tarea. Este enfoque prospectivo, regularizado por la entropía de la política para estabilidad, descubre autónomamente un currículo de entrenamiento efectivo. Realizamos una evaluación exhaustiva en benchmarks desafiantes que abarcan razonamiento matemático, razonamiento visual abstracto (General Points) y navegación visión-lenguaje (V-IRL). AMFT establece consistentemente un nuevo estado del arte y demuestra una generalización superior en tareas fuera de distribución (OOD). Estudios de ablación y análisis de dinámicas de entrenamiento confirman que el controlador de meta-aprendizaje es crucial para la estabilidad, eficiencia de muestreo y rendimiento de AMFT, ofreciendo un paradigma más fundamentado y efectivo para la alineación de LLMs. Nuestros códigos están disponibles en https://github.com/hlxtsyj/AMFT.
La rápida proliferación de los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) ha contribuido significativamente al desarrollo de sistemas de IA equitativos capaces de responder preguntas factuales (QA, por sus siglas en inglés). Sin embargo, no se conoce ningún estudio que evalúe la robustez de los LLMs cuando se les presentan versiones ofuscadas de preguntas. Para evaluar sistemáticamente estas limitaciones, proponemos una técnica novedosa, ObfusQAte, y, aprovechando la misma, introducimos ObfusQA, un marco integral, el primero en su tipo, con niveles de ofuscación de múltiples capas diseñado para examinar las capacidades de los LLMs en tres dimensiones distintas: (i) Indirección de Entidades Nombradas, (ii) Indirección de Distractores y (iii) Sobrecarga Contextual. Al capturar estas distinciones detalladas en el lenguaje, ObfusQA proporciona un punto de referencia exhaustivo para evaluar la robustez y adaptabilidad de los LLMs. Nuestro estudio observa que los LLMs tienden a fallar o generar respuestas alucinadas cuando se enfrentan a estas variaciones cada vez más matizadas. Para fomentar la investigación en esta dirección, ponemos ObfusQAte a disposición del público.