Artículos de investigación en IA seleccionados diariamente con traducciones
Los recientes avances en los modelos de difusión han mejorado significativamente las capacidades de generación y edición de videos. Sin embargo, la edición de videos multi-granular, que abarca modificaciones a nivel de clase, instancia y parte, sigue siendo un desafío formidable. Las principales dificultades en la edición multi-granular incluyen la desalineación semántica del control texto-región y el acoplamiento de características dentro del modelo de difusión. Para abordar estas dificultades, presentamos VideoGrain, un enfoque de zero-shot que modula los mecanismos de atención espacio-temporal (cruzada y auto-) para lograr un control fino sobre el contenido del video. Mejoramos el control texto-región amplificando la atención de cada prompt local a su región espacialmente desentrelazada correspondiente, mientras minimizamos las interacciones con áreas irrelevantes en la atención cruzada. Además, mejoramos la separación de características aumentando la conciencia intra-región y reduciendo la interferencia inter-región en la atención auto-. Experimentos extensivos demuestran que nuestro método alcanza un rendimiento de vanguardia en escenarios del mundo real. Nuestro código, datos y demostraciones están disponibles en https://knightyxp.github.io/VideoGrain_project_page/
El contexto largo es un tema importante en el Procesamiento del Lenguaje Natural (PLN), que atraviesa el desarrollo de las arquitecturas de PLN y ofrece enormes oportunidades para los Modelos de Lenguaje a Gran Escala (LLMs), otorgándoles un potencial de aprendizaje continuo similar al de los humanos. Desafortunadamente, la búsqueda de un contexto largo viene acompañada de numerosos obstáculos. Sin embargo, el contexto largo sigue siendo una ventaja competitiva central para los LLMs. En los últimos dos años, la longitud del contexto de los LLMs ha logrado una extensión revolucionaria, alcanzando millones de tokens. Además, la investigación sobre LLMs de contexto largo se ha expandido desde la extrapolación de longitud hacia un enfoque integral que abarca arquitectura, infraestructura, entrenamiento y tecnologías de evaluación. Inspirados por el poema sinfónico "Así habló Zaratustra", establecemos una analogía entre el viaje de extender el contexto de los LLMs y los intentos de los humanos por trascender su mortalidad. En este estudio, ilustraremos cómo los LLMs luchan entre la enorme necesidad de un contexto más extenso y la igualmente importante necesidad de aceptar que, en última instancia, este es finito. Para lograrlo, ofrecemos una visión global del ciclo de vida de los LLMs de contexto largo desde cuatro perspectivas: arquitectura, infraestructura, entrenamiento y evaluación, mostrando el espectro completo de las tecnologías de contexto largo. Al final de este estudio, presentaremos 10 preguntas sin respuesta que actualmente enfrentan los LLMs de contexto largo. Esperamos que este estudio sirva como una introducción sistemática a la investigación sobre LLMs de contexto largo.
Presentamos Slam, una metodología para entrenar Modelos de Lenguaje de Voz (SLMs, por sus siglas en inglés) de alta calidad utilizando una única GPU académica en 24 horas. Esto lo logramos mediante un análisis empírico de la inicialización del modelo y su arquitectura, datos de entrenamiento sintéticos, optimización de preferencias con datos sintéticos y ajustes en todos los demás componentes. Demostramos empíricamente que esta metodología de entrenamiento también escala eficientemente con mayor capacidad de cómputo, obteniendo resultados comparables a los de los principales SLMs con una fracción del costo computacional. Esperamos que estos hallazgos hagan que el entrenamiento e investigación de SLMs sean más accesibles. En el contexto de las leyes de escalamiento de SLMs, nuestros resultados superan ampliamente el rendimiento óptimo predicho en términos de cómputo, ofreciendo una perspectiva optimista sobre la viabilidad de los SLMs. Consulte el código, datos, modelos y muestras en: https://pages.cs.huji.ac.il/adiyoss-lab/slamming.
Our results suggest that DICEPTION can be a stepping stone towards generalist models that can perform multiple perception tasks with minimal computational resources and training data.Nuestro objetivo principal aquí es crear un buen modelo de percepción generalista que pueda abordar múltiples tareas, dentro de los límites de los recursos computacionales y los datos de entrenamiento. Para lograrlo, recurrimos a modelos de difusión de texto a imagen preentrenados en miles de millones de imágenes. Nuestras métricas de evaluación exhaustivas demuestran que DICEPTION aborda eficazmente múltiples tareas de percepción, logrando un rendimiento comparable con los modelos de última generación. Obtenemos resultados comparables a SAM-vit-h utilizando solo el 0,06% de sus datos (por ejemplo, 600K frente a 1B de imágenes anotadas a nivel de píxel). Inspirado por Wang et al., DICEPTION formula las salidas de varias tareas de percepción utilizando codificación de colores; y demostramos que la estrategia de asignar colores aleatorios a diferentes instancias es altamente efectiva tanto en la segmentación de entidades como en la segmentación semántica. Unificar varias tareas de percepción como generación condicional de imágenes nos permite aprovechar al máximo los modelos preentrenados de texto a imagen. Así, DICEPTION puede entrenarse de manera eficiente con un costo órdenes de magnitud menor, en comparación con los modelos convencionales que se entrenaron desde cero. Al adaptar nuestro modelo a otras tareas, solo requiere un ajuste fino en tan solo 50 imágenes y el 1% de sus parámetros. DICEPTION proporciona ideas valiosas y una solución más prometedora para los modelos visuales generalistas. Nuestros resultados sugieren que DICEPTION puede ser un paso hacia modelos generalistas que puedan realizar múltiples tareas de percepción con recursos computacionales y datos de entrenamiento mínimos.
Los recientes avances en tokenización de audio han mejorado significativamente la integración de capacidades de audio en los grandes modelos de lenguaje (LLMs, por sus siglas en inglés). Sin embargo, la comprensión y generación de audio suelen tratarse como tareas separadas, lo que dificulta el desarrollo de modelos verdaderamente unificados de audio y lenguaje. Aunque el ajuste por instrucciones ha demostrado un éxito notable en la mejora de la generalización y el aprendizaje zero-shot en texto y visión, su aplicación al audio sigue siendo en gran medida inexplorada. Un obstáculo importante es la falta de conjuntos de datos integrales que unifiquen la comprensión y generación de audio. Para abordar esto, presentamos Audio-FLAN, un conjunto de datos de ajuste por instrucciones a gran escala que abarca 80 tareas diversas en los dominios de voz, música y sonido, con más de 100 millones de instancias. Audio-FLAN sienta las bases para modelos unificados de audio y lenguaje que pueden manejar de manera fluida tanto tareas de comprensión (por ejemplo, transcripción, interpretación) como de generación (por ejemplo, voz, música, sonido) en una amplia gama de dominios de audio de manera zero-shot. El conjunto de datos Audio-FLAN está disponible en HuggingFace y GitHub y se actualizará continuamente.
Si bien la Adaptación de Bajo Rango (LoRA) permite un ajuste fino eficiente en parámetros para Modelos de Lenguaje a Gran Escala (LLMs), su rendimiento a menudo no alcanza el del Ajuste Fino Completo (Full FT). Los métodos actuales optimizan LoRA inicializando con subconjuntos estáticos de descomposición en valores singulares (SVD), lo que lleva a un aprovechamiento subóptimo del conocimiento preentrenado. Otra vía para mejorar LoRA es incorporar una arquitectura de Mezcla de Expertos (MoE). Sin embargo, la desalineación de pesos y las dinámicas complejas de los gradientes hacen que sea un desafío adoptar SVD antes de la arquitectura LoRA MoE. Para mitigar estos problemas, proponemos Great LoRA Mixture-of-Expert (GOAT), un marco que (1) integra adaptativamente conocimientos previos relevantes utilizando un MoE estructurado con SVD, y (2) alinea la optimización con un MoE de ajuste fino completo mediante la derivación de un factor de escalado teórico. Demostramos que un escalado adecuado, sin modificar la arquitectura o los algoritmos de entrenamiento, mejora la eficiencia y el rendimiento de LoRA MoE. Los experimentos en 25 conjuntos de datos, que incluyen comprensión del lenguaje natural, razonamiento de sentido común, clasificación de imágenes y generación de lenguaje natural, demuestran que GOAT alcanza un rendimiento de vanguardia, cerrando la brecha con Full FT.
Los métodos de constancia de color a menudo tienen dificultades para generalizar entre diferentes sensores de cámara debido a las variadas sensibilidades espectrales. Presentamos GCC, que aprovecha modelos de difusión para rellenar cartas de color en imágenes con el fin de estimar la iluminación. Nuestras innovaciones clave incluyen (1) un enfoque de inferencia determinística de un solo paso que rellena cartas de color que reflejan la iluminación de la escena, (2) una técnica de descomposición Laplaciana que preserva la estructura de la carta de color mientras permite la adaptación del color dependiente de la iluminación, y (3) una estrategia de aumento de datos basada en máscaras para manejar anotaciones imprecisas de cartas de color. GCC demuestra una robustez superior en escenarios de cámaras cruzadas, alcanzando tasas de error del peor 25% de vanguardia de 5.15° y 4.32° en evaluaciones bidireccionales. Estos resultados resaltan la estabilidad y capacidad de generalización de nuestro método a través de diferentes características de cámara sin requerir entrenamiento específico del sensor, convirtiéndolo en una solución versátil para aplicaciones del mundo real.
La capacidad crítica de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) es fundamental para las habilidades de razonamiento, ya que puede proporcionar sugerencias necesarias (por ejemplo, análisis detallado y retroalimentación constructiva). Por lo tanto, cómo evaluar la capacidad crítica de los LLMs ha atraído gran atención y se han propuesto varios puntos de referencia (benchmarks) para la crítica. Sin embargo, los benchmarks de crítica existentes suelen presentar las siguientes limitaciones: (1) Se centran en tareas de razonamiento diversas en dominios generales y tienen una evaluación insuficiente en tareas de código (por ejemplo, solo cubren la tarea de generación de código), donde la dificultad de las consultas es relativamente baja (por ejemplo, las consultas de código en CriticBench provienen de Humaneval y MBPP). (2) Carecen de una evaluación integral desde diferentes dimensiones. Para abordar estas limitaciones, presentamos un benchmark holístico de crítica de código para LLMs llamado CodeCriticBench. Específicamente, nuestro CodeCriticBench incluye dos tareas principales de código (es decir, generación de código y preguntas y respuestas sobre código) con diferentes niveles de dificultad. Además, los protocolos de evaluación incluyen una evaluación básica de la crítica y una evaluación avanzada de la crítica para diferentes características, donde se han diseñado listas de verificación detalladas para configuraciones avanzadas. Finalmente, realizamos extensos resultados experimentales con LLMs existentes, que demuestran la efectividad de CodeCriticBench.
El escalado del cómputo en la fase de preentrenamiento ha demostrado ser efectivo para lograr multilingüismo, pero ¿ocurre lo mismo con el escalado en el momento de la prueba? En este trabajo, presentamos MCLM, un benchmark multilingüe de matemáticas que incluye problemas de nivel competitivo en 55 idiomas. Evaluamos tres métodos de escalado en tiempo de prueba—Modelado de Recompensa por Resultado (ORM, por sus siglas en inglés), Modelado de Recompensa por Proceso (ORM) y Forzado de Presupuesto (BF)—tanto en Qwen2.5-1.5B Math como en MR1-1.5B, un modelo de lenguaje grande (LLM) multilingüe que entrenamos para razonamiento extendido. Nuestros experimentos muestran que el uso de Qwen2.5-1.5B Math con ORM alcanza una puntuación de 35.8 en MCLM, mientras que BF en MR1-1.5B logra 35.2. Aunque los "LLMs pensantes" han captado recientemente una atención significativa, encontramos que su rendimiento es comparable a métodos tradicionales de escalado como best-of-N cuando se restringen a niveles similares de FLOPs de inferencia. Además, aunque BF produce una mejora de 20 puntos en el AIME en inglés, ofrece solo una ganancia promedio de 1.94 puntos en otros idiomas—un patrón consistente en los otros métodos de escalado en tiempo de prueba que estudiamos—lo que destaca que el escalado en tiempo de prueba puede no generalizarse tan efectivamente a tareas multilingües. Para fomentar más investigación, publicamos MCLM, MR1-1.5B y los resultados de evaluación.
Los recientes avances en la generación de vídeos han permitido a los modelos sintetizar vídeos de alta calidad con una duración de varios minutos. Sin embargo, generar vídeos aún más largos con coherencia temporal sigue siendo un desafío importante, y los métodos actuales de extrapolación de longitud resultan en repeticiones temporales o desaceleración del movimiento. En este trabajo, analizamos sistemáticamente el papel de los componentes de frecuencia en los embeddings posicionales e identificamos una frecuencia intrínseca que gobierna principalmente el comportamiento de extrapolación. Basándonos en esta idea, proponemos RIFLEx, un enfoque minimalista pero efectivo que reduce la frecuencia intrínseca para suprimir la repetición mientras mantiene la consistencia del movimiento, sin requerir modificaciones adicionales. RIFLEx ofrece una verdadera "comida gratis": logra una extrapolación de alta calidad de 2 veces en transformadores de difusión de vídeo de última generación de manera completamente libre de entrenamiento. Además, mejora la calidad y permite una extrapolación de 3 veces mediante un ajuste fino mínimo, sin necesidad de vídeos largos. Página del proyecto y códigos: https://riflex-video.github.io/.
Este artículo evalúa exhaustivamente varios optimizadores propuestos recientemente para entrenamiento de 4 bits, revelando que la precisión de bajo bit amplifica la sensibilidad a las tasas de aprendizaje y a menudo causa inestabilidad en las normas de los gradientes, lo que lleva a la divergencia con tasas de aprendizaje más altas. Entre estos, SPAM, un optimizador reciente que incluye reinicio de momento y recorte de gradientes consciente de picos, logra el mejor rendimiento en varios niveles de bits, pero tiene dificultades para estabilizar las normas de los gradientes, requiriendo un ajuste cuidadoso de la tasa de aprendizaje. Para abordar estas limitaciones, proponemos Stable-SPAM, que incorpora técnicas mejoradas de normalización y recorte de gradientes. En particular, Stable-SPAM (1) actualiza adaptativamente el umbral de recorte para gradientes con picos al rastrear sus máximos históricos; (2) normaliza toda la matriz de gradientes basándose en las estadísticas históricas de su norma l_2; y (3) hereda el reinicio de momento de SPAM para restablecer periódicamente los primeros y segundos momentos de Adam, mitigando la acumulación de gradientes con picos. Experimentos extensos muestran que Stable-SPAM estabiliza efectivamente las normas de los gradientes en el entrenamiento de modelos de lenguaje grandes (LLM) de 4 bits, ofreciendo un rendimiento superior en comparación con Adam y SPAM. Notablemente, nuestro modelo LLaMA-1B de 4 bits entrenado con Stable-SPAM supera al LLaMA-1B entrenado con Adam en precisión BF16 por hasta 2 puntos de perplejidad. Además, cuando ambos modelos se entrenan en 4 bits, Stable-SPAM alcanza la misma pérdida que Adam mientras requiere aproximadamente la mitad de los pasos de entrenamiento. El código está disponible en https://github.com/TianjinYellow/StableSPAM.git.
Los modelos de lenguaje multimodal de gran escala (MLLMs) existentes se entrenan y evalúan predominantemente con entradas visual-textuales consistentes, dejando abierta la cuestión de si pueden manejar inconsistencias en contenido del mundo real con diseños complejos. Para abordar esta brecha, proponemos el benchmark de Razonamiento de Inconsistencias Multimodales (MMIR) para evaluar la capacidad de los MLLMs de detectar y razonar sobre desajustes semánticos en artefactos como páginas web, diapositivas de presentación y carteles. MMIR consta de 534 muestras desafiantes, cada una con errores inyectados sintéticamente en cinco categorías que requieren un razonamiento profundo: Contradicción Factual, Atribución Incorrecta de Identidad, Desajuste Contextual, Discrepancia Cuantitativa e Incoherencia Temporal/Espacial. Evaluamos seis MLLMs de vanguardia, demostrando que modelos con capacidades dedicadas de razonamiento multimodal, como o1, superan sustancialmente a sus contrapartes, mientras que los modelos de código abierto siguen siendo particularmente vulnerables a errores de inconsistencia. Análisis detallados de errores muestran además que los modelos sobresalen en detectar inconsistencias confinadas a una sola modalidad, particularmente en texto, pero luchan con conflictos intermodales y diseños complejos. Experimentos de sondeo revelan que el uso de indicaciones de una sola modalidad, incluyendo métodos como Cadena de Pensamiento (CoT) y Conjunto de Marcas (SoM), ofrece mejoras marginales, revelando un cuello de botella clave en el razonamiento intermodal. Nuestros hallazgos destacan la necesidad de avanzar en el razonamiento multimodal y apuntan a futuras investigaciones sobre inconsistencias multimodales.
Las decisiones de lanzamiento de IA generativa determinan si los componentes del sistema se ponen a disposición, pero el lanzamiento no aborda muchos otros elementos que cambian cómo los usuarios y las partes interesadas pueden interactuar con un sistema. Más allá del lanzamiento, el acceso a los componentes del sistema informa sobre los riesgos y beneficios potenciales. El acceso se refiere a las necesidades prácticas, tanto a nivel de infraestructura, técnico y social, para poder utilizar los componentes disponibles de alguna manera. Desglosamos el acceso en tres ejes: recursos, usabilidad técnica y utilidad. Dentro de cada categoría, un conjunto de variables por componente del sistema aclara las compensaciones. Por ejemplo, los recursos requieren acceso a infraestructura computacional para servir los pesos del modelo. También comparamos la accesibilidad de cuatro modelos de lenguaje de alto rendimiento, dos de pesos abiertos y dos de pesos cerrados, mostrando consideraciones similares para todos basadas en variables de acceso. Las variables de acceso establecen la base para poder escalar o aumentar el acceso a los usuarios; examinamos la escala de acceso y cómo esta escala afecta la capacidad de gestionar e intervenir en los riesgos. Este marco abarca mejor el panorama y las compensaciones de riesgo-beneficio de los lanzamientos de sistemas para informar decisiones de lanzamiento, investigación y políticas.
El rápido aumento en el uso de dispositivos móviles exige una mejora en la automatización para una gestión fluida de tareas. Sin embargo, muchos marcos de trabajo impulsados por IA enfrentan dificultades debido a un conocimiento operativo insuficiente. El conocimiento escrito manualmente ayuda, pero resulta laborioso e ineficiente. Para abordar estos desafíos, presentamos Mobile-Agent-V, un marco que aprovecha la guía de video para proporcionar un conocimiento operativo rico y rentable para la automatización móvil. Mobile-Agent-V mejora las capacidades de ejecución de tareas al utilizar entradas de video sin requerir muestreo o preprocesamiento especializado. Mobile-Agent-V integra una estrategia de ventana deslizante e incorpora un agente de video y un agente de reflexión profunda para garantizar que las acciones se alineen con las instrucciones del usuario. A través de este enfoque innovador, los usuarios pueden grabar procesos de tareas con guía, permitiendo que el sistema aprenda y ejecute tareas de manera autónoma y eficiente. Los resultados experimentales muestran que Mobile-Agent-V logra una mejora del 30% en el rendimiento en comparación con los marcos existentes.
Resolver problemas complejos de manipulación robótica de largo horizonte requiere capacidades sofisticadas de planificación de alto nivel, la habilidad de razonar sobre el mundo físico y seleccionar de manera reactiva las habilidades motoras adecuadas. Los modelos de visión y lenguaje (VLMs, por sus siglas en inglés) preentrenados con datos de Internet podrían, en principio, ofrecer un marco para abordar tales problemas. Sin embargo, en su forma actual, los VLMs carecen tanto de la comprensión matizada de la física intrincada necesaria para la manipulación robótica como de la capacidad de razonar a lo largo de horizontes prolongados para abordar problemas de acumulación de errores. En este artículo, presentamos un marco novedoso de computación en tiempo de prueba que mejora las capacidades de razonamiento físico de los VLMs para tareas de manipulación de múltiples etapas. En esencia, nuestro enfoque mejora iterativamente un VLM preentrenado con un mecanismo de "reflexión": utiliza un modelo generativo para imaginar estados futuros del mundo, aprovecha estas predicciones para guiar la selección de acciones y reflexiona críticamente sobre posibles suboptimalidades para refinar su razonamiento. Los resultados experimentales demuestran que nuestro método supera significativamente a varios VLMs comerciales de vanguardia, así como a otros enfoques de post-entrenamiento como la Búsqueda de Árbol de Monte Carlo (MCTS). Los videos están disponibles en https://reflect-vlm.github.io.
Presentamos X-Dancer, una novedosa pipeline de animación de imágenes impulsada por música en modo zero-shot que genera videos diversos y de larga duración con movimientos realistas de baile humano a partir de una única imagen estática. En su núcleo, introducimos un marco unificado de transformador-difusión, que incluye un modelo transformador autoregresivo que sintetiza secuencias extendidas y sincronizadas con la música de tokens para poses 2D del cuerpo, la cabeza y las manos, las cuales guían a un modelo de difusión para producir fotogramas coherentes y realistas de videos de baile. A diferencia de los métodos tradicionales que principalmente generan movimiento humano en 3D, X-Dancer aborda las limitaciones de datos y mejora la escalabilidad al modelar un amplio espectro de movimientos de baile en 2D, capturando su alineación matizada con los ritmos musicales a través de videos monoculares fácilmente disponibles. Para lograr esto, primero construimos una representación de tokens espacialmente composicional a partir de etiquetas de poses humanas 2D asociadas con confianzas de puntos clave, codificando tanto movimientos articulados amplios del cuerpo (por ejemplo, parte superior e inferior) como movimientos detallados (por ejemplo, cabeza y manos). Luego diseñamos un modelo transformador de música a movimiento que genera autoregresivamente secuencias de tokens de poses de baile alineadas con la música, incorporando atención global tanto al estilo musical como al contexto de movimiento previo. Finalmente, aprovechamos un backbone de difusión para animar la imagen de referencia con estos tokens de poses sintetizados a través de AdaIN, formando un marco completamente diferenciable de extremo a extremo. Los resultados experimentales demuestran que X-Dancer es capaz de producir videos de baile tanto diversos como caracterizados, superando sustancialmente a los métodos más avanzados en términos de diversidad, expresividad y realismo. El código y el modelo estarán disponibles para fines de investigación.
Este artículo desarrolla un marco agencial que emplea modelos de lenguaje de gran escala (LLMs) para automatizar la generación de contenido de marketing persuasivo y fundamentado, utilizando las descripciones de listados inmobiliarios como nuestro dominio de aplicación principal. Nuestro método está diseñado para alinear el contenido generado con las preferencias del usuario, destacando al mismo tiempo atributos factuales útiles. Este agente consta de tres módulos clave: (1) Módulo de Fundamentación, que imita el comportamiento humano experto para predecir características comercializables; (2) Módulo de Personalización, que alinea el contenido con las preferencias del usuario; (3) Módulo de Marketing, que garantiza la precisión factual y la inclusión de características localizadas. Realizamos experimentos sistemáticos con sujetos humanos en el ámbito del marketing inmobiliario, con un grupo focal de compradores potenciales de viviendas. Los resultados demuestran que las descripciones de marketing generadas por nuestro enfoque son preferidas sobre las escritas por expertos humanos por un margen claro. Nuestros hallazgos sugieren un marco agencial prometedor basado en LLMs para automatizar el marketing dirigido a gran escala, asegurando al mismo tiempo una generación responsable utilizando únicamente hechos.
A medida que el panorama de IA de pesos abiertos continúa proliferando—con el desarrollo de modelos, inversiones significativas y el interés de los usuarios—se vuelve cada vez más importante predecir qué modelos impulsarán finalmente la innovación y moldearán los ecosistemas de IA. Basándonos en paralelismos con la dinámica de citas en la literatura científica, proponemos un marco para cuantificar cómo evoluciona la influencia de un modelo de pesos abiertos. Específicamente, adaptamos el modelo introducido por Wang et al. para citas científicas, utilizando tres parámetros clave—inmediatez, longevidad y aptitud relativa—para rastrear el número acumulado de modelos ajustados de un modelo de pesos abiertos. Nuestros hallazgos revelan que este enfoque de estilo de citas puede capturar efectivamente las diversas trayectorias de adopción de modelos de pesos abiertos, con la mayoría de los modelos ajustándose bien y los valores atípicos indicando patrones únicos o saltos abruptos en el uso.
La organización jerárquica es fundamental en los sistemas biológicos y en las sociedades humanas, sin embargo, los sistemas de inteligencia artificial suelen depender de arquitecturas monolíticas que limitan la adaptabilidad y la escalabilidad. Los enfoques actuales de aprendizaje por refuerzo jerárquico (HRL, por sus siglas en inglés) generalmente restringen las jerarquías a dos niveles o requieren un entrenamiento centralizado, lo que limita su aplicabilidad práctica. Presentamos el Marco de Agentes TAME (TAG, por sus siglas en inglés), un marco para construir sistemas multiagente jerárquicos completamente descentralizados. TAG permite jerarquías de profundidad arbitraria a través de un nuevo concepto llamado LevelEnv, que abstrae cada nivel de la jerarquía como el entorno para los agentes superiores. Este enfoque estandariza el flujo de información entre niveles mientras mantiene un acoplamiento flexible, permitiendo la integración fluida de diversos tipos de agentes. Demostramos la efectividad de TAG implementando arquitecturas jerárquicas que combinan diferentes agentes de aprendizaje por refuerzo en múltiples niveles, logrando un rendimiento mejorado en comparación con los enfoques clásicos de aprendizaje por refuerzo multiagente en benchmarks estándar. Nuestros resultados muestran que la organización jerárquica descentralizada mejora tanto la velocidad de aprendizaje como el rendimiento final, posicionando a TAG como una dirección prometedora para sistemas multiagente escalables.
El razonamiento temporal es fundamental para la cognición humana y es crucial para diversas aplicaciones del mundo real. Si bien los avances recientes en los Modelos de Lenguaje de Gran Escala (LLMs) han demostrado capacidades prometedoras en el razonamiento temporal, los puntos de referencia existentes se basan principalmente en construcciones basadas en reglas, carecen de profundidad contextual y abarcan un rango limitado de entidades temporales. Para abordar estas limitaciones, presentamos Chinese Time Reasoning (CTM), un punto de referencia diseñado para evaluar los LLMs en el razonamiento temporal dentro del amplio alcance de la cronología dinástica china. CTM enfatiza las relaciones entre entidades, la alineación temporal por pares y el razonamiento contextualizado y culturalmente fundamentado, proporcionando una evaluación integral. Los resultados experimentales extensivos revelan los desafíos planteados por CTM y destacan posibles vías de mejora.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han mostrado mejoras notables en el razonamiento, y muchos de los puntos de referencia existentes han sido abordados total o parcialmente por modelos como o1 y o3. Sin embargo, la mayoría de estos puntos de referencia se centran en el razonamiento deductivo, incluyendo tareas matemáticas y de programación en las que reglas como los axiomas matemáticos o la sintaxis de programación están claramente definidas, permitiendo que los LLMs planifiquen y apliquen estas reglas para llegar a una solución. En contraste, el razonamiento inductivo, donde se infieren las reglas subyacentes a partir de datos observados, ha sido menos explorado. Estos procesos inductivos son fundamentales para el descubrimiento científico, ya que permiten a los investigadores extraer principios generales a partir de observaciones empíricas. Para evaluar si los LLMs poseen esta capacidad, presentamos InductionBench, un nuevo punto de referencia diseñado para evaluar la capacidad de razonamiento inductivo de los LLMs. Nuestros hallazgos experimentales revelan que incluso los modelos más avanzados disponibles tienen dificultades para dominar las clases de complejidad más simples dentro de la jerarquía subregular de funciones, destacando una deficiencia notable en las capacidades de razonamiento inductivo de los LLMs actuales. El código y los datos están disponibles en https://github.com/Wenyueh/inductive_reasoning_benchmark.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han surgido como herramientas poderosas para abordar desafíos modernos y habilitar aplicaciones prácticas. Sin embargo, su costo computacional sigue siendo una barrera significativa para su adopción generalizada. La cuantización ha surgido como una técnica prometedora para democratizar el acceso y permitir el despliegue en dispositivos con recursos limitados. A pesar de estos avances, la seguridad y confiabilidad de los modelos cuantizados siguen siendo poco exploradas, ya que estudios previos a menudo pasan por alto arquitecturas contemporáneas y se basan en benchmarks y evaluaciones excesivamente simplistas. Para abordar esta brecha, presentamos OpenSafetyMini, un nuevo conjunto de datos de seguridad de formato abierto diseñado para distinguir mejor entre modelos. Evaluamos 4 técnicas de cuantización de vanguardia en modelos LLaMA y Mistral utilizando 4 benchmarks, incluyendo evaluaciones humanas. Nuestros hallazgos revelan que el método de cuantización óptimo varía para precisión de 4 bits, mientras que las técnicas de cuantización vectorial ofrecen el mejor rendimiento en seguridad y confiabilidad a 2 bits de precisión, sentando las bases para futuras investigaciones.
Este informe presenta un marco integral para la generación de formas 3D y texturas de alta calidad a partir de diversas entradas, incluyendo imágenes individuales, imágenes multivista y descripciones textuales. El marco consta de dos componentes principales: generación de formas 3D y generación de texturas. (1). La canalización de generación de formas 3D emplea un Autoencoder Variacional (VAE) para codificar geometrías 3D implícitas en un espacio latente y una red de difusión para generar latentes condicionados por las entradas, con modificaciones para mejorar la capacidad del modelo. También se explora un enfoque alternativo de generación de mallas creadas por artistas (AM), obteniendo resultados prometedores para geometrías más simples. (2). La generación de texturas implica un proceso de múltiples etapas que comienza con la generación de imágenes frontales, seguida de la generación de imágenes multivista, la conversión de texturas RGB a PBR y el refinamiento de texturas multivista de alta resolución. Un planificador de consistencia se integra en cada etapa para garantizar la coherencia píxel a píxel entre las texturas multivista durante la inferencia, asegurando una integración sin fisuras. La canalización demuestra un manejo efectivo de diversos formatos de entrada, aprovechando arquitecturas neuronales avanzadas y metodologías novedosas para producir contenido 3D de alta calidad. Este informe detalla la arquitectura del sistema, los resultados experimentales y las posibles direcciones futuras para mejorar y expandir el marco. El código fuente y los pesos preentrenados se publican en: https://github.com/Tencent/Tencent-XR-3DGen.
Dos estrategias comúnmente empleadas para combatir el aumento de la desinformación en las redes sociales son (i) la verificación de hechos por parte de organizaciones profesionales y (ii) la moderación comunitaria por parte de los usuarios de las plataformas. Los cambios de políticas en Twitter/X y, más recientemente, en Meta, indican un alejamiento de las asociaciones con organizaciones de verificación de hechos y un mayor enfoque en las notas comunitarias generadas por la multitud. Sin embargo, el alcance y la naturaleza de las dependencias entre la verificación de hechos y las notas comunitarias útiles siguen siendo poco claros. Para abordar estas preguntas, utilizamos modelos de lenguaje para anotar un gran corpus de notas comunitarias de Twitter/X con atributos como el tema, las fuentes citadas y si refutan afirmaciones vinculadas a narrativas más amplias de desinformación. Nuestro análisis revela que las notas comunitarias citan fuentes de verificación de hechos hasta cinco veces más de lo que se había informado anteriormente. La verificación de hechos es especialmente crucial para las notas sobre publicaciones vinculadas a narrativas más amplias, que tienen el doble de probabilidades de hacer referencia a fuentes de verificación de hechos en comparación con otras fuentes. En conclusión, nuestros resultados muestran que la moderación comunitaria exitosa depende en gran medida de la verificación de hechos profesional.
Cuando un humano solicita a un LLM que complete una tarea de codificación utilizando funcionalidades de un repositorio de código extenso, ¿cómo proporcionamos el contexto del repositorio al LLM? Un enfoque es agregar todo el repositorio a la ventana de contexto del LLM. Sin embargo, la mayoría de las tareas involucran solo una fracción de los símbolos de un repositorio, los contextos más largos perjudican las capacidades de razonamiento del LLM, y las ventanas de contexto no son ilimitadas. Alternativamente, podríamos emular la capacidad humana de navegar por un repositorio grande, seleccionar la funcionalidad correcta y formular un plan para resolver la tarea. Proponemos MutaGReP (Mutation-guided Grounded Repository Plan Search), un enfoque para buscar planes que descompongan una solicitud del usuario en pasos de lenguaje natural fundamentados en la base de código. MutaGReP realiza una búsqueda de árbol neuronal en el espacio de planes, explorando mediante la mutación de planes y utilizando un recuperador de símbolos para la fundamentación. En el desafiante benchmark LongCodeArena, nuestros planes utilizan menos del 5% de la ventana de contexto de 128K para GPT-4o, pero igualan el rendimiento de codificación de GPT-4o con una ventana de contexto llena del repositorio. Los planes generados por MutaGReP permiten que Qwen 2.5 Coder 32B y 72B igualen el rendimiento de GPT-4o con el contexto completo del repositorio y permiten avanzar en las tareas más difíciles de LongCodeArena. Página del proyecto: zaidkhan.me/MutaGReP
A medida que los chatbots de IA se vuelven omnipresentes, la interacción por voz representa una forma convincente de habilitar una comunicación rápida y de alto ancho de banda tanto para señales semánticas como sociales. Esto ha impulsado la investigación en Modelos de Audio a Gran Escala (LAMs, por sus siglas en inglés) para potenciar experiencias nativas de voz. Sin embargo, alinear el desarrollo de LAMs con los objetivos del usuario requiere una comprensión clara de las necesidades y preferencias de los usuarios para establecer métricas de progreso confiables. Este estudio aborda estos desafíos al introducir un enfoque interactivo para evaluar LAMs y recopilar 7,500 interacciones con LAMs de 484 participantes. Mediante el modelado de temas de las consultas de los usuarios, identificamos los casos de uso principales para interfaces de audio. Luego, analizamos las clasificaciones de preferencia de los usuarios y los comentarios cualitativos para determinar qué modelos se alinean mejor con las necesidades de los usuarios. Finalmente, evaluamos cómo los puntos de referencia estáticos predicen el rendimiento interactivo: nuestro análisis revela que ningún punto de referencia individual se correlaciona fuertemente con los resultados interactivos (tau ≤ 0.33 para todos los puntos de referencia). Si bien la combinación de múltiples características de grano grueso ofrece un poder predictivo modesto (R^2=0.30), solo dos de los veinte conjuntos de datos sobre respuestas a preguntas habladas y predicción de edad muestran correlaciones significativamente positivas. Esto sugiere una clara necesidad de desarrollar evaluaciones de LAMs que se correlacionen mejor con las preferencias de los usuarios.
La estimación de calidad está omnipresente en la traducción automática, tanto para la evaluación como para la generación. Desafortunadamente, los modelos de estimación de calidad suelen ser opacos y computacionalmente costosos, lo que los hace poco prácticos para formar parte de pipelines a gran escala. En este trabajo, abordamos dos desafíos interconectados: (1) reducir el costo de la estimación de calidad a escala y (2) desarrollar un método económico de estimación de incertidumbre para la estimación de calidad. Para abordar el segundo, presentamos Instant Confidence COMET, un modelo de estimación de calidad consciente de la incertidumbre que iguala el rendimiento de enfoques anteriores a una fracción de su costo. Extendemos esto a Early-Exit COMET, un modelo de estimación de calidad que puede calcular puntuaciones de calidad y confianzas asociadas ya en las primeras capas del modelo, permitiéndonos salir tempranamente de los cálculos y reducir los costos de evaluación. También aplicamos nuestro modelo a la reordenación de traducciones automáticas. Combinamos Early-Exit COMET con un algoritmo de bandas basado en límites superiores de confianza para encontrar el mejor candidato de un gran conjunto sin necesidad de ejecutar el modelo de evaluación completo en todos los candidatos. En ambos casos (evaluación y reordenación), nuestros métodos reducen el cómputo requerido en un 50% con muy poca degradación en el rendimiento.
Recuperar imágenes de la misma ubicación que una consulta dada es un componente importante de múltiples tareas de visión por computadora, como el Reconocimiento Visual de Lugares, la Recuperación de Puntos de Referencia, la Localización Visual, la Reconstrucción 3D y SLAM. Sin embargo, las soluciones existentes están diseñadas para funcionar específicamente en una de estas tareas y se sabe que fallan cuando los requisitos cambian ligeramente o cuando se enfrentan a datos fuera de distribución. En este artículo, combinamos una variedad de métodos existentes, técnicas de entrenamiento y conjuntos de datos para entrenar un modelo de recuperación, llamado MegaLoc, que es eficaz en múltiples tareas. Descubrimos que MegaLoc (1) alcanza el estado del arte en un gran número de conjuntos de datos de Reconocimiento Visual de Lugares, (2) obtiene resultados impresionantes en conjuntos de datos comunes de Recuperación de Puntos de Referencia, y (3) establece un nuevo estado del arte para la Localización Visual en los conjuntos de datos LaMAR, donde solo modificamos el método de recuperación en la tubería de localización existente. El código de MegaLoc está disponible en https://github.com/gmberton/MegaLoc.
Responder a preguntas complejas de contexto largo sigue siendo un desafío importante para los modelos de lenguaje de gran escala (LLMs), ya que requiere aclaraciones efectivas de las preguntas y recuperación de contexto. Proponemos Comprensión de Contexto Largo Agéntica (AgenticLU), un marco diseñado para mejorar la comprensión de un LLM sobre dichas consultas mediante la integración de auto-aclaraciones específicas con fundamentación contextual dentro de un flujo de trabajo agéntico. En el núcleo de AgenticLU se encuentra la Cadena de Aclaraciones (CoC), donde los modelos refinan su comprensión a través de preguntas de aclaración autogeneradas y fundamentaciones contextuales correspondientes. Al escalar la inferencia como una búsqueda en árbol donde cada nodo representa un paso de CoC, logramos un 97.8% de recuperación de respuestas en NarrativeQA con una profundidad de búsqueda de hasta tres y un factor de ramificación de ocho. Para amortizar el alto costo de este proceso de búsqueda durante el entrenamiento, aprovechamos los pares de preferencia para cada paso obtenidos por el flujo de trabajo CoC y realizamos un ajuste fino del modelo en dos etapas: (1) ajuste fino supervisado para aprender estrategias efectivas de descomposición, y (2) optimización directa de preferencias para mejorar la calidad del razonamiento. Esto permite que los modelos AgenticLU generen aclaraciones y recuperen contexto relevante de manera efectiva y eficiente en una sola pasada de inferencia. Experimentos extensos en siete tareas de contexto largo demuestran que AgenticLU supera significativamente los métodos de prompting de vanguardia y los LLMs especializados en contexto largo, logrando un razonamiento multi-salto robusto mientras mantiene un rendimiento consistente a medida que crece la longitud del contexto.
Presentamos MONSTER, el Repositorio de Evaluación de Series Temporales Escalable de MONash, una colección de grandes conjuntos de datos para la clasificación de series temporales. El campo de la clasificación de series temporales se ha beneficiado de los puntos de referencia comunes establecidos por los repositorios de clasificación de series temporales UCR y UEA. Sin embargo, los conjuntos de datos en estos puntos de referencia son pequeños, con tamaños medianos de 217 y 255 ejemplos, respectivamente. Como consecuencia, favorecen un subespacio reducido de modelos que están optimizados para lograr un bajo error de clasificación en una amplia variedad de conjuntos de datos más pequeños, es decir, modelos que minimizan la varianza y dan poco peso a cuestiones computacionales como la escalabilidad. Nuestra esperanza es diversificar el campo introduciendo puntos de referencia que utilicen conjuntos de datos más grandes. Creemos que existe un enorme potencial para nuevos avances en el campo al abordar los desafíos teóricos y prácticos de aprender de manera efectiva a partir de cantidades más grandes de datos.
La pandemia de COVID-19 tensionó los recursos sanitarios y generó discusiones sobre cómo el aprendizaje automático podría aliviar la carga de los médicos y contribuir al diagnóstico. Las radiografías de tórax (CXR, por sus siglas en inglés) se utilizan para diagnosticar COVID-19, pero pocos estudios predicen la gravedad de la condición del paciente a partir de estas. En este estudio, generamos un amplio conjunto de datos sobre la gravedad de COVID-19 al fusionar tres fuentes e investigamos la eficacia del aprendizaje por transferencia utilizando modelos preentrenados en ImageNet y CXR, así como transformadores de visión (ViTs), tanto en tareas de regresión como de clasificación de gravedad. Un modelo DenseNet161 preentrenado obtuvo los mejores resultados en la predicción de gravedad de tres clases, alcanzando un 80% de precisión general y un 77.3%, 83.9% y 70% en casos leves, moderados y graves, respectivamente. El ViT logró los mejores resultados en regresión, con un error absoluto medio de 0.5676 en comparación con las puntuaciones de gravedad predichas por radiólogos. El código fuente del proyecto está disponible públicamente.
El rápido avance de los modelos de imágenes generadas por IA (AGI) ha introducido desafíos significativos en la evaluación de su calidad, lo que requiere considerar múltiples dimensiones, como la calidad perceptual, la correspondencia con el prompt y la autenticidad. Para abordar estos desafíos, proponemos M3-AGIQA, un marco integral para la evaluación de la calidad de AGI que es Multimodal, Multi-Ronda y Multi-Aspecto. Nuestro enfoque aprovecha las capacidades de los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) como codificadores conjuntos de texto e imágenes y destila capacidades avanzadas de generación de subtítulos de MLLMs en línea en un modelo local mediante ajuste fino de Adaptación de Bajo Rango (LoRA). El marco incluye un mecanismo estructurado de evaluación multi-ronda, donde se generan descripciones intermedias de imágenes para proporcionar una visión más profunda de los aspectos de calidad, correspondencia y autenticidad. Para alinear las predicciones con los juicios perceptuales humanos, se incorpora un predictor construido por un xLSTM y una cabeza de regresión para procesar logits secuenciales y predecir Puntuaciones Medias de Opinión (MOSs). Experimentos extensivos realizados en múltiples conjuntos de datos de referencia demuestran que M3-AGIQA alcanza un rendimiento de vanguardia, capturando efectivamente aspectos matizados de la calidad de AGI. Además, la validación cruzada entre conjuntos de datos confirma su fuerte generalización. El código está disponible en https://github.com/strawhatboy/M3-AGIQA.
La esfera browniana es un espacio métrico aleatorio, homeomorfo a la esfera bidimensional, que surge como el límite de escala universal de muchos tipos de mapas planos aleatorios. La construcción directa de la esfera browniana se realiza mediante un análogo continuo de la biyección de Cori-Vauquelin-Schaeffer (CVS). La biyección CVS mapea árboles etiquetados a mapas planos, y la versión continua mapea el árbol aleatorio continuo de Aldous con etiquetas brownianas (la serpiente browniana) a la esfera browniana. En este trabajo, describimos la inversa de la biyección CVS continua, construyendo la serpiente browniana como una función medible de la esfera browniana. Se requiere especial cuidado para trabajar con la orientación de la esfera browniana.