Artículos de investigación en IA seleccionados diariamente con traducciones
Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han permitido que los agentes basados en LLMs aborden con éxito tareas de planificación interactiva. Sin embargo, a pesar de sus logros, los enfoques existentes suelen sufrir de alucinaciones en la planificación y requieren reentrenamiento para cada nuevo agente. Para abordar estos desafíos, proponemos el marco de Optimización de Meta Planes (MPO, por sus siglas en inglés), que mejora las capacidades de planificación de los agentes al incorporar directamente orientación explícita. A diferencia de métodos anteriores que dependen de conocimiento complejo, los cuales requieren un esfuerzo humano significativo o carecen de garantía de calidad, MPO aprovecha orientación general de alto nivel a través de meta planes para asistir en la planificación del agente y permite la optimización continua de los meta planes basada en la retroalimentación de la ejecución de tareas del agente. Nuestros experimentos, realizados en dos tareas representativas, demuestran que MPO supera significativamente a los enfoques basales existentes. Además, nuestro análisis indica que MPO ofrece una solución plug-and-play que mejora tanto la eficiencia en la finalización de tareas como las capacidades de generalización en escenarios previamente no vistos.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado capacidades notables como agentes autónomos, sin embargo, los puntos de referencia existentes se centran en tareas de un solo agente o se limitan a dominios estrechos, sin capturar la dinámica de la coordinación y competencia multiagente. En este artículo, presentamos MultiAgentBench, un punto de referencia integral diseñado para evaluar sistemas multiagente basados en LLMs en diversos escenarios interactivos. Nuestro marco no solo mide la finalización de tareas, sino también la calidad de la colaboración y la competencia utilizando indicadores clave de rendimiento novedosos basados en hitos. Además, evaluamos varios protocolos de coordinación (incluyendo topologías en estrella, cadena, árbol y grafo) y estrategias innovadoras como la discusión grupal y la planificación cognitiva. Cabe destacar que gpt-4o-mini alcanza la puntuación promedio más alta en tareas, la estructura de grafo es la que mejor desempeño tiene entre los protocolos de coordinación en el escenario de investigación, y la planificación cognitiva mejora las tasas de logro de hitos en un 3%. El código y los conjuntos de datos están disponibles públicamente en https://github.com/MultiagentBench/MARBLE.
El aumento de la desinformación, exacerbado por los Modelos de Lenguaje a Gran Escala (LLMs) como GPT y Gemini, exige soluciones robustas de verificación de hechos, especialmente para idiomas de bajos recursos como el vietnamita. Los métodos existentes luchan contra la ambigüedad semántica, los homónimos y las estructuras lingüísticas complejas, a menudo sacrificando precisión por eficiencia. Presentamos SemViQA, un novedoso marco de verificación de hechos en vietnamita que integra la Recuperación de Evidencias Basada en Semántica (SER) y la Clasificación de Veredicto en Dos Pasos (TVC). Nuestro enfoque equilibra precisión y velocidad, logrando resultados de vanguardia con un 78.97\% de precisión estricta en ISE-DSC01 y un 80.82\% en ViWikiFC, asegurando el primer lugar en el UIT Data Science Challenge. Además, SemViQA Faster mejora la velocidad de inferencia 7 veces mientras mantiene una precisión competitiva. SemViQA establece un nuevo estándar para la verificación de hechos en vietnamita, avanzando en la lucha contra la desinformación. El código fuente está disponible en: https://github.com/DAVID-NGUYEN-S16/SemViQA.
En este artículo, presentamos un análisis exhaustivo del impacto de los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) en Wikipedia, examinando la evolución de Wikipedia a través de datos existentes y utilizando simulaciones para explorar riesgos potenciales. Comenzamos analizando las visualizaciones de páginas y el contenido de los artículos para estudiar los cambios recientes en Wikipedia y evaluar el impacto de los LLMs. Posteriormente, evaluamos cómo los LLMs afectan diversas tareas de Procesamiento del Lenguaje Natural (NLP) relacionadas con Wikipedia, incluyendo la traducción automática y la generación aumentada por recuperación (RAG, por sus siglas en inglés). Nuestros hallazgos y resultados de simulación revelan que los artículos de Wikipedia han sido influenciados por los LLMs, con un impacto de aproximadamente 1%-2% en ciertas categorías. Si el punto de referencia de traducción automática basado en Wikipedia se ve influenciado por los LLMs, las puntuaciones de los modelos podrían inflarse y los resultados comparativos entre modelos podrían cambiar también. Además, la efectividad de RAG podría disminuir si la base de conocimiento se contamina con contenido generado por LLMs. Aunque los LLMs aún no han cambiado completamente las estructuras lingüísticas y de conocimiento de Wikipedia, creemos que nuestros hallazgos empíricos señalan la necesidad de considerar cuidadosamente los riesgos potenciales en el futuro.
Presentamos LADDER (Aprendizaje a través de Recursión Autónoma de Ejemplos Guiada por Dificultad), un marco que permite a los Modelos de Lenguaje de Gran Escala mejorar autónomamente sus capacidades de resolución de problemas mediante el aprendizaje autoguiado, generando y resolviendo de manera recursiva variantes progresivamente más simples de problemas complejos. A diferencia de enfoques previos que requieren conjuntos de datos curados o retroalimentación humana, LADDER aprovecha las propias capacidades del modelo para generar variantes más sencillas de preguntas. Demostramos la efectividad de LADDER en el tema de integración matemática, mejorando la precisión de Llama 3.2 3B del 1% al 82% en problemas de nivel universitario y permitiendo que Qwen2.5 7B Deepseek-R1 Distilled alcance un 73% en el examen de calificación del MIT Integration Bee. También introducimos TTRL (Aprendizaje por Refuerzo en Tiempo de Prueba), donde realizamos aprendizaje por refuerzo en variantes de problemas de prueba durante la inferencia. TTRL permite que Qwen2.5 7B Deepseek-R1 Distilled logre un puntaje de vanguardia del 90% en el examen de calificación del MIT Integration Bee, superando el rendimiento de OpenAI o1. Estos resultados muestran cómo el aprendizaje estratégico autodirigido puede lograr mejoras significativas en las capacidades sin depender de la escalabilidad arquitectónica o la supervisión humana.
Los modelos de lenguaje de gran escala (LLMs) exhiben alucinaciones (es decir, información infiel o sin sentido) cuando actúan como asistentes de IA en diversos dominios. Dado que las alucinaciones siempre vienen acompañadas de contenido veraz en las respuestas de los LLMs, los métodos previos de alineación de factualidad que realizan aprendizaje de preferencias a nivel de respuesta inevitablemente introdujeron ruido durante el entrenamiento. Por lo tanto, este artículo propone un método de alineación de factualidad de grano fino basado en Optimización Directa de Preferencias (DPO), llamado Mask-DPO. Al incorporar la factualidad a nivel de oración como señales de máscara, Mask-DPO solo aprende de oraciones factualmente correctas en las muestras preferidas y evita penalizar el contenido factual en las muestras no preferidas, lo que resuelve la ambigüedad en el aprendizaje de preferencias. Los resultados experimentales extensivos demuestran que Mask-DPO puede mejorar significativamente la factualidad de las respuestas de los LLMs a preguntas de conjuntos de datos tanto dentro como fuera del dominio, aunque estas preguntas y sus temas correspondientes no se hayan visto durante el entrenamiento. Solo entrenado en el conjunto de entrenamiento de ANAH, la puntuación de Llama3.1-8B-Instruct en el conjunto de prueba de ANAH mejora del 49.19% al 77.53%, superando incluso la puntuación de Llama3.1-70B-Instruct (53.44%), mientras que su FactScore en el conjunto de datos fuera del dominio de Biografía también mejora del 30.29% al 39.39%. Además, estudiamos la propiedad de generalización de Mask-DPO utilizando diferentes estrategias de escalado de muestras de entrenamiento y encontramos que escalar el número de temas en el conjunto de datos es más efectivo que el número de preguntas. Proporcionamos una hipótesis sobre lo que la alineación de factualidad está haciendo con los LLMs, sobre la implicación de este fenómeno, y realizamos experimentos de prueba de concepto para verificarla. Esperamos que el método y los hallazgos allanen el camino para futuras investigaciones sobre el escalado de la alineación de factualidad.
Los avances recientes en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se han centrado en producir respuestas que cumplan con las expectativas humanas y se alineen con valores compartidos, un proceso denominado alineación. Sin embargo, alinear los LLMs sigue siendo un desafío debido a la desconexión inherente entre la complejidad de los valores humanos y la naturaleza limitada de los enfoques tecnológicos diseñados para abordarlos. Los métodos actuales de alineación a menudo resultan en objetivos mal especificados, reflejando el problema más amplio de los contratos incompletos, es decir, la impracticabilidad de especificar un contrato entre un desarrollador de modelos y el modelo que tenga en cuenta cada escenario en la alineación de los LLMs. En este artículo, argumentamos que mejorar la alineación de los LLMs requiere incorporar ideas de los marcos de alineación social, incluyendo la alineación social, económica y contractual, y discutimos posibles soluciones extraídas de estos dominios. Dado el papel de la incertidumbre dentro de los marcos de alineación social, investigamos cómo se manifiesta en la alineación de los LLMs. Concluimos nuestra discusión ofreciendo una visión alternativa sobre la alineación de los LLMs, enmarcando la naturaleza subespecificada de sus objetivos como una oportunidad en lugar de perfeccionar su especificación. Más allá de las mejoras técnicas en la alineación de los LLMs, discutimos la necesidad de diseños de interfaces de alineación participativa.
La adaptación de modelos generativos a dominios específicos presenta una solución efectiva para satisfacer requisitos especializados. Sin embargo, adaptarse a algunos dominios complejos sigue siendo un desafío, especialmente cuando estos dominios requieren una cantidad sustancial de datos emparejados para capturar las distribuciones objetivo. Dado que los datos no emparejados de una sola modalidad, como la visión o el lenguaje, están más fácilmente disponibles, utilizamos las correspondencias bidireccionales entre visión y lenguaje aprendidas por el modelo generativo unificado para permitir el entrenamiento con datos no emparejados para la adaptación de dominio. Específicamente, proponemos DoraCycle, que integra dos ciclos multimodales: texto-a-imagen-a-texto e imagen-a-texto-a-imagen. El modelo se optimiza mediante la pérdida de entropía cruzada calculada en los extremos del ciclo, donde ambos extremos comparten la misma modalidad. Esto facilita la auto-evolución del modelo sin depender de pares de texto-imagen anotados. Los resultados experimentales demuestran que, para tareas independientes del conocimiento emparejado, como la estilización, DoraCycle puede adaptar efectivamente el modelo unificado utilizando solo datos no emparejados. Para tareas que involucran nuevo conocimiento emparejado, como identidades específicas, una combinación de un pequeño conjunto de ejemplos de pares imagen-texto y datos no emparejados a mayor escala es suficiente para una adaptación orientada al dominio efectiva. El código se publicará en https://github.com/showlab/DoraCycle.
El paralelismo de tuberías (PP) es ampliamente utilizado para entrenar modelos de lenguaje grandes (LLMs), sin embargo, su escalabilidad a menudo se ve limitada por el alto consumo de memoria de activaciones a medida que el número de micro-lotes en proceso aumenta con el grado de PP. En este artículo, nos enfocamos en abordar este desafío aprovechando la estrategia de descarga de memoria poco explorada en PP. Mediante un estudio empírico, descubrimos que en la mayoría de las configuraciones estándar, al menos la mitad, y potencialmente todas, las activaciones pueden ser descargadas con un impacto mínimo en el rendimiento. En los casos donde la descarga completa no es posible, introducimos una novedosa estrategia de descarga selectiva que reduce la memoria máxima de activaciones de manera mejor que lineal. Además, integramos la descarga de memoria con otras técnicas para considerar conjuntamente el rendimiento general y las limitaciones de memoria. Nuestros experimentos demuestran que la memoria de activaciones por dispositivo se reduce efectivamente con el número total de etapas, haciendo que PP sea una alternativa más fuerte que TP, ofreciendo una aceleración de hasta un 19\% con un consumo de memoria aún menor. La implementación es de código abierto en https://github.com/sail-sg/zero-bubble-pipeline-parallelism{este enlace}.
Si bien el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) se ha convertido en el método predominante para controlar las salidas de los modelos de lenguaje, adolece de altos costos computacionales e inestabilidad en el entrenamiento. La decodificación guiada, especialmente los métodos basados en valores, ofrece una alternativa rentable al controlar las salidas sin necesidad de reentrenar los modelos. Sin embargo, la precisión de la función de valor es crucial para la decodificación guiada por valores, ya que las imprecisiones pueden llevar a una toma de decisiones subóptima y a un rendimiento degradado. Los métodos existentes tienen dificultades para estimar con precisión la función de valor óptima, lo que resulta en un control menos efectivo. Proponemos la Optimización Iterativa de la Función de Valor, un marco novedoso que aborda estas limitaciones a través de dos componentes clave: la Estimación de Valor por Monte Carlo, que reduce la varianza de la estimación explorando trayectorias diversas, y la Optimización Iterativa sobre la Política, que mejora progresivamente la estimación del valor mediante la recopilación de trayectorias de políticas guiadas por valores. Experimentos exhaustivos en resumen de texto, diálogo multiturno y seguimiento de instrucciones demuestran la efectividad de los enfoques de decodificación guiada por valores en la alineación de modelos de lenguaje. Estos enfoques no solo logran la alineación, sino que también reducen significativamente los costos computacionales al aprovechar la optimización de la función de valor basada en principios para un control eficiente y efectivo.
Un modelo unificado de video y acción tiene un potencial significativo en robótica, donde los videos proporcionan información rica de la escena para la predicción de acciones, y las acciones ofrecen información dinámica para la predicción de videos. Sin embargo, combinar de manera efectiva la generación de videos y la predicción de acciones sigue siendo un desafío, y los métodos actuales basados en generación de videos tienen dificultades para igualar el rendimiento del aprendizaje directo de políticas en precisión de acciones y velocidad de inferencia. Para cerrar esta brecha, presentamos el Modelo Unificado de Video y Acción (UVA), que optimiza conjuntamente las predicciones de video y acción para lograr tanto alta precisión como inferencia eficiente de acciones. La clave radica en aprender una representación latente conjunta de video-acción y desacoplar la decodificación de video-acción. La representación latente conjunta conecta los dominios visual y de acción, modelando efectivamente la relación entre secuencias de video y acción. Mientras tanto, la decodificación desacoplada, impulsada por dos cabezales de difusión ligeros, permite una inferencia de acciones de alta velocidad al evitar la generación de videos durante la inferencia. Este marco unificado permite además una funcionalidad versátil mediante el entrenamiento con entradas enmascaradas. Al enmascarar selectivamente acciones o videos, un solo modelo puede abordar diversas tareas más allá del aprendizaje de políticas, como el modelado de dinámicas directas e inversas y la generación de videos. A través de un extenso conjunto de experimentos, demostramos que UVA puede servir como una solución de propósito general para una amplia gama de tareas de robótica, como el aprendizaje de políticas, la predicción de dinámicas directas/inversas y la predicción de observaciones de video, sin comprometer el rendimiento en comparación con métodos diseñados para aplicaciones específicas. Los resultados se pueden ver mejor en https://unified-video-action-model.github.io/.
Los modelos de difusión han logrado avances notables en diversas tareas de generación de imágenes. Sin embargo, su rendimiento disminuye notablemente al generar imágenes en resoluciones más altas que las utilizadas durante el período de entrenamiento. A pesar de la existencia de numerosos métodos para producir imágenes de alta resolución, estos adolecen de ineficiencia o se ven obstaculizados por operaciones complejas. En este artículo, proponemos RectifiedHR, una solución eficiente y sencilla para la generación de imágenes de alta resolución sin necesidad de entrenamiento adicional. Específicamente, introducimos la estrategia de refresco de ruido, que teóricamente solo requiere unas pocas líneas de código para desbloquear la capacidad de generación de alta resolución del modelo y mejorar la eficiencia. Además, observamos por primera vez el fenómeno de decaimiento de energía que puede causar borrosidad en las imágenes durante el proceso de generación de alta resolución. Para abordar este problema, proponemos una estrategia de Rectificación de Energía, donde la modificación de los hiperparámetros de la guía sin clasificador mejora efectivamente el rendimiento de la generación. Nuestro método es completamente libre de entrenamiento y cuenta con una lógica de implementación simple. A través de extensas comparaciones con numerosos métodos de referencia, nuestro RectifiedHR demuestra una superioridad en efectividad y eficiencia.
Los recientes avances en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han llevado al desarrollo de agentes inteligentes basados en LLMs capaces de interactuar con interfaces gráficas de usuario (GUIs). Estos agentes demuestran un fuerte razonamiento y adaptabilidad, lo que les permite realizar tareas complejas que tradicionalmente requerían reglas predefinidas. Sin embargo, la dependencia del razonamiento paso a paso en los agentes basados en LLMs a menudo resulta en ineficiencias, particularmente para tareas rutinarias. En contraste, los sistemas tradicionales basados en reglas sobresalen en eficiencia pero carecen de la inteligencia y flexibilidad para adaptarse a escenarios novedosos. Para abordar este desafío, proponemos un marco evolutivo novedoso para agentes GUI que mejora la eficiencia operativa mientras mantiene la inteligencia y flexibilidad. Nuestro enfoque incorpora un mecanismo de memoria que registra el historial de ejecución de tareas del agente. Al analizar este historial, el agente identifica secuencias de acciones repetitivas y evoluciona acciones de alto nivel que actúan como atajos, reemplazando estas operaciones de bajo nivel y mejorando la eficiencia. Esto permite al agente centrarse en tareas que requieren un razonamiento más complejo, mientras simplifica las acciones rutinarias. Los resultados experimentales en múltiples tareas de referencia demuestran que nuestro enfoque supera significativamente a los métodos existentes tanto en eficiencia como en precisión. El código será de código abierto para apoyar investigaciones futuras.
Recopilar recompensas por la finalización de tareas con datos de referencia o demostraciones humanas para tareas de razonamiento de múltiples pasos suele ser costoso y consume mucho tiempo, especialmente en dominios interactivos como las tareas web. Para abordar este cuello de botella, presentamos el método de "autoaprendizaje con visión anticipada" (self-taught lookahead), una técnica autosupervisada que aprovecha la dinámica de transición de estados para entrenar un modelo de valor capaz de guiar eficazmente la búsqueda controlada por modelos de lenguaje. Descubrimos que modelos de valor de tamaño moderado (8 mil millones de parámetros) de código abierto, mejorados con este enfoque, pueden igualar el rendimiento de utilizar un modelo de lenguaje de última generación como GPT-4 como modelo de valor. Además, observamos que el método de autoaprendizaje con visión anticipada mejora el rendimiento en un 20% mientras reduce los costos 37 veces en comparación con búsquedas en árbol basadas en modelos de lenguaje anteriores, sin depender de recompensas con datos de referencia.
Los modelos de lenguaje autoregresivos dependen de una caché Clave-Valor (KV, por sus siglas en inglés), que evita recalcular los estados ocultos pasados durante la generación, haciéndola más rápida. A medida que crecen los tamaños de los modelos y las longitudes de contexto, la caché KV se convierte en un cuello de botella significativo en términos de memoria, lo que exige métodos de compresión que limiten su tamaño durante la generación. En este artículo, descubrimos propiedades sorprendentes de los vectores Consulta (Q) y Clave (K) que nos permiten aproximar eficientemente las puntuaciones de atención sin calcular los mapas de atención. Proponemos Q-Filters, un método de compresión de la caché KV que no requiere entrenamiento y filtra los pares Clave-Valor menos cruciales basándose en una única proyección independiente del contexto. A diferencia de muchas alternativas, Q-Filters es compatible con FlashAttention, ya que no requiere acceso directo a los pesos de atención. Los resultados experimentales en entornos de contexto largo demuestran que Q-Filters compite con métodos de compresión basados en atención, como SnapKV, en tareas de recuperación, mientras que supera consistentemente esquemas de compresión eficientes, como Streaming-LLM, en configuraciones de generación. Destacablemente, Q-Filters logra un 99% de precisión en la tarea de "aguja en un pajar" con un nivel de compresión de x32, al mismo tiempo que reduce la caída de la perplejidad en la generación de texto hasta en un 65% en comparación con Streaming-LLM.
Los agentes de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) han demostrado capacidades de generalización notables en tareas de múltiples dominios. Los enfoques existentes de ajuste de agentes suelen emplear ajuste fino supervisado en trayectorias completas de expertos. Sin embargo, la clonación de comportamiento de trayectorias completas puede introducir sesgos expertos y debilitar la generalización a estados no cubiertos por los datos expertos. Además, pasos críticos, como la planificación, el razonamiento complejo para subtareas intermedias y la toma de decisiones estratégicas, son esenciales para el éxito en tareas de agentes, por lo que aprender estos pasos es clave para mejorar los agentes LLM. Para un ajuste de agentes más efectivo y eficiente, proponemos ATLaS, que identifica los pasos críticos en las trayectorias expertas y ajusta finamente los LLM únicamente en estos pasos con costos reducidos. Al dirigir el enfoque del entrenamiento a unos pocos pasos críticos, nuestro método mitiga el riesgo de sobreajuste de trayectorias completas y promueve la generalización en diferentes entornos y tareas. En experimentos extensos, un LLM ajustado finamente en solo el 30% de los pasos críticos seleccionados por ATLaS supera al LLM ajustado en todos los pasos y a los agentes LLM de código abierto recientes. ATLaS mantiene y mejora las habilidades base de los LLM como agentes generalistas que interactúan con entornos diversos.
Los modelos generalistas han logrado un éxito notable tanto en tareas de lenguaje como en tareas de visión-lenguaje, demostrando el potencial del modelado unificado. Sin embargo, integrar de manera efectiva tareas de percepción de grano fino, como detección y segmentación, en estos modelos sigue siendo un desafío significativo. Esto se debe principalmente a que estas tareas suelen depender en gran medida de diseños y arquitecturas específicas para cada tarea, lo que puede complicar el proceso de modelado. Para abordar este desafío, presentamos \ours, un marco que unifica tareas de percepción visual de grano fino a través de una interfaz de lenguaje abierta. Al transformar todos los objetivos de percepción en el espacio del lenguaje, \ours unifica la detección a nivel de objetos, la segmentación a nivel de píxeles y las tareas de visión-lenguaje a nivel de imagen en un solo modelo. Además, introducimos un novedoso enfoque de recuperación de incrustaciones que se basa únicamente en la interfaz de lenguaje para apoyar las tareas de segmentación. Nuestro marco cierra la brecha entre la percepción de grano fino y las tareas de visión-lenguaje, simplificando significativamente el diseño arquitectónico y las estrategias de entrenamiento, al mismo tiempo que logra un rendimiento comparable o superior a los métodos con diseños específicos para cada tarea. Después del entrenamiento multitarea en cinco conjuntos de datos estándar de percepción visual, \ours supera a los modelos generalistas anteriores en un 12.3 mAP en la segmentación de instancias de COCO y en un 3.3 mIoU en la segmentación semántica de ADE20K. Además, nuestro método se integra perfectamente con los MLLM existentes, combinando de manera efectiva las capacidades de percepción de grano fino con sus avanzadas habilidades de lenguaje, permitiendo así tareas más desafiantes como la segmentación razonada. El código y los modelos estarán disponibles públicamente.
El muestreo especulativo ha surgido como una técnica importante para acelerar el proceso de generación auto-regresiva de los grandes modelos de lenguaje (LLMs, por sus siglas en inglés) mediante la utilización de un mecanismo de borrador-verificación para producir múltiples tokens por paso hacia adelante. Si bien los métodos de muestreo especulativo más avanzados utilizan solo una capa y una cabecera de modelado de lenguaje (LM Head) como modelo borrador para lograr una impresionante compresión de capas, sus ganancias de eficiencia se reducen considerablemente en LLMs con vocabularios extensos, como Llama-3-8B, que cuenta con un vocabulario de 128k tokens. Para abordar este problema, presentamos FR-Spec, un marco de muestreo especulativo basado en frecuencia que optimiza la selección de candidatos borradores mediante la compresión del espacio de vocabulario. Al restringir la búsqueda de borradores a un subconjunto de tokens priorizados por frecuencia, nuestro método reduce la sobrecarga computacional de la LM Head en un 75% mientras garantiza la equivalencia de la distribución final de salida. Los experimentos en múltiples conjuntos de datos demuestran una aceleración promedio de 1.12 veces sobre el método de muestreo especulativo más avanzado, EAGLE-2.
La evaluación de contenido de texto a visión se basa en dos aspectos cruciales: la calidad visual y la alineación. Aunque se han logrado avances significativos en el desarrollo de modelos objetivos para evaluar estas dimensiones, el rendimiento de dichos modelos depende en gran medida de la escala y la calidad de las anotaciones humanas. Según la Ley de Escalado, aumentar el número de instancias etiquetadas por humanos sigue un patrón predecible que mejora el rendimiento de los modelos de evaluación. Por lo tanto, presentamos un conjunto de datos integral diseñado para Evaluar la Calidad Visual y el Nivel de Alineación para contenido de texto a visión (Q-EVAL-100K), que incluye la mayor colección de Puntuaciones de Opinión Media (MOS) etiquetadas por humanos para los dos aspectos mencionados. El conjunto de datos Q-EVAL-100K abarca tanto modelos de texto a imagen como de texto a video, con 960K anotaciones humanas específicamente enfocadas en la calidad visual y la alineación para 100K instancias (60K imágenes y 40K videos). Aprovechando este conjunto de datos con indicaciones contextuales, proponemos Q-Eval-Score, un modelo unificado capaz de evaluar tanto la calidad visual como la alineación, con mejoras especiales para manejar la alineación de indicaciones de texto largo. Los resultados experimentales indican que el Q-Eval-Score propuesto logra un rendimiento superior tanto en calidad visual como en alineación, con fuertes capacidades de generalización en otros puntos de referencia. Estos hallazgos resaltan el valor significativo del conjunto de datos Q-EVAL-100K. Los datos y códigos estarán disponibles en https://github.com/zzc-1998/Q-Eval.
El aprendizaje de preferencias mejora los modelos de lenguaje de código (Code LLMs) más allá del ajuste fino supervisado al aprovechar comparaciones relativas de calidad. Los métodos existentes construyen pares de preferencia a partir de candidatos basados en el éxito de casos de prueba, tratando la muestra con mayor tasa de aprobación como positiva y la de menor tasa como negativa. Sin embargo, este enfoque no identifica errores específicos en el código, lo que impide que el modelo aprenda patrones más informativos de corrección de errores, ya que alinear el código fallido en su conjunto carece de la granularidad necesaria para capturar relaciones significativas de resolución de errores. Para abordar estos problemas, proponemos IterPref, un nuevo marco de alineación de preferencias que imita la depuración iterativa humana para refinar los Code LLMs. IterPref localiza explícitamente las regiones de error y alinea los tokens correspondientes mediante un algoritmo DPO adaptado. Para generar pares informativos, presentamos el conjunto de datos CodeFlow, donde las muestras se refinan iterativamente hasta pasar las pruebas, capturando las correcciones de errores en las modificaciones. Experimentos extensos muestran que una suite diversa de Code LLMs equipados con IterPref logra mejoras significativas en la generación de código y avanza en tareas desafiantes como BigCodeBench. Un análisis en profundidad revela que IterPref produce menos errores. Nuestro código y datos estarán disponibles públicamente.
En el aprendizaje de representaciones, la uniformidad se refiere a la distribución uniforme de características en el espacio latente (es decir, la hiperesfera unitaria). Trabajos previos han demostrado que mejorar la uniformidad contribuye al aprendizaje de clases subrepresentadas. Sin embargo, la mayoría de los estudios anteriores se centraron en la clasificación; el espacio de representación en regresión desbalanceada sigue sin explorarse. Los métodos basados en clasificación no son adecuados para tareas de regresión, ya que agrupan características en grupos distintos sin considerar la naturaleza continua y ordenada esencial para la regresión. Desde un aspecto geométrico, nos enfocamos de manera única en garantizar la uniformidad en el espacio latente para regresión desbalanceada mediante dos pérdidas clave: envolvente y homogeneidad. La pérdida envolvente fomenta que la traza inducida ocupe uniformemente la superficie de una hiperesfera, mientras que la pérdida de homogeneidad asegura suavidad, con representaciones espaciadas uniformemente a intervalos consistentes. Nuestro método integra estos principios geométricos en las representaciones de datos a través de un marco de Aprendizaje de Representaciones Impulsado por Suplentes (SRL, por sus siglas en inglés). Experimentos con tareas de regresión del mundo real y aprendizaje de operadores destacan la importancia de la uniformidad en regresión desbalanceada y validan la eficacia de nuestras funciones de pérdida basadas en geometría.
El avance de la IA en patología computacional requiere conjuntos de datos grandes, de alta calidad y diversos, aunque los conjuntos de datos públicos existentes suelen estar limitados en diversidad de órganos, cobertura de clases o calidad de anotaciones. Para cerrar esta brecha, presentamos SPIDER (Supervised Pathology Image-DEscription Repository), el conjunto de datos a nivel de parche más grande disponible públicamente que cubre múltiples tipos de órganos, incluyendo Piel, Colorrectal y Tórax, con una cobertura exhaustiva de clases para cada órgano. SPIDER proporciona anotaciones de alta calidad verificadas por patólogos expertos e incluye parches de contexto circundante, lo que mejora el rendimiento de clasificación al proporcionar contexto espacial. Junto con el conjunto de datos, presentamos modelos de referencia entrenados en SPIDER utilizando el modelo base Hibou-L como extractor de características combinado con una cabecera de clasificación basada en atención. Estos modelos logran un rendimiento de vanguardia en múltiples categorías de tejidos y sirven como puntos de referencia sólidos para futuras investigaciones en patología digital. Más allá de la clasificación de parches, el modelo permite la identificación rápida de áreas significativas, métricas cuantitativas de tejido y establece una base para enfoques multimodales. Tanto el conjunto de datos como los modelos entrenados están disponibles públicamente para impulsar la investigación, la reproducibilidad y el desarrollo de la IA en patología. Accede a ellos en: https://github.com/HistAI/SPIDER.
En los últimos años, los modelos visuales fundamentales generales (VFMs, por sus siglas en inglés) han experimentado una creciente adopción, particularmente como codificadores de imágenes para modelos de lenguaje multimodal de gran escala (MLLMs). Sin embargo, sin una supervisión semánticamente detallada, estos modelos aún enfrentan errores fundamentales de predicción en tareas relacionadas con texto e imagen, es decir, percepción, comprensión y razonamiento con imágenes que contienen textos pequeños y densos. Para cerrar esta brecha, desarrollamos TokenOCR, el primer modelo visual fundamental a nivel de tokens específicamente diseñado para tareas relacionadas con texto e imagen, creado para respaldar una variedad de aplicaciones tradicionales posteriores. Para facilitar el preentrenamiento de TokenOCR, también diseñamos una canalización de producción de datos de alta calidad que construye el primer conjunto de datos de texto en imágenes a nivel de tokens, TokenIT, que comprende 20 millones de imágenes y 1.800 millones de pares de tokens y máscaras. Además, aprovechando esta base con una capacidad excepcional para tratar imágenes como texto, reemplazamos sin problemas los VFMs anteriores con TokenOCR para construir un MLLM a nivel de documentos, TokenVL, destinado a tareas de comprensión de documentos basadas en preguntas y respuestas visuales (VQA). Finalmente, experimentos exhaustivos demuestran la efectividad de TokenOCR y TokenVL. El código, los conjuntos de datos y los pesos estarán disponibles en https://token-family.github.io/TokenOCR_project.
Si bien los avances en los modelos de lenguaje de gran escala (LLMs) han mejorado significativamente la calidad de los datos de texto sintéticos en los últimos años, la síntesis de datos tabulares ha recibido relativamente menos atención. Abordamos esta disparidad con Tabby, una modificación simple pero poderosa aplicada después del entrenamiento a la arquitectura estándar del modelo de lenguaje Transformer, permitiendo su uso para la síntesis de conjuntos de datos tabulares. Tabby permite la representación de diferencias entre columnas utilizando una Mezcla de Expertos con Compuertas (Gated Mixture-of-Experts), con conjuntos de parámetros específicos para cada columna. Empíricamente, Tabby produce una calidad de datos cercana o igual a la de los datos reales. Al combinar nuestra novedosa técnica de entrenamiento de tablas con LLM, Plain, con Tabby, observamos una mejora de hasta un 44% en la calidad en comparación con métodos anteriores. También demostramos que Tabby se extiende más allá de las tablas a datos estructurados más generales, alcanzando paridad con los datos reales en un conjunto de datos JSON anidado.
En las últimas décadas, la investigación neurocientífica y psicológica ha trazado relaciones directas entre el gusto y las percepciones auditivas. Este artículo explora modelos generativos multimodales capaces de convertir información gustativa en música, basándose en esta investigación fundamental. Ofrecemos una breve revisión del estado del arte en este campo, destacando hallazgos clave y metodologías. Presentamos un experimento en el que se utiliza una versión ajustada de un modelo generativo de música (MusicGEN) para generar música basada en descripciones detalladas del gusto proporcionadas para cada pieza musical. Los resultados son prometedores: según la evaluación de los participantes (n=111), el modelo ajustado produce música que refleja de manera más coherente las descripciones gustativas de entrada en comparación con el modelo no ajustado. Este estudio representa un paso significativo hacia la comprensión y el desarrollo de interacciones encarnadas entre la IA, el sonido y el gusto, abriendo nuevas posibilidades en el campo de la IA generativa. Publicamos nuestro conjunto de datos, código y modelo preentrenado en: https://osf.io/xs5jy/.
Este artículo presenta el Aprendizaje de Autómatas Híbridos en Tiempo Discreto (DHAL), un marco que utiliza Aprendizaje por Refuerzo on-policy para identificar y ejecutar cambios de modo sin segmentación de trayectorias ni aprendizaje de funciones de eventos. Los sistemas dinámicos híbridos, que incluyen flujo continuo y cambios de modo discreto, pueden modelar tareas robóticas como la locomoción de robots con patas. Los métodos basados en modelos suelen depender de patrones de marcha predefinidos, mientras que los enfoques libres de modelo carecen de conocimiento explícito sobre los cambios de modo. Los métodos actuales identifican modos discretos mediante segmentación antes de regresar el flujo continuo, pero aprender dinámicas complejas de cuerpos rígidos en alta dimensión sin etiquetas de trayectoria o segmentación es un problema abierto y desafiante. Nuestro enfoque incorpora una distribución de política beta y una arquitectura multi-crítica para modelar movimientos guiados por contacto, ejemplificados por una tarea desafiante de un robot cuadrúpedo en patineta. Validamos nuestro método mediante simulaciones y pruebas en el mundo real, demostrando un rendimiento robusto en sistemas dinámicos híbridos.