Artículos de investigación en IA seleccionados diariamente con traducciones
Los gráficos vectoriales escalables (SVG) son un formato de imagen importante ampliamente adoptado en el diseño gráfico debido a su independencia de resolución y capacidad de edición. El estudio de la generación de SVG de alta calidad ha atraído continuamente la atención tanto de diseñadores como de investigadores en la comunidad de AIGC. Sin embargo, los métodos existentes producen salidas no estructuradas con un enorme costo computacional o se limitan a generar iconos monocromáticos con estructuras demasiado simplificadas. Para producir SVG de alta calidad y complejidad, proponemos OmniSVG, un marco unificado que aprovecha modelos de visión y lenguaje preentrenados (VLMs) para la generación multimodal de SVG de extremo a extremo. Al parametrizar comandos y coordenadas de SVG en tokens discretos, OmniSVG desacopla la lógica estructural de la geometría de bajo nivel para un entrenamiento eficiente, manteniendo al mismo tiempo la expresividad de estructuras SVG complejas. Para impulsar aún más el desarrollo de la síntesis de SVG, presentamos MMSVG-2M, un conjunto de datos multimodal con dos millones de recursos SVG ricamente anotados, junto con un protocolo de evaluación estandarizado para tareas de generación de SVG condicional. Experimentos exhaustivos muestran que OmniSVG supera a los métodos existentes y demuestra su potencial para integrarse en flujos de trabajo profesionales de diseño SVG.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado la capacidad de abordar tareas cada vez más complejas mediante razonamiento avanzado, generación de contenido extenso y uso de herramientas. Resolver estas tareas a menudo implica largos cálculos durante la inferencia. En la resolución de problemas humanos, una estrategia común para agilizar el trabajo es la colaboración: dividir el problema en subtareas, explorar diferentes estrategias de manera concurrente, etc. Investigaciones recientes han demostrado que los LLMs también pueden operar en paralelo implementando marcos de cooperación explícitos, como mecanismos de votación o la creación explícita de subtareas independientes que pueden ejecutarse en paralelo. Sin embargo, cada uno de estos marcos puede no ser adecuado para todos los tipos de tareas, lo que puede limitar su aplicabilidad. En este trabajo, proponemos un enfoque de diseño diferente: ejecutamos "trabajadores" LLM en paralelo, permitiéndoles sincronizarse mediante una caché de atención actualizada concurrentemente y solicitando a estos trabajadores que decidan la mejor manera de colaborar. Nuestro enfoque permite que las instancias desarrollen su propia estrategia de colaboración para el problema en cuestión, mientras "ven" el progreso parcial de cada una en la caché concurrente. Implementamos este enfoque mediante Inferencia Hogwild!: un motor de inferencia paralela para LLMs donde múltiples instancias del mismo LLM se ejecutan en paralelo con la misma caché de atención, con acceso "instantáneo" a los tokens generados por cada una. La inferencia Hogwild! aprovecha los Embeddings de Posición Rotacional (RoPE) para evitar la recomputación mientras mejora la utilización del hardware en paralelo. Descubrimos que los LLMs modernos con capacidad de razonamiento pueden realizar inferencias con una caché compartida de Clave-Valor sin necesidad de ajustes adicionales.
Presentamos Skywork R1V, un modelo de razonamiento multimodal que extiende los modelos de lenguaje grande (LLM) de la serie R1 a modalidades visuales mediante un método eficiente de transferencia multimodal. Aprovechando un proyector visual ligero, Skywork R1V facilita una adaptación multimodal sin fisuras sin necesidad de reentrenar ni el modelo de lenguaje base ni el codificador visual. Para fortalecer la alineación visual-textual, proponemos una estrategia de optimización híbrida que combina el Fine-Tuning Supervisado Iterativo (SFT) con la Optimización de Política Relativa en Grupo (GRPO), mejorando significativamente la eficiencia de la integración multimodal. Además, introducimos un enfoque de destilación de Cadena de Pensamiento (Chain-of-Thought) de longitud adaptativa para la generación de datos de razonamiento. Este enfoque optimiza dinámicamente las longitudes de las cadenas de razonamiento, mejorando así la eficiencia de inferencia y evitando un razonamiento excesivo. Las evaluaciones empíricas demuestran que Skywork R1V, con solo 38B parámetros, ofrece un rendimiento competitivo, alcanzando una puntuación de 69.0 en el benchmark MMMU y 67.5 en MathVista. Al mismo tiempo, mantiene un sólido rendimiento en razonamiento textual, evidenciado por impresionantes puntuaciones de 72.0 en AIME y 94.0 en MATH500. Los pesos del modelo Skywork R1V han sido liberados públicamente para promover la apertura y la reproducibilidad.
El panorama de la generación de imágenes ha evolucionado rápidamente, desde los primeros enfoques basados en GAN hasta los modelos de difusión y, más recientemente, hacia arquitecturas generativas unificadas que buscan conectar tareas de comprensión y generación. Los avances recientes, especialmente el GPT-4o, han demostrado la viabilidad de la generación multimodal de alta fidelidad, aunque su diseño arquitectónico sigue siendo misterioso y no se ha publicado. Esto plantea la pregunta de si la generación de imágenes y texto ya se ha integrado con éxito en un marco unificado para estos métodos. En este trabajo, realizamos un estudio empírico de las capacidades de generación de imágenes de GPT-4o, comparándolo con los principales modelos de código abierto y comerciales. Nuestra evaluación cubre cuatro categorías principales, incluyendo texto a imagen, imagen a imagen, imagen a 3D e imagen a X, con más de 20 tareas. Nuestro análisis destaca las fortalezas y limitaciones de GPT-4o en diversos entornos, y lo sitúa dentro de la evolución más amplia del modelado generativo. A través de esta investigación, identificamos direcciones prometedoras para futuros modelos generativos unificados, enfatizando el papel del diseño arquitectónico y la escalabilidad de datos.
La alineación de modelos de lenguaje de gran escala (LLMs) con las preferencias humanas ha logrado un éxito notable. Sin embargo, los conjuntos de datos de preferencias en chino existentes están limitados por su pequeña escala, cobertura de dominio reducida y falta de validación rigurosa de los datos. Además, la dependencia de anotadores humanos para etiquetar instrucciones y respuestas restringe significativamente la escalabilidad de los conjuntos de datos de preferencias humanas. Para abordar estos desafíos, diseñamos una pipeline de anotación de conjuntos de datos de preferencias en chino basada en LLMs sin intervención humana. Específicamente, rastreamos y filtramos cuidadosamente 92k consultas en chino de alta calidad, y empleamos 15 LLMs principales para generar y puntuar pares de respuestas elegidas-rechazadas. Basándonos en esto, presentamos COIG-P (Chinese Open Instruction Generalist - Preference), un conjunto de datos de preferencias en chino de alta calidad y gran escala, que comprende 1,009k pares de preferencias en chino que abarcan 6 dominios diversos: Chat, Código, Matemáticas, Lógica, Novela y Rol. Sobre la base de COIG-P, para reducir la sobrecarga de usar LLMs para puntuar, entrenamos un Modelo de Recompensa en Chino (CRM) de 8B y construimos meticulosamente un Benchmark de Recompensa en Chino (CRBench). Los resultados de evaluación basados en AlignBench liu2024alignbenchbenchmarkingchinesealignment muestran que COIG-P supera significativamente a otros conjuntos de datos de preferencias en chino, y aporta mejoras de rendimiento que van del 2% al 12% para las series de modelos Qwen2/2.5 e Infinity-Instruct-3M-0625, respectivamente. Los resultados en CRBench demuestran que nuestro CRM tiene una capacidad de puntuación sólida y robusta. Lo aplicamos para filtrar pares de respuestas elegidas-rechazadas en una división de prueba de COIG-P, y nuestros experimentos muestran que es comparable a GPT-4o en la identificación de muestras de baja calidad, manteniendo la eficiencia y la rentabilidad. Nuestros códigos y datos están disponibles en https://github.com/multimodal-art-projection/COIG-P.
Aunque la generación basada en sujetos ha sido ampliamente explorada en la generación de imágenes debido a sus diversas aplicaciones, aún enfrenta desafíos en la escalabilidad de los datos y la expansibilidad de los sujetos. Para el primer desafío, pasar de la creación de conjuntos de datos de un solo sujeto a múltiples sujetos y escalarlos es particularmente difícil. Para el segundo, la mayoría de los métodos recientes se centran en la generación de un solo sujeto, lo que dificulta su aplicación en escenarios con múltiples sujetos. En este estudio, proponemos una canalización de síntesis de datos altamente consistente para abordar este desafío. Esta canalización aprovecha las capacidades intrínsecas de generación en contexto de los transformadores de difusión y genera datos pareados de múltiples sujetos con alta consistencia. Además, presentamos UNO, que consiste en una alineación cruzada progresiva entre modalidades y un posicionamiento rotatorio universal. Es un modelo de sujeto a imagen condicionado por múltiples imágenes, entrenado de manera iterativa a partir de un modelo de texto a imagen. Experimentos exhaustivos muestran que nuestro método puede lograr una alta consistencia mientras garantiza la controlabilidad tanto en la generación impulsada por un solo sujeto como por múltiples sujetos.
La arquitectura Mixture of Experts (MoE) ha demostrado ventajas significativas, ya que permite aumentar la capacidad del modelo sin un incremento proporcional en el cómputo. Sin embargo, el gran tamaño de los modelos MoE aún introduce demandas sustanciales de memoria, lo que generalmente requiere la descarga de expertos en plataformas con recursos limitados y conlleva un sobrecosto considerable. Se ha propuesto la inferencia híbrida CPU-GPU para aprovechar el cómputo de la CPU y reducir el sobrecosto de carga de expertos, pero enfrenta grandes desafíos: por un lado, los patrones de activación de expertos en los modelos MoE son altamente inestables, lo que hace ineficientes las estrategias de mapeo fijo en trabajos existentes; por otro lado, la programación híbrida CPU-GPU para MoE es inherentemente compleja debido a los diversos tamaños de expertos, estructuras, distribución desigual de cargas de trabajo, etc. Para abordar estos desafíos, en este artículo proponemos HybriMoE, un marco de inferencia híbrida CPU-GPU que mejora la utilización de recursos mediante un novedoso sistema de programación y gestión de caché CPU-GPU. HybriMoE introduce (i) una estrategia de programación dinámica intra-capa para equilibrar las cargas de trabajo entre la CPU y la GPU, (ii) un algoritmo de prebúsqueda inter-capa basado en impacto, y (iii) un algoritmo de almacenamiento en caché basado en puntuaciones para mitigar la inestabilidad en la activación de expertos. Implementamos HybriMoE sobre el marco kTransformers y lo evaluamos en tres modelos de lenguaje basados en MoE ampliamente utilizados. Los resultados experimentales demuestran que HybriMoE logra una aceleración promedio de 1.33 veces en la etapa de prefilling y 1.70 veces en la etapa de decodificación en comparación con el marco de inferencia híbrida MoE más avanzado. Nuestro código está disponible en: https://github.com/PKU-SEC-Lab/HybriMoE.
Los modelos de difusión/flujo de texto a imagen (T2I) han atraído considerable atención recientemente debido a su notable capacidad para generar creaciones visuales flexibles. Sin embargo, la síntesis de imágenes de alta resolución presenta desafíos formidables debido a la escasez y complejidad del contenido de alta resolución. Con este fin, presentamos HiFlow, un marco agnóstico y sin necesidad de entrenamiento para desbloquear el potencial de resolución de modelos de flujo preentrenados. Específicamente, HiFlow establece un flujo de referencia virtual dentro del espacio de alta resolución que captura efectivamente las características de la información de flujo de baja resolución, ofreciendo orientación para la generación de alta resolución a través de tres aspectos clave: alineación de inicialización para la consistencia de baja frecuencia, alineación de dirección para la preservación de la estructura y alineación de aceleración para la fidelidad de los detalles. Al aprovechar esta guía alineada con el flujo, HiFlow eleva sustancialmente la calidad de la síntesis de imágenes de alta resolución de los modelos T2I y demuestra versatilidad en sus variantes personalizadas. Experimentos extensos validan la superioridad de HiFlow en la obtención de una calidad de imagen de alta resolución superior a los métodos actuales más avanzados.
Con los potentes modelos de lenguaje de gran escala (LLMs) demostrando capacidades de razonamiento sobrehumanas, surge una pregunta crítica: ¿Los LLMs razonan genuinamente o simplemente recuerdan respuestas de sus extensos conjuntos de datos de entrenamiento extraídos de la web? Los benchmarks publicados inevitablemente se contaminan una vez que se incorporan en los conjuntos de entrenamiento posteriores de los LLMs, lo que socava su fiabilidad como evaluaciones fieles. Para abordar esto, presentamos KUMO, un marco de evaluación generativo diseñado específicamente para evaluar el razonamiento en los LLMs. KUMO combina de manera sinérgica los LLMs con motores simbólicos para producir dinámicamente tareas de razonamiento diversas y de múltiples pasos que son parcialmente observables y ajustables en dificultad. A través de una canalización automatizada, KUMO genera continuamente tareas novedosas en dominios abiertos, obligando a los modelos a demostrar una generalización genuina en lugar de memorización. Evaluamos 23 LLMs de última generación en 5,000 tareas a través de 100 dominios creados por KUMO, comparando sus habilidades de razonamiento con las de estudiantes universitarios. Nuestros hallazgos revelan que muchos LLMs han superado el rendimiento a nivel universitario en tareas de razonamiento sencillas, y los LLMs escalados en razonamiento alcanzan un rendimiento universitario en desafíos de razonamiento complejos. Además, el rendimiento de los LLMs en las tareas de KUMO se correlaciona fuertemente con los resultados en benchmarks de razonamiento del mundo real recientemente publicados, destacando el valor de KUMO como una herramienta de evaluación robusta y duradera para las capacidades genuinas de razonamiento de los LLMs.
Los recientes avances en Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) han llevado a mejoras significativas en diversos puntos de referencia multimodales. Sin embargo, a medida que las evaluaciones pasan de conjuntos de datos estáticos a entornos dinámicos y abiertos, los actuales puntos de referencia basados en juegos siguen siendo inadecuados porque carecen de tareas centradas en lo visual y no evalúan las diversas habilidades de razonamiento necesarias para la toma de decisiones en el mundo real. Para abordar esto, presentamos la Evaluación de Juegos de Múltiples Habilidades Centrada en lo Visual (V-MAGE), un marco de evaluación basado en juegos diseñado para evaluar las capacidades de razonamiento visual de los MLLMs. V-MAGE incluye cinco juegos diversos con más de 30 niveles cuidadosamente diseñados, que ponen a prueba a los modelos en habilidades visuales fundamentales como el posicionamiento, el seguimiento de trayectorias, la sincronización y la memoria visual, junto con razonamientos de nivel superior como la planificación a largo plazo y la deliberación. Utilizamos V-MAGE para evaluar a los principales MLLMs, revelando desafíos significativos en su percepción y razonamiento visual. En todos los entornos de juego, los MLLMs con mejor rendimiento, según las comparaciones de calificación Elo, muestran una brecha de rendimiento sustancial en comparación con los humanos. Nuestros hallazgos destacan limitaciones críticas, incluyendo diversos tipos de errores perceptivos cometidos por los modelos, y sugieren posibles vías de mejora desde una perspectiva centrada en el agente, como refinar las estrategias del agente y abordar las imprecisiones perceptivas. El código está disponible en https://github.com/CSU-JPG/V-MAGE.
Equilibrar la fidelidad y la capacidad de edición es esencial en la edición de imágenes basada en texto (TIE), donde los errores comúnmente resultan en problemas de sobreedición o subedición. Los métodos existentes suelen depender de inyecciones de atención para preservar la estructura y aprovechan las capacidades inherentes de alineación de texto de los modelos preentrenados de texto a imagen (T2I) para la edición, pero carecen de mecanismos explícitos y unificados para equilibrar adecuadamente estos dos objetivos. En este trabajo, presentamos UnifyEdit, un método sin ajuste que realiza una optimización del espacio latente de difusión para permitir una integración equilibrada de fidelidad y capacidad de edición dentro de un marco unificado. A diferencia de las inyecciones directas de atención, desarrollamos dos restricciones basadas en atención: una restricción de preservación de auto-atención (SA) para la fidelidad estructural, y una restricción de alineación de atención cruzada (CA) para mejorar la alineación del texto y la capacidad de edición. Sin embargo, aplicar ambas restricciones simultáneamente puede generar conflictos de gradiente, donde el dominio de una restricción resulta en sobreedición o subedición. Para abordar este desafío, introducimos un planificador de pasos de tiempo adaptativo que ajusta dinámicamente la influencia de estas restricciones, guiando el espacio latente de difusión hacia un equilibrio óptimo. Extensos experimentos cuantitativos y cualitativos validan la efectividad de nuestro enfoque, demostrando su superioridad en lograr un equilibrio robusto entre la preservación de la estructura y la alineación del texto en diversas tareas de edición, superando a otros métodos de vanguardia. El código fuente estará disponible en https://github.com/CUC-MIPG/UnifyEdit.
Los avances recientes en modelos de razonamiento han demostrado mejoras significativas en precisión, particularmente para tareas complejas como el razonamiento matemático, mediante el uso de procesos de razonamiento detallados y exhaustivos. Sin embargo, generar estas secuencias extensas de razonamiento es computacionalmente costoso y consume mucho tiempo. Para abordar esta ineficiencia, aprovechamos el paralelismo inherente de ciertas tareas para acelerar el proceso de razonamiento. Específicamente, cuando existen múltiples ramas de razonamiento paralelas, decodificamos múltiples tokens por paso utilizando una máscara de atención especializada, procesándolos dentro de una única secuencia y evitando el uso adicional de memoria. Los resultados experimentales muestran que nuestro método logra una aceleración de más del 100% en el tiempo de decodificación mientras mantiene la calidad de las respuestas.
El ajuste fino por refuerzo (RFT, por sus siglas en inglés) ha demostrado un gran potencial para mejorar las capacidades de razonamiento matemático de los modelos de lenguaje grandes (LLMs), pero suele ser ineficiente en términos de muestras y cómputo, requiriendo un entrenamiento extenso. En este trabajo, presentamos AdaRFT (Ajuste Fino por Refuerzo con Currículo Adaptativo), un método que mejora significativamente tanto la eficiencia como la precisión final del RFT mediante el aprendizaje de currículo adaptativo. AdaRFT ajusta dinámicamente la dificultad de los problemas de entrenamiento basándose en las señales de recompensa recientes del modelo, asegurando que el modelo se entrene consistentemente en tareas que son desafiantes pero resolubles. Esta estrategia de muestreo adaptativo acelera el aprendizaje al mantener un rango óptimo de dificultad, evitando el desperdicio de cómputo en problemas que son demasiado fáciles o demasiado difíciles. AdaRFT requiere solo una extensión ligera a los algoritmos estándar de RFT como la Optimización de Política Proximal (PPO), sin modificar la función de recompensa o la arquitectura del modelo. Los experimentos en conjuntos de datos de matemáticas de nivel competitivo, incluyendo problemas de estilo AMC, AIME e IMO, demuestran que AdaRFT mejora significativamente tanto la eficiencia del entrenamiento como el rendimiento del razonamiento. Evaluamos AdaRFT en múltiples distribuciones de datos y tamaños de modelos, mostrando que reduce el número de pasos de entrenamiento hasta en 2x y mejora la precisión considerablemente, ofreciendo un marco de RFT más escalable y efectivo.
Los marcos de evaluación de razonamiento existentes para los Modelos de Lenguaje de Gran Escala (LLMs) y los Modelos de Visión-Lenguaje de Gran Escala (LVLMs) se centran predominantemente en evaluar el razonamiento basado en texto o las capacidades de comprensión visión-lenguaje, con una interacción dinámica limitada entre las restricciones textuales y visuales. Para abordar esta limitación, presentamos CrossWordBench, un punto de referencia diseñado para evaluar las capacidades de razonamiento tanto de LLMs como de LVLMs a través del medio de crucigramas, una tarea que requiere la adherencia multimodal a restricciones semánticas de pistas basadas en texto y restricciones interseccionales de estructuras de cuadrículas visuales. CrossWordBench aprovecha un marco de generación de crucigramas controlable que produce crucigramas en múltiples formatos (texto e imagen) y ofrece diferentes estrategias de evaluación, desde la resolución directa de crucigramas hasta modos interactivos. Nuestra evaluación extensiva de más de 20 modelos revela que los LLMs de razonamiento superan sustancialmente a los modelos no razonadores al aprovechar eficazmente las restricciones de letras cruzadas. Además, demostramos que los LVLMs tienen dificultades con la tarea, mostrando una fuerte correlación entre su rendimiento en la resolución de crucigramas y la precisión en el análisis de la cuadrícula. Nuestros hallazgos ofrecen información sobre las limitaciones de las capacidades de razonamiento de los LLMs y LVLMs actuales, y proporcionan un enfoque efectivo para la creación de tareas multimodales con restricciones para futuras evaluaciones.
Los recientes avances en la demostración automática de teoremas (ATP, por sus siglas en inglés) a través de modelos de lenguaje de gran escala (LLMs) han destacado el potencial del razonamiento formal con códigos de Lean 4. Sin embargo, el ATP aún no ha sido revolucionado por el escalamiento posentrenamiento reciente, como lo han demostrado Open AI O1/O3 y Deepseek R1. En este trabajo, investigamos todo el proceso de posentrenamiento del ATP, con el objetivo de alinearlo con los avances en los modelos de razonamiento en lenguajes naturales. Para comenzar, entrenamos continuamente los modelos actuales de ATP con un conjunto de datos híbrido, que incluye numerosos pares de enunciado-prueba, además de datos adicionales destinados a incorporar comportamientos cognitivos que emulan el razonamiento humano y el refinamiento de hipótesis. A continuación, exploramos el aprendizaje por refuerzo utilizando las recompensas de resultados devueltas por el compilador de Lean 4. A través de nuestros procesos diseñados de entrenamiento continuo y aprendizaje por refuerzo, hemos mejorado con éxito los demostradores formales existentes, incluyendo tanto DeepSeek-Prover-v1.5 como Goedel-Prover, logrando un rendimiento de vanguardia en el campo de la generación de pruebas completas. Por ejemplo, alcanzamos una tasa de aprobación del 59.8% (pass@32) en MiniF2F. Este es un proyecto en curso y actualizaremos progresivamente nuestros hallazgos, liberando nuestros datos y detalles de entrenamiento.
El aprendizaje por imitación ha surgido como un enfoque prometedor para construir robots generalistas. Sin embargo, escalar el aprendizaje por imitación para modelos base de robots de gran escala sigue siendo un desafío debido a su dependencia de demostraciones expertas de alta calidad. Mientras tanto, grandes cantidades de datos de video que representan una amplia gama de entornos y comportamientos diversos están fácilmente disponibles. Estos datos proporcionan una fuente rica de información sobre la dinámica del mundo real y las interacciones entre agentes y entornos. Sin embargo, aprovechar directamente estos datos para el aprendizaje por imitación ha resultado difícil debido a la falta de anotaciones de acciones requeridas por la mayoría de los métodos contemporáneos. En este trabajo, presentamos Modelos de Mundo Unificados (UWM, por sus siglas en inglés), un marco que permite aprovechar tanto datos de video como de acciones para el aprendizaje de políticas. Específicamente, un UWM integra un proceso de difusión de acciones y un proceso de difusión de video dentro de una arquitectura de transformador unificada, donde pasos de difusión independientes gobiernan cada modalidad. Mostramos que, simplemente controlando cada paso de difusión, UWM puede representar flexiblemente una política, una dinámica directa, una dinámica inversa y un generador de video. A través de experimentos simulados y en el mundo real, demostramos que: (1) UWM permite un preentrenamiento efectivo en conjuntos de datos multitarea de robots a gran escala con predicciones tanto de dinámica como de acciones, lo que resulta en políticas más generalizables y robustas que el aprendizaje por imitación, (2) UWM facilita naturalmente el aprendizaje a partir de datos de video sin acciones mediante el control independiente de pasos de difusión específicos para cada modalidad, mejorando aún más el rendimiento de las políticas ajustadas. Nuestros resultados sugieren que UWM ofrece un paso prometedor hacia el aprovechamiento de grandes conjuntos de datos heterogéneos para el aprendizaje escalable de robots, y proporciona una unificación simple entre los paradigmas a menudo dispares del aprendizaje por imitación y el modelado del mundo. Videos y código están disponibles en https://weirdlabuw.github.io/uwm/.
El descubrimiento de categorías generalizado (GCD, por sus siglas en inglés) es un problema pragmático pero poco explorado, que requiere que los modelos agrupen y descubran automáticamente categorías novedosas aprovechando las muestras etiquetadas de clases antiguas. El desafío radica en que los datos no etiquetados contienen tanto clases antiguas como nuevas. Los primeros trabajos que utilizan pseudoetiquetado con clasificadores paramétricos manejan las clases antiguas y nuevas por separado, lo que genera un desequilibrio en la precisión entre ellas. Los métodos recientes que emplean aprendizaje contrastivo descuidan los positivos potenciales y están desacoplados del objetivo de agrupamiento, lo que conduce a representaciones sesgadas y resultados subóptimos. Para abordar estos problemas, presentamos un marco de aprendizaje de prototipos unificado y no sesgado, denominado ProtoGCD, en el que las clases antiguas y nuevas se modelan con prototipos conjuntos y objetivos de aprendizaje unificados, {permitiendo un modelado unificado entre clases antiguas y nuevas}. Específicamente, proponemos un mecanismo de pseudoetiquetado adaptativo de doble nivel para mitigar el sesgo de confirmación, junto con dos términos de regularización que ayudan colectivamente a aprender representaciones más adecuadas para GCD. Además, por consideraciones prácticas, diseñamos un criterio para estimar el número de clases nuevas. Asimismo, extendemos ProtoGCD para detectar valores atípicos no vistos, logrando una unificación a nivel de tarea. Experimentos exhaustivos muestran que ProtoGCD alcanza un rendimiento de vanguardia tanto en conjuntos de datos genéricos como en aquellos de grano fino. El código está disponible en https://github.com/mashijie1028/ProtoGCD.