Artículos de investigación en IA seleccionados diariamente con traducciones
La Adaptación de Bajo Rango (LoRA) ha avanzado significativamente en el ajuste fino eficiente en parámetros de modelos grandes preentrenados. LoRA aumenta los pesos preentrenados de un modelo al agregar el producto de dos matrices más pequeñas que juntas forman una actualización de matriz de bajo rango. Investigaciones recientes han demostrado que las disparidades de escala entre estas dos matrices a menudo causan dinámicas de entrenamiento inestables, lo que conduce a un rendimiento subóptimo. En este artículo, proponemos SingLoRA, que reformula la adaptación de bajo rango al aprender la actualización de pesos como una descomposición de una única matriz de bajo rango multiplicada por su transpuesta. Este diseño simple elimina inherentemente los conflictos de escala entre matrices, asegurando una optimización estable y reduciendo aproximadamente a la mitad el número de parámetros. Analizamos SingLoRA dentro del marco de redes neuronales de ancho infinito, demostrando que garantiza un aprendizaje estable de características por construcción. Experimentos extensos en múltiples tareas validan estos beneficios. En razonamiento de sentido común, el ajuste fino de LLama 7B en MNLI con SingLoRA alcanza un 91.3% de precisión, superando a LoRA (89.1%) y LoRA+ (90.2%), mientras utiliza solo el 60% de su presupuesto de parámetros. En generación de imágenes, el ajuste fino de Stable Diffusion con SingLoRA mejora significativamente la fidelidad de las imágenes en DreamBooth, logrando una puntuación de similitud DINO de 0.151, en comparación con las puntuaciones de 0.148 y 0.143 para DoRA y LoRA, respectivamente.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado capacidades de razonamiento impresionantes, especialmente cuando se guían por un razonamiento explícito de cadena de pensamiento (CoT, por sus siglas en inglés) que verbaliza los pasos intermedios. Aunque el CoT mejora tanto la interpretabilidad como la precisión, su dependencia del razonamiento en lenguaje natural limita el ancho de banda expresivo del modelo. El razonamiento latente aborda este cuello de botella al realizar inferencias de múltiples pasos completamente en el estado oculto continuo del modelo, eliminando la supervisión a nivel de tokens. Para avanzar en la investigación del razonamiento latente, este estudio proporciona una visión general completa del campo emergente del razonamiento latente. Comenzamos examinando el papel fundamental de las capas de redes neuronales como sustrato computacional para el razonamiento, destacando cómo las representaciones jerárquicas apoyan transformaciones complejas. A continuación, exploramos diversas metodologías de razonamiento latente, incluyendo la recurrencia basada en activaciones, la propagación de estados ocultos y estrategias de ajuste fino que comprimen o internalizan trazas de razonamiento explícito. Finalmente, discutimos paradigmas avanzados como el razonamiento latente de profundidad infinita mediante modelos de difusión enmascarados, que permiten procesos de razonamiento globalmente consistentes y reversibles. Al unificar estas perspectivas, nuestro objetivo es aclarar el panorama conceptual del razonamiento latente y trazar futuras direcciones para la investigación en la frontera de la cognición de los LLMs. Un repositorio de GitHub asociado que recopila los últimos artículos y repositorios está disponible en: https://github.com/multimodal-art-projection/LatentCoT-Horizon/.
La creación de activos 3D con estructuras de partes explícitas y editables es crucial para avanzar en aplicaciones interactivas, aunque la mayoría de los métodos generativos producen únicamente formas monolíticas, limitando su utilidad. Presentamos OmniPart, un marco novedoso para la generación de objetos 3D conscientes de las partes, diseñado para lograr un alto desacoplamiento semántico entre los componentes mientras mantiene una cohesión estructural robusta. OmniPart desacopla de manera única esta tarea compleja en dos etapas sinérgicas: (1) un módulo de planificación de estructura autoregresivo genera una secuencia controlable de longitud variable de cajas delimitadoras 3D de las partes, guiado críticamente por máscaras 2D flexibles que permiten un control intuitivo sobre la descomposición de partes sin requerir correspondencias directas o etiquetas semánticas; y (2) un modelo de flujo rectificado condicionado espacialmente, adaptado eficientemente a partir de un generador 3D holístico preentrenado, sintetiza todas las partes 3D de manera simultánea y consistente dentro del diseño planificado. Nuestro enfoque admite granularidad de partes definida por el usuario, localización precisa y habilita diversas aplicaciones posteriores. Experimentos exhaustivos demuestran que OmniPart alcanza un rendimiento de vanguardia, allanando el camino para contenido 3D más interpretable, editable y versátil.
Los agentes web basados en LLM han logrado avances significativos recientemente, pero gran parte de este progreso se ha dado en sistemas de código cerrado, ampliando la brecha con las alternativas de código abierto. El avance se ha visto limitado por dos desafíos clave: primero, un enfoque estrecho en tareas de un solo paso que pasa por alto la complejidad de las interacciones web de múltiples pasos; y segundo, los altos costos computacionales requeridos para el entrenamiento posterior de agentes web basados en LLM. Para abordar esto, presentamos el primer estudio estadísticamente fundamentado sobre la asignación de recursos computacionales para el entrenamiento posterior de agentes web basados en LLM. Nuestro enfoque utiliza una canalización de dos etapas, entrenando un estudiante Llama 3.1 8B para imitar a un maestro Llama 3.3 70B mediante ajuste fino supervisado (SFT), seguido de aprendizaje por refuerzo on-policy. Descubrimos que este proceso es altamente sensible a las elecciones de hiperparámetros, lo que hace que los barridos exhaustivos sean poco prácticos. Para evitar a otros el costoso ensayo y error, muestreamos 1.370 configuraciones y utilizamos bootstrapping para estimar hiperparámetros efectivos. Nuestros resultados muestran que combinar SFT con RL on-policy supera consistentemente a cualquiera de los enfoques por separado tanto en WorkArena como en MiniWob++. Además, esta estrategia requiere solo el 55% de los recursos computacionales para igualar el rendimiento máximo del SFT puro en MiniWob++, empujando efectivamente la frontera de Pareto de rendimiento-computación, y es la única estrategia que puede cerrar la brecha con los modelos de código cerrado.
La Navegación Visión-Lenguaje (VLN, por sus siglas en inglés) en entornos del mundo real requiere que los agentes procesen flujos visuales continuos y generen acciones con baja latencia basadas en instrucciones lingüísticas. Aunque los Modelos de Lenguaje de Gran Escala basados en Video (Video-LLMs) han impulsado avances recientes, los métodos actuales de VLN basados en Video-LLM a menudo enfrentan compromisos entre la comprensión visual detallada, el modelado de contexto a largo plazo y la eficiencia computacional. Presentamos StreamVLN, un marco de VLN en flujo continuo que emplea una estrategia híbrida de modelado de contexto lento-rápido para apoyar el razonamiento multimodal sobre entradas intercaladas de visión, lenguaje y acción. El contexto de diálogo de flujo rápido facilita la generación de acciones receptivas mediante una ventana deslizante de diálogos activos, mientras que el contexto de memoria de actualización lenta comprime estados visuales históricos utilizando una estrategia de poda de tokens consciente de 3D. Con este diseño lento-rápido, StreamVLN logra un diálogo coherente de múltiples turnos mediante la reutilización eficiente de la caché KV, soportando flujos de video largos con un tamaño de contexto y un costo de inferencia acotados. Los experimentos en los puntos de referencia VLN-CE demuestran un rendimiento de vanguardia con una latencia baja y estable, asegurando robustez y eficiencia en la implementación en el mundo real. La página del proyecto es: https://streamvln.github.io/{https://streamvln.github.io/}.
Traducir enunciados matemáticos en lenguaje natural a código formal y ejecutable es un desafío fundamental en la demostración automática de teoremas. Si bien trabajos previos se han centrado en la generación y compilación exitosa, se ha prestado poca atención a la fase del crítico: la evaluación de si las formalizaciones generadas capturan verdaderamente la intención semántica del problema original. En este artículo, presentamos CriticLean, un novedoso marco de aprendizaje por refuerzo guiado por un crítico que eleva el papel del crítico de un validador pasivo a un componente activo de aprendizaje. Específicamente, primero proponemos CriticLeanGPT, entrenado mediante ajuste fino supervisado y aprendizaje por refuerzo, para evaluar rigurosamente la fidelidad semántica de las formalizaciones en Lean 4. Luego, introducimos CriticLeanBench, un punto de referencia diseñado para medir la capacidad de los modelos para distinguir formalizaciones semánticamente correctas de incorrectas, y demostramos que nuestros modelos CriticLeanGPT entrenados superan significativamente a fuertes líneas base de código abierto y cerrado. Basándonos en el marco de CriticLean, construimos FineLeanCorpus, un conjunto de datos que comprende más de 285K problemas y que exhibe una rica diversidad de dominios, una amplia cobertura de dificultad y una alta corrección según la evaluación humana. En general, nuestros hallazgos destacan que optimizar la fase del crítico es esencial para producir formalizaciones confiables, y esperamos que nuestro CriticLean brinde valiosos insights para futuros avances en el razonamiento matemático formal.
Los modelos de lenguaje de gran escala (LLMs) sobresalen en razonamiento lógico y algorítmico, pero su inteligencia emocional (EQ) aún está muy por detrás de su destreza cognitiva. Si bien el aprendizaje por refuerzo basado en recompensas verificables (RLVR) ha avanzado en otros dominios, su aplicación al diálogo—especialmente para la inteligencia emocional—sigue siendo poco explorada. En este trabajo, presentamos RLVER, el primer marco de aprendizaje por refuerzo de extremo a extremo que aprovecha recompensas emocionales verificables de usuarios simulados para cultivar habilidades empáticas de orden superior en LLMs. Dentro de este marco, usuarios simulados afectivos y autoconsistentes participan en diálogos y producen puntuaciones emocionales deterministas durante las conversaciones, sirviendo como señales de recompensa para guiar el aprendizaje del LLM. El ajuste fino del modelo Qwen2.5-7B-Instruct, disponible públicamente, con PPO aumenta su puntuación en Sentient-Benchmark de 13.3 a 79.2, preservando en gran medida la competencia matemática y de codificación. Experimentos extensivos revelan que: (i) RLVER mejora consistentemente múltiples capacidades de diálogo; (ii) Los modelos pensantes y no pensantes muestran tendencias distintas—los modelos pensantes sobresalen en empatía y perspicacia, mientras que los no pensantes favorecen la acción; (iii) GRPO a menudo produce ganancias estables, mientras que PPO puede llevar ciertas capacidades a un nivel más alto; (iv) Los entornos más desafiantes no siempre son mejores—los moderados pueden generar resultados más sólidos. Nuestros resultados muestran que RLVER es una ruta práctica hacia agentes de lenguaje emocionalmente inteligentes y ampliamente capaces.
Los recientes avances en la generación de videos han mostrado un progreso notable en entornos de dominio abierto, pero la generación de videos médicos sigue siendo un área poco explorada. Los videos médicos son cruciales para aplicaciones como la formación clínica, la educación y la simulación, requiriendo no solo una alta fidelidad visual sino también una precisión médica estricta. Sin embargo, los modelos actuales a menudo producen contenido poco realista o erróneo cuando se aplican a indicaciones médicas, principalmente debido a la falta de conjuntos de datos a gran escala y de alta calidad adaptados al ámbito médico. Para abordar esta brecha, presentamos MedVideoCap-55K, el primer conjunto de datos a gran escala, diverso y rico en descripciones para la generación de videos médicos. Este comprende más de 55,000 clips seleccionados que abarcan escenarios médicos del mundo real, proporcionando una base sólida para entrenar modelos generalistas de generación de videos médicos. Basándonos en este conjunto de datos, desarrollamos MedGen, que logra un rendimiento líder entre los modelos de código abierto y compite con sistemas comerciales en múltiples benchmarks tanto en calidad visual como en precisión médica. Esperamos que nuestro conjunto de datos y modelo sirvan como un recurso valioso y ayuden a catalizar futuras investigaciones en la generación de videos médicos. Nuestro código y datos están disponibles en https://github.com/FreedomIntelligence/MedGen.
Los agentes de interfaz gráfica de usuario (GUI) operan de manera autónoma en diversas plataformas (por ejemplo, Linux) para completar tareas mediante la interacción con elementos visuales. Específicamente, una instrucción del usuario se descompone en una secuencia de propuestas de acción, cada una correspondiente a una interacción con la GUI. Después de cada acción, el agente observa el entorno actualizado de la GUI para planificar el siguiente paso. Sin embargo, surgen dos desafíos principales: i) resolver la ambigüedad en la planificación de tareas (es decir, la secuencia de propuestas de acción), donde seleccionar un plan adecuado no es trivial, ya que pueden existir muchos válidos; ii) fundamentar con precisión las acciones en interfaces complejas y de alta resolución, es decir, interactuar de manera precisa con objetivos visuales. Este artículo investiga los dos desafíos mencionados con nuestro Agente de Escalado en Tiempo de Prueba para GUI, denominado GTA1. Primero, para seleccionar la propuesta de acción más adecuada, introducimos un método de escalado en tiempo de prueba. En cada paso, muestreamos múltiples propuestas de acción candidatas y utilizamos un modelo juez para evaluar y seleccionar la más adecuada. Este método intercambia computación por una mejor calidad en la toma de decisiones mediante muestreo concurrente, acortando los pasos de ejecución de la tarea y mejorando el rendimiento general. Segundo, proponemos un modelo que logra una mayor precisión al fundamentar la propuesta de acción seleccionada en sus elementos visuales correspondientes. Nuestra idea clave es que el aprendizaje por refuerzo (RL) facilita la fundamentación visual a través de alineaciones objetivas inherentes, recompensando clics exitosos en elementos de la interfaz. Experimentalmente, nuestro método establece un rendimiento de vanguardia en diversos puntos de referencia. Por ejemplo, GTA1-7B logra precisiones del 50.1%, 92.4% y 67.7% en Screenspot-Pro, Screenspot-V2 y OSWorld-G, respectivamente. Cuando se combina con un planificador que aplica nuestra estrategia de escalado en tiempo de prueba, exhibe un rendimiento agéntico de vanguardia (por ejemplo, una tasa de éxito en tareas del 45.2% en OSWorld). Hemos liberado nuestro código y modelos aquí.
El Modelo del Mundo, supuesto sustituto algorítmico del entorno del mundo real que los agentes biológicos experimentan y sobre el cual actúan, ha sido un tema emergente en los últimos años debido a la creciente necesidad de desarrollar agentes virtuales con inteligencia artificial (general). Ha habido mucho debate sobre qué es realmente un modelo del mundo, cómo construirlo, cómo utilizarlo y cómo evaluarlo. En este ensayo, partiendo de la imaginación presente en el clásico de ciencia ficción Dune y tomando inspiración del concepto de "pensamiento hipotético" en la literatura psicológica, ofrecemos críticas a varias escuelas de pensamiento sobre el modelado del mundo y argumentamos que el objetivo principal de un modelo del mundo es simular todas las posibilidades accionables del mundo real para el razonamiento y la actuación con propósito. Basándonos en estas críticas, proponemos una nueva arquitectura para un modelo del mundo de propósito general, basada en representaciones jerárquicas, multinivel y mixtas (continuas/discretas), y un marco de aprendizaje generativo y de auto-supervisión, con una perspectiva de un sistema de AGI Físico, Agéntico y Anidado (PAN) habilitado por dicho modelo.
Presentamos Nile-Chat-4B, 3x4B-A6B y 12B, una colección de modelos de lenguaje grandes (LLMs) para el dialecto egipcio, diseñados de manera única para comprender y generar textos escritos tanto en alfabeto árabe como latino. Específicamente, con Nile-Chat-3x4B-A6B, introducimos un enfoque novedoso de adaptación lingüística al aprovechar la estrategia Branch-Train-MiX para fusionar expertos especializados en cada alfabeto en un único modelo Mixture of Experts (MoE). Nuestros modelos Nile-Chat superan significativamente a los principales LLMs multilingües y árabes, como LLaMa, Jais y ALLaM, en nuestros nuevos puntos de referencia de evaluación egipcios, que abarcan tareas tanto de comprensión como generativas. Destacablemente, nuestro modelo de 12B logra una mejora del 14.4% en rendimiento sobre Qwen2.5-14B-Instruct en pruebas con alfabeto latino. Todos nuestros recursos están disponibles públicamente. Creemos que este trabajo presenta una metodología integral para adaptar LLMs a lenguajes de doble alfabeto, abordando un aspecto frecuentemente pasado por alto en el desarrollo moderno de LLMs.
El escalado de datos ha impulsado un éxito notable en los modelos base para el Procesamiento del Lenguaje Natural (PLN) y la Visión por Computadora (CV), sin embargo, los principios del escalado efectivo de datos en la manipulación robótica aún no se comprenden suficientemente. En este trabajo, investigamos el papel matizado de la diversidad de datos en el aprendizaje robótico examinando tres dimensiones críticas: la tarea (qué hacer), la encarnación (qué robot usar) y el experto (quién demuestra), desafiando la intuición convencional de "cuanto más diverso, mejor". A través de extensos experimentos en varias plataformas robóticas, revelamos que (1) la diversidad de tareas resulta más crítica que la cantidad de demostraciones por tarea, beneficiando la transferencia desde tareas de preentrenamiento diversas a escenarios novedosos posteriores; (2) los datos de preentrenamiento multi-encarnación son opcionales para la transferencia entre encarnaciones: los modelos entrenados con datos de alta calidad de una sola encarnación pueden transferirse eficientemente a diferentes plataformas, mostrando una propiedad de escalado más deseable durante el ajuste fino que los modelos preentrenados con multi-encarnación; y (3) la diversidad de expertos, derivada de las preferencias operativas individuales y las variaciones estocásticas en las demostraciones humanas, puede ser confusa para el aprendizaje de políticas, con la multimodalidad de velocidad emergiendo como un factor clave contribuyente. Basándonos en esta visión, proponemos un método de corrección de distribución para mitigar la ambigüedad de velocidad, lo que permite que GO-1-Pro logre ganancias sustanciales de rendimiento del 15%, equivalente a usar 2.5 veces más datos de preentrenamiento. Colectivamente, estos hallazgos proporcionan nuevas perspectivas y ofrecen orientación práctica sobre cómo escalar efectivamente los conjuntos de datos de manipulación robótica.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han logrado avances notables en la generación de código, aunque su verdadera competencia en programación sigue siendo poco explorada. Presentamos el marco del Triángulo de Código, que evalúa sistemáticamente los LLMs en tres dimensiones fundamentales: análisis editorial, implementación de código y generación de casos de prueba. A través de experimentos exhaustivos en benchmarks de programación competitiva, revelamos que, aunque los LLMs pueden formar un sistema autoconsistente en estas dimensiones, sus soluciones a menudo carecen de la diversidad y robustez de los programadores humanos. Identificamos un cambio significativo en la distribución entre la cognición del modelo y la experiencia humana, con errores del modelo que tienden a agruparse debido a sesgos en los datos de entrenamiento y una transferencia limitada de razonamiento. Nuestro estudio demuestra que la incorporación de editoriales, soluciones y casos de prueba diversos generados por humanos, así como el uso de mezclas de modelos, puede mejorar sustancialmente tanto el rendimiento como la robustez de los LLMs. Además, revelamos tanto la consistencia como la inconsistencia en la cognición de los LLMs que podrían facilitar la autorreflexión y la automejora, proporcionando una dirección potencial para el desarrollo de modelos de codificación más potentes.
Los modelos de secuencia como los Transformers y las RNNs a menudo asignan excesiva atención a contextos irrelevantes, lo que genera representaciones intermedias ruidosas. Esto degrada las capacidades de los LLM al fomentar alucinaciones, debilitar las habilidades de largo alcance y recuperación, y reducir la robustez. Trabajos recientes han demostrado que el diseño diferencial puede mitigar este problema en los Transformers, mejorando su eficacia en diversas aplicaciones. En este artículo, exploramos si estas técnicas, desarrolladas originalmente para Transformers, pueden aplicarse a Mamba, una arquitectura reciente basada en capas de espacio de estados selectivas que logra un rendimiento comparable al de los Transformers con mayor eficiencia. Mostramos que una adaptación ingenua del diseño diferencial a Mamba es insuficiente y requiere modificaciones arquitectónicas cuidadosas. Para abordar esto, introducimos un nuevo mecanismo diferencial para Mamba, validado empíricamente en benchmarks de modelado de lenguaje, que demuestra capacidades de recuperación mejoradas y un rendimiento superior al de Mamba estándar. Finalmente, realizamos extensos estudios de ablación y análisis empíricos para justificar nuestras decisiones de diseño y proporcionar evidencia de que nuestro enfoque mitiga efectivamente el problema de asignación excesiva en modelos basados en Mamba. Nuestro código está disponible públicamente.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) se han aplicado recientemente a tareas de reordenamiento en la recuperación de información, logrando un rendimiento sólido. Sin embargo, sus altas demandas computacionales a menudo dificultan su implementación práctica. Los estudios existentes evalúan la eficiencia de los reordenadores basados en LLMs utilizando métricas indirectas como la latencia, el número de pasadas hacia adelante, los tokens de entrada y los tokens de salida. No obstante, estas métricas dependen del hardware y de las decisiones en tiempo de ejecución (por ejemplo, si se ejecuta en paralelo o no, el tamaño del lote, etc.), y a menudo no tienen en cuenta el tamaño del modelo, lo que dificulta su interpretación y oscurece la evaluación del equilibrio entre eficiencia y efectividad. Para abordar este problema, proponemos E2R-FLOPs para reordenadores basados en LLMs: métricas de clasificación por PetaFLOP (RPP) para la relevancia por cálculo y consultas por PetaFLOP (QPP) para un rendimiento independiente del hardware. Acompañando estas nuevas métricas, se construye un estimador de FLOPs interpretable para estimar los FLOPs de un reordenador basado en LLMs incluso sin realizar experimentos. Basándonos en las métricas propuestas, llevamos a cabo experimentos exhaustivos para evaluar una amplia gama de reordenadores basados en LLMs con diferentes arquitecturas, estudiando el equilibrio entre eficiencia y efectividad y llamando la atención de la comunidad investigadora sobre este tema.
Los modelos multimodales grandes (LMMs) de última generación enfrentan desafíos al procesar imágenes de alta resolución, ya que estas entradas se convierten en una gran cantidad de tokens visuales, muchos de los cuales son irrelevantes para la tarea posterior. En este artículo, proponemos la Optimización de Políticas Basada en Anclaje Multiturno (MGPO, por sus siglas en inglés), un marco de aprendizaje por refuerzo (RL) de extremo a extremo que permite a los LMMs enfocarse iterativamente en regiones visuales clave mediante el recorte automático de subimágenes, basado en coordenadas de anclaje predichas por el modelo dentro de un marco de conversación multiturno. En comparación con el ajuste fino supervisado (SFT), que requiere costosas anotaciones adicionales de anclaje, nuestro enfoque destaca que los LMMs pueden desarrollar habilidades robustas de anclaje durante el proceso de entrenamiento de RL, aprovechando únicamente una función de recompensa binaria derivada de la corrección de la respuesta final. Además, observamos que los LMMs tienen dificultades para activar de manera autónoma el anclaje visual durante el proceso de despliegue. Para abordar este problema de arranque en frío, diseñamos una plantilla de conversación multiturno y restringimos el cálculo de la pérdida de política a las salidas del modelo generadas en múltiples rondas de diálogo, promoviendo así una optimización estable. Experimentos extensos demuestran que, cuando se entrena con datos estándar de preguntas visuales-respuestas cortas sin anotaciones de anclaje, MGPO efectivamente induce capacidades de anclaje más fuertes en comparación con GRPO, logrando una mejora del 5.4% en MME-Realworld dentro de la distribución y del 5.2% en el desafiante V* Bench fuera de la distribución (OOD). Notablemente, el entrenamiento posterior de MGPO en Qwen2.5-VL-7B con 21K muestras supera a los modelos o1 de OpenAI y GPT-4o en el V* Bench OOD. Los códigos están disponibles en https://github.com/EvolvingLMMs-Lab/MGPO.
Los métodos computacionales basados en aprendizaje profundo han logrado resultados prometedores en la predicción de interacciones proteína-proteína (PPIs). Sin embargo, los puntos de referencia existentes se centran predominantemente en evaluaciones aisladas de pares, pasando por alto la capacidad de un modelo para reconstruir redes de PPIs biológicamente significativas, lo cual es crucial para la investigación en biología. Para abordar esta brecha, presentamos PRING, el primer punto de referencia integral que evalúa la predicción de interacciones proteína-proteína desde una perspectiva a nivel de grafo. PRING recopila un conjunto de datos de alta calidad de redes de PPIs multi-especies que comprende 21,484 proteínas y 186,818 interacciones, con estrategias bien diseñadas para abordar tanto la redundancia como la filtración de datos. Basándonos en este conjunto de datos de referencia, establecemos dos paradigmas de evaluación complementarios: (1) tareas orientadas a la topología, que evalúan la construcción de redes de PPIs intra e inter-especies, y (2) tareas orientadas a la función, incluyendo la predicción de vías de complejos proteicos, el análisis de módulos GO y la justificación de proteínas esenciales. Estas evaluaciones no solo reflejan la capacidad del modelo para comprender la topología de la red, sino que también facilitan la anotación de funciones proteicas, la detección de módulos biológicos e incluso el análisis de mecanismos de enfermedades. Experimentos extensos en cuatro categorías representativas de modelos, que consisten en enfoques basados en similitud de secuencias, secuencias simples, modelos de lenguaje proteico y estructuras, demuestran que los modelos actuales de PPIs tienen limitaciones potenciales para recuperar tanto las propiedades estructurales como funcionales de las redes de PPIs, destacando la brecha en el apoyo a aplicaciones biológicas del mundo real. Creemos que PRING proporciona una plataforma confiable para guiar el desarrollo de modelos de predicción de PPIs más efectivos para la comunidad. El conjunto de datos y el código fuente de PRING están disponibles en https://github.com/SophieSarceau/PRING.
La inteligencia artificial (IA) tiene un potencial significativo en aplicaciones de atención médica, pero su entrenamiento e implementación enfrentan desafíos debido a la diversidad de datos en el sector, la complejidad de las tareas y la necesidad de preservar la privacidad. Los modelos base que funcionan bien en tareas médicas y requieren menos datos de ajuste específicos para cada tarea son cruciales para acelerar el desarrollo de aplicaciones de IA en el ámbito de la salud. Presentamos MedGemma, una colección de modelos base de visión y lenguaje médicos basados en Gemma 3 4B y 27B. MedGemma demuestra un entendimiento y razonamiento médico avanzado en imágenes y texto, superando significativamente el rendimiento de modelos generativos de tamaño similar y acercándose al rendimiento de modelos específicos para tareas, mientras mantiene las capacidades generales de los modelos base de Gemma 3. Para tareas fuera de distribución, MedGemma logra una mejora del 2.6-10% en respuestas a preguntas multimodales médicas, del 15.5-18.1% en la clasificación de hallazgos en radiografías de tórax y del 10.8% en evaluaciones agentivas en comparación con los modelos base. El ajuste fino de MedGemma mejora aún más el rendimiento en subdominios, reduciendo los errores en la recuperación de información de registros electrónicos de salud en un 50% y alcanzando un rendimiento comparable a los métodos especializados más avanzados existentes para la clasificación de neumotórax y la clasificación de parches de histopatología. Además, presentamos MedSigLIP, un codificador visual ajustado médicamente derivado de SigLIP. MedSigLIP potencia las capacidades de comprensión visual de MedGemma y, como codificador, logra un rendimiento comparable o superior al de los codificadores de imágenes médicas especializados. En conjunto, la colección MedGemma proporciona una base sólida de capacidades para imágenes y texto médicos, con el potencial de acelerar significativamente la investigación médica y el desarrollo de aplicaciones derivadas. La colección MedGemma, incluyendo tutoriales y pesos de los modelos, puede encontrarse en https://goo.gle/medgemma.
Los recientes esfuerzos en "segmentar cualquier cosa" muestran promesa al aprender de datos a gran escala, pero adaptar directamente estos modelos a imágenes médicas sigue siendo un desafío debido a la complejidad de los datos médicos, las anotaciones ruidosas y los requisitos de aprendizaje continuo en diversas modalidades y estructuras anatómicas. En este trabajo, proponemos SAMed-2, un nuevo modelo base para la segmentación de imágenes médicas construido sobre la arquitectura SAM-2. Específicamente, introducimos un adaptador temporal en el codificador de imágenes para capturar correlaciones entre imágenes y un mecanismo de memoria basado en la confianza para almacenar características de alta certeza para su posterior recuperación. Esta estrategia basada en memoria contrarresta el ruido generalizado en los conjuntos de datos médicos a gran escala y mitiga el olvido catastrófico al enfrentarse a nuevas tareas o modalidades. Para entrenar y evaluar SAMed-2, hemos creado MedBank-100k, un conjunto de datos integral que abarca siete modalidades de imagen y 21 tareas de segmentación médica. Nuestros experimentos en puntos de referencia internos y 10 conjuntos de datos externos demuestran un rendimiento superior sobre los baselines más avanzados en escenarios multitarea. El código está disponible en: https://github.com/ZhilingYan/Medical-SAM-Bench.
Los recientes avances en modelos de transformadores de difusión para la generación de vídeo guiada por movimiento, como Tora, han mostrado un progreso significativo. En este artículo, presentamos Tora2, una versión mejorada de Tora, que introduce varias mejoras de diseño para ampliar sus capacidades en la personalización tanto de apariencia como de movimiento. Específicamente, introducimos un extractor de personalización desacoplado que genera embeddings de personalización completos para múltiples entidades de conjunto abierto, preservando mejor los detalles visuales de grano fino en comparación con métodos anteriores. Basándonos en esto, diseñamos un mecanismo de autoatención con compuerta para integrar la trayectoria, la descripción textual y la información visual de cada entidad. Esta innovación reduce significativamente la desalineación en el condicionamiento multimodal durante el entrenamiento. Además, introducimos una pérdida contrastiva que optimiza conjuntamente la dinámica de la trayectoria y la consistencia de la entidad mediante un mapeo explícito entre los embeddings de movimiento y personalización. Tora2 es, hasta donde sabemos, el primer método en lograr la personalización simultánea de apariencia y movimiento de múltiples entidades para la generación de vídeo. Los resultados experimentales demuestran que Tora2 alcanza un rendimiento competitivo con los métodos de personalización más avanzados, al tiempo que ofrece capacidades avanzadas de control de movimiento, lo que marca un avance crítico en la generación de vídeo con múltiples condiciones. Página del proyecto: https://github.com/alibaba/Tora.
El procesamiento de contextos largos se ha convertido en una capacidad fundamental para los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Para evaluar el rendimiento de los modelos en contextos largos, se han propuesto numerosos puntos de referencia de evaluación. Sin embargo, las variaciones en los entornos de evaluación entre estos puntos de referencia generan resultados inconsistentes, lo que dificulta realizar comparaciones confiables. Además, el alto costo computacional de la evaluación de contextos largos representa una barrera significativa para que la comunidad lleve a cabo evaluaciones exhaustivas de modelos de contextos largos. En este artículo, proponemos LOOM-Scope, un marco integral y eficiente para la evaluación de contextos largos. LOOM-Scope estandariza los entornos de evaluación en diversos puntos de referencia, permite la implementación de métodos eficientes de aceleración de inferencia en contextos largos e introduce un conjunto de puntos de referencia holístico pero ligero para evaluar los modelos de manera exhaustiva. Página web: https://loomscope.github.io.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado capacidades notables en una amplia gama de tareas, pero también exhiben la memorización de sus datos de entrenamiento. Este fenómeno plantea preguntas críticas sobre el comportamiento de los modelos, los riesgos para la privacidad y la frontera entre el aprendizaje y la memorización. Para abordar estas preocupaciones, este artículo sintetiza estudios recientes e investiga el panorama de la memorización, los factores que la influencian y los métodos para su detección y mitigación. Exploramos impulsores clave, como la duplicación de datos de entrenamiento, la dinámica del entrenamiento y los procedimientos de ajuste fino que influyen en la memorización de datos. Además, examinamos metodologías como la extracción basada en prefijos, la inferencia de membresía y el uso de indicaciones adversarias, evaluando su efectividad en la detección y medición de contenido memorizado. Más allá del análisis técnico, también exploramos las implicaciones más amplias de la memorización, incluyendo las consecuencias legales y éticas. Finalmente, discutimos estrategias de mitigación, como la limpieza de datos, la privacidad diferencial y el desaprendizaje posterior al entrenamiento, destacando los desafíos abiertos en equilibrar la minimización de la memorización perjudicial con la utilidad. Este artículo ofrece una visión integral del estado actual de la investigación sobre la memorización en los LLMs, abarcando dimensiones técnicas, de privacidad y de rendimiento, e identificando direcciones críticas para trabajos futuros.
Presentamos any4, una solución de cuantización de pesos de 4 bits aprendida para modelos de lenguaje grandes (LLMs) que proporciona representaciones numéricas arbitrarias sin requerir preprocesamiento de pesos o activaciones. any4 ofrece una mayor precisión en comparación con otros tipos de representaciones numéricas de 4 bits relacionados: int4, fp4 y nf4, según se evaluó en una variedad de tamaños de modelos, generaciones y familias (Llama 2, Llama 3, Mistral y Mixtral). Aunque any4 no requiere preprocesamiento de pesos o activaciones, también es competitivo con técnicas ortogonales que sí lo requieren (por ejemplo, AWQ y GPTQ). También experimentamos con any3 y any2 y demostramos su competitividad en bits más bajos. Además, mostramos que podemos calibrar utilizando una única muestra diversa seleccionada en lugar de cientos de muestras de un conjunto de datos, como se hace en la mayoría de los enfoques de cuantización. También liberamos tinygemm, una biblioteca de multiplicación de matrices optimizada para latencia en GPU para LLMs, que implementa any4 utilizando una estrategia eficiente de tabla de búsqueda en GPU junto con otros métodos comunes de cuantización. Liberamos nuestro código en https://github.com/facebookresearch/any4.
La completación semántica de escenas (SSC, por sus siglas en inglés) tiene como objetivo inferir tanto la geometría 3D como la semántica de una escena a partir de imágenes individuales. A diferencia de trabajos previos en SSC que dependen en gran medida de anotaciones de verdad de suelo costosas, abordamos SSC en un entorno no supervisado. Nuestro método novedoso, SceneDINO, adapta técnicas de aprendizaje de representación autosupervisado y comprensión de escenas 2D no supervisada a SSC. Nuestro entrenamiento utiliza exclusivamente la autosupervisión de consistencia multivista sin ninguna forma de verdad de suelo semántica o geométrica. Dada una única imagen de entrada, SceneDINO infiere la geometría 3D y las características expresivas 3D de DINO de manera directa. A través de un novedoso enfoque de destilación de características 3D, obtenemos semántica 3D no supervisada. Tanto en la comprensión de escenas 3D como 2D no supervisada, SceneDINO alcanza una precisión de segmentación de vanguardia. La sonda lineal de nuestras características 3D iguala la precisión de segmentación de un enfoque supervisado actual de SSC. Además, demostramos la generalización de dominio y la consistencia multivista de SceneDINO, dando los primeros pasos hacia una base sólida para la comprensión de escenas 3D a partir de una sola imagen.
La comprensión composicional es crucial para la inteligencia humana, pero aún no está claro si los modelos de visión contemporáneos la exhiben. El paradigma dominante del aprendizaje automático se basa en la premisa de que escalar el tamaño de los datos y de los modelos mejorará el rendimiento fuera de distribución, incluyendo la generalización composicional. Ponemos a prueba esta premisa mediante experimentos controlados que varían sistemáticamente la escala de los datos, la diversidad de conceptos y la cobertura de combinaciones. Descubrimos que la generalización composicional está impulsada por la diversidad de datos, no simplemente por la escala de los datos. Una mayor cobertura combinatoria obliga a los modelos a descubrir una estructura de representación factorizada linealmente, donde los conceptos se descomponen en componentes aditivos. Demostramos que esta estructura es clave para la eficiencia, permitiendo una generalización perfecta a partir de pocas combinaciones observadas. Al evaluar modelos preentrenados (DINO, CLIP), encontramos un rendimiento superior al azar pero imperfecto, lo que sugiere una presencia parcial de esta estructura. Nuestro trabajo motiva un mayor énfasis en la construcción de conjuntos de datos diversos para la generalización composicional, y en considerar la importancia de la estructura de representación que permite un aprendizaje composicional eficiente. El código está disponible en https://github.com/oshapio/visual-compositional-generalization.
Los avances en la generación de texto a imagen han sido predominantemente centrados en el inglés, creando barreras para los hablantes no angloparlantes y perpetuando inequidades digitales. Aunque los sistemas existentes dependen de pipelines de traducción, estos introducen desviación semántica, sobrecarga computacional y desalineación cultural. Presentamos NeoBabel, un novedoso marco de generación de imágenes multilingüe que establece una nueva frontera de Pareto en rendimiento, eficiencia e inclusividad, soportando seis idiomas: inglés, chino, neerlandés, francés, hindi y persa. El modelo se entrena utilizando una combinación de preentrenamiento multilingüe a gran escala y ajuste fino de alta resolución. Para evaluar sus capacidades, ampliamos dos benchmarks exclusivos en inglés a sus equivalentes multilingües: m-GenEval y m-DPG. NeoBabel logra un rendimiento multilingüe de vanguardia mientras mantiene una sólida capacidad en inglés, obteniendo 0.75 en m-GenEval y 0.68 en m-DPG. Destaca que iguala a los modelos líderes en tareas en inglés mientras los supera en +0.11 y +0.09 en benchmarks multilingües, a pesar de que estos modelos están construidos sobre LLMs base multilingües. Esto demuestra la efectividad de nuestro entrenamiento de alineación específica para preservar y extender la generalización translingüística. Además, introducimos dos nuevas métricas para evaluar rigurosamente la alineación multilingüe y la robustez ante prompts con mezcla de códigos. Notablemente, NeoBabel iguala o supera a los modelos exclusivos en inglés mientras es 2-4 veces más pequeño. Publicamos un kit de herramientas abierto, que incluye todo el código, puntos de control del modelo, un conjunto de datos curado de 124M pares de texto-imagen multilingües y protocolos de evaluación multilingüe estandarizados, para impulsar la investigación en IA inclusiva. Nuestro trabajo demuestra que la capacidad multilingüe no es una compensación, sino un catalizador para mejorar la robustez, eficiencia y fidelidad cultural en la IA generativa.
Diseñamos e implementamos AXLearn, un sistema de aprendizaje profundo de producción que facilita el entrenamiento escalable y de alto rendimiento de modelos grandes de aprendizaje profundo. En comparación con otros sistemas de aprendizaje profundo de vanguardia, AXLearn tiene un enfoque único en la modularidad y el soporte para infraestructura de hardware heterogénea. Las interfaces internas de AXLearn entre los componentes de software siguen una encapsulación estricta, lo que permite ensamblar diferentes componentes para facilitar el desarrollo rápido de modelos y la experimentación en infraestructura de computación heterogénea. Introducimos un método novedoso para cuantificar la modularidad mediante la complejidad de Líneas-de-Código (LoC), que demuestra cómo nuestro sistema mantiene una complejidad constante a medida que escalamos los componentes del sistema, en comparación con la complejidad lineal o cuadrática en otros sistemas. Esto permite integrar características como las Incrustaciones de Posición Rotacional (RoPE) en AXLearn a través de cientos de módulos con solo 10 líneas de código, en comparación con las cientos requeridas en otros sistemas. Al mismo tiempo, AXLearn mantiene un rendimiento equivalente en comparación con los sistemas de entrenamiento más avanzados. Finalmente, compartimos nuestra experiencia en el desarrollo y operación de AXLearn.
Los avances recientes en los modelos de difusión de grafos (GDMs, por sus siglas en inglés) han permitido la síntesis de estructuras de red realistas, aunque garantizar la equidad en los datos generados sigue siendo un desafío crítico. Las soluciones existentes intentan mitigar el sesgo mediante el reentrenamiento de los GDMs con restricciones de equidad ad-hoc. Por el contrario, en este trabajo proponemos FAROS, un novedoso marco de generación de grafos equitativos (FAir graph geneRatiOn framework) que aprovecha mecanismos de conmutación de atributos y opera directamente en el proceso de generación del GDM preentrenado. Técnicamente, nuestro enfoque funciona alterando los atributos sensibles de los nodos durante la generación. Para ello, FAROS calcula la fracción óptima de nodos a conmutar y selecciona el paso de difusión en el que realizar la conmutación, estableciendo restricciones multicriterio personalizadas para preservar el perfil de topología de nodos de la distribución original (un indicador de precisión) mientras se garantiza la independencia de las aristas respecto a los atributos sensibles en el grafo generado (un indicador de equidad). Nuestros experimentos en conjuntos de datos de referencia para la predicción de enlaces demuestran que el enfoque propuesto reduce eficazmente las discrepancias en equidad mientras mantiene un rendimiento de precisión comparable (o incluso superior) al de otras líneas base similares. Es destacable que FAROS también logra un mejor equilibrio entre precisión y equidad que otros competidores en algunas de las configuraciones evaluadas bajo el concepto de optimalidad de Pareto, lo que demuestra la efectividad de las restricciones multicriterio impuestas.