Artículos de investigación en IA seleccionados diariamente con traducciones
El advenimiento de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) ha catalizado un cambio transformador en la inteligencia artificial, allanando el camino para agentes inteligentes avanzados capaces de razonamiento sofisticado, percepción robusta y acción versátil en diversos dominios. A medida que estos agentes impulsan cada vez más la investigación y las aplicaciones prácticas de la IA, su diseño, evaluación y mejora continua presentan desafíos intrincados y multifacéticos. Este estudio ofrece una visión integral, enmarcando a los agentes inteligentes dentro de una arquitectura modular inspirada en el cerebro que integra principios de la ciencia cognitiva, la neurociencia y la investigación computacional. Estructuramos nuestra exploración en cuatro partes interconectadas. Primero, profundizamos en la base modular de los agentes inteligentes, mapeando sistemáticamente sus módulos cognitivos, perceptivos y operativos en funcionalidades análogas del cerebro humano, y elucidando componentes clave como la memoria, el modelado del mundo, el procesamiento de recompensas y sistemas similares a las emociones. Segundo, discutimos los mecanismos de auto-mejora y evolución adaptativa, explorando cómo los agentes refinan autónomamente sus capacidades, se adaptan a entornos dinámicos y logran un aprendizaje continuo a través de paradigmas de optimización automatizada, incluyendo estrategias emergentes de AutoML y optimización impulsada por LLMs. Tercero, examinamos los sistemas multiagente colaborativos y evolutivos, investigando la inteligencia colectiva que emerge de las interacciones, la cooperación y las estructuras sociales de los agentes, destacando paralelismos con las dinámicas sociales humanas. Finalmente, abordamos el imperativo crítico de construir sistemas de IA seguros, confiables y beneficiosos, enfatizando las amenazas de seguridad intrínsecas y extrínsecas, la alineación ética, la robustez y las estrategias prácticas de mitigación necesarias para un despliegue confiable en el mundo real.
El entrenamiento de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) presenta numerosos desafíos, incluyendo inestabilidad en los gradientes y picos en la pérdida. Estos fenómenos pueden llevar a una divergencia catastrófica, lo que requiere la restauración costosa de puntos de control y la omisión de lotes de datos. Las técnicas tradicionales de recorte de gradientes, como los métodos basados en constantes o normas, no abordan estos problemas de manera efectiva debido a su dependencia de umbrales fijos o heurísticas, lo que resulta en un aprendizaje ineficiente y requiere intervención manual frecuente. En este trabajo, proponemos ZClip, un algoritmo de recorte de gradientes adaptativo que ajusta dinámicamente el umbral de recorte basándose en propiedades estadísticas de las normas de los gradientes a lo largo del tiempo. A diferencia de estrategias reactivas previas, ZClip se adapta proactivamente a las dinámicas del entrenamiento sin hacer suposiciones previas sobre la escala y la evolución temporal de las normas de los gradientes. En esencia, aprovecha la detección de anomalías basada en puntuaciones z para identificar y mitigar grandes picos en los gradientes, previniendo picos malignos en la pérdida sin interferir con la convergencia en otros casos. Nuestro código está disponible en: https://github.com/bluorion-com/ZClip.
Los Modelos Multimodales de Gran Escala (LMMs) han logrado avances significativos en la comprensión y generación visual, pero aún enfrentan desafíos en la Edición Visual General, particularmente en seguir instrucciones complejas, preservar la consistencia de apariencia y admitir formatos de entrada flexibles. Para abordar esta brecha, presentamos RISEBench, el primer punto de referencia para evaluar la Edición Visual Informada por Razonamiento (RISE). RISEBench se centra en cuatro tipos clave de razonamiento: Temporal, Causal, Espacial y Lógico. Seleccionamos casos de prueba de alta calidad para cada categoría y proponemos un marco de evaluación que valora el Razonamiento de Instrucciones, la Consistencia de Apariencia y la Plausibilidad Visual, tanto con jueces humanos como con un enfoque LMM-como-juez. Nuestros experimentos revelan que, aunque GPT-4o-Native supera significativamente a otros modelos de código abierto y propietarios, incluso este sistema de última generación tiene dificultades con las tareas de razonamiento lógico, destacando un área que sigue siendo poco explorada. Como un esfuerzo inicial, RISEBench tiene como objetivo proporcionar conocimientos fundamentales sobre la edición visual consciente del razonamiento y catalizar futuras investigaciones. Aunque aún se encuentra en sus primeras etapas, estamos comprometidos a expandir y refinar continuamente el punto de referencia para apoyar evaluaciones más completas, confiables y escalables de los sistemas multimodales de próxima generación. Nuestro código y datos se publicarán en https://github.com/PhoenixZ810/RISEBench.
Los recientes avances en el modelo GPT4o de OpenAI han demostrado capacidades sorprendentemente buenas en la generación y edición de imágenes, generando un entusiasmo significativo en la comunidad. Este informe técnico presenta el primer punto de referencia de evaluación (denominado GPT-ImgEval), diagnosticando cuantitativa y cualitativamente el rendimiento de GPT-4o en tres dimensiones críticas: (1) calidad de generación, (2) competencia en edición y (3) síntesis semántica basada en conocimiento del mundo. En las tres tareas, GPT-4o demuestra un rendimiento sólido, superando significativamente los métodos existentes tanto en el control de la generación de imágenes como en la calidad de la salida, al mismo tiempo que muestra capacidades excepcionales de razonamiento basado en conocimiento. Además, basándonos en los datos generados por GPT-4o, proponemos un enfoque basado en modelos de clasificación para investigar la arquitectura subyacente de GPT-4o, donde nuestros resultados empíricos sugieren que el modelo consiste en un componente auto-regresivo (AR) combinado con una cabeza basada en difusión para la decodificación de imágenes, en lugar de arquitecturas similares a VAR. También proporcionamos una especulación completa sobre la arquitectura general de GPT-4o. Adicionalmente, realizamos una serie de análisis para identificar y visualizar las limitaciones específicas de GPT-4o y los artefactos sintéticos comúnmente observados en su generación de imágenes. También presentamos un estudio comparativo de edición de imágenes en múltiples rondas entre GPT-4o y Gemini 2.0 Flash, y discutimos las implicaciones de seguridad de las salidas de GPT-4o, particularmente su detectabilidad por parte de los modelos forenses de imágenes existentes. Esperamos que nuestro trabajo pueda ofrecer información valiosa y proporcionar un punto de referencia confiable para guiar futuras investigaciones, fomentar la reproducibilidad y acelerar la innovación en el campo de la generación de imágenes y más allá. Los códigos y conjuntos de datos utilizados para evaluar GPT-4o se pueden encontrar en https://github.com/PicoTrex/GPT-ImgEval.
Este artículo presenta JavisDiT, un novedoso Transformer de Difusión Conjunta Audio-Vídeo diseñado para la generación sincronizada de audio y vídeo (JAVG). Basado en la potente arquitectura del Transformer de Difusión (DiT), JavisDiT es capaz de generar contenido de audio y vídeo de alta calidad simultáneamente a partir de indicaciones abiertas del usuario. Para garantizar una sincronización óptima, introducimos un mecanismo de alineación espacio-temporal detallada a través de un Estimador de Prior Sincronizado Jerárquico Espacio-Temporal (HiST-Sypo). Este módulo extrae tanto prioridades globales como detalladas espacio-temporales, guiando la sincronización entre los componentes visuales y auditivos. Además, proponemos un nuevo punto de referencia, JavisBench, que consta de 10,140 vídeos sonoros de alta calidad con subtítulos de texto que abarcan diversas escenas y escenarios complejos del mundo real. Asimismo, diseñamos específicamente una métrica robusta para evaluar la sincronización entre pares de audio-vídeo generados en contenido complejo del mundo real. Los resultados experimentales demuestran que JavisDiT supera significativamente a los métodos existentes al garantizar tanto una generación de alta calidad como una sincronización precisa, estableciendo un nuevo estándar para las tareas de JAVG. Nuestro código, modelo y conjunto de datos estarán disponibles públicamente en https://javisdit.github.io/.
El aprendizaje por refuerzo (RL, por sus siglas en inglés) ha sido ampliamente adoptado en la fase de posentrenamiento de modelos de lenguaje a gran escala (LLMs). Recientemente, la incentivación de capacidades de razonamiento en LLMs mediante RL indica que métodos de aprendizaje adecuados podrían permitir una escalabilidad efectiva durante la inferencia. Un desafío clave del RL es obtener señales de recompensa precisas para LLMs en diversos dominios más allá de preguntas verificables o reglas artificiales. En este trabajo, investigamos cómo mejorar el modelado de recompensas (RM) con mayor capacidad de cómputo durante la inferencia para consultas generales, es decir, la escalabilidad en tiempo de inferencia de RM generalista, y además, cómo mejorar la efectividad de la escalabilidad rendimiento-cómputo con métodos de aprendizaje adecuados. Para el enfoque de RM, adoptamos el modelado de recompensas generativo puntual (GRM) para permitir flexibilidad con diferentes tipos de entrada y potencial para la escalabilidad durante la inferencia. Para el método de aprendizaje, proponemos el Ajuste de Crítica Auto-Principiada (SPCT) para fomentar comportamientos escalables de generación de recompensas en GRMs mediante RL en línea, generando principios de manera adaptativa y críticas con precisión, lo que resulta en los modelos DeepSeek-GRM. Además, para una escalabilidad efectiva durante la inferencia, utilizamos muestreo paralelo para expandir el uso de cómputo e introducimos un meta RM para guiar el proceso de votación y mejorar el rendimiento de escalabilidad. Empíricamente, demostramos que SPCT mejora significativamente la calidad y escalabilidad de los GRMs, superando métodos y modelos existentes en varios benchmarks de RM sin sesgos severos, y podría lograr un mejor rendimiento en comparación con la escalabilidad durante el entrenamiento. DeepSeek-GRM aún enfrenta desafíos en algunas tareas, los cuales creemos que podrán ser abordados por esfuerzos futuros en sistemas de recompensas generalistas. Los modelos serán liberados y de código abierto.
La síntesis de cabezas parlantes es fundamental para los avatares virtuales y la interacción humano-computadora. Sin embargo, la mayoría de los métodos existentes suelen estar limitados a aceptar el control de una única modalidad principal, lo que restringe su utilidad práctica. Con este fin, presentamos ACTalker, un marco de difusión de video de extremo a extremo que admite tanto el control de múltiples señales como el control de una sola señal para la generación de videos de cabezas parlantes. Para el control múltiple, diseñamos una estructura mamba paralela con múltiples ramas, cada una utilizando una señal de control separada para manipular regiones faciales específicas. Se aplica un mecanismo de compuerta en todas las ramas, proporcionando un control flexible sobre la generación de video. Para garantizar una coordinación natural del video controlado tanto temporal como espacialmente, empleamos la estructura mamba, que permite que las señales de control manipulen los tokens de características en ambas dimensiones en cada rama. Además, introducimos una estrategia de caída de máscara que permite que cada señal de control controle de manera independiente su región facial correspondiente dentro de la estructura mamba, evitando conflictos de control. Los resultados experimentales demuestran que nuestro método produce videos faciales de aspecto natural impulsados por diversas señales y que la capa mamba integra sin problemas múltiples modalidades de control sin conflictos.
Este artículo presenta SkyReels-A2, un marco de generación de video controlable capaz de ensamblar elementos visuales arbitrarios (por ejemplo, personajes, objetos, fondos) en videos sintetizados basados en indicaciones textuales, manteniendo una consistencia estricta con imágenes de referencia para cada elemento. Denominamos esta tarea elementos-a-video (E2V), cuyos principales desafíos radican en preservar la fidelidad de cada elemento de referencia, garantizar una composición coherente de la escena y lograr resultados naturales. Para abordar estos desafíos, primero diseñamos una canalización de datos integral para construir tripletas de indicación-referencia-video para el entrenamiento del modelo. A continuación, proponemos un novedoso modelo de incrustación conjunta de imagen-texto para inyectar representaciones de múltiples elementos en el proceso generativo, equilibrando la consistencia específica de cada elemento con la coherencia global y la alineación textual. También optimizamos la canalización de inferencia tanto para la velocidad como para la estabilidad de la salida. Además, introducimos un punto de referencia cuidadosamente curado para una evaluación sistemática, es decir, A2 Bench. Los experimentos demuestran que nuestro marco puede generar videos diversos y de alta calidad con un control preciso de los elementos. SkyReels-A2 es el primer modelo de código abierto de grado comercial para la generación de E2V, desempeñándose favorablemente en comparación con modelos comerciales avanzados de código cerrado. Anticipamos que SkyReels-A2 impulsará aplicaciones creativas como el drama y el comercio electrónico virtual, ampliando los límites de la generación de video controlable.
Presentamos el desafío de crear automáticamente un artículo de estilo Wikipedia de alto nivel que agrega información proveniente de múltiples videos diversos sobre eventos del mundo real, como desastres naturales o elecciones políticas. Los videos son fuentes intuitivas para la generación aumentada por recuperación (RAG, por sus siglas en inglés), pero la mayoría de los flujos de trabajo contemporáneos de RAG se centran principalmente en texto, y los métodos existentes para la resumen basado en video se enfocan en la comprensión de escenas de bajo nivel en lugar de la semántica de eventos de alto nivel. Para cerrar esta brecha, introducimos WikiVideo, un punto de referencia que consiste en artículos escritos por expertos y videos densamente anotados que proporcionan evidencia para las afirmaciones de los artículos, facilitando la integración de video en las canalizaciones de RAG y permitiendo la creación de contenido detallado basado en fuentes multimodales. Además, proponemos la Generación Colaborativa de Artículos (CAG, por sus siglas en inglés), un método interactivo novedoso para la creación de artículos a partir de múltiples videos. CAG aprovecha una interacción iterativa entre un modelo de razonamiento estilo r1 y un VideoLLM para obtener inferencias de mayor nivel sobre el evento objetivo de lo que es posible con VideoLLMs por sí solos, los cuales se enfocan en características visuales de bajo nivel. Evaluamos los VideoLLMs más avanzados y CAG en entornos de recuperación oráculo y RAG, y encontramos que CAG supera consistentemente a los métodos alternativos, al tiempo que sugiere interesantes vías para trabajos futuros.
El aprendizaje por refuerzo (RL, por sus siglas en inglés) ha demostrado recientemente un gran potencial para mejorar las capacidades de razonamiento de los modelos de lenguaje grandes y ahora se está extendiendo activamente a los modelos de visión y lenguaje (VLMs). Sin embargo, las aplicaciones existentes de RL en VLMs suelen depender de marcos altamente ingenierizados que dificultan la reproducibilidad y la accesibilidad, además de carecer de protocolos de evaluación estandarizados, lo que complica la comparación de resultados o la interpretación de las dinámicas de entrenamiento. Este trabajo introduce un marco transparente y desde cero para RL en VLMs, ofreciendo una canalización mínima pero funcional de cuatro pasos validada en múltiples modelos y conjuntos de datos. Además, se propone un esquema de evaluación estandarizado para analizar las dinámicas de entrenamiento y los comportamientos reflexivos. Experimentos exhaustivos en tareas de razonamiento visual revelan hallazgos empíricos clave: la longitud de las respuestas es sensible a las semillas aleatorias, la reflexión se correlaciona con la longitud de la salida, y el RL supera consistentemente el ajuste fino supervisado (SFT) en generalización, incluso con datos de alta calidad. Estos hallazgos, junto con el marco propuesto, tienen como objetivo establecer una línea base reproducible y fomentar una mayor participación en la investigación de VLMs basada en RL.
El análisis existente sobre la escalabilidad de los Modelos de Lenguaje de Habla (SLM, por sus siglas en inglés) presenta un panorama desalentador. Se predice que los SLM requieren mucho más poder de cómputo y datos en comparación con los modelos de texto, lo que lleva a algunos a cuestionar la viabilidad de entrenar SLM de alta calidad. Sin embargo, los SLM modernos a menudo se inicializan a partir de Modelos de Lenguaje de Texto (TextLM) preentrenados utilizando intercalación de habla y texto para permitir la transferencia de conocimiento. Esto plantea la pregunta: ¿Los SLM intercalados escalan de manera más eficiente que los SLM sin texto? En este artículo, respondemos con un rotundo ¡sí! Realizamos un análisis de escalabilidad de los SLM intercalados entrenando varias decenas de modelos y analizando las tendencias de escalabilidad. Observamos que, bajo esta configuración, los SLM escalan de manera más eficiente con el poder de cómputo. Además, nuestros resultados indican que las dinámicas de escalabilidad son significativamente diferentes a las de los SLM sin texto, lo que sugiere que se debería asignar notablemente más del presupuesto de cómputo para aumentar el tamaño del modelo en lugar de los tokens de entrenamiento. También estudiamos el papel de los datos sintéticos y las familias de modelos TextLM para desbloquear este potencial. Los resultados sugieren que nuestro modelo escalado logra un rendimiento comparable con los modelos líderes en métricas semánticas de habla, utilizando menos poder de cómputo y datos que otros enfoques. Hacemos públicos los modelos, muestras y datos en: https://pages.cs.huji.ac.il/adiyoss-lab/sims.
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) enfrentan altos costos computacionales debido a su tamaño masivo y al gran número de tokens visuales. En este artículo, investigamos la redundancia por capas en los MLLMs mediante la introducción de una nueva métrica, la Contribución de Capa (LC, por sus siglas en inglés), que cuantifica el impacto de las transformaciones de una capa en los tokens visuales y de texto, respectivamente. El cálculo de LC implica medir la divergencia en la salida del modelo que resulta de eliminar las transformaciones de la capa en los tokens especificados. Nuestro experimento piloto revela que muchas capas de los MLLMs muestran una contribución mínima durante el procesamiento de tokens visuales. Motivados por esta observación, proponemos ShortV, un método sin entrenamiento que aprovecha LC para identificar capas ineficaces y congela las actualizaciones de tokens visuales en estas capas. Los experimentos muestran que ShortV puede congelar tokens visuales en aproximadamente el 60\% de las capas de los MLLMs, reduciendo drásticamente los costos computacionales relacionados con la actualización de tokens visuales. Por ejemplo, logra una reducción del 50\% en FLOPs en LLaVA-NeXT-13B mientras mantiene un rendimiento superior. El código estará disponible públicamente en https://github.com/icip-cas/ShortV.
Los modelos de difusión ofrecen un control impresionante para tareas de imagen, principalmente a través de predicciones de ruido que codifican información específica de la tarea y una guía libre de clasificadores que permite un escalado ajustable. Este mecanismo de escalado define implícitamente un "espacio de escalado", cuyo potencial para la manipulación semántica de grano fino sigue siendo poco explorado. Investigamos este espacio, comenzando con la edición basada en inversión, donde la diferencia entre las predicciones de ruido condicionales e incondicionales contiene información semántica clave. Nuestra contribución principal surge de un análisis de Fourier de las predicciones de ruido, revelando que sus componentes de baja y alta frecuencia evolucionan de manera diferente a lo largo de la difusión. Basándonos en esta idea, presentamos FreSca, un método sencillo que aplica el escalado de guía de forma independiente a diferentes bandas de frecuencia en el dominio de Fourier. FreSca mejora notablemente los métodos existentes de edición de imágenes sin necesidad de reentrenamiento. De manera emocionante, su efectividad se extiende a tareas de comprensión de imágenes, como la estimación de profundidad, obteniendo ganancias cuantitativas en múltiples conjuntos de datos.
La selección de modelos es un paso crítico en la predicción de series temporales, que tradicionalmente requiere evaluaciones exhaustivas de rendimiento en diversos conjuntos de datos. Los enfoques de metaaprendizaje buscan automatizar este proceso, pero suelen depender de matrices de rendimiento preconstruidas, cuya creación es costosa. En este trabajo, proponemos aprovechar los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) como una alternativa ligera para la selección de modelos. Nuestro método elimina la necesidad de matrices de rendimiento explícitas al utilizar el conocimiento inherente y las capacidades de razonamiento de los LLMs. A través de experimentos exhaustivos con LLaMA, GPT y Gemini, demostramos que nuestro enfoque supera las técnicas tradicionales de metaaprendizaje y los métodos heurísticos de referencia, al tiempo que reduce significativamente la sobrecarga computacional. Estos hallazgos subrayan el potencial de los LLMs en la selección eficiente de modelos para la predicción de series temporales.
Desde el surgimiento de los modelos de lenguaje de gran escala basados en razonamiento, muchos han logrado un gran éxito al destilar capacidades de razonamiento en modelos estudiantiles. Dichas técnicas han reducido significativamente la brecha entre el razonamiento y los LLM estándar en tareas de codificación. A pesar de esto, gran parte del progreso en la destilación de modelos de razonamiento sigue estando limitado por conjuntos de datos propietarios o carece de detalles sobre la curación, filtrado y entrenamiento posterior de los datos. Para abordar esto, construimos un conjunto de datos superior de ajuste fino supervisado (SFT) que utilizamos para lograr resultados de capacidad de codificación de vanguardia en modelos de diversos tamaños. Nuestros modelos destilados utilizan únicamente SFT para alcanzar un 61.8% en LiveCodeBench y un 24.6% en CodeContests, superando a alternativas entrenadas con aprendizaje por refuerzo. Luego, realizamos un análisis sobre las fuentes de datos utilizadas para construir nuestro conjunto de datos, el impacto del filtrado por ejecución de código y la importancia de la diversidad de instrucciones/soluciones. Observamos que el filtrado por ejecución afectó negativamente la precisión en los benchmarks, lo que nos llevó a priorizar la diversidad de instrucciones sobre la corrección de las soluciones. Finalmente, también analizamos la eficiencia de tokens y los patrones de razonamiento utilizados por estos modelos. Pondremos a disposición de la comunidad estos conjuntos de datos y modelos destilados como código abierto.
Los avances recientes en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado que es prometedor utilizar Modelos de Recompensa de Procesos (PRMs, por sus siglas en inglés) como verificadores para mejorar el rendimiento de los LLMs. Sin embargo, los PRMs actuales enfrentan tres desafíos clave: (1) capacidades limitadas de supervisión y generalización de procesos, (2) dependencia de la predicción de valores escalares sin aprovechar las habilidades generativas de los LLMs, y (3) incapacidad para escalar el cómputo en tiempo de prueba de los PRMs. En este trabajo, presentamos GenPRM, un modelo de recompensa de procesos generativo que realiza un razonamiento explícito de Cadena de Pensamiento (CoT, por sus siglas en inglés) con verificación de código antes de proporcionar un juicio para cada paso del razonamiento. Para obtener etiquetas de supervisión de procesos y datos de justificación de alta calidad, proponemos la Estimación de Progreso Relativo (RPE, por sus siglas en inglés) y un marco de síntesis de justificación que incorpora la verificación de código. Los resultados experimentales en ProcessBench y varias tareas de razonamiento matemático muestran que GenPRM supera significativamente a los PRMs anteriores con solo 23K datos de entrenamiento del conjunto de datos MATH. A través del escalado en tiempo de prueba, un GenPRM de 1.5B supera a GPT-4o, y un GenPRM de 7B supera a Qwen2.5-Math-PRM-72B en ProcessBench. Además, GenPRM demuestra una fuerte capacidad para servir como modelo crítico para el refinamiento de modelos de políticas. Este trabajo establece un nuevo paradigma para la supervisión de procesos que cierra la brecha entre los PRMs y los modelos críticos en los LLMs. Nuestro código, modelo y datos estarán disponibles en https://ryanliu112.github.io/GenPRM.
Presentamos la primera evidencia mecanicista de que los agentes de aprendizaje por refuerzo sin modelo pueden aprender a planificar. Esto se logra aplicando una metodología basada en interpretabilidad conceptual a un agente sin modelo en Sokoban, un punto de referencia comúnmente utilizado para estudiar la planificación. Específicamente, demostramos que DRC, un agente sin modelo genérico introducido por Guez et al. (2019), utiliza representaciones de conceptos aprendidos para formular internamente planes que predicen los efectos a largo plazo de las acciones en el entorno e influyen en la selección de acciones. Nuestra metodología incluye: (1) sondear conceptos relevantes para la planificación, (2) investigar la formación de planes dentro de las representaciones del agente, y (3) verificar que los planes descubiertos (en las representaciones del agente) tienen un efecto causal en el comportamiento del agente mediante intervenciones. También mostramos que la aparición de estos planes coincide con la emergencia de una propiedad similar a la planificación: la capacidad de beneficiarse de un cómputo adicional durante las pruebas. Finalmente, realizamos un análisis cualitativo del algoritmo de planificación aprendido por el agente y descubrimos un fuerte parecido con la búsqueda bidireccional paralelizada. Nuestros hallazgos avanzan en la comprensión de los mecanismos internos que subyacen al comportamiento de planificación en los agentes, lo cual es importante dada la reciente tendencia de capacidades emergentes de planificación y razonamiento en los LLM a través del RL.
El descubrimiento científico está preparado para avanzar rápidamente gracias a la robótica avanzada y la inteligencia artificial. Las prácticas científicas actuales enfrentan limitaciones sustanciales, ya que la experimentación manual sigue siendo lenta y requiere muchos recursos, mientras que la investigación multidisciplinaria exige la integración de conocimientos que va más allá de los límites de la experiencia de los investigadores individuales. Aquí, imaginamos un concepto de científico generalista autónomo (AGS, por sus siglas en inglés) que combina la IA agentiva y la robótica corporeizada para automatizar todo el ciclo de vida de la investigación. Este sistema podría interactuar dinámicamente tanto con entornos físicos como virtuales, al tiempo que facilita la integración de conocimientos en diversas disciplinas científicas. Al implementar estas tecnologías en todas las etapas de la investigación —desde la revisión de literatura, la generación de hipótesis y la experimentación hasta la redacción de manuscritos— e incorporar la reflexión interna junto con la retroalimentación externa, este sistema tiene como objetivo reducir significativamente el tiempo y los recursos necesarios para el descubrimiento científico. Basándose en la evolución desde científicos de IA virtuales hasta científicos robóticos generalistas basados en IA, el AGS promete un potencial revolucionario. A medida que estos sistemas autónomos se integran cada vez más en el proceso de investigación, planteamos la hipótesis de que el descubrimiento científico podría seguir nuevas leyes de escalabilidad, potencialmente moldeadas por el número y las capacidades de estos sistemas autónomos, ofreciendo perspectivas novedosas sobre cómo se genera y evoluciona el conocimiento. La adaptabilidad de los robots corporeizados a entornos extremos, junto con el efecto volante de la acumulación de conocimiento científico, promete empujar continuamente más allá de las fronteras tanto físicas como intelectuales.
El método 3D Gaussian Splatting (3DGS) demuestra una calidad superior y una velocidad de renderizado excepcional, pero con millones de Gaussianas 3D y costos significativos de almacenamiento y transmisión. Los métodos recientes de compresión de 3DGS se centran principalmente en comprimir Scaffold-GS, logrando un rendimiento impresionante pero con una estructura de vóxeles adicional y una estrategia compleja de codificación y cuantización. En este artículo, nuestro objetivo es desarrollar un método simple pero efectivo llamado NeuralGS que explore una alternativa para comprimir el 3DGS original en una representación compacta sin la estructura de vóxeles ni las estrategias complejas de cuantización. Nuestra observación es que los campos neuronales, como NeRF, pueden representar escenas 3D complejas con redes neuronales de perceptrón multicapa (MLP) utilizando solo unos pocos megabytes. Por lo tanto, NeuralGS adopta eficazmente la representación de campos neuronales para codificar los atributos de las Gaussianas 3D con MLPs, requiriendo un tamaño de almacenamiento pequeño incluso para escenas a gran escala. Para lograrlo, implementamos una estrategia de agrupamiento y ajustamos las Gaussianas con diferentes MLPs pequeños para cada grupo, basándonos en puntuaciones de importancia de las Gaussianas como pesos de ajuste. Experimentamos en múltiples conjuntos de datos, logrando una reducción promedio del tamaño del modelo de 45 veces sin afectar la calidad visual. El rendimiento de compresión de nuestro método en el 3DGS original es comparable a los métodos de compresión dedicados basados en Scaffold-GS, lo que demuestra el enorme potencial de comprimir directamente el 3DGS original con campos neuronales.
Los Autoencoders Dispersos (SAEs, por sus siglas en inglés) han demostrado recientemente mejorar la interpretabilidad y la capacidad de direccionamiento en los Modelos de Lenguaje de Gran Escala (LLMs). En este trabajo, extendemos la aplicación de los SAEs a los Modelos de Visión-Lenguaje (VLMs), como CLIP, e introducimos un marco integral para evaluar la monosemanticidad en las representaciones visuales. Nuestros resultados experimentales revelan que los SAEs entrenados en VLMs mejoran significativamente la monosemanticidad de las neuronas individuales, al mismo tiempo que exhiben representaciones jerárquicas que se alinean bien con estructuras definidas por expertos (por ejemplo, la taxonomía de iNaturalist). Más notablemente, demostramos que la aplicación de SAEs para intervenir en un codificador visual de CLIP permite direccionar directamente la salida de LLMs multimodales (por ejemplo, LLaVA) sin necesidad de realizar modificaciones en el modelo subyacente. Estos hallazgos destacan la practicidad y eficacia de los SAEs como un enfoque no supervisado para mejorar tanto la interpretabilidad como el control de los VLMs.
Los sistemas de reconocimiento automático del habla han avanzado sin duda con la integración de modelos multilingües y multitarea como Whisper, los cuales han demostrado una capacidad prometedora para comprender y procesar el habla en una amplia gama de idiomas. A pesar de su robustez, estos modelos a menudo no logran manejar las distinciones lingüísticas de las lenguas minoritarias. Este estudio aborda esta brecha al integrar modelos lingüísticos tradicionales y novedosos con modelos Whisper ajustados finamente para mejorar su rendimiento en idiomas menos estudiados. A través de un ajuste fino riguroso y evaluación en múltiples conjuntos de datos, demostramos mejoras sustanciales en la tasa de error de palabras, particularmente en escenarios de bajos recursos. Nuestro enfoque no solo aprovecha los extensos datos con los que Whisper fue preentrenado, sino que también complementa su adaptabilidad lingüística al incorporar modelos de lenguaje. Obtuvimos mejoras de hasta el 51\% para conjuntos de datos dentro de la distribución y hasta el 34\% para oraciones fuera de la distribución utilizando modelos de lenguaje estadísticos, mientras que los modelos de lenguaje grandes proporcionaron mejoras moderadas pero consistentemente robustas en diversos contextos lingüísticos. Los hallazgos revelan que, aunque la integración beneficia de manera confiable a todos los tamaños de modelos, el grado de mejora varía, destacando la importancia de optimizar los parámetros de los modelos de lenguaje. Finalmente, enfatizamos la importancia de seleccionar parámetros de evaluación apropiados al reportar los resultados utilizando modelos ASR basados en transformadores. En resumen, esta investigación allana el camino para tecnologías ASR más inclusivas que funcionan mejor en diversos idiomas al enriquecer su conocimiento lingüístico. Para más detalles de implementación de este estudio, la documentación técnica y el código fuente están disponibles en http://www.github.com/hitz-zentroa/whisper-lm.
Aprender a generar parámetros de redes neuronales condicionados a descripciones de tareas y especificaciones de arquitectura es fundamental para avanzar en la adaptabilidad de modelos y el aprendizaje por transferencia. Los métodos existentes, especialmente aquellos basados en modelos de difusión, presentan limitaciones en su escalabilidad a arquitecturas grandes, rigidez para manejar profundidades de red variables y generación de parámetros desarticulada que socava la coherencia entre capas. En este trabajo, proponemos IGPG (Generación de Parámetros Guiada por Instrucciones), un marco autoregresivo que unifica la síntesis de parámetros en diversas tareas y arquitecturas. IGPG aprovecha un VQ-VAE y un modelo autoregresivo para generar parámetros de redes neuronales, condicionados por instrucciones de tarea, conjuntos de datos y detalles de arquitectura. Al generar de manera autoregresiva los tokens de los pesos de la red neuronal, IGPG asegura la coherencia entre capas y permite una adaptación eficiente entre modelos y conjuntos de datos. Al operar a nivel de tokens, IGPG captura efectivamente distribuciones complejas de parámetros agregadas a partir de un amplio espectro de modelos preentrenados. Experimentos exhaustivos en múltiples conjuntos de datos de visión demuestran que IGPG consolida diversos modelos preentrenados en un único marco generativo flexible. Los parámetros sintetizados logran un rendimiento competitivo o superior en comparación con métodos de vanguardia, especialmente en términos de escalabilidad y eficiencia cuando se aplican a arquitecturas grandes. Estos resultados subrayan el potencial de IGPG como una herramienta poderosa para la recuperación de pesos preentrenados, selección de modelos y ajuste fino rápido específico para tareas.
La segmentación panóptica no supervisada tiene como objetivo dividir una imagen en regiones semánticamente significativas e instancias de objetos distintas sin entrenamiento en datos anotados manualmente. A diferencia de trabajos previos sobre comprensión panóptica de escenas no supervisada, eliminamos la necesidad de datos de entrenamiento centrados en objetos, permitiendo la comprensión no supervisada de escenas complejas. Para ello, presentamos el primer método panóptico no supervisado que se entrena directamente en imágenes centradas en escenas. En particular, proponemos un enfoque para obtener etiquetas pseudo panópticas de alta resolución en datos complejos centrados en escenas, combinando representaciones visuales, profundidad y señales de movimiento. La utilización tanto del entrenamiento con etiquetas pseudo como de una estrategia de autoentrenamiento panóptico da como resultado un enfoque novedoso que predice con precisión la segmentación panóptica de escenas complejas sin requerir anotaciones humanas. Nuestro enfoque mejora significativamente la calidad panóptica, superando, por ejemplo, el estado del arte reciente en segmentación panóptica no supervisada en Cityscapes en 9.4 puntos porcentuales en PQ.