Artículos de investigación en IA seleccionados diariamente con traducciones
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés) ha demostrado recientemente un éxito notable en la mejora de las capacidades de razonamiento de los LLMs, particularmente en tareas de matemáticas y programación. Se cree ampliamente que el RLVR permite a los LLMs mejorarse continuamente, adquiriendo así habilidades de razonamiento novedosas que superan la capacidad de los modelos base correspondientes. En este estudio, sin embargo, reexaminamos críticamente esta suposición midiendo la métrica pass@k con valores grandes de k para explorar el límite de la capacidad de razonamiento de los modelos en una amplia gama de familias de modelos y benchmarks. Sorprendentemente, el RL no induce, de hecho, patrones de razonamiento fundamentalmente nuevos. Si bien los modelos entrenados con RL superan a sus modelos base en valores más pequeños de k (por ejemplo, k=1), los modelos base pueden alcanzar un puntaje pass@k comparable o incluso mayor en comparación con sus contrapartes entrenadas con RL en valores grandes de k. Las rutas de razonamiento generadas por los modelos entrenados con RL ya están incluidas en la distribución de muestreo de los modelos base, lo que sugiere que la mayoría de las habilidades de razonamiento manifestadas en los modelos entrenados con RL ya son obtenidas por los modelos base. Un análisis adicional muestra que el entrenamiento con RL mejora el rendimiento al sesgar la distribución de salida del modelo hacia rutas que tienen más probabilidades de generar recompensas, muestreando así respuestas correctas de manera más eficiente. Pero esto también resulta en un límite de capacidad de razonamiento más estrecho en comparación con los modelos base. Se observan resultados similares en tareas de razonamiento visual entrenadas con RLVR. Además, encontramos que la destilación puede introducir genuinamente nuevos conocimientos en el modelo, a diferencia del RLVR. Estos hallazgos subrayan una limitación crítica del RLVR en el avance de las habilidades de razonamiento de los LLMs, lo que nos obliga a repensar fundamentalmente el impacto del entrenamiento con RL en los LLMs de razonamiento y la necesidad de un mejor paradigma. Página del proyecto: https://limit-of-RLVR.github.io
La generación aumentada por recuperación (RAG, por sus siglas en inglés) capacita a los modelos de lenguaje de gran escala para acceder a corpus externos y privados, permitiendo respuestas factualmente consistentes en dominios específicos. Al explotar la estructura inherente del corpus, los métodos basados en grafos de RAG enriquecen aún más este proceso mediante la construcción de un índice de grafo de conocimiento y aprovechando la naturaleza estructural de los grafos. Sin embargo, los enfoques actuales de RAG basados en grafos rara vez priorizan el diseño de estructuras de grafos. Un grafo mal diseñado no solo dificulta la integración fluida de diversos algoritmos de grafos, sino que también resulta en inconsistencias en el flujo de trabajo y un rendimiento degradado. Para liberar aún más el potencial de los grafos en RAG, proponemos NodeRAG, un marco centrado en grafos que introduce estructuras de grafos heterogéneas que permiten la integración fluida y holística de metodologías basadas en grafos en el flujo de trabajo de RAG. Al alinearse estrechamente con las capacidades de los LLMs, este marco asegura un proceso completo y eficiente de extremo a extremo. A través de extensos experimentos, demostramos que NodeRAG exhibe ventajas de rendimiento sobre métodos anteriores, incluyendo GraphRAG y LightRAG, no solo en tiempo de indexación, tiempo de consulta y eficiencia de almacenamiento, sino también en la entrega de un rendimiento superior en tareas de respuesta a preguntas en benchmarks de múltiples saltos y evaluaciones abiertas cara a cara con un mínimo de tokens de recuperación. Nuestro repositorio de GitHub puede consultarse en https://github.com/Terry-Xu-666/NodeRAG.
La calidad y diversidad de los datos son fundamentales para la construcción de conjuntos de datos efectivos para el ajuste por instrucciones. % Con la creciente disponibilidad de conjuntos de datos de ajuste por instrucciones de código abierto, resulta ventajoso seleccionar automáticamente subconjuntos de alta calidad y diversidad a partir de una gran cantidad de datos. % Los métodos existentes suelen priorizar la calidad de las instancias y utilizan reglas heurísticas para mantener la diversidad. % Sin embargo, esta falta de una visión integral de toda la colección a menudo conduce a resultados subóptimos. % Además, las reglas heurísticas generalmente se centran en la distancia o agrupamiento dentro del espacio de incrustación, lo que no logra capturar con precisión la intención de instrucciones complejas en el espacio semántico. % Para cerrar esta brecha, proponemos un método unificado para cuantificar el contenido de información de los conjuntos de datos. Este método modela el espacio semántico mediante la construcción de un grafo de etiquetas y cuantifica la diversidad basándose en la distribución de la información dentro del grafo. % Basándonos en esta medición, introducimos además un método de muestreo eficiente que selecciona muestras de datos de manera iterativa para Maximizar la Ganancia de Información (MIG) en el espacio semántico. % Los experimentos en varios conjuntos de datos y modelos base demuestran que MIG supera consistentemente a los métodos más avanzados. % Cabe destacar que el modelo ajustado con un 5\% de los datos de Tulu3 muestreados por MIG logra un rendimiento comparable al modelo SFT oficial entrenado con el conjunto de datos completo, con mejoras de +5.73\% en AlpacaEval y +6.89\% en Wildbench.
Trabajos previos indican que los modelos de lenguaje grandes exhiben un "sesgo hacia el inglés", es decir, suelen desempeñarse mejor cuando las tareas se presentan en inglés. Curiosamente, hemos observado que el uso de ciertos otros idiomas en tareas de razonamiento puede generar un mejor rendimiento que el inglés. Sin embargo, este fenómeno sigue siendo poco explorado. En este artículo, exploramos el límite superior de aprovechar el multilingüismo en tareas de razonamiento, sugiriendo que el razonamiento multilingüe promete límites superiores significativamente (casi 10 puntos Acc@k) y robustamente (tolerancia a variaciones en la calidad de la traducción y elección del idioma) más altos que el razonamiento exclusivo en inglés. Además de analizar la razón detrás de este límite superior y los desafíos para alcanzarlo, también encontramos que los métodos comunes de selección de respuestas no pueden alcanzar este límite superior, debido a sus limitaciones y sesgos. Estas percepciones podrían allanar el camino para futuras investigaciones dirigidas a aprovechar plenamente el potencial del razonamiento multilingüe en los LLM.
Exploramos la tarea de reconstrucción geométrica de imágenes capturadas desde una mezcla de vistas terrestres y aéreas. Los enfoques actuales basados en aprendizaje de última generación no logran manejar la variación extrema de puntos de vista entre pares de imágenes aéreas-terrestres. Nuestra hipótesis es que la falta de conjuntos de datos de alta calidad y co-registrados de imágenes aéreas-terrestres para el entrenamiento es una razón clave de este fracaso. Dichos datos son difíciles de recopilar precisamente porque es difícil reconstruirlos de manera escalable. Para superar este desafío, proponemos un marco escalable que combina representaciones pseudo-sintéticas a partir de mallas 3D de ciudades completas (por ejemplo, Google Earth) con imágenes reales de nivel terrestre obtenidas de manera colaborativa (por ejemplo, MegaDepth). Los datos pseudo-sintéticos simulan una amplia gama de puntos de vista aéreos, mientras que las imágenes reales colaborativas ayudan a mejorar la fidelidad visual para las imágenes de nivel terrestre donde las representaciones basadas en mallas carecen de suficiente detalle, cerrando efectivamente la brecha de dominio entre las imágenes reales y las representaciones pseudo-sintéticas. Utilizando este conjunto de datos híbrido, ajustamos varios algoritmos de última generación y logramos mejoras significativas en tareas aéreas-terrestres del mundo real sin entrenamiento previo (zero-shot). Por ejemplo, observamos que el modelo base DUSt3R localiza menos del 5% de los pares aéreos-terrestres dentro de un margen de error de 5 grados en la rotación de la cámara, mientras que el ajuste fino con nuestros datos aumenta la precisión a casi el 56%, abordando un punto crítico de fallo en el manejo de grandes cambios de punto de vista. Más allá de la estimación de la cámara y la reconstrucción de escenas, nuestro conjunto de datos también mejora el rendimiento en tareas posteriores como la síntesis de nuevas vistas en escenarios desafiantes de imágenes aéreas-terrestres, demostrando el valor práctico de nuestro enfoque en aplicaciones del mundo real.
El diseño de arquitecturas base eficientes y efectivas ha estado en el núcleo de los esfuerzos de investigación para mejorar la capacidad de los modelos fundacionales. Inspirados por el fenómeno cognitivo humano del sesgo atencional—la tendencia natural a priorizar ciertos eventos o estímulos—reconceptualizamos las arquitecturas neuronales, incluyendo Transformers, Titans y redes neuronales recurrentes lineales modernas, como módulos de memoria asociativa que aprenden un mapeo de claves y valores utilizando un objetivo interno, denominado sesgo atencional. Sorprendentemente, observamos que la mayoría de los modelos de secuencia existentes aprovechan ya sea (1) la similitud de producto punto, o (2) objetivos de regresión L2 como su sesgo atencional. Yendo más allá de estos objetivos, presentamos un conjunto de configuraciones alternativas de sesgo atencional junto con sus aproximaciones efectivas para estabilizar su procedimiento de entrenamiento. Luego reinterpretamos los mecanismos de olvido en las arquitecturas de aprendizaje profundo modernas como una forma de regularización de retención, proporcionando un nuevo conjunto de puertas de olvido para modelos de secuencia. Basándonos en estas ideas, presentamos Miras, un marco general para diseñar arquitecturas de aprendizaje profundo basadas en cuatro elecciones: (i) arquitectura de memoria asociativa, (ii) objetivo de sesgo atencional, (iii) puerta de retención, y (iv) algoritmo de aprendizaje de memoria. Presentamos tres nuevos modelos de secuencia—Moneta, Yaad y Memora—que superan el poder de las RNNs lineales existentes mientras mantienen un proceso de entrenamiento rápido y paralelizable. Nuestros experimentos muestran que diferentes elecciones de diseño en Miras producen modelos con diversas fortalezas. Por ejemplo, ciertas instancias de Miras logran un rendimiento excepcional en tareas especiales como modelado de lenguaje, razonamiento de sentido común y tareas intensivas en recuperación, superando incluso a Transformers y otros modelos recurrentes lineales modernos.
Si bien comprender los límites del conocimiento de los LLM es crucial para prevenir la alucinación, la investigación sobre los límites del conocimiento de los LLM se ha centrado predominantemente en el inglés. En este trabajo, presentamos el primer estudio que analiza cómo los LLM reconocen los límites del conocimiento en diferentes idiomas, explorando sus representaciones internas al procesar preguntas conocidas y desconocidas en múltiples idiomas. Nuestros estudios empíricos revelan tres hallazgos clave: 1) Las percepciones de los límites del conocimiento de los LLM están codificadas en las capas medias a medias-altas en diferentes idiomas. 2) Las diferencias lingüísticas en la percepción de los límites del conocimiento siguen una estructura lineal, lo que motiva nuestra propuesta de un método de alineación sin entrenamiento que transfiere eficazmente la capacidad de percepción de los límites del conocimiento entre idiomas, ayudando así a reducir el riesgo de alucinación en idiomas de bajos recursos; 3) El ajuste fino en pares de preguntas bilingües traducidas mejora aún más el reconocimiento de los límites del conocimiento de los LLM entre idiomas. Dada la ausencia de bancos de pruebas estándar para el análisis de límites del conocimiento multilingüe, construimos una suite de evaluación multilingüe que comprende tres tipos representativos de datos de límites del conocimiento. Nuestro código y conjuntos de datos están disponibles públicamente en https://github.com/DAMO-NLP-SG/LLM-Multilingual-Knowledge-Boundaries.
La primera generación de Modelos de Lenguaje a Gran Escala —lo que podríamos llamar "Acto I" de la IA generativa (2020-2023)— logró un éxito notable mediante el escalado masivo de parámetros y datos, aunque exhibió limitaciones fundamentales en la latencia del conocimiento, el razonamiento superficial y los procesos cognitivos restringidos. Durante esta era, la ingeniería de prompts emergió como nuestra principal interfaz con la IA, permitiendo la comunicación a nivel de diálogo a través del lenguaje natural. Ahora somos testigos del surgimiento del "Acto II" (2024-presente), donde los modelos están transitando de sistemas de recuperación de conocimiento (en el espacio latente) a motores de construcción de pensamiento mediante técnicas de escalado en tiempo de prueba. Este nuevo paradigma establece una conexión a nivel mental con la IA a través de pensamientos basados en el lenguaje. En este artículo, aclaramos los fundamentos conceptuales de la ingeniería de la cognición y explicamos por qué este momento es crucial para su desarrollo. Desglosamos sistemáticamente estos enfoques avanzados mediante tutoriales exhaustivos e implementaciones optimizadas, democratizando el acceso a la ingeniería de la cognición y permitiendo que cada profesional participe en el segundo acto de la IA. Proporcionamos una colección de artículos actualizada regularmente sobre el escalado en tiempo de prueba en el Repositorio de GitHub: https://github.com/GAIR-NLP/cognition-engineering.
Navegar dilemas de alto riesgo que involucran valores en conflicto es un desafío incluso para los humanos, y más aún para la IA. Sin embargo, trabajos previos en la evaluación de las capacidades de razonamiento de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) en tales situaciones se han limitado a escenarios cotidianos. Para cerrar esta brecha, este trabajo introduce primero CLASH (Evaluaciones de LLMs basadas en perspectivas de personajes en situaciones de alto riesgo), un conjunto de datos meticulosamente curado que consta de 345 dilemas de alto impacto junto con 3,795 perspectivas individuales de diversos valores. En particular, diseñamos CLASH de manera que permita estudiar aspectos críticos de los procesos de toma de decisiones basados en valores que faltan en trabajos previos, incluyendo la comprensión de la ambivalencia en las decisiones y el malestar psicológico, así como la captura de los cambios temporales en los valores desde las perspectivas de los personajes. Al evaluar 10 modelos de frontera abiertos y cerrados, descubrimos varios hallazgos clave. (1) Incluso los modelos más fuertes, como GPT-4o y Claude-Sonnet, logran menos del 50% de precisión al identificar situaciones en las que la decisión debería ser ambivalente, mientras que tienen un desempeño significativamente mejor en escenarios claros. (2) Aunque los LLMs predicen razonablemente el malestar psicológico según lo marcado por humanos, comprenden de manera insuficiente las perspectivas que involucran cambios de valores, lo que indica la necesidad de que los LLMs razonen sobre valores complejos. (3) Nuestros experimentos también revelan una correlación significativa entre las preferencias de valores de los LLMs y su capacidad de ser dirigidos hacia un valor dado. (4) Finalmente, los LLMs muestran una mayor capacidad de dirección cuando se involucran en razonamientos de valores desde una perspectiva de terceros, en comparación con una configuración en primera persona, aunque ciertos pares de valores se benefician de manera única del enfoque en primera persona.
La generación de escenas 3D a nivel de escena representa una frontera crítica en multimedia y gráficos por computadora, sin embargo, los enfoques existentes adolecen de categorías de objetos limitadas o carecen de flexibilidad de edición para aplicaciones interactivas. En este artículo, presentamos HiScene, un marco jerárquico novedoso que cierra la brecha entre la generación de imágenes 2D y la generación de objetos 3D, y ofrece escenas de alta fidelidad con identidades compositivas y contenido escénico estético. Nuestra idea clave es tratar las escenas como "objetos" jerárquicos bajo vistas isométricas, donde una habitación funciona como un objeto complejo que puede descomponerse en elementos manipulables. Este enfoque jerárquico nos permite generar contenido 3D que se alinea con representaciones 2D mientras mantiene la estructura compositiva. Para garantizar la completitud y alineación espacial de cada instancia descompuesta, desarrollamos una técnica de completamiento amodal basada en difusión de video que maneja eficazmente oclusiones y sombras entre objetos, e introducimos la inyección de prioridades de forma para asegurar la coherencia espacial dentro de la escena. Los resultados experimentales demuestran que nuestro método produce arreglos de objetos más naturales e instancias de objetos completas adecuadas para aplicaciones interactivas, manteniendo la plausibilidad física y la alineación con las entradas del usuario.
La información contextual global y los detalles locales son esenciales para las tareas de eliminación de niebla. Los modelos de aprendizaje profundo funcionan bien con imágenes pequeñas y de baja resolución, pero encuentran dificultades con imágenes grandes y de alta resolución debido a las limitaciones de memoria de las GPU. Como compromiso, a menudo recurren al corte de imágenes o a la reducción de resolución. El primero disminuye la información global, mientras que el segundo descarta los detalles de alta frecuencia. Para abordar estos desafíos, proponemos DehazeXL, un método de eliminación de niebla que equilibra eficazmente el contexto global y la extracción de características locales, permitiendo el modelado de imágenes grandes de extremo a extremo en hardware GPU estándar. Además, para evaluar la eficiencia de la utilización del contexto global en el rendimiento de la eliminación de niebla, diseñamos un método de atribución visual adaptado a las características de estas tareas. Finalmente, reconociendo la falta de conjuntos de datos de referencia para la eliminación de niebla en imágenes grandes, hemos desarrollado un conjunto de datos de eliminación de niebla de ultra alta resolución (8KDehaze) para apoyar el entrenamiento y prueba de modelos. Este incluye 10000 pares de imágenes de teledetección claras y con niebla, cada una con un tamaño de 8192 por 8192 píxeles. Experimentos extensivos demuestran que DehazeXL puede inferir imágenes de hasta 10240 por 10240 píxeles utilizando solo 21 GB de memoria, logrando resultados de vanguardia entre todos los métodos evaluados. El código fuente y el conjunto de datos experimental están disponibles en https://github.com/CastleChen339/DehazeXL.
Los avances recientes en los modelos de razonamiento a gran escala (LRMs, por sus siglas en inglés) han demostrado la efectividad de escalar el cómputo en tiempo de prueba para mejorar las capacidades de razonamiento en múltiples tareas. Sin embargo, los LRMs suelen sufrir problemas de "sobrerazonamiento", donde los modelos generan pasos de razonamiento significativamente redundantes mientras aportan ganancias limitadas en el rendimiento. Los trabajos existentes dependen del ajuste fino para mitigar el sobrerazonamiento, lo que requiere datos adicionales, configuraciones de entrenamiento no convencionales, desalineaciones de seguridad riesgosas y una pobre generalización. A través de un análisis empírico, revelamos una característica importante del comportamiento de los LRMs: colocar CoTs (Cadenas de Pensamiento) generados externamente por modelos más pequeños entre los tokens de pensamiento (<think> y </think>) puede manipular efectivamente al modelo para generar menos pensamientos. Basándonos en estas ideas, proponemos una canalización simple pero eficiente, ThoughtMani, para permitir que los LRMs omitan pasos intermedios innecesarios y reduzcan significativamente los costos computacionales. Realizamos experimentos extensos para validar la utilidad y eficiencia de ThoughtMani. Por ejemplo, cuando se aplica a QwQ-32B en el conjunto de datos LiveBench/Code, ThoughtMani mantiene el rendimiento original y reduce el recuento de tokens de salida en aproximadamente un 30%, con un sobrecosto mínimo del generador de CoT. Además, encontramos que ThoughtMani mejora la alineación de seguridad en un promedio del 10%. Dado que los proveedores de modelos suelen ofrecer modelos de diferentes tamaños simultáneamente, ThoughtMani proporciona una forma efectiva de construir LRMs más eficientes y accesibles para aplicaciones del mundo real.
La adopción generalizada de los sistemas de IA en la economía depende de su capacidad para generar valor económico que supere sus costos de inferencia. Evaluar esta compensación requiere métricas que tengan en cuenta tanto el rendimiento como los costos. Proponemos un marco basado en la teoría de la producción para evaluar modelos de lenguaje combinando precisión y costo de inferencia. Introducimos el "costo por acierto", el costo monetario esperado de generar una solución correcta. Luego definimos el "costo por acierto en la frontera" como el mínimo costo por acierto alcanzable entre los modelos disponibles o el de un "experto humano", utilizando el costo aproximado de contratar a un experto. Nuestro análisis revela insights económicos distintivos. Primero, los modelos ligeros son más rentables para tareas cuantitativas básicas, los modelos grandes para tareas intensivas en conocimiento, y los modelos de razonamiento para problemas cuantitativos complejos, a pesar de sus mayores costos por token. Segundo, el seguimiento de este costo por acierto en la frontera durante el último año muestra un progreso significativo, particularmente en tareas cuantitativas complejas, donde el costo se ha reducido aproximadamente a la mitad cada pocos meses. Tercero, para rastrear las innovaciones clave que impulsan este progreso, examinamos fronteras contrafactuales: estimaciones de la eficiencia en costos sin clases específicas de modelos. Encontramos que las innovaciones en modelos ligeros, grandes y de razonamiento han sido esenciales para impulsar la frontera en tareas cuantitativas básicas, intensivas en conocimiento y cuantitativas complejas, respectivamente. Finalmente, evaluamos las reducciones de costos proporcionadas por técnicas comunes en tiempo de inferencia, como la votación por mayoría y el auto-refinamiento, y encontramos que sus ganancias marginales en precisión rara vez justifican sus costos. Nuestros hallazgos subrayan que las innovaciones complementarias a nivel de modelo son los principales impulsores de la eficiencia en costos, y nuestro marco económico proporciona una herramienta fundamentada para medir este progreso y guiar su implementación.
A pesar de los recientes avances en los Modelos de Lenguaje para Videos de Gran Escala (LVLMs, por sus siglas en inglés), estos aún enfrentan dificultades para comprender aspectos temporales detallados, tienden a generar alucinaciones y cometen errores simples incluso en tareas básicas de respuesta a preguntas sobre videos, lo que representa desafíos significativos para su implementación segura y confiable en aplicaciones del mundo real. Para abordar estas limitaciones, proponemos un marco de autoalineación que permite a los LVLMs aprender de sus propios errores. Nuestro marco propuesto primero obtiene un conjunto de entrenamiento de pares de respuestas preferidas y no preferidas, donde las respuestas no preferidas se generan incorporando patrones de error comunes que suelen ocurrir debido a una comprensión espacio-temporal inadecuada, correlaciones espurias entre conceptos que coocurren y una dependencia excesiva de indicadores lingüísticos mientras se descuida la modalidad visual, entre otros. Para facilitar la autoalineación de los LVLMs con los pares de respuestas preferidas y no preferidas construidos, introducimos la Optimización de Preferencias Regularizada y Refinada (RRPO, por sus siglas en inglés), un método novedoso de optimización de preferencias que utiliza recompensas refinadas a nivel de subsecuencias y regularización KL por token para abordar las limitaciones de la Optimización Directa de Preferencias (DPO, por sus siglas en inglés). Demostramos que RRPO logra una alineación más precisa y un entrenamiento más estable en comparación con DPO. Nuestros experimentos y análisis validan la efectividad de nuestro enfoque en diversas tareas de video, incluyendo la alucinación en videos, la comprensión de videos cortos y largos, y el razonamiento temporal detallado.
La Cuantificación de Incertidumbre (UQ, por sus siglas en inglés) en los Modelos de Lenguaje (LMs) es crucial para mejorar su seguridad y confiabilidad. Las evaluaciones suelen utilizar métricas de rendimiento como AUROC para determinar qué tan bien los métodos de UQ (por ejemplo, las probabilidades negativas de secuencia) se correlacionan con las funciones de corrección de tareas (por ejemplo, ROUGE-L). En este artículo, demostramos que las funciones de corrección comúnmente utilizadas sesgan las evaluaciones de UQ al inflar el rendimiento de ciertos métodos de UQ. Evaluamos 7 funciones de corrección —desde métricas basadas en léxico y embeddings hasta enfoques de LLM-como-juez— en 4 conjuntos de datos x 4 modelos x 6 métodos de UQ. Nuestro análisis revela que los sesgos de longitud en los errores de estas funciones de corrección distorsionan las evaluaciones de UQ al interactuar con los sesgos de longitud en los métodos de UQ. Identificamos los enfoques de LLM-como-juez como una de las opciones menos sesgadas por la longitud y, por lo tanto, como una solución potencial para mitigar estos sesgos.
La eliminación efectiva de ruido es crucial en la tomografía computarizada (TC) de baja dosis para realzar estructuras sutiles y lesiones de bajo contraste, evitando errores diagnósticos. Los métodos supervisados enfrentan dificultades con conjuntos de datos emparejados limitados, y los enfoques auto-supervisados a menudo requieren múltiples imágenes ruidosas y dependen de redes profundas como U-Net, ofreciendo poca comprensión del mecanismo de eliminación de ruido. Para abordar estos desafíos, proponemos un marco interpretable de eliminación de ruido auto-supervisado de una sola imagen: Filter2Noise (F2N). Nuestro enfoque introduce un Filtro Bilateral Guiado por Atención que se adapta a cada entrada ruidosa a través de un módulo ligero que predice parámetros de filtro espacialmente variables, los cuales pueden visualizarse y ajustarse después del entrenamiento para una eliminación de ruido controlada por el usuario en regiones de interés específicas. Para habilitar el entrenamiento con una sola imagen, introducimos una novedosa estrategia de barajado de submuestreo con una nueva función de pérdida auto-supervisada que extiende el concepto de Noise2Noise a una sola imagen y aborda el ruido espacialmente correlacionado. En el conjunto de datos de TC de baja dosis Mayo Clinic 2016, F2N supera al método líder auto-supervisado de una sola imagen (ZS-N2N) por 4.59 dB en PSNR, mejorando además la transparencia, el control del usuario y la eficiencia paramétrica. Estas características proporcionan ventajas clave para aplicaciones médicas que requieren una reducción de ruido precisa e interpretable. Nuestro código está disponible en https://github.com/sypsyp97/Filter2Noise.git.