Desempeño de GPT-4 para la toma de decisiones automatizada de biopsia prostática basada en mpMRI: un estudio multicéntrico de evidencia

Ming-Jun Shi; Zhi-Xiang Wang; Shuang-Kun Wang; Xuan-Hao Li; Yan-Lin Zhang; Ying Yan; Ran An; Li-Ning Dong; Lei Qiu; Tian Tian; Jia-Xin Liu; Hong-Chen Song; Ya-Fan Wang; Che Deng; Zi-Bing Cao; Hong-Yin Wang; Zheng Wang; Wei Wei; Jian Song; Jian Lu; Xuan Wei; Zhen-Chang Wang

doi:10.1186/s40779-025-00621-3

Desempeño de GPT-4 para la toma de decisiones automatizada de biopsia prostática basada en mpMRI: un estudio multicéntrico de evidencia

DOI：10.1186/s40779-025-00621-3

Abstract

La imagen por resonancia magnética multiparamétrica (mpMRI) ha avanzado significativamente en la detección del cáncer de próstata (PCa), pero las decisiones sobre biopsia invasiva con puntuaciones intermedias del Sistema de Informes y Datos de Imágenes Prostáticas (PI-RADS) siguen siendo ambiguas. Para explorar la capacidad de toma de decisiones del Generative Pretrained Transformer-4 (GPT-4) para recomendaciones automáticas de biopsia prostática, incluimos a 2299 individuos que se sometieron a biopsia prostática entre 2018 y 2023 en 3 grandes centros médicos, con mpMRI disponible antes de la biopsia y registros clínico-histopatológicos documentados. GPT-4 generó informes estructurados con prompts dados. El desempeño de GPT-4 se cuantificó utilizando matrices de confusión, y se calcularon sensibilidad, especificidad y área bajo la curva. Se realizaron múltiples procedimientos de evaluación artificial. Se usaron la prueba de suma de rangos de Wilcoxon, la prueba exacta de Fisher y las pruebas de Kruskal-Wallis para comparaciones. Utilizando el mayor tamaño de muestra en la población china, los pacientes con puntuaciones medianas de PI-RADS (puntuaciones 3 y 4) representaron el 39,7 % (912/2299), definidos como el subconjunto de interés (SOI). Las tasas de detección de cáncer de próstata clínicamente significativo correspondientes a puntuaciones de PI-RADS 2-5 fueron 9,4 %, 27,3 %, 49,2 % y 80,1 % respectivamente. Casi el 47,5 % (433/912) de los pacientes SOI demostraron histopatológicamente haber sido sometidos a biopsias prostáticas innecesarias. Con la ayuda de GPT-4, el 20,8 % (190/912) de la población SOI pudo evitar biopsias innecesarias, y tuvo un desempeño aún mejor [28,8 % (118/410)] en el subgrupo más heterogéneo de puntuación PI-RADS 3. Más del 90,0 % de los informes generados por GPT-4 fueron completos y fáciles de entender, pero menos satisfactorios en precisión (82,8 %). GPT-4 también demostró potencial cognitivo para manejar problemas complejos. Además, el método de cadena de pensamiento nos permitió comprender mejor la lógica de toma de decisiones detrás de GPT-4. Finalmente, desarrollamos una plataforma ProstAIGuide para facilitar el acceso tanto a médicos como pacientes. Este estudio multicéntrico destaca la utilidad clínica de GPT-4 para la toma de decisiones de biopsia prostática y avanza en nuestra comprensión de la última implementación de inteligencia artificial en varios escenarios médicos.

Keywords

Biopsia de próstata; Generative Pretrained Transformer-4 (GPT-4); Toma de decisiones; cáncer de próstata; Imagen por resonancia magnética multiparamétrica (mpMRI)

Desempeño de GPT-4 para la toma de decisiones automatizada de biopsia prostática basada en mpMRI: un estudio multicéntrico de evidencia

Ming-Jun Shi ,

Zhi-Xiang Wang ,

Shuang-Kun Wang ,

Xuan-Hao Li ,

Yan-Lin Zhang ,

Ying Yan ,

Ran An ,

Li-Ning Dong ,

Lei Qiu ,

Tian Tian ,

Jia-Xin Liu ,

Hong-Chen Song ,

Ya-Fan Wang ,

Che Deng ,

Zi-Bing Cao ,

Hong-Yin Wang ,

Zheng Wang ,

Wei Wei ,

Jian Song ,

Jian Lu ,

Xuan Wei ,

Zhen-Chang Wang ,

DOI：10.1186/s40779-025-00621-3

Abstract

Keywords