Modelos de aprendizaje automático explicables para obtener una visión más profunda de la decisión de tratamiento del cáncer de próstata localizado

Scientific Reports volumen 13, número de artículo: 11532 (2023) Citar este artículo

390 Accesos

1 altmétrica

Detalles de métricas

Aunque existen varias ayudas para la toma de decisiones para el tratamiento del cáncer de próstata localizado (CaP), existen limitaciones en la coherencia y certeza de la información proporcionada. Nuestro objetivo era comprender mejor el proceso de decisión de tratamiento y desarrollar un modelo de predicción de decisiones considerando factores oncológicos, demográficos, socioeconómicos y geográficos. Se incluyeron hombres recién diagnosticados con CaP localizado entre 2010 y 2015 a partir de la base de datos de Vigilancia, Epidemiología y Resultados Finales de Próstata con Espera Vigilante (n = 255.837). Diseñamos dos modelos de predicción: (1) Vigilancia activa/espera vigilante (AS/WW), prostatectomía radical (PR) y predicción de decisiones sobre radioterapia (RT) en toda la cohorte. (2) Predicción de decisiones AS/WW en la cohorte de bajo riesgo. La discriminación del modelo se evaluó utilizando el área bajo la curva multiclase (AUC). Se utilizó un valor plausible de explicaciones aditivas de Shapley para explicar los resultados de predicción del modelo. Las variables oncológicas afectaron más las decisiones de PR, mientras que la RT se vio muy afectada por factores geográficos. El gráfico de dependencia representó las interacciones de características para llegar a una decisión de tratamiento. El modelo de predicción de decisiones logró un AUC multiclase general de 0,77, mientras que se confirmó 0,74 para el modelo de bajo riesgo. Utilizando una gran base de datos del mundo real basada en la población, desentrañamos el complejo proceso de toma de decisiones y visualizamos interacciones de características no lineales en PCa localizado.

El CaP localizado, que representa más del 75 % de los hombres recién diagnosticados con cáncer de próstata (CaP)1, muestra una notable heterogeneidad intertumoral y diversidad de grupos de riesgo2; por lo tanto, ahora se proponen varias opciones de tratamiento sin criterios de decisión sólidos.

De hecho, ninguno de los tratamientos posibles, como la observación (vigilancia activa (AS)/espera vigilante (WW)), la prostatectomía radical (PR) o la radioterapia (RT), ha demostrado ser superior en términos de control del cáncer en casos localizados. enfermedad3. Por lo tanto, una decisión de tratamiento inicial a menudo se basa en la estratificación del riesgo de CaP del paciente y en la preferencia de tratamiento del paciente y del médico4,5. Sin embargo, en el entorno del mundo real, la toma de decisiones es un proceso complejo que no sólo se ve afectado por las características del cáncer sino también por diversos factores socioeconómicos, regionales y a nivel de paciente, a nivel de estado/condado6. Por tanto, es muy necesario un enfoque integral para pacientes y médicos. Para abordar este problema, existen varias ayudas para la toma de decisiones (DA) para pacientes con CaP localizado7. Sin embargo, existe una falta de uniformidad entre estas ayudas para la toma de decisiones y su desempeño8.

Un modelo de aprendizaje automático explicable ofrece ventajas al obtener una comprensión más profunda de los procesos internos, mientras que el modelo mismo entrena o toma decisiones e identifica relaciones de causa y efecto dentro de las entradas y salidas del sistema9. En este estudio, destacamos el complejo proceso de decisión de tratamiento en el CaP localizado utilizando la próstata de Vigilancia, Epidemiología y Resultados Finales (SEER) con un conjunto de datos de espera vigilante (SEER/WW) a través de un modelo de aprendizaje automático explicable. Utilizando gráficos de interacción de dos variables, nuestro objetivo principal fue obtener una visión más profunda de las características importantes asociadas con cada modalidad de tratamiento. Nuestro objetivo secundario fue desarrollar un modelo de predicción de decisiones de tratamiento considerando características generales, incluidos factores oncológicos, geográficos (datos a nivel de condado), demográficos y socioeconómicos, que se integraron en una plataforma web para su uso en la rutina clínica diaria.

Identificamos 255.837 hombres con CaP localizado recién diagnosticado que cumplieron con los criterios de inclusión y exclusión (Figura 1 complementaria). Entre estos, 26.389 (10,3%) se sometieron a AS/WW, 86.714 (33,9%) se sometieron a PR, 76.919 (30,8%) se sometieron a RT y 63.815 (24,9%) se sometieron a otros tratamientos desconocidos, incluida la terapia de privación de andrógenos (ADT), combinada. ADT y RT, etc. En el modelo de cohorte de bajo riesgo (pacientes con estadio clínico T T1c y T2a, grado de Gleason grupo 1 y PSA ≤ 10 ng/mL, edad < 80), se incluyeron 79.633 pacientes. Entre ellos, 17.553 (22%) se sometieron a AS/WW y 62.080 (78%) se sometieron a otros tratamientos como terapia de privación de andrógenos o terapia focal.

Los factores regionales, como el registro SEER, el estado/condado, el nivel promedio de educación, el número promedio de proveedores de atención médica (urólogos, oncólogos radioterapeutas, médicos de atención primaria) y los centros de salud mostraron asociaciones correlativas (Fig. 1A). El modelo de aprendizaje automático de predicción de decisiones logró una discriminación justa en el conjunto de pruebas, con un AUC multiclase general de 0,77 (Fig. 1B). El tratamiento más fácil de distinguir entre ellos fue AS/WW (AUC de 0,84), mientras que el más difícil de distinguir fue RT (AUC de 0,72). El tratamiento con RP mostró un rendimiento de discriminación intermedio (AUC de 0,78).

(A) Correlación entre características categóricas mediante el método de Kendall en toda la cohorte de cáncer de próstata localizado. (B) Un modelo de predicción de decisiones que utiliza la curva de características operativas del receptor de toda la cohorte y el área multiclase bajo la curva (AUC).

La contribución y el efecto de cada característica (medida por las puntuaciones SHAP) en el resultado elegido se presentan en la Fig. 2. La decisión de realizar AS/WW se vio afectada principalmente por el grupo de grado ISUP (GG), seguido por el porcentaje central positivo. (PPC), estadio clínico T, estado/condado y año de diagnóstico. Los de RP fueron edad, ISUP GG, PSA y PPC. Para RT, ISUP GG, edad, estado/condado y año de diagnóstico fueron las características importantes.

Gráfico de importancia de características globales y gráfico de Beeswarm utilizando el valor SHAP para cada decisión de tratamiento (A) AS/WW (B) RP (C) RT en toda la cohorte de cáncer de próstata localizado.

Dentro del grupo AS/WW, para el estadio T1c, los pacientes con PPC bajo eligieron AS/WW, mientras que los pacientes en estadio T2 tendieron a elegir AS/WW cuando el PPC era alto. De manera similar, para el mismo ISUP GG, los grupos con diferentes niveles de PSA (bajo versus alto) mostraron una toma de decisiones diferente (Figura complementaria 2). Para el grupo RP, los pacientes recientemente diagnosticados eligieron RP cuando ISUP GG era alto, mientras que los pacientes previamente diagnosticados mostraron la tendencia opuesta (el grupo bajo ISUP GG eligió RP). Además, hubo una diferencia racial/étnica en las decisiones de tratamiento de RP, donde los hombres blancos tendían a elegir RP cuando el PPC era alto, mientras que aquellos de otras razas evitaban RP (Figura complementaria 3). Para el grupo RT, ISUP GG1 prefirió no elegir RT, mientras que ISUP GG2-5 prefirió RT. El PSA fue una característica oncológica distinta que afectó a diferentes decisiones con respecto al tratamiento con RT. El grupo de mayor edad evitó someterse a RT cuando el PSA era alto y eligió AS/WW, mientras que el grupo más joven prefirió someterse a RT cuando el PSA era alto. Además, los pacientes en estadio T1 y T2 mostraron la tendencia opuesta en la decisión de RT para características oncológicas acompañantes similares. Por lo general, una PPC alta tuvo un impacto positivo en la toma de decisiones de RT en la etapa T2, pero un impacto negativo en los pacientes en etapa T1 (Figura 4 complementaria).

Se observó la misma correlación en la cohorte de bajo riesgo que en toda la cohorte, mostrando una correlación positiva entre los factores regionales (Fig. 3A). El modelo de aprendizaje automático de predicción de decisiones logró una discriminación justa, con un AUC de clase binaria general de 0,74 (Fig. 3B). El factor más importante en la decisión AS/WW fue el año del diagnóstico, seguido por el PPC, el estado/condado, la edad, el registro SEER y la educación (Fig. 4).

(A) Correlación entre características categóricas mediante el método de Kendall en una cohorte de bajo riesgo. (B) Curva de características operativas del receptor y medida del área bajo la curva (AUC) multiclase en un modelo de predicción de decisiones con una cohorte de bajo riesgo.

Gráfico de importancia de características globales y gráfico de Beeswarm para la decisión AS/WW en una cohorte de bajo riesgo utilizando el valor SHAP.

Había diferentes características entre razas y etnias. Los pacientes blancos tendieron a elegir AS/WW cuando la edad era alta o el PPC era bajo, mientras que los pacientes de otra raza o etnia (negros, hispanos, asiáticos y otros) mostraron la tendencia opuesta. Para el estadio T1c, los pacientes con diagnóstico reciente o aquellos con niveles de PSA más altos eligieron AS/WW, mientras que los pacientes en estadio T2a prefirieron tratamientos activos cuando se les diagnosticó recientemente o con un nivel de PSA más bajo (Figura complementaria 5).

El modelo está abierto al acceso de los pacientes en http://210.117.211.210:8501/ (Figura complementaria 6). La información y los detalles del modelo se enumeran en la Tabla complementaria 2.

Los factores que influyen en el complejo proceso de toma de decisiones en el tratamiento del CaP localizado siguen siendo discutibles10, lo que sugiere que todavía nos falta una comprensión de estos complejos procesos. Por lo tanto, los médicos ayudan de manera colaborativa a los pacientes a tomar decisiones adecuadas a través de un proceso de toma de decisiones compartido, como informar evidencia sobre la seguridad y el valor de cada método de tratamiento8 o informar los tipos de tratamientos ofrecidos a hombres similares con características de cáncer similares para tener más coherencia en sus resultados. decisiones. En este sentido, Michigan Urological Surgery Improvement Collaborative (MUSIC) desarrolló recientemente un nuevo modelo de aprendizaje automático para ayudar a los hombres a ver las decisiones de tratamiento previstas de pacientes similares utilizando un registro prospectivo de 7543 hombres diagnosticados con cáncer de próstata11. Sin embargo, este modelo de bosque aleatorio no pudo proporcionar una comprensión clara de cómo se llegó a una única decisión y no consideró variaciones geográficas y socioeconómicas en la decisión de tratamiento12.

Para compensar estas deficiencias, adoptamos un modelo de aprendizaje automático explicable utilizando el conjunto de datos SEER-WW (2010-2016) publicado recientemente, que tiene una variable recién creada claramente definida como "AS/WW". El entrenamiento preciso del modelo fue posible gracias a una clasificación de grupos de tratamiento más precisa en comparación con las bases de datos SEER existentes. Entrenamos modelos de aprendizaje automático utilizando una amplia gama de características del mundo real como entrada, incluidas características clínico-patológicas, así como datos demográficos, socioeconómicos y datos geográficos a nivel de condado a nivel nacional, incluidos recursos de atención médica regionales, que el grupo MUSIC (estado de Michigan- cohorte confinada) no pudo abordar. Por lo general, existe un equilibrio entre interpretabilidad y precisión para cada modelo de aprendizaje automático13; sin embargo, nuestro modelo mostró interpretabilidad y al mismo tiempo tuvo un rendimiento de modelo comparable al del grupo MUSIC (AUC 0,77 frente a 0,81).

Las características generales del modelo de aprendizaje automático desarrollado en este estudio incluyeron características geográficas (estado/condado y registro SEER) que afectaron principalmente las decisiones de tratamiento de RT, seguidas de AS/WW. Este resultado concuerda con un estudio previo de Wang et al. quienes demostraron que la disponibilidad de RT es el factor que más contribuye a la variación regional4. Mientras tanto, un artículo anterior de Washington et al. Al demostrar que la ubicación geográfica está asociada con la variación de las prácticas de AS/WW6, se explica mejor los factores regionales que influyen en las decisiones de AS/WW. Contrariamente a nuestras expectativas, las características socioeconómicas (estado civil, nivel educativo, ingresos del hogar, seguro, etc.) generalmente no influyeron en la toma de decisiones sobre el tratamiento, excepto que en los pacientes con RP, los hombres casados mostraron una tendencia a someterse a cirugía en comparación con los solteros. /solteros. Esta probabilidad se observa comúnmente en varios otros cánceres (cáncer de pulmón, cáncer de mama, etc.)6,12,14, y Schymura et al. demostró que los hombres solteros tienen más probabilidades de elegir un tratamiento conservador o RT en lugar de RP15, lo que es consistente con nuestros resultados.

Las características del cáncer (ISUP GG, PPC, estadio T clínico, PSA, etc.) contribuyeron significativamente a las decisiones de tratamiento de AS/WW o RP, en contraste con las decisiones de tratamiento de RT. La edad fue la característica más importante en la toma de decisiones activas sobre el tratamiento (primero en PR y segundo en RT), probablemente debido a su correlación con las comorbilidades acompañantes y la esperanza de vida16. De acuerdo con datos anteriores que demuestran el impacto del origen étnico en las decisiones de tratamiento del CaP utilizando modelos de regresión logística12, observamos una diferencia racial/étnica en el tratamiento inicial. Sin embargo, su impacto en el rendimiento general del modelo fue relativamente bajo, oscilando entre la séptima y la décima característica clasificada. Finalmente, el año del diagnóstico fue la característica más importante para decidir AS/WW en el modelo de bajo riesgo, lo que demuestra la tendencia temporal actual de una proporción creciente de pacientes AS/WW17. En otras palabras, la tendencia temporal refleja la evolución de la evidencia para AS/WW.

Varias visualizaciones de relaciones notables y sólidas añaden más profundidad a este estudio. En el modelo de resultados del tratamiento AS/WW, los grupos de mayor edad (≥ 70 años) y los más jóvenes demostraron una toma de decisiones diferente. El grupo de mayor edad con mayor riesgo oncológico (PSA o PPC alto o ISUP GG) eligió AS/WW, mientras que el grupo más joven no eligió AS/WW en la misma condición y se sometió a tratamiento definitivo (Figura complementaria 2). Este resultado es consistente con el resultado de contribución de características generales de que la edad fue la característica más importante al decidir los tratamientos activos (RP y RT). Además, se observaron diferencias raciales/étnicas en el grupo de mayor edad. Si bien los hombres blancos mayores tendían a perseguir AS/WW, otras razas lo evitaban en gran medida, lo que se identificó más claramente en el modelo de cohorte de bajo riesgo (Figura complementaria 5). Esto puede indicar que los hombres blancos tienden a enfatizar la carga del tratamiento, mientras que otras razas enfatizan la eficacia/cura del tratamiento18, especialmente en el grupo de bajo riesgo. Era poco probable que esta cohorte de pacientes progresara y es posible que no requirieran un tratamiento radical19. También observamos que los pacientes que se presume que tienen una gran carga tumoral (PPC ≥ 50%) evitaron el tratamiento en monoterapia tanto con RP como con RT, y eligieron la terapia de privación de andrógenos o el tratamiento combinado cuando estaban acompañados de otras características oncológicas de mal pronóstico, como un ISUP alto. GG o PSA alto.

Con la ayuda de la anotación de la variable del año de diagnóstico, inspeccionamos visualmente la tendencia temporal de las variables asociadas. Aunque hubo una tendencia a aumentar la toma de decisiones sobre AS/WW, los pacientes recientemente diagnosticados optaron por no someterse a AS cuando estaban presentes ISUP o PPC altos, lo que contrastaba con el período anterior (Figura 2 complementaria), posiblemente debido a la publicación reciente. de los criterios AS20. En cuanto a los grupos de tratamiento activo, aunque ambos han ido disminuyendo recientemente, los pacientes con mayor riesgo oncológico (IG ISUP alto, PPC alto o PSA alto) tendieron más activamente a decidir sobre el tratamiento activo, lo que concuerda con datos previos que muestran una tendencia creciente de PR en el grupo de riesgo intermedio-alto17.

Este estudio tiene varias limitaciones. En primer lugar, la base de datos SEER solo cubre el 30% de los pacientes con cáncer de EE. UU., lo que genera preocupación sobre su generalización. Además, el conjunto de datos SEER y el Archivo de recursos de salud del área (AHRF) no incluyen los mismos grupos de pacientes, lo que introduce problemas potenciales durante la integración de datos. Sin embargo, la base de datos SEER sigue siendo la cohorte epidemiológica basada en la población mejor establecida, y los datos del AHRF se vincularon a los datos a nivel de condado donde residen los pacientes dentro del conjunto de datos SEER/WW, utilizando un proceso de comparación basado en la información federal combinada. Códigos del sistema de procesamiento (FIPS) para estados y condados. Para mejorar la precisión de la comparación regional, también se implementó la comparación de años. En segundo lugar, el resultado de este modelo predictivo representa el complicado resultado de la decisión de tratamiento; por tanto, puede ser diferente de la predicción de la decisión. En tercer lugar, aunque se realizó un preprocesamiento de datos para reducir el problema del desequilibrio de características, el posible sesgo clínico aún persistía. Por ejemplo, como esta cohorte se desarrolló en la era de la detección activa de PSA, la distribución de la cohorte estuvo muy sesgada hacia la enfermedad en etapa más temprana. En cuarto lugar, faltaba validación externa. En quinto lugar, puede haber factores de confusión no identificados en el análisis del gráfico de dependencia de la interacción que dificultan la capacidad de llegar a conclusiones firmes. En sexto lugar, varios factores importantes, como la esperanza de vida, los síntomas urinarios preexistentes, los datos genómicos (somáticos y/o germinales), los antecedentes familiares y los tipos de seguro médico no pudieron abordarse debido a la falta de disponibilidad del conjunto de datos SEER/WW. En séptimo lugar, para los pacientes clasificados en el grupo de observación, no se pudo discriminar WW o AS, aunque son enfoques de tratamiento completamente diferentes. Para abordar este problema, utilizamos gráficos de interacción explicables para aproximar la distinción entre los dos grupos. Y en octavo lugar, la población de pacientes se inscribió entre 2010 y 2016, lo que podría impedir el reflejo de las tendencias más recientes. Además, puede existir el inconveniente de que no se aplicaron los últimos criterios de inclusión de AS a estos pacientes. Sin embargo, vale la pena señalar que en la primera década de 2000 se alcanzó un consenso significativo sobre el establecimiento de criterios AS y se sugirió como guía, que es casi equivalente a los estándares actuales21.

A pesar de estas limitaciones, este estudio demuestra importantes implicaciones clínicas. Primero, con la ayuda del método SHAP explicable y gráficos de interacción descriptivos adicionales, extrajimos una descripción plausible de cada decisión de tratamiento de manera ortogonal, lo que condujo a una comprensión integral y una visión más profunda. En segundo lugar, nuestro modelo basado en aprendizaje automático se entrenó en una población grande, contemporánea y étnicamente heterogénea utilizando datos del mundo real de una base de datos de alta calidad22. En tercer lugar, el poder potencial de este enfoque (ofrecer decisiones tomadas por hombres similares) se ha demostrado en un estudio comunitario en línea dirigido por pacientes previo al ayudarlos a comprender el proceso de toma de decisiones23. En cuarto lugar, en comparación con un estudio similar realizado por el grupo MUSIC, el modelo predictivo de este estudio se ajustó con características no oncológicas adicionales, como factores regionales socioeconómicos y geográficos. Las características geográficas afectaron en mayor medida las decisiones de tratamiento de RT.

Utilizando una gran base de datos del mundo real basada en la población, podríamos tener una visión más profunda del complejo proceso de toma de decisiones y visualizar interacciones de características no lineales en PCa localizado.

La figura complementaria 7 proporciona un resumen del análisis. El conjunto de datos experimental utilizado en este estudio consta del conjunto de datos clínicos SEER/WW y el conjunto de datos AHRF regional del condado. Para mejorar el rendimiento de la clasificación, se adoptaron técnicas de preprocesamiento para abordar el desequilibrio de clases, así como para mitigar la presencia de valores atípicos o datos ruidosos. Luego, el conjunto de datos preprocesado se dividió en conjuntos de entrenamiento, validación y prueba. El modelo de clasificación se entrenó de forma iterativa utilizando el conjunto de entrenamiento, con el objetivo de identificar el algoritmo de aprendizaje automático óptimo y los hiperparámetros correspondientes. La optimización del modelo se evaluó utilizando el conjunto de validación. Finalmente, se aplicaron técnicas de explicación de modelos para obtener información sobre la importancia y las interacciones de las características. El resto de esta sección incluye información más detallada.

Para el análisis experimental, utilizamos los dos conjuntos de datos siguientes: (1) el conjunto de datos SEER/WW (2010-2016), que había sido objeto de múltiples imputaciones por manejo de datos faltantes24, y (2) el AHRF, que incluye datos sobre variables de atención médica. características relacionadas, como proveedores de atención médica por especialidad, establecimientos de salud, características demográficas de la población, ingresos y utilización de hospitales6. Fusionamos estos dos conjuntos de datos en un conjunto de datos experimental final (n = 255,837). La Tabla complementaria 1 muestra las etiquetas que codifican la correspondencia entre variables categóricas, incluidas las variables nominales. La variable de tratamiento inicial se dividió en cuatro grupos: AS/WW, RT, RP y otros tratamientos/desconocidos. Incluimos a hombres con tratamiento simultáneo de RP y RT en el otro grupo de tratamiento, ya que un pequeño número de clases de RP + RT podría sesgar las distribuciones de toda la clase. La cohorte de bajo riesgo se refinó para incluir pacientes con estadio T clínico T1c y T2a, grado de Gleason grupo 1 y PSA ≤ 10 ng/mL. Se excluyeron del estudio los hombres de > 80 años, lo que concuerda con una población de pacientes adecuada para AS6. . Las características del tratamiento inicial en el grupo de bajo riesgo se volvieron a etiquetar en dos clases: AS/WW (AS + WW) y otros tratamientos (Figura 1 complementaria).

La junta de revisión institucional del Hospital Universitario Nacional de Seúl consideró que este estudio estaba exento de revisión y consentimiento informado porque la información de los pacientes en estas bases de datos estaba completamente anonimizada y disponible públicamente.

Se adoptaron técnicas de sobremuestreo y submuestreo para evitar el problema del desequilibrio de clases. MSMOTE (SMOTE modificado)25 como método de sobremuestreo, se aplicó principalmente para considerar la distribución de instancias de clases minoritarias y eliminar instancias ruidosas. Para el método de submuestreo, utilizamos el vecino más cercano (ENN)26 editado, que se basa en un algoritmo de vecino más cercano para eliminar muestras cuya clase difiere de la clase mayoritaria de su vecindario en un sentido amplio.

Dividimos el conjunto de datos en conjuntos de entrenamiento (70%), validación (15%) y prueba (15%). El conjunto de validación se asignó para buscar hiperparámetros apropiados del modelo. Entrenamos tres modelos diferentes de métodos de conjunto basados en algoritmos de árbol de decisión de impulso de gradiente, eXtreme Gradient Boosting (XGBoost)27, LightGBM28 y CatBoost29, y descubrimos que el modelo XGBoost tenía el mayor poder explicativo en nuestro entorno experimental.

Después de ajustar el modelo XGBoost usando el conjunto de entrenamiento, la discriminación del modelo se evaluó en el conjunto de prueba usando una medida de área bajo la curva (AUC) multiclase. La calibración del modelo se evaluó mediante un gráfico de calibración que comparó las clases predichas para cada resultado con las clases observadas.

Las explicaciones aditivas de SHApley (SHAP)30 cumplen dos funciones. (1) Demostrar la contribución de cada característica a los resultados de predicción generales del modelo, visualizando con la importancia global de la característica y los gráficos de Beeswarm. (2) Desentrañar la complicada relación no lineal entre dos características principales utilizando un diagrama de dispersión de dependencia bidireccional y hacer posible obtener una visión más profunda del complejo proceso de decisión.

Desarrollamos la plataforma web Proca (Asesor de tratamiento del cáncer de próstata; eslogan: consejos amigables de pacientes como usted) basada en Streamlit, una biblioteca Python de código abierto para crear aplicaciones de datos. La plataforma web muestra la predicción del tratamiento inicial para un paciente utilizando las entradas proporcionadas. Las entradas consistieron en información demográfica y clínica que apareció durante el experimento. Además, la plataforma web presenta varios factores importantes que influyen en la predicción. Esta herramienta predice la elección del paciente en un escenario determinado, por lo que sugeriría lo que otras personas han elegido. No se trata de lo que cada paciente debe hacer con su CaP localizado.

R versión 3.6 para realizar imputaciones múltiples y análisis estadísticos para completar el conjunto de datos experimental. Se utilizaron Python 3.8.10 y XGBoost 1.4.2 para el algoritmo del modelo. La división de entrenamiento/prueba, la reproducción aleatoria y otros procedimientos de preprocesamiento de datos se realizaron utilizando Scikit-learn 0.24.2. Se utilizaron las variantes 0.4.0 de Smote para abordar el problema del desequilibrio de clases. Finalmente, se empleó la biblioteca shap 0.39.0 para la interpretación del modelo.

Los conjuntos de datos generados y/o analizados durante el estudio actual están disponibles del autor correspondiente a solicitud razonable.

Siegel, DA, O'Neil, ME, Richards, TB, Dowling, NF & Weir, HK Incidencia y supervivencia del cáncer de próstata, por etapa y raza/grupo étnico: Estados Unidos, 2001-2017. Morbo MMWR. Mortal. Semanalmente. Representante 69, 1473-1480. https://doi.org/10.15585/mmwr.mm6941a1 (2020).

Artículo PubMed PubMed Central Google Scholar

Fraser, M. y col. Características genómicas del cáncer de próstata localizado y no indolente. Naturaleza 541, 359–364. https://doi.org/10.1038/nature20788 (2017).

Artículo ADS CAS PubMed Google Scholar

El-Haouly, A., Dragomir, A., El-Rami, H., Liandier, F. y Lacasse, A. Toma de decisiones sobre el tratamiento en hombres con cáncer de próstata localizado que viven en un área remota: un estudio observacional transversal estudiar. Poder. Urol. Asociación. J. 15, E160-E168. https://doi.org/10.5489/cuaj.6521 (2021).

Artículo PubMed Google Scholar

Wang, EH y cols. Toma de decisiones compartida y uso de ayudas para la toma de decisiones en el cáncer de próstata localizado: percepciones de los oncólogos radioterapeutas y los urólogos. Pasante JAMA. Medicina. 175, 792–799. https://doi.org/10.1001/jamainternmed.2015.63 (2015).

Artículo PubMed Google Scholar

Hoffman, KE et al. Variación de los médicos en el tratamiento del cáncer de próstata de bajo riesgo: un estudio de cohorte poblacional. Pasante JAMA. Medicina. 174, 1450-1459. https://doi.org/10.1001/jamainternmed.2014.3021 (2014).

Artículo PubMed PubMed Central Google Scholar

Washington, S.L. 3º. et al. Variación regional en la vigilancia activa del cáncer de próstata de bajo riesgo en los EE. UU. Red JAMA. Abierto 3, e2031349. https://doi.org/10.1001/jamanetworkopen.2020.31349 (2020).

Artículo PubMed PubMed Central Google Scholar

Vromans, RD y cols. Aspectos comunicativos de las ayudas a la toma de decisiones para el tratamiento del cáncer de próstata localizado: una revisión sistemática. Urol. Oncol. 37, 409–429. https://doi.org/10.1016/j.urolonc.2019.04.005 (2019).

Artículo PubMed Google Scholar

Riikonen, JM y cols. Ayudas para la toma de decisiones en la elección de detección del cáncer de próstata: una revisión sistemática y un metanálisis. Pasante JAMA. Medicina. 179, 1072–1082. https://doi.org/10.1001/jamainternmed.2019.0763 (2019).

Artículo PubMed PubMed Central Google Scholar

Linardatos, P., Papastefanopoulos, V. y Kotsiantis, S. IA explicable: una revisión de los métodos de interpretabilidad del aprendizaje automático. Entropía 23, 200. https://doi.org/10.3390/e23010018 (2020).

Artículo de Google Scholar

Cox, J. & Amling, CL Toma de decisiones actuales en la terapia del cáncer de próstata. actual. Opinión. Urol. 18, 275–278. https://doi.org/10.1097/MOU.0b013e3282fba5f2 (2008).

Artículo PubMed Google Scholar

Auffenberg, GB y cols. AskMUSIC: Aprovechamiento de un registro clínico para desarrollar un nuevo modelo de aprendizaje automático para informar a los pacientes sobre los tratamientos para el cáncer de próstata elegidos por hombres similares. EUR. Urol. 75, 901–907. https://doi.org/10.1016/j.eururo.2018.09.050 (2019).

Artículo PubMed Google Scholar

Krupski, TL, Kwan, L., Afifi, AA y Litwin, MS Variación geográfica y socioeconómica en el tratamiento del cáncer de próstata. J.Clin. Oncol. Rev. 23, 7881–7888. https://doi.org/10.1200/JCO.2005.08.755 (2005).

Artículo PubMed Google Scholar

Johansson, U., Sonstrod, C., Norinder, U. y Bostrom, H. Compensación entre precisión e interpretabilidad para el modelado predictivo in silico. Medicina del futuro. Química. 3, 647–663. https://doi.org/10.4155/fmc.11.23 (2011).

Artículo CAS PubMed Google Scholar

Harlan, LC y cols. Factores asociados con la terapia inicial para el cáncer de próstata clínicamente localizado: estudio de resultados del cáncer de próstata. J. Natl. Instituto de Cáncer. 93, 1864–1871. https://doi.org/10.1093/jnci/93.24.1864 (2001).

Artículo CAS PubMed Google Scholar

Schymura, MJ y cols. Factores asociados con el tratamiento inicial y la supervivencia del cáncer de próstata clínicamente localizado: resultados del estudio de patrones de atención CDC-NPCR (PoC1). BMC Cáncer 10, 152. https://doi.org/10.1186/1471-2407-10-152 (2010).

Artículo PubMed PubMed Central Google Scholar

Jeldres, C. y col. Supervivencia después de prostatectomía radical y radioterapia para el cáncer de próstata: un estudio poblacional. Poder. Urol. Asociación. J. 3, 13-21 (2009).

PubMed PubMed Central Google Académico

Gray, PJ, Lin, CC, Cooperberg, MR, Jemal, A. y Efstathiou, JA Tendencias temporales y el impacto de la raza, el seguro y el nivel socioeconómico en el tratamiento del cáncer de próstata localizado. EUR. Urol. 71, 729–737. https://doi.org/10.1016/j.eururo.2016.08.047 (2017).

Artículo PubMed Google Scholar

Xu, J., Janisse, J., Ruterbusch, J., Ager, J. y Schwartz, KL Diferencias raciales en la toma de decisiones de tratamiento para hombres con cáncer de próstata clínicamente localizado: un estudio poblacional. J. Etnia racial. Disparidades en salud 3, 35–45. https://doi.org/10.1007/s40615-015-0109-8 (2016).

Artículo PubMed Google Scholar

Bryant, RJ y cols. El ensayo ProtecT: análisis de la cohorte de pacientes, estratificación del riesgo inicial y progresión de la enfermedad. BJU Int. 125, 506–514. https://doi.org/10.1111/bju.14987 (2020).

Artículo PubMed PubMed Central Google Scholar

Liu, JL, Patel, HD, Haney, NM, Epstein, JI y Partin, AW Avances en la selección de pacientes con cáncer de próstata para vigilancia activa. Nat. Rev. Urol. 18, 197–208. https://doi.org/10.1038/s41585-021-00432-w (2021).

Artículo PubMed Google Scholar

Han, CS, Parihar, JS y Kim, IY Vigilancia activa en hombres con cáncer de próstata de bajo riesgo: desafíos actuales y futuros. Soy. J.Clin. Exp. Urol. 1, 72–82 (2013).

PubMed PubMed Central Google Académico

Lee, C. y col. Aplicación de un nuevo marco de aprendizaje automático para predecir la mortalidad específica del cáncer de próstata no metastásico en hombres utilizando la base de datos de Vigilancia, Epidemiología y Resultados Finales (SEER). Dígito de lanceta. Salud 3, e158–e165. https://doi.org/10.1016/S2589-7500(20)30314-9 (2021).

Artículo CAS PubMed Google Scholar

Wicks, P. y col. Compartir datos de salud para obtener mejores resultados en PatientsLikeMe. J. Med. Resolución de Internet. 12, e19. https://doi.org/10.2196/jmir.1549 (2010).

Artículo PubMed PubMed Central Google Scholar

Jeong, CW y cols. La nueva base de datos de vigilancia, epidemiología y resultados finales de la próstata con espera vigilante: oportunidades y limitaciones. EUR. Urol. 78, 335–344. https://doi.org/10.1016/j.eururo.2020.01.009 (2020).

Artículo PubMed Google Scholar

Hu, S., Liang, Y., Ma, L. & He, Y. En 2009, Segundo Taller Internacional sobre Ingeniería y Ciencias de la Computación 13-17 (2009).

Wilson, DL Propiedades asintóticas de reglas del vecino más cercano utilizando datos editados. Traducción IEEE. Sistema. Hombre Cibernético. 3, 408–421 (1972).

Artículo MathSciNet MATEMÁTICAS Google Scholar

Friedman, JH Aproximación de la función codiciosa: una máquina de refuerzo de gradiente. Ana. Estadística. 29, 1189-1232 (2001).

Artículo MathSciNet MATEMÁTICAS Google Scholar

Ke, G. y col. Lightgbm: un árbol de decisión que impulsa el gradiente altamente eficiente. Adv. Inf. neuronal. Proceso. Sistema. 30, 3146–3154 (2017).

Google Académico

Dorogush, AV, Ershov, V. & Gulin, A. CatBoost: aumento de gradiente con soporte de características categóricas. Preimpresión de arXiv arXiv:1810.11363 (2018).

Lundberg, SM y Lee, S.-I. En actas de la 31ª Conferencia Internacional sobre Sistemas de Procesamiento de Información Neuronal 4768–4777.

Descargar referencias

Este estudio fue apoyado por una subvención del Programa Nacional de Investigación y Desarrollo para el Control del Cáncer, Ministerio de Salud y Bienestar, República de Corea (HA17C0039), el Centro Coordinador de Investigación Clínica Centrado en el Paciente financiado por el Ministerio de Salud y Bienestar, República de Corea ( HI19C0481, HC19C0164), una subvención del Instituto de Investigación en Electrónica y Telecomunicaciones (ETRI) financiada por el gobierno coreano (22ZS1100, Core Technology Research for Self-Improveing Integrated Artificial Intelligence System y el New Faculty Startup Fund de la Universidad Nacional de Seúl (800-20200267) Ninguno de los patrocinadores tuvo acceso a los datos ni ninguna influencia o acceso al plan de análisis, los resultados o el manuscrito.

Estos autores contribuyeron igualmente: Jang Hee Han, Sungyup Lee y Chang Wook Jeong.

Departamento de Urología, Hospital Universitario Nacional de Seúl, Seúl, República de Corea

Jang Hee Han y Chang Wook Jeong

Instituto de Investigación en Electrónica y Telecomunicaciones (ETRI), Daejeon, República de Corea

Sungyup Lee, Byounghwa Lee y Ock-kee Baek

Departamento de Urología, Centro Oncológico Integral Familiar Helen Diller, Universidad de California, San Francisco, CA, EE. UU.

Samuel L. Washington III, Annika Herlemann, Peter E. Lonergan, Peter R. Carroll, Chang Wook Jeong y Matthew R. Cooperberg

Departamento de Epidemiología y Bioestadística, Universidad de California, San Francisco, CA, EE. UU.

Samuel L. Washington III y Matthew R. Cooperberg

Departamento de Urología, Universidad Ludwig-Maximilians de Munich, Munich, Alemania

Annika Herlemann

Departamento de Urología, St. James's Hospital, Dublín, Irlanda

Peter E. Lonergan

Departamento de Cirugía, Trinity College, Dublín, Irlanda

Peter E. Lonergan

Departamento de Urología, Facultad de Medicina de la Universidad Nacional de Seúl, Seúl, República de Corea

Chang Wook Jeong

También puedes buscar este autor en PubMed Google Scholar.

CWJ tuvo acceso total a todos los datos del estudio y asume la responsabilidad de la integridad de los datos y la precisión del análisis de los mismos. Concepto y diseño: CWJ, MRC Adquisición de datos, Análisis e Interpretación de datos: Todos los autores Redacción inicial del manuscrito: JHH, SL, BL, O.-kB, CWJ Revisión crítica del manuscrito para contenido intelectual importante: Todos los autores. Análisis estadístico: CWJ, SLW, MRC Financiamiento obtenido: CWJ Apoyo administrativo, técnico y material: PRC, MRC Supervisión: CWJ, PRC, MRC

Correspondencia a Chang Wook Jeong.

Los autores declaran no tener conflictos de intereses.

Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado al autor(es) original(es) y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Han, JH, Lee, S., Lee, B. et al. Modelos de aprendizaje automático explicables para obtener una visión más profunda de la decisión de tratamiento del cáncer de próstata localizado. Representante científico 13, 11532 (2023). https://doi.org/10.1038/s41598-023-38162-1

Descargar cita

Recibido: 21 de diciembre de 2022

Aceptado: 04 de julio de 2023

Publicado: 17 de julio de 2023

DOI: https://doi.org/10.1038/s41598-023-38162-1

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.