¿Cómo predecir y clasificar el riesgo de cáncer de mama en mujeres chinas?

¿Cómo predecir y clasificar el riesgo de cáncer de mama en mujeres chinas? Un enfoque innovador con tecnología avanzada

El cáncer de mama sigue siendo el tipo de cáncer más diagnosticado en mujeres en todo el mundo. Solo en 2020, se reportaron 2.26 millones de nuevos casos. En China, esta enfermedad es la principal causa de incidencia de cáncer en mujeres, con aproximadamente 416,000 nuevos casos en el mismo año. Este aumento en la carga del cáncer de mama en China ha llevado a la necesidad urgente de herramientas precisas y accesibles para evaluar el riesgo en la población china. Los modelos tradicionales de predicción de riesgo, como el modelo Gail, Claus y Tyrer–Cuzick, han mostrado limitaciones en su precisión, con valores de AUC (área bajo la curva) que suelen oscilar entre 0.55 y 0.65. Además, estos métodos a menudo requieren pruebas invasivas, como análisis genéticos y biopsias, que no son viables para su aplicación generalizada en China debido a limitaciones económicas y la distribución desigual de recursos médicos. ¿Existe una solución más precisa y no invasiva?

Un estudio innovador con datos reales

Un estudio reciente ha abordado estas limitaciones utilizando tecnología avanzada de aprendizaje automático (machine learning). Este estudio se basó en datos del Estudio de Cohorte de Cáncer de Mama en Mujeres Chinas (BCCS-CW), que incluyó a 122,058 mujeres de 25 a 70 años del este de China. El estudio comenzó en 2008–2009 y realizó un seguimiento entre 2017 y 2020. Las participantes proporcionaron información detallada sobre sus características demográficas, factores fisiológicos y reproductivos, historial médico y familiar, hábitos alimenticios, estilo de vida y conocimiento sobre el cáncer de mama. Los casos de cáncer de mama se identificaron a través de bases de datos de seguros médicos nacionales, registros de enfermedades y registros locales de residencia.

Modelos de predicción basados en aprendizaje automático

El estudio utilizó técnicas avanzadas de aprendizaje automático, como la regresión logística penalizada (PLR), bootstrapping (remuestreo) y aprendizaje por ensamblaje (ensemble learning). Se desarrollaron dos modelos principales: el modelo de regresión logística penalizada por ensamblaje (EPLR) para la predicción de riesgo a corto plazo y el modelo de predicción a largo plazo (EPLT). Ambos modelos se construyeron utilizando un enfoque integrado basado en bagging, que combina múltiples modelos PLR para mejorar la precisión y estabilidad de las predicciones. El modelo EPLR incluyó 72 factores de riesgo no experimentales, mientras que el EPLT utilizó 51 variables.

Evaluación del rendimiento de los modelos

El rendimiento de los modelos se evaluó en términos de discriminación y calibración. La discriminación se midió utilizando el AUC, curvas ROC (característica operativa del receptor) y la mejora en la reclasificación neta (NRI). La calibración se evaluó mediante gráficos de calibración y la relación observado/esperado (E/O). El modelo EPLR mostró una fuerte discriminación, con valores AUC de 0.800 y 0.751 en conjuntos de validación interna y externa, respectivamente. El NRI del modelo EPLR en comparación con el modelo BCRAM fue de 0.164 y 0.268 en validación interna y externa, lo que indica una mejora significativa en la precisión de la predicción. El modelo EPLT también tuvo un buen rendimiento, con valores AUC de 0.692 y 0.760 en validación interna y externa, respectivamente.

Factores de riesgo no experimentales: clave en la predicción

Uno de los hallazgos clave del estudio fue la importancia de los factores de riesgo no experimentales en la predicción del cáncer de mama. El modelo EPLR identificó la «satisfacción general con la vida» como el predictor más importante, destacando el papel de los factores psicológicos en el riesgo de cáncer de mama. Otros predictores significativos incluyeron el estado de la menopausia, el historial familiar de cáncer de mama, la hiperplasia mamaria y los hábitos alimenticios. Estos modelos superaron a los modelos tradicionales como Gail y HCBCP, que dependen de menos variables y a menudo requieren pruebas invasivas. La inclusión de un gran número de factores no experimentales hace que los modelos EPLR y EPLT sean más adecuados para su aplicación generalizada en China, donde el acceso a recursos médicos avanzados es limitado.

Manejo de datos desequilibrados y estabilidad del modelo

El estudio también abordó el desafío de los datos desequilibrados utilizando una estrategia de bootstrapping para crear conjuntos de datos equilibrados para el entrenamiento del modelo. Este enfoque reduce el sesgo y mejora la precisión en la selección de factores de riesgo. Además, la integración de múltiples modelos PLR a través del aprendizaje por ensamblaje mejora la estabilidad y la capacidad de generalización de los modelos EPLR y EPLT. La capacidad de los modelos para clasificar la importancia de los factores de riesgo según su frecuencia de selección en múltiples modelos PLR proporciona información valiosa sobre la contribución relativa de diferentes factores al riesgo de cáncer de mama.

Limitaciones y direcciones futuras

A pesar de sus fortalezas, el estudio tiene algunas limitaciones. Primero, la validación externa de los modelos se limitó a datos de tres provincias, y las predicciones a largo plazo del modelo EPLT se validaron utilizando solo tres años de datos de seguimiento. Se necesita una validación adicional en poblaciones más grandes y diversas para confirmar la generalización de los modelos. Segundo, algunos factores de riesgo establecidos, como el consumo de alcohol, no se incluyeron en los modelos debido a sus bajas puntuaciones de importancia. Finalmente, el estudio no tuvo en cuenta los subtipos de cáncer de mama, ya que el conjunto de datos carecía de información sobre el estado del receptor de estrógeno.

Conclusión

Este estudio desarrolló y validó modelos avanzados de predicción de riesgo de cáncer de mama basados en aprendizaje automático para mujeres chinas. Los modelos EPLR y EPLT demostraron una discriminación y calibración superiores en comparación con los modelos tradicionales, lo que los convierte en herramientas valiosas para la detección estratificada por riesgo y la prevención del cáncer de mama en China. La dependencia de factores de riesgo no experimentales y su capacidad para clasificar la importancia de estos factores ofrecen un enfoque práctico y rentable para la evaluación del riesgo de cáncer de mama. Investigaciones futuras deberían centrarse en validar los modelos en poblaciones más grandes y diversas e incorporar factores de riesgo adicionales, incluidos los subtipos de cáncer de mama, para mejorar aún más su precisión predictiva.

doi.org/10.1097/CM9.0000000000002891
For educational purposes only.

Deja una respuesta 0

Your email address will not be published. Required fields are marked *