Alessandra Andreotti, Maddalena Baracco, Susanna Baracco, Eva Carpin, Antonella Dal Cin, Anna Rita Fiore, Stefano Guzzinati, Laura Memo, Carmen Fiorella Stocco, Manuel Zorzi

XXIV RIUNIONE SCIENTIFICA AIRTUM 

Caserta, 8-10 Maggio 2024

 

Abstract 

OBIETTIVI
Nei referti di Anatomia Patologica (AP), le informazioni sui marcatori biologici sono contenute nel campo testuale relativo alla diagnosi. Abbiamo costruito dei modelli di Text Mining (TM) e di Machine Learning (ML) per estrarre e prevedere i valori dei marcatori biologici del tumore alla mammella femminile contenuti nei referti di AP.

METODI
La metodologia consiste nell’implementazione di un algoritmo di TM per l’estrazione delle informazioni testuali dalla diagnosi e successivamente di un algoritmo di ML Support Vector Machine per la predizione dei seguenti marcatori biologici: il recettore estrogenico (ER), il recettore progestinico (PGR), il recettore 2 per il fattore di crescita epidermico umano (HER2) e l’indice di proliferazione (Ki-67). L’accuratezza della predizione è stata valutata con lo score pesato F1.

RISULTATI
I dati utilizzati per l’addestramento dei modelli sono stati estratti dal Registro Tumori del Veneto (RTV) e fanno riferimento a 9.807 referti AP provenienti da 7 servizi di Anatomia Patologica del Veneto, relativi a 4.029 pazienti con tumore alla mammella diagnosticato tra il 2017 e il 2020. Di questi casi, per i marcatori di interesse è disponibile il Gold Standard (GS, dato registrato manualmente dagli operatori del RTV). Lo score F1 relativo ai valori puntuali dei marcatori varia tra l'87,1% del Ki-67 ed il 91,6% di HER2. Considerando invece le categorie definite dalle soglie previste da AIOM, l’identificazione dei fenotipi tumorali è risultata accurata con valori compresi tra il 95,4% per HER2 ed il 99,6% per ER.

CONCLUSIONI
L’accuratezza di predizione dei modelli di ML è ottima. Questi modelli verranno testati sui referti AP di pazienti con tumore della mammella incidente in anni più recenti, di cui sarà disponibile il GS. Inoltre, questi modelli verranno testati anche sui referti dei restanti 15 servizi di Anatomia Patologica del Veneto, con una verifica a campione da parte degli operatori del RTV.