News Ticker

Genomica computazionale: un progetto per la medicina del futuro

Stefano Ceri del Politecnico di Milano vince il suo secondo Advanced Grant, un finanziamento assegnato dal Consiglio Europeo della Ricerca ai progetti innovativi

Usare la mole enorme di dati che viene dal sequenziamento del genoma per trovare una risposta più precisa ed efficace a tante domande della biologia e della medicina, incluse la modalità di sviluppo dei tumori e la loro dipendenza da cause ambientali. È l’obiettivo ambizioso di GeCo (Data-Driven Genomic Computing), il progetto di ricerca di Stefano Ceri, del Dipartimento di Elettronica, Informazione e Bioingegneria (DEIB) del Politecnico di Milano, finanziato con un Advanced Grant dal Consiglio Europeo della Ricerca. Il ricercatore italiano, che aveva già vinto un grant per il progetto Search Computing, che si è svolto dal 2008 al 2013, è uno dei due informatici a essersi aggiudicati la borsa.

GeCo vuole rivisitare la genomica computazionale tramite l’uso estensivo di banche dati pubbliche, ideando nuovi modelli, linguaggi e strumenti per la loro analisi e gestione, solidi dal punto di vista dei concetti utilizzati e capaci di operare in modo super-efficiente su sistemi “cloud”. La Genomica Computazionale è la scienza che, partendo dal sequenziamento del genoma e grazie all’uso di analisi statistiche e computazionali, decifra la funzione delle regioni del genoma e costituisce pertanto il presupposto per le future scoperte nel campo della biologia e della medicina. Le tecniche di sequenziamento del genoma di nuova generazione (NGS) consentono oggi la produzione dell’intera sequenza del genoma umano a costi molto bassi (circa 1000 dollari). Parallelamente sono stati sviluppati algoritmi specializzati per estrarre le caratteristiche salienti del genoma che si vuole studiare, per evidenziare ad esempio le mutazioni o l’espressione dei geni, cioè la loro attività di trascrizione. La grande lacuna da colmare rimane però l’ideazione di un sistema capace di integrare i dati genomici estratti da tali algoritmi ottenendo un “senso biologico” interpretabile dai medici per comprendere meglio, ad esempio, lo sviluppo di gravi malattie o la loro dipendenza da fattori ambientali.

L’equipe del progetto GeCo, partendo da un modello di dati astratto che garantisce interoperabilità fra i vari formati potenzialmente utilizzabili, ha già sviluppato un sistema per interrogare dati genomici scaricati da grandi banche dati prodotte da Consorzi internazionali. Un risultato che si colloca all’avanguardia mondiale della ricerca di settore e che è pubblicamente utilizzabile presso il Consorzio Cineca, oppure scaricabile dai server del Politecnico. Nel corso del progetto, il sistema sarà arricchito di strumenti per l’analisi dei dati e verrà reso sempre più efficiente, utilizzando vari framework per la gestione di dati disponibili su server paralleli e in ambiente cloud.

Tra gli obiettivi del progetto c’è anche la costruzione di un open source messo a disposizione dei ricercatori biologici e clinici, che potranno usare servizi offerti dal sistema oppure scaricarlo e installarlo presso i loro centri. Mentre i servizi realizzati dal Politecnico di Milano useranno esclusivamente dati pubblici, messi a disposizione per “uso secondario”, cioè per attività di ricerca, l’installazione protetta del sistema in un contesto clinico potrà essere utilizzata per la cosiddetta “medicina personalizzata”, cioè l’adattamento delle terapie ai dati genomici di specifici pazienti.

L’obiettivo più ambizioso del progetto è la realizzazione di un “Internet per la genomica”, cioè di un modo di raccogliere dati genomici pubblicati da consorzi internazionali e dai ricercatori, e di un “Google per la genomica”, cioè un sistema di indicizzazione e ricerca su grandi raccolte di dati genomici pubblici. Questi strumenti potranno essere usati per facilitare in futuro lo studio approfondito di gravi malattie.