Un modello di intelligenza artificiale basato sul deep learning è stato addestrato per progettare molecole terapeutiche in grado di legare simultaneamente due proteine bersaglio
Come ormai noto a tutti l'intelligenza artificiale (AI) impara a scrivere testi ricevendo in input una sequenza di parole o combinazioni linguistiche, ora, con un processo analogo, può anche imparare a progettare composti chimici. È il caso del modello di AI sviluppato all’università di Bonn (Germania), una sorta di “ChatGPT per molecole”, che offre ai ricercatori la possibilità di pensare fuori dagli schemi e ideare strutture chimiche innovative. La sua specialità è generare molecole che possono legare due bersagli, anziché uno solo come avviene nella maggior parte dei composti tradizionali. Questa caratteristica apre nuove prospettive terapeutiche, consentendo di influenzare diversi processi intracellulari con un’unica molecola. Lo studio è stato pubblicato su Cell Reports Physical Science.
Oggi i modelli di linguaggio basati sul deep learning, come ChatGPT, sono in grado di generare qualsiasi tipo di testo in pochi secondi. Si ha quasi la sensazione di dialogare con un essere umano, grazie alla capacità dell’AI di formulare risposte pertinenti e adeguate al contesto in maniera fluida e naturale, mimando il modo in cui comunichiamo tra di noi. Queste capacità derivano da un processo di addestramento che consente all’intelligenza artificiale di apprendere dall’esperienza, migliorando gradualmente le proprie prestazioni. Per addestrare un'AI, si parte da un set di dati iniziale, che, nel caso di un modello di linguaggio, può essere costituito da testi estratti da libri, articoli o siti web, ampi e diversificati per coprire una vasta gamma di argomenti e situazioni. Durante l’addestramento, i testi vengono suddivisi in unità più piccole, come parole, frasi o caratteri. L'AI analizza queste unità cercando schemi ricorrenti, ovvero combinazioni di parole che si ripetono nelle frasi per formare significati. Un modello di linguaggio come ChatGPT impara a generare testi originali prevedendo la parola successiva in una frase, basandosi sul contesto delle parole precedenti e sulle combinazioni che ha appreso da milioni di esempi simili.
Ma non si limita a riprodurre ciò che ha “letto”. Come uno studente diligente, l'AI impara dai propri errori: ogni volta che la sua previsione è sbagliata, un algoritmo di ottimizzazione la aiuta a correggersi, per migliorare le sue risposte future. Per verificare se l'AI ha davvero imparato, una parte dei dati iniziali viene destinata allo svolgimento di un test. Questi dati non vengono mostrati durante l'addestramento e servono come “verifica finale” per valutare come il modello si comporta su contenuti nuovi e se è ancora in grado di formulare previsioni e fornire risposte in situazioni non conosciute.
L’intelligenza artificiale sviluppata dai ricercatori dell'Università di Bonn è stata addestrata con un procedimento simile a quello dei modelli di linguaggio. Tuttavia, anziché testi, sono state utilizzate sequenze di simboli e lettere, chiamate SMILES (Simplified Molecular Input Line Entry System), che rappresentano la struttura chimica delle molecole. Il set di dati iniziale comprende oltre 70.000 coppie di molecole: una con effetto su una sola proteina bersaglio e l’altra capace di legare una nuova proteina oltre a quella bersaglio precedente. Lo scopo di queste coppie è di istruire l’AI a riconoscere le differenze chimiche tra una molecola che agisce su un singolo bersaglio e una che riesce a legarne due. Il confronto tra le due molecole aiuta il modello a individuare i cambiamenti strutturali che consentono alla molecola di passare da un effetto su un singolo bersaglio a quello su un doppio bersaglio. Come nel caso delle combinazioni di parole, l’AI impara a riconoscere schemi ricorrenti associati al doppio effetto e a suggerire, di conseguenza, nuove molecole con la stessa proprietà.
Ma perché è così importante identificare molecole che leghino due bersagli contemporaneamente? I composti a doppio effetto sono considerati una sorta di “Santo Graal” della ricerca farmaceutica. Scoprire una molecola che agisca su una singola proteina bersaglio è già un’impresa difficile: in media, partendo da una selezione di 10mila candidati farmaci si riesce ad averne solo uno in grado di superare con successo tutti i test preclinici e clinici. Creare direttamente una molecola capace di legare con efficacia due proteine bersaglio è quasi un miracolo.
Molecole che consentono di agire simultaneamente su diversi processi e vie di segnalazione cellulari, o fare da ponte tra due bersagli, possiedono un enorme potenziale terapeutico. Sebbene in linea teorica si potrebbe ottenere lo stesso effetto tramite la co-somministrazione di due farmaci, questo approccio presenta rischi legati agli effetti collaterali combinati e alle differenze nel modo in cui i farmaci vengono metabolizzati e assorbiti dall’organismo.
Le due proteine bersaglio possono essere simili per struttura e funzione, ma ci sono anche casi in cui è necessario progettare composti in grado di agire su classi di enzimi e recettori completamente differenti. La "ChatGPT per molecole" è stata addestrata anche per affrontare questo tipo di sfide: utilizzando un set di dati appositamente selezionato per insegnare all’intelligenza artificiale a riconoscere esempi di cooperazione tra proteine appartenenti a classi diverse. Dopo l’addestramento, il modello ha “superato l’esame”, prevedendo correttamente le strutture di molecole già note per agire contro le coppie di proteine bersaglio designate.
L’obiettivo, spiegano i ricercatori, non è sostituire gli scienziati con l’AI, ma stimolare idee innovative e proporre soluzioni originali, suggerendo strutture chimiche a cui la maggior parte dei chimici non penserebbe immediatamente.