La NASA ha desenvolupat recentment una nova generació d’intel·ligència artificial, el Recomanador de Paraules clau del Global Change Master Directory (GKR), per facilitar la cerca i l’organització de conjunts de dades científiques a gran escala. El projecte, impulsat des del Centre de Vol espacial Marshall a Huntsville (Alabama), té com a objectiu ajudar investigadors, estudiants i el públic a accedir de manera més precisa i eficient a les dades de ciències de la Terra, segons informa la NASA.
El nou model GKR, que ja ha estat implantat, permet etiquetar automàticament els conjunts de dades amb paraules clau estandarditzades, gràcies a l’ús del model lingüístic INDUS, entrenat amb 66.000 milions de paraules de literatura científica de disciplines diverses com les ciències de la Terra, les ciències biològiques i l’astronomia. Aquesta eina aborda una de les problemàtiques clau de la ciència de la informació: la classificació extrema multietiqueta, que exigeix assignar múltiples descriptors precisos a conjunts de dades molt diversos.
El sistema ha passat de considerar unes 430 paraules clau a més de 3.200, millorant substancialment la seva capacitat de classificació. “Som al capdavant de la intel·ligència artificial i l’aprenentatge automàtic d’última generació per a la ciència”, afirma Sajil Awale, membre de l’equip de la NASA ODSI, en declaracions recollides per l’agència.
Entre les millores tècniques, el projecte ha aplicat la denominada focal loss per aconseguir que el model consideri també les paraules clau més infreqüents i afavorir així la cerca de dades molt específiques. També s’ha ampliat l’abast d’entrenament del model, que ha passat de 2.000 a més de 43.000 registres de metadades extrets del Common Metadata Repository de la NASA, fet que n’ha reforçat la precisió.
La NASA explica que, més enllà del GKR, el model INDUS està facilitant innovacions en altres projectes de la Direcció de Missió Científica, com ara l’Science Discovery Engine, i que aquestes eines suposen un pas endavant crucial per garantir que el coneixement científic resulti fàcilment accessible en un context d’allau de dades creixent.