Quando l'AI legge i social: il ruolo della NLP nelle indagini forensi

In un’epoca caratterizzata dalla predominanza dell’informazione digitale e dalle interazioni tra esseri umani e macchine, il Natural Language Processing (NLP) si afferma come una tecnologia fondamentale e un ottimo alleato della social media forensic, grazie alla sua particolare capacità di trasformare il nostro modo di dialogare con i sistemi informatici e di analizzare enormi quantità di contenuti testuali. 

Cos’è l’elaborazione del linguaggio naturale (NLP)?

Con NLP, acronimo di elaborazione del linguaggio naturale, si identifica una branca dell’Intelligenza artificiale sviluppatasi velocemente negli ultimi anni e che ci ha portato a rivoluzionare la nostra capacità di interagire con le macchine attraverso il linguaggio naturale, grazie all’abbattimento delle barriere linguistiche tra umani e i device tecnologici.

La NLP infatti si pone come obiettivo fornire ai computer la capacità di comprendere, interpretare e riprodurre il linguaggio umano in modo adeguato e utile.

L’elaborazione del linguaggio naturale impiega diverse tecniche, come la pulizia e la pre-elaborazione del testo, ovvero preparano i testi andando a correggere eventuali errori e suddividendo le parole in gruppi significativi; un’altra tecnica è l’analisi grammaticale (part-of-speech tagging), che va a identificare il ruolo grammaticale di ogni parola in modo da semplificare la comprensione della struttura e del significato della frase; troviamo anche l’analisi del sentiment, utile a categorizzare il tono emotivo usato nel testo, al fine di valutare opinioni, atteggiamenti e minacce potenziali; il topic modeling invece ha l’obiettivo di rilevare pattern e argomenti ricorrenti dai big data, per svelare connessioni e tendenze non immediatamente visibili; in ultima istanza troviamo il riconoscimento delle entità denominate (NER o Named-Entity Recognition) attraverso cui è possibile identificare elementi chiave come persone, organizzazioni e località citate in contenuti testuali, associandole a database di conoscenze esistenti.

Le sfide dell’elaborazione del linguaggio naturale

Ci sono stati innegabili progressi nell’ambito, ma esistono ancora varie sfide da affrontare, come la gestione delle ambiguità linguistiche (una stessa parola o frase può avere diversi significati in base al contesto), caratteristiche del linguaggio naturale. Altre sfide sono rappresentate appunto dalla comprensione del contesto, oltre che l’elaborazione di lingue con una minore rappresentazione nel dataset.

NLP e social media forensic

Come visto nell’articolo precedente, i social media sono ricchi di contenuti testuali come post, commenti e messaggi; l’elaborazione del linguaggio naturale è un valido alleato per un’efficace analisi dei dati testuali presenti sui profili social degli utenti e grazie ad essa è possibile contrastare diversi fenomeni, come:

  • la radicalizzazione; infatti, la diffusione dei social media ha modificato la comunicazione, permettendo di connettersi con individui da tutto il mondo. Nonostante i chiari vantaggi, ciò ha reso anche le piattaforme social degli strumenti ampiamente sfruttati da estremisti violenti e sostenitori di ideologie radicali, ideali per diffondere rapidamente e su larga scala contenuti d’odio, post radicali ed estremisti.
    Per contrastare il fenomeno, i digital forenser utilizzano la NLP come strumento di identificazione di tali contenuti sui social analizzando i contenuti e i modelli linguistici estremisti, grazie alla pre elaborazione del testo e l’identificazione di caratteristiche rilevanti e l’analisi del sentiment.
  • il cyberbullismo; negli ultimi anni è stato registrato una maggiore diffusione del cyberbullismo, che può essere rilevato grazie alla NLP. Il machine learning e l’NLP rappresentano oggi due delle strategie più avanzate per ridurre il cyberbullismo in una società sempre più digitale.
  • i profili falsi; sulle piattaforme social infatti, i profili falsi sono innumerevoli e comprendono bot automatizzati, impersonatori e identità fittizie. La grande quantità di profili falsi presenti è un campanello d’allarme che non può essere ignorato, poichè essi sono canali, tra le altre cose, per la diffusione di disinformazione e l’attuazione di truffe. Sempre grazie al machine learning e alla NLP è possibile migliorare i tassi di accuratezza per l’individuazione dei profili fake.
Conclusione

L’integrazione della Natural Language Processing nella social media forensic è ormai una necessità consolidata; guardando al futuro è possibile affermare che i futuri sviluppi nel campo renderanno gli strumenti di NLP ancora più sofisticati, trasformando ulteriormente il panorama della social media forensic e rafforzando la capacità di combattere la criminalità nel mondo digitale.

Scopri i servizi LegalEYE PRO e LegalEYE Appliance per l’acquisizione di prove digitali dal Web.