Esperienze

#MoN2: rilevazione algoritmica di specializzazioni nelle conversazioni online

MoN2_Fig_2

Qualche settimana fa ho partecipato (come osservatore attento) al workshop Master of Networks 2, una due-giorni internazionale di lavori incentrata sulla teoria (e “pratica”) delle reti, organizzata da Alberto Cottica. Oltre che economista (e valente musicista) Alberto è da sempre interessato a inserire in un framework teorico tutti gli aspetti di creazione e governance di communities online, fin dai tempi del progetto Kublai (si veda la tesi di laurea di Ruggero Rossi (pdf) ispirata da Alberto).

I partecipanti al workshop sono stati divisi in due team che hanno affrontato due problemi diversi; il “Team 1” si è dedicato alla “rilevazione algoritmica di specializzazioni nelle conversazioni online” basata sui dati della community transeuropea Edgeryders, il “Team 2” alla “schemi e patterns nella ricerca fondi in Italia” basata su “open data” resi disponibili dal Ministero dell’Istruzione.

Qui di seguito la traduzione (quasi) integrale del documento finale del Team 1 che potete trovare nella sua versione originale e integrale (in inglese) qui su insiteproject.com. Appena disponibile riporterò anche il documento finale del Team 2.

Partecipanti

Alberto Cottica, Benjamin Renoust, Khatuna Sandroshvili, Luca Mearelli, , Gaia Marcus, Kei Kreutler, Jonne Catshoek, Federico Bo.

Obbiettivo

Scoprire quali gruppi di utenti in Edgeryders  (si) sono auto-organizzati in conversazioni specialistiche, nelle quali le persone gravitano intorno a uno o due argomenti (piuttosto che disperdere la loro partecipazione in tutte le discussioni). Inoltre capire se questi “specialisti”, oltre che concentrarsi su determinati argomenti, interagiscano strettamente l’uno con l’altro.

Perché è rilevante

Capire le dinamiche dei social networks e delle communities e conoscere lo schema della loro infrastruttura può rivelarsi un utile strumento a disposizione dei policy makers per ripensare il modo in cui vengono sviluppate e implementate le linee guida politiche. Inoltre si potrebbe assicurare che questi indirizzi riflettano in maniera corretta bisogni e possibili soluzioni proposte dai cittadini.

Poter scoprire i legami tra i membri di un social network basati sulle loro aree di specializzazione può permettere ai decision makers di:

  • Attingere a reti esistenti di esperti e persone informate per capire meglio un problema di policy e i gruppi che ne sono più influenzati (cioè i beneficiari della policy).
  • Identificare “dal basso” pre-esistenti idee e proposte per le politiche che si intendono sviluppare e mettere in atto
  • Unire insieme reti diverse accomunate da un provato interesse per le politiche pubbliche, utilizzandole per progettare nuove soluzioni orientate al cambiamento e all’innovazione

Piuttosto che spendere tempo e risorse nello sviluppo e nella costruzione di sempre nuove communities intorno a vari temi, questa metodologia può aiutare ad utilizzare strutture già esistenti rafforzandole con queste reti di “esperti dal basso”, razionalizzando e rendendo più efficienti i processi decisionali.

I dati e gli strumenti

Edgeryders è un progetto nato su iniziativa del Consiglio d’Europa e della Commissione Europea nel 2011. Il suo obbiettivo era generare proposte per le nuove politiche europee sui giovani dai giovani stessi attraverso l’utilizzo di una piattaforma web aperta strutturata come un social network (maggiori informazioni). Attualmente Edgeryders è uno spinoff del progetto originale, incorporato come impresa nonprofit con sede in UK.

La piattaforma iniziale – sui dati della quale viene effettuata l’analisi – è stata realizzata con Drupal 6. Usando un set di plugin chiamato Views Datasource sono stati esportati in tre file JSON le informazioni su utenti, post e commenti.

Questi dati hanno consentito di ricreare la rete delle conversazioni nella quale gli utenti sono i nodi e i commenti gli archi. Anna e Bob sono connessi da un arco se Anna ha scritto almeno un commento su un frammento di contenuto scritto da Bob. Si è utilizzato il framework Tulip per costruire e analizzare il grafo a partire dai dati disponibili. Il risultato è stata una rete di 260 utenti attivi, circa 1600 archi e 400 commenti.

Per avvicinarsi all’obbiettivo si è arricchito il dataset con informazioni extra sulla semantica delle conversazioni.

Cosa si è fatto.

Per definire in che misura gli utenti gravitano intorno a certi argomenti e l’uno all’altro si è effettuata una “entanglement analysis” sul dataset. Questa analisi è stata proposta da Benjamin Renoust nel 2013 ed è stata eseguita con un programma chiamato Data Detangler.

     1. Edgeryders come social network di commenti

Questi dati possono essere interpretati come un social network: le persone scrivono post e commenti nella rete e, naturalmente, si commentano a vicenda. Ogni commento può essere visto come un arco che connette l’autore del commento all’autore di un post o di un commento. Oppure si può interpretare il social network come un grafo bipartito che connette gli utenti al contenuto: i commenti sono archi che connettono i loro autori all’unità di contenuto che stanno commentando.

     2. I post sono scritti in risposta alle “missioni” 

In Edgeryders sono presenti nove “campagne” ciascuna delle quali contiene dei brief, o “missioni”. I post (e relativi commenti) sono scritti in risposta alle missioni.

     3. Le keywords indicizzano le missioni

Per capire come le varie campagne e missioni sono  connesse tra di loro si sono analizzate le parole chiave (keywords) di ogni missione.

Procedendo manualmente, attraverso il servizio online TagCrowd, si sono trovate e selezionate le prime 12/15 parole per ordine di frequenza presenti nelle missioni (sono state rimosse parole non significative o inerenti le funzionalità della piattaforma, tipo “add post”).

 

La combinazione di questi tre passi ha prodotto un “multiplex social network“(nel quale esistono relazioni multiple tra lo stesso insieme di attori) indicizzato da keywords.

Vediamo quali sono stati i passi successivi.

     4. Eliminare gli specialisti “by default”

Sono stati eliminati gli archi collegati a una sola missione che identificano specialisti “by default”.

     5. Rimuovere conversazioni generaliste.

A questo punto si ha un social network di utenti e keywords. Ogni keyword può esser vista come un “livello” della rete, che identifica una sotto-rete: la rete delle conversazioni sul lavoro, sull’educazione ecc. Per isolare le conversazioni specializzate, per ciascun arco si sono rimosse tutte le keyword ad eccezione di quelle che apparivano in tutte le intersezioni tra due utenti. Ovvero, si è ricostruita la rete assegnando a ciascun arco l’intersezione dell’insieme di keywords comprese in ogni interazione individuale. In alcuni casi l’intersezione era vuota e quindi l’arco è stato eliminato.

Un utile effetto collaterale di questi ultimi due passi è stato quello di ridurre fortemente l’influenza dei moderatori del team di Edgeryders, che sono per definizione tra gli utenti più attivi e potrebbero distorcere i risultati dell’analisi. Il punto 4 rimuove le interazioni “one off” con gli utenti poco attivi, il punto 5 rimuove gli archi che connettono tra loro i moderatori, visto che partecipando a tutte le discussioni fanno tendere a zero l’intersezione delle parole chiave.

     6. Identificazione gruppi di specialisti

Si è arrivati quindi a identificare gruppi di specialisti identificano quegli utenti che interagiscono tra loro solo con un piccolo numero di keywords. Nell’esempio n(keywords)=2.

Conversazioni specializzate in "education" e "learning"
Fig. 1 – Conversazioni specializzate in “education” e “learning”

 

Conclusioni

Il metodo sembra in grado di identificare “gruppi” di specialisti, dove la parola “gruppo” è intesa nel senso di un’insieme di persone che non solo contribuiscono con contenuti ma interagiscono gli uni con gli altri. Questo fa emergere l'”intelligenza collettiva” nelle conversazioni su larga scala. Nella figura 1 sono evidenziati individui (sulla sinistra) che interagiscono solo attraverso le parole “education” e “learning“. Gli individui evidenziati che non sono connessi con alcun arco evidenziato sono utenti che hanno scritto contenuti relativi a queste parole chiave ma non sono parte di interazioni su queste stesse parole.

Scoprire nuove parole chiave associate allo schema di interazione tra gli utenti precedentemente rilevato.
Fig. 2 – Scoprire nuove parole chiave associate allo schema di interazione tra gli utenti precedentemente rilevato.

Una volta identificati i gruppi di specialisti il passo successivo è guardare le keywords che co-occorrono negli archi che li connettono. Per esempio nella Figura 2 si possono vedere le parole che si aggiungono a “education” e “learning” nel gruppo prima identificato. Si può notare sia che anche la parola “open” è significativa (la grandezza del circolo associato è proporzionale al suo uso). Si potrebbe interpretare questo dato dicendo che gli “specialisti” in educazione in questa community pensano che il concetto di “apertura” sia importante quando si parla di educazione.

Questo metodo è scalabile. Può essere usato per scoprire inaspettati schemi di interazione che possono essere oggetto di successive ricerche.

 

Margini di miglioramento

Il problema principale con questo metodo d’analisi è che è estremamente sensibile alla selezione delle keywords. Si possono ottenere risultati migliori con un metodo che associ al conteggio delle occorrenze un’analisi etnografica. Purtroppo le “folksonomies” (tagging non strutturato) tendono a non funzionare perché introducono molto rumore nel sistema.

 

 

 

 

 

 

 

 

 

 

1 Comment

Lascia un commento

La tua email non sarà pubblicata. Required fields are marked *