Se stai leggendo questo articolo, è probabile che tu sia tra i numerosi docenti di lingue che già utilizzano strumenti di intelligenza artificiale come ChatGPT nella didattica. Ma in che modo l’IA sta trasformando il panorama della valutazione linguistica? Se ti occupi di insegnamento o valutazione della lingua inglese, probabilmente hai già sentito parlare di "automarking" (o valutazione automatizzata N.d.T.). Che cos’è esattamente? Quali sono i suoi vantaggi e svantaggi? Come dovrebbe essere utilizzato? L’esaminatore umano avrà ancora un ruolo in futuro?
Recentemente ho co-redatto un articolo sull’automarking insieme ad altri colleghi di Cambridge University Press & Assessment. In questo articolo offro una sintesi delle nostre conclusioni, ma puoi leggere l'articolo completo a questo link.
Grazie ai rapidi progressi nell’ambito del machine learning e dell’Intelligenza Artificiale, è ora possibile addestrare algoritmi per correggere elaborati scritti e produzioni orali complesse negli esami. Questo processo è noto come automarking. Le tecnologie avanzate sono in grado di predire i punteggi che assegnerebbe un esaminatore umano e segnalare le risposte che necessitano una revisione da parte di un docente.
Le decisioni sulle competenze linguistiche prese sulla base di valutazioni supportate dall’IA possono influenzare profondamente le opportunità di vita delle persone. Da queste possono dipendere l’accesso a percorsi formativi, opportunità lavorative o decisioni relative all’immigrazione. L’automarking rappresenta un’applicazione trasformativa dell’IA nella didattica linguistica. La nostra ricerca illustra i principi fondamentali che devono guidare una buona prassi nell’uso dell’automarking nella valutazione, nel contesto dell'apprendimento di una seconda lingua, e propone esempi concreti di applicazione.
L’automarking offre numerosi benefici sia per i docenti sia per gli studenti:
Tempi di correzione ridotti – la valutazione risulta molto più rapida rispetto alla sola correzione umana.
Test "on demand" – svincolati dalla disponibilità degli esaminatori.
Coerenza nei punteggi – sistemi ben addestrati garantiscono standard elevati e stabili nel tempo, mentre i correttori umani richiedono formazione continua per mantenere l’affidabilità.
Testing adattivo – la difficoltà delle attività può essere modulata in base alla performance dello studente durante il test.
Integrazione tra apprendimento e valutazione – i punteggi automatizzati possono essere immediatamente utilizzati per personalizzare i percorsi di apprendimento individuali, identificando aree di miglioramento.
Gli esaminatori umani preoccupati per una eventuale loro sostituzione possono rassicurarsi: gli esperti linguistici hanno sollevato diverse criticità importanti:
Autenticità – i sistemi di automarking funzionano meglio con un numero limitato di attività, come risposte scritte brevi, che non sempre rispecchiano l’uso autentico della lingua.
Autenticità nell’orale – la competenza comunicativa comprende anche aspetti come il tono, la gestione dei turni, la capacità di far fronte a interruzioni comunicative e il comportamento non verbale, elementi ancora molto difficili da valutare automaticamente con affidabilità.
Validità – gli algoritmi riescono a valutare solo un numero limitato di caratteristiche linguistiche rispetto a un valutatore umano. Le tecnologie attuali non riescono a misurare in modo completo aspetti come complessità, accuratezza e fluidità, né significati impliciti, sviluppo argomentativo o adeguatezza pragmatica.
Responsabilità e trasparenza – rispetto alle valutazioni umane, è difficile fornire spiegazioni sui criteri valutativi utilizzati dai sistemi automatizzati.
Etica – rischi di comportamenti scorretti e strategie di frode specifiche per aggirare i test automatizzati.
Competenza digitale dell’utente – una scarsa alfabetizzazione in ambito IA può portare a un uso improprio della valutazione automatica da parte dei candidati.
Nel nostro studio, proponiamo 12 principi fondamentali che dovrebbero guidare lo sviluppo e l’implementazione dei test linguistici automatizzati.
Alcuni di questi principi includono:
Quali dati sono stati utilizzati per addestrare il sistema di automarking? Il dataset deve essere selezionato con cura per rappresentare correttamente la popolazione di candidati prevista, evitando bias.
Come garantire equità? I sistemi devono essere costantemente monitorati e aggiornati in base ai cambiamenti nella popolazione dei candidati.
Qual è la precisione del sistema e come viene misurata? I punteggi devono essere confrontati con quelli forniti da correttori umani esperti e certificati (gold standard).
Il funzionamento del sistema e il significato dei punteggi devono essere comprensibili a tutti, dagli enti regolatori agli insegnanti, candidati, genitori ed esaminatori. Queste informazioni devono essere accessibili pubblicamente.
Rischi di comportamenti anomali: devono essere previste strategie per rilevare risposte anomale o sospette.
Qual è il livello di coinvolgimento dell’esaminatore umano? Un approccio ibrido uomo/macchina può rappresentare la soluzione ideale per compensare i limiti della tecnologia e mantenere elevati standard di valutazione.
Cambridge impiega diversi sistemi di automarking per diversi esami, poiché ciascun sistema è addestrato su dataset specifici, con tipologie di prove e profili di candidati differenti. I sistemi sono coerenti e riproducono lo stesso comportamento ogni volta che correggono un compito.
Il sistema utilizza tecniche di Natural Language Processing (NLP) per estrarre caratteristiche linguistiche dai testi scritti e applica una complessa serie di regole per valutare la qualità del testo secondo criteri prestabiliti. Il modello viene addestrato offline e non continua ad apprendere durante l’uso operativo, a differenza dei modelli generativi di IA, meno adatti alla valutazione perché meno trasparenti nei processi decisionali.
Il processo di automarking di Cambridge prevede cinque fasi:
Tutte le risposte vengono inizialmente valutate dal sistema automatizzato, che comprende un modello per il punteggio, un modello per la sicurezza e un modello per rilevare risposte anomale.
Le risposte con alta affidabilità e non anomale vengono restituite direttamente al candidato.
I punteggi che non superano la soglia di sicurezza vengono inviati a esaminatori umani per la valutazione. Anche le risposte anomale sono sottoposte a revisione manuale. In caso di discrepanze tra valutazione umana e automatica, prevale quella umana.
Un campione casuale di risposte viene comunque valutato dagli esaminatori, indipendentemente dal livello di sicurezza, per garantire il controllo di una gamma completa di attività.
Le valutazioni umane sono poi sottoposte a monitoraggio statistico e revisione, in linea con le pratiche correnti.
Sebbene l’automarking sia destinato a giocare un ruolo sempre più centrale nella valutazione linguistica, è fondamentale conoscerne i limiti, le vulnerabilità e le condizioni d’uso ottimali. La sua implementazione deve essere guidata dalla ricerca e il nostro studio sottolinea l’importanza di un approccio integrato tra IA e competenza umana – riteniamo essenziale mantenere un essere umano nel processo.
Per approfondire, leggi l’articolo completo: “Automarking in language assessment: Key considerations for best practice”
Autore: Jing Xu – Head of Propositions Research, English, Cambridge University Press & Assessment
Vuoi altri consigli su come usare l’IA nelle lezioni di inglese? Dai un’occhiata alla nostra raccolta di articoli dedicati!
Se ti è piacuto questo articolo potrebbero essere interessanti anche questi!