Het gebruik van Large Language Models in het taalonderwijs
De auteursgroep bestaat uit het team van het Pedagogisch-Didactische focusgebied van NOLAI aan de Radboud Universiteit. Nolai is het nationale onderwijslab AI voor het basisonderwijs, voortgezet en speciaal onderwijs van Nederland, gefinancierd door het Nationaal Groeifonds.
Eliane Segers is hoogleraar Leren & Technologie aan het Behavioural Science Institute (BSI), en wetenschappelijk directeur van het Expertisecentrum Nederlands. Ze leidt het Pedagogisch-Didactische focusgebied samen met prof. Haelermans.
Carla Haelermans is hoogleraar Human Capital, Educational Technology and Inequality bij het Researchcentrum voor Onderwijs en Arbeidsmarkt (ROA), Universiteit Maastricht.
Wouter Jansen is Teacher in Residence bij NOLAI, en docent aan het Corbulo College.
Laurens Runderkamp is Teacher in Residence bij NOLAI, en docent bij Spinoza20First.
Erika Schlatter en Paraskevi Topali zijn als postdocs verbonden aan NOLAI, en Zeyu Wang is phd student bij NOLAI en ROA.
Generatieve AI is een vorm van vorm van artificiële intelligentie (AI) waarbij de AI nieuwe teksten creëert. ChatGPT is hier een bekend voorbeeld van; het is een zogenaamd Large Language Model (LLM). In deze bijdrage gaan we in op de mogelijkheden van LLM’s in het (taal)onderwijs. Daarnaast bespreken we ook pedagogisch-didactische aspecten van het gebruik ervan.
Eliane Segers, Carla Haelermans, Wouter Jansen, Laurens Runderkamp, Erika Schlatter, Paraskevi Topali, & Zeyu Wang
AI lijkt steeds mensachtiger
Het zal niemand ontgaan zijn dat de interactie met een Large Language Model steeds meer op interactie met een mens lijkt. De ultieme test voor een LLM is dan ook de zogenaamde Turingtest. Het LLM doorstaat deze test als iemand met dit systeem in interactie is en niet kan bepalen of de ander een mens of computer is. Jones en Bergen (2024) hebben recent een Turingtest uitgevoerd door 1979 mensen in een online experiment te laten interacteren met ‘echte mensen’ versus verschillende persona's1 gecreëerd in ChatGPT-3.5 en in ChatGPT-4. Wat stelden de onderzoekers vast? In 66% van de gevallen dachten de gebruikers bij een echt persoon terecht dat ze met een mens aan het chatten waren. Bij ChatGPT-3.5 persona’s zat het percentage dat dacht dat ze met een mens aan het chatten waren, systematisch onder de 20%, maar bij GPT-4 liep dit percentage bij sommige persona's al op tot 50%. Dit laat al een sterke verbetering zien tussen GPT-versies, en geeft aan dat de LLM’s steeds beter in staat zijn om ‘mensachtig’ te reageren. Proefpersonen die meer voorkennis hadden over LLM’s waren overigens beter in het detecteren van mens versus machine dan proefpersonen met minder voorkennis. In een later artikel van dezelfde auteurs, dat nog in preprint is (Jones & Bergen, 2025) werden LLM’s getraind met prompts om mensachtige antwoorden te geven. De resultaten hiervan laten zien dat de proefpersonen deze LLM’s zelfs vaker als mens aanduidden dan als ze met echte mensen aan het chatten waren.
We hebben als mens snel de neiging om LLM’s een zekere mate van intelligentie toe te dichten, maar de vraag is of die intelligentie niet eigenlijk komt van de mens die met de LLM interacteert. Sejnowski (2023) stelt dat wanneer we een interactie tussen een mens en een LLM observeren, we eigenlijk meer de intelligentie van de mens aan het bekijken zijn, en de vragen die die persoon stelt als prompts aan de LLM. Dat zien we eigenlijk ook in de studies van Jones en Bergen. De LLM’s werken op basis van prompts van de onderzoekers. Sejnowski heeft het over een soort spiegeleffect, een omgekeerde Turingtest. Het feit dat voorkennis in de hiervoor aangehaalde studie een belangrijke rol speelt, ondersteunt deze observatie.
Doordat LLM’s inmiddels zo goed zijn geworden, ziet men in het onderwijs vele mogelijkheden. Het is potentieel een middel om het onderwijs te ondersteunen (zie Kasneci et al., 2023). Daar willen we dieper op ingaan. We bespreken in dit artikel drie mogelijke toepassingen: ondersteuning bij begrijpend lezen, het vreemdetalenonderwijs, en nakijkhulp (feedback). Daarna bespreken we in hoeverre AI kansengelijkheid beïnvloedt, waarna we het artikel afsluiten met een conclusie.
Voordat we naar het onderwijs gaan, nemen we echter allereerst de tijd voor een uitleg van wat LLM’s precies zijn. Dat is nodig om de voor- en nadelen van generatieve AI beter te kunnen duiden.
LLM’s leren taal anders dan mensen
LLM’s zijn AI-systemen die mensachtige tekst genereren met behulp van deep learning-architecturen. Ze gebruiken daarvoor zogenaamde transformer-modellen (Vaswami et al., 2017). ChatGPT is hier het bekendste voorbeeld van. Om mensachtige tekst te kunnen genereren, worden woorden opgesplitst in kleinere componenten (tokens). De computer leert vervolgens welke tokens statistisch gezien het meest waarschijnlijk na de vorige zullen volgen. Er is dus een beginnetje nodig om het volgende token te voorspellen. In chatbots die gebruik maken van LLM’s, zoals ChatGPT, krijgt het model nadat de gebruiker het ‘gesprek’ geopend heeft met bijvoorbeeld ‘hallo!’ een prompt. Na dit beginnetje kan de LLM de volgende tokens voorspellen.
De afkorting GPT in ChatGPT staat voor generative pre-trained transformer. Het trainen van een LLM begint namelijk met pretraining in diverse tekstcorpora zoals boeken en websites. Zo kunnen modellen taalpatronen en grammatica leren. Via verfijning wordt het model vervolgens afgestemd op specifieke taken, zoals vertalen of samenvatten. Vervolgens wordt dat model verder versterkt met behulp van menselijke feedback (zie Alammar & Grootendorst, 2024).
Ondanks hun geavanceerde prestaties verschillen LLM’s fundamenteel van de menselijke cognitie. Hoewel statistisch leren ook deel uitmaakt van het menselijke taalleren (Romberg & Saffran, 2010), ontwikkelen mensen taalbegrip door belichaamde ervaringen en semantisch begrip. Een kind leert wat ‘hond’ betekent via de interactie met verschillende honden. Het aait een hond, hoort een hond blaffen, en leert dat niet elke hond ‘Takkie’ heet. De hierboven genoemde tokens zijn niet betekenisvol, in tegenstelling tot bijvoorbeeld morfemen die wel betekenis dragen. Zo maakt het morfeem ‘je’ een betekenisvol onderscheid tussen ‘hond’ en ‘hondje’. LLM’s werken op basis van statistische patronen uit trainingsgegevens. Hierdoor zijn de causale redeneer- en contextuele aanpassingsmogelijkheden van LLM’s beperkt. Een LLM kan geen causale verbanden leggen, niet reflecteren op het eigen ‘denken’ en het kan een probleem niet in een bepaalde context plaatsen. LLM’s blinken uit in patroonherkenning en tekstgeneratie; precies zoals de AI-systemen die zo goed kunnen schaken. Hun ‘talen’ en reacties zijn vaak overtuigend, maar komen voort uit op waarschijnlijkheid gebaseerde patroonvergelijkingen en niet uit echt begrip.
AI in het onderwijs: begrijpend lezen
Het onderwijs kijkt reeds volop naar manieren om het begrijpend lezen te ondersteunen met AI, al zijn er nog geen direct concrete toepassingen onderzocht. Huang et al. (2023) geven enkele voorbeelden voor de toepassing van LLM’s in leesonderwijs. Zo kan een LLM, als het systeem weet om welke tekst het gaat, voorkennis activeren door specifieke vragen te stellen, nieuwe of moeilijke woorden helpen aanleren, de tekst vereenvoudigen of vragen bij de tekst genereren. Er zijn verschillende onderzoeken gedaan die suggereren dat dergelijke toepassingen succesvol zouden zijn, al zijn deze (nog) niet met hulp van AI uitgevoerd.
Proctor et al. (2011) lieten bijvoorbeeld effecten zien van een digitale interventie voor meertalige leerlingen. Die mochten hun beide talen gebruiken om digitaal teksten te lezen en te begrijpen. Ook konden studenten bijvoorbeeld op een Engels woord klikken. Ze kregen dan de Spaanse vertaling te horen, maar ook een uitleg over overeenkomsten en verschillen met het Engelse woord, en een afbeelding. In dit geval was het allemaal vooraf door mensen geprogrammeerd, maar iets dergelijks kan ook gegenereerd worden met AI. In de interventie met digitale ondersteuning, die zestien weken duurde, werden sterke effecten voor woordenschatverwerving gevonden. Doordat het systeem niet werkte op basis van AI, is een dergelijke toepassing erg arbeidsintensief voor een leraar. Met de huidige kracht van LLM’s zou het echter goed mogelijk moeten zijn om dit te automatiseren met behulp van AI.
Een tweede voorbeeld is het vereenvoudigen van teksten. Men kan eenvoudig een LLM prompten om een tekst geschikt te maken voor bijvoorbeeld een kind van acht jaar. Toch is dit complexer dan het lijkt, want wat er exact moet worden aangepast in de tekst weten we niet precies. Zo lieten Ulijn en Strother in 1990 al zien dat een syntactische vereenvoudiging van een tekst geen effect had op het begrip ervan. Arfé en collega’s (2018) stellen daarom voor om te zoeken naar manieren om de tekststructuur te verduidelijken. Of dat vervolgens ook een positief effect heeft, is nog niet bekend. Ook deze vormen van ondersteuning zijn tot dusver nog niet met AI gegenereerd, maar wel mogelijk, terwijl ze zonder AI erg/te arbeidsintensief zijn.
Een ander voorbeeld, tot slot, waarbij de leerling wel gesteund wordt met AI om een betere lezer te worden is het iSTART-project. iSTART staat voor interactive Strategy Training for Active Reading and Thinking (McNamara et al., 2023). Met behulp van AI wordt de lezer ondersteund in het proces doordat de lezer gevraagd wordt een korte samenvatting te geven van wat zojuist is gelezen en daar feedback op krijgt.
Vreemde talen onderwijzen met AI
LLM’s zijn behoorlijk goed geworden in vertalen. Een voorbeeld hiervan is DeepL. Dit zou de vraag kunnen oproepen waarom leerlingen op school nog een vreemde taal zouden moeten leren. Taalverwerving behelst echter meer dan in staat zijn om te vertalen. Dewaele (2024) waarschuwt dat leerlingen, vooral beginners, snel hun motivatie verliezen wanneer technologie het leren overneemt. Zelf een taal leren heeft ook te maken met culturele nuances en authentieke interactie die AI niet biedt. Bijvoorbeeld, wanneer zeg je ‘doei’, wanneer ‘houdoe’ en wanneer ‘tot ziens’? Hamilton et al. (2023) benadrukken dan ook dat te veel vertrouwen op AI tot ‘de-skilling’ kan leiden, waarbij beginners te weinig taalvaardigheid ontwikkelen. Vreemde talen leren blijft ook in tijden van AI essentieel om zelfstandig en kritisch te kunnen communiceren.
In een reviewstudie laten Ji et al. (2023) de mogelijkheden van LLM’s zien in vreemdetalenonderwijs, specifiek gericht op de mogelijkheden van interactie tussen leerlingen en systeem. Slechts een heel klein deel van het onderzoek dat ze bespraken in hun review vond plaats in het basis- of voorgezet/secundair onderwijs. Uitdagingen zaten vooral in het feit dat een gesprek kan stokken door misinterpretatie of antwoorden die niet aansluiten bij het onderwerp. Dit was vooral het geval bij beginnende tweede-taalleerders en zal dus zeker in het basis- en voortgezet/secundair onderwijs een uitdaging zijn. We zien ook hier weer het belang van voorkennis. Ook waarschuwen de auteurs ervoor dat een systeem niet kan aansluiten bij de emotionele behoeftes van een leerder. Bovendien dreigen leerders hun interesse in het communiceren met een chatbot te verliezen zodra de nieuwigheid ervan af is.
Tot slot heeft AI de potentie om de didactiek van taalonderwijs te veranderen. Bij schrijfopdrachten kan AI een eerste versie voor een leerling genereren of feedback geven in plaats van de leraar. Voor spreekvaardigheid bieden AI-chatbots extra oefenkansen (bijvoorbeeld uitspraakfeedback), al blijft echte interactie onmisbaar (Van den Branden, 2022). De rol van leraren zou hierdoor veranderen: ze begeleiden leerlingen in het verstandig gebruiken van AI en bewaken motivatie én autonomie tijdens het leren (Dewaele, 2024).
Werk nakijken met LLM’s
Nakijken met behulp van (of helemaal door) AI wordt al decennialang wetenschappelijk onderzocht. Eerder baseerden deze nakijktechnieken zich nog vooral op Natural Language Processing (Bai, 2022; Burrows, 2015). De komst van Deep Learning en LLM’s heeft echter een en ander in een stroomversnelling gebracht (Flodén, 2025; Haller, 2022).
In de meest simpele vorm van nakijkapplicaties wordt leerlingwerk in een chatachtige LLM geladen (bijvoorbeeld ChatGPT, Gemini, Perplexity) samen met het nakijkmodel en de nakijkrubrics. Daarna vraagt de leraar het systeem via een zorgvuldig opgestelde prompt het werk na te kijken. Iets meer gebruiksvriendelijk zijn de browser based tools die de leraar het prompten uit handen nemen, maar achter de schermen dezelfde werking hebben (bijvoorbeeld Nakijken.ai en ToetsTester). Daarnaast zijn er de meer wetenschappelijk onderbouwde applicaties met veelal eigen beoordelingsalgoritmen met een bijbehorende gebruikersapplicatie (bv. CheckMate van CitoLab, zie De Schipper et al., 2021). In tegenstelling tot de twee eerdergenoemde categorieën, die als meer ‘gebruiksklaar’ worden gepresenteerd, bevinden deze zich meer in de prototype-fase.
Kwaliteitsbeoordeling van al deze toepassingen lijkt ogenschijnlijk simpel. Hoe vaker een goed antwoord als ‘correct’ wordt beoordeeld, hoe beter de toepassing werkt. Maar beoordeling bij essays, werkstukken en open vragen is een stuk moeilijker, juist omdat er een zekere mate van subjectiviteit in zit. Alleen al bij de centrale eindexamens in Nederland zijn eerste en tweede correctie het lang niet altijd eens (Chamalaun et al., 2023). Hoe groter de na te kijken tekst, hoe groter de kans op subjectiviteit en fouten.
Daarnaast kan de AI, zonder dat de menselijke gebruiker zich daarvan bewust is, bepaalde groepen leerlingen onterecht achterstellen. AI-algoritmes zijn getraind op bestaande data. Als we het dan bijvoorbeeld hebben over werkstukken van leerlingen in het voortgezet/secundair onderwijs, dan kan het werk van leerlingen met Nederlands als tweede taal lastiger te beoordelen zijn voor een AI-model, simpelweg omdat hun taalgebruik afwijkt van het ‘gemiddelde Nederlands’ waarop de modellen getraind zijn. De Europese AI Act classificeert ‘het evalueren van leerresultaten van personen’ dan ook als hoog-risico AI-gebruik. Dit betekent dat organisaties die AI hiervoor inzetten aan allerlei verplichtingen moeten voldoen, zoals een risicomanagement-systeem en het opstellen van technische documentatie over de werking van het algoritme.
AI en ongelijkheid: een nieuwe discussie
De inzet van LLM’s in taalonderwijs lijkt veelbelovend: het biedt steeds meer mogelijkheden en de AI wordt steeds intelligenter. Door deze verhoogde intelligentie wordt het ook steeds meer gebruikt, wat weer bijdraagt aan verdere training van de modellen, die daardoor in toekomstige versies nóg intelligenter kunnen worden. Toch moeten de nadelen en risico’s van grootschalige inzet van LLM’s in het (taal)onderwijs niet onderschat worden. Daar waar het gaat over kansen(on)gelijkheid publiceerden zowel de Autoriteit Persoonsgegevens (2024) als het College voor de Rechten van de Mens (Smeets et al., 2024) in 2024 een rapport waarin zij hun zorgen uitten over het gebrek aan kennis van de onderliggende algoritmes en daarmee van de effecten van toepassingen als ChatGPT in het onderwijs.
De digital divide theorie (Van Dijk, 2020) biedt een nuttig raamwerk om te kijken naar deze mogelijke risico’s. In deze theorie worden drie niveaus van ongelijkheid onderscheiden:
-
ongelijkheid in toegang tot technologie, zoals (de betaalde versie van) ChatGPT);
-
ongelijkheid in de vaardigheid van individuen om te weten hoe gebruik te maken van de technologie (zoals het geven van de juiste prompts);
-
ongelijkheid in hoeveel voordeel iemand kan halen uit het gebruik van technologieën zoals LLM’s.
Met name op het tweede en derde niveau is het (grootschalig) gebruik van LLM’s in het onderwijs een mogelijk risico, zeker als er niet goed wordt nagedacht over waarom en hoe LLM’s worden ingezet (los van de vooroordelen die er in dit soort modellen zelf terug te vinden zijn, zoals eerder beschreven).
Naast deze meer theoretische (en mogelijk ethische) bezwaren met betrekking tot ongelijkheid zijn er ook praktische nadelen te noemen bij het gebruik van LLM’s in het (taal)onderwijs. Een nadeel van het gebruik van LLM’s bij het nakijken van toetsen, is bijvoorbeeld dat het corrigeren van het werk van leerlingen ook ‘feedback’ is voor de leraar. Het geeft inzicht in wat iedere leerling geleerd heeft en voor welke leerdoelen nog aandacht nodig is. Als het nakijken (deels) uit handen wordt genomen, is het belangrijk vooraf goed na te denken hoe men dit feedbackmechanisme wil (blijven) organiseren. Op het eerste gezicht lijkt nakijken bij uitstek iets waar AI geschikt voor zou zijn. Bij nader inzoomen lijkt ook hier gedegen onderzoek noodzakelijk om tot goede tools te komen.
Conclusie: wie wordt slimmer met AI?
We hebben in deze bijdrage mogelijkheden van LLM’s in het taalonderwijs verkend. Het onderwijs zal niet om AI heen kunnen, omdat het onderwijs leerlingen moet voorbereiden op deelname aan de maatschappij. Echter, het is cruciaal om een goede pedagogisch-didactische inbedding te realiseren (zie ook Topali et al., 2025). Voor onderzoekers is veel werk te verzetten om te onderzoeken hoe AI het onderwijs kan versterken, en wat de specifieke meerwaarde van AI is. Het feit dat iets kan met AI, wil niet zeggen dat het een leerling verder helpt. De grote -en vooralsnog nauwelijks beantwoorde- vraag is of betere prestaties met behulp van AI ook kunnen leiden tot een hoger niveau wanneer de AI niet beschikbaar is. Met andere woorden, het is nog onduidelijk of we slimmer worden door het gebruik van AI, of dat we AI het werk laten doen, en zelf minder leren en steeds minder kunnen.
Noot
1 Een ‘persona’ is een gedetailleerde, fictieve beschrijving van een representatieve gebruiker van een product of dienst
Literatuur
Alammar, J., & Grootendorst, M. (2024). Hands-on large language models: language understanding and generation.
Autoriteit Persoonsgegevens. (2024). Sectorbeeld Onderwijs 2021-2023. https://www.autoriteitpersoonsgegevens.nl/documenten/sectorbeeld-onderwijs-2021-2023
Bai X, Stede M. A Survey of Current Machine Learning Approaches to Student Free-Text Evaluation for Intelligent Tutoring. Int J Artif Intell Educ. 2022 Nov 28:1-39. doi: 10.1007/s40593-022-00323-0. Epub ahead of print. PMID: 36467629; PMCID: PMC9707071
Burrows S, Gurevych I, Stein B. The eras and trends of automatic short answer grading. Int J Artif Intell Educ. 2015;25:60–117. doi: 10.1007/s40593-014-0026-8
Chamalaun, R., De Mulder, I., & Robben, T. (2023). Een andere blik op de correctie bij het examen Nederlands havo en vwo. Levende Talen Magazine, 110(2), 30-33.
Dewaele, K. (2024). De impact van Artificiële Intelligentie op het vreemdetaalonderwijs: Enkele gedachten op een rijtje. Education & Development, UCLL.
Flodén, J. (2025). Grading exams using large language models: A comparison between human and AI grading of exams in higher education using ChatGPT. British Educational Research Journal, 51, 201–224. https://doi.org/10.1002/berj.4069
Haller, Stefan & Aldea, Adina & Seifert, Christin & Strisciuglio, Nicola. (2022). Survey on Automated Short Answer Grading with Deep Learning: from Word Embeddings to Transformers
Hamilton, A., Wiliam, D., & Hattie, J. (2023). The future of AI in education: 13 things we can do to minimize the damage (Working paper).
Huang, B., Dou, J., & Zhao, H. (2023). Reading bots: The implication of deep learning on guided reading. Frontiers in Psychology, 14, 980523.
Ji, H., Han, I., & Ko, Y. (2023). A systematic review of conversational AI in language education: Focusing on the collaboration with human teachers. Journal of Research on Technology in Education, 55(1), 48-63.
Jones, C., & Bergen, B. (2024, June). Does GPT-4 pass the Turing test?. In Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers) (pp. 5183-5210).
Jones, C. R., & Bergen, B. K. (2025). Large language models pass the turing test. arXiv preprint arXiv:2503.23674.
Kasneci, E., Seßler, K., Küchemann, S., Bannert, M., Dementieva, D., Fischer, F., & Kasneci, G. (2023). ChatGPT for good? On opportunities and challenges of large language models for education. Learning and individual differences, 103, 102274.
McNamara, D. S., Arner, T., Butterfuss, R., Fang, Y., Watanabe, M., Newton, N., ... & Roscoe, R. D. (2023). iSTART: Adaptive comprehension strategy training and stealth literacy assessment. International Journal of Human–Computer Interaction, 39(11), 2239-2252.
Proctor, C. P., Dalton, B., Uccelli, P., Biancarosa, G., Mo, E., Snow, C., & Neugebauer, S. (2011). Improving comprehension online: Effects of deep vocabulary instruction with bilingual and monolingual fifth graders. Reading and Writing, 24, 517-544.
Romberg, A. R., & Saffran, J. R. (2010). Statistical learning and language acquisition. Wiley Interdisciplinary Reviews: Cognitive Science, 1(6), 906-914.
Topali, P., Haelermans, C., Molenaar, I., & Segers, E. (in press). Pedagogical considerations in the Automation era: A systematic literature review of AIED in K-12 authentic settings. British Educational Research Journal.
Schipper, E. de, Feskens, R., & Keuning, J. (2021, March). Personalized and automated feedback in summative assessment using recommender systems. In Frontiers in Education (Vol. 6, p. 652070). Frontiers Media SA.
Sejnowski, T. J. (2023). Large language models and the reverse turing test. Neural computation, 35(3), 309-342.
Smeets, E., Geurts, R., & Van Helvoirt, D. (2024). Algoritmen in het onderwijs. College voor de Rechten van de Mens.
Van den Branden, K. (2022). How to teach an additional language: To task or not to task? Amsterdam: John Benjamins.
Van Dijk, J. A. G. M. (2020). The Digital Divide. Polity Press. https://research.utwente.nl/en/publications/the-digital-divide-2
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.
Vong, W. K., Wang, W., Orhan, A. E., & Lake, B. M. (2024). Grounded language acquisition through the eyes and ears of a single child. Science, 383(6682), 504-511.