Een interview met Prof. Dr Jaap Dronkers over de hoge CITO scores op islamitische scholen.
Waarom RTL de feiten verkeerd weergaf. En waarom een CITO toets bijna een IQ toets is.
Volg mij hier op Twitter.
Het kabinet wil de uitslagen van de CITO toetsen per school opkrikken en kwam daar gisteren mee naar buiten. Dat die gegevens überhaupt openbaar zijn, is nog maar kersvers. Het ging gepaard met veel commotie. Pas na een Wob procedure van RTL Nieuws gaf staatssecretaris Dekker de gegevens prijs. (PDF) Maar ook weer niet alle gegevens. Op 14 september zette RTL de gegevens op de website. Met een aantal conclusies die veel verbazing wekten. Het nieuws was:
Islamitische scholen scoren bovengemiddeld op Cito-toets
Juichend werd er bericht over de zegetocht van de islamitische scholen. Maar er was ook veel scepsis. Na net alle heisa op het Ibn Ghaldoen kwam dit plotselinge succes van de islamscholen merkwaardig, om niet te zeggen ongeloofwaardig over. Al snel werd opgemerkt dat RTL Nieuws had nagelaten te vermelden dat het niet ging om de absolute scores van de scholen, maar slechts om de toegevoegde waarde. A. Nanninga van GeenStijl veegde vervolgens de vloer aan met de onderzoeker Jaap Dronkers. Dronkers zou een ‘Islam bias’ hebben, oordeelde Nanninga. Nu waardeer ik A. Nanninga altijd zeer, maar Dronkers met een ‘Islam-bias’? Volgens mij was hier toch iets aparts aan de hand. Ik sprak Dronkers destijds uitvoerig voor mijn boek Het Immigratietaboe, en de uitspraken van deze hooggeplaatste onderwijssocioloog (zowel hoogleraar in Maastricht als verbonden bij het CPB als wetenschapper) kon ik toch echt heel moeilijk politiek correct noemen. Wat ik in zijn positie bepaald dapper vond. Dronkers had volgens mij allesbehalve een ‘Islam bias.’ Integendeel, hij was zeer geïnteresseerd in data waaruit de negatieve invloed van de islam op moslimleerlingen bleek. Hij was ook niet politiek correct in een ander opzicht: Mono etnische scholen doen het volgens Dronkers beter dan multi etnische scholen. Het ‘mengbeleid’ van de Nederlandse overheid heeft volgens hem dan ook geen positief effect op de onderwijsresultaten. Het gevolg was een wijziging in het beleid. Dronkers zei niet zomaar wat. Hij werkte met zeer uitvoerige databestanden.
Hoe kon dezelfde Dronkers dan achter een RTL onderzoek zitten waaruit bleek dat moslimscholen zo positief scoorden? Ik ging de berichtgeving eens beter onderzoeken. Dronkers en ik namen weer contact op en ik besloot tot een interview met hem om de echte feiten boven water te krijgen. Het is taaie materie, deze metingen. De essentie is dat Jaap Dronkers niet absolute verschillen presenteerde, maar relatieve, en om de cijfers van de verschillende scholen vergelijkbaar te maken, hanteerde hij methoden om de sociale verschillen als het ware te neutraliseren. zo kon hij duidelijk maken wat de relatieve bijdrage was van de scholen. En dat is nodig om deze scholen te beoordelen. Hij geeft in dit interview uitleg over deze complexe methoden. En zo wordt ook duidelijk dat er bij de vertaalslag van RTL, en zeker bij de berichtgeving daarna iets mis ging. Maar ook weer niet zo heel veel mis als ikzelf dacht, zegt Jaap Dronkers.
De weerslag van dit interview staat hieronder.
-In het bericht van RTL nieuws wordt het voorgesteld alsof de verschillende schoolsoorten sterk en in absolute zin van elkaar verschillen qua CITO toets.
Dronkers: ‘Wat sterk is, of niet sterk, is eerder een politieke, dan een wetenschappelijke maat. RTL heeft ook gelijk wanneer ze het hebben over ‘absolute zin.’ Want de scholen verschillen ook in absolute zin van elkaar, qua cito-scores. Ook al gaat het soms maar om een enkel CITO punt. Een punt is minder dan de standaard deviatie, dat op 3.820 punten ligt. (Een standaarddeviatie is een statistisch begrip. Het verwijst naar een standaardafwijking. JN) Dat lijkt misschien weinig, maar een punt maakt veel uit in bepaalde steden (Amsterdam), waarbij wordt gevochten om toegang tot bepaalde scholen. Het maakt ook veel uit bij de toelating tot een bepaald onderwijstype, bv havo of vwo. Een punt verschil kan maken dat een leerling in een andere type onderwijs terecht komt. Toetstechnisch heeft u wel gelijk, maar er is meer dan alleen toetstechniek. Maar hierover kan je lang twisten wat zwaarder weegt: de toetstechniek of het feitelijk gebruik.
-Laten we dat inderdaad maar niet doen. Maar dan lees ik uw toelichting (PDF), en dan zie ik dat het bij u toch om iets anders gaat dan om verschillen in absolute zin, zoals RTL stelt, namelijk om verschillen in de toegevoegde waarde. Over wat die waarde is, daarover schrijft u: “Toegevoegde waarde is dus de mate waarin de eindscore van een school afwijkt van de gemiddelde score van alle basisscholen met eenzelfde leerling-populatie.”
Dronkers: ‘Daar ligt inderdaad een verschil. De absolute score van vrijgemaakte reformatorische scholen is hoog. Maar hun toegevoegde waarde is laag. De absolute score van islamitische scholen is laag. Maar hun toegevoegde waarde is positief. Dus, zoals ik inderdaad schreef in de toelichting: Ze doen het beter dan je zou verwachten op basis van hun leerling populatie. Voor de beoordeling van een school moet je beide aspecten in beschouwing nemen: absolute scores en toegevoegde waarde.
-Maar ja, als ik dan kijk naar wat RTL hierover schrijft, dan zie ik toch weer iets anders staan, namelijk: “Islamitische basisscholen halen betere scores voor hun eindtoets dan het landelijk gemiddelde, blijkt uit onderzoek van RTL Nieuws in samenwerking met Jaap Dronkers van de Universiteit van Maastricht.”
Dronkers: ‘Dat is duidelijk te kort door de bocht van de koppensneller bij de RTL. Daar had moeten staan: ‘Islamitische basisscholen halen betere scores voor hun eindtoets dan andere scholen met vergelijkbare leerlingen.’ Maar verderop in dat bericht gebruikt de RTL toegevoegde waarde zoals je had moeten doen.
-Laat ik dan toch nog even verder gaan met de tekst die RTL naar buiten bracht, en waar het nieuws over ontstond aangaande het succes van de islamitische scholen: ‘De 43 islamitische basisscholen in Nederland die zijn onderzocht scoren samen een 7,6. Individueel scoren maar liefst negen scholen hoger dan een 8.’
Dronkers: ‘RTL heeft mijn toegevoegde waarde, uitgedrukt in plussen en minnen, omgerekend naar een 10-punts schaal, met een 7 als gemiddelde. Dat maken ze in het bericht wel duidelijk, maar lezers zullen dat snel vergeten en de uitkomsten fout lezen. Vanuit journalistiek oogpunt begrijp ik dit besluit van RTL, maar vanuit academisch oogpunt vind ik het niet verstandig. Maar een getal boven de 7 betekent dus bij de RTL een positieve toegevoegde waarde. Nogmaals op de RTL site wordt dat goed uitgelegd, maar je leest er te gemakkelijk overheen.’
-Ik ga nog even verder met de RTL tekst. ‘De Al Wafaschool in Amsterdam haalt de beste score.’…
Dronkers: ‘Dus niet de beste absolute score, maar de hoogste toegevoegde waarde!’
-Juist. Dan lees ik weer verder bij wat er op de RTL site staat: “De school krijgt van RTL Nieuws een 8,9. Het gemiddelde voor de Cito-toets op die school is 535,2.”
Dronkers: ‘Dat is dus hoog voor scholen met deze populatie, maar het is maar gemiddeld als je het vergelijkt met het gemiddelde van alle openbare scholen. Dat is 534,6, dus net iets boven de islamitische school met de hoogste absolute score. Overigens betekent dit ook dat er openbare scholen zijn die onder de absolute score van de Al Wafa school liggen’
-Duidelijk. Ik lees nog even verder bij RTL: “Vergelijkbare scholen scoren gemiddeld een 527,9. Islamitische scholen halen overigens niet de hoogste score van alle denominaties. Die eer is weggelegd voor Algemeen Bijzondere scholen. Dat zijn scholen die neutraal zijn wat levensovertuiging betreft, maar niet onder de overheid vallen. Deze 311 scholen scoren een 8,3.”
Dronkers: ‘Aan toegevoegde waarde.’
-Precies: Weer terug bij de RTL tekst: “De 70 antroposofische scholen (6,2) en de 112 Gereformeerd Vrijgemaakte scholen (6,0) scoren juist iets lager dan het gemiddelde.”
Dronkers: ‘In toegevoegde waarde.’
-RTL maakte er een soort wedstrijd van in hun presentatie. Vindt u dat wel terecht, gezien het feit dat die toegevoegde waarden toch ook weer niet zo enorm zijn?
Dronkers: ‘Ja. Om twee redenen: Ten eerste meten de absolute scores een flink stuk leerlingenkenmerken, en dus geen schoolkwaliteit. Het bevorderen van het gebruik van toegevoegde waarden in plaats van absolute scores is dus belangrijk voor de juiste beoordeling van de kwaliteit van scholen en het voorkomen van strenge entreeselecties. Die worden als het ware door de berekening van de toegevoegde waarde ‘afgestraft.’ En ten tweede kan één punt wel degelijk verschil uitmaken in twijfelgevallen, Het kan het verschil zijn tussen een HAVO of een VWO advies, en bij de toegang tot een gewenste school.
-Ik krijg de indruk dat u toch de opleiding van de ouders een belangrijkere factor vindt dan de kwaliteit van de leerkracht, als het gaat om het succes van een leerling te bepalen. Althans, zoiets vond ik terug in een artikel van u over de islamitische scholen. (PDF) Daarin schrijft u: “Een belangrijke oorzaak van het slecht presteren van scholen is het lage opleidingsniveau van de ouders van de leerlingen. Dat opleidingsniveau is veel belangrijker dan het percentage autochtone leerlingen.” En ook: “Een andere belangrijke oorzaak van het slecht presteren van scholen is de kwaliteit van leerkrachten, die vaak lager is op scholen met een laag ouderlijk opleidingsniveau. Als gevolg daarvan kunnen scholen met veel leerlingen met laaggeschoolde ouders veel moeilijker voldoen aan de minimumeisen.”
Dronkers: ‘Ja, het ouderlijk milieu van leerlingen en met name de ouderlijke opleiding is belangrijker dan de schoolkenmerken. Maar dat wil nog niet zeggen dat de verschillen in schoolkenmerken irrelevant zijn. Een analogie: Voor het voorkomen van letsel bij auto ongelukken is de rijstijl van het bestuurder het allerbelangrijkst, maar dat wil niet zeggen dat de autoriemen en de kwaliteit van de auto irrelevant zijn.’
-Om een correctie toe te passen op de CITO uitslagen van een school, rekent u de achtergrond van de leerlingen mee. Kunt u me uitleggen waarom deze achtergrond van belang is als het gaat om de toegevoegde waarde van de school? Wordt het niveau van de school belangrijker als de achtergrond van de leerling ‘lager’ is?
Dronkers: ‘Nee, de rekenwijze is het zelfde, ongeacht het niveau van de leerlingen. Het betekent dat een school, met academisch geschoolde ouders met een CITO toets vijf punten hoger dan verwacht dezelfde positieve toegevoegde waarde heeft als een school met alleen laaggeschoolde ouders die vijf punten hoger scoort dan verwacht. Het betekent ook dat die punten voor alle scholen op dezelfde wijze worden berekend’
-Om de etnische herkomst van scholieren te bepalen maakte u gebruik van een bestand van het ministerie van onderwijs. Sinds 2010 wordt het niet mee bijgehouden. Is dat geen bezwaar? Wat is trouwens de reden dat het ministerie deze gegevens niet meer verzamelt?
Dronkers: ‘Ja, dat geeft nu al problemen en op de lange termijn kan dit dus zo niet meer. Dat is ernstig, want het land van herkomst heeft gevolgen voor onderwijsprestaties, ook als ik rekening houd met de sociale achtergrond van de ouders. Om deze herkomst gegevens nu toch nog te kunnen gebruiken hebben wij dit jaar alle basisschoolleerlingen gebruikt bij de berekening van deze percentages. Dat is stabieler. Het grootste deel van deze leerlingen zijn nog op die basisschool van 2012. Het ministerie van OC&W heeft in 2011 een convenant gesloten met ‘het veld’ (dat is de PO Raad) om dit soort gegevens niet meer centraal te verzamelen. Mijn indruk is dat men het verzamelen van onwelgevallige informatie wil tegen gaan. Daar schreef ik al eens eerder over. (PDF)
-Kijk ik naar uw toelichting, dan hecht u zelf waarde aan twee metingen van sociale achtergrond: Opleiding van de ouders en postcode van de school. Gebruikte u beide meetsoorten als een correctie op elkaar? Hier wordt het misschien een beetje technisch.
Dronkers: ‘Inderdaad. Ik gebruik alle drie tegelijkertijd, ook omdat de beschikbare onderwijskenmerken (de zgn. Leerling gewichten) alleen meten of er sprake is van laag of zeer laag geschoold. Daardoor worden de verschillen tussen de hogere klassen onvoldoende met alleen deze beschikbare onderwijskenmerken gemeten en heb ik de status gebaseerd op postcode van de leerlingen (niet van de school!) nodig.’ Dit status meet ook het percentage hooggeschoolde ouders of het aandeel verdieners boven tweemaal modaal in de postcodes.
-Dan over de islamitische scholen. In een eerder artikel (PDF) stelt u: ‘De gemiddelde toegevoegde waarde van islamitische scholen is, net als die van andere religieus geïnspireerde scholen, hoger dan die van vergelijkbare openbare scholen.’ En dat blijkt ook de uitslag van dit onderzoek dat door RTL naar buiten werd gebracht. Alleen de bijzonder neutrale scholen doen het wat betreft toegevoegde waarde nog beter. De verschillen tussen de islamitische scholen en de andere godsdienstig georiënteerde scholen lijken in het puntensysteem dat RTL hanteert groot. De vraag is dan hoe dat komt. Ik heb er wel een idee over. Katholieke scholen zijn waarschijnlijk minder homogeen dan islamitische scholen. En u stelde al eerder vast dat cultureel en etnisch homogene scholen beter scoren dan Multi-etnische en multiculturele scholen. Bovendien is het natuurlijk nog maar de vraag wat er tegenwoordig ‘katholiek’ aan is. Maar dat zou dan weer niet de opvallend lage score van Gereformeerd Vrijgemaakte scholen verklaren.
Dronkers: ‘Dat zou ook mijn lijn van redeneren zijn. De uitkomst voor de vrijgemaakte scholen was voor mij een verrassing. Misschien hebben deze vrijgemaakte scholen geen goed zicht op de gemiddelde toegevoegde waarde van de andere witte scholen. Ze doen het dus wel aardig met hun absolute scores, maar niet ten opzichte van andere witte scholen met dezelfde leerlingensamenstelling. Wellicht omdat ze een andere test gebruiken dan de CITO toets, namelijk die van de SEO protestant-christelijke school- en begeleidingsdiensten (die ik zelf om heb gezet in quasi-CITO scores) hebben zij niet door gehad dat ze eigenlijk onderpresteren. Alle andere denominaties gebruiken in meerdere of mindere mate CITO, of iets verwants, en kunnen zich dus zelf vergelijken. Zelfs sommige Vrije Scholen gebruiken die.’
-Dan is er nog een groot probleem. Bij sommige scholen wordt de CITO toets maar door een beperkt percentage leerlingen gedaan. Als je dat niet corrigeert, zouden deze scholen het veel beter lijken te doen dan scholen waarbij alle leerlingen de CITO toets doen. U heeft zo’n correctiemethode toegepast via een formule. Het is voor niet ingewijden een ingewikkeld verhaal, maar zo formuleert u het zelf: “Wij hebben een OLS regressie berekend met het gemiddeld percentage deelnemers als onafhankelijke variabele en de gemiddelde eindtoets als afhankelijke variabele. Uit deze regressie blijkt dat scholen per 10% meer deelnemers 0.11 punt hoger scoren op hun eindtoets. Daarom hebben wij een ‘echte’ eindtoets berekend door de gemiddelde score op de eindtoets te verlagen met 0.011punten voor elk percentage niet-deelnemer. Deze ‘echte’ toets geeft dus de gemiddelde score op de eindtoets als alle leerlingen zouden deelnemen.”Dat is voor u dus de manier geworden om te meten wat je eigenlijk niet kunt meten, namelijk de resultaten van de leerlingen die geen toets deden. Maar nu kan ik me voorstellen dat de ene school om heel andere reden een laag percentage CITO toetsen heeft, per klas dan een andere. Sommige scholen zullen geneigd zijn om hun resultaten op te pimpen door alleen de beste leerlingen mee te laten doen. Andere scholen hebben misschien meer principes, en daar zullen alleen de leerlingen die zelf graag willen, meedoen. Kunnen deze motivatieverschillen niet wegvallen door uw regressiemethode?
Dronkers: ‘Daar heeft u helemaal gelijk in, maar de kenmerken van de niet-deelnemers heeft onze overheid niet vrijgegeven (al dan niet door juridisch verzet van de scholen). Er is namelijk wel een categorie leerling, waarbij volgens de inspectie het afnemen van een eindtoets niet verantwoord is, en die per school bekend is. Volgend jaar hoop ik dat RTL dat gegeven verwerft en dan ga ik die gebruiken door die af te trekken van het percentage niet-deelnemers. Uw voorbeeld is reëel, maar het is nu eenmaal onmogelijk om dit valide te meten, omdat scholen belang hebben bij die antwoorden. Overigens wil ik aan uw opmerking over het ‘oppimpen’ door de scholen wel relativerend toevoegen dat het natuurlijk gaat om de eigen keuze van de leerlingen.’
-Een kwestie die hier niet aan de orde kwam, maar wel op de achtergrond speelt, is die over het IQ. Er lijkt een goede reden om aan te nemen dat een CITO toets in de buurt komt van een IQ test.
Dronkers: ‘Inderdaad. De samenhang daartussen is groot.’
-Van in deze materie gespecialiseerde wetenschappers vernam ik dat er een correlatie zou zijn van .90. Dat noemt men dan ‘bijna perfect inwisselbaar.’
Dronkers: ‘Ik zou daar ook niet ver naast zitten met mijn schatting. Maar ik wil daar dan wel aan toevoegen dat het om ‘manifest IQ’ gaat, dat wil zeggen om het IQ dat je als twaalfjarige hebt ontwikkeld vanaf je conceptie, dan wel gekregen als genen erfenis van je ouders.’
-Ik las interessant Amerikaans onderzoek, waarbij een schooltest voor Middelbare scholen, dus niet voor basisscholen, zoals bij de CITO test, naast IQ testen werd gelegd, en daarin kwam men tot de conclusie dat zo’n test, de SAT, goeddeels hetzelfde is als een meting van de zogeheten G-factor, wat, even kort door de bocht, de genetische, en best voorspellende factor is van IQ testen. Met andere woorden: Die schooltest meet gewoon je genenplaatje. Dat vond ik toch wel spectaculair. Ik begreep dat dit een inmiddels veel geciteerd en dus belangrijk onderzoek is. (PDF)
Dronkers: ‘Ja, dat de SAT in belangrijke mate manifest IQ meet, denk ik ook. Zo is er ook vergelijkend onderzoek van de internationale PISA scores naar schoolresultaten, waaruit blijkt dat het verschil tussen die onderwijsprestaties en het gemeten IQ groot is. . Maar het manifeste of gemeten IQ is niet hetzelfde als het “genenplaatje”, omdat wij pas IQ enigszins betrouwbaar kunnen meten vanaf het vierde levensjaar. Alles wat daarvoor gebeurt bij de ontwikkeling van IQ is een black box. Persoonlijk denk ik daarom dat dit onderzoek een doodlopende weg is. Om de genetische componenten van opleiding en IQ te meten, is er een nieuwe en meer belovende weg: De directe meting van de DNA structuur, en dit relateren aan uitkomsten als IQ en behaald onderwijsniveau. Daar zag ik onlangs interessante voorbeelden van. Het probleem is wel dat er zoveel genen en DNA combinaties een rol spelen bij IQ en opleiding dat de huidige computerkracht dat niet goed aan kan; teveel mogelijke combinaties.’