14.3.19

Oldřich Botlík: Opravené podklady pro tiskovou zprávu EDUinu

V podkladech pro tiskovou zprávu EDUinu vydanou dne 11. března 2019 s titulkem Analýza propadovosti – Hodnotitelé na školách dosahují stabilnějšího výsledku jsem se dopustil chyby, za kterou se čtenářům ještě jednou omlouvám. Spočívala v tom, že jsem hodnocení písemných prací z češtiny, které žáci psali v roce 2013 jako součást společné části maturitní zkoušky, zahrnul pod centrální hodnocení organizované Cermatem, ačkoli práce byly tehdy hodnoceny na školách. Zdrojová data jsem proto přepočítal. Jaké jsou tedy správné číselné výsledky téže jednoduché analýzy? Budou-li interpretovány stejně jako poprvé, co z původní tiskové zprávy už neplatí? A co naopak platí i nadále?

1. Počty hodnocení na školách a v Centru se změnily ze 3 a 3 na 4 a 2

Původně stejné počty se tedy změnily na nepoměr, v němž srovnávání přestalo být korektní. U čtyř hodnocení totiž existuje ze zřejmých důvodů více příležitostí, aby maximální výkyv mezi jejich výsledky byl větší než u hodnocení dvou – zde například kvůli třikrát delšímu časovému rozpětí.

2. Jaké jsou nové hodnoty maximálních výkyvů ve výsledcích hodnocení?

Největší výkyv propadovosti při hodnocení na školách je mezi začátkem a koncem čtyřletého období 2013–2016 a činí 0,86 procentního bodu. Rozdíl mezi oběma hodnotami propadovosti centrálního hodnocení za období 2017–2018 činí 0,50 procentního bodu. Po přepočtu velikosti těchto maximálních výkyvů na průměrný počet 66 693 žáků za sledované období 2013–2018 to znamená maximální výkyv 572 propadlíků při školním hodnocení a maximální výkyv 329 propadlíků při hodnocení centrálním.

3. Důsledky pro titulek tiskové zprávy

Čistě technicky z toho vyplývá, že informace „Hodnotitelé na školách dosahují stabilnějšího výsledku“ není pravdivá. Korektnější srovnání ovšem bude možné už po letošním jarním kole. Přál bych maturantům, aby naznačený „trend“ meziročního nárůstu propadovosti při centrálním hodnocení nepokračoval. Bude-li však pokračovat, informace „Hodnotitelé na školách dosahují stabilnějšího výsledku“ jako interpretace těchto jednoduchých dat už za dva měsíce zase pravdivá bude. Rozdíl v propadovosti za tři ročníky by totiž činil 1,00 procentního bodu, a byl by tedy větší než maximální výkyv 0,86 procentního bodu zjištěný u čtyř ročníků hodnocení na školách.

4. Důsledky pro argumentaci, že spory kvůli počtům propadlíků jsou absurdní

Zatímco původní rozdíl mezi počty propadlíků, které odpovídají maximálním výkyvům, činil 587 žáků, nyní činí pouze 243 žáků (572 – 329 = 243). Ukazuje se tedy, že zmíněné spory jsou z tohoto hlediska ještě výrazně absurdnější. Tento hlavní argument tiskové zprávy proto získal na síle.

5. Tatáž argumentace vyjádřená jinými slovy

Protože jsem z komentářů pod tiskovou zprávou nabyl dojmu, že některým diskutujícím unikla podstata argumentace, dovolím si ji vysvětlit podrobněji.

Pokud je mi známo, neexistují žádné veřejně dostupné informace o dvojím nezávislém hodnocení reprezentativních vzorků písemných prací, které by umožnily korektně srovnat výsledky práce hodnotitelů na školách s výsledky práce centrálních hodnotitelů. Provedení takových hodnocení jsem v minulosti několikrát navrhoval, ale marně. Ukazatele typu „počet propadlíků“, případně „počet podaných odvolání“ jsou totiž jen velmi dílčí (například odvolání může podat každý maturant – důležité je, kolika odvoláním je nakonec vyhověno a z jakých důvodů). Počty propadnuvších prvomaturantů jsou nicméně veřejně dostupné v souvislé časové řadě a – upřímně řečeno – hodně žáků zajímá hlavně to, aby nepropadli.

Na jediné mně známé dvojí hodnocení vzorku písemných prací, jež ovšem pokládám za nekorektní, se odvolávala důvodová zpráva k novele školského zákona, kterou se s účinností od jara 2017 vrátilo hodnocení písemných prací do Centra. Tisková zpráva citovala má slova, jimiž jsem použitý argument označil za zfalšovaný. Odkaz na důvody, které pro to mám, je uveden na konci. Z dnešního pohledu je pak možné dodat, že argument byl vyvrácen rovněž samotným návratem k centrálnímu hodnocení v roce 2017.

Tisková zpráva srovnávala rozdíl mezi maximálními výkyvy centrálního a školního hodnocení, který se zmenšil a po opravě činí pouhých 242 žáků. Centralisté volají po větším počtu propadlíků, který pokládají za přiměřenější úrovni některých písemných prací, s nimiž se při centrálním hodnocení setkávají. Absurditu sporů mezi centralisty a decentralisty spatřovala tisková zpráva v tom, že ve zdánlivě objektivním maturitním testu z češtiny jde o řádově větší výkyvy. Například v roce 2017 upravily dosud neznámé osoby bodování nejméně pěti uzavřených úloh. Podle tehdejšího ředitele Cermatu neexistují pro bodování úloh žádná pravidla. Cermat přitom zjevně nedodržuje ani zadání ministerstva školství, které požaduje meziročně srovnatelnou náročnost maturitního testu. Lze se o tom snadno přesvědčit v oficiálních analýzách výsledků maturitní zkoušky. Zmíněná úprava vedla ke změně v počtu propadlíků o 4 379 žáků. To je – po přepočtu na stejné počty maturujících žáků – dvacetkrát (!) více, než činí rozdíl ve výkyvech hodnocení písemných prací, o který se přou centralisté s decentralisty.

Za svými slovy citovanými na konci tiskové zprávy EDUinu z 11. března 2019 si proto i nadále stojím.


Odůvodnění, proč nebyla oficiální argumentace pro návrat k centrálnímu hodnocení korektní,
naleznete například ZDE.

Tisková zpráva tehdejšího ředitele Cermatu, v níž konstatoval, že pro bodování testových úloh neexistují žádná pravidla, byla zveřejněna ZDE.

Oficiální grafy trendů vývoje výsledků maturitních testů z češtiny jsou na straně 12 analytického materiálu uveřejněného ZDE.5 komentářů:

Vladimír Stanzel řekl(a)...

Myslím, že celý článek měl skončit hned po tomto konstatování v bodě 1.: "Původně stejné počty se tedy změnily na nepoměr, v němž srovnávání přestalo být korektní." To by naopak bylo jednoznačně korektní (a smysluplné).

Josef Soukal řekl(a)...

Protože se Oldřich Botlík nadále pokouší mást veřejnosti manipulativními tvrzeními a účelovým výběrem dat, znovu uvádím svůj komentář k původní zprávě:

Je těžké a lidsky nepříjemné reagovat na článek, v němž se suverénně tvrdí, že obhájci centrálního hodnocení cosi chtějí apod., aniž by to bylo podloženo čímkoli věcným, a který zamlčuje podstatné skutečnosti. V podstatě nejde o nic jiného než o snahu autora odvést pozornost od své vlastní motivace někoho a něco pošpinit. Stačí pohled do souhrnných výsledků maturitní zkoušky dostupných na stránkách Cermatu a snadno zjistíme, že ve skutečnosti centrální hodnocení především narovnává výraznou celkovou disproporci v hodnocení na různých typech škol. V zásadě platí, že čím mají žáci určitých typů škol celkově slabší výsledky, tím větší je snaha vylepšit tyto výsledky tam, kde je hodnocení právě v rukou škol. Údaje Cermatu - nejen ty o procentu úspěšných odvolání - a samotná organizace hodnocení (a revize hodnocení) dále ukazují, že centrální hodnocení mnohem účinněji chrání žáky před hodnocením nekvalitním. Některé doklady lze najít v Připomínkách ASČ k novele školského zákona.
Nejnovější maturitní výstupy O. Botlíka znovu ukazují, proč je nutné jakékoli jeho tvrzení přijímat s velkou rezervou. Bohužel právě takovéto manipulace dostávají mimořádný prostor v médiích a vytlačují skutečně věcnou a seriózní diskusi na maturitní téma.

Další komentář připojím později.

Jiri Janecek řekl(a)...

Bez shrnuti od Boba Kartouse to snad ani nema smysl cist...

Josef Soukal řekl(a)...

Ještě slíbený komentář:

1) V důvodové zprávě zmiňované O. Botlíkem se v příslušné pasáži nejprve píše o nárůstu „počtu písemných prací maturujících žáků, které byly učiteli z kmenových škol hodnoceny takovým nejnižším možným bodovým hodnocením, aby žák ještě u této dílčí zkoušky uspěl a nemusel zkoušku opakovat". Tento stav centrální hodnocení v r. 2017 zčásti, v r. 2018 téměř úplně napravilo.
Připojuji údaje vždy za jarní termín:
V r. 2016 udělili školní hodnotitelé 12 bodů ČTYŘICETKRÁT častěji než již "neúspěšných" 11 bodů a dvacetkrát častěji než 10 bodů, konkrétně (v procentech) 4 : 0,1, resp. 4 : 0,2.
V r. 2018 tento poměr činil 2,1 : 0,8, resp. 2,1 : 1,0;
Vzhledem k celkové křivce počtu prací podle udělených bodů by měl první z uvedených poměrů být asi 2,1 : 1,5; druhý poměr (2,1 : 1,0) je již standardní.

2) Důvodová zpráva pokračuje:
"Kontrolní komparační hodnocení vybraného vzorku písemných prací z ČJL hodnotiteli CZVV také ukazuje, že určitá část učitelů českého jazyka a literatury stále není při hodnocení prací schopna správně aplikovat jednotnou metodiku. (…)“
K tomu cituji z jiného svého komentáře:
"S prvním centrálním hodnocením se ukázalo, že část češtinářů vůbec nebrala metodiku vážně; tuším p. Feřtek si tenkrát posteskl, že část maturantů dokonce neví, co některá podkritéria znamenají (takže se s nimi evidentně ve škole nepracovalo).
Jiný příklad: Hned v prvním ročníku CH se strhla polemika o definici útvaru ZPRÁVA. Cermat respektoval vyjádření Ústavu pro jazyk český AV (jež zohlednilo publicistickou praxi, nikoli praxi výukovou) a jako vyhovující hodnotil i ty práce, které byly z hlediska školní výuky OZNÁMENÍM (vadná hodnocení v tomto podkritériu byla dána nedodržením metodiky některými hodnotiteli). Od té doby se situace nezměnila. Přesto se objevuje výrazná disproporce mezi hodnocením školním a centrálním - např. v r. 2015 školní hodnotitelé udělili v tomto podkritériu za zprávy ve 380 případech nula bodů (tudíž práce "neprošly"), v l. 2917 a 2018 centrální hodnotitelé udělili nulu dohromady ve dvou případech (…). Je pravděpodobné, že část školních hodnotitelů se závazného stanoviska ÚJČ nedržela."

3) Kontrolní komparační hodnocení se v celkových výsledcích výrazně odlišuje od celkových výsledků hodnocení v r. 2017 a v r. 2018 – právě kolem toho tančí O. Botlík svůj válečný tanec. Počet neúspěšných prací (v procentech) činil v r. 2016 1,4, v r. 2017 3,1 a v r. 2018 3,6. Prognóza možného více než pětinásobného zvýšení se tedy nepotvrdila; k výraznému zvýšení neúspěšnosti ovšem došlo.
Komparační hodnocení naopak velmi správně ukázalo, že u některých typů škol - zejména škol nejslabších - dochází k neuvěřitelnému zlepšování výsledků u písemné zkoušky; viz příslušné grafy v Připomínkách Asociace češtinářů k novele školského zákona.
Výsledky maturitní zkoušky V ÚHRNU ukazují, že až na výjimky platí úměra "čím horší celkové horší maturitní výsledky v určitém typu školy, tím lepší výkony v těch částech zkoušky, kde o hodnocení rozhodují učitelé". Centrální hodnocení tedy nerovnováhu hodnocení alespoň částečně vyrovnává;

ZÁVĚR: Pokud tedy v souvislosti s Botlíkovým článkem lze užít slova FALŠOVÁNÍ, tak pro BOTLÍKOVA MANIPULATIVNÍ TVRZENÍ A ÚČELOVÝ "VÝCUC" Z DŮVODOVÉ ZPRÁVY.Josef Soukal řekl(a)...

Co se týče podkritéria 1B, udělení nul za zprávu: Uvědomil jsem si, že přísnější hodnocení školních hodnotitelů neodpovídá obecné tendenci školního hodnocení (nejen písemných prací z češtiny), tedy vylepšování výsledků, zejména u typů škol s celkově slabými výsledky. Proto je moje argumentace v daném ohledu irelevantní.
Nuly za zprávu:
2013 - 31
2014 - 49
2015 - 347 (jde o nižší počet, než jsem uváděl - předchozí údaj zahrnoval i práce, které neprošly kvůli rozsahu; za omyl se omlouvám)
2016 - 8
2017 - 0
2018 - 2

Okomentovat