Nutzung von Schülerleistungsdaten aus Vergleichsarbeiten und zentralen Abschlussprüfungen für Unterrichtsentwicklung in Brandenburger Fachkonferenzen

Fragestellungen der Studie:

Inwieweit nutzen Fachkonferenzen zentrale Prüfungen und/oder Vergleichsarbeiten für Unterrichtsentwicklung?

Rezension zur Studie

Wurster, S. & Richter, D. (2016). Nutzung von Schülerleistungsdaten aus Vergleichsarbeiten und zentralen Abschlussprüfungen für Unterrichtsentwicklung in Brandenburger Fachkonferenzen. Journal for educational research online, 8(3), 159–183.FIS Bildung

Kommentierter Kurzbefund

Einerseits besteht die Befürchtung, dass Lehrkräfte ihren Unterricht zu einseitig auf Prüfungsanforderungen und -ergebnisse ausrichten, damit ihre Schülerinnen und Schüler optimale Prüfungsleistungen erzielen. Andererseits wird vermutet, dass diagnostische Informationen aus Vergleichsarbeiten kaum für die fachliche Unterrichtsentwicklung herangezogen werden, obwohl das ihr primärer Zweck ist. Wurster und Richter untersuchen daher, inwiefern Ergebnisse von Vergleichsarbeiten (VERA 8) und von zentralen Abschlussprüfungen (MSA) für die Unterrichtsentwicklung genutzt werden.

Im Einzelnen wird u. a. geprüft,
1. inwieweit Fachkonferenzen die Ergebnisse für Unterrichtsentwicklung nutzen,
2. ob es Unterschiede bei der Einschätzung und Nutzung beider Testverfahren gibt,
3. welche Bedingungen die Nutzung der Ergebnisse prädizieren.

Die Untersuchung wurde an weiterführenden Schulen in Brandenburg per Onlinebefragung der Fachkonferenzleitungen von 98 Fachkonferenzen der Fächer Deutsch und Mathematik durchgeführt.

Im Ergebnis werden Daten beider Verfahren in der Mehrzahl der Fachkonferenzen für die Weiterentwicklung von Aufgaben genutzt und datengestützte Unterrichtsentwicklung wird am häufigsten auf Grundlage beider Verfahren initiiert. Aufgrund der MSA-Ergebnisse werden jedoch häufiger Entwicklungsaktivitäten gestartet als aufgrund der VERA-Ergebnisse, erstere werden zudem als nützlicher wahrgenommen. Prädiktoren für die Nutzung der VERA-Ergebnisse sind die eingeschätzte Nützlichkeit sowie die Ausrichtung des Curriculums an den Bildungsstandards, die MSA-Ergebnisnutzung hingegen hängt primär mit dem Ausmaß kollegialer Unterrichtsentwicklung zusammen.

Die Aussagekraft der Ergebnisse ist begrenzt, da Onlinebefragungen leicht zu verfälschen sind und der Rücklauf nur bei 30 % lag. Jedoch bestätigen die Ergebnisse die Vermutung, dass Vergleichsarbeiten nicht immer wie vorgesehen genutzt werden, da sie eher als vorgeschriebene Notwendigkeit wahrgenommen und durchgeführt, aber nicht als Hilfestellung für Unterrichtsentwicklung gesehen werden. Hier besteht demnach ein deutlicher Schulungs- und Klärungsbedarf.

Reflexionsfragen für die Praxis

Nachfolgende Reflexionsfragen sind ein Angebot, die Befunde der rezensierten Studie auf das eigene Handeln als Lehrkraft oder Schulleitungsmitglied zu beziehen und zu überlegen, inwiefern sich Anregungen für die eigene Handlungspraxis ergeben. Die Befunde der rezensierten Studien sind nicht immer generalisierbar, was z. B. in einer begrenzten Stichprobe begründet ist. Aber auch in diesen Fällen können die Ergebnisse interessante Hinweise liefern, um über die eigene pädagogische und schulentwicklerische Praxis zu reflektieren.

Reflexionsfragen für Lehrkräfte:

Ist mir die Funktion von Vergleichsarbeiten, die in meiner Schule durchgeführt werden, bewusst oder benötige ich diesbezüglich genauere Informationen, um den Gesamtzusammenhang besser zu verstehen? Bin ich mit den Bildungsstandards als Grundlage der für mich geltenden Lehrpläne vertraut und weiß ich, mit welchem Ziel diese konzipiert worden sind? Wie gelange ich an diese Informationen? Benötige ich eine Fortbildung, in der mir diese Zusammenhänge deutlich gemacht werden?
Wie werden in meiner Fachschaft an meiner Schule die Daten aus Vergleichsarbeiten und zentralen Abschlussprüfungen verarbeitet? Findet eine ausgiebige Reflexion statt, die als Ausgangspunkt für Unterrichtsentwicklung genutzt wird? Handelt es sich bei ergriffenen Maßnahmen lediglich um Veränderungen der Aufgaben, die im Unterricht bearbeitet werden, bzw. um die Erstellung neuer, denen derTestverfahren angeglichenen Aufgaben oder betreiben wir echte Unterrichtsentwicklung, indem wir einerseits über unsere Methoden und Materialien nachdenken und diese ggf. verändern und andererseits unsere Kompetenzen prüfen und erweitern, mit dem Ziel, die Leistung unserer Schülerinnen und Schüler zu verbessern? Haben wir als Fachschaft einen diesbezüglichen Fortbildungsbedarf?
Wie kommuniziere ich als Lehrkraft die Sinnhaftigkeit der Vergleichsarbeiten? Lasse ich meine Schülerinnen und Schüler spüren, dass ich selbst den Sinn nicht einsehe, sondern diese Zusatzarbeit als Belastung empfinde? Wie kann ich den Schülerinnen und Schülern die Funktion dieses Instruments so verdeutlichen, dass sie auch von der Schülerschaft positiv angenommen werden?

Reflexionsfragen für Schulleitungen:

Hintergrund

Vergleichsarbeiten (VERA) sind ein Element der „Gesamtstrategie der Kultusministerkonferenz zum Bildungsmonitoring“, die – nach der empirischen Wende 1997 - im Jahre 2006 verabschiedet und im Jahr 2015 überarbeitet wurde und deren grundlegendes Ziel die Steigerung und Sicherung der Bildungsqualität im deutschen Schulsystem ist.

Bundesweit einheitliche VERA werden seit dem Schuljahr 2007/8 in der 3. Grundschulklasse als VERA 3, seit dem Schuljahr 2008/9 in der 8. Klasse der weiterführenden Schulen als VERA 8 durchgeführt, wobei die Bezeichnungen und die Durchführungsmodalitäten teilweise länderspezifisch variieren.

Entwickelt werden diese Vergleichsarbeiten vom IQB, dem Institut zur Qualitätsentwicklung im Bildungswesen in Berlin. Die Auswertung der Ergebnisse, die diese Lernstandserhebungen liefern, erfolgt sowohl innerhalb des Systems einer Schule als auch auf Landesebene. Schulen erhalten auf diese Weise klassenbezogene diagnostische Informationen über die Leistungen ihrer Schülerinnen und Schüler, die sie vor dem Hintergrund der nationalen Bildungsstandards und der landesweiten Ergebnisse interpretieren können.

Das Erreichen des mittleren Schulabschlusses nach der 10. Klasse einer weiterführenden Schule (MSA) ist seit dem Schuljahr 2008/9 in allen Bundesländern außer Rheinland-Pfalz an zentrale Prüfungen (ZP) gebunden. Auch diese werden als vergleichendes Messverfahren für die Erreichung festgelegter Bildungsstandards (Rahmenlehrpläne, in NRW: Kernlehrpläne) verstanden.

Bedeutung der Fachkonferenzen im Kontext von Lernstandserhebungen
Da Schülerleistungsdaten immer bezogen auf ein bestimmtes Fach und die darin zu erreichenden Kompetenzen erhoben und auch nur in dem Bezugsrahmen verglichen werden können, kommt innerhalb des Systems Schule der Fachkonferenz eine entscheidende Rolle für die aus- und weiterführende Verwertung der Daten zu. Auch qua Schulgesetz (hier: Brandenburgisches Schulgesetz; in dieser oder ähnlicher Form jedoch in den Schulgesetzen aller Bundesländer zu finden) werden der Fachkonferenz Qualitätsentwicklungs- und -sicherungsaufgaben zugewiesen.

Datengestützter Entwicklungskreislauf und Einflussfaktoren (SPFS- und Zyklenmodell)
Wurster und Richter verweisen bezüglich des Prozesses der Datenauswertung (auch und vor allem in Fachkonferenzen) auf einen von der KMK modellhaft beschriebenen datengestützten Entwicklungskreislauf: „1. Überprüfung des Lernstands (z. B. VERA), 2. Auswertung der Ergebnisse in den Fachgruppen, 3. Austausch über mögliche Ursachen unter den Lehrkräften, 4. Gemeinsame Festlegung von Zielen und Maßnahmen, 5. Umsetzung der Maßnahmen im Unterricht“ (vgl. Konzeption der KMK zur Nutzung der Bildungsstandards 2010, S. 19).

Die Autoren der Studie rekurrieren weiterhin auf verschiedene Modelle, die unterschiedliche Einflussfaktoren auf diesen Prozess hervorheben, zunächst um Vergleichskriterien zwischen den Verfahren VERA und ZP-MSA zu ermitteln und darüber hinaus, um zu fundierten Items für ihren Fragebogen zu gelangen. Genannt seien hier das SPFS-Modell (School Performance Feedback Systems) von Visscher und Coe (2003) sowie das Zyklen-Modell von Helmke (2004, überarbeitet von Hosenfeldt & Groß Ophoff, 2007).

Vergleich von VERA und ZP-MSA anhand des SPFS-Modells
Wurster und Richter vergleichen zunächst die beiden Testverfahren in Bezug auf die Bereiche Schulsystemkontext, Merkmale des Testsystems und Merkmale der Implementation, die sie dem SPFS-Modell entnehmen.

Der Vergleich ergibt wenige Gemeinsamkeiten und viele Unterschiede:
Innerhalb des Schulsystemkontextes zeigt sich ein zentraler Unterschied hinsichtlich der primären Funktion beider Verfahren: Während VERA eine diagnostische Funktion haben und die Ergebnisse der Unterrichtsentwicklung dienen sollen, haben die ZP-MSA eine selektive Funktion und dienen der Zertifizierung von Leistungen. Die ZP-MSA haben entsprechend für die Prüflinge eine wesentlich größere Bedeutung (high stakes) als VERA (low stakes). Für beide Verfahren besteht eine Rechenschaftspflicht gegenüber Schulen, Lehrkräften und bildungspolitisch Verantwortlichen, bei den ZP-MSA besteht diese jedoch auch gegenüber der teilnehmenden Schülerschaft (s. o.).

Gemeinsam ist beiden Verfahren hinsichtlich der Merkmale des Testsystems, dass sie zu festgelegten Zeitpunkten (Ende der 8. bzw. der 10. Klasse) den Leistungsstand in den Fächern Deutsch, Mathematik und 1. Fremdsprache (VERA, meist Englisch) bzw. Englisch (ZP-MSA, weitere Fächer freiwillig wählbar) basierend auf bestimmten Bezugsrahmen (VERA: Bildungsstandards, ZP-MSA: Lehrpläne, die an Bildungsstandards ausgerichtet sind) verpflichtend (VERA: nicht alle Fächer) messen.

Dabei gelten VERA als Instrument der Diagnose bezüglich der bei den ZP-MSA zwei Jahre später zu erwartenden Kompetenzen der getesteten Schülerinnen und Schüler, ihnen werde – so die Autoren – seitens der KMK ein „hoher Stellenwert als Impulsgeber für Schul- und Unterrichtsentwicklung zugeschrieben“.

Die Durchführung und Auswertung erfolgt bei beiden Verfahren dezentral durch Lehrkräfte, geprüft werden immer alle Schülerinnen und Schüler eines Jahrgangs (Vollerhebung). Ein bedeutender Unterschied besteht in Brandenburg jedoch in Bezug auf die Rückmeldungen (in anderen Bundesländern werden beide Verfahren teilweise etwas unterschiedlich gehandhabt): Während die Ergebnisse der ZP-MSA von den Schulen nur in entsprechende Datenbanken eingegeben werden, werden bei VERA Informationen zu einzelnen Aufgaben, Vergleichswerte derselben Schulform und Kompetenzstufen für einen kriterialen Vergleich zurückgemeldet.

Dazu gibt es – als Merkmale der Implementation – für VERA didaktische Handreichungen, Informationen zur Weiterarbeit und Informationsveranstaltungen, für die ZP-MSA jedoch nicht flächendeckend. So werden etwa in Nordrhein-Westfalen auch zu den Ergebnissen der Zentralen Prüfungen 10 fachdidaktische Hinweise veröffentlicht (vgl. https://www.schulentwicklung.nrw.de/s/faecher).

Forschung zur Nutzung von Vergleichsarbeiten und zentralen Prüfungen für Unterrichtsentwicklung
Von den Autoren werden zuerst allgemeine Ergebnisse unterschiedlicher empirischer Studien dargelegt, danach werden weitere Einflussfaktoren, die dem Zyklenmodell von Helmke (2004) und dessen Erweiterung durch Hosenfeld und Groß Ophoff (2007) entlehnt sind, herangezogen, i. e.:

Individuelle Bedingungen: die Einschätzung der Testergebnisse durch die betroffenen Akteure, hier genauer die Akzeptanz, wahrgenommene Güte und Nützlichkeit des Verfahrens sowie das Vorwissen und die Expertise der Lehrkräfte, das professionelle Selbstverständnis und die Motivation
Schulische Bedingungen: Innovationsbereitschaft des Kollegiums, das Kooperationsklima und die Schaffung von Verbindlichkeit durch die Verankerung im Schulprogramm
Schulexterne Faktoren: externe Unterstützung durch Fortbildungen zur Interpretation der Daten und zur Ableitung adäquater Entwicklungsvorhaben

1. Vergleichsarbeiten
Allgemeine Ergebnisse

Ergebnisreflexion geschieht zwischen Kolleginnen und Kollegen, vor allem aber in den Fachkonferenzen (zwischen 67 % und 91 % der befragten Lehrkräfte und Fachkonferenzleitungen), dabei orientieren sich Reflexionsprozesse an Bildungsstandards und Lehrplänen.
An der überwiegenden Zahl der Schulen werden die Ergebnisse auch in Lehrer- und Schulkonferenzen reflektiert (42 % bis 93 %).
Fachkonferenzleitungen und Lehrkräfte berichten, dass Testergebnisse eher zu einer Fokussierung auf Testinhalte im Unterricht (50 %) als zu verstärkter Förderung der Schülerinnen und Schüler (20 %) oder zur Modifikation der Unterrichtsmethoden (13 %) genutzt werden.
Obwohl VERA-Aufgaben verstärkt im Unterricht geübt und als Basis für Leistungsüberprüfungen eingesetzt werden, wird keine Verengung des Curriculums auf die Testinhalte vorgenommen.
Es gibt keine eindeutige Tendenz zu Unterrichtsveränderungen (Kompetenzorientierung, Differenzierung), es wird jedoch von diesbezüglichen Veränderungen des Unterrichts berichtet (Ergebnis einer quantitativen Studie im Primarbereich, beruhend auf dem IQB-Ländervergleich 2011; deutliche Streuung der Ausprägungen; Befund durch qualitative Interviewstudie desselben Jahres bestätigt).
Seltener als zur Unterrichtsentwicklung werden VERA-Ergebnisse auf der Ebene der Schule für Maßnahmen der Schulentwicklung (Fortbildung, Personalentwicklung) genutzt.

Individuelle Bedingungen

Es herrscht überwiegend Akzeptanz unter den schulischen Akteuren.
VERA werden im Mittel als eher nützlich wahrgenommen.
Schulleitungen sind in der Regel positiver eingestellt als Lehrkräfte und Fachkonferenzleitungen.
Die wahrgenommene Nützlichkeit ist ein bedeutender Faktor für die Ableitung und Umsetzung von Maßnahmen.
Die Motivation zur Auseinandersetzung mit den Rückmeldungen und deren Intensität spielen eine wichtige Rolle für die Ableitung und Umsetzung von Maßnahmen.
Weitere wichtige Prädiktoren für die Ergebnisnutzung sind die Innovationsbereitschaft der Akteure, eine hohe Fortbildungsaktivität sowie eine kriteriale Bezugsnormorientierung und eine daran orientierte Auswertung (Bezug zu den Bildungsstandards).

Schulische Bedingungen

Es gibt uneinheitliche Befunde bezüglich der kollegialen Kooperation.
Dagegen gibt es eher eindeutig positive Befunde bezüglich des Innovationsklimas im Kollegium und der Unterstützung durch die Schulleitung.
Die Fachzugehörigkeit der Akteure habe ebenfalls Einfluss auf die Datennutzung: In den Fachkonferenzen des Faches Mathematik werden die Ergebnisse stärker genutzt als in den Fremdsprachen und in Deutsch, in letzteren wurde teilweise von Verständnisproblemen berichtet.

2. Zentrale Prüfungen
Die Recherche der Autoren erbringt lediglich eine nationale und sehr wenige internationale Forschungsarbeiten. Aus diesen leiten sie – unter Vorbehalt – Folgendes ab:

Allgemeine Ergebnisse
National (explorative Interviewstudie an vier Berliner Schulen):

Es wird eher von Prüfungsvorbereitung im Vorfeld der ZP als von Nachbereitung oder Ergebnisreflexion berichtet.
Die Rückmeldungen werden als verständlich und die Werte für Vergleichsgruppen als sinnvoll eingeschätzt; trotzdem findet in den Fachkonferenzen keine ausgiebige Reflexion zur Ableitung von Maßnahmen bzw. zur Unterrichtsentwicklung statt, da dies schlicht nicht in Betracht gezogen wird.
Eine Nutzung findet eher in Form eines Vergleichs über mehrere Jahrgänge statt, nur selten aber als Diagnoseinstrument für Schwächen im Unterricht.

International:

ZP werden durchaus als Grundlage für datenbasierte Entwicklungsmaßnahmen genutzt.
Niederlande und England: Die Rückmeldungen zu zentralen Prüfungen werden als relevant, valide und reliabel angesehen und von Schulleitungen und Lehrkräften überwiegend rezipiert; Fachkonferenzleitungen befassen sich häufiger damit als Lehrkräfte. Die Daten werden für Monitoringzwecke und Vergleiche mit anderen Referenzgruppen verwendet, um die Entwicklung der Schülerschaft zu analysieren.
England (ältere Studie): Dreiviertel der befragten Fachkonferenzleitungen und Lehrkräfte berichten über Datennutzungsaktivitäten.
Niederlande: In einigen Schulen sind umfassende Reflexions- und Entwicklungsaktivitäten ergriffen worden; die Anzahl der Maßnahmen ist wie die Zahl der Schulen, von denen dies berichtet wurde, sehr gering.
Niederlande, Irland, Finnland: Lehrkräfte nutzen die Ergebnisse eher als Basis für die Prüfungsvorbereitung als für die Unterrichtsentwicklung.

Individuelle Bedingungen (internationale Studien)

Die Einstellung gegenüber ZP ist bei Lehrkräften generell positiv, es wurden jedoch Fachunterschiede deutlich: Lehrkräfte aus sprachlichen Fächern sind eher negativ eingestellt als Lehrkräfte aus mathematisch-naturwissenschaftlichen Fächern.
Klare Ziele oder Visionen einzelner Lehrkräfte sind förderliche, fehlende Kompetenz im Umgang mit den Daten und Schwierigkeiten bei der Ursachenattribution sind hinderliche Faktoren für die Ableitung von Entwicklungsmaßnahmen.

Schulische Bedingungen (internationale Studien)

Ein gutes Kooperationsklima im Kollegium, ein innerschulischer Experte sowie Training und Unterstützung bei der Datenanalyse sind förderliche Faktoren.

Schulexterne Bedingungen (internationale Studien)

Die Teilnahme an einer Fortbildung zur Datenauswertung hat einen deutlich positiven Einfluss auf die Analyse- und Entwicklungsaktivitäten in den Kollegien.

Forschungsfragen und -hypothesen
Gemäß Wurster und Richter ist dem Forschungsstand zu entnehmen, dass ein Desiderat bezüglich einer datengestützten Unterrichtsentwicklung in den Fachkonferenzen besteht, sowohl beim Umgang mit VERA- als auch mit ZP-Ergebnissen. Darüber hinaus sei noch wenig darüber bekannt, ob beide Datenquellen gemeinsam ausgewertet werden.

Die beiden Autoren formulieren auf der Grundlage dieses Desiderats, des datengestützten Entwicklungskreislaufs (KMK) und des SPFS-Modells sowie der oben genannten weiteren Einflussfaktoren auf die Datenauswertung (individuell, schulisch und schulextern) vier Forschungsfragen, für die sie jeweils Hypothesen formulieren:

1. Wie werden VERA- und ZP-MSA-Ergebnisse in Fachkonferenzen verarbeitet, zur Ableitung von Unterrichtsentwicklungsmaßnahmen verwendet und hinsichtlich ihrer Akzeptanz und Nützlichkeit eingeschätzt?

Als Indikatoren für die Auseinandersetzung der Fachkonferenzleitung mit den Ergebnissen dienen – gemäß dem Zyklenmodell – die Kommunikation der Ergebnisse im Kollegium und gegenüber wichtigen Stakeholdern wie Eltern und Schülerschaft, die Frage nach der Existenz und dem Ausprägungsgrad geregelter Verfahrensweisen für den Austausch sowie die Frage, ob die Schulleitung Wert auf die Ergebnisreflexion legt. Die Einschätzung der Nützlichkeit – als individuelle Bedingung des Zyklenmodells – wird durch Indikatoren wie wahrgenommene Nützlichkeit, Diagnosegüte und Aufwand bei der Durchführung vorgenommen.

Hypothese: Beide Datenbestände werden positiv eingeschätzt und als Ausgangspunkt für Unterrichtsentwicklung verwendet.

2. Gibt es Unterschiede bei der Nutzung und Einschätzung der Ergebnisse von VERA und ZP-MSA?

Hypothese: VERA-Ergebnisse werden häufiger genutzt, weil sie für die Nutzung gezielt aufbereitet werden, ein Unterstützungssystem und umfassende Vergleichsmöglichkeiten sowie Hinweise zur Weiterarbeit enthalten.

3. Werden beide Datenbestände in Fachkonferenzen gemeinsam zur Ableitung von Unterrichtsentwicklungsmaßnahmen genutzt?

Hypothese: Sie werden auch gemeinsam genutzt, weil VERA eine prädiktorische Funktion für die ZP zum MSA zwei Jahre später haben und dann für dieselbe Kohorte von Schülerinnen und Schülern ausgewertet werden können.

4. Welche förderlichen oder hinderlichen Bedingungen lassen sich hinsichtlich der Auswertung beider Datenbestände diagnostizieren (individuell, schulisch, schulextern)?

Dabei werden die oben genannten einzelnen Parameter (individuelle Einschätzung der Verfahren und organisationale Bedingungen) durch Pearson-Korrelation und multiple lineare Regressionsanalysen korreliert. Konkret handelt es sich im Sinne einer Auswahl um die individuellen Faktoren „Einschätzung der beiden Verfahren“ und die schulischen Bedingungen „kollegiale Unterrichtsentwicklung“ und „Ausrichtung des Curriculums an den Bildungsstandards“.

Hypothese: Gemäß den Modellannahmen (s. o.: Hosenfeld & Groß Ophoff, 2007; Visscher & Coe, 2003) stehen alle genannten individuellen und schulischen Faktoren mit der Datennutzung in einem positiven Zusammenhang.

Design

Die Studie wurde im Bundesland Brandenburg mit 98 Fachkonferenzleitungen für die Fächer Mathematik (57) und Deutsch (41) durchgeführt. Insgesamt beteiligten sich 64 weiterführende Schulen (28 Gymnasien, 9 Gesamtschulen und 27 Oberschulen). Der Rücklauf betrug insgesamt 30 %. Die Autoren weisen darauf hin, dass die prozentuale Verteilung der Schulformen ungefähr der im Bundesland entspreche. Die Fachkonferenzleitungen wurden zwischen November 2011 und Februar 2012 online befragt.

Der eingesetzte Onlinefragebogen enthält sowohl dichotome als auch sechsstufige Antwortmöglichkeiten (Likert-Skala: „Stimme überhaupt nicht zu“ bis „Stimme vollständig zu“). Er speist sich teilweise aus Items früherer Arbeiten von Gärtner und Wurster (2009) und Eigenentwicklungen auf Grundlage der oben genannten Modelle (SPFS- und Zyklenmodell).

Die einzelnen zu prüfenden Konstrukte wie zum Beispiel die Nutzung oder die wahrgenommene Nützlichkeit wurden durch 1 bis max. 5 Items (als Indikatoren) überprüft. Die Operationalisierung erfolgte gemäß den Modellannahmen, die oben bereits berichtet wurden.

Als Analyseinstrumente rekurrieren die Autoren auf deskriptive Maße, t-Tests, exakte Fisher-Yates-Tests zur Analyse von Vierfeldertafeln bei kleineren Stichproben sowie für die Prüfung von Unterschieden zwischen den Evaluationsverfahren auf die Effektstärken d für metrische und ω für dichotome Variablen. Das Korrelationsmaß Yules Q wird zur Analyse der Zusammenhänge für dichotome Items eingesetzt. Pearson-Korrelations- und multiple lineare Regressionsanalysen werden zur Beschreibung des Zusammenhangs zwischen der Nutzung von Leistungsdaten und den Einflussfaktoren verwendet. Zur Komplexitätsreduktion werden dazu jeweils verfahrensspezifisch die Einzelitems zur Ergebnisnutzung in Fachkonferenzen zu einem Summenscore zusammengefasst, der dann jeweils als abhängige Variable in den Regressionsanalysen dient.

Da einige Werte fehlten und die Stichprobe insgesamt nicht sehr groß war, wurden vor der Regressionsanalyse multiple Imputationen durchgeführt, wobei das Predictive-Mean-Matching-Verfahren angewendet wurde und 50 imputierte Datensätze erstellt wurden. Der Anteil imputierter Werte beträgt zwischen 4 % (Ausrichtung Curriculum an Bildungsstandards) und 21 % (Kommunikation).

Ergebnisse

Die Autoren beantworten die Forschungsfragen wie folgt:

1. Wie werden VERA- und ZP-MSA-Ergebnisse in Fachkonferenzen verarbeitet, zur Ableitung von Unterrichtsentwicklungsmaßnahmen verwendet […]

In fast allen Fachkonferenzen findet eine Auseinandersetzung mit den Ergebnissen aus beiden Verfahren statt (90 %). Sie werden zu 88 % für die Entwicklung und zielgerichtete Veränderung von Aufgaben, zu 66 % für die Entwicklung von Unterrichtsmaterialien und zu 63 % als Grundlage für Maßnahmen zur Einzelförderung genutzt. Wesentlich seltener dienen sie als Basis für die Konzeption konkreter Fortbildungsmaßnahmen (39 %) und zur Einführung neuer Unterrichtsmethoden (49 %).
Darüber hinaus wird über eine weitreichende Dissemination der Ergebnisse in den Schulen berichtet, die als Indikator (s. o.) für eine intensive Auseinandersetzung mit den Ergebnissen gilt.

[…] und hinsichtlich ihrer Akzeptanz und Nützlichkeit eingeschätzt?
Kommentar hierzu vgl. unten, Ergebnisse zur zweiten Forschungsfrage.

Hypothese: Beide Datenbestände werden positiv eingeschätzt und als Ausgangspunkt für Unterrichtsentwicklung verwendet.

Diese Hypothese wird bestätigt, da beide Datenbestände für Unterrichtsentwicklungsaktivitäten verwendet werden und beide auch akzeptiert werden; die Unterschiede zwischen beiden Verfahren sind jedoch signifikant (vgl. Ergebnisse zur zweiten Forschungsfrage).

2. Gibt es Unterschiede bei der Nutzung und Einschätzung der Ergebnisse von VERA und ZP-MSA?

Es zeigen sich signifikante Unterschiede mit mittleren bis großen Effektstärken (ω = .31 bis .49) zugunsten der MSA-Ergebnisse. Dies trifft sowohl für die gemeinsame Arbeit in den Fachkonferenzen als auch für die individuelle Nutzung durch die Fachkonferenzleitungen selbst zu.
Die Ergebnisse des MSA werden innerhalb der Schule umfangreicher kommuniziert, sie werden positiver beurteilt, die Diagnosegüte wird als deutlich höher eingeschätzt und der Aufwand als geringer. So ergibt sich insgesamt eine wesentlich höhere Akzeptanz der ZP-MSA als von VERA sowie eine höhere Nützlichkeits-Bewertung.

Diese Hypothese wird falsifiziert, da die Nützlichkeit der ZP-MSA-Ergebnisse – entgegen der Annahme – als wesentlich höher eingeschätzt wird als die von VERA.

3. Werden beide Datenbestände in Fachkonferenzen gemeinsam zur Ableitung von Unterrichtsentwicklungsmaßnahmen genutzt?

Häufig gibt es hohe Zusammenhänge zwischen den Zahlen (Yules Q = .61 bis .88), woraus gefolgert wird, dass die Ergebnisse beider Erhebungsverfahren entweder gemeinsam genutzt oder auch gemeinsam nicht genutzt werden; letzteres ist z. B signifikant bei der Entwicklung von Fortbildungsmaßnahmen.

Diese Hypothese wird bestätigt bzw. das Ergebnis übertrifft die Erwartungen, die durch die Verwendung der Modalpartikel „auch“ abgeschwächt formuliert worden waren. Festgestellt wird „vor allem“ eine gemeinsame Nutzung. Dies hängt mit der Falsifizierung der zweiten Hypothese zur zweiten Forschungsfrage zusammen.

4. Welche förderlichen oder hinderlichen Bedingungen lassen sich hinsichtlich der Auswertung beider Datenbestände diagnostizieren (individuell und schulisch)?

Die Pearson-Korrelation-Analyse ergibt insgesamt eher geringe Effektgrößen (q =.08 bis q =.17), sodass die Ergebnisse als nicht signifikant zu bezeichnen sind. Es ergebe sich jedoch in der Tendenz, dass die „kollegiale Unterrichtsentwicklung“ – gemessen durch eine Skala mit den Items „Durchführung gegenseitiger Unterrichtsbesuche“, „gemeinsame Unterrichtsvorbereitung“ und „gemeinsame Auswertung von Evaluationsdaten“ – eher einen Einfluss auf die Nutzung von ZP-MSA-Daten, die „eingeschätzte Nützlichkeit“ und die „Diagnosegüte“ jedoch eher einen Einfluss auf die Nutzung von VERA-Daten haben.
Bei den verschiedenen Regressionsanalysen zur Identifikation von Prädiktoren ergibt sich zusammenfassend, dass die Nutzung von VERA-Ergebnissen durch die „wahrgenommene Nützlichkeit“ und die „innerschulische Implementation der Bildungsstandards“, die Nutzung der ZP-MSA-Ergebnisse eher durch die „kollegiale Unterrichtsentwicklung“ vorherzusagen ist.

Hypothese: Gemäß den Modellannahmen stehen alle genannten individuellen und schulischen Faktoren mit der Datennutzung in einem positiven Zusammenhang.

Diese Hypothese konnte nicht hinsichtlich aller untersuchten Faktoren bestätigt werden, da die Pearson-Korrelations-Analyse keine signifikanten Ergebnisse erbringt, sondern nur Tendenzen; lediglich die Regressionsanalysen führen zur Identifikation von drei Prädiktoren, wie oben dargestellt.

In der abschließenden Diskussion versuchen die Autoren, ihre Ergebnisse mit den im Artikel referierten nationalen und internationalen Studien in Beziehung zu setzen. Die wichtigsten Aspekte dieser Diskussion im Hinblick auf Schlussfolgerungen, Einschränkungen und Perspektiven seien hier angeführt:

1. Schlussfolgerungen

Ergebnisse aus zentralen Abschlussprüfungen werden häufiger als Grundlage für Unterrichtsentwicklung eingesetzt, wie auch in England und den Niederlanden.
Insgesamt ist die Unterrichtsentwicklung auf die Entwicklung oder zielgerichtete Veränderung von Aufgaben beschränkt; seltener werden Materialien oder Methoden weiterentwickelt oder Fortbildungen organisiert. Die Autoren stellen auch in Frage, dass den praktizierten Entwicklungsmaßnahmen immer eine tiefgehende Reflexion bzw. Ursachenanalyse vorausgeht.
Dass VERA, die ausdrücklich zum Zwecke der Unterrichtsentwicklung konzipiert und implementiert wurden, kaum dazu genutzt werden, wirft die Frage nach den Ursachen auf. Die Autoren vermuten diese zum einen darin, dass VERA relativ gesehen neu sind und die Lehrkräfte sich erst einmal über einen gewissen Zeitraum mit der Durchführung vertraut machen mussten und sich erst dann mit sinnvolleren und ergiebigen Auswertungsmöglichkeiten auseinandersetzen. Zum anderen sind die ZP zum MSA an den Rahmenlehrplänen der Länder ausgerichtet, VERA hingegen an den relativ neuen Bildungsstandards, die immer noch nicht so bekannt seien, wie sie es sein sollten, auch wenn die Lehrpläne darauf fußen. Des Weiteren werden die ZP zum MSA von allen beteiligten Akteuren als wichtiger eingeschätzt, weil sie weitreichendere Konsequenzen für die Schülerinnen und Schüler haben (high stakes).
Merkmale der Schulorganisation wie die kollegiale Unterrichtsentwicklung werden als signifikante Prädiktoren für die Nutzung von ZP-MSA-Ergebnissen identifiziert, nicht aber der Bezug zu den Bildungsstandards im Curriculum.

Für die Nutzung von VERA-Ergebnissen werden verfahrensbezogene Faktoren wie Nützlichkeit, Diagnosegüte und Aufwand als Prädiktoren identifiziert. Hier konnte auch die Ausrichtung des Curriculums an den Bildungsstandards als Prädiktor bestätigt werden.

2. Einschränkungen

Da die Ergebnisse der Korrelation nicht signifikant sind, schränken die Autoren die Bedeutung des Zusammenspiels der Prädiktoren Nützlichkeit, innerschulische Kommunikation der Ergebnisse und kollegiale Unterrichtsentwicklung folgerichtig ein. Dieses Zusammenspiel müsste in breiter angelegten Studien überprüft werden.
Eine Verallgemeinerung der Befunde über das Land Brandenburg hinaus erscheint den Autoren als schwierig, da andere Studien für andere Bundesländer unterschiedliche Ergebnisse erbracht haben. Sie sehen den geringen Rücklauf als üblich an, räumen jedoch ein, dass eine mögliche Verzerrung nicht ausgeschlossen werden kann, da aus Datenschutzgründen keine soziodemographischen Merkmale zu den befragten Lehrkräften erhoben werden konnten.

3. Perspektiven

Fortbildungen zum Umgang mit VERA-Ergebnissen könnten dazu beitragen, deren Akzeptanz und die Wahrnehmung von deren Nützlichkeit deutlich zu steigern.
Gezielte Informationen zur Weiterarbeit mit den VERA-Daten und fachdidaktisch fundierte Lernaufgaben könnten über die Ministerien (hier: Brandenburgisches Ministerium) bereitgestellt werden.
Darüber hinaus sollte durch Fortbildungen die prognostische Bedeutung von VERA in Bezug auf die zwei Jahre später in derselben Kohorte durchzuführenden ZP-MSA erläutert werden, auch um die gemeinsame Nutzung der Daten zu intensivieren. In diesem Kontext sollte auch die Bedeutung der Bildungsstandards für den MSA herausgestellt werden.
Weitere Forschungsarbeiten, die feststellen, welche Auswertungsmodalitäten, Reflexions- und Entwicklungsaktivitäten eine Verbesserung der Schülerleistung bewirken, sollten durchgeführt werden.

Diskussion und Einschätzung

Hintergrund
Wurster und Richter stellen die bisherigen Forschungsaktivitäten im Zusammenhang mit der nationalen und internationalen Nutzung von Ergebnissen aus zentralen Prüfungen und Vergleichsarbeiten für die Unterrichtsentwicklung umfassend und differenziert dar.

Sie erläutern zu Beginn die Bedeutung der Fachkonferenz als innerschulischer Instanz und legitimieren so die für die Onlinebefragung ausgewählten Adressaten. Warum die Fachkonferenzvorsitzenden nur zweier der jeweils drei an den beiden Verfahren beteiligten Fächer adressiert wurden, erläutern sie nicht. Englisch ist das dritte Fach, welches bei den ZP-MSA obligatorisch und bei VERA meist als verbreitetste 1. Fremdsprache geprüft wird. Möglicherweise hätte die Ausweitung einen höheren Rücklauf und eine größere Signifikanz einiger Ergebnisse erbracht.

Ausgehend von dem datengestützten Entwicklungskreislauf der KMK rekurrieren die Autoren auf weitere Modelle, durch die sie an multiple Faktoren gelangen, die sie in ihre Befragung einbeziehen. Sie vergleichen die Verfahren VERA und ZP-MSA auf Grundlage dieser Modelle und stellen vor allem Unterschiede und einige wenige Gemeinsamkeiten heraus. Dies dient einer sehr ausführlichen Durchleuchtung beider Verfahren, angereichert mit den bereits erwähnten Ergebnissen aus nationalen und internationalen Studien.

Design
Vor dem Hintergrund des ausführlichen Vergleichs und bereits bestehender Forschungsbefunde werden vier Forschungsfragen und zugehörige Hypothesen formuliert.
Die Forschungsfragen sind teilweise mehrgliedrig und erscheinen nicht vollkommen trennscharf. Daneben erfassen die Hypothesen teilweise nicht alle in den Fragen aufgeworfenen Aspekte. So ist es z. B. bei der ersten Hypothese zur ersten Forschungsfrage der Fall, die die Aspekte Akzeptanz und Nützlichkeit nicht mehr aufgreift.

Die Stichprobe erscheint zunächst einmal als ausreichend groß und bilde – so die Autoren – bezüglich der ausgewählten Schulformen die Verteilung in der Bildungslandschaft Brandenburgs ab, der Rücklauf von 30 %, den die Autoren in ihrer Diskussion als üblich deklarieren, erscheint jedoch als zu gering, um dem Kriterium der Validität zu genügen.

Eines verdeutlicht der Rücklauf jedoch in besonderem Maße: Das Interesse der schulischen Akteure – hier repräsentiert durch die befragten Fachkonferenzvorsitzenden – an Belangen, die viele als belastende Zusatzarbeit empfinden und an deren Ertrag für die tägliche Arbeit gezweifelt wird, ist gering.

Das Instrument der Onlinebefragung ist sicherlich ein probates Mittel, um eine größere Reichweite zu erzielen, birgt aber bekannte Risiken. Die Probanden nehmen sich oft nicht genügend Zeit, beantworten spontan, sehr zügig und oft unkonzentriert die Fragen, und die Versuchung, die eigene schulische Arbeit bei der Beantwortung einem Soll-Zustand anzupassen, der nicht immer mit dem Ist-Zustand übereinstimmt, ist groß. Jede Lehrkraft, die einen Fachkonferenzvorsitz innehat, ist sich bewusst, dass dezidierte Unterrichtsentwicklung ein Desiderat und eine Notwendigkeit ist. Es wäre ein Leichtes, bei der Beantwortung der Frage, ob Unterrichtsentwicklungsaktivitäten durchgeführt werden, die Realität zu beschönigen.

Die Operationalisierung und die Analysestrategie werden stichprobenartig erläutert und teilweise tabellarisch dargestellt. Es entsteht das Bild einer sehr komplexen, in Teilen für die Rezipienten des Aufsatzes nicht vollständig nachvollziehbaren Vorgehensweise, da die Anzahl an Faktoren, die den theoretischen Modellen entnommen wurden, sehr hoch ist und die jeweilige Zuordnung zu den Konzepten bzw. Skalen nicht eindeutig aus dem Aufsatz hervorgeht. Die folgende Korrelation einiger Ergebnisse wird nur kurz erläutert, ausführlicher wird diese bei der Ergebnisdarstellung beschrieben. Diese erscheint als überkomplex, es werden verschiedene Modelle durchgerechnet, aus denen sich dann im Endeffekt drei Prädiktoren ableiten lassen, was im Vergleich zu der enormen Menge an Skalen und Faktoren als magere Ausbeute bezeichnet werden darf. Die Aussagekraft wird meiner Ansicht nach - wie oben bereits angedeutet – durch die Schwäche des Instruments „Onlinefragebogen“, der in seiner Gänze sehr umfangreich gewesen sein muss, und die geringe Rücklaufquote weiter geschwächt.

Interessanterweise erwartet man bei der Anzahl der Forschungsfragen eine entsprechende Gliederung der Ergebnisdarstellung in vier Unterkapitel; es finden sich jedoch nur drei, sodass es schwerfällt, die Zuordnung der Ergebnisse zu den einzelnen Fragen exakt vorzunehmen. Erst in der Ergebnisdiskussion gehen die Autoren wieder explizit auf die vier Fragen ein, verknüpfen dies mit Ursachenforschung und der Eröffnung weiterer Forschungsperspektiven.

Es werden keine Kontrollvariablen erhoben, als Vergleichswerte dienen die vorhandenen Befunde vorangegangener Forschungsarbeiten. Soziodemographische Merkmale fehlen, darauf weisen die Autoren selbst hin.

Die Studie wurde im Winter 2011/12 durchgeführt, aber erst Ende 2016 im Journal for Educational Research Online veröffentlicht.

Ergebnisse
Zielstellung der Untersuchung war es, Informationen über die Nutzung der Daten von Vergleichsarbeiten und zentralen Prüfungen zum mittleren Schulabschluss für die Unterrichtsentwicklung zu erhalten. Dieses Ziel wird erreicht, die Gültigkeit bleibt jedoch auf das Bundesland Brandenburg beschränkt, weil es für andere Bundesländer in anderen Studien teilweise unterschiedliche Befunde gab.

Im Wesentlichen decken sich die Ergebnisse jedoch mit denen anderer nationaler und internationaler Studien: Die Daten werden von Fachkonferenzen ausgewertet und reflektiert, sie werden für die Unterrichtsentwicklung genutzt, wenn auch eher für die Anpassung und Erstellung von Aufgaben, was einem „teaching to the test“ entspricht, das in den Fachdidaktiken als nicht erstrebenswert gilt. „Echte“ Unterrichtsentwicklung im Sinne der Entwicklung von Maßnahmen zur Verbesserung der Schülerleistung durch Veränderung der Lehrmethoden, durch Fortbildungsmaßnahmen zur Stärkung der Kompetenz der Lehrkräfte, durch Binnendifferenzierung und/oder individuelle Förderung oder durch kollegiale Zusammenarbeit bei der Ausarbeitung neuen Lehrmaterials etc. findet kaum bis nicht statt.

Die Daten aus beiden Verfahren werden auch gemeinsam für die datengestützte Unterrichtsentwicklung genutzt; die Ergebnisse der zentralen Prüfungen zum mittleren Schulabschluss werden jedoch von den Lehrkräften als nützlicher und aussagekräftiger (Diagnosegüte) eingeschätzt.

So werden Vergleichsarbeiten offenbar, und dies ist meines Erachtens das wichtigste Ergebnis der Studie, nicht als ein Instrument zur Unterrichtsentwicklung wahrgenommen. Als ein solches sind sie jedoch von der Kultusministerkonferenz konzipiert und eingeführt worden. Hier ergibt sich für die Autoren ein deutlicher Handlungsbedarf, zumindest für das genannte Bundesland; es ist aber davon auszugehen, dass dies für andere Bundesländer auch gilt. Die Sinnhaftigkeit von Vergleichsarbeiten muss dringend erläutert werden, es müssen Hilfestellungen für den Umgang mit den Daten und die Ableitung von Maßnahmen gegeben werden und diese müssten eigentlich in der Folge – im Sinne des Entwicklungszyklus – auch in regelmäßigen Abständen überprüft werden. Gleichzeitig sollten die Bildungsstandards stärker in die Wahrnehmung der Lehrkräfte gerückt werden, die die Grundlage für die Vergleichsarbeiten (wie auch für die Rahmenlehrpläne, Brandenburg) bilden.

Der Gesamtkontext des Bildungsmonitorings, für das u. a. die Verbindung zwischen Bildungsstandards und Vergleichsarbeiten zentral ist, müsste stärker in die Kollegien hineingetragen und konstruktiv motivierend kommuniziert werden, damit VERA nicht so sehr als Schikane in der schulischen Routine angesehen werden, in der die Aufgaben immer komplexer und zahlreicher werden, sondern als ein hilfreiches, dem oberen Ziel der Unterrichtsentwicklung dienendes Diagnoseinstrument.

Beide Autoren waren zu der Zeit, in der die Daten für diese Studie erhoben und ausgewertet wurden, am IQB in Berlin tätig. So lag der Fokus sicher darauf, genau diese Diskrepanz zwischen theoretischem Anspruch und praktischer Akzeptanz und Umsetzung von VERA als Instrument des Bildungsmonitorings aufzudecken und publik zu machen, damit von Seiten der Steuerungsorgane entsprechende Maßnahmen eingeleitet werden können. Daher ist davon auszugehen, dass die Forschungshypothese, dass VERA häufiger für Unterrichtsentwicklung genutzt werden als die MSA-Ergebnisse, eine der Theorie geschuldete und deren Falsifizierung entsprechend nicht überraschend, sondern vorhersehbar war.

Rezension speichern und teilen

PDF

E-Mail

Unterstützung für die Praxis

nrw-wappen Institut für Bildungsanalysen (IBBW)