Pädagogisches KI-Benchmark

Welche pädagogische
Haltung hat Ihr KI-Modell?

KI-Systeme geben fachlich oft ähnliche Antworten — pädagogisch reagieren sie grundlegend verschieden. Der KI-Schulkompass macht diese Unterschiede sichtbar: damit Lehrpersonen wissen, womit sie arbeiten, und bewusst entscheiden können.

15 Modelle
4 Haltungen
3 Dimensionen von Unterricht
alle Zyklen der Volksschule
01 · Ausgangslage

Fachlich ähnlich.
Pädagogisch verschieden.

Ein Kind sagt: «Ich verstehe die Aufgabe nicht.» Ein KI-System erklärt den nächsten Schritt — direkt und strukturiert. Ein anderes fragt zurück: «Was hast du bisher versucht?» Ein drittes gibt der Situation Raum und lässt die Antwort entstehen.

Alle drei Reaktionen sind fachlich vertretbar. Aber sie sind nicht gleich — sie folgen einem systematischen Muster: wie viel das System vorgibt, woran es sich orientiert, wie viel Handlungsspielraum es lässt. Dieses Muster ist eintrainiert, modellspezifisch und verändert sich mit jeder neuen Version.

Für Lehrpersonen ist das relevant: Wer ein KI-System im Unterricht einsetzt, übernimmt implizit dessen pädagogische Logik — es sei denn, man kennt sie und setzt sie bewusst ein.

02 · Das Messmodell

Zwei Dimensionen.
Ein Profil.

Der KI-Schulkompass beschreibt jedes Modell auf zwei Dimensionen. Kein Pol ist besser als der andere — entscheidend ist, ob das Profil des Systems zur eigenen Unterrichtshaltung passt oder ihr widerspricht.

Dimension A — Vorgehen: Wie entsteht der nächste Handlungsschritt? Legt das System ihn fest (Vorgabe) — oder überlässt es ihn der lernenden Person (Wahl)?

Dimension B — Orientierung: Woran richtet sich die Reaktion aus? An der vorbereiteten Struktur und dem geplanten Lernweg (Planung) — oder am aktuellen Zustand des Kindes (Situation)?

Daraus entstehen vier Haltungsprofile: Instruktion (Vorgabe · Planung), Adaption (Vorgabe · Situation), Rahmung (Wahl · Planung) und Exploration (Wahl · Situation).

Die vier Haltungstypen

Vier Haltungen. Kein Richtig oder Falsch. Wissenschaftlich fundiert.

ORIENTIERUNG
Situation
Planung
Adaption Situation · Vorgabe

Die Lehrperson steuert den Prozess situativ auf Basis von Beobachtung und Diagnose. Das Handeln erfolgt flexibel als Antwort auf den unmittelbaren Bedarf, wobei die Lehrperson die Verantwortung für die Ergebnissicherung und die methodische Führung behält.

Exploration Situation · Wahl

Die Lehrperson begleitet den Lernprozess offen und ohne vorausgeplante Steuerung. Was im Unterricht geschieht, entwickelt sich aus der Situation und den Impulsen der Lernenden heraus, gestützt durch das Vertrauen in die Eigendynamik des Lernens.

Instruktion Planung · Vorgabe

Die Lehrperson legt Ziele, Abläufe und Reaktionen im Voraus fest. Lernen wird als planbarer Prozess verstanden, bei dem die Sicherheit durch eine klare Struktur und explizite Führung der Lernenden entsteht.

Rahmung Planung · Wahl

Die Lehrperson bereitet einen didaktischen Rahmen vor, der Entscheidungsspielräume für die Lernenden bewusst einschließt. Autonomie wird ermöglicht, indem Wahlfreiheiten in eine vorbereitete, stützende Struktur eingebettet sind.

Vorgabe
Wahl
VORGEHEN
03 · Die Szenarien

Situationen aus
dem Unterrichtsalltag.

Die Testszenarien zeigen Momente, die Lehrpersonen täglich erleben: ein Kind gibt auf, mehrere zeigen gleichzeitig auf, eine Frage sprengt den Stundenplan. Jedes Modell wählt aus vier gleichwertigen Reaktionen — keine ist richtig oder falsch, aber jede verrät eine Haltung.

Lehrpersonen erkennen diese Situationen sofort. Deshalb lässt sich das Ergebnis direkt auf den eigenen Unterricht beziehen: Passt die Reaktionslogik dieses Modells zu dem, was ich anstrebe?

Beispielszenario · Kognitive Aktivierung · Zyklus 3: Du hast der Klasse eine Frage gestellt. Ein Schüler antwortet — die Antwort ist falsch, aber du erkennst, dass er ernsthaft nachgedacht hat. Vier Reaktionen stehen zur Wahl: die richtige Antwort nennen und erklären (Instruktion), nachfragen wie er darauf kam (Adaption), die Klasse diskutieren lassen (Rahmung), oder weitere Antworten sammeln und gemeinsam schliessen (Exploration).

04 · Wissenschaftliche Grundlage

Belastbar genug,
um zu entscheiden.

Jedes Modell wird pro Version 100-mal mit identischen Situationen getestet. Die Durchführungen erfolgen unabhängig voneinander in neuen Sitzungen. Das angezeigte Profil beschreibt daher kein Einzelverhalten, sondern das typische Reaktionsmuster eines Systems.

Die Szenarien basieren auf dokumentierten Unterrichtssituationen aus dem PISA-2022-Zyklus und sind in drei Bereiche gegliedert:

Klassenführung: Wie strukturiert das System Lernzeit, Übergänge und parallele Anforderungen — gibt es vor oder lässt es wählen?

Konstruktive Unterstützung: Wie reagiert das System, wenn jemand nicht weiterkommt — übernimmt es oder gibt es Denkanstösse?

Kognitive Aktivierung: Wie geht das System mit Denktiefe um — schliesst es ab oder öffnet es weiter?

05 · Getestete Modelle

Wählen oder
gegensteuern.

Wer das Profil seines Modells kennt, kann handeln: das Modell wählen, das zur eigenen Unterrichtshaltung passt — oder bei einer Vorgabe (Schullizenz, institutioneller Entscheid) bewusst gegensteuern, weil man weiss, wohin das System von sich aus tendiert.

Jede neue Modellversion wird separat getestet. GPT-4o verhält sich anders als GPT-5, Claude 3 anders als Claude 4. Der Kompass wächst mit dem Ökosystem — und hält fest, was sich verändert.

Getestete Systeme umfassen aktuell: Claude (Anthropic), ChatGPT (OpenAI), Gemini (Google), DeepSeek, sowie KI-Bildungsdienste wie Schabi.ch.

06 · Referenzen

Konzeptionelle
Verankerung.

Das Projekt stützt sich auf etablierte Rahmungen der Unterrichtsforschung:

PISA 2022 — OECD Computer-Based Student Questionnaire (ST270, ST273, ST285)

Praetorius & Klieme (2018) — Basisdimensionen der Unterrichtsqualität

Wubbels & Levy (1993) — Questionnaire on Teacher Interaction (QTI)

Deci & Ryan — Selbstbestimmungstheorie (SDT)

Collins & Pratt (2000) — Teaching Perspectives Inventory (TPI)

Vignetten- / Situational Judgement Test-Forschung (SJT)