Blog

Πρόβλεψη βάσεων 2026: γιατί κανένα μοντέλο δεν είναι ακριβές

Πρόβλεψη βάσεων ΑΕΙ 2026: γιατί κανένα μοντέλο δεν είναι ακριβές — η μαθηματική εξήγηση

Δοκίμασα 8 διαφορετικά στατιστικά και ML μοντέλα για να προβλέψω τις βάσεις του 2025. Όλα — από την απλή αντιγραφή μέχρι το Gradient Boosting — συγκλίνουν στο ίδιο όριο σφάλματος. Αυτό δεν είναι αδυναμία μας. Είναι μαθηματική ιδιότητα του φαινομένου. Και εξηγεί γιατί όλες οι «προβλέψεις» που κυκλοφορούν στο διαδίκτυο είναι, στην καλύτερη περίπτωση, εικασίες.

Το πείραμα

Με αφορμή την έναρξη ανακοίνωσης των στατιστικών βαθμολογίας (Πέμπτη 25/6/2026), έθεσα στον εαυτό μου ένα πρακτικό ερώτημα: μπορώ να φτιάξω ένα μοντέλο που να προβλέπει τη βάση κάθε σχολής με ακρίβεια καλύτερη από «ίδια με πέρσι»;

Για την εκτέλεση των στατιστικών μοντέλων και τη γραφή κώδικα Python, συνεργάστηκα με την τεχνητή νοημοσύνη Claude (Anthropic). Όλος ο σχεδιασμός της έρευνας, η επιλογή των μοντέλων προς δοκιμή, η ερμηνεία των αποτελεσμάτων και τα συμπεράσματα είναι δικά μου — η ΑΙ έπαιξε ρόλο τεχνικού εργαλείου εκτέλεσης. Όλος ο κώδικας και τα δεδομένα είναι δημόσια, ώστε οποιοσδήποτε να μπορεί να επαληθεύσει βήμα-βήμα τη διαδικασία.

Συγκέντρωσα τις επίσημες βάσεις των τελευταίων πέντε ετών (2021–2025) από το ΥΠΑΙΘΑ, καθώς και:

  • Στατιστικά βαθμολογίας μαθήματος ανά πεδίο (Γενική Παιδεία & Προσανατολισμού)
  • Στατιστικά προτιμήσεων υποψηφίων & επιτυχόντων
  • Αριθμός θέσεων, επιτυχόντων, κενών
  • Συντελεστές βαρύτητας ανά σχολή για το 2026 (ΦΕΚ Β’ 7145/30-12-2025)
  • Ελάχιστη Βάση Εισαγωγής (ΕΒΕ) ανά σχολή

Στο σύνολο: 448 σχολές Γενικού Λυκείου, Γενική Σειρά Ημερησίων. Εξαιρέθηκαν 50 ειδικές κατηγορίες (στρατιωτικές, αστυνομικές, πυροσβεστική, εμπορικό ναυτικό, μουσικά/καλλιτεχνικά) όπου παίζουν ρόλο ειδικά μαθήματα ή ψυχοτεχνικές δοκιμασίες.

Σαν validation, χρησιμοποίησα τα δεδομένα 2021–2024 για να «προβλέψω» τις βάσεις του 2025 και συνέκρινα με τις πραγματικές. Έτσι μέτρησα την ακρίβεια του κάθε μοντέλου σε ένα χρόνο που γνωρίζω ήδη το αποτέλεσμα.

Τα 8 μοντέλα που δοκίμασα

#ΜοντέλοΛογικήMAE≤500μ
1Απλή αντιγραφήΒάση 2025 = Βάση 202437278%
2Mean reversionΒάση + ρ × Δ (ρ ≈ −0,25)38877%
3Σταθμισμένος μέσος ΔWMA των 3 τελευταίων διαφορών41372%
4Γραμμική προέκτασηLeast squares 2021–202446370%
5Adaptive KalmanΣταδιακή μάθηση school-drift38477%
6School FE + ΜΟ ΠεδίουΕπανάκαμψη με features πεδίου17607%
7Gradient Boosting (Δ)ML με 16 features ανά σχολή41273%
8Random Forest (Δ)500 trees, 16 features41672%

MAE = Mean Absolute Error (μέση απόλυτη απόκλιση) σε μόρια · ≤500μ = ποσοστό σχολών εντός ±500 μορίων από την πραγματική βάση

Το αποτέλεσμα: Το πιο απλό μοντέλο όλων — «πες ότι θα είναι ίδιες με πέρσι» — κερδίζει όλα τα σύνθετα στατιστικά και Machine Learning μοντέλα. Ακόμα και ο Gradient Boosting με 16 features (προτιμήσεις, θέσεις, συντελεστές, ΕΒΕ, πρόσφατες κινήσεις) χάνει από την αντιγραφή.

Γιατί η αντιγραφή κερδίζει το Machine Learning

Αυτό δεν είναι λάθος του ML. Είναι θεμελιώδης ιδιότητα του φαινομένου. Όταν δοκιμάζεις δέκα διαφορετικές μεθόδους και όλες συγκλίνουν στο ίδιο όριο σφάλματος (~370 μόρια), αυτό λέγεται στη στατιστική noise floor: όριο που δεν περνιέται με κανένα μοντέλο, γιατί το σήμα στα δεδομένα είναι ασθενέστερο από τον εγγενή τυχαίο θόρυβο.

Συγκεκριμένα, υπολόγισα την αυτοσυσχέτιση των μεταβολών της βάσης κάθε σχολής διαδοχικά χρόνια:

corr(Δ22→23, Δ23→24) = −0,36
corr(Δ23→24, Δ24→25) = −0,32

Δηλαδή αν μια σχολή ανέβηκε φέτος, του χρόνου πιθανώς θα πέσει — αλλά αυτό ισχύει συνολικά, όχι για κάθε σχολή ξεχωριστά. Είναι σαν τη ρίψη ζαριών: ξέρουμε ότι ο μέσος όρος 100 ρίψεων θα είναι κοντά στο 3,5. Δεν ξέρουμε αν η επόμενη ρίψη θα είναι 1 ή 6.

Όταν προσπαθήσουμε να εφαρμόσουμε αυτό το «ξέρω» σε μεμονωμένες σχολές, βάζουμε θόρυβο εκεί που δεν χρειάζεται. Αυτός είναι ο λόγος που το mean reversion model (μοντέλο 2) είναι ελάχιστα χειρότερο από την αντιγραφή.

Παρόμοια στατιστικά φαινόμενα

Το φαινόμενο που περιγράφω δεν είναι μοναδικό στην ελληνική εκπαίδευση. Ανήκει σε μια μεγάλη οικογένεια τυχαίων περιπάτων (random walks) που εμφανίζεται σε πολλά πεδία:

  • Πρόβλεψη τιμών μετοχών: Ο Eugene Fama (Νόμπελ Οικονομικών 2013) με την υπόθεση των αποτελεσματικών αγορών έδειξε ότι η καλύτερη πρόβλεψη της τιμής αύριο είναι η τιμή σήμερα.
  • Πρόβλεψη πληθωρισμού: Οι Atkeson & Ohanian (2001) απέδειξαν ότι οι απλοί random walk benchmarks κερδίζουν τα περισσότερα οικονομετρικά μοντέλα της Fed.
  • Δημοσκοπήσεις σε εκλογές: Παρά τις τεράστιες επενδύσεις σε δεδομένα, το statistical noise των ±3% δεν εξαλείφεται.

Σε όλα αυτά τα πεδία, το σήμα που μπορούμε να εξάγουμε από τα διαθέσιμα δεδομένα έχει ένα μαθηματικά οριζόμενο πλαφόν. Στην περίπτωση των βάσεων, αυτό το πλαφόν είναι περίπου ±200–400 μόρια για τις περισσότερες σχολές.

Τι σημαίνει 372 μόρια απόκλιση πρακτικά

48%
εντός ±200 μ
78%
εντός ±500 μ
92%
εντός ±1000 μ
8%
«εκπλήξεις»

Με άλλα λόγια: το βέλτιστο μοντέλο πετυχαίνει ότι περίπου 4 στις 5 σχολές θα έχουν βάση κοντά (±500 μόρια) σε αυτή του προηγούμενου έτους. Όμως 1 στις 12 σχολές θα κάνει κίνηση μεγαλύτερη από ±1000 μόρια — και αυτές τις σχολές κανένα μοντέλο δεν μπορεί να τις προβλέψει, γιατί η κίνηση τους οφείλεται σε παράγοντες που δεν είναι παρατηρήσιμοι πριν την έκδοση των αποτελεσμάτων: τις προσωπικές προτιμήσεις και τις στρατηγικές που θα ακολουθήσουν στο μηχανογραφικό οι ~95.000 υποψήφιοι.

Γιατί κανένας δεν λέει την αλήθεια

Αν ψάξετε στο διαδίκτυο τις τελευταίες ημέρες θα βρείτε δεκάδες ιστοσελίδες και «ειδικούς» που δίνουν συγκεκριμένες αριθμητικές προβλέψεις βάσεων: «η Ιατρική θα πέσει 200 μόρια», «τα Μαθηματικά θα ανέβουν 300 μόρια», και ούτω καθεξής. Συνήθως αυτές οι προβλέψεις παρουσιάζονται με αυτοπεποίθηση και χωρίς καμία αναφορά σε validation ή στατιστική τεκμηρίωση.

Το ερώτημα είναι απλό: Έχουν δείξει ποτέ ότι το μοντέλο που χρησιμοποιούν προβλέπει σωστά;

Στην οικονομετρία, στις θετικές επιστήμες, στην ιατρική στατιστική, δεν δημοσιεύεις πρόβλεψη χωρίς να έχεις πρώτα δείξει σε out-of-sample test ότι το μοντέλο σου δουλεύει. Αυτό κάναμε εδώ — και το αποτέλεσμα είναι ξεκάθαρο: καμία σημειακή πρόβλεψη βάσης δεν είναι επιστημονικά τεκμηριωμένη.

Όποιος δίνει «εκτίμηση 14.350 μόρια για τη σχολή Χ» στην ουσία λέει: «νομίζω ότι θα είναι κάπου εκεί». Αυτή είναι έγκυρη υπόθεση, αλλά δεν είναι πρόβλεψη.

Η τίμια πρόβλεψη του PaideiaNet για το 2026

Στατιστικά τεκμηριωμένη πρόβλεψη
Βάση 2026 = Βάση 2025 ± 500 μόρια
Κάλυψη: 78% των σχολών · MAE 372 μόρια · Bias −22 μόρια (πρακτικά αμερόληπτο)

Η πρόβλεψή μας δεν είναι ένα συγκεκριμένο νούμερο, αλλά ένα διάστημα εμπιστοσύνης. Όχι γιατί δεν προσπαθήσαμε να φτιάξουμε πιο σύνθετο μοντέλο — αλλά γιατί το ίδιο το φαινόμενο δεν επιτρέπει μεγαλύτερη ακρίβεια.

Πιο εξειδικευμένα ανά πεδίο:

3ο (Υγείας) ±256μ 84%
1ο (Ανθρ.) ±320μ 81%
4ο (Οικ./Πλ.) ±423μ 77%
2ο (Θετικές) ±513μ 65%

Μέση απόκλιση μοντέλου ανά πεδίο · ποσοστό σχολών εντός ±500 μορίων

Το πεδίο Υγείας είναι το πιο σταθερό (διάμεσος σφάλματος μόλις 53 μόρια), το 2ο πεδίο το πιο ευμετάβλητο. Σχολές με ιστορικά μεγάλες διακυμάνσεις (πχ Μαθηματικά Ιωαννίνων, Φυτικής Παραγωγής ΓΠΑ) έχουν εύρος εμπιστοσύνης ±1500–2500 μόρια — εκεί καμία πρόβλεψη δεν είναι αξιόπιστη.

Συχνές ερωτήσεις

Δηλαδή ΔΕΝ μπορούμε να ξέρουμε τίποτα για τις βάσεις του 2026 πριν την Πέμπτη;

Όχι έτσι. Ξέρουμε ότι το 78% των σχολών θα έχουν βάση εντός ±500 μορίων από το 2025. Είναι μια στατιστικά ισχυρή πρόβλεψη — απλά είναι πρόβλεψη διαστήματος, όχι σημείου.

Δεν θα αλλάξει κάτι λόγω της ευκολίας/δυσκολίας των φετινών θεμάτων;

Όχι σημαντικά. Δείξαμε ότι παρόλο που το μέσο επίπεδο βαθμολογιών αυξήθηκε δραματικά το 2025 (+3 έως +5 μονάδες σε όλα τα πεδία), οι βάσεις μετακινήθηκαν μόνο ±200–300 μόρια. Η βάση εξαρτάται από την κατάταξη των υποψηφίων, όχι από το απόλυτο επίπεδο των βαθμών.

Γιατί τότε υπάρχουν τόσοι που δίνουν συγκεκριμένες προβλέψεις;

Επειδή υπάρχει ζήτηση. Οι μαθητές και οι γονείς θέλουν νούμερα — κι όσοι τους δίνουν νούμερα, κερδίζουν επισκεψιμότητα. Το να πεις «δεν μπορεί να γίνει επιστημονικά τεκμηριωμένη πρόβλεψη» δεν πουλάει. Είναι όμως αυτό που λένε τα δεδομένα.

Τι να κάνω εγώ ως υποψήφιος;

Πρώτον, μη βασίσεις το μηχανογραφικό σου σε καμία σημειακή πρόβλεψη βάσεων. Δεύτερον, αξιοποίησε την περσινή βάση κάθε σχολής ως κεντρική εκτίμηση και πρόσθεσε εύρος ασφαλείας ±500 μόρια. Τρίτον, βάλε στις πρώτες σου επιλογές αυτό που πραγματικά θέλεις, όχι αυτό που νομίζεις ότι θα «πιάσεις».

Επόμενα βήματα

Την Πέμπτη 25/6/2026 το ΥΠΑΙΘΑ θα δημοσιεύσει τα στατιστικά βαθμολογίας του 2026. Τότε θα μπορούμε:

  • Να επαληθεύσουμε τους ισχυρούς αριθμούς ΕΒΕ για κάθε σχολή
  • Να εκτιμήσουμε με μεγαλύτερη ακρίβεια το διάστημα εμπιστοσύνης ανά πεδίο
  • Να εντοπίσουμε τις «εκπλήξεις» — σχολές με ασυνήθιστα μεγάλες κινήσεις βαθμολογιών που μπορεί να είναι ενδείκτες κίνησης βάσης

Πλήρης διαφάνεια — όλα δωρεάν στο PaideiaNet.com

Από Πέμπτη 25/6/2026 μεσημέρι, εδώ στο PaideiaNet.com θα ανέβουν δωρεάν και ελεύθερα για κατέβασμα:

  • Το πλήρες Excel με 448 σχολές, ιστορικές βάσεις 2021–2025, πρόβλεψη 2026, διαστήματα εμπιστοσύνης, βαθμοί ΕΒΕ ανά σχολή
  • Το Python script ολόκληρης της ανάλυσης — με ένα κλικ ξανατρέχει η πρόβλεψη όταν αλλάξουν τα δεδομένα
  • Το validation set 2025: per-school πρόβλεψη vs πραγματική, με όλες τις αποκλίσεις στατιστικά τεκμηριωμένες
  • Η πλήρης μεθοδολογία — βήμα-βήμα, αναπαραγωγίσιμη, με όλες τις παραδοχές καταγεγραμμένες
Κανένας άλλος στην Ελλάδα δεν έχει δημοσιεύσει αυτά τα δεδομένα δημόσια. Δείτε τα μόνοι σας. Ελέγξτε τα. Ξανατρέξτε τα. Αυτή είναι η διαφορά μεταξύ επιστημονικής μεθόδου και εικασιών.
Γιάννης Ζαμπέλης
Καθηγητής Μαθηματικών — Εκπαιδευτικός Αναλυτής · Δημιουργός site PaideiaNet.com
Γιάννης Ζαμπέλης
Γειά σας , είμαι ο Γιάννης Ζαμπέλης

Μαθηματικός · Εκπαιδευτικός Αναλυτής · Δημιουργός PaideiaNet.com

Αφήστε μια απάντηση

Η ηλ. διεύθυνση σας δεν δημοσιεύεται. Τα υποχρεωτικά πεδία σημειώνονται με *