OpenAI a publié hier une mise à jour silencieuse de GPT-5.4 qui le remet en tête du benchmark MMLU-Pro avec 85,3 % de réussite, soit 1,2 point devant Gemini 3.1 Pro et 1,4 point devant Claude Opus 4.7. Le modèle conserve par ailleurs son avance sur les tâches multi-étapes et la factualité historique.
L'écart reste dans la marge d'erreur statistique propre à ce test, mais il suffit à relancer un cycle de communication commerciale côté OpenAI. Les équipes produit confirment que le gain vient d'un affinage sur le raisonnement scientifique, sans ré-entraînement complet — signal que le modèle entre en phase de maturité.
À retenir : MMLU-Pro mesure la connaissance générale, pas l'écriture en français ni la tenue d'une conversation longue. Pour ces usages, notre FR-Check 2026 continue à placer Claude en tête à 91/100. Le leaderboard ne dit jamais tout.