هل بالغت OpenAI في أداء o3؟ نتائج FrontierMath تكشف عن 10% فقط