Apakah AI Sudah Benar-Benar Pintar Matematika?
Analisis Performa: Dari GPT-3 hingga Era Reasoning Model (2025)
Selama bertahun-tahun, matematikawan skeptis terhadap AI. Mesin ini bisa menulis puisi, tapi gagal menghitung
Artikel ini akan mengajak Anda mensimulasikan perbedaan cara kerja otak AI lama vs AI baru, serta melihat data valid keberhasilan mereka dalam menaklukkan soal Olimpiade Matematika.
1. Simulasi Laboratorium: System 1 vs System 2
Dalam psikologi kognitif, manusia memiliki dua mode berpikir. System 1 (Cepat, Intuitif) dan System 2 (Lambat, Analitis).
LLM Standar (GPT-4o mini, dll) bekerja seperti System 1.
Reasoning Models (o1, Gemini 2.0) bekerja seperti System 2 menggunakan teknik Chain of Thought (CoT).
2. Data Valid: Skor AIME (Olimpiade Matematika AS)
Grafik berikut menggunakan data dari laporan teknis OpenAI (2024) mengenai performa model pada soal AIME (American Invitational Mathematics Examination). Ini adalah benchmark yang sangat sulit dimana siswa cerdas biasanya hanya mencetak skor rendah.
Akurasi pada Benchmark AIME (2022-2025)
Analisis: Perhatikan lonjakan masif dari GPT-4o (13%) ke o1 (83%). Ini bukan peningkatan linear, melainkan eksponensial. Hal ini terjadi karena perubahan paradigma dari "Prediksi Token" menjadi "Self-Correction" saat inference time.
3. Kuis Pemahaman Teknologi
Soal 1: Benchmark mana yang menunjukkan lonjakan skor AI hingga 83% pada tahun 2024?
Glosarium & Sumber
- Inference Time Compute:
- Waktu tambahan yang diambil AI sebelum menjawab untuk memproses logika (berpikir), bukan sekadar menghasilkan teks instan.
- AIME (American Invitational Mathematics Examination):
- Kompetisi matematika tingkat menengah yang digunakan sebagai standar emas untuk menguji kemampuan penalaran logika AI.
- Hallucination:
- Kesalahan AI di mana ia memberikan jawaban yang salah dengan penuh percaya diri.
Referensi: OpenAI. (2024). Learning to Reason with LLMs; Google DeepMind. (2024). AlphaGeometry Technical Report; Hendrycks, D., et al. (2021). Measuring Mathematical Problem Solving (MATH Benchmark).

