Peta persaingan kecerdasan buatan (AI) berubah drastis hari ini. Google DeepMind resmi meluncurkan Gemini 3 dan varian tercerdasnya, Gemini 3 Deep Think, yang membawa data benchmark mengejutkan.
Bukan sekadar klaim pemasaran, data teknis menunjukkan Gemini 3 tidak hanya mengungguli, tetapi “melumat” kompetitor terdekatnya, Claude Sonnet 4.5 dan GPT-5.1, terutama dalam tugas-tugas yang membutuhkan penalaran visual (visual reasoning) dan pemahaman layar komputer (screen understanding).
Artikel ini akan membedah data performa Gemini 3 berdasarkan laporan teknis terbaru dan mendemonstrasikan bagaimana fitur “Deep Think” bekerja dalam skenario dunia nyata.
Dominasi Benchmark: Data Berbicara

Berdasarkan grafik perbandingan performa yang dirilis, Google memperkenalkan standar baru dalam evaluasi AI. Berikut adalah sorotan utama dari pertarungan Gemini 3 Deep Think vs. GPT-5.1:
1. Humanity’s Last Exam: Tes Penalaran Akademis Tersulit
Dalam benchmark Humanity’s Last Exam, sebuah tes yang dirancang untuk mengukur batas kemampuan penalaran akademis AI, hasilnya sangat mencolok:
- Gemini 3 Deep Think: 41% (Tertinggi)
- Gemini 3 Pro: 37.5%
- GPT-5.1: 26.5%
- Claude Sonnet 4.5: 13.7%
Data ini menunjukkan bahwa dalam pemecahan masalah kompleks yang membutuhkan logika mendalam, Gemini 3 memiliki keunggulan hampir 1,5x lipat dibandingkan model terbaik OpenAI saat ini.
2. Keajaiban di Visual Reasoning (ARC-AGI-2)
Peningkatan paling radikal terlihat pada tes ARC-AGI-2, yang mengukur kecerdasan spasial dan pola visual yang selama ini menjadi kelemahan besar LLM (Large Language Models).
- Gemini 3 Deep Think mencetak skor 45.1%, jauh meninggalkan GPT-5.1 yang hanya mencapai 17.6%.
- Ini membuktikan bahwa Gemini 3 bukan sekadar “chatbot teks”, melainkan sistem yang benar-benar “melihat” dan memahami logika visual layaknya manusia.
3. Screen Understanding: Mata untuk Agen AI
Salah satu data paling mengejutkan dari tabel benchmark adalah pada kategori ScreenSpot-Pro (kemampuan AI memahami tampilan layar komputer/UI):
- Gemini 3 Pro: 72.7%
- GPT-5.1: 3.5%
Angka 3.5% milik GPT-5.1 menunjukkan bahwa model tersebut hampir buta terhadap konteks antarmuka aplikasi, sementara Gemini 3 mampu menavigasi layar dengan presisi tinggi. Ini adalah fondasi utama bagi fitur Google Antigravity yang memungkinkan AI mengendalikan software secara otonom.
Demo Nyata: Visualisasi Fusi Nuklir dalam Detik
Dalam sebuah video demonstrasi teknis berjudul “Gemini 3: Code a visualization of nuclear fusion”, Google memamerkan kemampuan multimodal coding yang presisi.
Dalam video tersebut, Gemini 3 diminta untuk membuat simulasi partikel fusi nuklir. Tidak hanya menulis kode Python/JavaScript, model ini:
- Memahami Fisika: Mengkalkulasi pergerakan partikel secara akurat.
- Self-Correction: Melakukan debugging visual secara real-time saat simulasi berjalan.
- Generative UI: Langsung merender hasil visualisasi interaktif di panel samping (side panel), bukan sekadar memberikan blok kode teks mentah.
Ini menegaskan posisi Gemini 3 sebagai alat bantu coding paling advanced saat ini, dengan skor LiveCodeBench Pro mencapai 2,439 Elo, mengalahkan GPT-5.1 (2,243 Elo).
Mengapa “Deep Think” Berbeda?

Fitur Deep Think pada Gemini 3 bukan sekadar marketing gimmick. Ini adalah implementasi Chain of Thought (rantai pemikiran) yang transparan.
Saat diberikan soal matematika level kompetisi (MathArena Apex), Gemini 3 Pro mampu meraih skor 23.4%, sementara GPT-5.1 dan Claude Sonnet 4.5 terseok-seok di angka 1.0% – 1.6%. Kemampuan Gemini untuk “berhenti sejenak dan berpikir” sebelum menjawab terbukti efektif memecahkan masalah logika yang sebelumnya dianggap mustahil bagi AI.
📝 Editor’s Take: Real Talk (Gw/Lo)
Oke, abis liat data di atas, gw harus jujur: OpenAI lagi dalam masalah besar.
Selama ini kita sering debat “GPT vs Gemini” cuma pake feeling atau tes-tes receh kayak bikin puisi. Tapi data benchmark ScreenSpot-Pro (72.7% vs 3.5%) itu gila banget, man. Itu gap-nya bukan dikit lagi, tapi beda kasta.
Artinya apa buat lo?
- Buat Developer: Kalau lo masih ngoding pake GPT-5.1 buat bikin UI/UX atau automation script, lo ketinggalan kereta. Gemini 3 Pro bisa “liat” layar aplikasi lo, GPT nggak bisa. Titik.
- Buat Mahasiswa/Researcher: Liat skor MathArena dan GPQA Diamond (93.8%). Kalau lo butuh AI buat bantu ngerjain skripsi teknik atau analisa jurnal sains, Gemini 3 Deep Think sekarang jadi satu-satunya opsi yang masuk akal.
Saran gw: Jangan cuma percaya omongan gw. Coba lo tes sendiri fitur Deep Think di Gemini Advanced sekarang. Kasih dia soal logika visual atau suruh analisa screenshot dashboard kerjaan lo. Lo bakal ngerasain bedanya “AI yang nebak” sama “AI yang mikir”.
GPT-5 harus buru-buru rilis update kalau nggak mau ditinggal user power user-nya pindah ke Google.
Dampak Masif Gemini 3 Buat Performance Marketing
Buat lo yang sering pusing mikirin Conversion Rate Optimization (CRO), fitur Screen Understanding Gemini 3 adalah game changer. Dengan skor telak 72.7% di benchmark ScreenSpot-Pro, kemampuan model ini dalam memahami UI jauh ninggalin GPT-5.1 yang cuma dapet skor menyedihkan di 3.5%. Lo bisa langsung upload screenshot landing page atau iklan kompetitor, dan dia bakal kasih audit UX mendalam layaknya konsultan senior yang “melek” visual.
Fitur Deep Think juga bakal nyelamatin lo dari mimpi buruk analisa data atribusi yang seringkali chaos. Berbekal skor 91.9% di benchmark sains GPQA Diamond, kemampuan nalar Gemini 3 bisa lo manfaatin buat deteksi anomali data kampanye yang sering luput dari mata manusia. Dia nggak cuma nampilin grafik, tapi bisa kasih hipotesa valid kenapa ROAS lo tiba-tiba turun di jam tertentu dengan mengkorelasikan jutaan titik data.
Terakhir, konsep Agentic Workflow bakal mengubah total cara lo eksekusi teknis kampanye harian. Lo nggak perlu lagi repot ngemis ke tim IT buat pasang script pelacakan karena Gemini 3 punya kemampuan coding visual yang superior untuk tugas teknis. Dia bisa bertindak sebagai agen otonom yang nulis script GTM/Pixel presisi, bahkan bantu optimasi bidding secara real-time tanpa lo harus pantengin dashboard 24 jam.
Lo tim mana sekarang? Masih setia nunggu GPT-5 update, atau mau selingkuh ke Gemini 3?
Source:
