Çarpan Etkisinin Kör Noktası
Yapay zekâ hızlanıyor, ama biz hâlâ doğrusal düşünüyoruz.
Julian Schrittwieser’ın yazısını okurken, aklıma pandeminin ilk haftaları geldi: eğriler gözümüzün önünde tırmanırken “daha vakit var” diyen yorumlar hâkimdi. Bugün, Anthropic’te yapay zekâ araştırmacısı olan (AlphaGo/AlphaZero/MuZero hattındaki çalışmalarıyla tanıdığımız) Julian Schrittwieser, “Çarpan etkisini yine ıskalıyoruz” diyerek aynı düşünme hatasının yapay zekâda tekrarladığını gösteriyor. Yazı 27 Eylül 2025 tarihli; argüman yalın: üstel ilerlemeyi doğrusal bir sezgiyle okursak, olup biteni sistematik biçimde hafife alırız.
Yazar kim?
Julian Schrittwieser, Anthropic’te araştırmacı; önceki çalışmaları arasında AlphaZero, MuZero, AlphaTensor, AlphaDev gibi çığır açıcı projeler var. Avusturyalı; Google/DeepMind geçmişiyle de biliniyor. Kişisel sayfasında makaleleri ve kısa özgeçmişi yer alıyor. (julian.ac)
Yazının ana tezi
Schrittwieser, “AI balonu” söylemleriyle (ve “model hâlâ hata yapıyor, o hâlde hiç yapamayacak” türü çıkarımlarla) pandemideki erken dönem algı körlüğü arasında paralellik kuruyor: birkaç sürüm arasında gündelik diyaloğunuzda dev bir fark görmemeniz, eğrinin durduğu anlamına gelmez; üstel bir trend çizgi üzerinde akmaya devam ediyordur. (julian.ac)
Kanıt 1 METR: Görev uzunluğu üstel büyüyor
METR’in “uzun görev tamamlama” ölçümü, modellerin kendi başına tamamlayabildiği görev süresi (insan için kaç dakika/saat sürdüğü) açısından 6 yıldır yaklaşık 7 ayda bir ikiye katlandığını raporluyor. 2025 başında çıkan Claude 3.7 Sonnet, %50 başarı eşiğinde ~1 saatlik işleri tamamlayabiliyordu; METR grafiği düzenli güncelleniyor ve üstel çizgi korunuyor. Schrittwieser, güncel grafikte Grok 4, Opus 4.1 ve GPT-5’in eklendiğini ve 2 saati aşan görevlerde çizginin hafif üzerinde seyrettiğini not ediyor. (Sonnet 3.7’nin 24 Şubat 2025’te çıktığı da makul bir zaman damgası veriyor.)
Kanıt 2 OpenAI GDPval: 44 meslekte “gerçek iş” üstünde ölçüm
OpenAI’nin 25 Eylül 2025’te duyurduğu GDPval değerlendirmesi, ABD GSYH’sına en çok katkı yapan 9 sektörde 44 mesleğe yayılmış 1.320 görevi (altın açık set: 220) alan uzmanları tarafından yazılmış gerçekçi çıktılarla (doküman, slayt, diyagram, tablo, vb.) ölçüyor. İlk bulgular, en yeni modellerin insan performansına şaşırtıcı ölçüde yaklaştığını; ayrıca bazı grafiklerde laboratuvarlar arası karşılaştırmanın yapıldığını gösteriyor. (Veri kartı Hugging Face’te açık.)
Neden hâlâ “az etki” sanıyoruz?
Yazarın yanıtı iki katmanlı:
Sezgi hatası: Üsteli doğrusal okuyoruz; yakın geçmişte “bilim kurgu” saydığımız şeylerin bugünkü hali bile yeterince sarsıcıyken, hatalara bakıp “hiç olamayacak” diyoruz.
Benchmark tuzakları: Bazı modeller lansmanda çok sayıda sınavda SOTA gösterseler de gerçek-dünya görevlerinde (veya geniş spektrumlu eval’larda) aynı hizayı tutturamayabiliyor; Goodhart yasası uyarısı burada devreye giriyor.
Yakın vadeye dair öngörüler (yazarın projeksiyonu)
2026 ortası: Modellerin tam iş günü (≈8 saat) uzunluğunda görevleri otonom yürütebilmesi.
2026 sonu: En az bir modelin birçok sektörde uzman düzeyine eşleşmesi.
2027 sonu: Modellerin pek çok görevde uzmanları sıkça geride bırakması.
Schrittwieser’e göre, “grafiklerde düz çizgi çekip ekstrapolasyon yapmak”, çoğu yorumcudan (hatta birçok alan uzmanından) daha isabetli bir gelecek tahmini verebilir.
İleri okuma
Yazar, Epoch AI’nin 2030 raporunu ve AI-2027 projesini “yakın gelecek resmi” için öneriyor. İkisi de mevcut ölçekleme eğilimleri kesilmezse, altyapı/enerji/sermaye gereksinimleri artsa bile kabiliyetin ivmelenmeye devam etmesini bekliyor.
Benim çıkarımım
KPI’nızı doğru seçin: Ekiplerinizde “tek adımlık doğru cevap” yerine görev süresi ufkunu (modelin kendi başına kaç dakikalık/saatlik işi çözebildiği) izleyin. Bu metrik, iş etkisine çok daha yakın.
Eval hijyenine dikkat: Birkaç “gösterişli” benchmark yerine meslek-özel, gerçek çıktı isteyen eval’lar kurun. GDPval yaklaşımı bunu örnekliyor; siz de kendi süreçlerinize benzer iş paketleriyle pilotlar tasarlayın.
Yol haritası: 2026–2027 penceresinde otonomi/uzman eşleşmesi bekleniyorsa; iş akışını modülerleştirme, veri yönetişimi ve güvenli araç kullanımı (kod, ofis, tasarım, arama, ajans yetenekleri) için bugünden birleştirme planı yapın. (METR’in eğrisi, gecikenlerin farkı hızla açılacağını söylüyor.)
Kısa söz: Schrittwieser’in mesajı basit ama rahatsız edici: “Henüz kusursuz değil” diye avunurken, üstel eğriyi kaçırmamak için bakışımızı görev ufkuna ve gerçek iş çıktısına çevirmemiz gerekiyor. Geri kalanını eğri yapacak.



