Konuğum Dr Eren Ünlü'den: Boğaz’ın Billy’siyiz.
Turkish Moneyball, istatistik, derin öğrenme ve kompleks cebir bizi nasıl dünyadaki yegane örnek yaptı? Futbol datası neden en ideal veri bilimci “challenge”ı ve nasıl bir çağa giriyoruz?
Bu hafta konuk yazarlarım serisinin ilk katılımcısı, değerli data science hocam ve Comparisonator’ın akademik beyni Dr Eren Ünlü olacak. Kendisi Fransa’dan, samimi kalemiyle sizlere sesleniyor.
Dr Eren Ünlü: 89 doğumlu, Erenköy çocuğu. KAL’07, Bilkent EE’11, Telecom Paristech’13, CentraleSupélec’16. Yaklaşık 10 yıldır Fransa’da akademi ve pazarda veriyle uğraşır.
Comparisonator çok başka bir hikaye
Comparisonator’ı duydunuz mu ? Eğer dünyanın herhangi bir yerinde futbolla uğraşıyorsanız (gerek menajerlik, gerek teknik kadro, gerek basın-yayın vs.) büyük ihtimalle duymuşsunuzdur. Bizleri tanıyalardansanız zaten duydunuz. Fakat, duymadıysanız öncelikle şunu bilmeniz gerekiyor, çok başka ve bilinmesi gereken bir hikaye -hani yeni neslin fenomen dediğinden.
Comparisonator Tarkan Hoca, Umut Reis ve Furkan Reis’in kurduğu bir futbol verisi start-up’ı (ve yer sebebiyle bu cümleye sığdıramadığım onlarca mükemmel bey ve hanımefendi).
Bugün Japonya’dan ABD’ye isimlerini bildiğiniz yüzlerce önemli futbol takımı, spor medya kuruluşu, ajans şirketi hergün bu harika platformu kullanıyor. Sektördeki başat oyunculardan ve gerçek bir “Made in Türkiye” başarı hikayesi.
Ben Compa ile yaklaşık 3 sene önce tanıştım. Bu nevi şahsına münhasır, yetkin ekibin o güne kadar başardıklarını dinlediğimde inanamamıştım. Daha sonra 3 sene zarfında meteorik büyümelerini ön sıradan izleme fırsatı bulurken bunu nasıl başardıklarını anladım. Şu an piyasada çok konuşulan “get things done mentality” olayı var ya, işte bu ekip Harvard Business School’da onun örneği olarak gösterileceklerden. (Sanırım, bana Compa ekibini bir cümleyle tanımla deseler, aklıma ilk gelen bu olurdu.)
Tarkan hoca ANZAC diyarında yıllarca yaşamış, futbol scoutluğunun kralını yapmış, inanılmaz yetkin bir yönetici, girişimci ve forever scout. Umut için aklıma ilk gelen kelime, Frenk diyarında “prodigy” dedikleri. Yıllardır akademi ve start-up aleminde düzinelerce çok zeki ve orijinal şahısla tanışma şansım oldu ama Umut benim bugüne kadar tanıdığım, genç yaşında programlama ve girişim dehası bu düzeyde olan ilk prodigy idi. Furkan Reis ise yaşına göre inanılmaz finans ve marketing dehası olan bir acayip silahşör.
Sporda verinin uygulamalı kullanımı deyince herkesin aklına herhalde “Moneyball” filmi veya hikayenin kaynağı olan otobiyografik roman gelir. Duymayanlar için, Oakland Athletics beyzbol takımını düşük bütçeyle, data ve istatistik temelli transfer politikasıyla başarıya taşıyan Billy Beane’ın gerçek hikayesini anlatır.
Özellikle baya bir gişe yapan film, sporda veri konusunu kitlelere taşımakla kalmadı ve o dönem beyzboldan futbola birçok takım sporu yetkilisinin bu olayın önemini geç de olsa farketmelerini sağladı. Aradan geçen 10+ senede data ve yapay zeka büyük-küçük, amatör-profesyonel takımın ve diğer spor paydaşlarının vazgeçilmez parçalarından biri oldu.
Comparisonator sağladığı niche birçok özellik ve derin bilimsel, nevi şahsına münhasır algoritmalariyla Kuzguncuk’tan dünyaya açıldı, Boğaz’ın Billy’si oldu.
Has İstatistik - Has Derin Öğrenme
Benim Compa ile yolculuğum çeşitli algoritmaların geliştirilmesine yardımcı olmak şeklinde geçti. Bu ürünleri geliştirirken ilk çıkış noktanız tabi ki “kim, ne yapmış ?” oluyor. Baktığımızda şunu gördük, iyi-kötü, büyük-küçük çeşitli rakipler var dünyada fakat hiçbirinde yeterli akademik ve algoritmik derinlik göremedik.
Bizim düsturumuz hep bu yönde oldu, futbol datası kullanan algoritmalar doğası gereği gelişigüzel junior makine öğrenmesi scriptlerinin kontrolsüz kullanımına izin vermiyor. Veri bilimi ve ML algoritmalarının çok hızlı büyüyen popülaritesi ve kolay ulaşılabilen kütüphaneleri, bu uygulamaların kontrolsüz ve tehlikeli kullanımına sebep oldu. Bu, işlerin içerisinde yeteri kadar olanların üç-dört senedir farkında oldukları ciddi bir sorun.
Bazı sektörler, ya potansiyel etkileri ya da verilerinin doğası gereği (mesela futbol) ekstra müzdarip. Çok ilginç ve beni tatmin eden bir kariyerim oldu, çok şükür. Buradaki ana faktör “çeşitlilik” idi. Akademide ve pazarda, gerek önüme gelen işlerden ve projelerden olsun, gerek öğrencilere verdiğim dersler nedeniyle olsun, ileri istatistikten, derin pekiştirmeli öğrenmeye; çok niche computer vision uygulamalarından kompleks zaman serilerine, müşteri odaklı karmaşık veri analizinden, büyük dil modellerine her şeye dokunabildim, dokunuyorum.
Bu taksonomik çeşitliliğin ilk öğrettiği şey aslında bu alanda düzgün development için hepsinden tecrübeye ihtiyacınız olduğu oluyor. Fakat, en önemlisi temel istatistiki kavramlar :
There are so many things that can go wrong with a proper looking machine learning stack, and worst you may never know about them.
Özellikle futbol verisini temel alan algoritmalarda, eğer istatistiki temelleri bilmiyorsanız müşteriye yanlış sonuçlar verilebilir. Dediğim gibi, bir çok rakibin ürününde bu tehlikeyi fark ettik. Geliştirdiğimiz her algoritma, çok kapsamlı teorik, açıklanabilir istatistiki temellere oturtuldu ve beta müşterilerini de içine alan birçok paydaş tarafından çok uzun development ve test döngülerinden geçirildi. Belki yüze yakın bilimsel makale okuduk, bu makaleleri ve metodolojileri tartıştık, en orijinal ama en önemlisi işe yarayan algoritmaları geliştirmeye özen gösterdik.
Futbol verisi bir data scientist için mezuniyet projesi tadında
3+ senedir futbol datası üzerine okuduktan ve geliştirme yaptıktan sonra diyeceğim şu olur: Bir data scientist ve ML mühendisi için çok iyi bir challenge. Öncelikle dediğim gibi, bir ML uygulaması yapılacaksa, doğası gereği kopyala-yapıştır one-liner kütüphane kullanımın hemen patlayacağı bir alan. İkincisi, neredeyse visualization ın her türlüsünün kullanımı ve yeri geldiğinde çok niche dokunuşların yapılması gerektiriyor. Üçüncüsü, doğası gereği zaman aksı içeriyor. Ve daha birçok teknik sebep sayabilirim ama en önemlisi : çok zevkli ! O yüzden genç datacı arkadaşlara bu alana biraz dalmalarını ve bir portfolyo oluşturmalarını kesinlikle tavsiye ediyorum.
Peki GenAI?
Demeye gerek yok herhalde : Üretken yapay zeka ve büyük dil modelleri önümüzdeki beş sene içinde her şeyi olduğu gibi futbolu da kökünden değiştirecek. Compa da bu alanda başat bir rolde olacak, çalışmalar harıl harıl sürüyor. Şimdilik gelecek iki sene içinde birkaç öngörüde bulunalım:
1. Futbol datası doğası gereği “dizili olay” ve LLM’lerin sadece in-context öğrenmede bile linguistik olmayan dizilerdeki (mesela genetik vs.) örüntüleri çok iyi kavrayabileceği ortaya kondu.
2. Linguistik bazda ise scouting den tutun fan engagement a sonsuz potansiyel uygulama var.