Boğaziçi Üniversitesi’nden DNA’nın dilini yapay zekâ ile çözmeyi hedefleyen araştırma

Photo: 
 
Boğaziçi Üniversitesi Bilgisayar Mühendisliği Bölümü öğretim üyeleri Prof. Dr. Fikret Gürgen, Doç. Dr. Arzucan Özgür ve aynı bölümde araştırma görevlisi olan N. Özlem Özcan Şimşek’in Genomic Data Analysis Using Machine Learning Techniques For Disease Prediction başlıklı araştırmaları DNA verisinin kanser hastalığı teşhisinde kullanıldığı öncü araştırmalardan biri...
Kenan Özcan

DNA dizileme teknolojileri gelişip mali açıdan da erişilebilir oldukça, bilim dünyası başta kanser türleri olmak üzere birçok hastalığın teşhisinde artık genomik verilerden yararlanıyor. Genom verilerinin hesaplama sistemleri için büyüklüğü çok yüksek miktarlarda olduğu için DNA'daki bu değerli bilgilerin kompakt ve doğru bir şekilde temsil edilmesi ise ayrı bir önem arz ediyor.

Boğaziçi Üniversitesi Bilgisayar Mühendisliği Bölümü öğretim üyeleri Prof. Dr. Fikret Gürgen, Doç. Dr. Arzucan Özgür ve aynı bölümde araştırma görevlisi olan N. Özlem Özcan Şimşek’in Genomic Data Analysis Using Machine Learning Techniques For Disease Prediction başlıklı araştırmaları DNA verisinin kanser hastalığı teşhisinde kullanıldığı öncü araştırmalardan biri. Araştırmacılar DNA’da dört harften oluşan bir dil yapısı olduğu varsayımından hareketle geliştirdikleri dil işleme / makine öğrenmesi yöntemiyle DNA’nın dilini çözümlemeye ve farklı kanser türüne sahip hastaların genlerindeki mutasyonları inceleyerek hastalığa yol açan sebepleri anlamaya çalışıyor.

Prof. Dr. Fikret Gürgen, Doç. Dr. Arzucan Özgür ve araştırma görevlisi N. Özlem Özcan Şimşek, araştırmaları hakkında şu bilgiyi verdi: ‘’İnsanlar arasında iletişimde nasıl dili kullanıyorsak DNA’nın da bir dili var. Araştırmamızda işte bu dili çözümlemeye çalışıyoruz. Temel amacımız genom verisi vasıtasıyla hastalıklara yol açan genleri tanımak. Bu kapsamda doğal dil işleme üzerine yürüttüğümüz çalışmalarda kullandığımız teknikleri DNA’da gizli olan dile uygulayabilir miyiz fikrinden yola çıktık ve DNA örneklerinden kanser türlerini teşhis edebilir miyiz, diye düşündük’’.

7 bin hastanın DNA verisi incelendi

Dünya genelinde ölüm nedenlerinin başında gelen 10 farklı kanser türünü ele alan araştırmacılar, ABD’deki National Cancer Institute’ün sağladığı imkânlarla erişimlerine açılan The Cancer Genome Atlas’tan alınan 7 bin hasta verisini inceledi.  Hastaların DNA dizilerini referans genom dizileriyle karşılaştıran araştırmacılar hangi genlerde ne tür mutasyonlar olduğunu inceleyerek kanser türlerini yapay öğrenme (makine öğrenmesi yöntemi) ile ayrıştırabilir miyiz sorusu üzerine yoğunlaştı.

Gürgen, Özgür ve Şimşek izledikleri yöntemi şöyle anlattılar: ‘’ Kompleks genetik bozuklukların ortaya çıkması genellikle çoklu gen mutasyonlarından kaynaklanır. Her mutasyonun etkisi, bir hastalığın gelişimi için eşit değildir. Çalışmamızda altta yatan varsayım, belirli bir hastalığı olan hastalarda bir genin ne kadar çok mutasyonu olursa ve diğer hastalarda ne kadar az mutasyonu olursa, genin o ölçüde ayırt edici olduğu yönünde. Buna göre, elimizdeki 7 bin hastanın DNA’sındaki mutasyonlardan bir model öğrenen ve buna göre yeni bir DNA dizisi geldiğinde oradaki mutasyonlara göre 10 kanser türünden birinin olup olmadığını tespit etmeye çalışan makine öğrenmesi tabanlı bir yöntem önerdik’.

Çalışmada yüzde 76 gibi önemli bir başarı oranına ulaşan araştırmacılar bu sayede yakın gelecekte bazı kanser türlerinde biyopsi vb. gibi yöntemlerle yapılan teşhis yerine hastadan sadece kan ve tükürük örneği alınarak da ne tür bir kanser türü olduğunun anlaşılabileceğini belirtiyorlar.

Araştırmada kullanılan teknik hakkında bilgi aldığımız Gürgen, Özgür ve Özcan, genleri mutasyonlarına göre skorladıklarını ve bu işlemi yaparken metin işleme yöntemlerinden esinlendiklerini belirttiler:

‘’Doğal dillerde bazı kelimeler anlam açısından daha önemli oluyor. Bazı kelimeler ise (ve, veya, ise gibi) çok sık kullanılıyor olsalar da semantik anlamları olmuyor ve bir metnin konusu ile ilgili ayırt edici özellikleri olmuyor. Benzer şekilde, bir mutasyon hemen hemen tüm hastalarda geçiyorsa belli bir kanser türü için ayırt edici özelliği olmuyor. Öte yandan, bir mutasyon daha nadir ise ve belirli bir kanser türüyle teşhis edilen bireylerde tespit edilmişse, ayırt edici özelliği daha fazladır diye varsayıyoruz’’.

‘’Çalışmamızın hastalara dokunacağı önemli noktalardan ilki, projemizin ileride daha da geliştirilmesi durumunda hastaların biyopsi gibi işlemlere gerek kalmadan hangi kanser türüne sahip olduklarının teşhis edilebilmesi. Bir diğer önemli nokta ise bu çalışmada genler üzerindeki mutasyonları geriye dönük izleyerek hastalığa neden olan genleri tahmin ediyoruz. Çalışmamızda akciğer ve meme kanserini örmek alarak toplam 20 gene baktık. Dolayısıyla bu çalışma bir taraftan hastalığın teşhisine yardımcı olurken bir taraftan da hangi genlerin hastalıkla ilişkisi olduğunu göstermeyi amaçladı.  Dolayısıyla daha ileride bu çalışmanın tedavi açısından yeni ilaç denemeleri gibi gelişmelere faydası olacağını düşünüyoruz’’.

Yeni çalışmada 500 bin hastanın verisi var

‘’Hali hazırda yürüttüğümüz bir başka çalışmada da 500 bin hastanın verisi mevcut. Bu kişilerin sadece kanser değil çok çeşitli hastalıkları var ve dolayısıyla bu veride kişilerin yaşam alışkanlıkları, sigara tüketimleri gibi verilerin de olduğu çok daha geniş bir genom verisi söz konusu. Biz bu verileri genom verisiyle entegre ederek daha kapsamlı bir veri seti çıkarmayı ve başarı oranımızı daha yükseğe çekmeyi hedefliyoruz’’.

Makine öğrenmesi yoluyla elde edilen verilerin özellikle sağlık sektörü profesyonellerine önemli fayda sağlayacağını aktaran araştırmacılar, günümüzde büyük verinin artık hemen her alanda kullanıldığına dikkat çekerek şöyle eklediler:

‘’Bir hekimin meslek hayatı boyunca kaç kişinin verisiyle karşılaşabileceğini düşünürsek, elde edilen büyük verinin önemi daha iyi anlaşılabilir. Ancak büyük veriyi işlemek kendi içinde yeni problemleri beraberinde getiriyor. Bu nedenle büyük veriyi incelerken derin öğrenme tekniklerine başvuruyoruz. Bu da yüksek hesaplama gücüne sahip bilgisayarlar vasıtasıyla yapılabiliyor. Günümüzde sağlık sisteminden bankacılığa her alanda verilerin astronomik olarak artışıyla bilgi işleme tekniklerinin de her alana girdiğini görüyoruz. Biyo Bank denilen genetik veri bankalarının ortaya çıkması gibi gelişmeler özellikle akademik çalışmalar için giderek daha fazla önem kazanıyor’’.

 

Prof. Dr. Fikret Gürgen, Doç. Dr. Arzucan Özgür ve N. Özlem Özcan Şimşek tarafından hazırlanan ve Haziran ayında yayınlanan makaleye erişim için:

https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-019-2868-4