Computer Vision Nerede Kullanılır?

FaceApp'teki Maskeden Otomotiv Endüstrisine

Bilgisayarlar artık kapalı bir elektronik sistem değiller. Dış dünya ile etkileşime girerler. Örneğin, nesneleri "görürler" ve birbirlerinden ayırt ederler. FaceApp'te trafik kurallarını ihlal edenlerin kameralara kaydedilmesi, drone ile görüntü yayınlanması ve hatta FaceApp'te yaşlanma etkisi ile maskelerin yapılması - bunların hepsi bilgisayarlı görme uygulamalarıdır. Otopilotların geliştirilmesinde, endüstride, perakende satışta ve sporda bilgisayar görüşünün nasıl kullanıldığını bu makalede anlatacağız.

Dünya (Çevre) İle Etkileşim

1980'lerin başlarına kadar, bilgisayarlara atanan görevlerin çoğu hesaplama veya modellemeye dayanıyordu. Dışarıdan etkileyen hiçbir şey yoktu ve sonuçları sistemlerde kalıyordu.

Artık bilgisayarlar belirli sorunları çözmeyi, dahili algoritmaları yönetmeyi öğrendi ve dünya ile etkileşime girmeye başladı. Bilgisayarla görme, makinelere nesneleri dışarıdan anlamayı ve görmeyi öğretir.

Bilgisayarla görmenin çözdüğü görevler basit ve karmaşık olarak ayrılabilir. Basit olanlar, örneğin bir görüntüdeki bir nesnenin sınıfının tanımlanmasıdır. İlk olarak, cihazlar kameralardan veya fotoğraf veritabanlarından görüntü bilgilerini alır. Kitaplıkların (örn. OpenCV) yardımıyla görüntü piksellerinin kodu çözülür. Bu, fotoğrafı bölümlere ayırmanızı, nesnelerin veya yüzlerin sınırlarını belirlemenize yardımcı olur. Bu tür işlemlere "düşük seviyeli" görüş denir. Örneğin, bir videodaki belirli bir kişinin tanınması. Sinir ağları, milyonlarca görüntüyü analiz ederek istenen nesneyi tanımayı veya bir örnekle eşleştirmeyi öğrenir.

Daha zor bir görev ise nesnelerin veya yüzlerin gerçek zamanlı olarak doğrulanmasıdır.

Otomatik Pilotlar ve Endüstriyel Robotlar

*Makine görüşü, bilgisayarla görme teknolojilerinin mühendislik uygulamasıdır ve ilk kez Amerikan şirketi Automatix tarafından tanıtılmıştır. 1980 yılında, insan müdahalesi olmadan mikro devre üretimi gerçekleştirilmiştir.

Yapay görme, fabrikalarda montaj veya hammaddelerle çalışma aşamasında uygulanır. Kamera sistemleri, ayrıntıların görüntülerini yakalar ve yazılım durumu analiz eder. Böylece, örneğin, otomobil konveyörlerindeki montaj kalitesi kontrol edilir. Yapay görme, kusurlu ürünlerin seçilmesine veya parçaların konumlarının bildirilmesine yardımcı olur.

Bilgisayar görüşü, tüm otopilot sistemlerinin temelidir. En iyi örnek, Tesla Otopilot'tur. Bilgisayar görüşünü açık bir ortam için programlamak, endüstriyel robotlar oluşturmaktan çok daha zordur: üretimde tahmin edilemeyecek daha az faktör vardır. Açık alanda çok fazla öngörülemeyen parametreler vardır (insan davranışı, hava durumu, hayvanlar, peyzaj özellikleri). Tesla'nın otomatik pilotu, eğitildiğinde 70.000 saatlik grafikleri işleyen 48 ayrı sinir ağı tarafından yönetilir. Sinir ağları farklı senaryolar üzerinde eğitilir ve binlerce tahmin üretir.

Ancak mevcut verilerin tamamı sinir ağına yüklense bile, her şeyi tahmin etmek imkansızdır. İşin zor tarafı, insanların bilmediği durumları bir makineye öğretmenin mümkün olmamasıdır.

Tesla'nın bilgisayarla görme ve yapay zeka teknolojisi direktörü Andrey Karpaty, bir kamyonu taşıyan başka bir kamyonu taşıyan bir kamyonu düşünmenizi istedi. Karpaty, diğer geliştiricilerle yolda bu tür durumları gerçekten bilmediklerini belirtti. Bu nedenle, otopilota tüm faktörlere yanıt vermeyi öğretemediler.

Ancak Tesla, Autopilot'u sürekli olarak iyileştirmenin bir yolunu bulmuştur. Araç sahiplerinin rotaları kayıt altına alınır ve veritabanına yüklenir. Şirket, 1 milyon makineden gerçek zamanlı veri aldığını belirtiyor.

Kişisel Antrenör, Mükemmel Sandviç ve Arkeolojik Bulmacalar

Yapay görme, basit günlük görevler için de kullanılabilir. Örneğin, 2019'da Amazon, "kıyafetler için shazam" olarak adlandırılan StyleSnap uygulamasını yayınladı. Kullanıcı tarafından yüklenen kıyafetlerin fotoğrafını işler ve Amazon mağazasında benzer ürünleri arar.

Kasiyerlerin olmadığı Amazon Go süpermarketlerinde başka bir çözüm bulundu. Mağazaya girmek için QR kodunu tarmanız gerekiyor. Mağaza, Just walk out uygulamasıyla alıcıların ne satın alacağını belirler. Uygulama, kamera kayıtlarını analiz ederek alıcının aldığı malları tanır ve parayı banka kartından otomatik olarak çeker.

Başka bir örnek, Exer start up’ın geliştirilmesidir. 2020 baharında, gerçek zamanlı olarak antrenmanı takip eden bir online eğitmen tanıtıldı. Uygulama, lansmandan önce eğitim alan kişilerin on binlerce fotoğrafını işlemişti. Kullanıcının hareketlerini izleyen ve düzeltmeler yapan uygulama, kamera ve makine öğrenimini kullanır. Şirket, uygulamanın lansmanı sırasında insanların kendi kendine izolasyon nedeniyle spor salonlarına gidemediğini kaydetti.

Bir Exer örneği

Karantina sırasında evde kalan geliştirici Ethan Rosenthal, mükemmel bir muzlu ve fıstık ezmeli sandviç tarifi yarattı. Fotoğraf sistemi, muzun en iyi nasıl kesileceğini belirlemek için parçaları eşit aralıklarla yerleştirdi. Sinir ağı, muzun ekseni boyunca uzanan bir eğri oluşturur ve ardından onu ovallere "keser". Algoritma daha sonra muzu ekmeğin üzerine yerleştirilmesinin en iyi yolunu seçer.

Kaynak: Ethan Rosenthal’ın blogu

2018 yılında İsrailli bilim adamları, tam tersi parçaları birbirine bağlamanın en iyi yolunu arayan bir sinir ağı geliştirdi. Program, görüntüleri işler ve bulunan parçalardan orijinal görünümlerini oluşturduğu için arkeologların da işine yarar.

Elde edilen sonuçların örneği

Arkeoloji, bilim adamlarının bulduğu eserlerin neredeyse her zaman zarar gördüğü için bu tür algoritmalara ihtiyaç duyar. İnsanların en basit bulguları işlemesi genellikle birkaç gün sürerken, bazen restorasyon birkaç yıl alır. Algoritmalar, bulunan eserlerin orijinal görünümünü çok daha hızlı bir şekilde geri yükleyebilir.

Yapay görme, yalnızca parçalardan geri yükleme yapmakla kalmaz, aynı zamanda yeni bir gerçeklik de yaratır. NVIDIA ve MIT şirketi, Video-to-Video teknolojisini tanıttı. Bu teknoloji, bir şablona dayalı gerçekçi bir video oluşturmayı sağlar. Bilgileri yükleyerek, örneğin, arabaların hareketinin bir modelini veya bir şehrin çizimini elde edebilirsiniz.

MIT, Temporal Relation Network adlı başka bir proje üzerinde çalışma yaptı. Araştırmacılar, sinir ağına nesnelerin görünümünü belirlemeyi değil, aynı zamanda onlarla ne yapıldığını anlamayı da öğrettiler. TRN, video akışından birkaç anahtar kare seçer ve ardından ağ bunları analiz eder ve değişiklikleri karşılaştırmayı öğrenir. MIT uzmanları, teknolojinin kendi kendini denetleyen robotları eğitmek için kullanılabileceğine inanıyorlar.

Kapak: Towards Data Science

Yazar: Oleksandr Tartachny

Paylaş: