|
#1
|
|
23.11.08, 19:57
«Karakter tanıma», makinayla ya da elle yazılmış bir metnin, otomatik olarak okunma sürecine verilen addır. Karakter tanıma makinaları, genellikle, bilgilerin bilgisayar sistemlerine verilmesi için kullanılır. Bu bilgilerin büyük bir bölümünün insanlar tarafından oluşturulmuş ya da okunacak olması, aynı belgelerin, hem makinalar, hem de insanlar tarafından kullanılabilecek biçimde olmasını gerektirir. Alışılmış yöntemde, veri girişinde, belgeleri okumada ve bilgiyi, bilgisayara giriş yapılabilecek kağıt şerit ya da delikli kartlara yazmada, delgi operatörleri kullanılır (Bk. DELİKLİ KART MAKİNALARI). Bu yöntem, pahan olmasının yanı sıra, sık sık yanlış yapılmasına da yolaçar. Bu yüzden, büyük miktarda bilginin söz konusu olduğu bazı bilgisayar sistemlerinde, karakter tanıma makinalarından yararlanılır. İnsanlar için okumanın oldukça kolay olmasına karşılık, aynı işi yapacak bir makinanın tasarımında çok sayıda sorunla karşılaşılır. Sözgelimi, insanlar, belirsiz bir karakterin ne olabileceğine, sözün gelişine bakarak karar verebilirler. Oysa, bir makinaya, böyle bir özellik kazandırmak çok güçtür. Makinada karakter, yalnızca biçime ilişkin bilgilere dayanılarak tanınır. Bir karakter tanıma makinasının ana parçaları şunlardır: Üstünde karakterlerin yazılı olduğu kağıdı ya da başka bir ortamı hareket ettiren belge iletici sistem; kağıdı tarayan ve görüntüyü elektrik sinyaline çeviren bir tarayıcı; gelen sinyalleri, tanıyıcı için standartlaştıran bir Önişlemci; o anda hangi karakterin görülmekte olduğuna «karar veren» tanıyıcı. Söz konusu işlemlerin gerçekleştirilmesi için çeşitli teknikler geliştirilmiştir. Bunlardan hangisinin elverişli olduğuna, tanınacak karakterlerin tipine ve makinanın çalıştırılacağı hıza göre karar verilir. Aşağıda, sayfadan optik yollarla karakter okuyan makinalar anlatılmaktadır. Belge iletimi: Karakter tanıma makinasının en pahalı parçası, üstünde karakterler bulunan kağıt kartı, mikrofilmi ya da çetele şeridini hareket ettiren belge iletim mekanizmasıdır. Belgelerin, hareketsiz bir tarama kafasının önünden geçirildiği belge okuyucularında, yüksek aktarma hızlarının (saniyede okunan karakter) elde edilmesi için, yüksek kağıt hızı ve karmaşık mekanik, pnömatik sistemler gerekir. Optik tarama yapılırken belgelerin hareketsiz tutulduğu sayfa okuyucularında, kağıt hareketinin hızı düşüktür. Ama bunlarda da, tek tek sayfaların sıkışıp buruşmadan iletilmesi, bazı sorunlar yaratır. Sayfa okuyucularda karşılaşılan kağıt iletimi sorunları, temelde, delikli kart makinası, FOTOKOPİ MAKİNASI, vb. aygıtlardakine benzer. Son yıllarda, elde tutulan bir çubukla tarama yapan karakter tanıma makinaları da geliştirilmiştir. Bu tür aygıtlar, süpermarketlerde, malların üstündeki kodları ve etiketleri okumak gibi amaçlarla kullanılır. Tarayıcı: Tarayıcının işlevi, kağıt üstündeki görüntüyü, kolayca işlenebilecek elektrik sinyallerine çevirmektir. Taramada yararlanılan yöntem, onu izleyen tanıma işleminin biçimine bağlıdır. Karakter, FOTOSEL gibi bir dizi ışığa duyarlı algılayıcı üstüne düşürülen dar bir ışık demetiyle aydınlatılabilir. Başka bir yöntem de, karakterlerin televizyonlardaki çizgi tarayıcılarına benzer biçimde, tek tek ışık noktalarıyla taranmasıdır! Yansıyan ışık, tek bir ışığa duyarlı algılayıcıda (genellikle FOTOÇOĞALTICI TÜP) toplanır. İki yöntemde de, kağıt üstündeki bir noktanın, bir başka noktaya göre parlaklığını belirten elektrik sinyalleri üretilir. Tarama sırasında kaçırılan bilginin yeniden elde edilememesi nedeniyle, tarayıcının düzgün çalışması büyük önem taşır. Sorunlardan biri, bir dizi karakterin doğru olarak tanınmasını sağlamaktır: Büyüklükleri değişmeyen karakter ve belgelerin mekanik olarak sıralanması genellikle yeterli olur. Buna karşılık, kesin boyutlu olmayan girdiler için, daha ileri teknikler kullanmak gerekir. Makina, ancak böylece çizgilerin konum ve doğrultularını ortaya çıkarabilir. önişlemci : Kağıt üstündeki görüntüler, gri renkli ayrıntılardan oluşur. Sinyaller, yalnızca iki düzeyden oluşan ikili koda çevrilirse, çok daha kolay işlenebilir. Bu, görüntünün koyu ya da açık olmasına göre değişen analog sinyallerin, görüntünün her parçasını siyah ya da beyaz olarak belirleyecek hale getirilmesi anlamına gelir. Ne var ki, söz konusu yöntem, karakterleri önemli ölçüde bozabilir. Sözgelimi, kağıt üstündeki bir leke, hafif basılmış bir karakterden daha koyu olabilir. Baskı mekanizmasındaki bir bozukluk, karakterlerin düz bir çizgi üstünde yeralmamasına yolaçabilir. Bu durumda karakterlerin konumunun algılanması ve tanıma işleminden önce standart bir durumda kaydedilmesi gerekir. Bu teknikler, «önişlem» diye adlandırılır. Tanıyıcı: Karakter tanıma makinalarınm çoğunda, «şablonla karşılaştırma» diye adlandırılan bir tanıma tekniği kullanılır. Karakterin işlenmiş ikili görüntüsü, makinanın tanıyabileceği bir dizi karakterle, nokta nokta karşılaştırılır. Görünen karakter, şablondaki karakterlerden birine benzetilerek tanınır. Bu işleme «korelasyon» (ilişkilendirme) adı verilir. Karakter, şablondakilerden hiç birine uymazsa, geçersizdir. Şablonlar, genellikle, karakterlerin istatistiksel olarak belirlenmiş tanımlarıdır ve makinanın tanıyacağı karakterlere ilişkin çok sayıda örnek incelenerek, makinanın tasarımı sırasında otomatik olarak hazırlanır. Karşılaştırma işlemi genellikle elektronik olarak, analog hesaplama tekniklerinden yararlanılarak gerçekleştirilir ve binlerce karakterin bir saniyede tanınmasını sağlar. Hızı sınırlayan tek etmen, belge iletimidir. Baskı niteliğinin ve belge temizliğinin iyi denetlendiği uygulamalarda, geçersizlik oranı % l'in altına indirilir. Elle yazılmış karakterlerde, çok büyük farklılıkların söz konusu olması nedeniyle, doğrudan şablonla karşılaştırma yapılmaz. Belgeler, önce eğrilik ya da karakterlerin fazlalıkları gibi özelliklerin ayıklanması için bir önişlemden geçirilir. Tanıma, bundan sonra, şablonla karşılaştırmayla yapılabilir. Tanıma türleri: Genel kullanımdaki daktilo ve baskı harfleri çok çeşitlidir. Bu nedenle, tanınacak karakterlerin kısıtlanması, daha iyi bir tanıma (yanlış ya da geçersizlik oranının düşük olması) düzeyine ulaşılmasını sağlar. Makinaların okuyabileceği karakterler için, uluslararas.ı standartlar oluşturulmuştur. Bunları okuyacak makinalar tek puntolu (tek bir punto okuyabilen), çok puntolu ( bir anda tek bir punto okuyabilen, ama okuyabileceği puntolar değiştirilebilen makinalar), otomatik puntolu ( değişiklik yapılmadan çeşitli türdeki puntoları okuyabilen ) makinalar diye sınıflandırılır. Tek puntolu ve çok puntolu makinalar, okunacak belgelerin denetimden geçtiği yerlerde kullanılır. Böyle bir denetim yapılmıyor ve belgeler değişik kaynaklardan rasgele bir sırayla geliyorsa, otomatik puntolu makinalar kullanılır. Tanımanın yaygın türlerinden bazıları şunlardır: Magnetik mürekkepli karakter tanıyıcılar (MİCR); optik karakter tanıyıcılar (OCR); optik işaret tanıyıcılar (OMR); elle basılmış belgeler için sayısal tanıyıcılar (HNR). MİCR: Makina tarafından okunacak karakterler, özel olarak magnetik mürekkeple basılmıştır. Karakterler, ses kayıt aygıtlarındaki teyp kafasına benzeyen tarayıcının altından geçmeden önce mıknatıslandırılır ve değişik aralıkta ya da kalınlıkta bir dizi çubuk biçiminde tanınırlar. Karakterler, görünüşte bilinen harf ve sayılara benzer. Bu yöntemin başlıca üstünlüğü, lekeler ile istenmeyen eklerin genellikle mıknatıslanmaması, böylece makinadan kaydedilmeden geçmesidir. MİCR donanımı, bankalarda, çeklerin altlarına magnetik mürekkeple basılmış olan kodlanmış bilgiye göre sıralanmasında kullanılır. OCR: Bu, normal mürekkeple yazılmış karakterlerin optik olarak okunması istemine verilen addır. OCR için uluslararası anlaşmalarla belirlenmiş karakter cinsleri, OCRA ve OCKB'dir. OCRA, maktnanın daha kolay okuyabileceği biçimdeki karakterlerden, OCRB ise, insanların daha rahat okuyacağı karakterlerden oluşur. İki türde de, karakterlerin biçim ve boyutları, birbirine karışmamaları için dikkatle seçilmiştir. OCR'nin tipik bir uygulama örneği, senet gibi elden ele dolaşan belgeterin işlenmesidir. Bunlar, bilgisayarlarda basılmış olabilir, sonra müşterilere dağıtılır ve yeniden bilgisayarla işlem yapan senet servisine gelip, ödeme miktarı doğrudan okunabilir. OMR: Gerçek anlamda karakter tanımadan yararlanmamalarına jkarşılık, OMR makinaları.elle yazılmış yazıları doğrudan işleyebilen aygıtların ilk türleridir. OMR makinalan, hazırlanmış formlar üstündeki işaretlerin durumunu algılayarak çalışırlar ve herhangi bir tanıma yapmazlar. OMR makinasmın iyi çalışması, formların düzgün işaretlenip işaretlenmediğine bağlıdır. OMR genellikle, oy pusulaları gibi, bir dizi seçenekten birinin belirtileceği uygulamalarda kullanılır. HNR: Bilgi işleme sistemlerine gelen bilginin çoğu, elle yazılmış formlardan oluştuğundan, bu merkezlerde el yazısını okuyabilecek otomatik sistemlerin bulundurulması zorunludur. Elle yazılmış karakterlerin biçim ve büyüklüklerindeki farklılıklar, makinayla basılmış olanlarınkinden çok daha fazladır. Bu yüzden, HNR makinasının tasarımı çok daha çordur. Sayısal ve sınırlı sayıda alfabetik karakteri t.ınıyabilen, ol dukça hızlı birçok makina vardır. Ne var ki, bunlarla tanıma yapılabilmesi için, karakterlerin, özel olarak hazırlanmış formlar üstündeki kutulara yazılması gerekir. Böylece, karakterlerin büyüklükleri ve durumları denetlenmiş olur. Makina baskılarında yapıldığı gibi, elle yazmada da, standartlar oluşturulması için girişimler yapılmaktadır. Kötü el yazısının tanınması, şimdilik olanaksızdır. Kaynak:4-cilt: 4 Nüve Forum » kütüphane » Bilim ve Teknoloji » Araçlar ve Gereçler » |
| Sponsorlar |
| |