poniedziałek, 28 września 2015

Tag, OCR, skan.. klocki, którymi lubię się bawić!

O wyszukiwaniu i kłopotach z nim związanych miałem już okazję wspomnieć, ale oto pojawił się nowy projekt tyczący się tej materii, dlatego postanowiłem kilka słów na ten temat dorzucić.



We wcześniejszym wpisie wspominałem sytuację, a właściwie funkcję „kontekstowego” wyszukiwania w zasobach umieszonych na MS SharePoint. Ci, którzy mieli okazję wyszukiwać dokumenty w dużym zbiorze jedynie po ich treści zapewne spotkali się z sytuacją, kiedy wyniki wyszukiwania zwracane są w setkach. Wystarczy choćby wyszukać słowo „oferta” w zasobie działu handlowego, aby mieć rozrywkę z poszukiwaniem właściwego pliku przez kilka godzin. Zakładam oczywiście, że wszystkie dokumenty są „przeszukiwalne” (z braku innego słowa), w tym wszystkie skany zostały z-ocr-owane (strasznie dużo koślawych neologizmów dzisiaj). Do skanowania i OCR wrócę niedługo, ale na potrzebę chwili uznajmy, że nasz SharePoint jest w stanie „zajrzeć” do środka każdego pliku.

Niby wszystko fajnie działa, ale jak wspomniałem wcześniej jest mały kłopocik w przypadku zbyt ogólnych zapytań. Jak z tym walczyć? W świecie analogowym można by do każdego dokumentu dodawać fiszki z opisem jego zawartości. Przy czym założenie jest takie, że mamy ograniczony zasób słów, którymi możemy się posiłkować przy opisach (aby nie wprowadzać chaosu). Sytuacja nieco absurdalna z punktu widzenia wielu setek dokumentów, prawda. W świecie cyfrowym, a w szczególności w SharePoincie bez takich „fiszek” nasz zasób dokumentów wkrótce stanie się śmietnikiem. I tu pojawia się nowy termin: tag. Co to jest, ano (w dużym uproszczeniu) to nasza „fiszka”, dzięki której możemy w prosty sposób opisać zawartość dokumentu. W najprostszy sposób można to zobrazować informacjami, jakie są dopisane do każdego pliku w znanych wszystkim folderach, gdzie oprócz nazwy mamy typ, rozmiar, etc.

No dobrze, świetny pomysł! Tagowanie (czyli dodawanie tagów) to naprawdę użyteczna rzecz, tylko czy to oznacza, że muszę opisywać osobno wszystkie pliki, które chcę umieścić na SharePoincie? No cóż, jeśli ma to działać, tak! Ale ja nie mam czasu! Hmm… na szczęście tagowanie może odbywać się w pełni automatycznie lub z małą pomocą użytkownika. Jak? Ano, istnieją rozwiązania, dzięki którym pewne charakterystyczne cechy dokumentu zostaną rozpoznane automatycznie, a tagi uzupełnione zgodnie z uprzednio wprowadzonym wzorem. W praktyce wygląda to tak, że użytkownik skanuje dokument, ten po przejściu OCR jest analizowany automatycznie i kategoryzowany. Oczywiście użytkownik może całą procedurę przeprowadzić ręcznie, albo tylko zatwierdzić wynik analizy, ale lwia część pracy jest już wykonana za nas!


W projekcie, o którym po krótce tu wspominam, tworzyliśmy właśnie taki mechanizm automatycznego tagowania. Z ciekawych rzeczy dodam jeszcze, że mechanizm ów po analizie dokumentu wysyła powiadomienie do konkretnego użytkownika (np. obsługującego danego klienta), że w SharePoincie pojawił się nowy dokument i czeka na dalsze kroki. A to tylko wierzchołek góry lodowej automatyzacji pracy z dokumentami jakie stanowią nasze „typowe” zadania ;)

Zapraszam do kontaktu!

Brak komentarzy:

Prześlij komentarz