IPS este Scopul și funcțiile sistemelor de recuperare a informațiilor
IPS este Scopul și funcțiile sistemelor de recuperare a informațiilor

Video: IPS este Scopul și funcțiile sistemelor de recuperare a informațiilor

Video: IPS este Scopul și funcțiile sistemelor de recuperare a informațiilor
Video: Diesel Locomotive Repair and Startup - 1949 EMD F7A - Topper Machine 2024, Aprilie
Anonim

Este dificil pentru o persoană modernă să-și imagineze viața fără internet și acces aproape instantaneu la sursele de informații. Utilizatorul se gândește rar la modul în care se efectuează căutarea conținutului dorit în rețea. Dar acest lucru este foarte interesant.

Un sistem de recuperare a informațiilor (IPS) este un sistem software și hardware complex care selectează informații la cererea utilizatorului. Informațiile sunt stocate pe servere în formă digitală, așa cum cărțile se aflau pe rafturile bibliotecilor. Sistemul este format din mai multe subsisteme. Fiecare își îndeplinește sarcina în procesul de procesare a cererii utilizatorului și furnizarea acestuia de informații sub formă de text sau sonor. Multiplicitatea sarcinilor de rezolvat determină complexitatea arhitecturii sistemelor moderne de regăsire a informațiilor (abreviere a sistemului de regăsire a informațiilor). Un fel de „cutie neagră”: la intrare - textul cererii, ceea ce este înăuntru - este necunoscut, la ieșire - informații cuprinzătoare.

Fișierul cardului în viața reală
Fișierul cardului în viața reală

Fluxuri de intrare

Solicitări de informații pe care o persoană le formează sub formă de text pe ecranul gadgetului său,constituie o mică parte din cererile procesate de motorul de căutare. Principalele matrice de interogări de căutare sunt formate din roboți care acceptă o solicitare umană și efectuează o căutare în mai mulți pași și feedback cu utilizatorul. Sistemele de recuperare a informațiilor includ renumitele Google, Yandex și altele, care procesează zilnic milioane de solicitări.

Obiecte de căutare sursă

Setul de obiecte inițiale de interes pentru căutare sunt documente, înregistrări, videoclipuri, imagini și multe altele. Sunt create în afara IPS. Sistemul general de stocare și regăsire a informațiilor ar trebui să aibă încorporat un sistem bibliografic - un fel de catalog care vă permite să căutați orice fel de obiecte.

Obiectele sau transformările lor digitale devin o „resurse de intrare” în IPS. Printre acestea sunt selectate informațiile de care utilizatorul are nevoie.

Căutați informații
Căutați informații

Surse externe

Vizualizarea de selecție a informațiilor utilizează surse externe de cunoștințe. Acestea sunt informațiile pe care utilizatorul le caută. Titlul filmului, un citat din carte și multe altele. Pentru o căutare pe computer, aceste informații trebuie traduse într-o interogare într-un limbaj algoritmic. În IPS, acest lucru se face folosind blocul pentru crearea, indexarea și dezvoltarea interogărilor.

În mod ideal, aceste trei procese - reprezentarea, indexarea și dezvoltarea interogărilor - ar trebui să se bazeze pe surse identice de cunoștințe, dar în practică, acest lucru nu este realizabil.

Sursele de cunoștințe ar trebui revizuite și actualizate în mod constant, iar actualizarea ar trebui să fie identică șisincronizate. Și o sursă externă de cunoștințe precede întotdeauna cronologic utilizarea acesteia în motoarele de căutare pentru o interogare, uneori cu câțiva ani.

Sistem de regăsire a informațiilor
Sistem de regăsire a informațiilor

Performanțe

Reprezentările obiectelor originale sunt formate din date de intrare într-o anumită combinație sau transformate în conformitate cu regulile și algoritmii unui anumit sistem de recuperare a informațiilor.

Vizualizările sunt copii mai mult sau mai puțin transformate ale obiectului de căutare original. În colecția de texte complete needitate, fiecare text este propria sa reprezentare. În colecția de obiecte din exponate și artefacte muzeale, reprezentarea poate fi o descriere transformată a obiectului cu imaginea acestuia. În unele cazuri, reprezentarea poate fi derivată parțial din obiectul original și parțial din descriere: în motoarele de căutare bibliografice, reprezentările sunt derivate din obiect - de exemplu, titlul, numele autorului vor fi combinate cu adnotarea lucrării.

Găsiți ceea ce aveți nevoie
Găsiți ceea ce aveți nevoie

Index de căutare

Deoarece informațiile din sistemele de recuperare a informațiilor sunt stocate sub forma unei reprezentări, este logic să presupunem că căutarea se efectuează conform reprezentării și, după selecție, este dată utilizatorului. În practică, acesta nu este cazul. De exemplu, cataloagele actuale de bibliotecă online restricționează de obicei căutările la câteva câmpuri: autor, titlu și subtitrări într-o vizualizare care conține alte câmpuri care nu sunt căutate. Acesta este un motiv suficient pentru care este necesar să se facă distincțiao vizualizare și un index care poate fi căutat, care este partea de căutare a vederii. Acesta definește tot ceea ce ar trebui să fie căutat. Un index care poate fi căutat, cum ar fi vizualizarea și obiectul sursă, poate fi împărțit în sub-indexuri separate pentru a oferi căutări mai precise și direcționate

Motoarele de căutare au de obicei o structură sintetică internă pentru potrivirea rezultatelor de căutare valide. Această structură este a doua componentă a indexului care poate fi căutat.

Procedural, procesul de indexare poate fi implementat în diferite moduri: un index care poate fi căutat poate fi obținut prin:

  • copierea literală a unei reprezentări care poate fi căutată;
  • prin copierea detaliilor de vizualizare. Acesta poate fi o parte sau toate vizualizările care există fizic doar sub formă de fragmente, distribuite conform regulilor de creare a unui index pentru căutare, care va fi colectat atunci când este necesar.
Managementul căutărilor
Managementul căutărilor

Solicitare reguli de proiectare și solicitări formale

Ingineria interogărilor este o funcție care mediază între o interogare de utilizator și o interogare formală. Transformă interogarea utilizatorului, potrivindu-o cu dicționarele de comandă de recuperare, specificația indexului și indexul înainte de extragere. În zorii dezvoltării IPS, acest rol era în mod tradițional atribuit specialiștilor IT calificați.

Dezvoltarea de interogări computerizate care pot potrivi interogări din dicționar într-un sistem de indexuri care poate fi căutat este denumită în mod obișnuit modul „introducere în dicționar”. Automatizarea acestei funcții este promițătoare și oferă oportunități pentru metode de căutare experte și probabilistice.

O cerere formală devine o solicitare formală după ce solicitarea utilizatorului a fost convertită. Exemple de astfel de transformări formale includ trunchierea, înlocuirea, normalizarea, vectorizarea și alte transformări ale reprezentării „externe” în reprezentările „interne” ale computerului IPS (decriptare - sistem de recuperare a informațiilor).

Seturi de linkuri pentru documente extrase

Setul rezultat de surse de informații este, în mod logic, un subset al vederilor create de regulile de potrivire aplicate interogării formale printr-un index care poate fi căutat.

De obicei, dar nu neapărat, există un proces separat de sortare pentru setul de informații recuperat. Cataloagele bibliotecii online reordonează de obicei seturile primite în ordine alfabetică după autor înainte de a fi afișate. În sistemele de regăsire a informațiilor care produc clasamente stricte, ordinea de clasare precede orice reordonare.

Analiza datelor
Analiza datelor

Fluxuri de ieșire

Ieșirea rezultatelor căutării se face în mod tradițional pe afișaj, mai des sub forma unui flux de obiecte care urmează să fie utilizate în altă parte sau în alt scop, completează bucla principală de căutare. Astfel de fluxuri pot fi trimise la dispozitivele de vizualizare, stocare pentru procesare ulterioară sau utilizare ca fluxuri de intrare pentru alte servicii de selecție.

Sistemele de recuperare a informațiilor permit feedback de larezultatul oricărui proces de selecție. Ieșirea oricărui proces poate fi feedback către alte procese. Feedback-ul poate oferi baza pentru judecata experților în orice etapă.

Recomandat: