Front Page
spacer.png, 0 kB
spacer.png, 0 kB
Caratteristiche Dei Motori Di Ricerca E Tecniche Di Ricerca Print E-mail
Written by Maria Antonietta Ricagno   
Tuesday, 04 July 2006

Il problema più complesso da risolvere quando si usa un motore di ricerca è quello della mole di risultati che si ottengono e della rilevanza da assegnare loro.

L'efficacia di un motore è, infatti, determinata principalmente dalla sua capacità di elencare in modo ponderale le risposte alla nostra interrogazione.

Non solo, ma anche quella di interpretare la nostra interrogazione, aspetto questo estremamente difficoltoso, dal momento che si tratta di un meccanismo automatico e non di una persona intelligente.

 

         Quando sottomettiamo una parola chiave ad un motore di ricerca, il povero 'server della gleba' incaricato spulcia ogni rifermento possibile nel database ed estrae tutte le ricorrenze che ci possono soddifare, quindi le ordina secondo un criterio che dipende dall'algoritmo di rilevanza che caratterizza il motore scelto.

I motori principali hanno dei criteri che li diversificano e che sarebbe molto opportuno conoscere per poterli sfruttare al meglio, magari utilizzandoli in modo diversificato per soluzioni diverse.

         Così come sarebbe necessario spesso utilizzare i metodi di ricerca avanzati, in alternativa alla solita e semplice compilazione di una serie di parole.

Quello che ci proponiamo con questo articolo, è un'esplorazione un poco più puntuale delle forme di utilizzo dei motori e di alcuni metamotori che riteniamo più precisi e utili.

Per tutti i motori la logica di rilevanza è ancora quella della frequenza di termini nei metatag combinata con quelli che si trovano all'interno della pagina.

Con il termine 'metatag' si definisce una serie di descrittori della pagina web che vanno dal titolo, alla descrizione (che resterà nascosta al browser), alle keyword ed a vari altri campi come autore e lingua.

 

GOOGLE.

CRITERI DI RILEVANZA.

 

Senz'altro è quello che anche chi legge utilizza più spesso. In effetti, è l'URl più sottomesso e da solo copre il 90% delle richieste fatte a tutti i motori.

La sua risoluzione della rilevanza dei risultati si basa su un algoritmo con un centinaio di parametri.

Le linee guida, comunque, sono ben precise: viene data maggiore rilevanza alle pagine con più alta LINK POPULARITY, a quelle con una frequenza accettabile di parole ricercate e una certa densità delle stesse.

         Il primo concetto significa che più relazioni esterne a quella pagina definiscono la sua certificazione come significativa.

         Il secondo concetto determina che se molte parole ricorrono all'interno della pagina, allora l'argomento di quella pagina è quello cercato.

         Il terzo dice che le parole cercate che sono vicine sono effettivamente più significative di altre che ricorrono nella pagina ma sono lontane tra loro.

 

Criteri di ricerca avanzata.

Stringhe e parole:

questi criteri permettono di ridurre notevolmente il numero di risultati e di averli più precisi nei confronti delle effettive aspettative se si vogliono cercare due o più parole che ricorrano insieme

ad esempio: software e localizzazione

software+localizzazione

una maggiore precisione e sfoltimento si ottiene citando la frase da cercare

"localizzazione software"

queste ricerche sono di tipo AND nella logica booleana, perchè si vuole ottenere la ricorrenza di tutte le parole richieste.

         Vi sono altri due criteri booleiani che possono essere utili:

- cercare una parola e un'altra alternativa (OR), per cui si cercano tutte le pagine che abbiano

il temine 'software' oppure il termine 'localizzazione'. In questo caso, si otterrà una somma dei due criteri e quindi un maggior numero di risultati.

 

localizzazione OR software

 

- cercare pagine che non abbiano un termine, ovviamente se la ricerca venisse fatta per soddisfare questo solo criterio otterremmo una lista talmente ridondante da risultare inutile.

Tale criterio, invece, diventa molto efficace se abbinato ad uno dei due altri criteri precedenti.

Ad esempio, si potrebbe voler cercare pagine che contengano la frase "localizzazione software" ma non la parola "Microsoft".

la ricerca sarà: http://www.google.com/search?as_q= "localizzazione software" - Microsoft

 

note:

Parole comuni come articoli e preposizioni non sono presi in considerazione nella ricerca:

se si vuole, al contrario, che rqppresentino il criterio di ricerca si deve mettere il simbolo '+'.Esempio 'localizzazione+del+software'

 

Altri criteri che riducono l'insieme dei risultati sono:

- cercare documenti limitati ad una sola lingua di redazione. Questo è un criterio rischioso, in quanto non tutti i documenti riportano nei metatag la lingua di stesura. In ogni caso, chi lo riportasse darebbe un peso ben determinato a questa proprietà e senz'altro sarebbe un criterio di qualità.

L'indirizzo sarà:

http://www.google.com/search?as_q=localizzazione+software&lr=lang_it per cercare solo le pagine in italiano

        

- cercare documenti in un certo formato file oppure escluderne uno dalla ricerca.

Utilizzare questo criterio non porta a nessun valore di ricerca di dati, ma può escludere i documenti in formati che non possiamo acquisire o non intendiamo acquisire.

 

- cercare i documenti con range di data.

         Questo criterio permette di determinare a priori se la nostra ricerca ha delle scadenze o è preferibile avere soltanto documenti recenti oppure no.

Con GOOGLE il criterio si limita a tre metagruppi (tutti, ultimi 3 mesi, ultimi 6 mesi, ultimo anno).

per ecludere i pdf la frase da sottomettere sarà:

 localizzazione software -filetype:pdf

 

- cercare i termini localizzati in domini definiti (o in eclusione).

Se si volesse cercare nel mio sito pagine dedicate alla localizzazione software la frase sarebbe:

localizzazione software site:antotranslation.com

Con questo criterio, si cerca all'interno di un dominio o ragguppamenti di domini.

Ad esempio, tutti i domini della gerarchia italia (.it)

 

- cercare i termini localizzati in parti precise del testo (o in eclusione).

Se volessimo dare importanza solo a quei documenti che abbiano il termine ricercato nel titolo, nel testo, nell'indirizzo URL o nei link interni.

Quello del titolo può essere un criterio significativo, in quanto se un termine è presente nel titolo è senz'altro più rilevante di un altro che sia presente solo nel testo, poichè probabilmente è il titolo a dare la maggior definizione del contenuto documentale.

Da rilevare che per titolo il motore definisce i tag htm 'H' e le frasi con un corpo grafico oltre lo standard.

Per cercare la frase nel titolo

allintitle: localizzazione software

 

Per cercare la frase nel corpo

allintext: localizzazione software

 

         Anche la presenza del termine nel nome del dominio identifica con maggiore puntualità la rilevanza di un argomento.

Se una pagina si chiama 'localizzazionesoftware.htm' molto probabilmente tratta di questo argomento.

Per cercare la frase nell'indirizzo web

allinurl: localizzazione software

  

YAHOO

CRITERI DI RILEVANZA.

Il testo nella pagina, l'accuratezza del titolo e della descrizione, il suo indirizzo (URL), la fonte, i link presenti nella pagina ed in altre pagine che la citano, e altre caratteristiche del sito web.

 

Criteri di ricerca avanzata.

In Yahoo, la ricerca avanzata copre molti dei criteri già visti per Google.

Le sintassi per frase esatta, OR, AND ed esclusione sono del tutto simili.

La presenza della parola nel titolo

intitle:localizzazione+software

La presenza della parola nel dominio

inurl:localizzazione+soft

La presenza della parola nel titolo

intitle:"localizzazione software"

localizzazione OR software

Ricerca in dominio

http://it.search.yahoo.com/search?va=localizzazione+software&vs=www.antotranslation.com

Per tipo file

http://it.search.yahoo.com/search?va=localizzazione+software&vf=pdf

Lingua

http://it.search.yahoo.com/search?va=localizzazione+software&vl=lang_it

ICEROCKET

Criteri di ricerca avanzata.

Frase esatta:

"localizzazione software"

OR

localizzazione OR software

Esclusione

-localizzazione -software

Dominio

localizzazione software  site:antotranslation.com

Buona la ricerca tra le news, suddivise in 5 categorie

MSN

Criteri di ricerca avanzata.

Frase esatta:

"localizzazione software"

OR

(localizzazione OR software)

Esclusione

-(localizzazione software)

Dominio

localizzazione software  site:antotranslation.com

in dominio

link:antotranslation.com

Paese di provenienza

(loc:IT OR loc:AU)

Lingua:

language:it

Una particolarità di MSN search è la possibilità di calibrare la visibilità dei risultati con tre barre a scorrimento nella ricerca avanzata, in modo visuale, o impostando dei valori da

0..100 nella stringa di comando.

I criteri sono:

corrispondenza esatta {mtch=50}

indice di popolarità (link popularity) {popl=50}

indice di aggiornamento della pagina {frsh=50}

ALLTHEWEB

Criteri di ricerca avanzata.

In ALLTHEWEB la ricerca avanzata copre molti dei criteri già visti per Google.

Le sintassi per frase esatta, OR, AND ed esclusione sono del tutto simili.

La presenza della parola nel titolo 

title:localizzazione+software

La presenza della parola nel dominio

url:localizzazione+soft

Ricerca in un web site

site:www.antotranslation.com

Ricerca in dominio

domain:.it

Per tipo file

http://it.search.yahoo.com/search?va=localizzazione+software&vf=pdf

Lingua

http://it.search.yahoo.com/search?va=localizzazione+software&vl=lang_it

HOTBOT

Criteri di ricerca avanzata.

Hotbot ha attualmente il più evoluto sistema di ricerca avanzata. Prevede tutte le caratteristiche già viste per Google, inoltre ha un filtro temporale senza le limitazioni che hanno Google e Yahoo, i formati di file sui quali si possono impostare le ricerche sono per numero e qualità migliori.

Il filtro di definizione delle parole è più dettagliato e si possono operare combinazioni tra posizione dei termini nel documento e inclusione/escusione dei termini stessi a livello di singolo termine.

Ad esempio, si può cercare la parola software nel titolo e la parola localizzazione nel URL.

Infine, questi criteri possono essere impostati da HOTBOT per interrogare direttamente la base dati di GOOGLE (la più ampia in assoluto) e  di ASK JEEVES

ALTAVISTA

Criteri di ricerca avanzata.

In ALTAVISTA la ricerca avanzata copre tutti i criteri già visti per Google e Yahoo.

Come in HotBot e ASK JEEVES il filtro temporale è molto più duttile potendo comporre una data effettiva, inoltre è possibile definire un range per anno, mesi e settimane.

Infine, si può comporre una stringa di ricerca in stile SQL combiando gli elementi con le logiche booleane (per utenti esperti)

TEOMA

CRITERI DI RILEVANZA.

In Teoma è definita authority ed è molto simile alla link popularity di Google con in più la garanzia di esclusione dei link a siti spam.

La caratteristiche di Teoma è la lista dei termini suggeriti in modo contestuale rispetto alle parole ricercate.

Altro servizio legato ai termini ricercati è l'elenco di siti che presentano collezioni di link correlati. Questa è una proprietà molto potente che permette di estendere le ricerche in modo molto accurato.

 

Criteri di ricerca avanzata.

Sono molto simili a quelli utilizzati da HOTBOT, inoltre gestisce implicitamente i plurali delle parole e le forme derivate.

GIGABLAST

Criteri di ricerca avanzata.

Tutti quelli relativi a terminologia,tipo di file, presenza dei termini in URL e nome della pagina.

Questi sono le sintassi da utilizzare

suburl:

site:

url:

title:

ip: (se si conosce soltanto l'indirizzo tcp/ip e si vuole vedere altre informazioni a riguardo)

link: -link:(per esclusione)

type:pdf type:doc type:xls type:ppt type:ps type:text

Nell'esposizione dei risultati saranno presentati in percentuale la frequenza delle parole che ricorrono tra i risultati ottenuti. Queste sono a loro volta suggerimenti di termini alternativi.

ENTIREWEB

Criteri di ricerca avanzata.

Tutti quelli relativi a terminologia, lingua, geografici, presenza dei termini in URL e nome della pagina.

LYCOS

Una delle caratteristiche di Lycos è la presenza tra le risorse correlate al motore di ricerca di uno specializzato nella ricerca di risorse di discussione legati all'argomento cercato (forum, mailing list, ecc). Ottimo anche il motore di ricerca delle news per parola chiave.

Criteri di ricerca avanzata.

Tutti quelli relativi a terminologia, range di data, lingua, presenza dei termini in URL e nome della pagina.

 

METAMOTORI

 

MAMMA

Criteri di ricerca avanzata.

Tutti quelli relativi a terminologia, lingua, goegrafici, presenza dei termini in URL e nome della pagina.

Questo metamotore permette di selezionare in quali directory effettuare le ricerche

-Open Directory

-Looksmart Directory

-Business.com

-About.com

-Mamma's Collection

e in quali search engine

-Teoma

-Google

-MSN

-Entireweb

-Gigablast

 

IXQUICK

Si può usare il linguaggio naturale o complesse ricerche booleane che supporta frasi, wildcard (meta-caratteri), termini omessi, termini obbligatori, parentesi ed altri modificatori come NEAR (simile a) in quanto il metamotore sa quali motori di ricerca possono far fronte a ricerche complesse.

Vengono eliminati i duplicati ma vengono sommati per dare la maggiore rilevanza al risultato; per cui, se lo stesso risultato è stato ottenuto in più motori, maggiore rilevanza verrà data alla pagina.

I metacaratteri possono sostituire un carattere con qualsiasi altro.

Il comando NEAR permette di definire un termine correlato ad un altro.

Questa è la sintassi utilizzata:

+title:

+domain:

host:

immagine:

image:

url:

link:

text:

related:

Si possono selezionare i motori utilizzati a seconda della versione nazionale utilizzata.

Questo metamotore, infatti, utilizza un pool di search engine che comprende, oltre a quelli più importanti, anche quelli a carattere nazionale.

Si possono fare delle domande in linguaggio discorsivo che verranno trasferite a quei motori di ricerca che accettano le ricerche in linguaggio naturale.

CLUSTY

Nella finestra di risultato Clusty presenta un elenco di terminologie correlate al contesto della ricerca richiesta. Questo permette di cercare in modo alternativo l'argomento iniziale.

Criteri di ricerca avanzata.

Tutti quelli relativi a terminologia,lingua, presenza dei termini in URL e dominio. La sintassi utilizzata:

domain:

host:

selezione di ricerca tra:

GigaBlast

MSN

Lycos

Looksmart

Wisenut

Open Directory

Overture

WEBCRAWLER

Criteri di ricerca avanzata.

Tutti quelli relativi a terminologia,lingua, range di data, presenza dei termini in URL e dominio. 


Maria Antonietta Ricagno©Tutti i diritti riservati

Last Updated ( Tuesday, 04 July 2006 )
 
< Prev   Next >
Copyright © 2006 - Globtra.com - database of translators