Kasutusjuhiseid

Sõnavariantide otsimine

Sõnavariantide otsing võimaldab leida etteantud otsisõna kõik variandid ning esinemiskontekstid litereeringute tekstikorpusest.

Alamkorpuste valimine

Otsingut on võimalik kitsendada ainult teatud alamosale korpusest. Aknas "Alamkorpuste valik" on alamkorpused grupeeritud erinevate failiprefiksite alusel ning toodud vestlusfailide arv igas alamkorpuses.

Üldistatud teisenduskaugus ja lisateisendused

Sõnavariantide otsing toetub üldistatud teisenduskaugusele: otsingul arvutatakse otsisõna ja kõigi korpuse sõnade vahelised üldistatud teisenduskaugused ning tagastatakse sõnad, mis on otsisõnale "kõige lähemal" (kõige väiksema kauguse väärtusega). Lihtsustatult võib öelda, et teisenduskaugus mõõdab, palju muutuseid (teisendusi) tuleb teha, et üks sõna teiseks muuta. Üldistatud teisenduskauguses on kasutusel kahte liiki teisendused:

Lisateisendusi ning nende kaale on võimalik muuta aknas "Lisateisendused".

Oluline on veel meeles pidada, et lisateisendused ei rakendu rekursiivselt, st kui ühte otsisõne alamosa on juba muudetud mingi teisendusega, pole seda võimalik edasi teisendada.

Maksimaalne teisenduskaugus

Tagastatavat vastete hulk on piiratud "maksimaalse teisenduskauguse" abil: hulgast jäetakse välja vasted, mis on otsisõnest kaugemal kui "maksimaalne teisenduskaugus".

Tasub täheldada, et vaikimisi kasutatav maksimaalse teisenduskauguse väärtus ei garanteeri, et suvalise otsisõna puhul jäävad kõik otsitud vasted antud kauguse piiresse ning täppisotsingu saavutamiseks tuleks seda väärtust suurendada. Enamasti aga kaasneb maksimaalse teisenduskauguse suurendamisega ka valede variantide arvu kasv; seda probleemi võib leevendada blokeeritud regioonide kasutamine (Vt "Teisenduste blokeerimine");

Täpsed vasted, algusosa, keskosa või lõpuosa vasted

Vaikimisi kasutatakse otsingul täpsete vastete otsimise režiimi, mis tähendab, et teisenduskauguse arvutamisel võrreldakse otsisõna kandidaatsõnadega "täies pikkuses". Alternatiivina võib otsisõna võrrelda ainult kandidaatsõna alamosaga:

Rekursiivsed päringud

Rekursiivse päringu abil on võimalik leida mitme sõna koosesinemisi korpuses. Rekursiivse päringu korral kitsendub iga järgnev päring eelneva(te) päringu(te) tulemuste alamkorpusele.

Rekursiivse päringu sooritamiseks tuleb teha kõigepealt tavaline sõnaotsingu päring, selekteerida "Rekursiivne päring" ning märgistada linnukesega sobivad vasted päringutulemustes. Seejärel võib aknasse "Otsing" sisestada uue otsingu parameetrid (uus "otsisõna", "maksimaalne teisenduskaugus" jms) ning alustada sõnaotsingut uuesti. Uue sõnaotsingu tulemused kitsendatakse alamkorpusele, kus esinevad linnukesega märgistatud eelmise päringu vasted (st vaadatakse ainult litereeringuid, kus esineb vähemalt üks linnukesega märgistatud sõna). Protseduuri (vastete selekteerimine ning uue sõnaotsingu sooritamine) korrates võib korpust edasi kitsendada, nõudes üha uute sõnade koosesinemist.

Rekursiivse päringu sooritamisel ilmub päringuakna alla viidete kogum "Sooritatud päringud", mille abil on võimalik rekursioonis tagasi liikuda.

Kui rekursiivses päringus sisestatud otsisõna on identne eelmise otsisõnaga, ei liiguta rekursioonis edasi, vaid sooritatakse eelmine päring uuesti, "muudetud parameetritega".

Sõnakauguste järgi filtreerimine

Eesmärgiga leida kahe või rohkema sõna koosesinemisi kitsamalt piiritletud teksti alamosas (lauses, osalauses või fraasis), võib rekursiivsele päringule lisada sõnakauguste filtri. Sellise filtri läbivad vaid uue päringu vasted, mis ei ole eelmise päringu vaste(te)st kaugemal kui etteantud maksimaalne sõnakaugus (sõnakaugus = kahe sõna vaheline kaugus tekstis sõnades mõõdetuna).

Kui kasutatakse sõnakauguste järgi filtreerimist ning uue otsisõnana sisestatakse eelmise otsisõnaga identne sõna, ei toimu "parameetrite muutmist" (nagu kirjeldatud "Rekursiivsed päringud" all), vaid otsitaksegi kahe või enama identse sõna esinemist antud sõnakauguse piires. NB! Identse otsisõna lisamine rekursiooni rohkem kui kaks korda järjest ei muuda päringu tulemusi: saadakse sama tulemus, mis kahe sõna otsimisel.

Teisenduste blokeerimine

Vaikimisi lubab otsingumootor nii tavalisi teisendusi kui ka lisateisendusi kasutada kogu otsisõne ulatuses. Ent spetsiaalsete märkidega on võimalik otsisõnes täpsustada nn blokeeritud regioonid, kus teisendusi teha ei lubata. Tavalist teisenduskaugust blokeeriv regioon ümbritsetakse märkidega ( ja ), lisateisendusi ja tavalist teisenduskaugust blokeeriv regioon märkidega < ja >. Näited blokeeritud regioonide kasutamisest:

(l)au(p)äeval
blokeeritakse tavaliste teisenduste (tähe kustutamine või asendamine suvalise tähega) rakendamine esitähel l ning tähel p. Nendel tähtede peal on endiselt lubatud kasutada kõiki lisateisenduste aknas toodud teisendusi (Nt lisateisendust p → b).

((l)au(p)äeval
blokeeritakse tavaliste teisenduste (tähe kustutamine või asendamine suvalise tähega) rakendamine esitähel l ning tähel p. Topeltsulg sõna ees märgib seda, et ei lubata ka suvaliste tähtede lisamist otsisõne ette, st kõigi tagastatud vastete esimeseks täheks jääb l. Lisateisenduste kasutamisele mingeid piiranguid ei ole.

Analoogset topeltsuluga blokeerimise võtet saab ka kasutada sõna lõpus - nt ((l)au(p)äeva(l)) - et vältida suvaliste tähtede lisamist sõna lõppu, viimase l järele. Aga otsisõna keskel topeltsulgudel mingit efekti ei ole.

(la)upäeval
blokeeritakse tavaliste teisenduste (tähe kustutamine või asendamine suvalise tähega) rakendamine sõna esimestel tähtedel l ja a. Lisaks sellele on keelatud suvaliste tähtede lisamine tähtede l ja a vahele. Lisateisenduste kasutamisele piiranguid ei ole.

NB! Praeguse süsteemi järgi on ka otsisõnes (l)(a)upäeval keelatud suvaliste tähtede lisamine l ja a vahele.

<l>au<p>äeval
blokeeritakse nii tavaliste teisenduste (tähe kustutamine või asendamine suvalise tähega) kui ka lisateisenduste (Nt p → b või l → ll) rakendamine esitähel l ning tähel p.

<<la>upäeval
blokeeritakse nii tavaliste teisenduste (tähe kustutamine või asendamine suvalise tähega) kui ka lisateisenduste rakendamine sõna esimestel tähtedel l ning a. Samuti on keelatud igasugune tähtede lisamine sõna ette või tähtede l ning a vahele.

Mõningaid juhiseid ja tähelepanekuid