Kasutusjuhiseid
Sõnavariantide otsimine
Sõnavariantide otsing võimaldab leida etteantud
otsisõna kõik variandid ning esinemiskontekstid litereeringute tekstikorpusest.
Alamkorpuste valimine
Otsingut on võimalik kitsendada ainult teatud alamosale korpusest. Aknas "Alamkorpuste valik" on alamkorpused grupeeritud erinevate failiprefiksite alusel ning toodud vestlusfailide arv igas alamkorpuses.
Üldistatud teisenduskaugus ja lisateisendused
Sõnavariantide otsing toetub üldistatud teisenduskaugusele: otsingul arvutatakse otsisõna ja kõigi korpuse sõnade vahelised üldistatud teisenduskaugused ning tagastatakse sõnad, mis on otsisõnale "kõige lähemal" (kõige väiksema kauguse väärtusega). Lihtsustatult võib öelda, et teisenduskaugus mõõdab, palju muutuseid (teisendusi) tuleb teha, et üks sõna teiseks muuta. Üldistatud teisenduskauguses on kasutusel kahte liiki teisendused:
- Tavalise teisenduskauguse teisendused: (a) suvalise tähe kustutamine otsisõnas, (b) suvalise tähe lisamine suvalisele otsisõna positsioonile ning (c) suvalise otsisõna tähe asendamine mõne teise tähega. Iga selline teisendus suurendab sõnadevahelist kaugust 1.0 võrra.
- Lisateisendused: teisendused, mis on kasutaja poolt määratud ning rakenduvad lisaks tavalise teisenduskauguse teisendustele. Iga lisateisendus on kujul
A:B:C
, kus A
on muudetav alamosa otsisõnest (võib olla suvalise pikkusega), B
on muutmise tulemus (alamosa asendus, samuti võib olla suvalise pikkusega) ning C
on muutmise hind. Et lisateisendus rakenduks otsingul, peab muutmise hind C
olema odavam, kui teisenduse A:B
läbiviimine tavalise teisenduskauguse teisenduste abil.
Lisateisendusi ning nende kaale on võimalik muuta aknas "Lisateisendused".
Oluline on veel meeles pidada, et lisateisendused ei rakendu rekursiivselt, st kui ühte otsisõne alamosa on juba muudetud mingi teisendusega, pole seda võimalik edasi teisendada.
Maksimaalne teisenduskaugus
Tagastatavat vastete hulk on piiratud "maksimaalse teisenduskauguse" abil: hulgast jäetakse välja vasted, mis on otsisõnest kaugemal kui "maksimaalne teisenduskaugus".
Tasub täheldada, et vaikimisi kasutatav maksimaalse teisenduskauguse väärtus ei garanteeri, et suvalise otsisõna puhul jäävad kõik otsitud vasted antud kauguse piiresse ning täppisotsingu saavutamiseks tuleks seda väärtust suurendada. Enamasti aga kaasneb maksimaalse teisenduskauguse suurendamisega ka valede variantide arvu kasv; seda probleemi võib leevendada blokeeritud regioonide kasutamine (Vt "Teisenduste blokeerimine");
Täpsed vasted, algusosa, keskosa või lõpuosa vasted
Vaikimisi kasutatakse otsingul täpsete vastete otsimise režiimi, mis tähendab, et teisenduskauguse arvutamisel võrreldakse otsisõna kandidaatsõnadega "täies pikkuses". Alternatiivina võib otsisõna võrrelda ainult kandidaatsõna alamosaga:
- Algusosa vasted - otsisõna võrreldakse kandidaatsõna prefiksiga, kaugust suurendavad ainult erinevused prefiksist. Nt otsisõna "koer" ja vastete "koerale", "koerad", "koerapilte" vaheline kaugus sellisel režiimil on 0.0, kuna otsisõna on muutmata kujul kõigi vastete prefiksiks.
- Keskosa vasted - otsisõna võrreldakse kandidaatsõna infiksiga, kaugust suurendavad ainult erinevused infiksist.
- Lõpuosa vasted - otsisõna võrreldakse kandidaatsõna sufiksiga, kaugust suurendavad ainult erinevused sufiksist.
Rekursiivsed päringud
Rekursiivse päringu abil on võimalik leida mitme sõna koosesinemisi korpuses. Rekursiivse päringu korral kitsendub iga järgnev päring eelneva(te) päringu(te) tulemuste alamkorpusele.
Rekursiivse päringu sooritamiseks tuleb teha kõigepealt tavaline sõnaotsingu päring, selekteerida "Rekursiivne päring" ning märgistada linnukesega sobivad vasted päringutulemustes. Seejärel võib aknasse "Otsing" sisestada uue otsingu parameetrid (uus "otsisõna", "maksimaalne teisenduskaugus" jms) ning alustada sõnaotsingut uuesti. Uue sõnaotsingu tulemused kitsendatakse alamkorpusele, kus esinevad linnukesega märgistatud eelmise päringu vasted (st vaadatakse ainult litereeringuid, kus esineb vähemalt üks linnukesega märgistatud sõna). Protseduuri (vastete selekteerimine ning uue sõnaotsingu sooritamine) korrates võib korpust edasi kitsendada, nõudes üha uute sõnade koosesinemist.
Rekursiivse päringu sooritamisel ilmub päringuakna alla viidete kogum "Sooritatud päringud", mille abil on võimalik rekursioonis tagasi liikuda.
Kui rekursiivses päringus sisestatud otsisõna on identne eelmise otsisõnaga, ei liiguta rekursioonis edasi, vaid sooritatakse eelmine päring uuesti, "muudetud parameetritega".
Sõnakauguste järgi filtreerimine
Eesmärgiga leida kahe või rohkema sõna koosesinemisi kitsamalt piiritletud teksti alamosas (lauses, osalauses või fraasis), võib rekursiivsele päringule lisada sõnakauguste filtri. Sellise filtri läbivad vaid uue päringu vasted, mis ei ole eelmise päringu vaste(te)st kaugemal kui etteantud maksimaalne sõnakaugus (sõnakaugus = kahe sõna vaheline kaugus tekstis sõnades mõõdetuna).
Kui kasutatakse sõnakauguste järgi filtreerimist ning uue otsisõnana sisestatakse eelmise otsisõnaga identne
sõna, ei toimu "parameetrite muutmist" (nagu kirjeldatud "Rekursiivsed päringud" all), vaid otsitaksegi kahe või enama identse sõna esinemist antud sõnakauguse piires. NB! Identse otsisõna lisamine rekursiooni rohkem kui kaks
korda järjest ei muuda päringu tulemusi: saadakse sama tulemus, mis kahe sõna otsimisel.
Teisenduste blokeerimine
Vaikimisi lubab otsingumootor nii tavalisi teisendusi kui ka lisateisendusi kasutada kogu otsisõne ulatuses.
Ent spetsiaalsete märkidega on võimalik otsisõnes täpsustada nn blokeeritud regioonid, kus teisendusi teha
ei lubata. Tavalist teisenduskaugust blokeeriv regioon ümbritsetakse märkidega ( ja ), lisateisendusi ja tavalist
teisenduskaugust blokeeriv regioon märkidega < ja >. Näited blokeeritud regioonide
kasutamisest:
- (l)au(p)äeval
- blokeeritakse tavaliste teisenduste (tähe kustutamine või asendamine suvalise tähega) rakendamine esitähel l
ning tähel p. Nendel tähtede peal on endiselt lubatud kasutada kõiki lisateisenduste aknas
toodud teisendusi (Nt lisateisendust p → b).
- ((l)au(p)äeval
- blokeeritakse tavaliste teisenduste (tähe kustutamine või asendamine suvalise tähega) rakendamine esitähel l
ning tähel p. Topeltsulg sõna ees märgib seda, et ei lubata ka suvaliste tähtede lisamist otsisõne
ette, st kõigi tagastatud vastete esimeseks täheks jääb l. Lisateisenduste kasutamisele mingeid
piiranguid ei ole.
Analoogset topeltsuluga blokeerimise võtet saab ka kasutada sõna lõpus - nt ((l)au(p)äeva(l)) - et
vältida suvaliste tähtede lisamist sõna lõppu, viimase l järele. Aga otsisõna keskel topeltsulgudel
mingit efekti ei ole.
- (la)upäeval
- blokeeritakse tavaliste teisenduste (tähe kustutamine või asendamine suvalise tähega) rakendamine sõna esimestel tähtedel l
ja a. Lisaks sellele on keelatud suvaliste tähtede lisamine tähtede l ja a vahele. Lisateisenduste
kasutamisele piiranguid ei ole.
NB! Praeguse süsteemi järgi on ka otsisõnes (l)(a)upäeval keelatud suvaliste tähtede lisamine l ja a vahele.
- <l>au<p>äeval
- blokeeritakse nii tavaliste teisenduste (tähe kustutamine või asendamine suvalise tähega) kui ka lisateisenduste (Nt p → b või
l → ll) rakendamine esitähel l ning tähel p.
- <<la>upäeval
- blokeeritakse nii tavaliste teisenduste (tähe kustutamine või asendamine suvalise tähega) kui ka lisateisenduste rakendamine sõna esimestel tähtedel l ning a. Samuti on keelatud igasugune tähtede lisamine sõna ette või tähtede l ning a vahele.
Mõningaid juhiseid ja tähelepanekuid
- Lisateisendused on valdavalt koostatud eeldusel, et otsisõnaks võetakse kirjaliku keele sõna ning
eesmärgiks on leida kõik vasted suulises kõnes. (Siiski pole ka välistatud, et mõnd kirjakeele alla mittekuuluvat sõna otsisõnana kasutades saadakse häid tulemusi.)
- Käesolevas lisateisenduste hulgas ei leidu võõrkeele häälduste teisendusi (nt message → messids), samuti
on puudu tähtede väljahääldamise teisendused (nt DVD → deevedee) ning murde-spetsiifilised teisendused (nt käib → käüb).
- Kui on teada, et otsisõnas võib esineda suuri kadusid (nt matemaatikas → matas), ei anna "täpsete vastete" režiimi tõenäoliselt kätte suurte kadudega variante ning nende leidmiseks võib proovida osaliste vastete režiimi (eeltoodud näite puhul: otsida "algusosa vasteid" ning kasutada otsisõnana lühenenud varianti "mata").
- Mitmesuguste artikuleerimata häälitsuste (nt mmh, ahah) variantide seas võib samuti esineda suurte pikenemiste/kordustega variante (nt mmh → mmmhmhmh) ning nende leidmisel võib samuti "algusosa/keskosa vastete" režiim olla tulemuslikum kui "täpsete vastete" režiim.
- Senised eksperimendid blokeeritud regioonide kasutamisel on näidanud järgmist:
- Sõna alguses oleva konsonandi (va h) blokeerimine tavalise teisenduskauguse teisenduste vastu oli kõige ohutum (vähima korrektsete variantide kaoga) blokeerimisviis. Samas vähendas selline blokeerimisviis ka valede vastete arvu üsna tagasihoidlikult (täpsus suurenes ~2-3%).
- Sõna lõpus oleva konsonandi (va h) blokeerimine tavalise teisenduskauguse teisenduste vastu tõi kaasa korrektsete vastete kao (saagis vähenes ~1-2%), suurendades täpsust natuke rohkem (~2-5%).
- Kahe eelneva punkti kombinatsioon (alguses ja lõpus oleva konsonandi blokeerimine) tõi kaasa nii suurema saagise vähenemise (vähemalt ~2%) kui ka täpsuse suurenemise (~3%-6%).