Inlämningsuppgift i Språkteknologi,  2D1418

Vad är WordNet?  av Zsuzsa Fey, x97-zfe@nada.kth.se

Inledning
Nuförtiden finns en god del material och information tillgäglig på Internet. Mängden information ökar med varje dag. Människan använder datorer och Internet i större och större grad, och  förväntar sig att få nästan all slags information tillgängligt inte bara i böcker, utan också på nätet. Eftersom det blir allt vanligare att behandla text på datorn, man har behovet för olika språkkontrolltekniker. Inte bara grammatisk kontroll, utan stilistisk kontroll också.  Ett tänkbart hjälpmedel kan vara olika lexikoner, uppslagsböcker, skrivregelspecifikationer osv.

WordNet är ett sådant hjälpmedel. WordNet är en lexikal databas för det engelska språket, som innehåller ord ordnade i synonymklasser.  Just nu innehåller den 95600 olika ordformer, varav 51500 enkla ord och 44100 kollokationer.  (fraser, fasta uttryck). Alla dessa ord är ordnade in 70000 synonymmängder.

Skillnaden mellan en vanlig ordbok och WordNet är att WordNet delar upp lexikonet i 5 ordklassser, enligt följande: substantiv, verb, adjektiv, adverb och funktionord(ej implementerat). Trots detta kan ord dyka upp i flera ordklasser, eftersom ofta har ord som skrivs på samma sätt helt olika betydelser och helt olika ordklasser. Ett exempel på detta är ordet rain, med betydelserna regn(substantiv) och  regna(verb).

Vad kan man göra med WordNet
I WordNet är det möjligt att söka med de följande funktioner:

Resultatet av en sökning då innehåller ordet, ordklassen och förklaringen vad ordet betyder.
Nedan följer en beskrivning av de ovannnämnda termerna.

Synonymer
Ett ords synonym är ett annat ord som har liknande betydelse, de två orden betyder i stort sett samma sak. Enligt Libnitzs definiton två uttryck är synonymer om genom att ersätta det ena ordet med det andra ordet i en mening, meningens sannhetsvärde blir oförändrat.

Hyponymer
Hyponymi är en semantisk relation mellan ordbetydelser. Man kan se på hyponymi som en slags IS-A relation. Man säger att x är en hyponyim till y om man kan säga att x är en slags y. Ett exempel på detta är följande: ett bok(träd) är en slags träd, och ett träd är en slags växt. Man kan också säga att en hyponym ärver alla egenskaperna av det mer generella konceptet, men samtidigt måste finnas ett särdrag som särskiljer precis den här hyponymen från alla anda generella koncept. Som exempel en bok tappar sina löv på hösten som alla andra träd, men bokens nött har en helt annan smak än alla andra trädens frukt.
Hyponymi är en transitiv och icke-symmetrisk relation. Transitivitet betyder att om x är hyponym till y och y är hyponym till z, då också x är hyponym till z. Icke-symmetrisk betyder att om x är hyponym till y, det betyder inte att då också y är hyponym till x.

Hypernymer
Hypernymi är den motsatte relationen till hyponymi. Definitionen är följande: y är en hypernym till x om x är en slags y. En hypernym betecknar den generella klassen medan en hyponym betecknar ett medlem av en generell klass.

Meronymer
Den här typen av relation är en HAS-A relation, som har följande betydelse: x är en meronym till y, om man kan säga att x är en del av y eller y har en del x. Ett exempel på en sådan relation är mellan orden hjul och bil: ett hjul är en del av en bil eller en bil har som delar hjul.
Som hyponymi, också meronymi är en transitiv och icke-symmetrisk relation.

Holonymer
Holonymi är den motsatte relationen till meronymi, med följande definition:  y är en holonym of x om x är en del av y. En holonym är namnet på helheten medan meronym är namnet på delen i en del-av relation.

Antonymer
Antonymer visar ord som har den motsatte betydelsen till det valda ordet. Antonymer kan vara direkta eller indirekta. Direkta antonymer är sådana ord där man kan direkt se att dessa ord har motsatta betydelser. I fallet man pratar om indirekta antonymer, är begreppen inte så kopplade till varandra. För att hitta en indirekt antonym, hittar man direkta antonymer till begrepp som är synonymer med det valda ordet.

Morfologiska relationer
Man hade byggt in morfologiska relationer också i WordNet, eftersom detta var en nödvendighet. Dessa relationer gör det möjligt att söka på den böjda formen av ett ord och endå hitta ordet i lexikonet. Till exempel om man söker på ordet trees, får man endå fram resultat på ordets grundform, tree.

Familiaritet
Denna är beteckningen på hur vanligt ett ord är, hur ofta förekommer det här ordet i lexikonet. Ord som man är ett vanligt ord, och får som förekomstvärde 11. Ord som är ovanligt, kan ha förekomstvärde 2 eller 1. Ord som inte förekommer i lexikonet bara returnerar ett felmeddelande.

Visa resultat med förklarande text (kontextuell hjälp)
Dessutom finns det en knapp på användargränssnittet som gör det möjligt att få extra förklaringar på vad har man sökt.

Vad kan man hitta och vad kan man inte hitta med WordNet
Genom ett antal testkörningar på WordNet, fick jag uppskatta mer eller mindra vilken typ a information kan man hitta med hjälp av WordNet. Alltså de följande slutsatser är baserade på egna erfarenheter.

Sökning på följande saker leder till resultat:

  Sökning på nedanstående ord gav inte något resultat: Sammanfattning
WordNet är webbbaserad lexikon, som är mycket användbar både  för dem som har engelska som modersmål och dem som har lärt engelska senare eller för dem som vill lära sig engelska nu.  WordNet kan vara ett hjälpmedel för att hitta synonymer och de olika betydelserna av ett ord. Den kan hjälpa  professionella skribenter såsom nybörjare.

Användningsområden av WordNet
Ett område där WordNet kan användas effektivt är skolorna. Genom att söka på olika ord kan eleverna inte bara förstå vad vissa ord eller vissa ordsammansättningar betyder, men de kan se ordet i ett större sammanhang, eftersom man kan använda sökning av hypernymer, hyponymer, holonymer och meronymer. Genom att söka efter ett ords synonymer kan de skriva med en mer omväxlande stil deras uppsatser. Dessutom kan man testa ordens rättstavning också. I engelska händer det ofta att flera ord uttalas på nästan samma sätt, och det kan snart bli svårt att komma ihåg hur ordet stavas. Genom att söka ett ord och inte hitta det, kan man bli övertygad om att ordet inte finns.

En annan användarmålgrupp kan vara journalisterna och alla slags författare. När man skriver litterär text, vill man ofta upprepa samma sak flera gånger. I sådana texter val av synonyma ord är viktig. Genom att använda synonymer blir texterna mer levande,  intressantare och roligare att läsa.

Möjliga förbättringar
Man skulle kunna jobba vidare med WordNet och utöka lexikonet. Man skulle kunna baka in lite mer grammatisk information, vad som en vanlig ordbok innehåller (tex. när man söker på en verb i preteritum, sökresultatet skulle kunna presentera inte bara basformen men också de andra böjningsformerna)

En annan förbättring skulle kunna vara att ha liknande lexikoner i andra språk också. För svenska språket har man redan börjat ett sådant arbete. En forskargrupp i Lund håller på med att bygga SWordNet, WordNet för svenska. Hittils har de lagt in bara ett litet antal ord, men det går att köra demoversionen.

Referenser
Wordnets hemsida:
 http://www.cogsci.princeton.edu/~wn/

Five Papers on Wordnet:
 ftp://ftp.cogsci.princeton.edu/pub/wordnet/5papers.pdf

SWordNets hemsida:
http://galaxy.ling.lu.se/projects/Swordnet/

*Citaten:
"gravitation cannot be held responsible for people falling in love"--Albert Einstein