Tutorial 2

Help > Tutorials > Specifieke werkwoordsvormen in context

Specifieke werkwoordsvormen in context

(Met dank aan: Marjo van Koppen en Joanna Wall)

Voor de volgende tutorial zijn we op zoek naar het werkwoord ‘breken’, maar dan wel het voltooid deelwoord, ‘gebroken’. Wanneer we dat voor elkaar hebben kunnen we gaan kijken naar de context. Er zijn twee manieren om deze specifieke werkwoordsvorm op te zoeken.

1. Woordvarianten

Stap 1
Ga naar ‘Zoeken’, en dan naar ‘Zoeken in tekst’. In het vakje ‘Al deze woorden’, vullen we nu het woord in waar we naar zoeken. Kies voor het hele werkwoord, “breken”. Vink het vakje met ‘Varianten inbegrepen’ aan. Hierdoor worden historische varianten en woordvormen opgezocht en toegevoegd aan de zoekvraag. Hiermee kunnen we verzekeren dat we het gezochte woord zullen vinden, en alle varianten die de zoekfunctie hiermee op het spoor komt. Het voordeel van zoeken op woordvarianten is dat je teksten kunt doorzoeken die niet verrijkt zijn met data als lemma, woordsoort, of entities.

Stap 2
Zoals je meteen merkt hebben we veel te veel resultaten. In sommige gevallen zal de pagina de resultaten niet eens laden. Mocht dit voorkomen, selecteer dan een kleinere collectie om in te zoeken, waardoor links onderin de mogelijkheid op varianten te filteren zal worden weergeven. In het linker zijmenu kun je onderin specificeren welke varianten je wel en niet wil meenemen in je resultaten. Selecteer hier alle varianten die als voltooid deelwoord kunnen gelden. Ook kun je ervoor kiezen om bij woordsoort alleen ‘WW’ aan te vinken. Als je dit gedaan hebt, klik dan op ‘Zoek’. Het resultaat is verder in te perken, bijvoorbeeld door te kiezen welke collecties je meeneemt. Voor deze tutorial hebben we alleen resultaten uit Sonar meegenomen.

Stap 3
Nu we de resultaten hebben, kunnen we de data observeren. Ga naar ‘Visualiseren’. Deze pagina laat enkele cirkeldiagrammen zien waar enkele conclusies uit kunnen worden getrokken. Er kan bijvoorbeeld gekeken worden in welke collectie de gezochte varianten het meest voorkomen, of in welke genres. Bij het veel voorkomende werkwoord ‘breken’ zal dit niet de meest interessante data zijn, maar wie weet voor andere zoekvragen wel.

Stap 4
Bij de ‘Tijdlijn’ volgt een distributie over de tijd. Afhankelijk van welke varianten je geselecteerd hebt zou je, in afzonderlijke sessies, kunnen zien welke varianten in welke periodes meer voorkomen.

Stap 5
Tot slot zou je met deze zoekmethode nog een frequentielijst kunnen oproepen van alle geselecteerde varianten. Ga naar ‘Groeperingen’ en laat sorteren op ‘woord’. Het is mogelijk dat het aantal resultaten te groot is om deze opdracht te voltooien. In dat geval zul je de zoekopdracht moeten verkleinen naar een bepaalde collectie, of het aantal varianten verminderen.

2. Geavanceerd zoeken

Stap 1
Ga naar ‘Zoeken in tekst’, en dan naar het tabblad ‘Geavanceerd zoeken’. Met deze functie kunnen we complexer zoeken en beter specificeren wat we willen. Het nadeel is dat de collectie waarin je wil zoeken voorzien moet zijn van zgn. verrijkingen, waardoor we kunnen zoeken op woordsoort, lemma, of woordvorm. Zoek daarom bij deze zoekopdracht op het lemma ‘breken’, in plaats van het woord. Voeg nog een specificatie toe aan dit lemma door op het plusje naast het ingevulde vakje te klikken. Specificeer hier voor de werkwoordsvorm (feat.wvorm) het voltooid deelwoord (vd). Klik nu op zoeken.

Stap 2
Eventueel kun je stappen 3 tot en met 5 van de vorige methode hier herhalen voor het bekijken van enkele statistieken. Voor deze methode slaan we die echter even over om aandacht te besteden aan de extra mogelijkheden die zich voordoen bij het zoeken op verrijkingen. We kunnen nu de resultaten van deze query opslaan als een doorzoekbaar corpus, in onze persoonlijke ‘workspace’. Zorg ervoor dat je ingelogd bent, en klik dan op de rode knop ‘Bewaren als corpus’ om de volgende functie toe te passen.

Stap 3
Nu het corpus opgeslagen is, is er een nieuwe rij met mogelijke functies toegevoegd. De meeste van deze functies zijn variaties op statistische gegevens, zoals we die ook al zagen in stappen 3 tot en met 5 van de vorige methode, evenals mogelijkheden om verder te zoeken in het corpus. De functie die voor ons interessant is heet ‘Collocaties’. Klik daarop. Lees de uitleg op de pagina zelf als je benieuwd bent hoe deze functie precies werkt.

Laten we zeggen dat we benieuwd zijn naar de persoonsvormen waarmee deze voltooide deelwoorden van ‘breken’ vaak gecombineerd worden. Gezien het aantal resultaten en de zwaarte van een collocatie-zoekopdracht, zullen we goed moeten nadenken over het bereik van de opdracht. Laten we als uitgangspunt de waarden nemen om het voltooid deelwoord te genereren. Deze zijn hetzelfde als bij Stap 1: lemma = ‘breken’, woordsoort = ‘WW’, en wvorm = ‘vd’. Als collocatie hebben we een persoonsvorm nodig: woordsoort = ‘WW’, en wvorm = ‘pv’. Het bereik kan variĆ«ren. Laten we uitgaan van de constructie ‘ik heb (zijn arm) gebroken’. Als we dit soort zinnen willen genereren, dan moeten we een bereik van drie woorden voor het uitgangspunt doorzoeken. Als alles goed gaat krijg je een resultatenlijst zoals hieronder.

*Let wel: collocatie-zoeken is een hele zware opdracht. Als je corpus of je zoekbereik te groot is zul je deze moeten zien te beperken. In vele gevallen is het echter ook een kwestie van geduld.

Stap 4
Maar wat zeggen de resultaten van zo’n collocatieopdracht ons? Die zeggen ons heel veel. Klik bijvoorbeeld eens op een van de werkwoorden in de resultatenlijst. Dit laden kan lang duren wanneer er veel resultaten met deze collocatie zijn. Eenmaal voltooid volgt er een mooi overzicht van de gevonden fragmenten in context, klaar voor de dataverwerking. De resultaten kunnen eventueel nog worden gedownload als CSV bestand.