Tekninen tausta

Eroottiset novellit ovat täydellinen kohde automaattiseen tekstin generointiin. Ne ovat kaavamaisia ja käsittelevät samaa aihetta. Alla on vertailu eri aineistojen välillä, mikä havainnollistaa tätä.

	Tyyppi	Koko	Aiheet	Kaavamaisuus
Wikipedia	Fakta	📕📕📕📕📕📕📕	Lukuisia eri aiheita.	Hyvin kaavamainen, mutta joka artikkelityypillä oma kaava (esim. henkilöartikkelit ja matematiikka-artikkelit noudattavat hyvin erilaisia kaavoja).
Suomen laki	Fakta	📕📕	Monia eri aiheita.	Hyvin kaavamainen.
Gutenberg-projekti	Fakta, fiktio	📕📕📕📕📕	Lukuisia eri aiheita.	Ei kovin kaavamainen, teokset hyvin erilaisia.
Eroottiset novellit	Fiktio	📕	Vain yksi aihe.	Melko kaavamainen (ei niin kaavamainen kuin Wikipedia tai laki, mutta kaavamaisempi kuin Gutenbergin novellit).

Minun tavoitteeni on tuottaa mahdollisimman hyvin ihmistä jäljittelevää tekstiä. Neuroverkko on tähän hyvä väline, mutta sen muisti on valitettavan huono. Jos lähdeaineistossa on useita eri tyylejä ja tekstilajeja, neuroverkko menee niistä sekaisin. Se unohtaa, mitä tekstiä on kirjoittamassa, ja saattaa vaihtaa aihetta kesken kaiken.

Rakenteellinen kaavamaisuus

Onneksi eroottiset novellit käsittelevät kaikki samaa aihetta, joten aihetta ei voi vaihtaa! Lisäksi tarinat noudattavat kaikki jonkinlaista kaavaa. Siispä generaattorilla on hyvä mahdollisuus viedä tarina kunnialla loppuun noudattaen "eroottista draaman kaarta".

Valikoitu otos

Wikipediaa ja Gutenberg-projektia voisi käyttää niin, että valikoi vain yhden aihepiirin tekstejä. Vaikka novellit ovat kaavamaisia, ne eivät kuitenkaan ole niin kaavamaisia kuin yksittäiset artikkelityypit Wikipediassa. Enemmistön Wikipedian artikkeleista muodostavat henkilöitä ja paikkoja käsittelevät artikkelit, jotka ovat lyhyitä ja sisältävät yleensä vain perustiedot hyvin lakonisesti. Tällaisia artikkeleita tekevä neuroverkko olisi hyvin tylsä. Yhdestä aiheesta ei myös välttämättä löydy tarpeeksi montaa artikkelia neuroverkon kouluttamiseksi. Sama ongelma on Gutenberg-projektissa.

Kielellinen kaavamaisuus

Vielä eräs syy eroottisten novellien generointiin on se, että novellit eivät ole asiatyylisiä. Wikipedia ja Suomen laki ovat paitsi rakenteellisesti myös kielellisesti kaavamaisia: ne toistavat samoja lauseita pienillä variaatioilla jatkuvasti. Tämä vaikeuttaa neuroverkkoa, joka sekoittaa samankaltaiset lauseet keskenään tai jää silmukkaan luomaan samoja lauseita peräkkäin monta kertaa. Onneksi kaunokirjallisessa tekstissä yleensä vältetään toistoa toisin kuin asiatyylissä.

Ehdot ei-eroottiselle fiktiolle

Jos haluaisi generoida ei-eroottista fiktiota, pitäisi löytää mielellään samaa aihetta käsittelevä hyvin iso novellikokoelma. Tarpeeksi isoa kokoelmaa ei kuitenkaan ole tietääkseni julkaistu, ja novellien hankkiminen useista eri lähteistä olisi haastavaa.

Generaattorin heikkoudet

Vaikka eroottiset novellit ovat siis hyvä tekstityyppi, neuroverkon huonomuistisuus tulee silti esiin eri tavoilla:

Hahmojen nimet, iät ja sukupuolet vaihtuvat kesken tarinan
Uusia hahmoja ilmestyy tarinaan ilman esittelyä
Hahmot riisuutuvat ensin alasti ja sitten heti alasti uudestaan
Tarinan nimellä ei ole välillä mitään tekemistä sisällön kanssa