Rapport från Wordcamp

· 218 ord · 2 minut(er) att läsa

Jag hade tänkt från början att jobba på att utvinna taggar från text med utgångspunkt i data i Wordpress exportformat från Joakim Jardenbergs blogg på jardenberg.se. Jag fortsatte där jag slutat förra gången (då jag bland annat skapade en stoppordlista), dvs. att manuellt skilja personnamn från andra förekomster av två ord med inledande versal. Dock var jag för trött för att orka fullfölja detta i natt.

Nästa steg blev därför att se om man kunde infoga Foursquare-data i Per Åströms Gowalla spotter. Insåg dock snart att man inte skulle få ut några incheckningar av intresse.

Först vid fyra-tiden hade jag kommit fram till att det fick bli att köra på Heidi Harmans idé om automatinlagda faktarutor. Vid det laget hade jag hunnit göra en del annat, som att gå runt på museet ett varv, där vissa delar i första hand riktar sig till yngre personer.

Faktarutan hämtar information från Wikipedia, via DBpedia. Just nu avgörs vilka faktarutor som ska hämtas enbart utifrån länkar till Wikipedia i bloggtexten. Helst skulle den avgöra relevanta ord att lägga till faktarutor även på andra sätt. Tyvärr finns det ännu en del begränsningar, som att den inte klarar redirects mellan artiklar samt att den bara slår upp engelskspråkiga artiklar (eftersom den engelska titeln används för nyckeln).

Koden finns att ladda ner på Github.