Archief van
Categorie: Text Mining

Inhoud PDF bestanden analyseren met Python ?>

Inhoud PDF bestanden analyseren met Python

Niet alle gegevens die gebruikt worden voor  data-analyse of het genereren van managementinformatie zijn opgeslagen in een (min of meer) gestructureerde database. Een schat aan informatie ligt vaak verborgen in PDF bestanden. In deze blog laat ik zien hoe PDF bestanden kunnen worden uitgelezen met behulp van Python, zodat de teksten vervolgens verder geanalyseerd kunnen worden. Benodigdheden In deze blog gebruik ik de volgende Python libraries: PyPDF2 Deze library kan tekst in PDF bestanden omzetten naar tekst die door Python…

Lees Meer Lees Meer

Text Mining met SQL Server Integration Services ?>

Text Mining met SQL Server Integration Services

Het analyseren van gegevens heeft vaak als uitgangspunt dat de gegevens goed gestructureerd zijn, het liefst in een database met duidelijke relaties tussen de gegevens. In de praktijk zijn uiteraard niet alle gegevens die je nader wilt analyseren goed gestructureerd beschikbaar. Ook binnen goed gestructureerde dataverzamelingen kunnen teksten zijn opgeslagen die een speciale analyse techniek nodig hebben om de informatie die hierin opgeslagen ligt, eruit te kunnen halen. Deze technieken kunnen gegroepeerd worden onder de term ‘text mining’. Een bekend…

Lees Meer Lees Meer