Text Mining: Text Cleaning




Proses Data Cleansing adalah proses memperbaiki data sehingga data yang tidak valid dan data yang tidak diinginkan dapat diperbaiki ataupun dihilangkan.


Mengambil Data dari Twitter

  • Misalkan kita ambil data dari #Facebook sebanyak 5 tweets

library(twitteR) tweetsX <- searchTwitter("#Facebook", n = 5) tweetsX.df <- twListToDF(tweetsX) #pakRay note: menampilkan tweets df for (i in c(1:5)) { cat(paste0("[", i, "] ")) writeLines(strwrap(tweetsX.df$text[i], 60)) }

[1] https://t.co/RJ3obEUOQM "Warum die #Versteigerung nicht
rechtzeitig unterbunden wurde, erklärte er jedoch nicht."…
https://t.co/gv53mz6sdh
[2] RT @Einzelfallinfos: Moderner Sklavenmarkt: 17-Jährige
Sudanesin wird von ihren Eltern auf #Facebook als
"jungfräuliche Braut" an Meistbiet…
[3] RT @globemarketing: The benefits of #webanalytics
https://t.co/rMD6lDi64X

#SEO #digitalmarketing #influencer #technology
#GoogleAnalytic…
[4] RT gizlogic: Usar Facebook te alargará la vida
https://t.co/iytWnAMDdT #facebook #fb #curiosidades
#tecnologia https://t.co/xbPAWbduHg
[5] ¿Cómo se compran anuncios en Facebook? <U+0001F449>
https://t.co/Nm6uur60Rw por @MkDirecto #Anuncios #Facebook
#PublicidadOnline #SocialMedia

  • Terlihat bahwa data dari Twitter masih perlu dibersihkan.
  • Untuk membersihkan data kita perlu membuat Corpus 


Membuat Corpus

# pakRay Note: membuat corpus library(tm) CorpusX <- Corpus(VectorSource(tweetsX.df$text)) CorpusX

<<SimpleCorpus>> Metadata: corpus specific: 1, document level (indexed): 0 Content: documents: 5

Mengubah semua huruf besar menjadi huruf kecil

# pak Ray Note: convert to lower case CorpusY <- tm_map(CorpusX, content_transformer(tolower))

Contoh Pada Tweet ke-5:

Sebelum Cleaning [5] ¿Cómo se compran anuncios en Facebook? <U+0001F449> https://t.co/Nm6uur60Rw por @MkDirecto #Anuncios #Facebook #PublicidadOnline #SocialMedia
Setelah Cleaning
[5] ¿cómo se compran anuncios en facebook? <U+0001F449> https://t.co/nm6uur60rw por @mkdirecto #anuncios #facebook #publicidadonline #socialmediauhg

  • perhatikan bahwa kode tidak dicleaning contoh U+0001F449

Menghilangkan URL

# pakRay Note: remove URLs removeURL <- function(x) gsub("http[^[:space:]]*", "", x) CorpusY <- tm_map(CorpusX, content_transformer(removeURL))

Contoh Pada Tweet ke-3:

Sebelum Cleaning
[3] RT @globemarketing: The benefits of #webanalytics https://t.co/rMD6lDi64X
Setelah Cleaning
[3] RT @globemarketing: The benefits of #webanalytics


Menghilangkan selain Karakter Inggris dan spasi

# pakRay Note: hanya English letters or space removeNumPunct <- function(x) gsub("[^[:alpha:][:space:]]*", "", x) CorpusY <- tm_map(CorpusX, content_transformer(removeNumPunct))

Contoh Pada Tweet ke-4:

Sebelum Cleaning
[4] RT gizlogic: Usar Facebook te alargará la vida https://t.co/iytWnAMDdT #facebook #fb #curiosidades #tecnologia https://t.co/xbPAWbduHg
Setelah Cleaning
[4] RT gizlogic Usar Facebook te alargará la vida httpstcoiytWnAMDdT facebook fb curiosidades tecnologia httpstcoxbPAWbduHg

  • perhatikan bahwa karakter khusus á tidak dihilangkan




No comments:

Post a Comment