{ "cells": [ { "cell_type": "markdown", "id": "1d635f40", "metadata": {}, "source": [ "## FastText Data preparation" ] }, { "cell_type": "code", "execution_count": 2, "id": "a08afcc1", "metadata": {}, "outputs": [], "source": [ "data = pd.read_excel('augmented_Data_working_1.xlsx')" ] }, { "cell_type": "code", "execution_count": 3, "id": "44318d10", "metadata": {}, "outputs": [], "source": [ "masterDataFrame = data.copy()" ] }, { "cell_type": "markdown", "id": "e695f7a2", "metadata": {}, "source": [ "## Preprocessed Text" ] }, { "cell_type": "code", "execution_count": 4, "id": "36166efc", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "0 __label__POSITIVE \n", "1 __label__NEGATIVE \n", "2 __label__NEGATIVE \n", "3 __label__NEGATIVE \n", "4 __label__POSITIVE \n", "Name: _sent_label, dtype: object" ] }, "execution_count": 4, "metadata": {}, "output_type": "execute_result" } ], "source": [ "masterDataFrame['_sent_label'] = '__label__' + data['Sentiment'] + \" \"\n", "masterDataFrame['_sent_label'].head(5)" ] }, { "cell_type": "code", "execution_count": 5, "id": "dedf72fa", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "0 __label__POSITIVE محبت رنگ جانا ا دل دل ملنا\n", "1 __label__NEGATIVE لیکن مشکل دل بڑی مشکل ملنا\n", "2 __label__NEGATIVE محبت رنگ جانا ا دل دل ملنا لیکن مشکل دل بڑی مشکل ملنا\n", "3 __label__NEGATIVE دھرنا پیدا ہونا والا کیا پتہ حضور گھر احترام کیا جگہ ڈی چوک سمجھنا رکھا 🖐 🖐 🖐 دررسول جائےادب\n", "4 __label__POSITIVE انا والی نسل با شعور ہونا انشااللہ وه بکنا جھکنا والی نہ ہونا\n", "Name: _text_sent, dtype: object" ] }, "execution_count": 5, "metadata": {}, "output_type": "execute_result" } ], "source": [ "masterDataFrame['_text_sent'] = masterDataFrame['_sent_label']+masterDataFrame['preprocessed_text']\n", "masterDataFrame['_text_sent'].head()" ] }, { "cell_type": "code", "execution_count": 6, "id": "41b3ce67", "metadata": {}, "outputs": [], "source": [ "train, test = train_test_split(masterDataFrame, random_state=2,stratify=masterDataFrame['Sentiment'],test_size=0.2)" ] }, { "cell_type": "code", "execution_count": 7, "id": "18e96fa1", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "NEGATIVE 4874\n", "POSITIVE 2724\n", "NEUTRAL 2314\n", "Name: Sentiment, dtype: int64" ] }, "execution_count": 7, "metadata": {}, "output_type": "execute_result" } ], "source": [ "train['Sentiment'].value_counts()" ] }, { "cell_type": "code", "execution_count": 8, "id": "5b1e1ee2", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "NEGATIVE 1219\n", "POSITIVE 681\n", "NEUTRAL 579\n", "Name: Sentiment, dtype: int64" ] }, "execution_count": 8, "metadata": {}, "output_type": "execute_result" } ], "source": [ "test['Sentiment'].value_counts()" ] }, { "cell_type": "code", "execution_count": 9, "id": "63d1f6a1", "metadata": {}, "outputs": [], "source": [] }, { "cell_type": "markdown", "id": "1e8c5388", "metadata": {}, "source": [ "## on Raw Text" ] }, { "cell_type": "code", "execution_count": 10, "id": "8b87ef92", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "0 __label__POSITIVE @Ayeshan233 کہ محبت رنگ دے جاتی ے \\nجب دل سے دل ملتا ہے —\n", "1 __label__NEGATIVE لیکن مشکل یہ ہیں \\n\\n کے دل بڑی مشکل سے ملتا ہیں۔\n", "2 __label__NEGATIVE @Ayeshan233 کہ محبت رنگ دے جاتی ے \\nجب دل سے دل ملتا ہے ——\\n \\n لیکن مشکل یہ ہیں \\n\\n کے دل بڑی مشکل سے ملتا ہیں۔\n", "3 __label__NEGATIVE دھرنے میں پیدا ہونے والوں کو کیا پتہ حضور کے گھر کا احترام کیا ہے\\nہر جگہ ڈی چوک سمجھ رکھا ہے\\n🖐️🖐️🖐️\\n\\n#دررسول_جائےادب\n", "4 __label__POSITIVE انے والی نسل با شعور ہوگی۔ انشااللہ وه بکنے اور جھکنے والی نہ ہوگی ۔\n", "Name: _text_sent_raw, dtype: object" ] }, "execution_count": 10, "metadata": {}, "output_type": "execute_result" } ], "source": [ "masterDataFrame['_text_sent_raw'] = masterDataFrame['_sent_label']+masterDataFrame['text']\n", "masterDataFrame['_text_sent_raw'].head()" ] }, { "cell_type": "code", "execution_count": null, "id": "5ff7ac3c", "metadata": {}, "outputs": [], "source": [] }, { "cell_type": "code", "execution_count": 12, "id": "f9d140e4", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "'asasd'" ] }, "execution_count": 12, "metadata": {}, "output_type": "execute_result" } ], "source": [] }, { "cell_type": "code", "execution_count": 14, "id": "4bb6666a", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "This is a sample text. It has multiple new lines. Let's replace them with a single space.\n" ] } ], "source": [ "import re\n", "\n", "text = \"This is a sample text.\\n\\n\\nIt has multiple new lines.\\n\\n\\nLet's replace them with a single space.\"\n", "\n", "def replace_newLines(text):\n", " # Replace one or more new lines with a space\n", " return re.sub(r'\\n+', ' ', text)\n", "\n", "# Print the clean text\n", "print(clean_text)\n" ] }, { "cell_type": "code", "execution_count": 17, "id": "a582f02b", "metadata": {}, "outputs": [], "source": [ "pattern = r'\\n+'\n", "# Apply the regular expression to the '_text_sent_raw' column\n", "masterDataFrame['_text_sent_raw'] = masterDataFrame['_text_sent_raw'].apply(lambda x: re.sub(pattern, ' ', x))" ] }, { "cell_type": "code", "execution_count": 18, "id": "72e7cf73", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "0 __label__POSITIVE @Ayeshan233 کہ محبت رنگ دے جاتی ے جب دل سے دل ملتا ہے —\n", "1 __label__NEGATIVE لیکن مشکل یہ ہیں کے دل بڑی مشکل سے ملتا ہیں۔\n", "2 __label__NEGATIVE @Ayeshan233 کہ محبت رنگ دے جاتی ے جب دل سے دل ملتا ہے —— لیکن مشکل یہ ہیں کے دل بڑی مشکل سے ملتا ہیں۔\n", "3 __label__NEGATIVE دھرنے میں پیدا ہونے والوں کو کیا پتہ حضور کے گھر کا احترام کیا ہے ہر جگہ ڈی چوک سمجھ رکھا ہے 🖐️🖐️🖐️ #دررسول_جائےادب\n", "4 __label__POSITIVE انے والی نسل با شعور ہوگی۔ انشااللہ وه بکنے اور جھکنے والی نہ ہوگی ۔\n", "Name: _text_sent_raw, dtype: object" ] }, "execution_count": 18, "metadata": {}, "output_type": "execute_result" } ], "source": [ "masterDataFrame['_text_sent_raw'].head()" ] }, { "cell_type": "code", "execution_count": null, "id": "70f70ebe", "metadata": {}, "outputs": [], "source": [] }, { "cell_type": "code", "execution_count": 20, "id": "f2f8666f", "metadata": {}, "outputs": [], "source": [ "train, test = train_test_split(masterDataFrame, random_state=2,stratify=masterDataFrame['Sentiment'],test_size=0.2)" ] }, { "cell_type": "code", "execution_count": 21, "id": "3b126e9f", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "NEGATIVE 4874\n", "POSITIVE 2724\n", "NEUTRAL 2314\n", "Name: Sentiment, dtype: int64" ] }, "execution_count": 21, "metadata": {}, "output_type": "execute_result" } ], "source": [ "train['Sentiment'].value_counts()" ] }, { "cell_type": "code", "execution_count": 22, "id": "30810906", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "NEGATIVE 1219\n", "POSITIVE 681\n", "NEUTRAL 579\n", "Name: Sentiment, dtype: int64" ] }, "execution_count": 22, "metadata": {}, "output_type": "execute_result" } ], "source": [ "test['Sentiment'].value_counts()" ] }, { "cell_type": "code", "execution_count": 23, "id": "f9f77e95", "metadata": {}, "outputs": [], "source": [ "train.to_csv('sent_train_raw.csv', columns=['_text_sent_raw'], index=False, header=False)\n", "test.to_csv('sent_test_raw.csv', columns=['_text_sent_raw'], index=False, header=False)" ] }, { "cell_type": "markdown", "id": "e3159f3c", "metadata": {}, "source": [ "## Bullying train" ] }, { "cell_type": "markdown", "id": "f881d4ac", "metadata": {}, "source": [ "## on Raw Text" ] }, { "cell_type": "code", "execution_count": 25, "id": "f56f177a", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "0 __label__NONE \n", "1 __label__NONE \n", "2 __label__NONE \n", "3 __label__BULLYING \n", "4 __label__NONE \n", "Name: _bullying_label, dtype: object" ] }, "execution_count": 25, "metadata": {}, "output_type": "execute_result" } ], "source": [ "masterDataFrame['_bullying_label'] = '__label__' + data['Bullying'] + \" \"\n", "masterDataFrame['_bullying_label'].head(5)" ] }, { "cell_type": "code", "execution_count": 26, "id": "dedf72fa", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "0 __label__NONE @Ayeshan233 کہ محبت رنگ دے جاتی ے \\nجب دل سے دل ملتا ہے —\n", "1 __label__NONE لیکن مشکل یہ ہیں \\n\\n کے دل بڑی مشکل سے ملتا ہیں۔\n", "2 __label__NONE @Ayeshan233 کہ محبت رنگ دے جاتی ے \\nجب دل سے دل ملتا ہے ——\\n \\n لیکن مشکل یہ ہیں \\n\\n کے دل بڑی مشکل سے ملتا ہیں۔\n", "3 __label__BULLYING دھرنے میں پیدا ہونے والوں کو کیا پتہ حضور کے گھر کا احترام کیا ہے\\nہر جگہ ڈی چوک سمجھ رکھا ہے\\n🖐️🖐️🖐️\\n\\n#دررسول_جائےادب\n", "4 __label__NONE انے والی نسل با شعور ہوگی۔ انشااللہ وه بکنے اور جھکنے والی نہ ہوگی ۔\n", "Name: _text_bullying_raw, dtype: object" ] }, "execution_count": 26, "metadata": {}, "output_type": "execute_result" } ], "source": [ "masterDataFrame['_text_bullying_raw'] = masterDataFrame['_bullying_label']+masterDataFrame['text']\n", "masterDataFrame['_text_bullying_raw'].head()" ] }, { "cell_type": "code", "execution_count": null, "id": "b72390a4", "metadata": {}, "outputs": [], "source": [ "\n" ] }, { "cell_type": "code", "execution_count": 27, "id": "f1f2689f", "metadata": {}, "outputs": [], "source": [ "pattern = r'\\n+'\n", "# Apply the regular expression to the '_text_sent_raw' column\n", "masterDataFrame['_text_bullying_raw'] = masterDataFrame['_text_bullying_raw'].apply(lambda x: re.sub(pattern, ' ', x))" ] }, { "cell_type": "code", "execution_count": 28, "id": "492ec2b4", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "0 __label__NONE @Ayeshan233 کہ محبت رنگ دے جاتی ے جب دل سے دل ملتا ہے —\n", "1 __label__NONE لیکن مشکل یہ ہیں کے دل بڑی مشکل سے ملتا ہیں۔\n", "2 __label__NONE @Ayeshan233 کہ محبت رنگ دے جاتی ے جب دل سے دل ملتا ہے —— لیکن مشکل یہ ہیں کے دل بڑی مشکل سے ملتا ہیں۔\n", "3 __label__BULLYING دھرنے میں پیدا ہونے والوں کو کیا پتہ حضور کے گھر کا احترام کیا ہے ہر جگہ ڈی چوک سمجھ رکھا ہے 🖐️🖐️🖐️ #دررسول_جائےادب\n", "4 __label__NONE انے والی نسل با شعور ہوگی۔ انشااللہ وه بکنے اور جھکنے والی نہ ہوگی ۔\n", "Name: _text_bullying_raw, dtype: object" ] }, "execution_count": 28, "metadata": {}, "output_type": "execute_result" } ], "source": [ "masterDataFrame['_text_bullying_raw'].head()" ] }, { "cell_type": "code", "execution_count": 29, "id": "9f6631a7", "metadata": {}, "outputs": [], "source": [ "train, test = train_test_split(masterDataFrame, random_state=2,stratify=masterDataFrame['Bullying'],test_size=0.2)" ] }, { "cell_type": "code", "execution_count": 30, "id": "50cc0f72", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "NONE 6878\n", "BULLYING 1226\n", "OFFENSIVE 764\n", "OFFENSIVE.BULLYING.NAMECALLING 591\n", "PROFANE 318\n", "OFFENSIVE,THREAT 74\n", "OFFENSIVE,CURSE 61\n", "Name: Bullying, dtype: int64" ] }, "execution_count": 30, "metadata": {}, "output_type": "execute_result" } ], "source": [ "train['Bullying'].value_counts()" ] }, { "cell_type": "code", "execution_count": 31, "id": "bb0136cd", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "NONE 1720\n", "BULLYING 307\n", "OFFENSIVE 191\n", "OFFENSIVE.BULLYING.NAMECALLING 148\n", "PROFANE 80\n", "OFFENSIVE,THREAT 18\n", "OFFENSIVE,CURSE 15\n", "Name: Bullying, dtype: int64" ] }, "execution_count": 31, "metadata": {}, "output_type": "execute_result" } ], "source": [ "test['Bullying'].value_counts()" ] }, { "cell_type": "code", "execution_count": 35, "id": "d6bb604c", "metadata": {}, "outputs": [], "source": [ "train.to_csv('text_bullying_train_raw.csv', columns=['_text_bullying_raw'], index=False, header=False)\n", "test.to_csv('text_bullying_test_raw.csv', columns=['_text_bullying_raw'], index=False, header=False)" ] }, { "cell_type": "markdown", "id": "20272a6b", "metadata": {}, "source": [ "## Preprocessed text" ] }, { "cell_type": "code", "execution_count": null, "id": "b7038ccc", "metadata": {}, "outputs": [], "source": [] }, { "cell_type": "code", "execution_count": 36, "id": "dedf72fa", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "0 __label__NONE محبت رنگ جانا ا دل دل ملنا\n", "1 __label__NONE لیکن مشکل دل بڑی مشکل ملنا\n", "2 __label__NONE محبت رنگ جانا ا دل دل ملنا لیکن مشکل دل بڑی مشکل ملنا\n", "3 __label__BULLYING دھرنا پیدا ہونا والا کیا پتہ حضور گھر احترام کیا جگہ ڈی چوک سمجھنا رکھا 🖐 🖐 🖐 دررسول جائےادب\n", "4 __label__NONE انا والی نسل با شعور ہونا انشااللہ وه بکنا جھکنا والی نہ ہونا\n", "Name: _text_bullying_preprocessed, dtype: object" ] }, "execution_count": 36, "metadata": {}, "output_type": "execute_result" } ], "source": [ "masterDataFrame['_text_bullying_preprocessed'] = masterDataFrame['_bullying_label']+masterDataFrame['preprocessed_text']\n", "masterDataFrame['_text_bullying_preprocessed'].head()" ] }, { "cell_type": "code", "execution_count": null, "id": "eafd7176", "metadata": {}, "outputs": [], "source": [ "\n" ] }, { "cell_type": "code", "execution_count": 37, "id": "446f0784", "metadata": {}, "outputs": [], "source": [ "train, test = train_test_split(masterDataFrame, random_state=2,stratify=masterDataFrame['Bullying'],test_size=0.2)" ] }, { "cell_type": "code", "execution_count": 38, "id": "a39d3781", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "NONE 6878\n", "BULLYING 1226\n", "OFFENSIVE 764\n", "OFFENSIVE.BULLYING.NAMECALLING 591\n", "PROFANE 318\n", "OFFENSIVE,THREAT 74\n", "OFFENSIVE,CURSE 61\n", "Name: Bullying, dtype: int64" ] }, "execution_count": 38, "metadata": {}, "output_type": "execute_result" } ], "source": [ "train['Bullying'].value_counts()" ] }, { "cell_type": "code", "execution_count": 39, "id": "efdf47ac", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "NONE 1720\n", "BULLYING 307\n", "OFFENSIVE 191\n", "OFFENSIVE.BULLYING.NAMECALLING 148\n", "PROFANE 80\n", "OFFENSIVE,THREAT 18\n", "OFFENSIVE,CURSE 15\n", "Name: Bullying, dtype: int64" ] }, "execution_count": 39, "metadata": {}, "output_type": "execute_result" } ], "source": [ "test['Bullying'].value_counts()" ] }, { "cell_type": "code", "execution_count": 40, "id": "41f1ebcf", "metadata": {}, "outputs": [], "source": [ "train.to_csv('text_bullying_train_prep.csv', columns=['_text_bullying_preprocessed'], index=False, header=False)\n", "test.to_csv('text_bullying_test_prep.csv', columns=['_text_bullying_preprocessed'], index=False, header=False)" ] }, { "cell_type": "code", "execution_count": 41, "id": "7c214bba", "metadata": {}, "outputs": [], "source": [ "from wordcloud import WordCloud\n", "from wordcloud import STOPWORDS" ] }, { "cell_type": "code", "execution_count": 42, "id": "92b170f2", "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
Unnamed: 0.1Unnamed: 0textpreprocessed_textSentimentBullyingsent_predbullying_pred_sent_label_text_sent_text_sent_raw_bullying_label_text_bullying_raw_text_bullying_preprocessed
000@Ayeshan233 کہ محبت رنگ دے جاتی ے \\nجب دل سے دل ملتا ہے —محبت رنگ جانا ا دل دل ملناPOSITIVENONEPOSITIVENONE__label__POSITIVE__label__POSITIVE محبت رنگ جانا ا دل دل ملنا__label__POSITIVE @Ayeshan233 کہ محبت رنگ دے جاتی ے جب دل سے دل ملتا ہے —__label__NONE__label__NONE @Ayeshan233 کہ محبت رنگ دے جاتی ے جب دل سے دل ملتا ہے —__label__NONE محبت رنگ جانا ا دل دل ملنا
111لیکن مشکل یہ ہیں \\n\\n کے دل بڑی مشکل سے ملتا ہیں۔لیکن مشکل دل بڑی مشکل ملناNEGATIVENONENEGATIVENONE__label__NEGATIVE__label__NEGATIVE لیکن مشکل دل بڑی مشکل ملنا__label__NEGATIVE لیکن مشکل یہ ہیں کے دل بڑی مشکل سے ملتا ہیں۔__label__NONE__label__NONE لیکن مشکل یہ ہیں کے دل بڑی مشکل سے ملتا ہیں۔__label__NONE لیکن مشکل دل بڑی مشکل ملنا
222@Ayeshan233 کہ محبت رنگ دے جاتی ے \\nجب دل سے دل ملتا ہے ——\\n \\n لیکن مشکل یہ ہیں \\n\\n کے دل بڑی مشکل سے ملتا ہیں۔محبت رنگ جانا ا دل دل ملنا لیکن مشکل دل بڑی مشکل ملناNEGATIVENONENEGATIVENONE__label__NEGATIVE__label__NEGATIVE محبت رنگ جانا ا دل دل ملنا لیکن مشکل دل بڑی مشکل ملنا__label__NEGATIVE @Ayeshan233 کہ محبت رنگ دے جاتی ے جب دل سے دل ملتا ہے —— لیکن مشکل یہ ہیں کے دل بڑی مشکل سے ملتا ہیں۔__label__NONE__label__NONE @Ayeshan233 کہ محبت رنگ دے جاتی ے جب دل سے دل ملتا ہے —— لیکن مشکل یہ ہیں کے دل بڑی مشکل سے ملتا ہیں۔__label__NONE محبت رنگ جانا ا دل دل ملنا لیکن مشکل دل بڑی مشکل ملنا
333دھرنے میں پیدا ہونے والوں کو کیا پتہ حضور کے گھر کا احترام کیا ہے\\nہر جگہ ڈی چوک سمجھ رکھا ہے\\n🖐️🖐️🖐️\\n\\n#دررسول_جائےادبدھرنا پیدا ہونا والا کیا پتہ حضور گھر احترام کیا جگہ ڈی چوک سمجھنا رکھا 🖐 🖐 🖐 دررسول جائےادبNEGATIVEBULLYINGNEGATIVEBULLYING__label__NEGATIVE__label__NEGATIVE دھرنا پیدا ہونا والا کیا پتہ حضور گھر احترام کیا جگہ ڈی چوک سمجھنا رکھا 🖐 🖐 🖐 دررسول جائےادب__label__NEGATIVE دھرنے میں پیدا ہونے والوں کو کیا پتہ حضور کے گھر کا احترام کیا ہے ہر جگہ ڈی چوک سمجھ رکھا ہے 🖐️🖐️🖐️ #دررسول_جائےادب__label__BULLYING__label__BULLYING دھرنے میں پیدا ہونے والوں کو کیا پتہ حضور کے گھر کا احترام کیا ہے ہر جگہ ڈی چوک سمجھ رکھا ہے 🖐️🖐️🖐️ #دررسول_جائےادب__label__BULLYING دھرنا پیدا ہونا والا کیا پتہ حضور گھر احترام کیا جگہ ڈی چوک سمجھنا رکھا 🖐 🖐 🖐 دررسول جائےادب
445انے والی نسل با شعور ہوگی۔ انشااللہ وه بکنے اور جھکنے والی نہ ہوگی ۔انا والی نسل با شعور ہونا انشااللہ وه بکنا جھکنا والی نہ ہوناPOSITIVENONEPOSITIVENONE__label__POSITIVE__label__POSITIVE انا والی نسل با شعور ہونا انشااللہ وه بکنا جھکنا والی نہ ہونا__label__POSITIVE انے والی نسل با شعور ہوگی۔ انشااللہ وه بکنے اور جھکنے والی نہ ہوگی ۔__label__NONE__label__NONE انے والی نسل با شعور ہوگی۔ انشااللہ وه بکنے اور جھکنے والی نہ ہوگی ۔__label__NONE انا والی نسل با شعور ہونا انشااللہ وه بکنا جھکنا والی نہ ہونا
.............................................
123861238612323تو تو صرف بے-غیرتی کا نمونہ ہے۔۔۔ @khanbaba253بد غیرتی نمونہNEGATIVEOFFENSIVENEGATIVEOFFENSIVE__label__NEGATIVE__label__NEGATIVE بد غیرتی نمونہ__label__NEGATIVE تو تو صرف بے-غیرتی کا نمونہ ہے۔۔۔ @khanbaba253__label__OFFENSIVE__label__OFFENSIVE تو تو صرف بے-غیرتی کا نمونہ ہے۔۔۔ @khanbaba253__label__OFFENSIVE بد غیرتی نمونہ
123871238712324یہ بزدل شخص صرف میر جعفر ہے۔۔۔بزدل شخص میر جعفرNEGATIVEOFFENSIVENEGATIVEBULLYING__label__NEGATIVE__label__NEGATIVE بزدل شخص میر جعفر__label__NEGATIVE یہ بزدل شخص صرف میر جعفر ہے۔۔۔__label__OFFENSIVE__label__OFFENSIVE یہ بزدل شخص صرف میر جعفر ہے۔۔۔__label__OFFENSIVE بزدل شخص میر جعفر
123881238812325میر جعفر تو واقعی بے-غیرت ہے۔۔۔ @umerAli786میر جعفر واقعی بد غیرتNEGATIVEOFFENSIVENEGATIVEOFFENSIVE__label__NEGATIVE__label__NEGATIVE میر جعفر واقعی بد غیرت__label__NEGATIVE میر جعفر تو واقعی بے-غیرت ہے۔۔۔ @umerAli786__label__OFFENSIVE__label__OFFENSIVE میر جعفر تو واقعی بے-غیرت ہے۔۔۔ @umerAli786__label__OFFENSIVE میر جعفر واقعی بد غیرت
123891238912326بے-غیرت بزدلوں میں صرف میر جعفر ہی ہوتا ہے۔۔۔ @khanbaba253بد غیرت بزدل میر جعفرNEGATIVEOFFENSIVENEGATIVEOFFENSIVE__label__NEGATIVE__label__NEGATIVE بد غیرت بزدل میر جعفر__label__NEGATIVE بے-غیرت بزدلوں میں صرف میر جعفر ہی ہوتا ہے۔۔۔ @khanbaba253__label__OFFENSIVE__label__OFFENSIVE بے-غیرت بزدلوں میں صرف میر جعفر ہی ہوتا ہے۔۔۔ @khanbaba253__label__OFFENSIVE بد غیرت بزدل میر جعفر
123901239012327کیا تیری بچی چود دی ہے کسی نے یا باجی ۔ بھین چود پھدی کے منہ والےکیا تیرنا بچی چودنا دینا باجی بھین چودنا پھدی منہNEGATIVEPROFANENEGATIVEPROFANE__label__NEGATIVE__label__NEGATIVE کیا تیرنا بچی چودنا دینا باجی بھین چودنا پھدی منہ__label__NEGATIVE کیا تیری بچی چود دی ہے کسی نے یا باجی ۔ بھین چود پھدی کے منہ والے__label__PROFANE__label__PROFANE کیا تیری بچی چود دی ہے کسی نے یا باجی ۔ بھین چود پھدی کے منہ والے__label__PROFANE کیا تیرنا بچی چودنا دینا باجی بھین چودنا پھدی منہ
\n", "

12391 rows × 14 columns

\n", "
" ], "text/plain": [ " Unnamed: 0.1 Unnamed: 0 \\\n", "0 0 0 \n", "1 1 1 \n", "2 2 2 \n", "3 3 3 \n", "4 4 5 \n", "... ... ... \n", "12386 12386 12323 \n", "12387 12387 12324 \n", "12388 12388 12325 \n", "12389 12389 12326 \n", "12390 12390 12327 \n", "\n", " text \\\n", "0 @Ayeshan233 کہ محبت رنگ دے جاتی ے \\nجب دل سے دل ملتا ہے — \n", "1 لیکن مشکل یہ ہیں \\n\\n کے دل بڑی مشکل سے ملتا ہیں۔ \n", "2 @Ayeshan233 کہ محبت رنگ دے جاتی ے \\nجب دل سے دل ملتا ہے ——\\n \\n لیکن مشکل یہ ہیں \\n\\n کے دل بڑی مشکل سے ملتا ہیں۔ \n", "3 دھرنے میں پیدا ہونے والوں کو کیا پتہ حضور کے گھر کا احترام کیا ہے\\nہر جگہ ڈی چوک سمجھ رکھا ہے\\n🖐️🖐️🖐️\\n\\n#دررسول_جائےادب \n", "4 انے والی نسل با شعور ہوگی۔ انشااللہ وه بکنے اور جھکنے والی نہ ہوگی ۔ \n", "... ... \n", "12386 تو تو صرف بے-غیرتی کا نمونہ ہے۔۔۔ @khanbaba253 \n", "12387 یہ بزدل شخص صرف میر جعفر ہے۔۔۔ \n", "12388 میر جعفر تو واقعی بے-غیرت ہے۔۔۔ @umerAli786 \n", "12389 بے-غیرت بزدلوں میں صرف میر جعفر ہی ہوتا ہے۔۔۔ @khanbaba253 \n", "12390 کیا تیری بچی چود دی ہے کسی نے یا باجی ۔ بھین چود پھدی کے منہ والے \n", "\n", " preprocessed_text \\\n", "0 محبت رنگ جانا ا دل دل ملنا \n", "1 لیکن مشکل دل بڑی مشکل ملنا \n", "2 محبت رنگ جانا ا دل دل ملنا لیکن مشکل دل بڑی مشکل ملنا \n", "3 دھرنا پیدا ہونا والا کیا پتہ حضور گھر احترام کیا جگہ ڈی چوک سمجھنا رکھا 🖐 🖐 🖐 دررسول جائےادب \n", "4 انا والی نسل با شعور ہونا انشااللہ وه بکنا جھکنا والی نہ ہونا \n", "... ... \n", "12386 بد غیرتی نمونہ \n", "12387 بزدل شخص میر جعفر \n", "12388 میر جعفر واقعی بد غیرت \n", "12389 بد غیرت بزدل میر جعفر \n", "12390 کیا تیرنا بچی چودنا دینا باجی بھین چودنا پھدی منہ \n", "\n", " Sentiment Bullying sent_pred bullying_pred _sent_label \\\n", "0 POSITIVE NONE POSITIVE NONE __label__POSITIVE \n", "1 NEGATIVE NONE NEGATIVE NONE __label__NEGATIVE \n", "2 NEGATIVE NONE NEGATIVE NONE __label__NEGATIVE \n", "3 NEGATIVE BULLYING NEGATIVE BULLYING __label__NEGATIVE \n", "4 POSITIVE NONE POSITIVE NONE __label__POSITIVE \n", "... ... ... ... ... ... \n", "12386 NEGATIVE OFFENSIVE NEGATIVE OFFENSIVE __label__NEGATIVE \n", "12387 NEGATIVE OFFENSIVE NEGATIVE BULLYING __label__NEGATIVE \n", "12388 NEGATIVE OFFENSIVE NEGATIVE OFFENSIVE __label__NEGATIVE \n", "12389 NEGATIVE OFFENSIVE NEGATIVE OFFENSIVE __label__NEGATIVE \n", "12390 NEGATIVE PROFANE NEGATIVE PROFANE __label__NEGATIVE \n", "\n", " _text_sent \\\n", "0 __label__POSITIVE محبت رنگ جانا ا دل دل ملنا \n", "1 __label__NEGATIVE لیکن مشکل دل بڑی مشکل ملنا \n", "2 __label__NEGATIVE محبت رنگ جانا ا دل دل ملنا لیکن مشکل دل بڑی مشکل ملنا \n", "3 __label__NEGATIVE دھرنا پیدا ہونا والا کیا پتہ حضور گھر احترام کیا جگہ ڈی چوک سمجھنا رکھا 🖐 🖐 🖐 دررسول جائےادب \n", "4 __label__POSITIVE انا والی نسل با شعور ہونا انشااللہ وه بکنا جھکنا والی نہ ہونا \n", "... ... \n", "12386 __label__NEGATIVE بد غیرتی نمونہ \n", "12387 __label__NEGATIVE بزدل شخص میر جعفر \n", "12388 __label__NEGATIVE میر جعفر واقعی بد غیرت \n", "12389 __label__NEGATIVE بد غیرت بزدل میر جعفر \n", "12390 __label__NEGATIVE کیا تیرنا بچی چودنا دینا باجی بھین چودنا پھدی منہ \n", "\n", " _text_sent_raw \\\n", "0 __label__POSITIVE @Ayeshan233 کہ محبت رنگ دے جاتی ے جب دل سے دل ملتا ہے — \n", "1 __label__NEGATIVE لیکن مشکل یہ ہیں کے دل بڑی مشکل سے ملتا ہیں۔ \n", "2 __label__NEGATIVE @Ayeshan233 کہ محبت رنگ دے جاتی ے جب دل سے دل ملتا ہے —— لیکن مشکل یہ ہیں کے دل بڑی مشکل سے ملتا ہیں۔ \n", "3 __label__NEGATIVE دھرنے میں پیدا ہونے والوں کو کیا پتہ حضور کے گھر کا احترام کیا ہے ہر جگہ ڈی چوک سمجھ رکھا ہے 🖐️🖐️🖐️ #دررسول_جائےادب \n", "4 __label__POSITIVE انے والی نسل با شعور ہوگی۔ انشااللہ وه بکنے اور جھکنے والی نہ ہوگی ۔ \n", "... ... \n", "12386 __label__NEGATIVE تو تو صرف بے-غیرتی کا نمونہ ہے۔۔۔ @khanbaba253 \n", "12387 __label__NEGATIVE یہ بزدل شخص صرف میر جعفر ہے۔۔۔ \n", "12388 __label__NEGATIVE میر جعفر تو واقعی بے-غیرت ہے۔۔۔ @umerAli786 \n", "12389 __label__NEGATIVE بے-غیرت بزدلوں میں صرف میر جعفر ہی ہوتا ہے۔۔۔ @khanbaba253 \n", "12390 __label__NEGATIVE کیا تیری بچی چود دی ہے کسی نے یا باجی ۔ بھین چود پھدی کے منہ والے \n", "\n", " _bullying_label \\\n", "0 __label__NONE \n", "1 __label__NONE \n", "2 __label__NONE \n", "3 __label__BULLYING \n", "4 __label__NONE \n", "... ... \n", "12386 __label__OFFENSIVE \n", "12387 __label__OFFENSIVE \n", "12388 __label__OFFENSIVE \n", "12389 __label__OFFENSIVE \n", "12390 __label__PROFANE \n", "\n", " _text_bullying_raw \\\n", "0 __label__NONE @Ayeshan233 کہ محبت رنگ دے جاتی ے جب دل سے دل ملتا ہے — \n", "1 __label__NONE لیکن مشکل یہ ہیں کے دل بڑی مشکل سے ملتا ہیں۔ \n", "2 __label__NONE @Ayeshan233 کہ محبت رنگ دے جاتی ے جب دل سے دل ملتا ہے —— لیکن مشکل یہ ہیں کے دل بڑی مشکل سے ملتا ہیں۔ \n", "3 __label__BULLYING دھرنے میں پیدا ہونے والوں کو کیا پتہ حضور کے گھر کا احترام کیا ہے ہر جگہ ڈی چوک سمجھ رکھا ہے 🖐️🖐️🖐️ #دررسول_جائےادب \n", "4 __label__NONE انے والی نسل با شعور ہوگی۔ انشااللہ وه بکنے اور جھکنے والی نہ ہوگی ۔ \n", "... ... \n", "12386 __label__OFFENSIVE تو تو صرف بے-غیرتی کا نمونہ ہے۔۔۔ @khanbaba253 \n", "12387 __label__OFFENSIVE یہ بزدل شخص صرف میر جعفر ہے۔۔۔ \n", "12388 __label__OFFENSIVE میر جعفر تو واقعی بے-غیرت ہے۔۔۔ @umerAli786 \n", "12389 __label__OFFENSIVE بے-غیرت بزدلوں میں صرف میر جعفر ہی ہوتا ہے۔۔۔ @khanbaba253 \n", "12390 __label__PROFANE کیا تیری بچی چود دی ہے کسی نے یا باجی ۔ بھین چود پھدی کے منہ والے \n", "\n", " _text_bullying_preprocessed \n", "0 __label__NONE محبت رنگ جانا ا دل دل ملنا \n", "1 __label__NONE لیکن مشکل دل بڑی مشکل ملنا \n", "2 __label__NONE محبت رنگ جانا ا دل دل ملنا لیکن مشکل دل بڑی مشکل ملنا \n", "3 __label__BULLYING دھرنا پیدا ہونا والا کیا پتہ حضور گھر احترام کیا جگہ ڈی چوک سمجھنا رکھا 🖐 🖐 🖐 دررسول جائےادب \n", "4 __label__NONE انا والی نسل با شعور ہونا انشااللہ وه بکنا جھکنا والی نہ ہونا \n", "... ... \n", "12386 __label__OFFENSIVE بد غیرتی نمونہ \n", "12387 __label__OFFENSIVE بزدل شخص میر جعفر \n", "12388 __label__OFFENSIVE میر جعفر واقعی بد غیرت \n", "12389 __label__OFFENSIVE بد غیرت بزدل میر جعفر \n", "12390 __label__PROFANE کیا تیرنا بچی چودنا دینا باجی بھین چودنا پھدی منہ \n", "\n", "[12391 rows x 14 columns]" ] }, "execution_count": 42, "metadata": {}, "output_type": "execute_result" } ], "source": [ "data" ] }, { "cell_type": "code", "execution_count": 49, "id": "214525ce", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "0 محبت رنگ جانا ا دل دل ملنا\n", "4 انا والی نسل با شعور ہونا انشااللہ وه بکنا جھکنا والی نہ ہونا\n", "10 انشاء اللہ\n", "12 وعلیکم السلام\n", "19 آمین\n", " ... \n", "12352 عدالتی نظام مستحکم بننا واحد حل\n", "12353 خاندان تعاون واحد حل اسلامی خاندانی نظام 👍\n", "12354 سماجی امن امان واحد حل امن فراہمی نظام 👍\n", "12355 توانائی مسائل واحد حل سستا بجلی نظام 👍\n", "12383 عمیر اللہ تعالی چھوٹنا بڑی مصیبت نجات آمین\n", "Name: preprocessed_text, Length: 3405, dtype: object" ] }, "execution_count": 49, "metadata": {}, "output_type": "execute_result" } ], "source": [ "positive_tweets = data['preprocessed_text'][data[\"Sentiment\"] == 'POSITIVE']\n", "positive_tweets" ] }, { "cell_type": "code", "execution_count": 59, "id": "707e7d09", "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "stop_words = common_words\n", "positive_wordcloud = WordCloud(font_path='urdu_font/urdu_font.ttf',max_font_size=50, max_words=50, background_color=\"white\").generate(str(positive_tweets))\n", "plt.figure()\n", "plt.title(\"Positive Tweets - Wordcloud\")\n", "plt.imshow(positive_wordcloud, interpolation=\"bilinear\")\n", "plt.axis(\"off\")\n", "plt.show()" ] }, { "cell_type": "code", "execution_count": null, "id": "f691954b", "metadata": {}, "outputs": [], "source": [] }, { "cell_type": "markdown", "id": "a7c9fc40", "metadata": {}, "source": [ "### Random Experiments" ] }, { "cell_type": "code", "execution_count": 2, "id": "93e96eea", "metadata": {}, "outputs": [], "source": [ "import fasttext" ] }, { "cell_type": "code", "execution_count": 38, "id": "0ded8c46", "metadata": {}, "outputs": [], "source": [ "model = fasttext.train_supervised(input='sent_train.csv', autotuneValidationFile='sent_test.csv')" ] }, { "cell_type": "code", "execution_count": 3, "id": "f3fcf742", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(1825, 0.6449315068493151, 0.6449315068493151)" ] }, "execution_count": 3, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model.test(path='sent_test.csv')" ] }, { "cell_type": "code", "execution_count": 31, "id": "febdc0b4", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(1825, 0.6553424657534247, 0.6553424657534247)" ] }, "execution_count": 31, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model.test(path='sent_test.csv')" ] }, { "cell_type": "code", "execution_count": 39, "id": "34e0fbf1", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(1825, 0.68, 0.68)" ] }, "execution_count": 39, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model.test(path='sent_test.csv')" ] }, { "cell_type": "code", "execution_count": 42, "id": "378314ac", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(('__label__Positive',), array([0.84352726]))" ] }, "execution_count": 42, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model.predict('تمہاری تبصرے مجھے بہت اچھے لگتے ہیں')" ] }, { "cell_type": "code", "execution_count": 44, "id": "9e7b1e72", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(('__label__Neutral',), array([0.57542932]))" ] }, "execution_count": 44, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model.predict('فتنۂ')" ] }, { "cell_type": "code", "execution_count": 45, "id": "daebfb34", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(('__label__Negative',), array([0.99757844]))" ] }, "execution_count": 45, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model.predict('فتنہ')" ] }, { "cell_type": "code", "execution_count": 47, "id": "56e853df", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(('__label__Negative',), array([0.99949563]))" ] }, "execution_count": 47, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model.predict('مرتد')" ] }, { "cell_type": "code", "execution_count": 52, "id": "2c2e11e8", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "'Negative'" ] }, "execution_count": 52, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model.predict('تم پٹواری ہو')[0][0].split('__label__')[1]" ] }, { "cell_type": "code", "execution_count": 79, "id": "99a07331", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(('__label__Positive', '__label__Neutral', '__label__Negative'),\n", " array([0.46102011, 0.39414737, 0.14486252]))" ] }, "execution_count": 79, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model.predict(\"ہم جھکے نہیں ہم بکے نہیں ، جو کھڑے رہے ہیں محاذ پر، ہمیں اُن صفوں میں تلاش\",k=3)" ] }, { "cell_type": "code", "execution_count": 85, "id": "ed51d4fa", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(('__label__Positive',), array([0.62801576]))" ] }, "execution_count": 85, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model.predict('الحمد لل ہ ڈالر کا ریٹ پٹرول سے کم ہوگیا یہ ہوتا ہے تجربہ')" ] }, { "cell_type": "code", "execution_count": 84, "id": "9204fdb1", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "[(0.9999998807907104, 'وظیفہ'),\n", " (0.9999995231628418, 'شکوک'),\n", " (0.9999995231628418, 'بلندی'),\n", " (0.9999992251396179, 'nappywalanizai'),\n", " (0.9999991059303284, 'جزائر'),\n", " (0.9999989867210388, 'اتے'),\n", " (0.9999988675117493, 'اٹیک'),\n", " (0.9999973177909851, 'خوشی'),\n", " (0.9999969601631165, 'ذائقہ'),\n", " (0.9999960660934448, 'استغفراللہ')]" ] }, "execution_count": 84, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model.get_nearest_neighbors('انشاء اللہ')" ] }, { "cell_type": "code", "execution_count": 87, "id": "8202a83b", "metadata": { "scrolled": true }, "outputs": [ { "data": { "text/plain": [ "['__class__',\n", " '__contains__',\n", " '__delattr__',\n", " '__dict__',\n", " '__dir__',\n", " '__doc__',\n", " '__eq__',\n", " '__format__',\n", " '__ge__',\n", " '__getattribute__',\n", " '__getitem__',\n", " '__gt__',\n", " '__hash__',\n", " '__init__',\n", " '__init_subclass__',\n", " '__le__',\n", " '__lt__',\n", " '__module__',\n", " '__ne__',\n", " '__new__',\n", " '__reduce__',\n", " '__reduce_ex__',\n", " '__repr__',\n", " '__setattr__',\n", " '__sizeof__',\n", " '__str__',\n", " '__subclasshook__',\n", " '__weakref__',\n", " '_labels',\n", " '_words',\n", " 'bucket',\n", " 'dim',\n", " 'epoch',\n", " 'f',\n", " 'get_analogies',\n", " 'get_dimension',\n", " 'get_input_matrix',\n", " 'get_input_vector',\n", " 'get_label_id',\n", " 'get_labels',\n", " 'get_line',\n", " 'get_meter',\n", " 'get_nearest_neighbors',\n", " 'get_output_matrix',\n", " 'get_sentence_vector',\n", " 'get_subword_id',\n", " 'get_subwords',\n", " 'get_word_id',\n", " 'get_word_vector',\n", " 'get_words',\n", " 'is_quantized',\n", " 'label',\n", " 'labels',\n", " 'loss',\n", " 'lr',\n", " 'lrUpdateRate',\n", " 'maxn',\n", " 'minCount',\n", " 'minCountLabel',\n", " 'minn',\n", " 'neg',\n", " 'predict',\n", " 'pretrainedVectors',\n", " 'quantize',\n", " 'save_model',\n", " 'set_args',\n", " 'set_matrices',\n", " 't',\n", " 'test',\n", " 'test_label',\n", " 'thread',\n", " 'verbose',\n", " 'wordNgrams',\n", " 'words',\n", " 'ws']" ] }, "execution_count": 87, "metadata": {}, "output_type": "execute_result" } ], "source": [ "dir(model)" ] }, { "cell_type": "code", "execution_count": 89, "id": "f2563881", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "['BOW',\n", " 'EOS',\n", " 'EOW',\n", " 'FastText',\n", " '__builtins__',\n", " '__cached__',\n", " '__doc__',\n", " '__file__',\n", " '__loader__',\n", " '__name__',\n", " '__package__',\n", " '__path__',\n", " '__spec__',\n", " 'absolute_import',\n", " 'cbow',\n", " 'division',\n", " 'load_model',\n", " 'print_function',\n", " 'skipgram',\n", " 'supervised',\n", " 'tokenize',\n", " 'train_supervised',\n", " 'train_unsupervised',\n", " 'unicode_literals']" ] }, "execution_count": 89, "metadata": {}, "output_type": "execute_result" } ], "source": [ "dir(fasttext)" ] }, { "cell_type": "code", "execution_count": 90, "id": "12e0e8c5", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(('__label__Positive',), array([0.96275067]))" ] }, "execution_count": 90, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model.predict('عبداللہ اچھا بچہ ہے')" ] }, { "cell_type": "code", "execution_count": 111, "id": "b9fcd911", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(('__label__Neutral',), array([0.87282515]))" ] }, "execution_count": 111, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model2.predict('عبداللہ اچھا بچہ ہے')" ] }, { "cell_type": "code", "execution_count": 91, "id": "bd5ff633", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(('__label__Neutral',), array([0.838826]))" ] }, "execution_count": 91, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model.predict('استغفراللہ')" ] }, { "cell_type": "code", "execution_count": 96, "id": "5ac2a3e5", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(('__label__Neutral',), array([0.66170126]))" ] }, "execution_count": 96, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model.predict('HEC نے امیجن کپ کی اتنی شاندار تکمیل کے ذریعے بہت اچھا کام کیا ہے۔')" ] }, { "cell_type": "code", "execution_count": 98, "id": "dc7bcceb", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(('__label__Neutral',), array([0.65451747]))" ] }, "execution_count": 98, "metadata": {}, "output_type": "execute_result" } ], "source": [ " model.predict('hec نے امیجن کپ کی اتنی شاندار تکمیل کے ذریعے بہت اچھا کام کیا ہے')" ] }, { "cell_type": "markdown", "id": "9752b2a7", "metadata": {}, "source": [ "## FAst Model" ] }, { "cell_type": "code", "execution_count": 99, "id": "58251b48", "metadata": {}, "outputs": [], "source": [ "model2 = fasttext.train_supervised(input='sent_train.csv',)" ] }, { "cell_type": "code", "execution_count": 100, "id": "09731574", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(2525, 0.7318811881188119, 0.7318811881188119)" ] }, "execution_count": 100, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model2.test(path='combined_sent_test.csv')" ] }, { "cell_type": "code", "execution_count": 101, "id": "3d7ec9cf", "metadata": { "scrolled": true }, "outputs": [ { "data": { "text/plain": [ "(('__label__Positive',), array([0.70057917]))" ] }, "execution_count": 101, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model2.predict('تمہاری تبصرے مجھے بہت اچھے لگتے ہیں')" ] }, { "cell_type": "code", "execution_count": 102, "id": "e7e8a1f9", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(('__label__Neutral',), array([0.98962945]))" ] }, "execution_count": 102, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model2.predict('فتنۂ')" ] }, { "cell_type": "code", "execution_count": 103, "id": "a95606e9", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(('__label__Negative',), array([0.99997711]))" ] }, "execution_count": 103, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model2.predict('فتنہ')" ] }, { "cell_type": "code", "execution_count": 104, "id": "8ca62c2c", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(('__label__Negative',), array([0.9993766]))" ] }, "execution_count": 104, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model2.predict('مرتد')" ] }, { "cell_type": "code", "execution_count": 138, "id": "e46af712", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "'Negative'" ] }, "execution_count": 138, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model2.predict('تم پٹواری ہو')[0][0].split('__label__')[1]" ] }, { "cell_type": "code", "execution_count": 106, "id": "301360b6", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(('__label__Positive', '__label__Neutral', '__label__Negative'),\n", " array([0.88522828, 0.07577535, 0.03902645]))" ] }, "execution_count": 106, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model2.predict(\"ہم جھکے نہیں ہم بکے نہیں ، جو کھڑے رہے ہیں محاذ پر، ہمیں اُن صفوں میں تلاش\",k=3)" ] }, { "cell_type": "code", "execution_count": null, "id": "71cea054", "metadata": {}, "outputs": [], "source": [ "model2.predict('تم پٹواری ہو')[0][0].split('__label__')[1]" ] }, { "cell_type": "code", "execution_count": null, "id": "c1264e0d", "metadata": {}, "outputs": [], "source": [ "model.predict(s)[0][0].split('__label__')[1]" ] }, { "cell_type": "code", "execution_count": 107, "id": "b52ae320", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(('__label__Neutral',), array([0.49642617]))" ] }, "execution_count": 107, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model2.predict('الحمد لل ہ ڈالر کا ریٹ پٹرول سے کم ہوگیا یہ ہوتا ہے تجربہ')" ] }, { "cell_type": "code", "execution_count": 108, "id": "59d92b26", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "[(0.9999492764472961, 'افرین'),\n", " (0.9999485611915588, 'ماشاءالله'),\n", " (0.9999239444732666, 'جنونی'),\n", " (0.9999216198921204, 'واعلیکم'),\n", " (0.9999182820320129, 'اسٹریٹ'),\n", " (0.9999101161956787, 'ڈارک'),\n", " (0.9998976588249207, 'تحيا'),\n", " (0.9998923540115356, 'اسٹریٹن'),\n", " (0.9998906850814819, 'انائس'),\n", " (0.9998758435249329, 'برتھڈے')]" ] }, "execution_count": 108, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model2.get_nearest_neighbors('انشاء اللہ')" ] }, { "cell_type": "code", "execution_count": 114, "id": "9904cc82", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(('__label__Positive',), array([0.95730704]))" ] }, "execution_count": 114, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model2.predict('HEC نے امیجن کپ کی اتنی شاندار تکمیل کے ذریعے بہت اچھا کام کیا ہے۔')" ] }, { "cell_type": "code", "execution_count": 110, "id": "e5bd7a19", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(('__label__Neutral',), array([0.65451747]))" ] }, "execution_count": 110, "metadata": {}, "output_type": "execute_result" } ], "source": [ " model.predict('hec نے امیجن کپ کی اتنی شاندار تکمیل کے ذریعے بہت اچھا کام کیا ہے')" ] }, { "cell_type": "code", "execution_count": 126, "id": "629227da", "metadata": {}, "outputs": [], "source": [ "model3 = fasttext.train_supervised(input='combined_fast_text_r.csv', autotuneValidationFile='combined_sent_test.csv')" ] }, { "cell_type": "code", "execution_count": 123, "id": "e1b99851", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(('__label__Positive',), array([0.84291101]))" ] }, "execution_count": 123, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model3.predict('اچھا بچہ ہے')" ] }, { "cell_type": "code", "execution_count": 116, "id": "33b5f571", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(('__label__Positive',), array([0.71113497]))" ] }, "execution_count": 116, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model3.predict('HEC نے امیجن کپ کی اتنی شاندار تکمیل کے ذریعے بہت اچھا کام کیا ہے۔')" ] }, { "cell_type": "code", "execution_count": 127, "id": "5cd966d9", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(('__label__Positive',), array([0.99645984]))" ] }, "execution_count": 127, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model3.predict('اچھا بچہ ہے')" ] }, { "cell_type": "code", "execution_count": 118, "id": "60cefca1", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "303" ] }, "execution_count": 118, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model3.get_dimension()" ] }, { "cell_type": "code", "execution_count": 128, "id": "c44c2732", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "144" ] }, "execution_count": 128, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model2.get_dimension()" ] }, { "cell_type": "code", "execution_count": 121, "id": "472b0804", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(('__label__Positive',), array([0.99994624]))" ] }, "execution_count": 121, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model2.predict('آج موسم خوبصورت اور دلکش ہے')" ] }, { "cell_type": "code", "execution_count": 125, "id": "997fbaf3", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(12634, 0.8773151812569258, 0.8773151812569258)" ] }, "execution_count": 125, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model3.test(path='combined_fast_text_r.csv')" ] }, { "cell_type": "code", "execution_count": 130, "id": "c3293e90", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(2525, 0.9845544554455445, 0.9845544554455445)" ] }, "execution_count": 130, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model3.test(path='combined_sent_test.csv')" ] }, { "cell_type": "code", "execution_count": 133, "id": "e61c146d", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(('__label__Neutral',), array([0.91407257]))" ] }, "execution_count": 133, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model3.predict('بہت خوش ہوں کہ ')" ] }, { "cell_type": "code", "execution_count": 134, "id": "69caf47a", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(('__label__Neutral',), array([0.82502848]))" ] }, "execution_count": 134, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model2.predict('میں نے آج کچھ نیا سیکھا ہے۔ بہت خوش ہوں کہ میرے پاس اس موقع کا موجودگی تھی')" ] }, { "cell_type": "code", "execution_count": 135, "id": "f9c13f9b", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(('__label__Positive',), array([0.55606526]))" ] }, "execution_count": 135, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model3.predict('آپ کی مدد سے میں نے اس مسئلے کا حل نکال لیا۔ شکریہ، آپ نے میری بہت مدد کی ہے')" ] }, { "cell_type": "code", "execution_count": 136, "id": "da1084a7", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(('__label__Neutral',), array([0.44868371]))" ] }, "execution_count": 136, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model2.predict('آپ کی مدد سے میں نے اس مسئلے کا حل نکال لیا۔ شکریہ، آپ نے میری بہت مدد کی ہے')" ] }, { "cell_type": "code", "execution_count": 137, "id": "d690b9b6", "metadata": {}, "outputs": [], "source": [ "model3.save_model(\"model_sent_fastText.bin\")" ] }, { "cell_type": "code", "execution_count": 139, "id": "ad2678a5", "metadata": {}, "outputs": [ { "name": "stderr", "output_type": "stream", "text": [ "Warning : `load_model` does not return WordVectorModel or SupervisedModel any more, but a `FastText` object which is very similar.\n" ] } ], "source": [ "loaded_model = fasttext.load_model('model_sent_fastText.bin')" ] }, { "cell_type": "code", "execution_count": 140, "id": "b44dcf55", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(('__label__Positive',), array([0.55606526]))" ] }, "execution_count": 140, "metadata": {}, "output_type": "execute_result" } ], "source": [ "loaded_model.predict('آپ کی مدد سے میں نے اس مسئلے کا حل نکال لیا۔ شکریہ، آپ نے میری بہت مدد کی ہے')" ] }, { "cell_type": "code", "execution_count": 141, "id": "970adfc9", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(('__label__Positive',), array([0.99645984]))" ] }, "execution_count": 141, "metadata": {}, "output_type": "execute_result" } ], "source": [ "loaded_model.predict('اچھا بچہ ہے')" ] }, { "cell_type": "code", "execution_count": null, "id": "bc66869b", "metadata": {}, "outputs": [], "source": [] }, { "cell_type": "code", "execution_count": 191, "id": "2853d5d9", "metadata": {}, "outputs": [], "source": [] }, { "cell_type": "code", "execution_count": 161, "id": "e74076bf", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "اچھا بچہ\n" ] }, { "data": { "text/plain": [ "'Negative'" ] }, "execution_count": 161, "metadata": {}, "output_type": "execute_result" } ], "source": [ "predict_sentiment_fast(s, model3)" ] }, { "cell_type": "code", "execution_count": 193, "id": "f8063aa0", "metadata": {}, "outputs": [], "source": [ "s = '-اچھا بچہ ہے'" ] }, { "cell_type": "code", "execution_count": 163, "id": "4f416e3b", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "('-اچھا بچہ ہے', 'اچھا بچہ')" ] }, "execution_count": 163, "metadata": {}, "output_type": "execute_result" } ], "source": [ "s,urdu_preprocessing(s)" ] }, { "cell_type": "code", "execution_count": null, "id": "d6c003cb", "metadata": {}, "outputs": [], "source": [] }, { "cell_type": "code", "execution_count": 164, "id": "29d79428", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(('__label__Neutral',), array([0.99744278]))" ] }, "execution_count": 164, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model2.predict('بچہ')" ] }, { "cell_type": "code", "execution_count": 165, "id": "980a66c1", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(('__label__Negative',), array([0.99797666]))" ] }, "execution_count": 165, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model3.predict('بچہ')" ] }, { "cell_type": "code", "execution_count": 166, "id": "b9862124", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(12634, 0.8873674212442615, 0.8873674212442615)" ] }, "execution_count": 166, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model2.test('combined_fast_text_r.csv')" ] }, { "cell_type": "code", "execution_count": 167, "id": "0a604db6", "metadata": {}, "outputs": [], "source": [ "model2.save_model('model_sent_fastText_model2.bin')" ] }, { "cell_type": "code", "execution_count": 183, "id": "97c26918", "metadata": {}, "outputs": [], "source": [ "model4 = fasttext.train_supervised(input='combined_fast_text_r.csv', lr=0.5, epoch=10, wordNgrams=2, dim=300)" ] }, { "cell_type": "code", "execution_count": 168, "id": "fe451795", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "0.5915502841356329" ] }, "execution_count": 168, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model2.lr" ] }, { "cell_type": "code", "execution_count": 169, "id": "17e4ab4d", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "1" ] }, "execution_count": 169, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model2.wordNgrams" ] }, { "cell_type": "code", "execution_count": 170, "id": "4ca46c1a", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "3" ] }, "execution_count": 170, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model3.wordNgrams" ] }, { "cell_type": "code", "execution_count": 171, "id": "51ea9870", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "2" ] }, "execution_count": 171, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model.wordNgrams" ] }, { "cell_type": "code", "execution_count": 184, "id": "2c4dfea8", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(12634, 0.9820326104163368, 0.9820326104163368)" ] }, "execution_count": 184, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model4.test('combined_fast_text_r.csv')" ] }, { "cell_type": "code", "execution_count": 185, "id": "5bbe7bdf", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(('__label__Positive',), array([0.98859251]))" ] }, "execution_count": 185, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model4.predict('اچھا بچہ ہے')" ] }, { "cell_type": "code", "execution_count": 189, "id": "84d5d080", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(('__label__Neutral',), array([1.00000989]))" ] }, "execution_count": 189, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model4.predict('چ')" ] }, { "cell_type": "code", "execution_count": 182, "id": "b1b9d1d5", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "2" ] }, "execution_count": 182, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model.wordNgrams" ] }, { "cell_type": "code", "execution_count": 190, "id": "7083f1bb", "metadata": {}, "outputs": [], "source": [ "model4.save_model('model_sent_fastText_model3.bin')" ] }, { "cell_type": "code", "execution_count": 194, "id": "e2d7b8ab", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "اچھا بچہ\n" ] }, { "data": { "text/plain": [ "'Positive'" ] }, "execution_count": 194, "metadata": {}, "output_type": "execute_result" } ], "source": [ "predict_sentiment_fast(s, model4)" ] }, { "cell_type": "code", "execution_count": 195, "id": "bd921a2d", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "اچھا بچہ\n" ] }, { "data": { "text/plain": [ "'Negative'" ] }, "execution_count": 195, "metadata": {}, "output_type": "execute_result" } ], "source": [ "predict_sentiment_fast(s, model3)" ] }, { "cell_type": "markdown", "id": "e5a29c7d", "metadata": {}, "source": [ "## Fast Model Final" ] }, { "cell_type": "code", "execution_count": 17, "id": "d533ac65", "metadata": {}, "outputs": [], "source": [ "model = fasttext.train_supervised(input='Final_clean/sent_train_f.csv', lr=0.5, epoch=10, wordNgrams=1, dim=300)" ] }, { "cell_type": "code", "execution_count": 18, "id": "20517428", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(2478, 0.7546408393866021, 0.7546408393866021)" ] }, "execution_count": 18, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model.test(path='Final_clean/sent_test_f.csv')" ] }, { "cell_type": "code", "execution_count": 7, "id": "50818851", "metadata": {}, "outputs": [], "source": [ "model = fasttext.train_supervised(input='Final_clean/sent_train_f.csv', lr=0.5, epoch=10, wordNgrams=2, dim=300)" ] }, { "cell_type": "code", "execution_count": 8, "id": "de2e8fee", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(2478, 0.7776432606941082, 0.7776432606941082)" ] }, "execution_count": 8, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model.test(path='Final_clean/sent_test_f.csv')" ] }, { "cell_type": "code", "execution_count": 5, "id": "cbedef6b", "metadata": {}, "outputs": [], "source": [ "import os" ] }, { "cell_type": "code", "execution_count": 6, "id": "c42f895b", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "'C:\\\\Users\\\\umair\\\\Documents\\\\Freelance\\\\python\\\\twitter-20220719T170741Z-001\\\\twitter\\\\Updataed_Data'" ] }, "execution_count": 6, "metadata": {}, "output_type": "execute_result" } ], "source": [ "os.getcwd()" ] }, { "cell_type": "code", "execution_count": null, "id": "94b62d92", "metadata": {}, "outputs": [], "source": [] }, { "cell_type": "code", "execution_count": 10, "id": "a5afb80a", "metadata": {}, "outputs": [], "source": [ "def calculate_f1_score(precision, recall):\n", " f1_score = 2 * (precision * recall) / (precision + recall)\n", " return f1_score\n" ] }, { "cell_type": "code", "execution_count": 11, "id": "2a06f4f7", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "0.777" ] }, "execution_count": 11, "metadata": {}, "output_type": "execute_result" } ], "source": [ "calculate_f1_score(0.777,0.777)" ] }, { "cell_type": "code", "execution_count": 25, "id": "6ae5082a", "metadata": {}, "outputs": [], "source": [ "model = fasttext.train_supervised(input='Final_clean/sent_train_f.csv', lr=0.5, epoch=10, wordNgrams=3, dim=300)" ] }, { "cell_type": "code", "execution_count": 26, "id": "c1510bf4", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(2478, 0.774818401937046, 0.774818401937046)" ] }, "execution_count": 26, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model.test(path='Final_clean/sent_test_f.csv')" ] }, { "cell_type": "code", "execution_count": null, "id": "8430fd2d", "metadata": {}, "outputs": [], "source": [] }, { "cell_type": "markdown", "id": "ccdc7ddf", "metadata": {}, "source": [ "## Raw Text" ] }, { "cell_type": "code", "execution_count": 27, "id": "1dc1789b", "metadata": {}, "outputs": [], "source": [ "model = fasttext.train_supervised(input='Final_clean/sent_train_raw.csv', lr=0.5, epoch=10, wordNgrams=1, dim=300)" ] }, { "cell_type": "code", "execution_count": 28, "id": "19b170b7", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(2402, 0.7431307243963364, 0.7431307243963364)" ] }, "execution_count": 28, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model.test(path='Final_clean/sent_test_raw.csv')" ] }, { "cell_type": "code", "execution_count": 29, "id": "d4d0c329", "metadata": {}, "outputs": [], "source": [ "model = fasttext.train_supervised(input='Final_clean/sent_train_raw.csv', lr=0.5, epoch=10, wordNgrams=2, dim=300)" ] }, { "cell_type": "code", "execution_count": 30, "id": "219de4d7", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(2402, 0.7643630308076603, 0.7643630308076603)" ] }, "execution_count": 30, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model.test(path='Final_clean/sent_test_raw.csv')" ] }, { "cell_type": "code", "execution_count": 31, "id": "ae77a817", "metadata": {}, "outputs": [], "source": [ "model = fasttext.train_supervised(input='Final_clean/sent_train_raw.csv', lr=0.5, epoch=10, wordNgrams=3, dim=300)" ] }, { "cell_type": "code", "execution_count": 32, "id": "9f0e8efa", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(2402, 0.7556203164029975, 0.7556203164029975)" ] }, "execution_count": 32, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model.test(path='Final_clean/sent_test_raw.csv')" ] }, { "cell_type": "markdown", "id": "96831f41", "metadata": {}, "source": [ "## Bullying" ] }, { "cell_type": "code", "execution_count": 35, "id": "8b98b5c6", "metadata": {}, "outputs": [], "source": [ "model = fasttext.train_supervised(input='Final_clean/text_bullying_train_raw.csv', lr=0.5, epoch=10, wordNgrams=1, dim=300)" ] }, { "cell_type": "code", "execution_count": 36, "id": "2b7a6990", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(2374, 0.8184498736310025, 0.8184498736310025)" ] }, "execution_count": 36, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model.test(path='Final_clean/text_bullying_test_raw.csv')" ] }, { "cell_type": "code", "execution_count": 37, "id": "619061d8", "metadata": {}, "outputs": [], "source": [ "model = fasttext.train_supervised(input='Final_clean/text_bullying_train_raw.csv', lr=0.5, epoch=10, wordNgrams=2, dim=300)" ] }, { "cell_type": "code", "execution_count": 38, "id": "bc56bb16", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(2374, 0.8167649536647009, 0.8167649536647009)" ] }, "execution_count": 38, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model.test(path='Final_clean/text_bullying_test_raw.csv')" ] }, { "cell_type": "code", "execution_count": 39, "id": "8c3d240e", "metadata": {}, "outputs": [], "source": [ "model = fasttext.train_supervised(input='Final_clean/text_bullying_train_raw.csv', lr=0.5, epoch=10, wordNgrams=3, dim=300)" ] }, { "cell_type": "code", "execution_count": 40, "id": "123687e1", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(2374, 0.8121314237573716, 0.8121314237573716)" ] }, "execution_count": 40, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model.test(path='Final_clean/text_bullying_test_raw.csv')" ] }, { "cell_type": "markdown", "id": "c8ab66b2", "metadata": {}, "source": [ "### prep" ] }, { "cell_type": "code", "execution_count": 41, "id": "22d7d569", "metadata": {}, "outputs": [], "source": [ "model = fasttext.train_supervised(input='Final_clean/text_bullying_train_prep.csv', lr=0.5, epoch=10, wordNgrams=1, dim=300)" ] }, { "cell_type": "code", "execution_count": 42, "id": "9d980286", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(2444, 0.8318330605564648, 0.8318330605564648)" ] }, "execution_count": 42, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model.test(path='Final_clean/text_bullying_test_prep.csv')" ] }, { "cell_type": "code", "execution_count": 43, "id": "33a29acc", "metadata": {}, "outputs": [], "source": [ "model = fasttext.train_supervised(input='Final_clean/text_bullying_train_prep.csv', lr=0.5, epoch=10, wordNgrams=2, dim=300)" ] }, { "cell_type": "code", "execution_count": 44, "id": "3bb42413", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(2444, 0.8420621931260229, 0.8420621931260229)" ] }, "execution_count": 44, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model.test(path='Final_clean/text_bullying_test_prep.csv')" ] }, { "cell_type": "code", "execution_count": 46, "id": "8c06270c", "metadata": {}, "outputs": [], "source": [ "model = fasttext.train_supervised(input='Final_clean/text_bullying_train_prep.csv', lr=0.5, epoch=10, wordNgrams=3, dim=300)" ] }, { "cell_type": "code", "execution_count": 47, "id": "cefce923", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(2444, 0.8379705400981997, 0.8379705400981997)" ] }, "execution_count": 47, "metadata": {}, "output_type": "execute_result" } ], "source": [ "model.test(path='Final_clean/text_bullying_test_prep.csv')" ] }, { "cell_type": "code", "execution_count": null, "id": "38b79b0d", "metadata": {}, "outputs": [], "source": [] } ], "metadata": { "kernelspec": { "display_name": "fast_text", "language": "python", "name": "fast_text" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.9.7" } }, "nbformat": 4, "nbformat_minor": 5 }