{
 "cells": [
  {
   "cell_type": "markdown",
   "id": "486801ce",
   "metadata": {},
   "source": [
    "# Model - SpaCy"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "f1a813d7",
   "metadata": {},
   "source": [
    "### Imports"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 1,
   "id": "8eb77ef5",
   "metadata": {},
   "outputs": [],
   "source": [
    "import os\n",
    "import pandas as pd\n",
    "from iqual import iqualnlp, evaluation, crossval"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "17a42bc8",
   "metadata": {},
   "source": [
    "### Load `annotated (human-coded)` and `unannotated` datasets"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "id": "a7d035ab",
   "metadata": {},
   "outputs": [],
   "source": [
    "data_dir         = \"../../data\"\n",
    "\n",
    "human_coded_df   = pd.read_csv(os.path.join(data_dir,\"annotated.csv\"))\n",
    "uncoded_df       = pd.read_csv(os.path.join(data_dir,\"unannotated.csv\"))"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "9b308f43",
   "metadata": {},
   "source": [
    "### Split the data into training and test sets"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "id": "e0f95233",
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Train Size: 7470\n",
      "Test Size: 2490\n"
     ]
    }
   ],
   "source": [
    "from sklearn.model_selection import train_test_split\n",
    "train_df, test_df = train_test_split(human_coded_df,test_size=0.25)\n",
    "print(f\"Train Size: {len(train_df)}\\nTest Size: {len(test_df)}\")"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "f0ea3ad2",
   "metadata": {},
   "source": [
    "### Configure training data"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "id": "ebffbf2c",
   "metadata": {},
   "outputs": [],
   "source": [
    "### Select Question and Answer Columns\n",
    "question_col = 'Q_en'\n",
    "answer_col   = 'A_en'\n",
    "\n",
    "### Select a code\n",
    "code_variable = 'marriage'\n",
    "\n",
    "### Create X and y\n",
    "X = train_df[[question_col,answer_col]]\n",
    "y = train_df[code_variable]"
   ]
  },
  {
   "cell_type": "raw",
   "id": "fa7f9df4",
   "metadata": {},
   "source": [
    "# NOTE: Make sure to download spacy language models before using them.\n",
    "\n",
    "# English - Small\n",
    "!python -m spacy download en_core_web_sm \n",
    "\n",
    "# English - Medium\n",
    "!python -m spacy download en_core_web_md\n",
    "\n",
    "# English - Large\n",
    "!python -m spacy download en_core_web_lg"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "23910543",
   "metadata": {},
   "source": [
    "### Initiate model"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "id": "ea7cd53b",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<style>#sk-container-id-1 {color: black;background-color: white;}#sk-container-id-1 pre{padding: 0;}#sk-container-id-1 div.sk-toggleable {background-color: white;}#sk-container-id-1 label.sk-toggleable__label {cursor: pointer;display: block;width: 100%;margin-bottom: 0;padding: 0.3em;box-sizing: border-box;text-align: center;}#sk-container-id-1 label.sk-toggleable__label-arrow:before {content: \"▸\";float: left;margin-right: 0.25em;color: #696969;}#sk-container-id-1 label.sk-toggleable__label-arrow:hover:before {color: black;}#sk-container-id-1 div.sk-estimator:hover label.sk-toggleable__label-arrow:before {color: black;}#sk-container-id-1 div.sk-toggleable__content {max-height: 0;max-width: 0;overflow: hidden;text-align: left;background-color: #f0f8ff;}#sk-container-id-1 div.sk-toggleable__content pre {margin: 0.2em;color: black;border-radius: 0.25em;background-color: #f0f8ff;}#sk-container-id-1 input.sk-toggleable__control:checked~div.sk-toggleable__content {max-height: 200px;max-width: 100%;overflow: auto;}#sk-container-id-1 input.sk-toggleable__control:checked~label.sk-toggleable__label-arrow:before {content: \"▾\";}#sk-container-id-1 div.sk-estimator input.sk-toggleable__control:checked~label.sk-toggleable__label {background-color: #d4ebff;}#sk-container-id-1 div.sk-label input.sk-toggleable__control:checked~label.sk-toggleable__label {background-color: #d4ebff;}#sk-container-id-1 input.sk-hidden--visually {border: 0;clip: rect(1px 1px 1px 1px);clip: rect(1px, 1px, 1px, 1px);height: 1px;margin: -1px;overflow: hidden;padding: 0;position: absolute;width: 1px;}#sk-container-id-1 div.sk-estimator {font-family: monospace;background-color: #f0f8ff;border: 1px dotted black;border-radius: 0.25em;box-sizing: border-box;margin-bottom: 0.5em;}#sk-container-id-1 div.sk-estimator:hover {background-color: #d4ebff;}#sk-container-id-1 div.sk-parallel-item::after {content: \"\";width: 100%;border-bottom: 1px solid gray;flex-grow: 1;}#sk-container-id-1 div.sk-label:hover label.sk-toggleable__label {background-color: #d4ebff;}#sk-container-id-1 div.sk-serial::before {content: \"\";position: absolute;border-left: 1px solid gray;box-sizing: border-box;top: 0;bottom: 0;left: 50%;z-index: 0;}#sk-container-id-1 div.sk-serial {display: flex;flex-direction: column;align-items: center;background-color: white;padding-right: 0.2em;padding-left: 0.2em;position: relative;}#sk-container-id-1 div.sk-item {position: relative;z-index: 1;}#sk-container-id-1 div.sk-parallel {display: flex;align-items: stretch;justify-content: center;background-color: white;position: relative;}#sk-container-id-1 div.sk-item::before, #sk-container-id-1 div.sk-parallel-item::before {content: \"\";position: absolute;border-left: 1px solid gray;box-sizing: border-box;top: 0;bottom: 0;left: 50%;z-index: -1;}#sk-container-id-1 div.sk-parallel-item {display: flex;flex-direction: column;z-index: 1;position: relative;background-color: white;}#sk-container-id-1 div.sk-parallel-item:first-child::after {align-self: flex-end;width: 50%;}#sk-container-id-1 div.sk-parallel-item:last-child::after {align-self: flex-start;width: 50%;}#sk-container-id-1 div.sk-parallel-item:only-child::after {width: 0;}#sk-container-id-1 div.sk-dashed-wrapped {border: 1px dashed gray;margin: 0 0.4em 0.5em 0.4em;box-sizing: border-box;padding-bottom: 0.4em;background-color: white;}#sk-container-id-1 div.sk-label label {font-family: monospace;font-weight: bold;display: inline-block;line-height: 1.2em;}#sk-container-id-1 div.sk-label-container {text-align: center;}#sk-container-id-1 div.sk-container {/* jupyter's `normalize.less` sets `[hidden] { display: none; }` but bootstrap.min.css set `[hidden] { display: none !important; }` so we also need the `!important` here to be able to override the default hidden behavior on the sphinx rendered scikit-learn.org. See: https://github.com/scikit-learn/scikit-learn/issues/21755 */display: inline-block !important;position: relative;}#sk-container-id-1 div.sk-text-repr-fallback {display: none;}</style><div id=\"sk-container-id-1\" class=\"sk-top-container\"><div class=\"sk-text-repr-fallback\"><pre>Pipeline(steps=[(&#x27;Input&#x27;,\n",
       "                 FeatureUnion(transformer_list=[(&#x27;question&#x27;,\n",
       "                                                 Pipeline(steps=[(&#x27;selector&#x27;,\n",
       "                                                                  FunctionTransformer(func=&lt;function column_selector at 0x00000274D4B7A8B0&gt;,\n",
       "                                                                                      kw_args={&#x27;column_name&#x27;: &#x27;Q_en&#x27;})),\n",
       "                                                                 (&#x27;vectorizer&#x27;,\n",
       "                                                                  Vectorizer(env=&#x27;spacy&#x27;,\n",
       "                                                                             model=&#x27;en_core_web_sm&#x27;))])),\n",
       "                                                (&#x27;answer&#x27;,\n",
       "                                                 Pipeline(steps=[(&#x27;selector&#x27;,\n",
       "                                                                  FunctionTransformer(func=&lt;function column_select...\n",
       "                (&#x27;FeatureTransformation&#x27;, FeatureScaler(copy=True, norm=&#x27;l2&#x27;)),\n",
       "                (&#x27;Classifier&#x27;,\n",
       "                 Classifier(C=1.0, class_weight=None, dual=False,\n",
       "                            fit_intercept=True, intercept_scaling=1,\n",
       "                            l1_ratio=None, max_iter=100,\n",
       "                            model=&#x27;LogisticRegression&#x27;, multi_class=&#x27;auto&#x27;,\n",
       "                            n_jobs=None, penalty=&#x27;l2&#x27;, random_state=None,\n",
       "                            solver=&#x27;lbfgs&#x27;, tol=0.0001, verbose=0,\n",
       "                            warm_start=False)),\n",
       "                (&#x27;Threshold&#x27;, BinaryThresholder())])</pre><b>In a Jupyter environment, please rerun this cell to show the HTML representation or trust the notebook. <br />On GitHub, the HTML representation is unable to render, please try loading this page with nbviewer.org.</b></div><div class=\"sk-container\" hidden><div class=\"sk-item sk-dashed-wrapped\"><div class=\"sk-label-container\"><div class=\"sk-label sk-toggleable\"><input class=\"sk-toggleable__control sk-hidden--visually\" id=\"sk-estimator-id-1\" type=\"checkbox\" ><label for=\"sk-estimator-id-1\" class=\"sk-toggleable__label sk-toggleable__label-arrow\">Pipeline</label><div class=\"sk-toggleable__content\"><pre>Pipeline(steps=[(&#x27;Input&#x27;,\n",
       "                 FeatureUnion(transformer_list=[(&#x27;question&#x27;,\n",
       "                                                 Pipeline(steps=[(&#x27;selector&#x27;,\n",
       "                                                                  FunctionTransformer(func=&lt;function column_selector at 0x00000274D4B7A8B0&gt;,\n",
       "                                                                                      kw_args={&#x27;column_name&#x27;: &#x27;Q_en&#x27;})),\n",
       "                                                                 (&#x27;vectorizer&#x27;,\n",
       "                                                                  Vectorizer(env=&#x27;spacy&#x27;,\n",
       "                                                                             model=&#x27;en_core_web_sm&#x27;))])),\n",
       "                                                (&#x27;answer&#x27;,\n",
       "                                                 Pipeline(steps=[(&#x27;selector&#x27;,\n",
       "                                                                  FunctionTransformer(func=&lt;function column_select...\n",
       "                (&#x27;FeatureTransformation&#x27;, FeatureScaler(copy=True, norm=&#x27;l2&#x27;)),\n",
       "                (&#x27;Classifier&#x27;,\n",
       "                 Classifier(C=1.0, class_weight=None, dual=False,\n",
       "                            fit_intercept=True, intercept_scaling=1,\n",
       "                            l1_ratio=None, max_iter=100,\n",
       "                            model=&#x27;LogisticRegression&#x27;, multi_class=&#x27;auto&#x27;,\n",
       "                            n_jobs=None, penalty=&#x27;l2&#x27;, random_state=None,\n",
       "                            solver=&#x27;lbfgs&#x27;, tol=0.0001, verbose=0,\n",
       "                            warm_start=False)),\n",
       "                (&#x27;Threshold&#x27;, BinaryThresholder())])</pre></div></div></div><div class=\"sk-serial\"><div class=\"sk-item sk-dashed-wrapped\"><div class=\"sk-label-container\"><div class=\"sk-label sk-toggleable\"><input class=\"sk-toggleable__control sk-hidden--visually\" id=\"sk-estimator-id-2\" type=\"checkbox\" ><label for=\"sk-estimator-id-2\" class=\"sk-toggleable__label sk-toggleable__label-arrow\">Input: FeatureUnion</label><div class=\"sk-toggleable__content\"><pre>FeatureUnion(transformer_list=[(&#x27;question&#x27;,\n",
       "                                Pipeline(steps=[(&#x27;selector&#x27;,\n",
       "                                                 FunctionTransformer(func=&lt;function column_selector at 0x00000274D4B7A8B0&gt;,\n",
       "                                                                     kw_args={&#x27;column_name&#x27;: &#x27;Q_en&#x27;})),\n",
       "                                                (&#x27;vectorizer&#x27;,\n",
       "                                                 Vectorizer(env=&#x27;spacy&#x27;,\n",
       "                                                            model=&#x27;en_core_web_sm&#x27;))])),\n",
       "                               (&#x27;answer&#x27;,\n",
       "                                Pipeline(steps=[(&#x27;selector&#x27;,\n",
       "                                                 FunctionTransformer(func=&lt;function column_selector at 0x00000274D4B7A8B0&gt;,\n",
       "                                                                     kw_args={&#x27;column_name&#x27;: &#x27;A_en&#x27;})),\n",
       "                                                (&#x27;vectorizer&#x27;,\n",
       "                                                 Vectorizer(env=&#x27;spacy&#x27;,\n",
       "                                                            model=&#x27;en_core_web_sm&#x27;))]))])</pre></div></div></div><div class=\"sk-parallel\"><div class=\"sk-parallel-item\"><div class=\"sk-item\"><div class=\"sk-label-container\"><div class=\"sk-label sk-toggleable\"><label>question</label></div></div><div class=\"sk-serial\"><div class=\"sk-item\"><div class=\"sk-serial\"><div class=\"sk-item\"><div class=\"sk-estimator sk-toggleable\"><input class=\"sk-toggleable__control sk-hidden--visually\" id=\"sk-estimator-id-3\" type=\"checkbox\" ><label for=\"sk-estimator-id-3\" class=\"sk-toggleable__label sk-toggleable__label-arrow\">FunctionTransformer</label><div class=\"sk-toggleable__content\"><pre>FunctionTransformer(func=&lt;function column_selector at 0x00000274D4B7A8B0&gt;,\n",
       "                    kw_args={&#x27;column_name&#x27;: &#x27;Q_en&#x27;})</pre></div></div></div><div class=\"sk-item\"><div class=\"sk-estimator sk-toggleable\"><input class=\"sk-toggleable__control sk-hidden--visually\" id=\"sk-estimator-id-4\" type=\"checkbox\" ><label for=\"sk-estimator-id-4\" class=\"sk-toggleable__label sk-toggleable__label-arrow\">Vectorizer</label><div class=\"sk-toggleable__content\"><pre>Vectorizer(env=&#x27;spacy&#x27;, model=&#x27;en_core_web_sm&#x27;)</pre></div></div></div></div></div></div></div></div><div class=\"sk-parallel-item\"><div class=\"sk-item\"><div class=\"sk-label-container\"><div class=\"sk-label sk-toggleable\"><label>answer</label></div></div><div class=\"sk-serial\"><div class=\"sk-item\"><div class=\"sk-serial\"><div class=\"sk-item\"><div class=\"sk-estimator sk-toggleable\"><input class=\"sk-toggleable__control sk-hidden--visually\" id=\"sk-estimator-id-5\" type=\"checkbox\" ><label for=\"sk-estimator-id-5\" class=\"sk-toggleable__label sk-toggleable__label-arrow\">FunctionTransformer</label><div class=\"sk-toggleable__content\"><pre>FunctionTransformer(func=&lt;function column_selector at 0x00000274D4B7A8B0&gt;,\n",
       "                    kw_args={&#x27;column_name&#x27;: &#x27;A_en&#x27;})</pre></div></div></div><div class=\"sk-item\"><div class=\"sk-estimator sk-toggleable\"><input class=\"sk-toggleable__control sk-hidden--visually\" id=\"sk-estimator-id-6\" type=\"checkbox\" ><label for=\"sk-estimator-id-6\" class=\"sk-toggleable__label sk-toggleable__label-arrow\">Vectorizer</label><div class=\"sk-toggleable__content\"><pre>Vectorizer(env=&#x27;spacy&#x27;, model=&#x27;en_core_web_sm&#x27;)</pre></div></div></div></div></div></div></div></div></div></div><div class=\"sk-item\"><div class=\"sk-estimator sk-toggleable\"><input class=\"sk-toggleable__control sk-hidden--visually\" id=\"sk-estimator-id-7\" type=\"checkbox\" ><label for=\"sk-estimator-id-7\" class=\"sk-toggleable__label sk-toggleable__label-arrow\">FeatureScaler</label><div class=\"sk-toggleable__content\"><pre>FeatureScaler(copy=True, norm=&#x27;l2&#x27;)</pre></div></div></div><div class=\"sk-item\"><div class=\"sk-estimator sk-toggleable\"><input class=\"sk-toggleable__control sk-hidden--visually\" id=\"sk-estimator-id-8\" type=\"checkbox\" ><label for=\"sk-estimator-id-8\" class=\"sk-toggleable__label sk-toggleable__label-arrow\">Classifier</label><div class=\"sk-toggleable__content\"><pre>Classifier(C=1.0, class_weight=None, dual=False, fit_intercept=True,\n",
       "           intercept_scaling=1, l1_ratio=None, max_iter=100,\n",
       "           model=&#x27;LogisticRegression&#x27;, multi_class=&#x27;auto&#x27;, n_jobs=None,\n",
       "           penalty=&#x27;l2&#x27;, random_state=None, solver=&#x27;lbfgs&#x27;, tol=0.0001,\n",
       "           verbose=0, warm_start=False)</pre></div></div></div><div class=\"sk-item\"><div class=\"sk-estimator sk-toggleable\"><input class=\"sk-toggleable__control sk-hidden--visually\" id=\"sk-estimator-id-9\" type=\"checkbox\" ><label for=\"sk-estimator-id-9\" class=\"sk-toggleable__label sk-toggleable__label-arrow\">BinaryThresholder</label><div class=\"sk-toggleable__content\"><pre>BinaryThresholder()</pre></div></div></div></div></div></div></div>"
      ],
      "text/plain": [
       "Pipeline(steps=[('Input',\n",
       "                 FeatureUnion(transformer_list=[('question',\n",
       "                                                 Pipeline(steps=[('selector',\n",
       "                                                                  FunctionTransformer(func=<function column_selector at 0x00000274D4B7A8B0>,\n",
       "                                                                                      kw_args={'column_name': 'Q_en'})),\n",
       "                                                                 ('vectorizer',\n",
       "                                                                  Vectorizer(env='spacy',\n",
       "                                                                             model='en_core_web_sm'))])),\n",
       "                                                ('answer',\n",
       "                                                 Pipeline(steps=[('selector',\n",
       "                                                                  FunctionTransformer(func=<function column_select...\n",
       "                ('FeatureTransformation', FeatureScaler(copy=True, norm='l2')),\n",
       "                ('Classifier',\n",
       "                 Classifier(C=1.0, class_weight=None, dual=False,\n",
       "                            fit_intercept=True, intercept_scaling=1,\n",
       "                            l1_ratio=None, max_iter=100,\n",
       "                            model='LogisticRegression', multi_class='auto',\n",
       "                            n_jobs=None, penalty='l2', random_state=None,\n",
       "                            solver='lbfgs', tol=0.0001, verbose=0,\n",
       "                            warm_start=False)),\n",
       "                ('Threshold', BinaryThresholder())])"
      ]
     },
     "execution_count": 5,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# Step 1: Initiate the model class\n",
    "iqual_model = iqualnlp.Model()\n",
    "\n",
    "# Step 2: Add layers to the model\n",
    "#  Add text columns, and choose a feature extraction model (Available options: scikit-learn, spacy, sentence-transformers, saved-dictionary (picklized dictionary))\n",
    "iqual_model.add_text_features(question_col,answer_col,model='en_core_web_sm',env='spacy')\n",
    "\n",
    "# Step 3: Add a feature transforming layer (optional)\n",
    "# A. Choose a feature-scaler. Available options: \n",
    "# any scikit-learn scaler from `sklearn.preprocessing`\n",
    "iqual_model.add_feature_transformer(name='Normalizer', transformation=\"FeatureScaler\")\n",
    "# OR\n",
    "# B. Choose a dimensionality reduction model. Available options:\n",
    "# - Any scikit-learn dimensionality reduction model from `sklearn.decomposition`\n",
    "# - Uniform Manifold Approximation and Projection (UMAP) using umap.UMAP (https://umap-learn.readthedocs.io/en/latest/)\n",
    "\n",
    "## iqual_model.add_feature_transformer(name='PCA', transformation=\"DimensionalityReduction\")\n",
    "\n",
    "# Step 4: Add a classifier layer\n",
    "# Choose a primary classifier model  (Available options: any scikit-learn classifier)\n",
    "iqual_model.add_classifier(name = \"SGDClassifier\")\n",
    "\n",
    "# Step 5: Add a threshold layer. This is optional, but recommended for binary classification\n",
    "iqual_model.add_threshold(scoring_metric='f1')\n",
    "\n",
    "# Step 6: Compile the model\n",
    "iqual_model.compile()"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "0e7ce910",
   "metadata": {},
   "source": [
    "### Configure a Hyperparameter Grid for cross-validation + fitting"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "id": "d11e1507",
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "{'Input__question__vectorizer__model': ['en_core_web_sm', 'en_core_web_md'], 'Input__question__vectorizer__env': ['spacy'], 'Input__answer__vectorizer__model': ['en_core_web_sm', 'en_core_web_md'], 'Input__answer__vectorizer__env': ['spacy'], 'Classifier__model': ['SGDClassifier'], 'Classifier__loss': ['modified_huber'], 'Classifier__tol': [0.01], 'Classifier__alpha': [0.0001, 0.01, 0.1], 'Classifier__max_iter': [100]}\n"
     ]
    }
   ],
   "source": [
    "search_param_config = {\n",
    "    \"Input\":{\n",
    "        \"question\":{\n",
    "            \"vectorizer\":{\n",
    "                         \"model\":[\"en_core_web_sm\",\"en_core_web_md\"],\n",
    "                         \"env\":[\"spacy\"],               \n",
    "                         },\n",
    "        },\n",
    "        \"answer\":{\n",
    "            \"vectorizer\":{\n",
    "                        \"model\":[\"en_core_web_sm\",\"en_core_web_md\"],\n",
    "                        \"env\":[\"spacy\"],                \n",
    "                         },                        \n",
    "        },\n",
    "    },\n",
    "        \"Classifier\":{\n",
    "            \"model\":[\"SGDClassifier\"],\n",
    "            \"loss\":['modified_huber'],\n",
    "            \"tol\":[1e-2],\n",
    "            \"alpha\":[1e-4,1e-2,1e-1],\n",
    "            \"max_iter\":[100],\n",
    "        },\n",
    "}\n",
    "\n",
    "CV_SEARCH_PARAMS = crossval.convert_nested_params(search_param_config)\n",
    "print(CV_SEARCH_PARAMS)"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "5250bd6d",
   "metadata": {},
   "source": [
    "## Model training:\n",
    "Cross-validate over hyperparameters and select the best model"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "id": "5370aac5",
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      ".......12 hyperparameters configurations possible.....\n",
      "Average F1 score: 0.610\n"
     ]
    }
   ],
   "source": [
    "# Scoring Dict for evaluation\n",
    "scoring_dict = {'f1':evaluation.get_scorer('f1')}\n",
    "\n",
    "cv_dict = iqual_model.cross_validate_fit(\n",
    "    X,y,                                # X: Pandas DataFrame of features, y: Pandas Series of labels\n",
    "    search_parameters=CV_SEARCH_PARAMS, # search_parameters: Dictionary of parameters to use for cross-validation\n",
    "    cv_method='GridSearchCV',           # cv_method: Cross-validation method to use, options: GridSearchCV, RandomizedSearchCV\n",
    "    scoring=scoring_dict,               # scoring: Scoring metric to use for cross-validation\n",
    "    refit='f1',                         # refit: Metric to use for refitting the model\n",
    "    n_jobs=-1,                          # n_jobs: Number of parallel threads to use  \n",
    "    cv_splits=3,                        # cv_splits: Number of cross-validation splits\n",
    ")\n",
    "print()\n",
    "print(\"Average F1 score: {:.3f}\".format(cv_dict['avg_test_score']))"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "c7575dd4",
   "metadata": {},
   "source": [
    "### Evaluate model using out sample data (Held out human-coded data)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "id": "a4c44f75",
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Out-sample F1-score: 0.636\n"
     ]
    }
   ],
   "source": [
    "test_X = test_df[['Q_en','A_en']]\n",
    "test_y = test_df[code_variable]\n",
    "\n",
    "f1_metric = evaluation.get_metric('f1_score')\n",
    "f1_score = iqual_model.score(test_X,test_y,scoring_function=f1_metric)\n",
    "print(f\"Out-sample F1-score: {f1_score:.3f}\")"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "93f3255a",
   "metadata": {},
   "source": [
    "### Predict labels for unannotated data"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "id": "69e9c428",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "<AxesSubplot:>"
      ]
     },
     "execution_count": 9,
     "metadata": {},
     "output_type": "execute_result"
    },
    {
     "data": {
      "image/png": "iVBORw0KGgoAAAANSUhEUgAAAN8AAADCCAYAAADJsRdpAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjUuMiwgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy8qNh9FAAAACXBIWXMAAAsTAAALEwEAmpwYAAAMv0lEQVR4nO3dX4xc9XnG8e9TUwh1m7KO25UFETaqpcgEBfAqsdqqNaHCjiPViRpFRmkxxI2TYvpH9UWdckEEjQoXNJLTlIo2FliiGEob4TSm7tbxKsqFAdO6Xkzq2BhHxXJwgwnUIJEuentxfpscuzPemdmZeWfHz0cazZnf+TPvHvnxnPntsV9FBGbWfz+VXYDZhcrhM0vi8JklcfjMkjh8ZkkcPrMkF2UX0KmFCxfG4sWLG6578803mT9/fn8LaoHras9creu55577QUT8wowHiog5+Vi+fHk0s3fv3qbrMrmu9szVuoD90cKfYV92miVx+MySOHxmSRw+syQOn1mSOfurhvOZPPE6t275RnYZ/8/ma6baruv4vR/tUTWWzZ98ZkkcPrMkDp9ZEofPLInDZ5bE4TNL4vCZJZkxfJLeK2mvpBckHZL0h2V8gaRxSUfK80gZl6Stko5KOijp+tqx1pftj0haXxtfLmmy7LNVknrxw5oNklY++aaAzRGxDFgBbJK0DNgC7ImIpcCe8hrgI8DS8tgIPABVWIG7gA8BHwTumg5s2eYztf1Wz/5HMxtsM4YvIk5GxL+V5f8BvgNcDqwFHi6bPQx8rCyvBbaXf9q0D7hM0iJgFTAeEacj4jVgHFhd1r07IvaVfwu1vXYss6HV1u1lkhYD1wFPA6MRcbKs+j4wWpYvB/6rttvLZex84y83GG/0/hupPk0ZHR1lYmKiYZ2jl1a3cg2aTupq9jN205kzZ/ryPu0a9rpaDp+knwX+AfijiHij/rUsIkJSz//r64h4EHgQYGxsLFauXNlwuy8/8iT3Tw7ebaubr5lqu67jn1rZm2JqJiYmaHYuMw17XS3Ndkr6aargPRIR/1iGXymXjJTnU2X8BPDe2u5XlLHzjV/RYNxsqLUy2yngq8B3IuIvaqt2AtMzluuBJ2vjt5RZzxXA6+XydDdwk6SRMtFyE7C7rHtD0oryXrfUjmU2tFq5BvoV4HeASUkHytifAvcCj0vaAHwP+GRZtwtYAxwF3gJuA4iI05LuAZ4t290dEafL8u3AQ8ClwFPlYTbUZgxfRHwbaPZ7txsbbB/ApibH2gZsazC+H3j/TLWYDRPf4WKWxOEzS+LwmSVx+MySOHxmSRw+syQOn1kSh88sicNnlsThM0vi8JklcfjMkjh8ZkkcPrMkDp9ZEofPLInDZ5bE4TNL4vCZJXH4zJI4fGZJHD6zJA6fWRKHzyyJw2eWxOEzS+LwmSVppUvRNkmnJD1fG/uCpBOSDpTHmtq6z5fe6oclraqNry5jRyVtqY0vkfR0GX9M0sXd/AHNBlUrn3wP0bhH+pci4try2AVQerWvA64u+/yVpHmS5gFfoerXvgy4uWwLcF851i8BrwEbZvMDmc0VrfRk/xZweqbtirXAjoh4OyJeomoT9sHyOBoRxyLiR8AOYG3px/dh4Imyf723u9lQm813vjskHSyXpSNlrN1+7O8BfhgRU+eMmw29ThuXPwDcA0R5vh/4dLeKakbSRmAjwOjoaNOm9KOXVv3PB00ndTX7GbvpzJkzfXmfdg17XR2FLyJemV6W9DfAP5WXzfqu02T8VeAySReVT7/z9mOPiAeBBwHGxsaiWVP6Lz/yJPdPdvr3Su9svmaq7bqOf2plb4qpmZiYoNm5zDTsdXV02SlpUe3lx4HpmdCdwDpJl0haAiwFnqFqBb20zGxeTDUps7N0sd0LfKLsX+/tbjbUZvxrWNKjwEpgoaSXgbuAlZKupbrsPA58FiAiDkl6HHgBmAI2RcQ75Th3ALuBecC2iDhU3uJPgB2S/gz4d+Cr3frhzAZZKz3Zb24w3DQgEfFF4IsNxncBuxqMH6OaDTW7oPgOF7MkDp9ZEofPLInDZ5bE4TNL4vCZJXH4zJI4fGZJHD6zJA6fWRKHzyyJw2eWxOEzS+LwmSVx+MySOHxmSRw+syQOn1kSh88sicNnlsThM0vi8JklcfjMkjh8ZkkcPrMkDp9ZEofPLEmnPdkXSBqXdKQ8j5RxSdpa+qsflHR9bZ/1ZfsjktbXxpdLmiz7bC3das2GXqc92bcAeyJiKbCnvIaq5/rS8thI1UQTSQuouht9iKopyl21brYPAJ+p7deo/7vZ0Om0J/taqv7pcHYf9bXA9qjso2p8uQhYBYxHxOmIeA0YB1aXde+OiH2lV9923JPdLhCdfucbjYiTZfn7wGhZbrcn++Vl+dxxs6E3697JERGSohvFzMQ92Xtj2Hufd1tqT3bgFUmLIuJkuXQ8Vcab9WQ/QdXdtj4+UcavaLB9Q+7J3hvD3vu821J7slP1Xp+esaz3Ud8J3FJmPVcAr5fL093ATZJGykTLTcDusu4NSSvKLOctuCe7XSA67cl+L/C4pA3A94BPls13AWuAo8BbwG0AEXFa0j3As2W7uyNiehLndqoZ1UuBp8rDbOh12pMd4MYG2wawqclxtgHbGozvB94/Ux1mw8Z3uJglcfjMkjh8ZkkcPrMkDp9ZEofPLInDZ5bE4TNL4vCZJXH4zJI4fGZJHD6zJA6fWRKHzyyJw2eWxOEzS+LwmSVx+MySOHxmSRw+syQOn1kSh88sicNnlsThM0vi8JklcfjMkjh8ZklmFT5Jx0s/9QOS9pexrvVrNxtm3fjkuyEiro2IsfK6m/3azYZWLy47u9KvvQd1mQ2U2YYvgH+R9Fxp2Qzd69duNtRm2zv5VyPihKRfBMYl/Wd9Zbf7tbsne28Me+/zbsvuyQ5ARJwoz6ckfY3qO1u3+rU3ej/3ZO+BYe993m3ZPdmRNF/Sz00vU/VZf54u9WvvtC6zuWI2Hw+jwNckTR/n7yLinyU9S/f6tZsNrY7DFxHHgA80GH+VLvVrNxtmvsPFLInDZ5bE4TNL4vCZJXH4zJI4fGZJHD6zJA6fWRKHzyyJw2eWxOEzS+LwmSVx+MySOHxmSRw+syQOn1kSh88sicNnlsThM0vi8JklcfjMkjh8ZkkcPrMkDp9ZksFraGBDa/GWb7S1/eZrpri1zX364aHV87tyHH/ymSVx+MySDEz4JK2WdLj0bN8y8x5mc9tAhE/SPOArVH3blwE3S1qWW5VZbw1E+Kiaah6NiGMR8SNgB1UPd7OhNSjhc192u+DMqV811HuyA2ckHW6y6ULgB/2pqnV/0EFduq9HxZxtaM5XP9xw34x1XdnKcQYlfM36tZ+l3pP9fCTtj4ix7pXXHa6rPcNe16Bcdj4LLJW0RNLFwDqqHu5mQ2sgPvkiYkrSHcBuYB6wLSIOJZdl1lMDET6AiNgF7OrS4Wa8NE3iutoz1HUpIrpxHDNr06B85zO74My58M10G5qkSyQ9VtY/LWlxbd3ny/hhSav6XNcfS3pB0kFJeyRdWVv3jqQD5dHViaYW6rpV0n/X3v93a+vWSzpSHuv7XNeXajV9V9IPa+t6eb62STol6fkm6yVpa6n7oKTra+vaO18RMWceVJMxLwJXARcD/wEsO2eb24G/LsvrgMfK8rKy/SXAknKceX2s6wbgZ8ry703XVV6fSTxftwJ/2WDfBcCx8jxSlkf6Vdc52/8+1SRcT89XOfavAdcDzzdZvwZ4ChCwAni60/M11z75WrkNbS3wcFl+ArhRksr4joh4OyJeAo6W4/WlrojYGxFvlZf7qH6X2WuzuW1vFTAeEacj4jVgHFidVNfNwKNdeu/ziohvAafPs8laYHtU9gGXSVpEB+drroWvldvQfrxNREwBrwPvaXHfXtZVt4Hqb89p75K0X9I+SR/rUk3t1PVb5RLqCUnTNzsMxPkql+dLgG/Whnt1vlrRrPa2z9fA/KrhQiHpt4Ex4Ndrw1dGxAlJVwHflDQZES/2qaSvA49GxNuSPkt11fDhPr13K9YBT0TEO7WxzPPVNXPtk6+V29B+vI2ki4CfB15tcd9e1oWk3wDuBH4zIt6eHo+IE+X5GDABXNevuiLi1Votfwssb3XfXtZVs45zLjl7eL5a0az29s9Xr7649ujL8EVUX2SX8JMv6lefs80mzp5webwsX83ZEy7H6N6ESyt1XUc1ybD0nPER4JKyvBA4wnkmH3pQ16La8seBffGTCYSXSn0jZXlBv+oq270POE75fXSvz1ftPRbTfMLlo5w94fJMp+crPVAdnJg1wHfLH+Q7y9jdVJ8mAO8C/p5qQuUZ4KravneW/Q4DH+lzXf8KvAIcKI+dZfyXgcnyB3AS2NDnuv4cOFTefy/wvtq+ny7n8ShwWz/rKq+/ANx7zn69Pl+PAieB/6X63rYB+BzwubJeVP/w+8Xy/mOdni/f4WKWZK595zMbGg6fWRKHzyyJw2eWxOEzS+LwmSVx+MySOHxmSf4PtSdljY5i/McAAAAASUVORK5CYII=\n",
      "text/plain": [
       "<Figure size 216x216 with 1 Axes>"
      ]
     },
     "metadata": {
      "needs_background": "light"
     },
     "output_type": "display_data"
    }
   ],
   "source": [
    "uncoded_df[code_variable+'_pred'] = iqual_model.predict(uncoded_df[['Q_en','A_en']])\n",
    "uncoded_df[code_variable+\"_pred\"].hist(figsize=(3,3),bins=3)"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "dd2e083f",
   "metadata": {},
   "source": [
    "### Examples for positive predictions"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 13,
   "id": "b1e02a70",
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Q: ok Teach your daughter till SSC. But what kind of work do you expect to do after finishing your studies?\n",
      "A: think If there is a proposal, I will marry. If the girl does not want to marry. Will work. Then I will allow the job.\n",
      "\n",
      "Q: Your daughter is now studying in higher secondary. What kind of work do you expect him to finish his studies?\n",
      "A: When she goes to her in-laws house, she will do what her husband does.\n",
      "\n",
      "Q: He tells us that he has hopes and dreams about his children.\n",
      "A: I will marry the girls beautifully after seeing good boys. And let the boys study, that's all.\n",
      "\n"
     ]
    }
   ],
   "source": [
    "for idx, row in uncoded_df.loc[(uncoded_df[code_variable+\"_pred\"]==1),['Q_en','A_en']].sample(3).iterrows():\n",
    "    print(\"Q: \",row['Q_en'],\"\\n\",\"A: \", row['A_en'],sep='')\n",
    "    print()"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3 (ipykernel)",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.8.13"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 5
}