Init

2023-10-21 14:58:24 +00:00 · 2023-10-21 14:58:24 +00:00 · 073c5e28fa
commit 073c5e28fa
3 changed files with 204 additions and 0 deletions
--- a/.gitignore
+++ b/.gitignore
@ -0,0 +1,4 @@
+*.jsonl*
+*.swp
+res.*
+*@*
--- a/colligere/analizer.py
+++ b/colligere/analizer.py
@ -0,0 +1,198 @@
+import time
+import json
+import shutil
+import random
+import argparse
+import pandas as pd
+from pathlib import Path
+from datetime import timedelta
+from uniplot import plot_to_string
+
+
+class Analizer:
+    def __init__(self, jsonl, sample_len, keys, ky, debug=False, quiet=True):
+        self.start_time = time.process_time()
+        self.jsonl = jsonl
+        self.sample_len = sample_len
+        self.ky = ky
+        self.keys = keys + [self.ky]
+        self.debug = debug
+        self.quiet = quiet
+        self.term_size = shutil.get_terminal_size()
+        self.keys_list = "__keys.list"
+        self.main_key = self.ky if self.ky else self.keys_list
+        self.axes = {"x": [], "y": []}
+        self.all_vals = {self.main_key: {}}
+        self.curr_item = 0
+        self.sample(analize=True)
+        if not self.debug and not self.quiet:
+            print("Extractor finished\nTotal time: " + self.__elapsed_time())
+
+    def sample(self, analize=False):
+        """
+        NOTE: this is a refactor version of https://gitlab.com/aapjeisbaas/shuf
+        """
+        line, lines, count = None, [], self.__count()
+        bytes_per_line, total_lines_est = count[0], count[1]
+        fh = open(self.jsonl)
+        while self.curr_item < self.sample_len:
+            try:
+                linestart = random.randint(0, total_lines_est)
+                readstart = (linestart * bytes_per_line) - bytes_per_line
+                if readstart < bytes_per_line:
+                    readstart = 0
+                else:
+                    fh.seek(readstart)
+                fh.readline()
+                line = json.loads(fh.readline())
+                if line and line not in lines:
+                    lines.append(line)
+                    self.curr_item += 1
+                    self.__analize(line) if analize else self.__prompt(line)
+            except UnicodeError:
+                pass
+            except Exception:
+                if self.debug:
+                    raise
+                else:
+                    pass
+        fh.close()
+        return lines
+
+    def __count(self):
+        count, bytes_read, block_size = 0, 0, 4096
+        jsonl_size = self.jsonl.stat().st_size
+        f = open(self.jsonl, "rt")
+        while count < 10000:
+            buffer = f.read(block_size)
+            if not buffer:
+                break
+            count += buffer.count("\n")
+            bytes_read += block_size
+        f.close()
+        if bytes_read > jsonl_size:
+            bytes_read = jsonl_size
+        bytes_per_line = bytes_read / count
+        return (bytes_per_line, int(jsonl_size / bytes_per_line))
+
+    def __analize(self, line):
+        title = "metadata.record.title"
+        df = pd.json_normalize(line, sep=".")
+        flat = df.to_dict(orient="records")[0]
+        msg = flat[title].strip() if title in flat.keys() else ""
+        for key, val in flat.items():
+            stripped = str(val).strip() if val else ""
+            self.__append(self.keys_list, key)
+            if key in self.keys and stripped:
+                self.__append(key, stripped)
+        self.axes["x"].append(self.curr_item)
+        self.axes["y"].append(len(self.all_vals[self.main_key]))
+        self.__write()
+        self.__draw(msg)
+
+    def __append(self, key, val):
+        self.all_vals.setdefault(key, {})
+        self.all_vals[key].setdefault(val, {"len": 0, "freq": 0})
+        self.all_vals[key][val]["len"] += 1
+        self.__update_freq()
+
+    def __update_freq(self):
+        for root_key in self.all_vals.keys():
+            for key, val in self.all_vals[root_key].items():
+                freq = round(val["len"] / self.curr_item, 5)
+                self.all_vals[root_key][key]["freq"] = freq
+
+    def __write(self):
+        for key, val in self.all_vals.items():
+            file = Path("res." + key + ".csv")
+            df = pd.DataFrame(val).sort_index(ascending=False).T
+            if "len" in df:
+                df["len"] = df["len"].astype(int)
+            df.to_csv(file, index_label="key")
+
+    def __prompt(self, msg, stdout=True, extra=""):
+        timer = self.__elapsed_time()
+        process = int((self.curr_item * 100) / self.sample_len)
+        item = "{:,}".format(self.curr_item)
+        prompt = "[{}][{}%][{}i]".format(timer, process, item)
+        prompt += f"{extra} {msg}"
+        prompt = self.__fix_width(prompt)
+        if stdout and not self.quiet:
+            print(prompt, end="\r")
+        return prompt
+
+    def __draw(self, msg):
+        if self.ky and self.ky not in self.all_vals.keys():
+            return
+        xs, ys = self.axes["x"], self.axes["y"]
+        options = {"height": 10, "x_unit": "i", "y_unit": "k", "lines": True}
+        graph = plot_to_string(ys, xs, **options)
+        if not self.debug and not self.quiet:
+            lines = self.term_size.lines
+            extra = "[{}k]".format("{:,}".format(self.axes["y"][-1]))
+            prompt = self.__prompt(msg, stdout=False, extra=extra)
+            print("\n".join(["" for _ in range(lines)]))
+            graph.insert(0, prompt)
+            [graph.append("") for _ in range(lines - len(graph) - 1)]
+            print("\n".join(map(lambda line: self.__fix_width(line), graph)))
+
+    def __fix_width(self, line):
+        cols = self.term_size.columns
+        if len(line) < cols:
+            line += " " * (cols - len(line))
+        elif len(line) > cols:
+            line = line[0:cols]
+        return line
+
+    def __elapsed_time(self):
+        curr_time = timedelta(seconds=time.process_time() - self.start_time)
+        return str(curr_time).split(".")[0]
+
+
+if __name__ == "__main__":
+
+    def get_args():
+        parser = argparse.ArgumentParser(
+            prog="Extractor",
+            description="Extracts keys and values from JSON lines.",
+        )
+        parser.add_argument("jsonl", type=Path, help="JSON lines file")
+        parser.add_argument(
+            "-i",
+            "--items",
+            type=int,
+            default=1000,
+            dest="sample_len",
+            help="sample items size; 1000 by default",
+        )
+        parser.add_argument(
+            "-k",
+            "--key",
+            action="append",
+            dest="keys",
+            metavar="KEY",
+            help="key value to extract",
+        )
+        parser.add_argument(
+            "-ky",
+            "--key-axis",
+            default=None,
+            dest="ky",
+            metavar="KEY",
+            help="like -k, but its values are used for y-axis",
+        )
+        parser.add_argument(
+            "--debug",
+            action="store_true",
+            default=False,
+            help="stop on exception for debugging",
+        )
+        parser.add_argument(
+            "--quiet",
+            action="store_true",
+            default=False,
+            help="avoid prints; ignored by --debug",
+        )
+        return parser.parse_args()
+
+    Analizer(**vars(get_args()))
--- a/requirements.txt
+++ b/requirements.txt
@ -0,0 +1,2 @@
+pandas
+uniplot