Lisatud bin kaust näidistega

2018-06-17 23:14:16 +03:00
parent ae9c681c6d
commit 4c1b365b06
10 changed files with 409 additions and 33 deletions
--- a/bin/README.md
+++ b/bin/README.md
@@ -0,0 +1,79 @@
+# Skriptide kasutamine
+
+Allolevates näidetes on programmid käivitatud nii et
+kaust milles skript paikneb on lisatud ```PATH``` keskkonnamuutujasse:
+
+```bash
+PATH=/tee/kaustani/logide-parsimine/bin:$PATH
+```
+
+Näiteks kodukataloogis bin kausta puhul:
+
+```bash
+PATH=~/bin:$PATH
+```
+
+Skripti käisitsi alla laadimisel ja kausta paigutamisel tuleb anda ka käivitamise õigsed, näiteks:
+
+```bash
+chmod +x ~/bin/top2
+```
+
+Selleks et PATH muutujasse automaatselt näiteks ~/bin kaust lisataks võib ```~/.bashrc``` faili lisada ```PATH=~/bin/:$PATH```.
+
+
+# top2
+
+Bashis kirjutatud skript mis parsib standardsisendist ning kuvab tulemused standardväljundisse
+
+Käivitamiseks:
+
+(cat access.log; zcat access.log.1.gz) | top2
+
+# top4
+
+Pythonis kirjutatud skript mis leiab enim külastatud URL-id.
+
+Käivitamiseks:
+
+```bash
+cat access.log  | top4 | head
+```
+
+# top5
+
+Leiab top 5 enim külastatud URL-i, päringuid teinud IP aadressi ning enim kasutatud veebilehitsejat.
+
+Käivitamiseks, nii et veateated kirjutatakse ```errors``` faili
+
+```bash
+cat access.log  | top4 2>errors
+```
+
+# filter2
+
+Python programm kaustast Apache logisid otsimiseks ning nende seest
+alguse kuupäeva/kellaaja ning ajavahemiku järgi logikirjete otsimiseks.
+
+Käsk võtab kolm argumenti:
+
+* tee logide kaustani
+* otsitava ajavahemiku alguse kuupäev/kellaaeg, kujul "YYYY-MM-DD HH:MM:SS"
+* ajavahemik minutites
+
+Käivitamiseks:
+
+```bash
+filter2 /tee/logide/kaustani "2015-12-12 18:25:10" 10
+```
+
+Käsurea analoog teatavate mööndustega on järgnev:
+
+```bash
+grep -E '12/Dec/2015:18:(2[5-9]|3[0-5])' -r /tee/logide/kaustani
+```
+
+Pythoni variandi põhilised erisused:
+
+* Jooksvalt pakib lahti .gz lõpulised failid
+* Jätab vahele failid mille sees otsitavat ajavahemikku kindlasti ei ole
--- a/bin/filter2
+++ b/bin/filter2
@@ -0,0 +1,61 @@
+#!/usr/bin/python
+# encoding: utf-8
+import os
+import re
+import gzip
+import sys
+from datetime import datetime, timedelta
+
+try:
+    dir_logs = sys.argv[1]
+except IndexError:
+    dir_logs = "/var/log"
+
+try:
+    scope_begin = datetime.strptime(sys.argv[2], "%Y-%m-%d %H:%M:%S")
+except IndexError:
+    scope_begin = datetime.now().replace(hour=0, minute=0, second=0, microsecond=0)
+
+try:
+    duration = int(sys.argv[3])
+except IndexError:
+    duration = 5
+
+scope_end = scope_begin + timedelta(minutes=duration)
+sys.stderr.write("Otsin logikirjeid vahemikus %s kuni %s kaustast %s\n" % (scope_begin, scope_end, dir_logs))
+
+RE_LOG_ENTRY = "(?P<remote_addr>.+?) - (?P<username>.+?) \[(?P<timestamp>.+?)\] \"(?P<verb>[A-Z]+) (?P<path>.+) HTTP/1.[01]\" (?P<status>\d+) (?P<size>\d+) \"(?P<referrer>.+?)\" \"(?P<agent>.+?)\""
+
+# os.walk käib rekursiivselt kataloogipuu läbi
+for root, dirs, files in os.walk(dir_logs):
+    # iga kausta kohta (root) on kättesaadav alamkataloogide nimekiri (dirs)
+    # ning failide nimekiri (files)
+    for filename in files:
+        if filename.startswith("access.log"):
+            path = os.path.join(root, filename)
+            file_end = datetime.fromtimestamp(
+                os.stat(path).st_mtime)
+            if scope_begin > file_end:
+                sys.stderr.write("Jätan vahele %s faili kuna logifaili lõpp oli %s\n" %
+                    (path, file_end))
+                continue
+
+            file_start = None
+            with gzip.open(path) if path.endswith(".gz") else open(path) as fh:
+                for line in fh:
+                    m = re.match(RE_LOG_ENTRY, line)
+                    if not m:
+                        continue
+                    dt = datetime.strptime(m.group("timestamp")[:-6], "%d/%b/%Y:%H:%M:%S")
+                    if not file_start: # loeme esimest rida sellest failist
+                        file_start = dt
+                        if scope_end < file_start:
+                            sys.stderr.write("Jätan vahele %s faili kuna logifaili algus oli %s\n" % (path, file_start))
+                            # Hüppa ridade lugemise tsükklist välja, järgmise faili juurde
+                            break
+                        else:
+                            sys.stderr.write("Otsin logikirjeid failist %s\n" % path)
+                    if dt > scope_end:
+                        break
+                    if dt > scope_begin:
+                        print line.strip()
--- a/bin/top2
+++ b/bin/top2
@@ -0,0 +1,11 @@
+#!/bin/bash
+
+# Käivitamiseks: cat access.log | python top
+echo "Enim külastatud URL-id:"
+cat \
+ | awk -F \" '{ print $2}' \
+ | cut -d ' ' -f 2- \
+ | sort \
+ | uniq -c \
+ | sort -n -r \
+ | head
--- a/bin/top4
+++ b/bin/top4
@@ -0,0 +1,68 @@
+#!/usr/bin/python
+# encoding: utf-8
+
+"""
+Skript:
+
+  PATH=path/to/bin:$PATH
+  cat access.log | top4 | head
+
+"""
+
+# Loo tühi dict tüüpi objekt, siia korjame kokku URL -> mitu korda külastati vastendused
+hits = {}
+
+try:
+    import sys
+    filename = sys.argv[1]
+    if filename.endswith(".gz"):
+        import gzip
+        stream = gzip.open(filename)
+    else:
+        stream = open(filename)
+except IndexError:
+    stream = sys.stdin
+    sys.stderr.write("Loen standardsisendist...\n")
+
+# Käi ridahaaval fail läbi
+for line in stream:
+
+    # Kui rea sees ei esine sõnet GET siis jäta vahele
+    if "GET" not in line:
+        # Hüppa järgmise tsükli algusse
+        continue
+
+    # Rea sees oli GET, nüüd võime proovida lõpikuda rida tühikute järgi massiiviks
+    fields = line.split()
+
+    # Massiivi indeksid algavad nullist, seitsmenda tulba indeks on 6
+    path = fields[6]
+
+    # Kontrollime kas URL on juba võtmena kasutuses dict objektis
+    if path in hits:
+        # Kui on siis lisame ühe juurde
+        hits[path] = hits[path] + 1
+    else:
+        # Kui ei ole siis määra väärtuseks 1
+        hits[path] = 1
+
+# Kuna dict tüüpi objekti ei saa sorteerida tuleb ta kõigepealt viia sorteeritavale kujule
+# nagu nt list:
+hits = hits.items()
+
+# Nüüd hits on massiiv kahestest massiividest (path, count)
+# Sellise asja sorteerimiseks saab kasutada list objekti funktsiooni sort
+# Sorteerimisel on vaja ette anda ka funktsioon mis nopib välja asja mille järgi sorteerida
+# See on siin argument nimega key, millele on väärtuseks antud
+# nimetu (anonüümne, lambda) funktsioon mis massiivi iga elemendi (path, count)
+# kohta tagastab count negatiivse väärtuse
+hits.sort(key=lambda (path,count):-count)
+
+# Massiiv on nüüd sorteeritud, esimese 10 vaste kuvamiseks saame massiviist võtta alammassiivi [:10]
+# Süntaks [algus:lõpp] kehtib samamoodi nii massiividel (list, tuple) kui ka sõnedel
+# Kui algus jäetakse vahele asendatakse see algusega
+# Kui lõpp jäetakse vahele asendatakse see lõpuga
+# Indeksid võivad negatiivsed olla
+for path, count in hits:
+    print "% 9d %s" % (count, path)
+
--- a/bin/top5
+++ b/bin/top5
@@ -0,0 +1,51 @@
+#!/usr/bin/python
+# encoding: utf-8
+
+import argparse
+import re
+from datetime import datetime, timedelta
+import sys
+from collections import Counter
+
+hits = Counter() # IP-d kust tuldi
+urls = Counter() # URL-id mida külastati
+agents = Counter() # User agent mida kasutati külastamisel
+
+RE_LOG_ENTRY = "(?P<remote_addr>.+?) - (?P<username>.+?) \[(?P<timestamp>.+?) \+\d\d\d\d\] \"(?P<verb>[A-Z]+) (?P<path>.+) HTTP/1.[01]\" (?P<status>\d+) (?P<size>\d+) \"(?P<referrer>.+?)\" \"(?P<agent>.+?)\""
+
+for line in sys.stdin:
+    m = re.match(RE_LOG_ENTRY, line)
+    if not m:
+        sys.stderr.write("Ei suutnud parsida rida: %s" % line)
+        continue
+
+    # Ignoreeri localhostist ja sisevõrgust pärinevaid päringuid (a'la nagios)
+    if m.group("remote_addr").startswith("127.") or m.group("remote_addr").startswith("192.168."):
+        continue
+
+    # Jäta vahele OPTIONS päringud
+    if m.group("verb") not in ("GET", "POST"):
+        continue
+
+    # Jäta vahele botid ja otsingumootorid
+    if re.search("(crawler|spider|Nuhk|Googlebot|yahoo|yandex)", m.group("agent")):
+        continue
+
+    dt = datetime.strptime(m.group("timestamp"), "%d/%b/%Y:%H:%M:%S")
+    hits[m.group("remote_addr")] += 1
+    urls[m.group("path")] += 1
+    agents[m.group("agent")] += 1
+
+
+print "Top 5 enim külastatud URL-i veebiserveris:"
+for path, count in urls.most_common(5):
+    sys.stdout.write("% 9d %s\n" % (count, path))
+print
+print "Top 5 enim külastusi teinud IP aadressid:"
+for remote_addr, count in hits.most_common(5):
+    sys.stdout.write("% 9d %s\n" % (count, remote_addr))
+print
+print "Top 5 enim kasutatud veebilehitsejad/OS-id:"
+for user_agent, count in agents.most_common(5):
+    sys.stdout.write("% 9d %s\n" % (count, user_agent))
+