# Webový Odtlačok — Slovník kontrol

26 detekcií technológií, obsahu a infraštruktúry

---

## F1 — CMS / Redakčný systém

**Čo to je:** Detekcia CMS platformy na základe meta tagov, HTML komentárov, štruktúry URL, cookies a špecifických skriptov. Rozpoznáva WordPress, Joomla, Drupal, Ghost, Wix, Squarespace, Webflow, Typo3, Nette, Laravel, Django, HubSpot, Stranka.sk, Webnode, Blogger a ďalšie.

**Prečo je to dôležité:** CMS je základ webovej infraštruktúry — určuje bezpečnostné riziká, výkonnosť, SEO možnosti a náklady na údržbu. WordPress má iné zraniteľnosti ako Webflow, e-shop na Shoptete vyžaduje inú optimalizáciu ako WooCommerce.

**Príklad z praxe:** Web s WordPress 6.x má prístup k tisícom pluginov ale vyžaduje pravidelné aktualizácie. Web na Webflow je bezúdržbový ale menej flexibilný. Fingerprint odhalí CMS aj keď prevádzkovateľ odstránil viditeľné značky.


---

## F2 — E-commerce platforma

**Čo to je:** Identifikácia e-commerce riešenia — Shoptet, PrestaShop, WooCommerce, Magento, OpenCart, Webareal, Shopify, Shoper, Upgates. Detekcia prebieha cez špecifické URL vzory, košíkové scripty, platobné integrácie a meta tagy.

**Prečo je to dôležité:** E-commerce platforma priamo ovplyvňuje konverzný pomer, rýchlosť načítania produktových stránok, SEO produktov a integrácie s marketplaces. Každá platforma má špecifické limity a optimalizačné možnosti.

**Príklad z praxe:** Shoptet má natívnu integráciu s Heureka.sk a Zboží.cz, zatiaľ čo WooCommerce vyžaduje pluginy. Magento zvládne milióny produktov ale je náročnejšie na hosting. Fingerprint identifikuje platformu aj verziu.


---

## F3 — JS / CSS frameworky + CDN

**Čo to je:** Detekcia JavaScript frameworkov (jQuery, React, Vue.js, Angular, Alpine.js, HTMX, Turbo, Stimulus, Svelte) s verziami, CSS frameworkov (Bootstrap, Tailwind, Bulma, Foundation) a CDN providerov (Cloudflare, CloudFront, Akamai, Fastly, jsDelivr).

**Prečo je to dôležité:** Tech stack určuje modernosť webu, výkonnosť a udržateľnosť. React 18 s Next.js je výkonnejší ako jQuery spaghetti kód. CDN provider ovplyvňuje latency a dostupnosť pre slovenských používateľov.

**Príklad z praxe:** Web používajúci React 18 + Next.js + Tailwind CSS cez Cloudflare CDN je moderný a rýchly. Web s jQuery 1.x + Bootstrap 3 bez CDN je zastaraný a pomalý. Fingerprint odhalí aj verzie, čo pomáha identifikovať bezpečnostné riziká.

### Zdroje
- [HTTP Archive — Web Technology Report](https://httparchive.org/reports) — HTTP Archive

---

## F4 — Analytika & Marketing

**Čo to je:** Detekcia analytických a marketingových nástrojov — Google Analytics (GA4, UA), GTM, Facebook Pixel, Hotjar, Heureka, Sklik, Criteo, Google Ads, SmartSupp, Biano, Luigi's Box, CookieYes a ďalšie.

**Prečo je to dôležité:** Analytické nástroje ukazujú úroveň digitálnej vyspelosti firmy. Web bez GA4 nemá dáta o návštevníkoch. Prítomnosť remarketing pixelov indikuje aktívny onliné marketing. CookieYes naznačuje GDPR compliance.

**Príklad z praxe:** E-shop s GA4 + GTM + Facebook Pixel + Heureka sledovanie má sofistikovanú analytiku. Blog bez akejkoľvek analytiky nemá prehľad o návštevnosti. Fingerprint odhalí aj duplicitné alebo konfliktné tracking kódy.

### Zdroje
- [Google Tag Manager](https://tagmanager.google.com/) — Google

---

## F5 — Platobné brány

**Čo to je:** Identifikácia platobných brán a metód — GoPay, Stripe, PayPal, Comgate, Tatrapay, Sporopay, CardPay, Dobierka, Bankový prevod. Detekcia cez JavaScript SDK, checkout URL vzory a formulárové elementy.

**Prečo je to dôležité:** Platobné metódy priamo ovplyvňujú konverzný pomer e-shopu. Slovenský zákazník očakáva kartu, bankový prevod a dobierku. Chýbajúce platobné metódy znamenajú stratené objednávky.

**Príklad z praxe:** E-shop s GoPay (karta + bankový prevod) + dobierkou pokrýva 90 % slovenských zákazníkov. Web len s PayPal stráca zákazníkov, ktorí nemajú PayPal účet. Stripe je preferovaný pre medzinárodné platby.

### Zdroje
- [GoPay — Platobná brána](https://www.gopay.com/) — GoPay

---

## F6 — Fonty

**Čo to je:** Detekcia použitých fontov — Google Fonts (s extrakciou rodin), Adobe Fonts (Typekit), Font Awesome, Custom WOFF/WOFF2. Analýza počtu fontových rodín a ich vplyvu na výkonnosť.

**Prečo je to dôležité:** Fonty sú často najväčším blokerom renderingu stránky. Každá fontová rodina pridáva 50-200 KB na stiahnutie. Príliš veľa fontov spomaľuje LCP (Largest Contentful Paint) a zhoršuje Core Web Vitals.

**Príklad z praxe:** Web s 1-2 Google Fonts rodiny má optimálny loading. Web so 6+ rôznymi fontami a Font Awesome ikonami môže mať o 500ms+ pomalšie prvé renderovanie. Self-hosted WOFF2 fonty sú rýchlejšie ako Google Fonts CDN.

### Zdroje
- [Google Fonts](https://fonts.google.com/) — Google

---

## F7 — CDN provider

**Čo to je:** Identifikácia CDN providera — Cloudflare, Fastly, Akamai, CloudFront, Google CDN. Detekcia cez HTTP hlavičky (cf-ray, x-cache, x-amz-cf-id), DNS záznamy a certifikáty.

**Prečo je to dôležité:** CDN dramaticky znižuje latency pre koncových používateľov. Web bez CDN servíruje obsah z jedného servera, čo znamená vyššiu latency pre vzdialených návštevníkov. Cloudflare navyše poskytuje DDoS ochranu a WAF.

**Príklad z praxe:** Web za Cloudflare má TTFB pod 100ms aj pre návštevníkov z iných kontinentov. Web na shared hostingu bez CDN môže mať TTFB 500ms+ pre zahraničných návštevníkov. CDN tiež znižuje záťaž na origin server.

### Zdroje
- [Cloudflare — How CDN Works](https://www.cloudflare.com/learning/cdn/what-is-a-cdn/) — Cloudflare

---

## F8 — Hosting / Server info

**Čo to je:** Detekcia webového servera a reverse proxy — Nginx, Apache, LiteSpeed, IIS, Tomcat + verzia + rok release. Reverse proxy: Varnish, BigIP, HAProxy, Envoy, Traefik. Identifikácia cez Server header a špecifické hlavičky.

**Prečo je to dôležité:** Server softvér a jeho verzia ovplyvňujú výkonnosť a bezpečnosť. Zastaraná verzia Apache môže obsahovať známe zraniteľnosti. LiteSpeed je rýchlejší ako Apache pre PHP weby. Reverse proxy indikuje enterprise infraštruktúru.

**Príklad z praxe:** Web na Nginx 1.25 + Varnish cache má enterprise-grade infraštruktúru. Web na Apache 2.2 (EOL od 2018) je bezpečnostné riziko. Fingerprint odhalí presné verzie, čo pomáha pri security audite.

### Zdroje
- [Netcraft — Web Server Survey](https://www.netcraft.com/) — Netcraft

---

## F9 — Klasifikácia typu webu

**Čo to je:** Heuristická klasifikácia webu na základe detekcií — e-shop, bazár, blog, fórum, sociálna sieť, agregátor, spravodajský portál, wiki, portfólio, katalóg, booking, SaaS, streaming. Využíva kombináciu CMS, e-commerce platforiem a obsahu.

**Prečo je to dôležité:** Typ webu určuje relevantné metriky a benchmarky. E-shop sa hodnotí inak ako blog — konverzný pomer vs. čas na stránke. Klasifikácia umožňuje porovnávanie s relevantnými konkurentmi v rovnakej kategórii.

**Príklad z praxe:** Web s WooCommerce + produktovými stránkami + košíkom je klasifikovaný ako e-shop. Web s WordPress + článkami bez produktov je blog. SaaS web má prihlasovaciu stránku, pricing a dokumentáciu.

### Zdroje
- [Schema.org — WebSite Type](https://schema.org/WebSite) — Schema.org

---

## F10 — Sociálne siete

**Čo to je:** Detekcia odkazov na sociálne siete — Facebook, Instagram, Twitter/X, LinkedIn, YouTube, TikTok, Pinterest. Extrakcia URL adries z footer linkov, meta tagov (og:see_also) a JSON-LD.

**Prečo je to dôležité:** Prítomnosť sociálnych sietí indikuje digitálnu vyspelost a marketingovú stratégiu firmy. LinkedIn profil naznačuje B2B zameranie, TikTok naznačuje mladšiu cieľovku. Absencia sociálnych sietí môže signalizovať neaktívnu firmu.

**Príklad z praxe:** Firma s Facebook + Instagram + LinkedIn + YouTube má komplexnú sociálnu prítomnosť. E-shop len s Facebook stránkou využíva minimum kanálov. Fingerprint extrahuje presné URL pre každú platformu.

### Zdroje
- [Open Graph Protocol](https://ogp.me/) — Open Graph

---

## C1 — Extrakcia viditeľného textu

**Čo to je:** Odstránenie HTML tagov, skriptov, štýlov a neviditeľných elementov — čistá textová reprezentácia stránky. Používa sa ako vstup pre kľúčové slová, embeddingy a AI analýzu.

**Prečo je to dôležité:** Čistý text je základ pre všetky obsahové analýzy. AI modely a vyhľadávače pracujú s textom, nie s HTML kódom. Kvalitná extrakcia odfiltruje navigačný šum a zachová len obsahovo relevantný text.

**Príklad z praxe:** Z HTML stránky e-shopu extrakcia odstráni menu, pätičku, cookie banner a ponechá produktový popis, parametre a recenzie. Tento čistý text sa potom použije na generovanie embeddingov a extrakciu kľúčových slov.

### Zdroje
- [Google Search Essentials — Crawling](https://developers.google.com/search/docs/essentials) — Google

---

## C2 — Počet slov

**Čo to je:** Základná metrika dĺžky obsahu na analyzovanej stránke. Počíta slová v extrahovanom viditeľnom texte po odstránení HTML tagov a skriptov.

**Prečo je to dôležité:** Dĺžka obsahu koreluje s hĺbkou informácií a SEO výkonnosťou. Stránky s menej ako 300 slovami sú považované za 'thin content'. AI modely preferujú obsažnejšie zdroje pri generovaní odpoveďí.

**Príklad z praxe:** Produktová stránka s 50 slovami nemá dostatok informácií pre SEO ani AI. Článok s 1500+ slovami má väčšiu šancu rankovať v Google a byť citovaný v AI odpoveďíach. Optimálna dĺžka závisí od typu stránky.

### Zdroje
- [Creating Helpful Content](https://developers.google.com/search/docs/fundamentals/creating-helpful-content) — Google

---

## KW1 — Kľúčové slová — extrakcia

**Čo to je:** Automatická extrakcia kľúčových slov z URL paths, H1, title, meta description, breadcrumbs, category tree a headings. Scoring: weight × log2(frequency + 1) × log2(product_count + 2).

**Prečo je to dôležité:** Kľúčové slová definujú tematické zameranie webu a sú základom pre SEO aj AI viditeľnosť. Automatická extrakcia odhalí, na aké témy sa web reálne zameriava — často odlišne od toho, čo si majiteľ myslí.

**Príklad z praxe:** E-shop s elektronikou má najsilnejšie kľúčové slová 'mobilný telefón', 'notebook', 'tablet'. Ak sa však v extrakcii objaví 'výpredaj' ako najsilnejšie slovo, web komunikuje skôr zľavy ako produkty.

### Zdroje
- [Google SEO Starter Guide](https://developers.google.com/search/docs/fundamentals/seo-starter-guide) — Google

---

## KW2 — Kľúčové slová — kategorizácia

**Čo to je:** Zaradenie extrahovaných kľúčových slov do kategórií — produkt, služba, lokalita, brand. Pomáha pochopiť tematickú štruktúru webu a identifikovať medzery v obsahu.

**Prečo je to dôležité:** Kategorizácia kľúčových slov ukazuje, či web pokrýva všetky dôležité aspekty. E-shop by mal mať silné produktové kľúčové slová, lokálna firma lokálne. Medzery v kategóriách naznačujú chýbajúci obsah.

**Príklad z praxe:** Reštaurácia v Bratislave má silné produktové slová ('pizza', 'pasta') ale chýbajú lokálne ('Bratislava', 'Staré Mesto'). To znamená slabú lokálnu SEO viditeľnosť a nízku šancu na zobrazenie v AI odpoveďíach na lokálne dopyty.

### Zdroje
- [Google SEO Starter Guide](https://developers.google.com/search/docs/fundamentals/seo-starter-guide) — Google

---

## SM1 — Sitemap existencia

**Čo to je:** Kontrola, či web má prístupný sitemap.xml alebo sitemap index na štandardných URL adresách (/sitemap.xml, /sitemap_index.xml). Overenie HTTP statusu a validity XML formátu.

**Prečo je to dôležité:** Sitemap je mapa webu pre vyhľadávače a AI crawlery. Bez sitemapy musia crawlery objavovať stránky cez linky, čo je pomalšie a menej spoľahlivé. Google aj AI boty používajú sitemapu na efektívne indexovanie.

**Príklad z praxe:** E-shop s 10 000 produktami bez sitemapy riskuje, že Google neobjaví 30-50 % produktových stránok. Web s aktuálnou sitemapou má všetky stránky indexované do 48 hodín od publikácie.

### Zdroje
- [Sitemaps — Google Search Central](https://developers.google.com/search/docs/crawling-indexing/sitemaps/overview) — Google

---

## SM2 — Počet URL v sitemap

**Čo to je:** Spočítanie URL adries v sitemap — základ pre odporúčanie tier-u (FREE=1, BASIC=20, PRO=50+ URL). Analýza distribúcie URL naprieč subdoménami a sekciami.

**Prečo je to dôležité:** Počet URL určuje rozsah webu a odporúčaný tier auditu. Malý web s 5 URL potrebuje len základný audit, veľký e-shop s tisíckami produktov potrebuje PRO tier pre kompletnú analýzu.

**Príklad z praxe:** Osobný blog s 10 článkami spadá do BASIC tier-u. E-shop s 500 produktovými stránkami potrebuje PRO tier na analýzu všetkých URL. Počet URL v sitemap vs. reálny počet stránok odhalí problémy s indexáciou.

### Zdroje
- [Sitemaps — Google Search Central](https://developers.google.com/search/docs/crawling-indexing/sitemaps/overview) — Google

---

## SM3 — Sitemap validita

**Čo to je:** Overenie formátu sitemap XML, správnosti URL adries a prístupnosti odkazovaných stránok. Kontrola lastmod dátumov, changefreq a priority atribútov.

**Prečo je to dôležité:** Nevalidná sitemap môže spôsobiť, že crawlery ju ignorujú. Nesprávne URL, chýbajúce namespaces alebo neplatné dátumy vedú k chybám pri indexácii. Aktuálne lastmod dátumy pomáhajú crawlerom efektívne re-crawlovať.

**Príklad z praxe:** Sitemap s URL smerujúcimi na 404 stránky signalizuje zanedbaný web. Sitemap bez lastmod dátumov neumožňuje crawlerom rozlíšiť nový a starý obsah. Validná sitemap s aktuálnymi dátumami zrýchľuje indexáciu.

### Zdroje
- [Sitemaps XML Format](https://www.sitemaps.org/protocol.html) — sitemaps.org

---

## SSL1 — SSL certifikát — existencia

**Čo to je:** Overenie, či doména používa HTTPS s platným SSL/TLS certifikátom. Kontrola presmerovania z HTTP na HTTPS a správnosti certifikátu pre danú doménu.

**Prečo je to dôležité:** HTTPS je od roku 2018 požiadavka Google pre ranking. Prehliadače Chrome a Firefox zobrazujú varovanie 'Not Secure' pre HTTP weby. SSL je nevyhnutný pre dôveru používateľov a ochranu prenášaných dát.

**Príklad z praxe:** Web bez SSL má v prehliadači červené varovanie, čo okamžite odradí návštevníkov. E-shop bez HTTPS nemôže prijímať platby kartou. Všetky moderné weby musia mať platný SSL certifikát.

### Zdroje
- [HTTPS as a Ranking Signal](https://developers.google.com/search/blog/2014/08/https-as-ranking-signal) — Google

---

## SSL2 — SSL certifikát — vydavateľ

**Čo to je:** Identifikácia vydavateľa SSL certifikátu — Let's Encrypt, DigiCert, Sectigo, GlobalSign, GeoTrust a ďalší. Typ certifikátu: DV (Domain Validation), OV (Organization Validation), EV (Extended Validation).

**Prečo je to dôležité:** Typ certifikátu indikuje úroveň overenia identity. DV (Let's Encrypt) overuje len vlastníctvo domény. OV a EV overujú aj organizáciu. Pre e-shopy a finančné služby je OV/EV certifikát signálom dôveryhodnosti.

**Príklad z praxe:** Banka s EV certifikátom (DigiCert) má najvyššiu úroveň overenia. Blog s Let's Encrypt DV certifikátom má základné šifrovanie. Oba sú bezpečné, ale EV poskytuje vyššiu dôveru pre citlivé transakcie.

### Zdroje
- [Let's Encrypt — How It Works](https://letsencrypt.org/how-it-works/) — Let's Encrypt

---

## SSL3 — SSL certifikát — platnosť

**Čo to je:** Kontrola dátumu expirácie SSL certifikátu a počet dní do konca platnosti. Varovanie pri certifikátoch blížiacich sa k expirácii (menej ako 30 dní).

**Prečo je to dôležité:** Expirovaný SSL certifikát spôsobí, že prehliadač zablokuje prístup na web s chybovou stránkou. Automatická obnova (Let's Encrypt, Cloudflare) eliminuje toto riziko. Manuálne spravované certifikáty vyžadujú monitoring.

**Príklad z praxe:** Certifikát s platnosťou 340 dní je v poriadku. Certifikát s 5 dňami do expirácie vyžaduje okamžitú obnovú. Let's Encrypt certifikáty sa obnovújú automaticky každých 90 dní, komerčné certifikáty ročne.

### Zdroje
- [SSL Labs — SSL Server Test](https://www.ssllabs.com/ssltest/) — Qualys

---

## EMB1 — Vektorové embeddingy

**Čo to je:** Generovanie 1024-dimenzionálnych vektorových embeddingov z extrahovaného textu pomocou BGE-M3 modelu cez OpenRouter. Vektorý sa ukladajú v pgvector databáze pre sémantické vyhľadávanie.

**Prečo je to dôležité:** Vektorové embeddingy umožňujú sémantické porovnávanie webov — nie podľa kľúčových slov, ale podľa významu obsahu. Dva weby s rôznymi slovami ale rovnakým zameraním budú mať podobné vektorý.

**Príklad z praxe:** E-shop s elektronikou a technologický blog o gadgetoch budú mať podobné embeddingy, aj keď používajú odlišnú terminológiu. Cosiné similarity medzi ich vektormi bude vysoká (>0.8), čo signalizuje obsahovú príbuznosť.

### Zdroje
- [BGE-M3 — Multi-Lingual Multi-Granularity Embedding Model](https://huggingface.co/BAAI/bge-m3) — BAAI

---

## EMB2 — Podobnosť s konkurenciou

**Čo to je:** Cosiné similarity search v databáze embeddingov — nájdenie obsahovo najblížších webov v databáze Be1st.ai. Výsledok: TOP N najblížších domén s percentom podobnosti.

**Prečo je to dôležité:** Automatické nájdenie podobných webov odhalí konkurentov, o ktorých majiteľ nemusel vedieť. Pomáha tiež benchmarkovať web voči reálnej konkurencii namiesto subjektívneho odhadu.

**Príklad z praxe:** Slovenský e-shop s oblečením získa zoznam 5 najblížších webov z databázy — napr. ZOOT.sk (92%), About You (88%), Answear.sk (85%). Majiteľ tak zistí, s kým reálne súperí o zákazníkov v onliné priestore.

### Zdroje
- [pgvector — Open-Source Vector Similarity Search for Postgres](https://github.com/pgvector/pgvector) — pgvector

---

