Miért tiltjuk az AI botokat a cPanel szervereinken?

Az AI-alapú keresők és asszisztensek terjedésével egyre több weboldal-tulajdonos számára vált fontossá, hogy tartalmaik ezekben a rendszerekben is elérhetők legyenek. Ezzel párhuzamosan a tárhelyszolgáltatás oldaláról is új üzemeltetési kihívások jelentek meg, különösen megosztott (shared) szerverkörnyezetben.

Tájékoztatásként összefoglaljuk, hogyan kezeljük az AI crawlerek által generált forgalmat és a megnövekedett terhelést a cPanel szervereken, miért alkalmazunk központi korlátozásokat, és milyen lehetőség van az egyedi engedélyezésre.

Nem hiba, hanem védelmi beállítás

A tiltás nem véletlen, és nem is egyedi jelenség. Ez egy tudatos, központi védelmi beállítás, amelyet a tárhelyszerverek stabilitása érdekében alkalmazunk.

Ennek oka egyszerű:

  • egy cPanel szerveren sokszor több száz vagy akár több ezer weboldal fut egyszerre,
  • ezek az oldalak közös erőforrásokon osztoznak (CPU, memória, háttértár, I/O),
  • ha bizonyos botok túl agresszíven vagy túl nagy mennyiségben kérik le az oldalakat, az más ügyfelek weboldalainak működését is lassíthatja vagy veszélyeztetheti.

Ezért a központi tiltás elsődleges célja: a teljes szerverkörnyezet védelme és az alapértelmezett funkciók kiszolgálásának stabil fenntartása.

Mi az a crawler (vagy bot), és hogyan működik?

A crawlerek automatizált programok, amelyek weboldalakat látogatnak meg és tartalmat olvasnak be. A legismertebbek hagyományosan a keresőmotorok botjai, például a Googlebot (Google kereső) és a bingbot (Bing). Az utóbbi időben azonban megjelent egy új hullám: az AI platformokhoz kapcsolódó botok, amelyek többféle céllal dolgozhatnak:

1) Keresési / idézési célú botok

Ezek jellemzően azért járják a webet, hogy egy AI rendszer keresési találatokat tudjon mutatni, forráslinkeket jelenítsen meg a válaszaiban, valós idejű webes tartalmat tudjon lekérdezni.

2) Modelltréninghez használt botok

Ezek a botok nagy mennyiségű tartalmat gyűjthetnek össze, adathalmazokhoz, modellfejlesztéshez, tanítási célokra.

A gyakorlatban a különböző botok terhelési profilja eltérő lehet, de a közös pont az, hogy nagyobb volumenű automatizált lekérések esetén komoly szerverterhelést tudnak generálni.

Miért probléma ez egy osztott cPanel tárhelyen?

Egy megosztott tárhely lényege, hogy sok ügyfél weboldala fut ugyanazon a szerveren. Ez költséghatékony megoldás, de emiatt különösen fontos a központi erőforrásvédelem. Ha egy-egy agresszívebb crawler rááll több oldalra vagy nagy intenzitással kér le tartalmakat, akkor az alábbi problémák jelentkezhetnek:

  • Megnövekedett CPU-terhelés
    Dinamikus oldalaknál (pl. WordPress) minden kérés feldolgozása erőforrást igényel.
  • Memóriahasználat növekedése
    Párhuzamos lekérések esetén gyorsan emelkedhet a memóriaigény.
  • I/O terhelés (fájlműveletek, adatbázis)
    Sok lekérés esetén az adatbázis és a lemezműveletek is telítődhetnek.
  • Lassulás más ügyfelek oldalain
    Egyetlen túlterhelő forgalom nem csak egy weboldalt, hanem egy teljes szervercsomagot érinthet.
  • Stabilitási kockázat
    Szélsőséges esetben szolgáltatáskimaradás vagy részleges elérhetőségi probléma is kialakulhat.

Ezért shared környezetben nem elég azt nézni, hogy egy bot „jó szándékú-e” – azt is figyelembe kell venni, hogy mekkora terhelést okoz a közös infrastruktúrán.

Miért nem elég a robots.txt alapú szabályozás a weboldalaknál?

A robots.txt egy fontos eszköz, de önmagában nem védelmi mechanizmus. A robots.txt alapvetően irányelv a botok számára. A szerveroldali szabályok (pl. WAF, webszerver szabályok, bot-szűrés) viszont tényleges hozzáférés-szabályozást jelentenek.

Vagyis ha egy bot a szerveroldali szabályok alapján tiltva van, akkor hiába engedné a robots.txt, a szerver 403 Forbidden választ fog adni. Ez nem ellentmondás, hanem két külön szint:

  • robots.txt = kommunikációs / viselkedési szabály – amit vagy betartanak, vagy nem
  • szerveroldali védelem = valódi hozzáférés-kezelés

Milyen AI crawlerek érintettek a központi tiltásban?

A központi tiltás olyan botokat érinthet, amelyek a gyakorlatban ismételten túlzott vagy problémás terhelést okoztak. A jelenlegi gyakorlatban ezek között több ismert AI crawler is előfordulhat, például: GPTBot, ChatGPT-User, ClaudeBot, Bytespider, CCBot, de az egyik legagresszívebb az AmazonBot.

(Emellett természetesen más, nem AI-hoz kötődő agresszív crawler-ek és audit botok is szerepelhetnek a központi szűrésben.)


Van lehetőség egyedi engedélyezésre?

Természetessen tisztában vagyunk vele, hogy egyes ügyfelek számára fontos lehet az AI rendszerekben való megjelenés vagy indexelhetőség, ezért egyedi engedélyezési lehetőséget biztosítunk.

Tehát van lehetőség arra, hogy egyénileg engedélyezzük az AI botok hozzáférését. Mivel ez erőforrás- és üzemeltetési szempontból érzékeny beállítás, ezt nem automatikusan vagy önkiszolgáló felületen lehet elvégezni, hanem egyedi kérés alapján kézzel kezeljük.

Ha Ön szeretné, hogy weboldala bizonyos AI crawlerek számára elérhető legyen, kérjük, jelezze ezt ügyfélszolgálatunk felé. Kollégáink tájékoztatják a lehetőségekről és az adott tárhelycsomaghoz kapcsolódó feltételekről.

Kosár
Scroll to Top