Strona główna Analiza danych jakościowych Jak pracować z danymi jakościowymi z ankiet otwartych

Zespół omawia wykresy i wyniki ankiet przy laptopach na spotkaniu — Źródło: Pexels | Autor: fauxels

Analiza danych jakościowych

Jak pracować z danymi jakościowymi z ankiet otwartych

Przez

Klaudia Szczepaniak

17/04/2026

Rate this post

Nawigacja po artykule:

Po co w ogóle analizować odpowiedzi otwarte, skoro są dane liczbowe?

Rola odpowiedzi otwartych: dopowiedzenie „dlaczego” do danych ilościowych

Dane liczbowe z ankiet zamkniętych mówią przede wszystkim co i ile. Odpowiedzi otwarte dopowiadają dlaczego oraz w jaki sposób. Bez tej warstwy łatwo o powierzchowne, a nawet błędne wnioski. Skala satysfakcji pokaże, że 30% klientów jest niezadowolonych, ale nie wskaże, czy chodzi o obsługę, cenę, jakość produktu, brak informacji czy jeszcze coś innego.

Odpowiedzi otwarte pełnią kilka funkcji jednocześnie. Po pierwsze, pozwalają uchwycić motywacje, oczekiwania i emocje, których nie da się wiarygodnie upchnąć w pięciostopniową skalę. Po drugie, ujawniają tematy, o których autor ankiety nie pomyślał – nowe potrzeby, nisze, obawy, skutki uboczne decyzji. Po trzecie, dają realne językowe przykłady używane przez klientów czy pracowników, co przydaje się w komunikacji, marketingu, UX czy projektowaniu usług.

Jeżeli celem badania jest nie tylko „odhaczenie raportu”, ale realna zmiana w produkcie, procesie czy komunikacji, analiza odpowiedzi otwartych staje się nie dodatkiem, lecz koniecznym uzupełnieniem liczb. Samo „średnio 3,8 w skali 1–5” nie podpowie, co konkretnie trzeba poprawić. Kilkadziesiąt dobrze przeanalizowanych komentarzy już tak.

Kiedy pytania otwarte mają sens, a kiedy są tylko ozdobą ankiety

Pytania otwarte niosą dużą wartość, ale tylko w określonych sytuacjach. Mają sens, gdy:

badany obszar jest złożony, a lista możliwych odpowiedzi trudna do przewidzenia,
chcesz zidentyfikować powody stojące za postawami (np. powody odejść, przyczynę niskiej satysfakcji),
szukasz inspiracji do dalszych badań lub projektowania rozwiązań,
masz przynajmniej minimalne zasoby czasowe, by te dane przeanalizować w sposób uporządkowany.

Stają się „ozdobą”, gdy pytanie otwarte jest dodawane odruchowo: „Na końcu dajmy pole na uwagi, bo tak się robi”. Bez planu analizy takie pole generuje frustrujące poczucie nadmiaru: setki komentarzy, których nikt rzetelnie nie czyta, a tym bardziej nie koduje. Z punktu widzenia etyki badania jest to też problematyczne – prosimy o czas i szczere opinie, których potem realnie nie wykorzystujemy.

Szczególnie zwodnicze są sytuacje, w których pytania otwarte zastępują dobrze przemyślane pytania zamknięte. Zamiast raz zainwestować czas w opracowanie jasnych skal i list odpowiedzi, badacz przerzuca cały wysiłek na respondenta, a później na siebie w analizie wolnych tekstów. Umiar i plan są tu ważniejsze niż „im więcej tym lepiej”.

Jakie decyzje można oprzeć wyłącznie na odpowiedziach otwartych, a jakie wymagają liczb

Nie każde pytanie biznesowe czy badawcze wymaga statystyk. Są decyzje, w których wystarczą dobrze przeanalizowane dane jakościowe. Dotyczy to szczególnie:

poszukiwania nowych funkcjonalności, usług, usprawnień – istotne są pomysły i potrzeby, nie od razu ich dokładna częstość,
zrozumienia mechanizmów zachowań (np. „dlaczego klienci porzucają koszyk”, „jak interpretują nasz komunikat”),
identyfikacji ryzyk i wyjątków – pojedyncze, ale znaczące przypadki problemów, błędów, kryzysów,
tworzenia person, scenariuszy użytkownika, map podróży klienta.

Z drugiej strony, gdy w grę wchodzi ważenie skali zjawiska („jak duży jest problem?”, „czy to dotyczy mniejszości czy większości klientów?”), dane jakościowe z ankiet otwartych rzadko wystarczą same. Nie zapewniają reprezentatywności; bardziej skłonni do pisania długich komentarzy są zwykle skrajnie zadowoleni lub skrajnie niezadowoleni. W takich przypadkach odpowiedzi otwarte powinny uzupełniać liczby, a nie ich zastępować.

Oparcie istotnej decyzji (np. dużej inwestycji, zmiany strategii) wyłącznie na kilku zgrabnych cytatach z ankiety to klasyczny błąd konfirmacji. Cytaty pomagają zrozumieć i „poczuć” dane, ale nie zastępują pytania o to, jak często coś się dzieje i w jakich grupach.

Przykładowy case: zadowolenie klientów – co pokazuje skala, a co ujawniają komentarze

Wyobraźmy sobie ankietę posprzedażową po kontakcie z infolinią. W części ilościowej respondenci oceniają:

czas oczekiwania,
kompetencje konsultanta,
uprzejmość,
ogólną satysfakcję.

Wynik: średnia ogólna satysfakcji na poziomie 4,0. Z perspektywy menedżera – nieźle. Jednak w polu otwartym „Co moglibyśmy poprawić w obsłudze?” zaczyna się historia. Po analizie jakościowej ujawnia się np. to, że:

klienci są relatywnie zadowoleni z kontaktu z ludźmi, ale frustruje ich rozbudowany system IVR (automatyczna sekretarka),
osoby starsze czują się zagubione w „drzewku wyboru”, choć późniejsza obsługa jest dla nich bardzo pomocna,
kilku klientów opisuje sytuacje, w których po kilkunastu minutach oczekiwania system rozłączał połączenie.

Skala satysfakcji 4,0 nie pokaże, który element doświadczenia jest problematyczny. Komentarze otwarte nie tylko to wskazują, ale podpowiadają konkretne obszary działania: uproszczenie IVR, osobna ścieżka dla seniorów, zabezpieczenie przed rozłączeniem po określonym czasie. Dopiero połączenie obu warstw – liczbowej i jakościowej – daje podstawę do świadomych decyzji.

Z jakimi danymi jakościowymi z ankiet mamy do czynienia?

Typy pytań otwartych: w pełni otwarte, półotwarte, pola „inne, jakie?”

Pojęcie „odpowiedzi otwartej” obejmuje kilka różnych konstrukcji pytań, które generują odmienne typy danych i wymagają różnej analizy.

W pełni otwarte pytania dają respondentowi maksymalną swobodę. Przykład: „Opisz proszę swoje doświadczenie z naszym sklepem internetowym”. Taka forma pozwala ujawnić własną strukturę problemów, priorytetów i emocji respondenta. Ceną jest duże zróżnicowanie długości i treści odpowiedzi oraz większy wysiłek analityczny.

Pytania półotwarte zawierają pewną strukturę, ale proszą o rozwinięcie. Przykład: „Co najbardziej podobało Ci się w szkoleniu? Wymień 1–2 elementy i krótko je opisz”. Tutaj respondent ma wskazany kierunek oraz ograniczenie liczby wątków. Dane są łatwiejsze do kodowania, choć mniej eksploracyjne.

Pola typu „inne, jakie?” to szczególny przypadek. Formalnie są to odpowiedzi otwarte, ale powiązane z zamkniętą listą odpowiedzi. Ich analiza najczęściej polega na sprawdzeniu, czy wpisy „inne” nie powtarzają istniejących opcji (błąd w projekcie pytania) oraz czy nie ujawniają istotnych, pominiętych kategorii. Z reguły wymagają innego traktowania niż bogate opisy; często kończy się na grupowaniu ich w kilka dodatkowych opcji.

Różne długości i style wypowiedzi: od jednowyrazowych haseł po długie narracje

W jednym badaniu jakościowym z ankiet otwartych można spotkać odpowiedzi skrajnie różne pod względem długości:

jednowyrazowe („Cena”, „Obsługa”, „Brak komunikacji”),
krótkie hasła lub równoważniki zdań („Za długi czas reakcji na reklamację”),
kilkuzdaniowe wyjaśnienia z przykładem sytuacji,
rozbudowane narracje, czasem z dygresjami i emocjonalnym komentarzem.

Analiza jakościowa musi te różnice uwzględniać. Jednowyrazowe wypowiedzi często nadają się do szybkiego kategoryzowania, ale mogą wymagać interpretacji kontekstu („Cena” – za wysoka, zbyt zróżnicowana, niejasna?). Dłuższe narracje dostarczają bogatszych danych, ale wymagają podziału na jednostki znaczeniowe – kilka różnych wątków w jednej odpowiedzi może wymagać różnych kodów.

Różny jest też styl: część osób pisze rzeczowo, inni używają ironii, kolokwializmów, wyolbrzymień („czekałem wieczność”), skrótów czy emotikonów. Brak uważności na takie sygnały prowadzi do nadmiernego „spłaszczania” danych. Z drugiej strony, traktowanie każdej metafory hiperbolicznie poważnie też zniekształca obraz. Balans między dosłownym a pragmatycznym odczytaniem jest kluczowy.

Konsekwencje projektowania pytania: jak sformułowanie wpływa na jakość danych

Jakość odpowiedzi otwartych nie zależy wyłącznie od respondentów. Często to konstrukcja pytania „programuje” rodzaj odpowiedzi. Kluczowe elementy:

Precyzja prośby – pytanie „Czy chcesz coś dodać?” zachęca do ogólników lub milczenia, podczas gdy „Co było dla Ciebie najbardziej frustrujące podczas korzystania z naszej aplikacji?” ukierunkowuje na konkret.
Zakres czasowy – brak określenia przedziału („kiedykolwiek”, „w ostatnim miesiącu”) powoduje mieszanie świeżych i bardzo starych doświadczeń.
Sugerowanie odpowiedzi – pytanie „Co Ci się najbardziej podoba w naszej szybkiej obsłudze?” zawiera tezę, że obsługa jest szybka. To nie jest neutralne.
Przeciążenie poznawcze – „Opisz wszystkie swoje uwagi dotyczące produktu, ceny, obsługi, dostępności i komunikacji marketingowej” jest proszeniem o esej, na który większość osób nie ma ani czasu, ani energii.

Analizując dane jakościowe z ankiet, rozsądnie jest uwzględniać ograniczenia zadanych pytań. Nieobecność tematów w odpowiedziach nie zawsze oznacza, że nic się w tym obszarze nie dzieje. Czasem oznacza jedynie, że pytanie nie zapraszało do takiej wypowiedzi.

Różnice między danymi z ankiet online, papierowych i CAWI/CATI

Sposób zbierania danych także wpływa na charakter odpowiedzi otwartych.

W ankietach online (CAWI) odpowiedzi są często krótsze, bardziej hasłowe, nierzadko pozbawione polskich znaków, pełne skrótów i literówek. Łatwo je później analizować technicznie (eksport do arkusza, narzędzia do tekstu), ale potrzeba dodatkowej uwagi przy odczytywaniu kolokwialnego języka. Zdarzają się też odpowiedzi generowane przez boty lub kopiowane z innych miejsc – przy dużych, otwartych badaniach wymagana jest filtracja spamu.

Anegdotycznie, w ankietach papierowych odpowiedzi bywają dłuższe i bardziej rozbudowane tam, gdzie respondent ma fizyczną przestrzeń do pisania (np. kartka A4). Problemem są trudności w odczytaniu pisma oraz konieczność digitalizacji. Sam proces przepisywania może wprowadzać błędy – gdzieś zniknie przecinek, gdzie indziej literówka stanie się innym słowem.

W wywiadach telefonicznych CATI odpowiedzi otwarte są zapisywane przez ankietera. To oznacza, że nie są to „czyste” wypowiedzi respondentów, lecz transkrypcje wstępnie zredagowane przez osobę trzecą. Ankieter skraca, parafrazuje, czasem interpretuje. W analizie trzeba pamiętać, że część subtelności mogła zniknąć już na etapie zapisu. Dane CATI są przez to bardziej ujednolicone językowo, ale mniej „surowe”.

Dłoń z długopisem analizuje kolorowe wykresy słupkowe i liniowe — Źródło: Pexels | Autor: Lukas Blazek

Przygotowanie materiału: sprzątanie, anonimizacja, pierwsze „wczytanie się”

Zbieranie odpowiedzi w jednym miejscu: arkusz, baza, narzędzie CAQDAS

Rozproszony materiał to prosty przepis na chaos. Zanim zacznie się właściwa analiza jakościowa odpowiedzi otwartych, warto zadbać, by wszystkie odpowiedzi trafiły do jednego, spójnego korpusu. Minimalnym standardem jest arkusz (np. Excel, Google Sheets) z osobnymi kolumnami na:

identyfikator odpowiedzi (ID lub numer wiersza),
tekst odpowiedzi otwartej,
kluczowe zmienne z części zamkniętej: np. płeć, wiek, segment, wynik ogólnej satysfakcji.

Przy większych badaniach warto rozważyć użycie narzędzi typu CAQDAS (Computer-Assisted Qualitative Data Analysis Software), takich jak NVivo, MAXQDA czy ATLAS.ti. Ułatwiają one kodowanie, przypisywanie wielu kodów do jednego fragmentu, tworzenie kategorii, a później także proste zestawienia liczebności. Nie są jednak magicznym rozwiązaniem – bez przemyślanej koncepcji kodów i kategorii każdy program zamieni się w drogiego edytora tekstu.

Jeżeli dane pochodzą z kilku źródeł (np. różne fale badania, różne kanały), sensowne bywa dodanie kolumny typu „źródło”, by móc później sprawdzać, czy wzorce odpowiedzi nie różnią się w zależności od miejsca lub czasu zbierania danych.

Anonimizacja i minimalizacja danych wrażliwych

Odpowiedzi otwarte często zawierają więcej, niż badacz naprawdę potrzebuje: imiona pracowników, nazwy małych miejscowości, dokładne daty wizyt, numery zamówień, a czasem także informacje zdrowotne czy finansowe. Zanim materiał trafi do analizy zespołowej lub zewnętrznej, sensowne jest przeprowadzenie świadomej anonimizacji.

Podstawowe zabiegi to:

usuwanie jednoznacznych identyfikatorów – imiona i nazwiska, numery klienta, numery telefonów, adresy e‑mail, numery polis, PESEL itp.,
uogólnianie informacji – zastąpienie „w sklepie przy ul. Mickiewicza w Brzegu” opisem „w jednym z Państwa sklepów stacjonarnych”, jeśli lokalizacja nie jest kluczowa dla analizy,
oznaczanie wrażliwych treści – np. [informacja medyczna], [informacja o sytuacji finansowej] zamiast pozostawiania pełnych opisów.

Stopień anonimizacji zależy od kontekstu projektu i wymogów prawnych. W badaniu rozwojowym w małej firmie trzeba znacznie ostrożniej obchodzić się z opisami konkretnych sytuacji niż w dużym, zanonimizowanym panelu konsumenckim. Wycięcie zbyt dużej części treści zubaża dane, ale pozostawienie zbyt wielu szczegółów może ujawnić respondentów lub pracowników. Zazwyczaj sensownym kompromisem jest pozostawienie opisu zdarzenia, a usunięcie nazw własnych, nazwisk i „dokładnych współrzędnych”.

Anonimizacja to także moment na pierwsze „techniczne” porządki: poprawę oczywistych błędów maszynowego OCR, dopisanie brakujących polskich znaków tam, gdzie zmieniają znaczenie słowa („latwy” → „łatwy”), a także jednolite oznaczenie braków typu „brak odpowiedzi” zamiast mieszanki „–”, „/”, „n/a” i pustych komórek.

Pierwsze czytanie eksploracyjne: bez kodów, bez liczenia

Przed jakąkolwiek formalną kategoryzacją przydaje się etap, który bywa lekceważony: spokojne, całościowe wczytanie się w materiał. Nie chodzi o to, by od razu tworzyć siatkę kodów, lecz by zobaczyć, jakimi słowami mówią respondenci, co powraca, co zaskakuje, co całkowicie rozmija się z hipotezami zamawiającego.

W praktyce:

przechodzi się po kolei przez odpowiedzi (czasem w losowej kolejności, żeby unikać efektu „pierwszej fali”),
zaznacza adnotacjami lub kolorami fragmenty, które wydają się powtarzać, być szczególnie mocne emocjonalnie lub nietypowe,
zapisuje krótkie notatki analityczne obok odpowiedzi: „tu wchodzi wątek aplikacji mobilnej”, „kolejna wzmianka o infolinii, ale tym razem pozytywna”, „sprzeczne z narracją firmy o łatwości korzystania”.

Na tym etapie kusi, by zacząć liczyć: „ile razy padło słowo ‘cena’?”. To zwykle za wcześnie. Jeden obszerny, dobrze umotywowany opis potrafi wnieść więcej niż dwadzieścia lakonicznych „cena”. Liczby będą mieć sens dopiero po sensownym zdefiniowaniu kategorii i ich treści.

Wstępne porządkowanie: klastrowanie odpowiedzi „na oko”

Zanim powstanie formalna lista kodów, pomocne bywa proste, manualne grupowanie odpowiedzi podobnych treściowo. Nie jest to jeszcze „kodowanie”, raczej luźne klastrowanie.

Można podejść do tego w kilku krokach:

wydrukować reprezentatywną próbkę odpowiedzi (np. 50–100) i fizycznie układać je w stosy według podobieństwa tematu,
w narzędziu CAQDAS lub arkuszu tworzyć tymczasowe kolumny/etykiety typu „aplikacja”, „obsługa w sklepie”, „kontakt mailowy”, „ogólne narzekanie” i przypisywać je spontanicznie,
zanotować przy każdym „stosy” krótkie, robocze opisy: co łączy te wypowiedzi, co je odróżnia od innych.

Takie porządkowanie pokazuje, gdzie tematy są wyraźne i powtarzalne (np. „terminy dostaw”), a gdzie występują jedynie pojedyncze, rozproszone głosy. Często wychodzą też na jaw wątki, o których nikt nie myślał przy projektowaniu ankiety – na przykład powtarzające się odniesienia do komunikacji w social mediach w ankiecie dotyczącej wyłącznie obsługi infolinii.

Budowa systemu kodów: między strukturą z góry a emergencją z danych

Dedukcyjne, indukcyjne i mieszane podejście do kodowania

System kodowania to serce analizy jakościowej. Kodami można nazwać etykiety, którymi oznacza się fragmenty tekstu, by później móc je grupować, porównywać i (ostrożnie) liczyć. Istnieją trzy podstawowe strategie tworzenia kodów:

dedukcyjna – lista kodów powstaje przed analizą, na podstawie założeń badania, kwestionariusza, modelu teoretycznego lub potrzeb decydentów,
indukcyjna – kody wyłaniają się z lektury odpowiedzi; badacz tworzy je w trakcie pracy z tekstem,
mieszana – kombinacja najczęściej spotykana w praktyce: część kodów jest z góry założona (np. główne obszary doświadczenia klienta), a część dopisywana w reakcji na to, co rzeczywiście pojawia się w komentarzach.

Przy danych z ankiet otwartych bardzo rzadko działa podejście czysto dedukcyjne. Jeśli lista kodów jest w całości „wymyślona” przed spojrzeniem w materiał, pojawia się silna pokusa upychania wypowiedzi w gotowe szufladki, nawet jeśli nie pasują. Z kolei czysta indukcja w dużych projektach grozi chaosem: po kilkuset odpowiedziach powstaje kilkadziesiąt lub kilkaset kodów, z których połowa występuje raz lub dwa razy.

Rozsądny kompromis to przygotowanie krótkiej listy nadrzędnych kodów (np. „produkt”, „cena”, „obsługa klienta”, „proces zakupu”, „komunikacja”), a następnie rozwijanie ich o kody podrzędne w trakcie lektury (np. „obsługa klienta > infolinia > czas oczekiwania”).

Operacjonalizacja kodów: definicje, kryteria włączania i przykłady

Samą nazwą kodu wiele się nie osiągnie. Przydatny kod musi mieć przynajmniej prostą definicję i kryteria włączania. Inaczej każdy analityk będzie stosował go trochę inaczej, a po miesiącu pracy trudno będzie odtworzyć własne decyzje.

Dla każdego ważniejszego kodu warto spisać:

krótką definicję: „Komentarze odnoszące się do czasu oczekiwania na połączenie z konsultantem na infolinii, niezależnie od oceny (pozytywna/negatywna)”,
co wchodzi: „wypowiedzi porównujące nasz czas oczekiwania z konkurencją, narzekania na sygnał zajętości, pochwały za szybkie odebranie telefonu”,
co nie wchodzi: „uwagi o czasie rozwiązywania sprawy po połączeniu – kodowane osobno jako ‘czas obsługi sprawy’”,
1–2 przykłady fragmentów tekstu, które dobrze ilustrują kod.

Taka „książka kodowa” (codebook) nie musi być rozbudowana, ale minimalny poziom formalizacji znacząco podnosi spójność analizy. Jest to szczególnie ważne, gdy z materiałem pracuje kilka osób lub gdy planowane jest powtórzenie badania po czasie.

Poziomy szczegółowości: kiedy kodować szeroko, a kiedy drobiazgowo

Jednym z częstszych błędów jest albo zbyt ogólne, albo nadmiernie drobiazgowe kodowanie. W pierwszym przypadku wszystko ląduje w kilku wielkich workach („obsługa”, „produkt”, „inne”), co uniemożliwia sensowne wnioski. W drugim – powstaje kilkaset drobnych kodów, których nie da się interpretować na sensownym poziomie ogólności.

Poziom szczegółowości powinien wynikać z celu analizy. Jeżeli pytanie biznesowe brzmi „które główne obszary obsługi wymagają poprawy?”, wystarczy stosunkowo prosta struktura. Jeśli jednak chodzi o zaprojektowanie konkretnych rozwiązań w aplikacji, przyda się rozróżnienie między „logowaniem”, „płatnościami”, „powiadomieniami” i „nawigacją”.

Dobrym testem jest pytanie: „Czy na podstawie tej różnicy w kodach ktoś podejmie inną decyzję?”. Jeżeli nie, prawdopodobnie poziom granulacji jest zbyt wysoki. Kod „aplikacja – problem z logowaniem przez FaceID” i „aplikacja – problem z logowaniem przez odcisk palca” może być interesujący dla zespołu technicznego, ale w większości analiz wystarczy kod „aplikacja – trudności z logowaniem”.

Kodowanie wielokrotne: jedna wypowiedź, kilka wątków

Odpowiedzi otwarte rzadko dotyczą jednego, czystego wątku. Użytkownik potrafi w jednym akapicie pochwalić jakość obsługi, skrytykować cennik i zaproponować zmianę formularza. System kodowania powinien dopuszczać, a wręcz zakładać wielokrotne kodowanie tej samej wypowiedzi.

Przydaje się tutaj konsekwencja:

w narzędziach CAQDAS – dzielić dłuższe wypowiedzi na logiczne fragmenty i kodować każdy z nich osobno,
w arkuszu – zamiast jednej kolumny „kod” mieć kilka kolumn na kody, albo zapisywać je w jednej komórce jako ustandaryzowaną listę (np. rozdzieloną średnikami).

Nadmierne rozdrabnianie wypowiedzi na mikrofagi może jednak zniszczyć kontekst. W krytycznym komentarzu „czas oczekiwania jest za długi, a do tego konsultant, kiedy już odbierze, sprawia wrażenie, jakby mu się nie chciało” sensowne jest wydzielenie dwóch kodów (czas oczekiwania, postawa konsultanta), ale nie ma potrzeby dzielenia na trzy zdania tylko po to, by każde traktować jako oddzielną jednostkę.

Zespół analityków omawia wykresy danych podczas spotkania w biurze — Źródło: Pexels | Autor: Yan Krukau

Praktyka kodowania: praca własna i w zespole

Iteracyjne dopracowywanie schematu kodów

Schemat kodów rzadko jest „dobry” od pierwszej wersji. Zwykle przechodzi przez kilka iteracji: pojawiają się nowe kody, część starych okazuje się zbędna lub zbyt podobna do innych, niektóre trzeba łączyć. Kluczowe, by te zmiany były kontrolowane i udokumentowane.

Praktyczne podejście:

rozpocząć kodowanie na części materiału (np. 10–20% odpowiedzi),
po tej pilotażowej fazie zatrzymać się i przejrzeć listę kodów: które są używane często, które marginalnie, gdzie się pokrywają,
wprowadzić poprawki w „książce kodowej” i stosować już ulepszony schemat do pozostałej części materiału.

Jeżeli po drodze pojawiają się nowe istotne kody, trzeba podjąć decyzję: czy wracać do już zakodowanej części i je tam dodać (czasochłonne, ale spójne), czy zaakceptować, że w starszej części materiału ten wątek będzie niedoszacowany. W zależności od skali badania i wagi nowego kodu obie strategie bywają sensowne, o ile są jawnie opisane w raporcie.

Zgodność między koderami i jak ją sensownie oceniać

Jeśli nad materiałem pracuje więcej niż jedna osoba, pojawia się pytanie o spójność kodowania. W literaturze akademickiej stosuje się współczynniki typu Cohen’s kappa czy Krippendorff’s alpha, ale w realnych projektach komercyjnych częściej spotyka się prostsze podejścia.

Minimalny standard to:

zlecenie dwóm osobom zakodowania tej samej, niewielkiej próbki danych (np. 50 wypowiedzi),
porównanie ich kodów i omówienie miejsc rozbieżnych,
doprecyzowanie definicji kodów tam, gdzie interpretacje się różniły,
ewentualne ponowne zakodowanie próbki po doprecyzowaniu zasad.

W wielu projektach ważniejsze od samej liczby „zgodności” jest to, dlaczego koderzy się różnią. Różnica, czy coś zaklasyfikować jako „czas oczekiwania” czy „dostępność konsultantów”, może ujawniać niejasność definicji kodów, nachodzenie na siebie obszarów odpowiedzialności lub różne rozumienie procesu obsługi.

Kontrola jakości kodowania: losowe audyty i przykłady brzegowe

Nawet przy jednym koderze potrzebna jest systematyczna kontrola jakości. Z czasem rośnie zmęczenie, pojawiają się skróty myślowe, a interpretacje mogą się przesuwać. Jedną z prostszych metod kontroli są losowe audyty.

Polega to na tym, że co jakiś czas druga osoba (albo ten sam analityk po przerwie) losuje określoną liczbę odpowiedzi i sprawdza, czy zastosowane kody nadal pasują do przyjętych definicji. Szczególną uwagę warto zwrócić na tzw. przypadki brzegowe, czyli wypowiedzi trudne do jednoznacznego przypisania. Zamiast szybko je „wcisnąć” w dowolny kod, sensownie jest je chwilowo odłożyć do osobnej listy i omówić po zebraniu kilku podobnych.

Łączenie jakości z ilością: od kodów do liczb i z powrotem

Liczenie kodów: co mówi częstość, a czego nie mówi

Proste statystyki z kodów: jak nie przedobrzyć z precyzją

Najczęstszy krok po zakodowaniu wypowiedzi to policzenie, jak często pojawiają się poszczególne kody. Z punktu widzenia zarządu czy product ownera to kuszące: liczby wydają się „twardsze” niż cytaty. Problem w tym, że same częstotliwości kodów są liczbami o bardzo ograniczonym znaczeniu.

Kilka praktycznych zasad:

częstszy kod ≠ ważniejszy problem. To, że „proces zakupu – długość formularza” pojawia się rzadziej niż „cena”, nie dowodzi, że formularz nie wymaga poprawy. Część osób nie dotarła do tego etapu, część nie ma języka, by nazwać problem, a część się po prostu poddała;
ważne jest, ile osób, a nie ile kodów. Jeżeli ta sama osoba wspomina o cenie trzy razy w jednej odpowiedzi, nadal jest to jeden respondent z problemem cenowym, a nie „trzy wystąpienia”;
kody nie są niezależne. Wypowiedzi często łączą kilka wątków, więc sumy kodów z definicji nie będą się równały liczbie odpowiedzi czy osób.

Bezpiecznym minimum jest raportowanie odsetka respondentów, u których dany kod wystąpił przynajmniej raz. Informacja „kod ‘problemy z logowaniem’ pojawił się u co piątej osoby, która napisała komentarz” jest zwykle bardziej sensowna niż „kod wystąpił 73 razy”.

Grupowanie kodów w kategorie: praca na poziomie tematów

Sama lista kilkudziesięciu kodów to za mało, by mówić o wnioskach. Potrzebne jest przejście na poziom tematów lub kategorii, czyli „kody kodów”. Częściowo robi to już drzewiasta struktura (obsługa > infolinia > czas oczekiwania), ale w praktyce często trzeba zrobić dodatkowy krok.

Przykład: w badaniu doświadczenia klienta może istnieć kilkanaście kodów dotyczących aplikacji mobilnej (logowanie, powiadomienia, crashowanie, wolne działanie, problemy z płatnościami). Dopiero ich zebranie w kilka szerszych tematów typu „stabilność”, „użyteczność”, „integracja z płatnościami” pozwala sensownie odpowiedzieć na pytanie, gdzie skoncentrować rozwój produktu.

Przy grupowaniu kodów przydaje się prosty filtr: czy kategorie są wzajemnie rozłączne i wystarczająco różne znaczeniowo. Jeżeli między dwiema kategoriami analityk sam ma kłopot z jednoznacznym przypisaniem kodu, prawdopodobnie jedna z nich jest zbędna lub zbyt podobna do drugiej.

Łączenie wyników jakościowych z metrykami ankiet

Największa wartość pojawia się zwykle wtedy, gdy kody z pytań otwartych zostaną połączone z danymi ilościowymi z tej samej ankiety: ocenami, wskaźnikiem NPS, danymi demograficznymi, segmentacją klientów.

Typowe, sensowne przekroje to np.:

jakie kody dominują w grupie promotorów (wysoka ocena, wysoki NPS), a jakie w grupie krytyków;
czy pewne problemy pojawiają się częściej w określonych segmentach (np. nowi vs. długoletni klienci, małe vs. duże firmy);
jakie tematy różnią osoby, które zadeklarowały chęć odejścia, od tych, które planują zostać.

Takie przekroje często rozprawiają się z pozornymi „top problemami”. Bywa, że najczęściej wymieniany temat dotyczy grupy klientów o niskiej wartości, a krytyczne dla biznesu wątki są mniej liczne, lecz skoncentrowane w kluczowym segmencie.

Proste tablice krzyżowe: kiedy wystarczy arkusz kalkulacyjny

Do wielu analiz nie potrzeba specjalistycznego oprogramowania statystycznego. Jeżeli kody są policzone na poziomie respondenta (np. w formie kolumny z wartościami 0/1: ma/nie ma danego kodu), wystarczą proste tablice krzyżowe w arkuszu kalkulacyjnym.

Użyteczne przykłady:

kolumny – kody tematyczne, wiersze – poziomy NPS (krytycy, pasywni, promotorzy);
kolumny – kody, wiersze – segmenty klientów (np. kanał pozyskania, typ produktu);
kolumny – kody, wiersze – okresy czasu (np. kwartały przy badaniach cyklicznych).

Interpretując takie tablice, lepiej patrzeć na proporcje w ramach grupy (jaki odsetek krytyków wspomina o procesie reklamacji) niż na surowe liczby (bo grupy często różnią się liczebnością). Mała, ale spójna różnica między grupami potrafi być bardziej istotna niż duża liczba komentarzy „rozlanych” po wszystkich segmentach.

Analiza zmian w czasie: czy „gorące” tematy faktycznie maleją

Przy badaniach powtarzanych co jakiś czas często pojawia się oczekiwanie, że spadek liczby komentarzy na dany temat dowodzi poprawy. To jest domyślne założenie, ale obarczone kilkoma warunkami.

Aby sensownie porównywać częstotliwości kodów w czasie, potrzeba:

stałego schematu kodów (lub przynajmniej jasnego mapowania starych kodów na nowe);
podobnego sposobu zadawania pytania otwartego (inna treść pytania potrafi radykalnie zmienić typ i szczegółowość odpowiedzi);
porównywalnych prób (np. zbliżona struktura klientów, brak drastycznych zmian w kanale rekrutacji do badania).

Dopiero przy spełnieniu tych warunków można ostrożnie mówić o trendach: np. że „udział respondentów wspominających o czasie oczekiwania na infolinii zmniejszył się z 30% do 15%”. Nawet wtedy rozsądnie jest traktować to jako przesłankę, a nie dowód, i zestawiać z danymi operacyjnymi (choćby średnim czasem oczekiwania z systemu call center).

Wagi, istotność i inne pokusy nadmiernej statystyki

Przy wystarczająco dużych próbach pojawia się chęć, by traktować dane z pytań otwartych jak pełnoprawne dane ilościowe: liczyć testy istotności, wagi, przedziały ufności. Technicznie jest to możliwe, ale obarczone dodatkowymi założeniami.

Kluczowy problem: odpowiedź na pytanie otwarte nie jest losową obserwacją tego samego zjawiska, co odpowiedź na pytanie zamknięte. Część osób nie pisze nic, część pisze tylko w skrajnych emocjach, część ma większą łatwość formułowania uwag. W konsekwencji próba „osób komentujących dany temat” jest zwykle silnie stronnicza.

Jeżeli ktoś mimo to decyduje się na formalne testy, rozsądne minimum to:

traktować wyniki jako orientacyjne, a nie jako ostateczny rozstrzygacz „który temat jest ważniejszy”;
sprawdzać, czy różnice są także jakościowo sensowne (czy sposób mówienia o danym problemie różni się między grupami);
nie „odrzucać” tematów tylko dlatego, że nie wyszły jako istotne przy arbitralnym poziomie istotności.

Wykresy dla danych jakościowych: jak je budować, by nie kłamały

Końcowy odbiorca rzadko będzie czytał pełny opis analizy. Zobaczy 1–2 wykresy z częstotliwościami kodów i kilka cytatów. W takiej sytuacji sposób prezentacji ma duży wpływ na interpretację.

Kilka praktycznych wskazówek:

pokazuj odsetki, a nie tylko liczby bezwzględne, zwłaszcza przy porównaniu grup czy fal badania;
nie łącz na jednym wykresie kodów z zupełnie różnych poziomów ogólności (np. „aplikacja” obok „brak powiadomienia o zaksięgowaniu płatności kartą”);
podawaj, ilu osobom przypisano dany kod oraz jaka jest bazowa liczebność (ile osób w ogóle udzieliło odpowiedzi otwartej);
unikaj rankingów z drobnymi różnicami między słupkami, jeżeli są one w praktyce nieistotne (np. różnica 1–2 punktów procentowych przy małej próbie).

Przy porównywaniu grup (np. promotorzy vs. krytycy) prosty wykres słupkowy ze zestawieniem odsetków dla dwóch grup obok siebie zazwyczaj jest czytelniejszy niż rozbudowane wizualizacje. Nadmiernie efektowne wykresy 3D czy skomplikowane infografiki dobrze wyglądają w prezentacji, ale utrudniają krytyczne spojrzenie na dane.

Cytaty jako dowód: dobór, który nie zniekształca obrazu

Sama liczba kodów nie mówi nic o charakterze problemu. Dlatego do każdego ważniejszego wniosku zwykle dokłada się cytaty ilustrujące. W tym miejscu najłatwiej nieświadomie zmanipulować odbiorcę.

Dobór cytatów powinien być:

reprezentatywny – pokazujący typowy sposób mówienia o danym temacie, a nie najbardziej „soczystą” jednostkową wypowiedź;
zróżnicowany, jeśli w obrębie jednego tematu występują różne perspektywy (np. krytyka i pochwały tego samego procesu);
zwięzły – długie bloki tekstu zwykle bardziej zaciemniają niż wyjaśniają.

Użyteczna praktyka to zachowanie śladu łączącego cytat z kodami i metadanymi (np. segment klienta, NPS), najlepiej w formie odnośnika technicznego, którego nie ma w raporcie, ale jest w pliku roboczym. Pozwala to w razie wątpliwości wrócić do oryginalnego kontekstu, zamiast opierać się na pamięci.

Anonimizacja i etyka pracy z odpowiedziami otwartymi

W odpowiedziach otwartych często pojawiają się dane, które umożliwiają identyfikację osób lub firm – czasem wprost (imię, nazwisko, numer klienta), czasem pośrednio (szczegółowy opis sytuacji, unikalna kombinacja cech). Przy łączeniu danych jakościowych z metrykami łatwo przekroczyć granicę między analizą a profilowaniem pojedynczych osób.

Podstawowe zabezpieczenia to:

usuwanie lub maskowanie danych osobowych w cytatach (np. „pani Anna z oddziału w X” zamienić na „pracownik oddziału”);
ostrożność przy prezentowaniu niszowych segmentów (np. małej grupy dużych klientów, gdzie kombinacja branży i regionu może wskazać konkretną firmę);
jasne zasady dostępu do danych surowych – kto może zobaczyć pełne wypowiedzi wraz z metrykami, a kto tylko zagregowane wyniki.

Szczególnie problematyczne są sytuacje, gdy komentarze dotyczą konkretnych pracowników („pan Marek z działu sprzedaży”). Łączenie takich wypowiedzi z identyfikowalnymi danymi klienta i przekazywanie ich w dół organizacji może tworzyć napięcia, a czasem naruszać wewnętrzne regulacje. Lepiej zawczasu ustalić, jak tego typu informacje będą przetwarzane i w jakiej formie trafiają do menedżerów operacyjnych.

Granice automatyzacji: kiedy narzędzia NLP pomagają, a kiedy szkodzą

Popularność metod NLP i modeli językowych sprawia, że coraz częściej pojawia się oczekiwanie, iż „komputer sam zakoduje” odpowiedzi otwarte. Automatyzacja potrafi przyspieszyć część pracy, ale ma też ograniczenia, które widać dopiero po bliższym przyjrzeniu się wynikom.

Typowe obszary, w których narzędzia są rzeczywiście pomocne:

wstępne grupowanie bardzo podobnych wypowiedzi (np. automatyczne klastrowanie krótkich komentarzy);
wspomaganie detekcji języka, wulgaryzmów, skrajnych emocji (szybkie wyłapanie przypadków do ręcznego przejrzenia);
podpowiadanie kandydatów na kody na etapie wstępnego przeglądu materiału.

Znacznie bardziej ryzykowne jest bezrefleksyjne poleganie na automatycznym przypisywaniu tematów do wypowiedzi. Algorytmy radzą sobie przeciętnie z:

ironią i sarkazmem („świetnie, że wasz system pada zawsze w piątek po południu”);
złożonymi wypowiedziami mieszającymi kilka wątków w jednym zdaniu;
branżowym żargonem i skrótami, które nie występują w ogólnych korpusach językowych;
subtelnym rozróżnieniem intencji (konstruktywna sugestia vs. ostra krytyka).

Bezpieczeństwo rośnie, gdy automatyzacja jest używana jako pierwsze sito, a nie jako ostateczne źródło prawdy. Przykładowy, sensowny workflow to:

narzędzie automatycznie przypisuje wstępne etykiety tematyczne;
analityk przegląda losową próbkę zaklasyfikowanych wypowiedzi dla każdego tematu;

Zespół analizuje dane ankietowe przy biurku w nowoczesnym biurze — Źródło: Pexels | Autor: Mikael Blomkvist

Najważniejsze wnioski

Odpowiedzi otwarte uzupełniają dane liczbowe o „dlaczego” i „w jaki sposób” – bez tej warstwy łatwo o powierzchowne lub mylące interpretacje samych średnich i procentów.
Największą wartość dają tam, gdzie zjawisko jest złożone i trudno przewidzieć pełną listę odpowiedzi: przy identyfikacji motywacji, potrzeb, obaw oraz tematów, o których autor ankiety nawet nie pomyślał.
Pytania otwarte mają sens tylko wtedy, gdy z góry wiadomo, jak zostaną przeanalizowane; pole „uwagi na koniec” bez planu to produkowanie danych, których nikt realnie nie wykorzysta – także z etycznym kosztem po stronie respondentów.
Dane jakościowe mogą samodzielnie wspierać decyzje eksploracyjne (szukanie funkcjonalności, rozumienie mechanizmów zachowań, mapy podróży klienta), ale nie wystarczą, gdy trzeba oszacować skalę problemu czy uzasadnić dużą inwestycję.
Opieranie strategicznych decyzji wyłącznie na kilku efektownych cytatach z ankiety to klasyczny błąd konfirmacji – cytaty pomagają „poczuć” problem, lecz nie mówią, jak często występuje ani w jakich segmentach.
Połączenie warstwy liczbowej i opisowej odsłania konkretne punkty do działania: np. przy wysokiej ogólnej satysfakcji komentarze mogą ujawnić, że prawdziwym źródłem frustracji jest IVR, a nie praca konsultantów.
Nie wszystkie pytania otwarte są równe – w pełni otwarte, półotwarte i pola „inne, jakie?” generują różne typy danych, więc wymagają innych metod analizy i innego nakładu pracy, co trzeba uwzględnić już na etapie projektowania badania.

Źródła informacji

Qualitative Data Analysis: A Methods Sourcebook. SAGE Publications (2014) – Klasyczne omówienie kodowania, kategoryzacji i analizy danych jakościowych.
Doing Qualitative Research Online. SAGE Publications (2016) – Analiza jakościowa danych tekstowych z badań online, w tym ankiet.
Qualitative Research Methods for the Social Sciences. Pearson (2016) – Podstawy metod jakościowych, w tym analiza wywiadów i odpowiedzi otwartych.
Badania marketingowe. Metody, techniki i obszary zastosowań. Polskie Wydawnictwo Ekonomiczne (2012) – Zastosowanie pytań otwartych w badaniach marketingowych i ich analiza.
Metody badań jakościowych. Wydawnictwo Naukowe PWN (2012) – Polskojęzyczne omówienie metod analizy danych jakościowych z różnych źródeł.