TF.IDF (term frequency – inverse document frequency) to statystyka liczbowa, która wskazuje jak ważne jest słowo lub fraza dla dokumentu w ramach zbioru dokumentów.
Jest to wynik, który jest proporcjonalny do liczby razy, kiedy słowo pojawia się w dokumencie, zrównoważony przez częstotliwość słowa w zbiorze dokumentów.
Jest obliczany przez pomnożenie “częstotliwości terminu” słowa pojawiającego się w dokumencie i “odwrotnej częstotliwości dokumentu” słowa we wszystkich dokumentach.
Jest on przeznaczony do pomiaru, jak istotne pojęcie jest do konkretnego dokumentu w porównaniu do innych dokumentów w zestawie.
W wyszukiwaniach zorientowanych na ludzi, takich jak oferty pracy, TF.IDF może pomóc w identyfikacji słów związanych z określonymi stanowiskami lub rolami, dzięki czemu pracodawcy mogą dokładnie porównać CV z kwalifikacjami do pracy.
(Zobacz również BM25)