A1 Alkuperäisartikkeli tieteellisessä aikakauslehdessä
Toolbox for Distance Estimation and Cluster Validation on Data With Missing Values (2022)
Niemelä, M., Äyrämö, S., & Kärkkäinen, T. (2022). Toolbox for Distance Estimation and Cluster Validation on Data With Missing Values. IEEE Access, 10, 352-367. https://doi.org/10.1109/ACCESS.2021.3136435
JYU-tekijät tai -toimittajat
Julkaisun tiedot
Julkaisun kaikki tekijät tai toimittajat: Niemelä, Marko; Äyrämö, Sami; Kärkkäinen, Tommi
Lehti tai sarja: IEEE Access
eISSN: 2169-3536
Julkaisuvuosi: 2022
Volyymi: 10
Artikkelin sivunumerot: 352-367
Kustantaja: Institute of Electrical and Electronics Engineers (IEEE)
Julkaisumaa: Yhdysvallat (USA)
Julkaisun kieli: englanti
DOI: https://doi.org/10.1109/ACCESS.2021.3136435
Linkki tutkimusaineistoon: https://github.com/markoniem/nanclustering_toolbox
Julkaisun avoin saatavuus: Avoimesti saatavilla
Julkaisukanavan avoin saatavuus: Kokonaan avoin julkaisukanava
Julkaisu on rinnakkaistallennettu (JYX): https://jyx.jyu.fi/handle/123456789/79601
Tiivistelmä
Missing data are unavoidable in the real-world application of unsupervised machine learning, and their nonoptimal processing may decrease the quality of data-driven models. Imputation is a common remedy for missing values, but directly estimating expected distances have also emerged. Because treatment of missing values is rarely considered in clustering related tasks and distance metrics have a central role both in clustering and cluster validation, we developed a new toolbox that provides a wide range of algorithms for data preprocessing, distance estimation, clustering, and cluster validation in the presence of missing values. All these are core elements in any comprehensive cluster analysis methodology. We describe the methodological background of the implemented algorithms and present multiple illustrations of their use. The experiments include validating distance estimation methods against selected reference methods and demonstrating the performance of internal cluster validation indices. The experimental results demonstrate the general usability of the toolbox for the straightforward realization of alternate data processing pipelines. Source code, data sets, results, and example macros are available on GitHub. https://github.com/markoniem/nanclustering_toolbox
YSO-asiasanat: koneoppiminen; algoritmit; data; laatu; validointi; klusterit; tietojenkäsittely; mallintaminen
Vapaat asiasanat: missing values; distance estimation; clustering; cluster validation
Liittyvät organisaatiot
Hankkeet, joissa julkaisu on tehty
- Yliopistojen profiloitumisen vahvistaminen kilpaillulla rahoituksella. Profilointitoimet JYU:ssä, 3. kierros
- Hämäläinen, Keijo
- Suomen Akatemia
- Hybridinanopartikkelien rakenteiden ennustaminen tekoälyä hyväksi käyttäen
- Kärkkäinen, Tommi
- Suomen Akatemia
OKM-raportointi: Kyllä
Raportointivuosi: 2022
JUFO-taso: 2
- Koulutusteknologia ja kognitiotiede (Informaatioteknologian tiedekunta IT) LEACS
- Human and Machine based Intelligence in Learning (Informaatioteknologian tiedekunta IT) HUMBLE
- Computing, Information Technology and Mathematics (Informaatioteknologian tiedekunta IT) CITM
- Laskennallinen tiede (Informaatioteknologian tiedekunta IT) LASK
- Tekniikka (Informaatioteknologian tiedekunta IT) OHTE; Aiemmin Ohjelmisto- ja tietoliikennetekniikka