ISBN online: 978-80-244-6086-4 | DOI: 10.5507/prf.22.24460864

ORANGE: Praktický návod do cvičení předmětu Data mining

Zdena Dobešová

Předkládaná učebnice představuje software Orange a jeho použití při řešení praktických příkladů. Text je určen zejména studentům předmětu Data Mining v magisterského programu Geoinformatika a kartografie. Text můžou použít i uživatelé z geovědní praxe, kteří chtějí získat základní praktické dovednosti v oblasti Data Mining a softwaru Orange. Text je doplňkem teoretických přednášek předmětu a je směřován jako praktický návod do cvičení, který má na příkladech ozřejmit teorii. Jen v úvodu některých kapitol je uveden stručný teoretický úvod a odkazy na literaturu, která lze použít jako východisko pro další studium. Text učebnice je využitelný i pro samostudium.

1. vydání, online: 2022, vydavatel: Univerzita Palackého v Olomouci, Křížkovského 8, 771 47 Olomouc



Reference

  1. AGARWAL, C R, Ch. C AGGARWAL a V V V PRASAD, [b.r.]. Depth First Generation of Long Patterns [online]. Dostupné z: http://www.cs.tau.ac.il/~fiat/dmsem03/Depth First Generation of Long Patterns - 2000.pdf Přejít k původnímu zdroji...
  2. AGRAWAL, Rakesh a Ramakrishnan SRIKANT, 1994. Fast Algorithms for Mining Association Rules in Large Databases. In: VLDB conference [online]. Dostupné z: http://www.vldb.org/conf/1994/P487.PDF
  3. ARLT, Josef, Martina ARLTOVÁ a Eva RUBLÍKOVÁ, 2002. Analýza ekonomických časových řad s příklady [online]. Praha: Vysoká škole ekonomická, Fakulta informatiky a statistiky. Dostupné z: https://nb.vse.cz/~arltova/vyuka/crsbir02.pdf
  4. ARLTOVÁ, Martina a Josef ARLT, 1995. Grafické metody analýzy ekonomických časových řad. Statistika [online]. 32(11), 483-493 [vid. 2021-12-15]. ISSN 0322-788x. Dostupné z: Grafické metody analýzy ekonomických časových řad
  5. BERKA, Petr, 2005. Dobývání znalostí z databází. Praha: Academia. ISBN 80-200-1062-9.
  6. BIOLAB, 2016. Association Rules [online] [vid. 2021-07-09]. Dostupné z: https://orange3-associate.readthedocs.io/en/latest/widgets/associationrules.html
  7. BREIMAN, Leo, 2001. Random Forests. Machine Learning [online]. 45(1), 5-32. ISSN 1573-0565. Dostupné z: doi:10.1023/A:1010933404324 Přejít k původnímu zdroji...
  8. BROWNLEE, J, 2018. How to Check if Time Series Data is Stationary with Python [online]. Dostupné z: https://machinelearningmastery.com/time-series-data-stationary-python/
  9. ČERVOVÁ, Lubomíra, 2020. Bootstrapping aneb jak souvisí statistika s řemínky na botách [online] [vid. 2021-09-03]. Dostupné z: https://acrea.cz/bootstrapping-aneb-jak-souvisi-statistika-s-reminky-na-botach/
  10. CHANG, Chih-Chung a Chih-Jen LIN, 2011. LIBSVM: A Library for Support Vector Machines. ACM Trans. Intell. Syst. Technol. [online]. 2(3). ISSN 2157-6904. Dostupné z: doi:10.1145/1961189.1961199 Přejít k původnímu zdroji...
  11. CHATTAMVELLI, Rajan, 2011. Data mining algorithms. Oxford: Alpha Science International. ISBN 978-1-84265-684-6.
  12. COPERNICUS PROGRAMME, 2020. Urban Atlas [online]. Dostupné z: https://land.copernicus.eu/local/urban-atlas
  13. CORTES, Corinna a Vladimir VAPNIK, 1995. Support-Vector Networks. Machine Learning [online]. 20(3), 273-297. ISSN 1573-0565. Dostupné z: doi:10.1023/A:1022627411411 Přejít k původnímu zdroji...
  14. DAWSON, Robert J. MacG, 1995. The "Unusual Episode" Data Revisited. Journal of Statistics Education [online]. 3(3) [vid. 2021-07-22]. Dostupné z: http://jse.amstat.org/v3n3/datasets.dawson.html Přejít k původnímu zdroji...
  15. DEMŠAR, Janez, Tomaž CURK, Aleš ERJAVEC, Črt GORUP, Tomaž HOČEVAR, Mitar MILUTINOVIČ, Martin MOŽINA, Matija POLAJNAR, Marko TOPLAK, Anže STARIČ, Miha ŠTAJDOHAR, Lan UMEK, Lan ŽAGAR, Jure ŽBONTAR, Marinka ŽITNIK a Blaž ZUPAN, 2013. Orange: Data Mining Toolbox in Python. Journal of Machine Learning Research [online]. 14(35), 2349-2353. Dostupné z: http://jmlr.org/papers/v14/demsar13a.html
  16. DOBESOVA, Zdena, 2019a. Discovering association rules of information dissemination about geoinformatics university study [online]. ISBN 9783319911885. Dostupné z: doi:10.1007/978-3-319-91189-2_32 Přejít k původnímu zdroji...
  17. DOBESOVA, Zdena, 2019b. The Similarity of European Cities Based on Image Analysis. In: Prokopova Z. SILHAVY R., SILHAVY P., ed. Advances in Intelligent Systems and Computing [online]. Cham: Springer, s. 341-348. ISBN 9783030303280. Dostupné z: doi:10.1007/978-3-030-30329-7_31 Přejít k původnímu zdroji...
  18. DOBESOVA, Zdena, 2020a. Experiment in Finding Look-Alike European Cities Using Urban Atlas Data. ISPRS International Journal of Geo-Information [online]. 9(6), 20. ISSN 22209964. Dostupné z: doi:10.3390/ijgi9060406 Přejít k původnímu zdroji...
  19. DOBESOVA, Zdena, 2020b. Teaching decision tree using a practical example. In: R SILHAVY, ed. Advances in Intelligent Systems and Computing [online]. Cham: Springer, s. 247-256. ISBN 9783030519735. Dostupné z: doi:10.1007/978-3-030-51974-2_23 Přejít k původnímu zdroji...
  20. DOBESOVA, Zdena a Jan PINOS, 2019. Using decision trees to predict the likelihood of high school students enrolling for university studies [online]. 2019. Dostupné z: doi:10.1007/978-3-030-00211-4_12 Přejít k původnímu zdroji...
  21. DVOŘÁKOVÁ, Stanislava, 2015. Statistická analýza a časové řady v příkladech. Jihlava: Vysoká škola polytechnická Jihlava. ISBN 978-80-88064-18-3.
  22. EUROSTAT, 2020. Statistics explained, Glossary: Functional urban area [online]. B.m.: Eurostat [vid. 2020-11-15]. Dostupné z: https://ec.europa.eu/eurostat/statistics-explained/index.php/Glossary:Functional_urban_area
  23. EUROSTAT, 2021. Eurostat database [online]. Dostupné z: https://ec.europa.eu/eurostat/data/database
  24. EUROSTAT, 2022. Passengers transported (detailed reporting only) - (quarterly data) [online] [vid. 2021-12-10]. Dostupné z: https://ec.europa.eu/eurostat/databrowser/product/page/RAIL_PA_QUARTAL
  25. FOONG, Ng Wai, 2019. Data Science Made Easy: Test and Evaluation using Orange [online] [vid. 2020-10-10]. Dostupné z: https://towardsdatascience.com/data-science-made-easy-test-and-evaluation-using-orange-d74e554d9021
  26. GODEC, Primož, Matjaž PANČUR, Nejc ILENIČ, Andrej ČOPAR, Martin STRAŽAR, Aleš ERJAVEC, Ajda PRETNAR, Janez DEMŠAR, Anže STARIČ, Marko TOPLAK, Lan ŽAGAR, Jan HARTMAN, Hamilton WANG, Riccardo BELLAZZI, Uroš PETROVIČ, Silvia GARAGNA, Maurizio ZUCCOTTI, Dongsu PARK, Gad SHAULSKY a Blaž ZUPAN, 2019. Democratized image analytics by visual programming through integration of deep models and small-scale machine learning. Nature Communications [online]. 10(1), 4551. ISSN 2041-1723. Dostupné z: doi:10.1038/s41467-019-12397-x Přejít k původnímu zdroji...
  27. HAN, Jiawei, Jian PEI, Yiwen YIN a Runying MAO, 2004. Mining Frequent Patterns without Candidate Generation: A Frequent-Pattern Tree Approach. Data Mining and Knowledge Discovery [online]. 8(1), 53-87. ISSN 1573-756X. Dostupné z: doi:10.1023/B:DAMI.0000005258.31418.83 Přejít k původnímu zdroji...
  28. HANČLOVÁ, Jana a Lubor TVRDÝ, 2003. Úvod do analýzy časových řad. Ostrava: Ekonomická fakulta, VŠB-TU.
  29. HENDL, Jan, 2012. Přehled statistických metod : analýza a metaanalýza dat. 4., rozš. Praha: Portál. ISBN 978-80-262-0200-4.
  30. JANOUŠEK, Matěj, 2019. Porovnání urbánního prostoru pomocí kruhových výsečí. magisterská práce, Olomouc, Česká republika. Univerzita Palackého.
  31. JANOUŠOVÁ, E., J. HOLČÍK, D. HARUŠTIAKOVÁ, S. LITTNEROVÁ a J. JARKOVSKÝ, 2020a. Korespondenční analýza. Analýza a hodnocení biologických dat, Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity [online] [vid. 2021-06-07]. Dostupné z: https://portal.matematickabiologie.cz/index.php?pg=analyza-a-hodnoceni-biologickych-dat-vicerozmerne-metody-pro-analyzu-dat-ordinacni-analyzy-korespondencni-analyza
  32. JANOUŠOVÁ, E., J. HOLČÍK, D. HARUŠTIAKOVÁ, S. LITTNEROVÁ a J. JARKOVSKÝ, 2020b. Požadavky na data a omezení korespondenční analýzy. Analýza a hodnocení biologických dat, Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity [online] [vid. 2021-06-07]. Dostupné z: https://portal.matematickabiologie.cz/index.php?pg=analyza-a-hodnoceni-biologickych-dat-vicerozmerne-metody-pro-analyzu-dat-ordinacni-analyzy-korespondencni-analyza-pozadavky-na-data-a-omezeni-korespondencni-analyzy
  33. JOENSSEN, Dieter William a Udo BANKHOFER, 2012. Hot Deck Methods for Imputing Missing Data. In: Petra PERNER, ed. Machine Learning and Data Mining in Pattern Recognition. Berlin, Heidelberg: Springer Berlin Heidelberg, s. 63-75. ISBN 978-3-642-31537-4. Přejít k původnímu zdroji...
  34. KAGGLE, 2016. Painter by Numbers Competition, 1st Place Winner's Interview: Nejc Ilenič [online]. Dostupné z: http://blog.kaggle.com/2016/11/17/painter-by-numbers-competition-1st-place-winners-interview-nejc-ilenic/
  35. KEDRO, 2020. Iris dataset example project [online]. B.m.: QuantumBlack Visual Analytics Limited Revision. Dostupné z: https://kedro.readthedocs.io/en/stable/02_get_started/05_example_project.html#iris-dataset-example-project
  36. KŘIVÝ, Ivan, 2012. Analýza časových řad. Ostrava: Univerzita Ostrava.
  37. LITSCHMANNOVÁ, Martina, 2010. Úvod do analýzy časových řad. Ostrava: VŠB-TU, Fakulta elektrotechniky, Katedra aplikované matematiky.
  38. LUKASOVÁ, Alena a Jana ŠARMANOVÁ, 1985. Metody shlukové analýzy. Praha: SNTL.
  39. MBAABU, Onesmus, 2020. Introduction to Random Forest in Machine Learning [online] [vid. 2021-09-03]. Dostupné z: https://www.section.io/engineering-education/introduction-to-random-forest-in-machine-learning/
  40. MELOUN, Milan, Jiří MILITKÝ a Martin HILL, 2012. Statistická analýza vícerozměrných dat v příkladech. Gerstner. Praha: Academia. ISBN 978-80-200-2071-0.
  41. ORANGE DATA MINING, 2015. Geo Map [online] [vid. 2021-07-09]. Dostupné z: https://orange3.readthedocs.io/en/3.5.0/widgets/visualize/geomap.html
  42. ORANGE DATA MINING, 2019a. Image Analytics: Clustering of Monet and Manet [online]. Dostupné z: https://www.youtube.com/watch?v=R5uchDa_ba4
  43. ORANGE DATA MINING, 2019b. Image Analytics: Finding the Lost Monet [online]. Dostupné z: https://www.youtube.com/watch?v=6srGs5w9x8w
  44. ORANGE DATA MINING, 2021a. Orange. Orange, Data Mining Fruitful and Fun [online]. B.m.: University of Ljubljana. Dostupné z: https://orangedatamining.com
  45. ORANGE DATA MINING, 2021b. Orange Visual Programming [online]. Dostupné z: https://orange3.readthedocs.io/projects/orange-visual-programming/en/master/
  46. ORANGE DATA MINING, 2021c. Orange Visual Programming Documentation [online] [vid. 2021-07-09]. Dostupné z: https://buildmedia.readthedocs.org/media/pdf/orange-visual-programming/latest/orange-visual-programming.pdf
  47. PETR, Pavel, 2014a. Metody Data Miningu, část 1. Pardubice: Univerzita Pardubice, Fakulta ekonomicko-správní. ISBN 978-80-7395-872-5.
  48. PETR, Pavel, 2014b. Metody Data Miningu, část 2. Pardubice: Univerzita Pardubice, Fakulta ekonomicko-správní. ISBN 978-80-7395-873-2.
  49. POLICIE ČR, 2020. Majetkové trestné činy [online]. Dostupné z: https://www.policie.cz/clanek/pomoc-obetem-tc-majetkove-trestne-ciny.aspx
  50. PRETNAR, Ajda, 2016a. All I See is Silhouette [online] [vid. 2021-07-09]. Dostupné z: https://orangedatamining.com/blog/2016/03/23/all-i-see-is-silhouette/
  51. PRETNAR, Ajda, 2016b. Tips and Tricks for Data Preparation [online] [vid. 2021-07-09]. Dostupné z: https://orangedatamining.com/blog/2016/01/29/tips-and-tricks-for-data-preparation/
  52. PRETNAR, Ajda, 2019. Explaining Models: Workshop in Belgrade [online]. 2019. [vid. 2021-09-15]. Dostupné z: https://orangedatamining.com/blog/2019/2019-11-20-belgrade-workshop/
  53. QUINLAN, J R, 1986. Induction of decision trees. Machine Learning [online]. 1(1), 81-106. ISSN 1573-0565. Dostupné z: doi:10.1007/BF00116251 Přejít k původnímu zdroji...
  54. QUINLAN, J R, 1993. C4.5: programs for machine learning. B.m.: Morgan Kaufmann Publishers Inc. ISBN 1558602380.
  55. RUSSAKOVSKY, Olga, Jia DENG, Hao SU, Jonathan KRAUSE, Sanjeev SATHEESH, Sean MA, Zhiheng HUANG, Andrej KARPATHY, Aditya KHOSLA, Michael BERNSTEIN, Alexander C BERG a Li FEI-FEI, 2015. ImageNet Large Scale Visual Recognition Challenge. International Journal of Computer Vision (IJCV) [online]. 115(3), 211-252. Dostupné z: doi:10.1007/s11263-015-0816-y Přejít k původnímu zdroji...
  56. ŠARMANOVÁ, Jana, 2012. Metody analýzy dat [online]. Ostrava: Vysoká škola báňská Technická univerzita Ostrava. Dostupné z: http://www.person.vsb.cz/archivcd/FEI/MAD/MAD.pdf
  57. SAYAD, Saed, 2020a. An Introduction to Data Science [online]. Dostupné z: http://www.saedsayad.com/data_mining_map.htm
  58. SAYAD, Saed, 2020b. Support Vector Machine - Regression (SVR) [online]. 2020. Dostupné z: http://www.saedsayad.com/support_vector_machine_reg.htm
  59. STANFORD VISION LAB, 2020. Imagenet: Large Scale Visual Recognition Challenge [online] [vid. 2021-11-24]. Dostupné z: https://image-net.org/challenges/LSVRC/2014/browse-synsets
  60. SUNAYSAWANT, 2021. Air Passengers - Time Series - ARIMA [online]. Dostupné z: https://www.kaggle.com/sunaysawant/air-passengers-time-series-arima
  61. TAN, Edwin, 2021. Unsupervised Anomaly Detection in Python. Towards Data Science [online] [vid. 2021-12-14]. Dostupné z: https://towardsdatascience.com/unsupervised-anomaly-detection-in-python-f2e61be17c2b
  62. WARD, Joe H, 1963. Hierarchical Grouping to Optimize an Objective Function. Journal of the American Statistical Association [online]. 58(301), 236-244. ISSN 0162-1459. Dostupné z: doi:10.1080/01621459.1963.10500845 Přejít k původnímu zdroji...
  63. WIKIPEDIA, 2020a. Cosine similarity [online]. Dostupné z: https://en.wikipedia.org/wiki/Cosine_similarity
  64. WIKIPEDIA, 2020b. DBSCAN [online]. Dostupné z: https://en.wikipedia.org/wiki/DBSCAN
  65. WIKIPEDIA, 2020c. Lift (data mining) [online]. Dostupné z: https://en.wikipedia.org/wiki/Lift_(data_mining)
  66. ZUPAN, Blaž, 2020. Look-alike Images [online] [vid. 2021-05-15]. Dostupné z: https://orangedatamining.com/blog/2020/2020-01-08-neighbors-images/