ಈ ಘಟಕವು ಡೇಟಾಸೆಟ್ಗಳನ್ನು ಪ್ರಕ್ರಿಯೆಗೊಳಿಸಲು ಮತ್ತು ಡೇಟಾ ಕ್ಲೀನಿಂಗ್, ಸೆಮ್ಯಾಂಟಿಕ್ ರೆಸಲ್ಯೂಶನ್, ಕ್ಯಾನೊನಿಕಲೈಸೇಶನ್ ಮುಂತಾದ ಕಾರ್ಯಾಚರಣೆಗಳನ್ನು ನಿರ್ವಹಿಸಲು ಉದ್ದೇಶಿಸಲಾಗಿದೆ. ಸ್ಕ್ರಿಪ್ಟ್ಗಳ ಒಂದು ಸೆಟ್ ವಿಭಿನ್ನವಾದ ತೆರೆದ ಡೇಟಾ ಮೂಲಗಳಿಂದ ಡೇಟಾ ಲೇಕ್ಗೆ ರಚನಾತ್ಮಕ, ಅರೆ-ರಚನೆ, ರಚನೆಯಿಲ್ಲದ ಅಥವಾ ಬೈನರಿ ಡೇಟಾದಂತಹ ವೈವಿಧ್ಯಮಯ ಡೇಟಾವನ್ನು ಒಳಗೊಳ್ಳುತ್ತದೆ. ಇದು ಫ್ಲಾಟ್ ಆರ್ಕಿಟೆಕ್ಚರ್ನೊಂದಿಗೆ ಸಜ್ಜುಗೊಂಡಿದೆ, ಅಲ್ಲಿ ಸರೋವರದಲ್ಲಿನ ಪ್ರತಿಯೊಂದು ಡೇಟಾ ಅಂಶಕ್ಕೂ ವಿಶಿಷ್ಟವಾದ ಗುರುತಿಸುವಿಕೆಯನ್ನು ನೀಡಲಾಗುತ್ತದೆ ಮತ್ತು ಮೆಟಾಡೇಟಾ ಮಾಹಿತಿಯ ಗುಂಪಿನೊಂದಿಗೆ ಟ್ಯಾಗ್ ಮಾಡಲಾಗುತ್ತದೆ.
DAS ಮೂರು ಕಾರ್ಯಾಚರಣಾ ಪದರಗಳನ್ನು ಒಳಗೊಂಡಿದೆ, ಇವುಗಳನ್ನು ಈ ಕೆಳಗಿನಂತೆ ವಿವರಿಸಲಾಗಿದೆ.
ಇಂಜೆಶನ್ ಲೇಯರ್ ಸಿಸ್ಟಮ್ಗೆ ಒಳಬರುವ ಕಚ್ಚಾ ಡೇಟಾಕ್ಕಾಗಿ ಶೇಖರಣಾ ಪದರವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ. ಕೆಳಗಿನವುಗಳಂತಹ ವಿವಿಧ ತೆರೆದ ಡೇಟಾ ಮೂಲಗಳಿಂದ ಕನೆಕ್ಟರ್ಗಳ ಮೂಲಕ ಡೇಟಾವನ್ನು ಸೇವಿಸಲಾಗುತ್ತದೆ: ಓಪನ್ ಗವರ್ನಮೆಂಟ್ ಡೇಟಾ (OGD) ಪ್ಲಾಟ್ಫಾರ್ಮ್ ಇಂಡಿಯಾ (OGD: https://data.gov.in), ಇ-ನ್ಯಾಷನಲ್ ಅಗ್ರಿಕಲ್ಚರ್ ಮಾರ್ಕೆಟ್ (ENAM: https://enam.gov.in/), ಸೆಂಟ್ರಲ್ ಕಂಟ್ರೋಲ್ ರೂಮ್ ಫಾರ್ ಏರ್ ಕ್ವಾಲಿಟಿ ಮ್ಯಾನೇಜ್ಮೆಂಟ್ (NAQI: https://app.cpcpcbcr_InStatistics United), ಅಂಕಿಅಂಶಗಳ ಪೋರ್ಟಲ್: http://data.un.org/)
. ಬ್ಯಾಚ್ ಅಪ್ಲೋಡ್ಗಳು, ನೈಜ-ಸಮಯದ ಚಂದಾದಾರಿಕೆಗಳು ಮತ್ತು ಡೇಟಾಸೆಟ್ಗಳ ಒಂದು-ಬಾರಿ ಲೋಡ್ ಸೇರಿದಂತೆ ಸೇವನೆಯ ಬಹು ವಿಧಾನಗಳನ್ನು ಬೆಂಬಲಿಸಲಾಗುತ್ತದೆ. ಲೇಯರ್ ಒಳಬರುವ ಡೇಟಾಗೆ ಸ್ಕೀಮಾ ಅಥವಾ ಮೆಟಾ-ಡೇಟಾ ಮಾಹಿತಿಯನ್ನು ಅನ್ವಯಿಸುವ ಆಯ್ಕೆಯನ್ನು ಸಹ ನೀಡುತ್ತದೆ.
ಹಿಡಿದಿಟ್ಟುಕೊಳ್ಳುವ ಪದರವು ತಾತ್ಕಾಲಿಕವಾಗಿ ಅಥವಾ ಶಾಶ್ವತವಾಗಿ ಸಂಸ್ಕರಿಸಿದ ಅಥವಾ ಪೂರ್ವ-ಸಂಸ್ಕರಿಸಿದ ಡೇಟಾ ಮತ್ತು ಭೌತಿಕ ವೀಕ್ಷಣೆಗಳನ್ನು ಸಂಗ್ರಹಿಸುತ್ತದೆ. ಈ ಪದರದಲ್ಲಿನ ಡೇಟಾವು ಬಾಹ್ಯ ವ್ಯವಸ್ಥೆಗಳಿಂದ ದೃಶ್ಯೀಕರಣ ಮತ್ತು ಬಳಕೆಗೆ ಸಿದ್ಧವಾಗಿದೆ ಅಥವಾ ಹೆಚ್ಚಿನ ಪ್ರಕ್ರಿಯೆಗೆ ಸಿದ್ಧವಾಗಿದೆ. ಪ್ರೊಸೆಸಿಂಗ್ ಲೇಯರ್ನಲ್ಲಿ ವಾಸಿಸುವ ಅಪ್ಲಿಕೇಶನ್ಗಳು ಇಂಜೆಶನ್ ಲೇಯರ್ನಿಂದ ಡೇಟಾವನ್ನು ತೆಗೆದುಕೊಳ್ಳುತ್ತದೆ, ಅದನ್ನು ಪ್ರಕ್ರಿಯೆಗೊಳಿಸುತ್ತದೆ, ರಚನೆ ಮಾಡುತ್ತದೆ ಮತ್ತು ಅವುಗಳನ್ನು ಡೇಟಾ ಲೇಕ್ನಲ್ಲಿ ಮತ್ತೆ ಸಂಗ್ರಹಿಸುತ್ತದೆ.
ಸಂಸ್ಕರಣೆಯ ಲೇಯರ್ ಅಥವಾ ಬಳಕೆಯ ಪದರವು ವಿತರಿಸಿದ ಸಂಸ್ಕರಣೆ ಮತ್ತು ದೊಡ್ಡ ಡೇಟಾ ಸೆಟ್ಗಳ ವಿಶ್ಲೇಷಣೆಗಾಗಿ ಒಂದು ಅಥವಾ ಹೆಚ್ಚಿನ ಪ್ಲಾಟ್ಫಾರ್ಮ್ಗಳನ್ನು ಒದಗಿಸುವುದು. ಇದು ಇಂಜೆಶನ್ ಮತ್ತು ಕ್ಯಾಶಿಂಗ್ ಲೇಯರ್ಗಳಲ್ಲಿ ಸಂಗ್ರಹವಾಗಿರುವ ಡೇಟಾವನ್ನು ಪ್ರವೇಶಿಸಬಹುದು. ಡೇಟಾ-ಚಾಲಿತ, ಮಾದರಿ-ಚಾಲಿತ ಮತ್ತು ಜ್ಞಾನ-ಚಾಲಿತ ವಿಶ್ಲೇಷಣೆಯನ್ನು ನಿರ್ವಹಿಸಲು ಈ ಪೂರ್ವ-ಸಂಸ್ಕರಿಸಿದ ಡೇಟಾವನ್ನು ನಂತರದ ಹಂತಗಳಿಗೆ ತಳ್ಳಲಾಗುತ್ತದೆ.
DAS ನ ಪ್ರಮುಖ ಕಾರ್ಯಚಟುವಟಿಕೆಗಳಲ್ಲಿ ಒಂದಾದ ಡೇಟಾವನ್ನು ಮತ್ತಷ್ಟು ಡೌನ್ಸ್ಟ್ರೀಮ್ ಕಾರ್ಯಾಚರಣೆಗಳಿಗೆ ಪ್ರವೇಶಿಸಬಹುದಾದ ರೀತಿಯಲ್ಲಿ ಕ್ಯೂರೇಟ್ ಮಾಡುವುದು. ಒಳಬರುವ ಡೇಟಾವು ಕೋಷ್ಟಕ ಡೇಟಾ, ನೈಸರ್ಗಿಕ ಭಾಷೆಯ ಪಠ್ಯ, ಸಾಮಾಜಿಕ ಮಾಧ್ಯಮ ಪೋಸ್ಟ್ಗಳು, ಟ್ವೀಟ್ಗಳು, ಆಡಿಯೊ ರೆಕಾರ್ಡಿಂಗ್ಗಳು, ವೀಡಿಯೊಗಳು, ಇತ್ಯಾದಿಗಳನ್ನು ಒಳಗೊಂಡಂತೆ ವಿವಿಧ ಪ್ರಕಾರಗಳಾಗಿವೆ. ಮೊದಲನೆಯದಾಗಿ, ಲಭ್ಯವಿರುವ ಸಾಧನಗಳನ್ನು ಬಳಸಿಕೊಂಡು ಅರೆ-ಸ್ವಯಂಚಾಲಿತ ಪ್ರತಿಲೇಖನದೊಂದಿಗೆ ಎಲ್ಲಾ ಬಹು-ಮಾಧ್ಯಮ ಡೇಟಾಸೆಟ್ಗಳನ್ನು ಪಠ್ಯಕ್ಕೆ ಪರಿವರ್ತಿಸಲಾಗುತ್ತದೆ. ಎಲ್ಲಾ ರೀತಿಯ ಡೇಟಾವನ್ನು ಪಠ್ಯಗಳಾಗಿ ಪರಿವರ್ತಿಸಿದ ನಂತರ, ಅವುಗಳನ್ನು ಮತ್ತಷ್ಟು ಸ್ವಚ್ಛಗೊಳಿಸಲಾಗುತ್ತದೆ ಮತ್ತು ಎರಡು ವಿಭಿನ್ನ ರೂಪಗಳಲ್ಲಿ ಒಂದನ್ನು ಪ್ರತಿನಿಧಿಸಲಾಗುತ್ತದೆ: ಕೋಷ್ಟಕಗಳ ಸಂಗ್ರಹ ಮತ್ತು ಜ್ಞಾನದ ಗ್ರಾಫ್.
ಸೆಮ್ಯಾಂಟಿಕ್ ರೆಸಲ್ಯೂಶನ್ಗಾಗಿ ಸ್ಕ್ರಿಪ್ಟ್ಗಳ ಸೆಟ್ ಅನ್ನು ಲಿಂಕ್ಡ್ ಓಪನ್ ಡೇಟಾ (LOD) ಕ್ಲೌಡ್ನಿಂದ (https://lod-cloud.net/) ಮೂಲಕ ಪರಿಹರಿಸುವ ಮೂಲಕ ಡೇಟಾದಿಂದ ಶಬ್ದಾರ್ಥದ ಅರ್ಥಪೂರ್ಣ ಘಟಕಗಳನ್ನು ಗುರುತಿಸಲು ಬಳಸಲಾಗುತ್ತದೆ.
ಲೇಬಲ್ ಮಾಡಿದ, ನಿರ್ದೇಶಿಸಿದ ಅಂಚುಗಳ ಮೂಲಕ ಇತರ ಘಟಕಗಳೊಂದಿಗೆ ಘಟಕಗಳನ್ನು ಸಂಪರ್ಕಿಸುವ ಮೂಲಕ ಮತ್ತು ಪ್ರತಿ ಘಟಕವನ್ನು ಅದರ ಗುಣಲಕ್ಷಣಗಳೊಂದಿಗೆ ನಿರೂಪಿಸುವ ಮೂಲಕ ಅಪ್ಲಿಕೇಶನ್-ವ್ಯಾಪಕ ಜ್ಞಾನದ ಗ್ರಾಫ್ ಅನ್ನು ನಿರ್ಮಿಸಲಾಗಿದೆ. ಈ ಪ್ರಕ್ರಿಯೆಯನ್ನು \textit{entity twinning} ಎಂದು ಕರೆಯಲಾಗುತ್ತದೆ. ಜ್ಞಾನದ ಗ್ರಾಫ್ನಲ್ಲಿರುವ ಪ್ರತಿಯೊಂದು ನೋಡ್ ಜಿಲ್ಲೆ, ಗ್ರಾಮ, ಬೆಳೆ, ಉದ್ಯಮ, ಇತ್ಯಾದಿಗಳಂತಹ ಆಸಕ್ತಿಯ ಘಟಕವನ್ನು ಪ್ರತಿನಿಧಿಸುತ್ತದೆ. ಇದು ಸೇವಿಸಿದ ಡೇಟಾದಲ್ಲಿ ಕಂಡುಬರುವ ಗುಣಲಕ್ಷಣಗಳಿಂದ ನಿರೂಪಿಸಲ್ಪಟ್ಟಿದೆ. ಪ್ರತಿಯೊಂದು ಘಟಕವು ಈ ಘಟಕವನ್ನು ಕಂಡುಹಿಡಿಯಬಹುದಾದ ಕೋಷ್ಟಕಗಳ ಸೆಟ್, ಈ ಘಟಕವು ಭಾಗವಹಿಸುವ ಮಾದರಿಗಳ ಸೆಟ್ ಮತ್ತು ಅಸ್ತಿತ್ವದ ಕುರಿತು ಡೇಟಾ ಕಥೆಗಳ ಸೆಟ್ ಅನ್ನು ಸಹ ಸಂಯೋಜಿಸುತ್ತದೆ.