آشنايي با نرم افزار SAS

به وبلاگ اصلاح نباتات خوش آمدید. لطفا اگر سوال یا نظری در مورد مطالب طرح شده دارید، از طریق گذاشتن نظر یا ارسال ایمیل مرا از آن مطلع سازید

تاريخ : شنبه یازدهم مهر ۱۳۹۴

آشنايي با نرم افزارSAS

1-1-مقدمه و كليات

این نرم افزار از جمله تخصصی ترین نرم افزارهای آماری است. سرعت پردازش اطلاعات به نحو قابل توجهی در این نرم افزار نسبت به سایر نرم افزارهای آماری بالاتر است. بنابراین در کارهای تخصصی آماری که شامل اطلاعات پیچیده می باشند بهتر است از این نرم افزار استفاده شود. SAS بدون شک یکی از قوی ترین ابزارهای انفورماتیک در آنالیز آماری بوده و دامنه کاربردی بسیار وسیعی در علوم مختلف دارد که رشته های علوم انسانی، کشاورزی، بیوتکنولوژی، پزشکی، اقتصاد، بیولوژی و ... را در بر می گیرد. نگارش های متفاوتی از این نرم افزار در دسترس است. اولین نگارش موجود این نرم افزار، نگارش تحت سیستم DOS است. بعد از ایجاد سیستم عامل های ویندوز، لینوکس و یونکس، این نرم افزار قابلیت نصب تحت این سیستم عامل ها را در نگارش های بعدی یافت. اولین نگارش تحت ویندوز این نرم افزار نگارش 6.12 می باشد. نگارش هاي بعدي تحت سيستم عامل ويندوز عبارتند از: 7، 8، 8.02، 9.1 و آخرین ورژن این نرم افزار، نگارش 9.2 می باشد که در این مجموعه سعی شده دستورات و برنامه های لازم جهت تجزیه طرح ها و آزمایش های کشاورزی با این نگارش واپسین، تقدیم شود. اين نرم افزار داراي سه پنجره مي باشد كه عبارتند از:

الف- پنجره Program Editor: براي برنامه نويسي

ب- پنجرهLog (از واژه Logistics منشاء گرفته است): براي نمايش پيغام ها (خصوصاً پيغام خطا) و شيوه اجرا

ج- پنجرهOut put: مختص خروجي نرم افزار

* مهم ترین كليد هايي كه از قبل بر مبناي پنجره ها تعريف شده اند عبارتند از:

F1= HELP F2= KEYS F3= LOG

F4= OUTPUT F5= NEXT

F6= PGM:PROGRAM EDITOR

2-1- برنامه نويسي با نرم افزار SAS

برنامه نویسی با استفاده از نرم افزار SAS با یک سری جملات اجباری و اختیاری امکان پذیر است. شیوه برنامه نویسی در محیط این نرم افزار تقریباً شبیه برنامه نویسی به زبانC می باشد. به این معنی که تمامی عبارات نرم افزار بایستی به علامت ; ختم شود. Sas به بزرگی و کوچکی حروف حساس نیست و برای نمونه تایپ DATALINES، datalines یا Datalines تفاوتی ندارد. برای برنامه نویسی در محیط این نرم افزار بایستی در دو مرحله برنامه نویسی را طراحی نمود. لذا بایستی در یک روند لازم ابتدا اطلاعات به نرم افزار معرفی شده و سپس دستورات لازم برای تجزیه و تحلیل اطلاعات لیست شود.

هر برنامه SAS شامل دو قسمت است كه به ترتيب Data step و Proc step ناميده مي شوند. به مرحله ورود اطلاعات و معرفی آن ها به نرم افزار Data Step گوییم. تجزیه و تحلیل اطلاعات توسط قسمت Proc step امکان پذیر است. از نظر تعداد معرفی Data step وProc step در یک پنجره برنامه نویسی محدودیتی وجود ندارد. نرم افزار SAS از نظر باز کردن همزمان چند پنجره برنامه نویسی هیچ گونه محدودیتی ندارد. پنجره خروجی (OUT PUT) شامل نتیجه اعمال دستورات و عبارات Proc Step هـــای نرم افزار را نـــشان می دهد. پنجره LOG برای مشاهده پیغام ها، هشدارها و نتیجه درستی یا عدم صحت انجام دستورات نرم افزار می باشد و به کمک این پنجره می توان از اشتباهات صورت گرفته در حین برنامه نویسی و معرفی داده ها مطلع و آن ها را تصحیح نمود.

3-1- تجزيه و تحليل اطلاعات در نرم افزار SAS

تجزيه و تحليل اطلاعات در نرم افزار SAS با رويه هاي تعريف شده براي آن امكان پذير است. هر رويه با توجه به عملكرد آن با يك نام مشخص شده است. ممكن است بين رويه هاي مختلف نرم افزار اشتراك وجود داشته باشد ولي هر کدام از این رويه ها براي يك تجزيه و تحليل خاص در نظر گرفته شده اند و در واقع رویه ها، ابزارهایی اختصاصی هستند که باید آن ها را شناخت و برای هر طرح و آزمایش، رویه مناسب را انتخاب و استفاده نمود. در يك رويه چند عبارت يا زير دستور كار تجزيه و تحليل را توسعه مي دهند. در هر رویه، برخي عبارات اختياري و برخي اجباري هستند. در اكثر رويه هاي نرم افزارSAS چند دستور عملكرد مشابه اي دارند كه قبل از معرفي انواع رويه ها به معرفي آن ها مي پردازيم.

1-3-1- عبارت VAR

اين عبارت براي ليست كردن متغير هاي لازم كه عملكرد رويه روي آن ها صورت خواهد گرفت استفاده مي شود.

2-3-1- عبارت BY

براي منحصر كردن عملكرد يك رويه به زير گروه هاي يك يا چند متغير از عبارت BY استفاده مي شود. در هنگام استفاده از اين زير دستور بايد توجه داشت كه فايل مجموعه داده ها بايد قبلاً بر حسب مقادير متغير يا متغير هاي ليست شده در متغير BY مرتب شده باشند.

3-3-1- عبارت ID

با استفاده از اين عبارت مي توان ترتيب نمايش متغيرها را بر حسب متغير هاي ذكر شده در جلوي اين عبارت به نرم افزار معرفي نمود.

4-3-1- عبارت OUTPUT

از اين دستور براي ذخيره كردن مقادير برخي از متغيرها يا شاخص ها كه در هر يك از رويه ها ساخته مي شوند در يك مجموعه داده خروجي استفاده می شود.

4-1- رويه هاي نرم افزار SAS

پس از تعريف مشاهدات توسط يك يا چند Data Step براي تجزيه و تحليل اطلاعات از Proc Step استفاده می شود. Proc از واژه Procedure گرفته شده است. هر يك از رويه هاي نرم افزار كاركرد مشخصي دارند كه با توجه به عملكرد آن ها توسط نام هاي اختصاري نامگذاري شده اند. هر يك از رويه ها داراي زير دستورهاي اجباري و اختياري هستند كه برخي از آن ها بر ديگر عبارات، از نظر ترتيب نوشتن برتري دارند. همچنين برخي از دستور ها را نمي توان به طور هم زمان در يك دستور استفاده نمود.

از طرفي ديگر برخي از دستور هاي رويه هاي نرم افزار محدوديت در تعداد موارد استفاده از آن در يك رويه را دارند. ولي برخي از عبارات را می توان چند بار بنا بر ضرورت در يك رويه مورد استفاده قرار داد. در اين كتاب رويه هايي كه از اولويت برخوردارند مورد بررسي قرار خواهند گرفت.

1-4-1- رويه Print

براي مرتب كردن و چك نمودن مشاهدات در خروجي نرم افزار از اين رويه استفاده می شود. اين رويه ختیاری بوده و حذف آن در نتایج، هیچ گونه تغییری ایجاد نخواهد کرد.

2-4-1- رويه Sort

اين دستور مقادير مشاهادات معرفي شده به نرم افزار را بر اساس مقادير يك يا چند متغير مرتب مي كند.

3-4-1- رويه Anova

گزاره هاي مهم كه در Anova وجود دارند عبارتند از:

Proc ANOVA option ;

گزاره الزامي

CLASS variables;

اين گزاره بايد قبل از گزاره Model قرار گيرد و الزامي است

MODEL dependents= effect/option

گزاره الزامي

BY variables;

MANOVA H= effects E= effect ;

MEANS effects/option ;

TEST H= effects E= effects;

كلمات اختياري (Option) زير را می توان در گزاره PROC ANOVA مورد استفاده قرار داد:

DATA= SAS dataset: نام مجموعه داده SAS كه بايد به وسیله اين رويه تجزيه شود را مشخص مي كند. در صورتي كه از نوشتن اين كلمه اختياري صرف نظر شود، آخرين مجموعه داده ايجاد شده توسط SAS مورد استفاده قرار مي گيرد.

MULTIPASS: از نرم افزار SAS مي خواهد به جاي نوشتن مقادير متغير هاي وابسته در يك فايل كمكي، هر زماني كه لازم است مجدداً داده ها را از مجموعه داده ورودي بخواند. اين كلمه اختياري فضاي ديسك مورد استفاده به وسيله SAS را كاهش مي دهد ولي زمان اجراي برنامه را طولاني تر خواهد كرد. اين كلمه اختياري به ندرت مورد نياز است.

OUTSTAT= SAS dataset نام يك مجموعه داده خروجي را كه شامل مجموع مربعات، آماره هاي F و سطوح احتمال هر اثر در مدل مي باشد، در بر مي گيرد.

در صورتي كه مايل باشيد براي گروه هاي خاصي از مشاهدات، تجزيه واريانس جداگانه انجام شود، می توانيد نام اين گروه ها (متغيرها) را در گزاره BY قرار دهيد. وقتي از گزاره BY استفاده می شود، رويه ANOVA انتظار دارد كه مجموعه داده ورودي به ترتيب متغيرهاي ذكر شده در گزاره BY مرتب شده (Sort) باشند، لذا اگر مجموعه داده شما به ترتيب صعودي اين متغير ها مرتب نشده اند، بايد ابتدا آن ها را با استفاده از رويه Sort با يك گزاره BY مشابه مرتب كنيد.

متغيرهايي كه از آن ها براي طبقه بندي ساير متغيرها (وابسته) در Anova استفاده شده است، بايد ابتدا در گزاره CLASS مشخص شده باشند. براي مثال متغيرهاي block و treat، a و b و غيره از جمله متداول ترين متغيرهاي كلاس بندي متغيرهاي وابسته هستند.

طول نام اين متغيرها نبايد از شش حرف بيشتر باشد. لازم است گزاره CLASS قبل از گزاره MODEL قرار داشته باشد.

اگر گزاره MODEL شامل بيش از يك متغير وابسته باشد، با استفاده از گزاره MANOVA می توانيد آماره هاي چند متغيره (Multivariate statistics) ديگري را نيز به دست آوريد. جملات زير را می توان در گزاره MANOVA مورد استفاده قرار داد:

H=effects: اثراتي كه به عنوان ماتريس هاي فرض مورد استفاده قرار مي گيرند، مشخص مي كند.

E=effects: اثر خطا را مشخص مي كند. اگر اين جمله نوشته نشود، ماتريس SSCP خطا (باقی مانده) مورد استفاده قرار مي گيرد.

PRINTE: از رويه مي خواهد كه ماتريسE را چاپ كند.

PRINTEH: از رويه مي خواهد كه ماتريسH (ماتريس SSCP) مربوط به هر اثر مشخص شده در H=effects را چاپ كند.

ANOVA: می تواند ميانگين هاي متغيرهاي وابسته براي تمامي اثراتي كه در سمت راست گزاره MODEL مشخص شده اند را محاسبه كند. كلمات اختياري زير را می توان در گزاره MEANS براي مقايسه ميانگين ها به كار گرفت.

BON، آزمون t بنفروني (Bonferroni) را براي اختلاف بين ميانگين هاي تمامي اثرات اصلي انجام مي دهد. DUNCAN، آزمون چند دامنه اي دانكن را براي تمامي اثرات اصلي كه در گزاره MEANS مشخص شده اند انجام مي دهد. CHEFEE، SNK،LSD و TUKEY به ترتيب ميانگين هاي اثرات اصلي درخواست شده را با روش شفه، استيودنت-نيومن-كولز، كمترين اختلاف معني دار و آزمون توكي، مقايسه مي كند. همچنين مي توان از كلمات اختياري زير در گزاره MEANS استفاده كرد.

ALPHA= p سطح معني داري را براي مقايسات ميانگين مشخص مي كند.

E=effect ميانگين مربعات خطا را كه بايد در مقايسه ها استفاده شود نشان مي دهد. اثري كه مشخص می شود بايد در مدل وجود داشته باشد، در غير اينصورت ANOVA از ميانگين مربعات باقی مانده استفاده مي كند.در واقع دستور Means براي محاسبه شاخص هاي آماري مقايسات ميانگين و انحراف معيار استفاده می شود.

در رويه ANOVA، با استفاده از ميانگين مربعات باقي مانده، مقدار F براي كليه SS ها محاسبه می شود. در صورتي كه لازم باشد، شما می توانيد آزمون F را با ساير اثرات به عنوان خطا (مخرج كسر F) از رويه درخواست كنيد. براي اين منظور بايد نام اثر يا اثراتي كه مايل هستيد به عنوان صورت كسر F در نظر گرفته شوند، در مقابل H= بنويسيد و به همين ترتيب نام اثري را كه مي خواهيد مخرج كسر F باشد در مقابل E= بنويسيد. به طور کلی از رویه Anova برای حالات متعادل تجزیه واریانس استفاده می شود و رویه GLM زمانی کاربردش ارجحیت دارد که طرح به صورت نامتعادل یا دارای شرایط ویژه باشد. برای نمونه زمانی که تعداد تکرارها نابرابر هستند یا در آزمایش، داده یا داده هایی از دست رفته داریم و یا زمانی که اثر عاملی خارجی را بررسی و آن را از اثرات تیمار بیرون می کشیم؛ و یا زمانی که قصد انجام مقایسه های دوتایی یا چند تایی تیمارهای تحت بررسی را داریم؛ از رویه glm استفاده می نماییم. حالاتی که با رویه Anova قابل آنالیز هستند؛ بدون شک با رویه GLM هم انجام خواهند شد ولی عکس این حالت صادق نیست.

4-4-1- رويه GLM

در رويه GLM گزاره هاي متعددي وجود دارند، ولي در حالت عادي فقط چند مورد نياز است، مهم ترين گزاره هاي موجود در رويه GLM به شرح زیر مي باشند:

PROC GLM Option;

CLASS variables;

MODEL dependents= independents / option;

BY variables;

CONTRAST ًlabelً effect values …/option;

ESTIMATE ًlabelً effect values …/option;

LSMEANS effect / option ;

MANOVA H= effect E= effect / option;

MEANS effect / option;

OUTPUT OUT= SASdataset keywords= names…;

RANDOM effects / option;

TEST H= effect E= effects / option ;

كلمات اختياري اين رويه مشابه رويه ANOVA مي باشد كه پیش از این توضیح داده شد. در مورد گزاره هاي CLASS، BY، MANOVA، MEANS و TEST نيز چنين است. گزاره MODEL داراي كلمات اختياري مي باشد كه این کلمات اختیاری، بيشتر در تجزيه رگرسيون مورد استفاده قرار مي گيرند. لذا در اين قسمت، از بحث درباره آن ها خودداري می شود. گزاره CONTRAST مكانيسمي براي انواع مقايسات و تفكيك SS ها فراهم مي آورد. در يك برنامه SAS با رويه GLM می توان از هر تعداد دلخواه گزاره CONTRAST استفاده نموده و انواع مقايسات را انجام داد.

در گزاره CONTRAST، label (بر چسب) مي تواند داراي 20 حرف باشد و براي بهتر پیگیری نمودن نتایج مربوط به هر بخش و هر تیمار یا عامل تحت بررسی، در خروجي برنامه به كار گرفته می شود. براي هر مقايسه بايد از يك بر چسب خاص استفاده كرد.

Effect (اثر) نام يك اثر (مانند treat) در گزاره MODEL مي باشد كه سطوح مختلف آن با هم مقايسه می شوند. Values (مقدار ضرايب مقايسه ها) ضرايب ثابتي هستند كه عناصر بردار L مرتبط با يك اثر را مي سازند. در اصل اين مقادير همان ضرايب اورتوگونال در مقايسه ها مي باشند. كلمات اختياري زير در گزاره CONTRAST پس از علامت (/) قابل استفاده هستند:

E: از رويه مي خواهد كه بردار كامل L را چاپ كند.

E=effect: يك اثر را مشخص مي كند كه به عنوان خطا در مقايسه مورد استفاده قرار گيرد.

گزاره RANDOM نشان مي دهد كه كدام يك از اثرات تعريف شده در گزاره MODEL تصادفي هستند. اگر در مدل برخي از اثرات تصادفي هستند بايد آن ها را در اين گزاره به رويه GLM اعلام كنيد. اين گزاره باعث می شود F تست هاي مناسب هر يك از اثرات تعيين شوند. اگر بعد از علامت (/) در گزاره RANDOM از كلمه اختياري TEST استفاده شود، رويه آزمون هاي مناسب F را انجام و معني دار بودن يا نبودن هر اثر را گزارش می کند.

5-1- معرفي داده ها به نرم افزار SAS

شكل كلي يك Data step براي معرفي داده‌ها با استفاده از صفحه كليد به صورت زير است:

Data statment;

input statment;

Cards; داده ها;

بنابراين يك Data step با عبارت اجباري Data شروع شده و با عبارت Run خاتمه مي‌يابد. مرحله دوم براي تجزيه و تحليل اطلاعات توسط قسمت proc step امكان‌پذير است. به محض معرفی یک Data Step نرم افزار پس از اجرای برنامه اطلاعات را در یک فایل غیر اسکی به نام Data Set ذخیره خواهد کرد. اگر بخواهیم در یک پنجره برنامه نویسی چند Data Step معرفی نماییم بهتر این است که نام Data Step را پس از عبارت Data به نرم افزار معرفی نماییم. عبارت اجباري input براي مشخص‌نمودن ليست نام متغيرهاي لازم در مورد داده‌هاست مثلاً:

input x y ;

نام متغيرها را بايد با حداقل يك فاصله از هم جدا كنيم و هر متغير می تواند حداكثر 8 كاراكتر بگيرد. نرم‌افزار SAS قادر است اطلاعات را به صورت متغيرهاي عددي (Numeric) يا متغيرهاي رشته‌اي (string) دريافت كنند. چنانچه متغير يا متغيرهايي عددي باشند نام آن ها را حداكثر با 8 كاراكتر در جلوي عبارت input يادداشت مي‌كنيم اما اگر برخي از متغيرها از نوع رشته‌اي باشند (حروف اختصاری یا کلمات انگلیسی)، بايستي حتماً بعد از نام آن ها علامت $ را حداقل با يك فاصله استفاده نمود. نرم افزار تنها حروف لاتین را می شناسد و از نامگزاری های غیر لاتین می بایست اجتناب نمود. مقادیر متغیرهای حرفی می توانند شامل هر نوع کاراکتر باشند. اگر بین مقدار یک مشاهده متغیر حرفی فاصله وجود داشته باشد نرم افزار نمی تواند مقدار کامل آن را دریافت کند. برای نمونه برای معرفی ستون داده های مربوط به عملکرد دانه، اگر ستون را با seed yield معرفی کنیم؛ توسط نرم افزار قابل شناسایی نیست. لذا می توان تنها به yield یا تنها seed اکتفا کرد و یا به صورت پیوسته seedyield ستون را معرفی نمود. متغیر حرفی بایستی حداکثر با 8 کاراکتر باشد.

1-5-1- نکاتی در مورد تعریف داده ها در قسمت datelines

الف- مشاهدات در مورد هر متغیر بایستی حداقل با یک فاصله از یکدیگر جدا شوند. Cards يا datalines مرحله ورود داده‌ها بوده و بعد از Cards يا datalines هر چه بيايد، به عنوان داده محسوب می شود. Run; پايان داده‌ ها است.

ب- اگر بخواهیم مشاهدات را به صورت سطری برای متغیرها در نظر بگیریم، قبل از; در دستور INPUT از علامت @@ استفاده می کنیم.

ج- اگر متغیر یا متغیرهای حرفی داشته باشیم، بایستی مقادیر آن ها حداکثر با 8 کاراکتر باشند و فاصله بین کاراکترهای هر مشاهده وجود نداشته باشد.

د- اگر بخواهیم مقادیر مشاهدات حرفی را که مقادیر آن ها دارای یک فاصله می باشد به نرم افزار معرفی نماییم، بایستی بعد از علامت $ در عبارت Input در مورد آن متغیر از علامت & استفاده کنیم. همچنین پس از تایپ علامت فوق در قسمت Dataline بایستی مقادیر مشاهدات با حداقل دو کاراکتر از یکدیگر جدا شوند.

برچسب‌ها: نرم افزار SAS

ارسال توسط متقی، استادیارمرکز تحقیقات کشاورزی همدان

آخرین مطالب

تأثیر پیش‌تیمار آبی بذر بر عملکرد علوفه ارقام ارزن باستان و مهران در شرایط کشاورزان استان همدان

بررسی تأثیر تاریخ کاشت هیبریدهای گروه‌های مختلف رسیدگی ذرت بر عملکرد کمی و کیفی علوفه در منطقه همدان

Evaluation Diversity of Essential Oil Content of some Cultivated Anthemidae Species and their Therap

اثر تاریخ کاشت بر خصوصیات فنولوژیک، عملکرد دانه و اجزای عملکرد گروه‌های مختلف رسیدگی هیبریدهای ذرت

اثر تاریخ و آرایش کاشت بر عملکرد و کیفیت ذرت علوفه‌ای (Zea mays L.) در کشت نشایی.

بررسی تنوع ژنتیکی جمعیت های ایرانی بومادران تماشایی Achillea nobilis با استفاده از نشانگر مولکولی

بررسی اثرات تغییر اقلیم بر آینده کشت ذرت در استان همدان و پیشنهاد کاشت زودهنگام و کشت هیبریدهای زودر

تغییرات کمی و کیفی ترکیبات اسانس Matricaria recutita تحت شرایط اعمال تنش خشکی

تنوع کمی و کیفی ترکیبات اسانس گونه های مختلف بومادران

ذرت شیرین، گیاهی با دوره رشد کوتاه و مصرف آب کم

.: Weblog Themes By Blog Skin :.

اسلایدر