พฤติกรรมที่เหมาะสมของระบบตาม A.L. ชามิสุ. พฤติกรรม. กฎแห่งพฤติกรรมที่เหมาะสมที่สุด พฤติกรรมที่เหมาะสมที่สุด

ยาลดไข้สำหรับเด็กกำหนดโดยกุมารแพทย์ แต่มีเหตุฉุกเฉินคือมีไข้เมื่อเด็กต้องได้รับยาทันที จากนั้นผู้ปกครองจะรับผิดชอบและใช้ยาลดไข้ อนุญาตให้มอบอะไรให้กับทารกได้บ้าง? คุณจะลดอุณหภูมิในเด็กโตได้อย่างไร? ยาอะไรที่ปลอดภัยที่สุด?

กิจกรรมองค์กร กระบวนทัศน์ทางเลือกของกระบวนการองค์การ

แนวทางที่หลากหลายสำหรับกิจกรรมองค์กรสามารถนำเสนอในรูปแบบของกระบวนทัศน์ทางเลือกสองแบบ (ตารางที่ 5.1) กระบวนทัศน์ข้างต้นสะท้อนถึงแนวทางที่แตกต่างกันโดยพื้นฐานสองประการต่อกิจกรรมขององค์กร วิธีแรกอาจเรียกคร่าวๆ ได้ว่าแนวทางการบีบบังคับ เมื่อจำเป็นต้องใช้ความพยายามในการสร้างและรักษาไว้ ทันทีที่ความพยายามเหล่านี้หยุดลง ระบบจะกลับสู่สถานะเดิม คุณสามารถสร้างโครงร่างองค์กรเทียมได้มากเท่าที่คุณต้องการ แต่จะเปราะบางและไม่มีประสิทธิภาพ ประวัติศาสตร์รู้จักตัวอย่างมากมาย เช่น ฟาร์มส่วนรวม สภาเศรษฐกิจ สมาคมการผลิต ฯลฯ

ตารางที่ 5.1

กระบวนทัศน์ทางเลือกของกระบวนการองค์กร

แนวทางที่สองมุ่งเน้นไปที่กระบวนการทางธรรมชาติขององค์กร ซึ่งพัฒนามานานพอที่จะให้พื้นที่สำหรับความตั้งใจของมนุษย์ เป้าหมายของมนุษย์ที่อยู่นอกเหนือขอบเขตของการพัฒนาทางธรรมชาติ (เช่น การสร้างฟาร์มส่วนรวม) จะถึงวาระที่จะล้มเหลว ไม่ว่าจะใช้ทรัพยากรใดก็ตามเพื่อให้บรรลุเป้าหมายก็ตาม ในเวลาเดียวกันไม่มีการเสียชีวิตที่นี่ - บุคคลที่ตั้งเป้าหมายและกิจกรรมตามใจชอบจะไม่ถูกแยกออกจากกระบวนการพัฒนาเพียงต้องปฏิบัติตามเงื่อนไขเท่านั้น: พื้นที่ของเป้าหมายของบุคคลจะต้องตรงกับช่วงของทิศทาง ของการพัฒนาทางธรรมชาติ (เป็นไปได้ในหลักการ) การปฐมนิเทศต่อการพัฒนาทางธรรมชาติสามารถพบได้ในการศึกษาของ A. Smith ผู้ซึ่งแย้งว่าสำหรับการพัฒนาสังคมและเศรษฐกิจของสังคม สันติภาพ ภาษีเล็กน้อย และความอดทนในการจัดการเป็นสิ่งจำเป็น และส่วนที่เหลือจะดำเนินการตามวิถีธรรมชาติ ของสิ่งที่.

ระบบควบคุม - แนวทางไซเบอร์เนติกส์ หลักการควบคุม: หลักการควบคุมแบบวงเปิด หลักการควบคุมแบบวงเปิดพร้อมการชดเชยสัญญาณรบกวน หลักการควบคุมวงปิด หลักการควบคุมแบบนัดเดียว

องค์กรเป็นกระบวนการจัดระเบียบเป็นหนึ่งในหน้าที่หลักของการจัดการ ฟังก์ชั่นการจัดการเป็นที่เข้าใจกันว่าเป็นชุดของการดำเนินการการจัดการซ้ำ ๆ ซึ่งรวมกันเป็นหนึ่งเดียวของเนื้อหา เนื่องจากองค์กร (เป็นกระบวนการ) ทำหน้าที่เป็นฟังก์ชันการจัดการ การจัดการใดๆ จึงเป็นกิจกรรมขององค์กร แม้ว่าจะไม่ได้จำกัดอยู่เพียงกิจกรรมนั้นก็ตาม

การควบคุมมีอิทธิพลพิเศษต่อระบบ เพื่อให้มั่นใจว่าระบบได้รับคุณสมบัติหรือสถานะที่ต้องการ คุณลักษณะอย่างหนึ่งของรัฐคือโครงสร้าง

ก่อนอื่นเลย การจัดระเบียบหมายถึงการสร้าง (หรือเปลี่ยนแปลง) โครงสร้าง

แม้จะมีความแตกต่างในแนวทางในการสร้างระบบควบคุม แต่ก็มีหลักการทั่วไปที่พัฒนาขึ้นในไซเบอร์เนติกส์ จากมุมมองของแนวทางไซเบอร์เนติกส์ ระบบควบคุมคือชุดที่สมบูรณ์ของหัวข้อควบคุม (ระบบควบคุม) วัตถุควบคุม (ระบบที่ได้รับการจัดการ) รวมถึงการเชื่อมต่อโดยตรงและผลป้อนกลับระหว่างสิ่งเหล่านั้น สันนิษฐานว่าระบบควบคุมโต้ตอบกับสภาพแวดล้อมภายนอก

คุณลักษณะการจำแนกขั้นพื้นฐานสำหรับการสร้างระบบควบคุม ซึ่งกำหนดประเภทของระบบและความสามารถที่เป็นไปได้คือวิธีการจัดระเบียบลูปควบคุม ตามหลังมีการระบุหลักการหลายประการในการจัดระเบียบลูปควบคุม

หลักการควบคุมแบบ open-loop (ซอฟต์แวร์)หลักการนี้มีพื้นฐานอยู่บนแนวคิดเรื่องอิทธิพลอัตโนมัติต่อระบบโดยไม่คำนึงถึงสภาพการทำงานของระบบ เห็นได้ชัดว่าขอบเขตของการประยุกต์ใช้หลักการนี้ในทางปฏิบัตินั้นสันนิษฐานถึงความน่าเชื่อถือของความรู้เกี่ยวกับสถานะของสภาพแวดล้อมและระบบตลอดช่วงการดำเนินงานทั้งหมด จากนั้นจึงเป็นไปได้ที่จะกำหนดล่วงหน้าการตอบสนองของระบบต่อผลกระทบที่คำนวณได้ ซึ่งได้รับการตั้งโปรแกรมไว้ล่วงหน้าในรูปแบบของฟังก์ชัน (รูปที่ 5.1)

ข้าว. 5.1. หลักการควบคุมแบบวงเปิด

หากผลกระทบนี้แตกต่างจากที่คาดไว้ การเบี่ยงเบนในลักษณะของการเปลี่ยนแปลงในพิกัดเอาต์พุตจะตามมาทันที เช่น ระบบจะไม่ได้รับการปกป้องจากการรบกวนตามความหมายดั้งเดิมของคำนี้ ดังนั้นจึงใช้หลักการที่คล้ายกันเมื่อมีความมั่นใจในความน่าเชื่อถือของข้อมูลเกี่ยวกับสภาพการทำงานของระบบ ตัวอย่างเช่น สำหรับระบบองค์กร ความมั่นใจดังกล่าวเป็นที่ยอมรับได้โดยมีวินัยของผู้บริหารระดับสูง เมื่อคำสั่งดังกล่าวไม่ต้องการการควบคุมในภายหลัง บางครั้งการจัดการประเภทนี้เรียกว่าการจัดการคำสั่ง ข้อได้เปรียบที่ไม่อาจปฏิเสธได้ของโครงการควบคุมนี้คือความเรียบง่ายขององค์กรการจัดการ

หลักการควบคุมแบบวงเปิดพร้อมการชดเชยสัญญาณรบกวนเนื้อหาของแนวทางคือความปรารถนาที่จะขจัดข้อ จำกัด ของโครงการแรกนั่นคือ ผลกระทบที่ไม่ได้รับการควบคุมของการรบกวนต่อการทำงานของระบบ ความเป็นไปได้ในการชดเชยการรบกวนและขจัดความไม่น่าเชื่อถือของข้อมูลนิรนัยนั้นขึ้นอยู่กับการเข้าถึงการรบกวนในการวัด (รูปที่ 5.2)


ข้าว. 5.2. หลักการบริหารค่าตอบแทน

การวัดสัญญาณรบกวนทำให้สามารถกำหนดการควบคุมการชดเชยที่ต่อต้านผลที่ตามมาของการรบกวนได้ โดยปกติแล้ว พร้อมด้วยการควบคุมการแก้ไข ระบบจะอยู่ภายใต้อิทธิพลของซอฟต์แวร์ อย่างไรก็ตาม ในทางปฏิบัติ ไม่สามารถบันทึกข้อมูลเกี่ยวกับการรบกวนภายนอกได้เสมอไป ไม่ต้องพูดถึงการเบี่ยงเบนในการติดตามในพารามิเตอร์ของระบบหรือการเปลี่ยนแปลงโครงสร้างที่ไม่คาดคิด หากมีข้อมูลเกี่ยวกับสิ่งรบกวน หลักการของการชดเชยโดยการนำการควบคุมการชดเชยมาใช้จะเป็นประโยชน์ในทางปฏิบัติ

หลักการควบคุมวงปิดหลักการที่กล่าวถึงข้างต้นเป็นคลาสของลูปควบคุมแบบเปิด: ปริมาณของการควบคุมไม่ได้ขึ้นอยู่กับพฤติกรรมของวัตถุ แต่เป็นฟังก์ชันของเวลาหรือการรบกวน คลาสของลูปควบคุมแบบปิดถูกสร้างขึ้นโดยระบบที่มีการตอบรับเชิงลบ ซึ่งรวบรวมหลักการพื้นฐานของไซเบอร์เนติกส์

ในระบบดังกล่าว เอฟเฟกต์อินพุตไม่ได้ถูกตั้งโปรแกรมไว้ล่วงหน้า แต่เป็นสถานะที่ต้องการของระบบ เช่น อันเป็นผลมาจากผลกระทบต่อวัตถุรวมทั้งการควบคุม ดังนั้นสถานการณ์จึงเป็นไปได้เมื่อการรบกวนมีผลเชิงบวกต่อไดนามิกของระบบหากมันทำให้สถานะของมันเข้าใกล้สภาวะที่ต้องการมากขึ้น เพื่อนำหลักการนี้ไปใช้ กฎหมายโปรแกรมสำหรับการเปลี่ยนสถานะของระบบเมื่อเวลาผ่านไป Spr(t) จะถูกพบเป็นนิรนัย และงานของระบบได้รับการกำหนดขึ้นเพื่อให้แน่ใจว่าสถานะจริงจะเข้าใกล้สถานะที่ต้องการ (รูปที่ 5.3) การแก้ปัญหานี้ทำได้โดยการพิจารณาความแตกต่างระหว่างสถานะที่ต้องการกับสถานะจริง:

∆С(t) = Ср(t) – С(t)


รูปที่ 5. 3 หลักการควบคุมวงปิด

ความแตกต่างนี้ใช้สำหรับการควบคุมเพื่อลดความไม่ตรงกันที่ตรวจพบให้เหลือน้อยที่สุด เพื่อให้แน่ใจว่าพิกัดที่ได้รับการควบคุมจะเข้าใกล้ฟังก์ชันโปรแกรม โดยไม่คำนึงถึงสาเหตุที่ทำให้เกิดความแตกต่าง ไม่ว่าจะเป็นการรบกวนจากต้นกำเนิดต่างๆ หรือข้อผิดพลาดในการควบคุม คุณภาพของการควบคุมส่งผลต่อลักษณะของกระบวนการชั่วคราวและข้อผิดพลาดที่เกิดขึ้น - ความคลาดเคลื่อนระหว่างสถานะสุดท้ายที่ตั้งโปรแกรมไว้กับสถานะจริง

ขึ้นอยู่กับสัญญาณอินพุต ทฤษฎีการควบคุมจะแยกแยะ:

■ ระบบควบคุมโปรแกรม (กรณีอยู่ระหว่างการพิจารณา)

■ ระบบรักษาเสถียรภาพ เมื่อ cpr(t) = 0;

■ ระบบติดตามเมื่อสัญญาณอินพุตไม่ทราบนิรนัย

รายละเอียดนี้ไม่ส่งผลกระทบต่อการนำหลักการไปใช้ในทางใดทางหนึ่ง แต่แนะนำความเฉพาะเจาะจงในเทคนิคการสร้างระบบ

การกระจายหลักการนี้อย่างกว้างขวางในระบบธรรมชาติและประดิษฐ์อธิบายได้จากประสิทธิภาพของการจัดวงจร: ปัญหาการควบคุมได้รับการแก้ไขอย่างมีประสิทธิภาพในระดับแนวคิดเนื่องจากการป้อนข้อเสนอแนะเชิงลบ

พิจารณากรณีของการเปลี่ยนแปลงการเขียนโปรแกรมในเวลาสถานะของระบบСр(t) ซึ่งหมายถึงการคำนวณเบื้องต้นของวิถีในพื้นที่สถานะ แต่คำถามว่าจะทำอย่างไรก็มองไม่เห็น คำตอบถูกจำกัดด้วยข้อกำหนดสองประการสำหรับวิถี ซึ่งจะต้อง:

1) ผ่านเป้าหมาย;

2) เป็นไปตามเกณฑ์คุณภาพขั้นสูงสุดเช่น เหมาะสมที่สุด

ในระบบไดนามิกที่เป็นทางการเพื่อค้นหาวิถีดังกล่าวจะใช้เครื่องมือแคลคูลัสของการแปรผันหรือการดัดแปลงสมัยใหม่: หลักการสูงสุดของ L. Pontryagin หรือการเขียนโปรแกรมแบบไดนามิกของ R. Bellman ในกรณีที่ปัญหาเกิดขึ้นกับการค้นหาพารามิเตอร์ที่ไม่รู้จัก (สัมประสิทธิ์) ของระบบ จะใช้วิธีการเขียนโปรแกรมทางคณิตศาสตร์เพื่อแก้ปัญหา - จำเป็นต้องค้นหาส่วนปลายสุดของฟังก์ชันคุณภาพ (ตัวบ่งชี้) ในพื้นที่พารามิเตอร์ ในการแก้ปัญหาที่มีรูปแบบไม่ดี เราสามารถพึ่งพาวิธีแก้ปัญหาแบบฮิวริสติกที่อิงจากการพยากรณ์ในอนาคตหรือผลลัพธ์ของการสร้างแบบจำลองทางคณิตศาสตร์เท่านั้น ความถูกต้องของการตัดสินใจดังกล่าวเป็นเรื่องยากที่จะประเมิน

กลับมาที่ปัญหาการเขียนโปรแกรมกัน หากมีวิธีการคำนวณวิถีของโปรแกรมสำหรับงานที่เป็นทางการ เป็นเรื่องปกติที่จะต้องให้ระบบควบคุมพอใจกับการกำหนดเป้าหมาย และค้นหาการเปลี่ยนแปลงของโปรแกรมในสถานะของระบบโดยตรงในกระบวนการควบคุม (การควบคุมเทอร์มินัล) . แน่นอนว่าการจัดระบบดังกล่าวจะทำให้อัลกอริธึมการควบคุมมีความซับซ้อน แต่จะทำให้ข้อมูลเริ่มต้นลดลง ซึ่งหมายความว่าจะทำให้การควบคุมมีประสิทธิภาพมากขึ้น งานที่คล้ายกันในทศวรรษ 1960 ได้รับการแก้ไขในทางทฤษฎีโดยศาสตราจารย์อี. กอร์บาตอฟเพื่อควบคุมการเคลื่อนที่ของขีปนาวุธและยานอวกาศ

ในส่วนที่เกี่ยวข้องกับการกำหนดและการแก้ปัญหาการควบคุมที่เหมาะสม ควรคำนึงถึงสถานการณ์พื้นฐานต่อไปนี้

คุณสามารถเลือกพฤติกรรมที่เหมาะสมที่สุดของระบบได้ก็ต่อเมื่อทราบพฤติกรรมของวัตถุที่กำลังศึกษาตลอดช่วงการควบคุมทั้งหมดและเงื่อนไขที่เกิดการเคลื่อนไหวนั้นได้อย่างน่าเชื่อถือ

วิธีแก้ปัญหาที่เหมาะสมที่สุดสามารถหาได้จากการปฏิบัติตามสมมติฐานเพิ่มเติมอื่นๆ แต่ประเด็นก็คือ ควรระบุแต่ละกรณีแยกกัน วิธีแก้ปัญหาจะใช้ได้ "ตามเงื่อนไข"

ให้เราแสดงตำแหน่งที่ระบุโดยใช้ตัวอย่างพฤติกรรมของนักวิ่งที่มุ่งมั่นเพื่อให้ได้ผลลัพธ์ที่สูง หากเรากำลังพูดถึงระยะทางสั้น ๆ (100, 200 ม.) นักกีฬาที่ผ่านการฝึกอบรมจะตั้งเป้าหมายที่จะรับประกันความเร็วสูงสุดในทุกช่วงเวลา เมื่อวิ่งในระยะทางไกล ความสำเร็จจะถูกกำหนดโดยความสามารถของเขาในการกระจายกำลังบนเส้นทางอย่างถูกต้อง และด้วยเหตุนี้เขาจึงต้องเข้าใจความสามารถของเขา ภูมิประเทศของเส้นทาง และลักษณะของคู่ต่อสู้อย่างชัดเจน ในสภาวะที่มีทรัพยากรจำกัด จะไม่มีการพูดถึงความเร็วสูงสุดใดๆ ในขณะใดก็ตาม

เห็นได้ชัดว่าข้อ จำกัด ข้างต้นเป็นที่พอใจเฉพาะภายในกรอบของการกำหนดปัญหาที่กำหนดเท่านั้นเช่น เมื่อรู้ทุกสิ่งอย่างแน่ชัดแล้ว เงื่อนไขดังกล่าวกลายเป็นมากเกินไปสำหรับปัญหาที่แท้จริง: เตียงของการกำหนดระดับ Procrustean ไม่สอดคล้องกับสภาพการทำงานจริงของระบบ ธรรมชาตินิรนัยของความรู้ของเรานั้นน่าสงสัยอย่างยิ่งทั้งในด้านความสัมพันธ์กับระบบและสิ่งแวดล้อมและการมีปฏิสัมพันธ์กับวัตถุนี้หรือวัตถุนั้น ยิ่งระบบมีความซับซ้อนมากเท่าใด ข้อมูลนิรนัยก็จะยิ่งมีความน่าเชื่อถือน้อยลงเท่านั้น ซึ่งไม่ได้เพิ่มการมองโลกในแง่ดีให้กับนักวิจัยที่ดำเนินขั้นตอนการสังเคราะห์

ความไม่แน่นอนดังกล่าวได้นำไปสู่การเกิดขึ้นของทิศทางทั้งหมดในทฤษฎีการควบคุม โดยคำนึงถึงเงื่อนไขสุ่มของการดำรงอยู่ของระบบ ผลลัพธ์ที่สร้างสรรค์ที่สุดได้มาจากการพัฒนาหลักการของระบบการปรับตัวและการปรับตัวเอง

การเพิ่มประสิทธิภาพการจัดการ ระบบปรับตัวและปรับตัวเอง

ระบบที่ปรับเปลี่ยนได้ทำให้สามารถรับมือกับความไม่แน่นอนได้โดยการรับข้อมูลเพิ่มเติมเกี่ยวกับสถานะของวัตถุและการโต้ตอบกับสภาพแวดล้อมในระหว่างกระบวนการควบคุม ตามด้วยการปรับโครงสร้างโครงสร้างของระบบใหม่และการเปลี่ยนแปลงพารามิเตอร์เมื่อสภาพการทำงานเบี่ยงเบนไปจากที่ทราบมาก่อน อัน (รูปที่ 5.4) ในกรณีนี้ ตามกฎแล้ว เป้าหมายของการเปลี่ยนแปลงคือการนำคุณลักษณะของระบบเข้ามาใกล้กับนิรนัยที่ใช้ในการสังเคราะห์การควบคุม ดังนั้นการปรับตัวจึงมุ่งเน้นไปที่การรักษาสภาวะสมดุลของระบบภายใต้สภาวะของการรบกวน


ข้าว. 5.4. ระบบปรับตัว

องค์ประกอบการออกแบบที่ยากที่สุดอย่างหนึ่งของงานนี้คือการได้รับข้อมูลเกี่ยวกับสถานะของสภาพแวดล้อม โดยที่การปรับตัวนั้นทำได้ยาก

ตัวอย่างของการได้รับข้อมูลเกี่ยวกับสภาพแวดล้อมที่ประสบความสำเร็จคือการประดิษฐ์ท่อ Pitot ซึ่งติดตั้งเครื่องบินเกือบทั้งหมด ท่อช่วยให้คุณสามารถวัดความดันความเร็วซึ่งเป็นคุณลักษณะที่สำคัญที่สุดที่แรงแอโรไดนามิกทั้งหมดขึ้นอยู่กับโดยตรง ผลการวัดใช้เพื่อกำหนดค่าออโตไพลอต การสำรวจทางสังคมวิทยามีบทบาทที่คล้ายกันในระบบสังคมซึ่งทำให้สามารถปรับแนวทางแก้ไขปัญหานโยบายในประเทศและต่างประเทศได้

เทคนิคที่มีประสิทธิภาพในการศึกษาพลศาสตร์ของวัตถุควบคุมคือวิธีการควบคุมแบบคู่ ซึ่งครั้งหนึ่งเคยเสนอโดย A. Feldbaum สาระสำคัญของมันคือ พร้อมด้วยคำสั่งควบคุม สัญญาณการทดสอบพิเศษจะถูกส่งไปยังวัตถุ ซึ่งเป็นปฏิกิริยาที่กำหนดไว้ล่วงหน้าสำหรับแบบจำลองนิรนัย จากการเบี่ยงเบนของปฏิกิริยาของวัตถุไปจากปฏิกิริยามาตรฐาน เราจะตัดสินปฏิสัมพันธ์ของแบบจำลองกับสภาพแวดล้อมภายนอก

เทคนิคที่คล้ายกันนี้ถูกใช้โดยหน่วยข่าวกรองของรัสเซียในช่วงสงครามโลกครั้งที่หนึ่งเพื่อระบุสายลับ มีการระบุกลุ่มพนักงานที่ต้องสงสัยว่าก่อกบฏ และแต่ละกลุ่มได้รับ "ความไว้วางใจ" ด้วยข้อมูลที่สำคัญแต่เป็นเท็จในลักษณะเฉพาะตัว สังเกตปฏิกิริยาของศัตรูโดยระบุตัวผู้ทรยศ

ระดับของระบบการปรับตัวเองนั้นแตกต่างจากระบบการปรับตัว ส่วนหลังจะได้รับการปรับเปลี่ยนในระหว่างกระบวนการปรับตัว อย่างไรก็ตาม ในระดับทั่วไปที่ยอมรับ โครงสร้างของระบบการปรับจูนเองจะคล้ายคลึงกับโครงสร้างของระบบอะแดปทีฟ (ดูรูปที่ 5.4)

ในส่วนของกระบวนการปรับตัวและการปรับแต่งเองนั้น สามารถสังเกตได้ว่าความเป็นไปได้ในบางกรณีนั้นถูกกำหนดโดยวัตถุประสงค์ของระบบและการใช้งานทางเทคนิคเป็นหลัก ทฤษฎีระบบดังกล่าวเต็มไปด้วยภาพประกอบ แต่ดูเหมือนจะไม่มีความสำเร็จแบบสรุป

อีกวิธีหนึ่งในการเอาชนะความไม่เพียงพอของข้อมูลนิรนัยในกระบวนการควบคุมคือการรวมกระบวนการควบคุมเข้ากับขั้นตอนการสังเคราะห์ ตามเนื้อผ้า อัลกอริธึมการควบคุมเป็นผลมาจากการสังเคราะห์ตามสมมติฐานของคำอธิบายที่กำหนดของแบบจำลองการเคลื่อนที่ แต่เห็นได้ชัดว่าการเบี่ยงเบนในการเคลื่อนไหวของแบบจำลองที่นำมาใช้นั้นส่งผลต่อความแม่นยำในการบรรลุเป้าหมายและคุณภาพของกระบวนการเช่น ทำให้เกิดการเบี่ยงเบนไปจากจุดสิ้นสุดของเกณฑ์ เป็นไปตามนั้นจึงจำเป็นต้องสร้างการควบคุมเป็นตัวควบคุมเทอร์มินัล คำนวณวิถีแบบเรียลไทม์ และอัปเดตข้อมูลเกี่ยวกับโมเดลวัตถุและสภาพการจราจร แน่นอน ในกรณีนี้ จำเป็นต้องคาดการณ์สภาพการขับขี่สำหรับช่วงการควบคุมที่เหลือทั้งหมด แต่เมื่อคุณเข้าใกล้เป้าหมาย ความแม่นยำของการประมาณค่าจะเพิ่มขึ้น ซึ่งหมายความว่าคุณภาพของการควบคุมจะดีขึ้น

สิ่งนี้แสดงให้เห็นความคล้ายคลึงกับการกระทำของรัฐบาลที่ไม่สามารถบรรลุเป้าหมายที่วางแผนไว้ เช่น เป้าหมายด้านงบประมาณ สภาพการดำเนินงานของเศรษฐกิจเปลี่ยนแปลงไปในลักษณะที่ไม่ได้วางแผนไว้ ซึ่งเป็นการละเมิดการคาดการณ์ ดังนั้นจึงจำเป็นต้องปรับแผนตามแผนอย่างต่อเนื่องเพื่อให้บรรลุตัวบ่งชี้ขั้นสุดท้าย โดยเฉพาะอย่างยิ่งในการดำเนินการอายัด การเบี่ยงเบนจากสมมติฐานนิรนัยอาจมีมากจนทรัพยากรที่มีอยู่และมาตรการการจัดการที่ดำเนินการไม่สามารถรับประกันการบรรลุเป้าหมายได้อีกต่อไป จากนั้นคุณต้อง "นำ" เป้าหมายมาใกล้ยิ่งขึ้น โดยวางไว้ในพื้นที่ใหม่ของความสำเร็จ โปรดทราบว่ารูปแบบที่อธิบายไว้นั้นใช้ได้กับระบบที่เสถียรเท่านั้น คุณภาพที่ไม่ดีขององค์กรการจัดการสามารถนำไปสู่ความไม่มั่นคงและเป็นผลให้เกิดการทำลายระบบทั้งหมด

ให้เราอาศัยหลักการจัดการอีกประการหนึ่งซึ่งเป็นรากฐานของทฤษฎีการวิจัยการดำเนินงานที่พัฒนาขึ้น

หลักการควบคุมครั้งเดียว งานที่สำคัญในทางปฏิบัติที่หลากหลายสันนิษฐานถึงความจำเป็นในการดำเนินการจัดการเพียงครั้งเดียว ได้แก่ การตัดสินใจซึ่งผลที่ตามมาจะรู้สึกได้เป็นเวลานาน แน่นอนว่าการจัดการแบบดั้งเดิมสามารถตีความได้ว่าเป็นลำดับการตัดสินใจเพียงครั้งเดียว ที่นี่เรากำลังเผชิญกับปัญหาความไม่ต่อเนื่องและความต่อเนื่องอีกครั้ง ขอบเขตระหว่างนั้นไม่ชัดเจนพอๆ กับระหว่างระบบคงที่และระบบไดนามิก อย่างไรก็ตาม ยังคงมีความแตกต่างอยู่: ในทฤษฎีการควบคุมแบบคลาสสิก สันนิษฐานว่าผลกระทบต่อระบบเป็นกระบวนการ ฟังก์ชันของเวลาหรือพารามิเตอร์สถานะ และไม่ใช่ขั้นตอนแบบครั้งเดียว

คุณสมบัติที่โดดเด่นอีกประการหนึ่งของการวิจัยเชิงปฏิบัติการคือวิทยาศาสตร์นี้ทำงานด้วยการควบคุม - ค่าคงที่, พารามิเตอร์ของระบบ จากนั้นหากในปัญหาไดนามิกโครงสร้างทางคณิตศาสตร์ถูกใช้เป็นเกณฑ์ - ฟังก์ชันที่ประเมินการเคลื่อนไหวของระบบจากนั้นในการศึกษาการดำเนินการเกณฑ์จะมีรูปแบบของฟังก์ชันที่กำหนดไว้ในชุดพารามิเตอร์ที่ศึกษาของระบบ

ปัญหาในทางปฏิบัติที่ครอบคลุมโดยการวิจัยการดำเนินงานนั้นกว้างขวางมากและรวมถึงกิจกรรมต่างๆ เช่น การจัดสรรทรัพยากร การเลือกเส้นทาง การวางแผน การจัดการสินค้าคงคลัง การจัดการคิวในปัญหาการเข้าคิว ฯลฯ เมื่อแก้ไขปัญหาที่เกี่ยวข้อง วิธีการที่อธิบายไว้ข้างต้นสำหรับคำอธิบาย ถูกนำมาใช้โดยคำนึงถึงประเภทของรูปแบบ รัฐ เป้าหมาย หลักเกณฑ์ การจัดการ ปัญหาการหาค่าเหมาะที่สุด ซึ่งประกอบด้วยการค้นหาส่วนปลายของฟังก์ชันเกณฑ์ในพื้นที่พารามิเตอร์ ก็มีการกำหนดสูตรและแก้ไขเช่นกัน ปัญหาได้รับการแก้ไขทั้งในสูตรที่กำหนดและสุ่ม

เนื่องจากขั้นตอนการทำงานด้วยค่าคงที่นั้นง่ายกว่าการทำงานด้วยฟังก์ชันมาก ทฤษฎีการวิจัยการดำเนินงานจึงก้าวหน้ากว่าทฤษฎีทั่วไปของระบบ และโดยเฉพาะอย่างยิ่ง ทฤษฎีการควบคุมระบบไดนามิก การวิจัยเชิงปฏิบัติการนำเสนอเครื่องมือทางคณิตศาสตร์ที่กว้างขวางขึ้น ซึ่งบางครั้งก็ค่อนข้างซับซ้อน สำหรับการแก้ปัญหาที่สำคัญในทางปฏิบัติที่หลากหลาย วิธีทางคณิตศาสตร์ทั้งชุดที่ให้บริการการวิจัยการดำเนินงานเรียกว่าการเขียนโปรแกรมทางคณิตศาสตร์ ดังนั้นภายในกรอบการวิจัยการดำเนินงานจึงมีการพัฒนาทฤษฎีการตัดสินใจซึ่งเป็นสาขาที่เกี่ยวข้องอย่างยิ่ง

โดยพื้นฐานแล้วทฤษฎีการตัดสินใจจะพิจารณาขั้นตอนในการปรับเงื่อนไขให้เหมาะสมที่สุดสำหรับการอธิบายโดยละเอียดของเกณฑ์เวกเตอร์และคุณลักษณะของการสร้างค่าสูงสุด ดังนั้นการกำหนดปัญหาจึงมีลักษณะเป็นเกณฑ์ที่ประกอบด้วยองค์ประกอบหลายประการ ได้แก่ ปัญหาหลายเกณฑ์

เพื่อเน้นย้ำถึงความเป็นอัตวิสัยของเกณฑ์และกระบวนการตัดสินใจ ผู้มีอำนาจตัดสินใจ (DDM) พร้อมมุมมองปัญหาของแต่ละบุคคลจะถูกนำมาใช้ในการพิจารณา เมื่อศึกษาวิธีแก้ปัญหาโดยใช้วิธีการอย่างเป็นทางการ สิ่งนี้จะแสดงออกมาผ่านระบบการตั้งค่าเมื่อประเมินองค์ประกอบหนึ่งหรือองค์ประกอบอื่นของเกณฑ์

ตามกฎแล้ว ในการตัดสินใจ ผู้มีอำนาจตัดสินใจจะได้รับตัวเลือกต่างๆ สำหรับการดำเนินการ ซึ่งแต่ละตัวเลือกจะได้รับการประเมิน แนวทางนี้ใกล้เคียงกับเงื่อนไขที่แท้จริงของการดำเนินการของผู้รับผิดชอบในระบบองค์กรมากที่สุดเมื่อเลือกตัวเลือกใดตัวเลือกหนึ่งที่จัดทำโดยเครื่องมือ เบื้องหลังแต่ละรายการมีการศึกษา (เชิงวิเคราะห์ การจำลองทางคณิตศาสตร์) ของเหตุการณ์ที่เป็นไปได้พร้อมการวิเคราะห์ผลลัพธ์สุดท้าย - สถานการณ์ เพื่อความสะดวกในการตัดสินใจที่สำคัญ ห้องสถานการณ์ต่างๆ ได้รับการจัดระเบียบพร้อมกับอุปกรณ์ที่มองเห็นได้สำหรับการแสดงสถานการณ์บนหน้าจอหรือหน้าจอ เพื่อจุดประสงค์นี้ ผู้เชี่ยวชาญ (ผู้ปฏิบัติงาน) มีส่วนร่วมซึ่งมีความเชี่ยวชาญไม่เพียงแต่ในวิธีการทางคณิตศาสตร์ในการวิเคราะห์สถานการณ์และเตรียมการตัดสินใจ แต่ยังรวมถึงในสาขาวิชาด้วย

เป็นที่ชัดเจนว่าผลลัพธ์ของการประยุกต์ใช้ทฤษฎีการวิจัยการดำเนินงานโดยเฉพาะและทฤษฎีการตัดสินใจกับวัตถุนั้นเป็นแผนปฏิบัติการที่เหมาะสมที่สุด ด้วยเหตุนี้ อินพุตของบล็อกบางบล็อก "อัดแน่น" ด้วยอัลกอริธึมการปรับให้เหมาะสมที่สุดและสร้างขึ้นโดยใช้วิธีที่เหมาะสมในการเขียนโปรแกรมทางคณิตศาสตร์ของแบบจำลองสถานการณ์ จะได้รับข้อมูล: สถานะเริ่มต้น เป้าหมาย เกณฑ์คุณภาพ รายการพารามิเตอร์ที่หลากหลาย ข้อจำกัด (แบบจำลองของระบบจะใช้เมื่อสร้างอัลกอริทึม) ผลลัพธ์ของบล็อกคือแผนที่ต้องการ จากมุมมองของไซเบอร์เนติกส์ โครงสร้างดังกล่าวจัดอยู่ในประเภทลูปควบคุมแบบเปิด เนื่องจากข้อมูลเอาต์พุตไม่ส่งผลกระทบต่อสัญญาณอินพุต

โดยหลักการแล้ว แนวทางที่พิจารณายังสามารถนำไปใช้กับกรณีของการควบคุมวงรอบปิดได้ ในการดำเนินการนี้ มีความจำเป็นต้องจัดกระบวนการวนซ้ำเมื่อเวลาผ่านไป: หลังจากดำเนินการตามแผนแล้ว ให้แนะนำสถานะใหม่ของระบบเป็นเงื่อนไขเริ่มต้นและทำซ้ำวงจร หากงานนี้อนุญาต คุณสามารถลดระยะเวลาการวางแผนโดยทำให้เป้าหมายเข้าใกล้สถานะเริ่มต้นของระบบมากขึ้น จากนั้นมีความคล้ายคลึงกันระหว่างการดำเนินการที่เสนอกับขั้นตอนการควบคุมเทอร์มินัลแบบวนซ้ำที่กล่าวถึงข้างต้น ซึ่งขึ้นอยู่กับการอัปเดตข้อมูลเริ่มต้นเป็นระยะ นอกจากนี้ ปัญหาแบบไดนามิกที่ดำเนินการกับกระบวนการสามารถลดลงเป็นการประมาณฟังก์ชันตามอนุกรมฟังก์ชันได้ ในกรณีนี้ตัวแปรตัวแปรจะเป็นพารามิเตอร์ของอนุกรมดังกล่าวอยู่แล้วซึ่งหมายความว่าจะนำเครื่องมือของทฤษฎีการวิจัยปฏิบัติการมาใช้ (ซึ่งทำในทฤษฎีความน่าจะเป็น เมื่อกระบวนการสุ่มถูกอธิบายโดยการขยายแบบบัญญัติ)

วิธีการสรุปเริ่มพบการประยุกต์ใช้ในทฤษฎีปัญญาประดิษฐ์ในการสังเคราะห์การจัดการสถานการณ์

ควรชี้ให้เห็นถึงอันตรายที่เกี่ยวข้องกับการประยุกต์ใช้ทฤษฎีการตัดสินใจในทางปฏิบัติโดยบุคคลที่ไม่มีความสามารถเพียงพอในทฤษฎีระบบ ดังนั้นบ่อยครั้งในระบบองค์กร (สถาบันของรัฐ บริษัท องค์กรทางการเงิน) การตัดสินใจจึงมีความสมบูรณ์และลดลงเหลือเพียงการปฏิบัติงานโดยมีตัวชี้วัดมากมายและการดำเนินการที่เหมาะสมที่สุดของพระราชบัญญัติการจัดการเพียงครั้งเดียว ในเวลาเดียวกันพวกเขามองไม่เห็นผลที่ตามมาจากการดำเนินการที่เกิดขึ้นกับระบบ พวกเขาลืมไปว่าพวกเขากำลังจัดการไม่ใช่เกณฑ์ แต่เป็นระบบโดยไม่คำนึงถึงลักษณะหลายขั้นตอนของกระบวนการปิด - จากระบบ ไปยังสถานะ จากนั้นผ่านตัวบ่งชี้ไปยังโซลูชัน และอีกครั้งไปยังระบบ แน่นอนว่าตามเส้นทางอันยาวไกลนี้มีข้อผิดพลาดมากมายเกิดขึ้นทั้งมีวัตถุประสงค์และเป็นส่วนตัวซึ่งเพียงพอแล้วสำหรับการเบี่ยงเบนร้ายแรงจากผลลัพธ์ที่วางแผนไว้

หลักการของการเพิ่มประสิทธิภาพเป็นที่เข้าใจกันว่าเป็นชุดของกฎที่ได้รับความช่วยเหลือจากผู้มีอำนาจตัดสินใจในการกำหนดการกระทำของเขา (การตัดสินใจ ทางเลือก กลยุทธ์ การตัดสินใจของฝ่ายบริหาร) ที่มีส่วนช่วยให้บรรลุเป้าหมายได้ดีที่สุด หลักการของการเพิ่มประสิทธิภาพนั้นถูกเลือกตามเงื่อนไขเฉพาะของการตัดสินใจ: จำนวนผู้เข้าร่วม ความสามารถและเป้าหมายของพวกเขา ลักษณะของความขัดแย้งทางผลประโยชน์ (การเป็นปรปักษ์ ไม่เป็นปรปักษ์ ความร่วมมือ ฯลฯ)

ในแบบจำลองการตัดสินใจ โดยเฉพาะอย่างยิ่งในทฤษฎีเกม หลักการที่เป็นทางการจำนวนมากของพฤติกรรมที่เหมาะสมที่สุดได้รับการพัฒนา เราจะเน้นที่นี่เพียงบางส่วนเท่านั้น

หลักการของการขยายให้สูงสุด (ย่อเล็กสุด) หลักการนี้ใช้กับ ส่วนใหญ่เป็นปัญหาการเขียนโปรแกรมทางคณิตศาสตร์ (ดู (2) - (4))

หลักการของการบิดเกณฑ์ใช้เมื่อ "เพิ่มประสิทธิภาพ" หลายเกณฑ์โดยศูนย์ประสานงานแห่งเดียว (ปัญหาการเพิ่มประสิทธิภาพหลายเกณฑ์ (5)) สำหรับแต่ละเกณฑ์ (ฟังก์ชันวัตถุประสงค์)

ฉ 1 (คุณ),...,ฉ n (คุณ)

"ตุ้มน้ำหนัก" (ตัวเลข) กำหนดโดยผู้เชี่ยวชาญ

โดยที่ α i แสดง “ความสำคัญหรือนัยสำคัญ” ของเกณฑ์f ถัดไป โซลูชัน x* จากชุดโซลูชันที่เป็นไปได้ X จะถูกเลือกเพื่อเพิ่ม (หรือย่อให้เล็กสุด) การบิดเบือนของเกณฑ์:

หลักการของการตั้งค่าพจนานุกรมนี่เป็นอีกหลักการหนึ่งของการปรับให้เหมาะสมที่สุดในปัญหาการปรับให้เหมาะสมหลายเกณฑ์ ประการแรก เกณฑ์จะถูกจัดอันดับตาม "ความสำคัญ" ให้ทำการจัดอันดับดังต่อไปนี้:

ฉ 1 (x),ฉ 2 (x),...,ฉ n (x)

ผลเฉลย x*X นั้น “ดีกว่า” มากกว่าผลเฉลย xX ในแง่พจนานุกรมศัพท์ หากตรงตามเงื่อนไขข้อใดข้อหนึ่งจาก n+1:

    ฉ 1 (x*)>ฉ 1 (x);

    ฉ 1 (x*)=ฉ 1 (x), ฉ 2 (x*)>ฉ 2 (x);

    ฉ 1 (x*)=ฉ 1 (x), ฉ 2 (x*)=ฉ 2 (x), ฉ 3 (x*)>ฉ 3 (x);

………………

    ฉ ฉัน (x*)=ฉ ฉัน (x) สำหรับ i=1,…,n-1, ฉ n (x*)>ฉ n (x);

n+1) ฉ ฉัน (x*)=ฉ ฉัน (x) สำหรับ i=1,…,n

หลักการขั้นต่ำสุดใช้เมื่อผลประโยชน์ของทั้งสองฝ่ายขัดแย้งกัน (ความขัดแย้งที่เป็นปรปักษ์) ผู้มีอำนาจตัดสินใจแต่ละคนจะคำนวณผลลัพธ์ที่ "รับประกัน" สำหรับแต่ละกลยุทธ์ (ทางเลือก) ก่อน จากนั้นจึงเลือกกลยุทธ์ที่ให้ผลลัพธ์นี้ยิ่งใหญ่ที่สุดเมื่อเทียบกับกลยุทธ์อื่นๆ การกระทำดังกล่าวไม่ได้ให้ "ผลประโยชน์สูงสุด" แก่ผู้มีอำนาจตัดสินใจ แต่เป็นเพียงหลักการเดียวที่สมเหตุสมผลของการเพิ่มประสิทธิภาพในสภาวะของความขัดแย้งที่เป็นปรปักษ์ โดยเฉพาะอย่างยิ่ง ไม่รวมความเสี่ยงใดๆ

หลักการของความสมดุลนี่เป็นภาพรวมของหลักการขั้นต่ำสุด เมื่อหลายฝ่ายมีส่วนร่วมในการโต้ตอบ โดยแต่ละฝ่ายต่างบรรลุเป้าหมายของตนเอง (ไม่มีการเผชิญหน้าโดยตรง) ให้จำนวนผู้มีอำนาจตัดสินใจ (ผู้เข้าร่วมในความขัดแย้งที่ไม่เป็นปรปักษ์) เป็น n ชุดของกลยุทธ์ที่เลือก (สถานการณ์)x 1 *,x 2 *,…,xn * เรียกว่าสมดุลหาก การเบี่ยงเบนฝ่ายเดียวของผู้มีอำนาจตัดสินใจจากสถานการณ์นี้สามารถนำไปสู่ ​​"กำไร" ของเขาเองที่ลดลงเท่านั้น ในสถานการณ์ที่สมดุล ผู้เข้าร่วมจะไม่ได้รับผลตอบแทน "สูงสุด" แต่พวกเขาถูกบังคับให้ยึดติดกับมัน

หลักการเพิ่มประสิทธิภาพพาเรโตหลักการนี้ถือว่าสถานการณ์เหล่านั้นเหมาะสมที่สุด (ชุดของกลยุทธ์ x 1,...,xn) ซึ่งการปรับปรุง "ผลตอบแทน" ของผู้เข้าร่วมแต่ละรายนั้นเป็นไปไม่ได้ โดยไม่ทำให้ "ผลตอบแทน" ของผู้เข้าร่วมรายอื่นแย่ลง หลักการนี้ทำให้ความต้องการแนวคิดเรื่องการหาค่าเหมาะที่สุดมีน้อยกว่าหลักการสมดุล ดังนั้นสถานการณ์ Pareto-optimal จึงมีอยู่เสมอ

หลักการของผลลัพธ์ที่ไม่ครอบงำ- หลักการนี้เป็นตัวแทนของหลักการเพิ่มประสิทธิภาพสูงสุดหลายประการในเกมร่วมมือ (การตัดสินใจโดยรวม) และนำไปสู่แนวคิดของ "แกนกลาง" ของการตัดสินใจ ผู้เข้าร่วมทั้งหมดรวมตัวกันและผ่านการดำเนินการร่วมกัน ทำให้เกิด "ผลประโยชน์ทั้งหมด" สูงสุด หลักการไม่ครอบงำเป็นหนึ่งในหลักการของการแบ่งแยกที่ "ยุติธรรม" ระหว่างผู้เข้าร่วม นี่คือสถานการณ์เมื่อไม่มีผู้เข้าร่วมคนใดสามารถคัดค้านการแบ่งส่วนที่เสนอนี้ได้อย่างสมเหตุสมผล (องค์ประกอบ "แกนกลาง") มีหลักการอื่นๆ สำหรับการแบ่งส่วน "ที่เหมาะสมที่สุด" ของเงินรางวัลทั้งหมด

หลักการความยั่งยืน(ภัยคุกคามและการตอบโต้ภัยคุกคาม)แนวคิดเบื้องหลังหลักการความสามารถในการฟื้นตัวจากภัยคุกคามทั้งหมดมีดังต่อไปนี้ ผู้เข้าร่วมพันธมิตรแต่ละกลุ่มเสนอข้อเสนอของตนพร้อมกับภัยคุกคามที่แท้จริง: หากข้อเสนอไม่ได้รับการยอมรับจากผู้เข้าร่วมที่เหลือ การดำเนินการจะดำเนินการที่ทำให้ตำแหน่งของผู้เข้าร่วมรายอื่นแย่ลงและไม่ทำให้ตำแหน่งแย่ลง (อาจปรับปรุง) ตำแหน่ง ของแนวร่วมคุกคาม แนวทางแก้ไขที่ดีที่สุดคือแนวทางหนึ่งที่จะมีการต่อต้านภัยคุกคามจากแนวร่วมบางกลุ่ม

แผนการอนุญาโตตุลาการ ความขัดแย้งทางเศรษฐกิจชี้ให้เห็นแนวคิดของ "ผู้ตัดสินทางสังคม" เป็นสิ่งที่ไม่พึงปรารถนาที่ความขัดแย้งทางผลประโยชน์จะกลายเป็นภัยคุกคามที่เปิดกว้างและตอบโต้ภัยคุกคาม จะต้องมีกลไกทางสังคมที่จะยอมให้คำนึงถึงความชอบและความสามารถเชิงกลยุทธ์ของผู้เข้าร่วมแต่ละคน และจะจัดให้มีแนวทางแก้ไขที่ "ยุติธรรม" สำหรับความขัดแย้ง กลไกล่วงหน้าดังกล่าว ไม่ว่าจะเป็นบุคคลหรือระบบการลงคะแนน เรียกว่าผู้ชี้ขาด ในทฤษฎีเกม ทางออกที่ดีที่สุดในแง่ของแผนการอนุญาโตตุลาการ ถูกสร้างขึ้นโดยใช้ระบบสัจพจน์ รวมถึงแนวคิดต่างๆ เช่น สภาพที่เป็นอยู่ การเพิ่มประสิทธิภาพ Pareto ความเป็นเส้นตรงของทางเลือก ความเป็นอิสระจาก "อันดับ" ฯลฯ

ให้เราพิจารณาประเด็นการตัดสินใจที่เหมาะสมที่สุดเพิ่มเติมภายใต้เงื่อนไขของความไม่แน่นอน เพื่อพัฒนาพฤติกรรมที่เหมาะสมของผู้มีอำนาจตัดสินใจ จะเป็นประโยชน์ในการสร้างแบบจำลองสถานการณ์เช่นเกมที่เป็นปฏิปักษ์กันของคนสองคน โดยที่ธรรมชาติถือเป็นฝ่ายตรงข้ามของผู้มีอำนาจตัดสินใจ อย่างหลังนี้เต็มไปด้วยความเป็นไปได้ทั้งหมดที่เป็นไปได้ภายใต้เงื่อนไขที่กำหนด

“เกมที่เป็นธรรมชาติ” มีหลักการเฉพาะของตนเอง (แม้ว่าจะชวนให้นึกถึงหลักการ minimax) สำหรับทางเลือกวิธีแก้ปัญหาที่เหมาะสมที่สุด

หลักการมองโลกในแง่ร้ายอย่างรุนแรง (เกณฑ์ของ Wald) ตามหลักการนี้ การเล่นกับธรรมชาติ (การตัดสินใจภายใต้เงื่อนไขของความไม่แน่นอน) ถือเป็นเกมที่มีคู่ต่อสู้ที่สมเหตุสมผลและดุดันซึ่งทำทุกอย่างเพื่อป้องกันไม่ให้เราประสบความสำเร็จ กลยุทธ์ของผู้มีอำนาจตัดสินใจจะถือว่าเหมาะสมที่สุดหากรับประกันได้ว่าจะได้รับผลประโยชน์ไม่น้อยกว่าที่ "อนุญาตโดยธรรมชาติ"

หลักการความเสี่ยงขั้นต่ำ (เกณฑ์โหด) หลักการนี้ยังมองในแง่ร้าย แต่เมื่อเลือกกลยุทธ์ที่เหมาะสมที่สุด แนะนำว่าอย่ามุ่งเน้นไปที่ "ชัยชนะ" แต่เน้นที่ความเสี่ยง ความเสี่ยงหมายถึงความแตกต่างระหว่างกำไรสูงสุดของผู้มีอำนาจตัดสินใจ (ขึ้นอยู่กับข้อมูลที่สมบูรณ์เกี่ยวกับสภาวะของธรรมชาติ) และกำไรที่แท้จริง (เนื่องจากความไม่รู้ของสภาวะของธรรมชาติ) กลยุทธ์ที่ดีที่สุดคือกลยุทธ์ที่มีความเสี่ยงน้อยที่สุด

หลักการมองโลกในแง่ร้าย - การมองโลกในแง่ดี (เกณฑ์ Hurwitz)เกณฑ์นี้แนะนำว่าเมื่อเลือกวิธีแก้ปัญหา คุณไม่ควรถูกชี้นำโดยการมองโลกในแง่ร้ายอย่างรุนแรง (“จงนับสิ่งที่เลวร้ายที่สุด!”) หรือการมองโลกในแง่ดีอย่างรุนแรง (“บางทีเส้นโค้งอาจทำให้คุณหลุดพ้น!” ตามเกณฑ์นี้) ค่าเฉลี่ยถ่วงน้ำหนักระหว่างการมองโลกในแง่ร้ายอย่างรุนแรงและการมองโลกในแง่ดีสุดขีดจะถูกขยายให้ใหญ่สุด นอกจากนี้ “น้ำหนัก” ยังถูกเลือกตามการพิจารณาเชิงอัตนัยเกี่ยวกับอันตรายของสถานการณ์

แนวคิดเสถียรภาพแบบไดนามิกหลักการของการเพิ่มประสิทธิภาพข้างต้นทั้งหมดได้รับการกำหนดขึ้นโดยสัมพันธ์กับปัญหาการตัดสินใจแบบคงที่ ความพยายามที่จะใช้ในปัญหาแบบไดนามิกอาจมาพร้อมกับภาวะแทรกซ้อนทุกประเภท

สิ่งสำคัญคือคุณสมบัติของกระบวนการไดนามิก จำเป็นที่หลักการเพิ่มประสิทธิภาพอย่างใดอย่างหนึ่งที่เลือกไว้ในสถานะเริ่มต้นของกระบวนการ (ที่จุดเริ่มต้น) ยังคงเหมาะสมที่สุดในสถานะปัจจุบันใด ๆ ( ณ เวลาใดก็ได้) จนกระทั่งสิ้นสุดกระบวนการไดนามิก หลักการนี้เรียกว่าเสถียรภาพแบบไดนามิก

ภายใต้เงื่อนไข Cq -^ O

การศึกษาวิธีแก้ปัญหาสำหรับค่าน้อยของปัจจัยน้ำหนักในการทำงาน (6.6) เป็นเรื่องที่น่าสนใจอย่างมากจากมุมมองของการประเมินความแม่นยำสูงสุดที่ทำได้ของระบบวงปิดเมื่อมีข้อ จำกัด เกี่ยวกับความเข้มของการควบคุม (อำนาจ)ไม่สำคัญ นอกจากนี้ ดูเหมือนว่าสิ่งสำคัญคือต้องประเมินระดับพลังสูงสุดของการดำเนินการควบคุม ซึ่งเกินกว่านั้นจะไม่ทำให้ความแม่นยำในการควบคุมเพิ่มขึ้นอีก

เรานำเสนอบทบัญญัติหลักของการศึกษาพฤติกรรมที่ จำกัด ของระบบที่เหมาะสมที่สุดภายใต้เงื่อนไข c 0 - » 0 ในรูปแบบของข้อความต่อไปนี้

ทฤษฎีบท 6.3 สำหรับระบบปิด (6.4), (6.7), ซึ่งเหมาะสมที่สุดในแง่ของฟังก์ชันการทำงาน (6.6), ความสัมพันธ์นั้นถูกต้อง

ใช้สัญลักษณ์เพิ่มเติมต่อไปนี้ที่นี่:

และพหุนามข* คือเฮอร์วิทซ์ และจำนวนเชิงซ้อน(3, Р 2 ,..., Р หน้า คือรากร่วมของพหุนาม M(s) และ B*(-ส)

การพิสูจน์.ให้เราแนะนำสัญกรณ์และโดยการเปรียบเทียบกับสูตร (6.26), (6.27) ให้เขียนความสัมพันธ์

ที่ไหน กจ (i = l,n)- รากของพหุนาม G'(-s,7.)

โดยคำนึงถึง (6.42)-(6.44) สามารถนำเสนอสูตร (6.13)-(6.15) ในรูปแบบต่อไปนี้:

เห็นได้ชัดว่าการพิจารณาถึงพฤติกรรมการจำกัดของระบบวงปิดภายใต้เงื่อนไข จาก 0 -> 0 เทียบเท่าพิจารณาถึงพฤติกรรมที่จำกัดของมันภายใต้เงื่อนไข เอ็กซ์-> ซือ

ก่อนที่จะไปสู่การพิสูจน์ทฤษฎีบทโดยตรง เราจะพิจารณาพฤติกรรมที่จำกัดของรากของพหุนาม G*(-ส,X) ในตัวตน (6.43) ภายใต้เงื่อนไขที่กำหนด

เพื่อจุดประสงค์นี้เราจะใช้ข้อความที่รู้จักกันดีในงานซึ่งตามนั้นเมื่อมุ่งมั่น เอ็กซ์-> 00 ม. รากของพหุนาม G*(-ส,X)มีแนวโน้มไปที่รากของพหุนาม B*(-ส)-ผลการแยกตัวประกอบของเนกูร์วิทซ์:

พักผ่อน (ป - ที)รากของพหุนาม G*(-ส,X)ระบุว่า เอ็กซ์-> °о ไปที่อนันต์ เข้าใกล้เส้นตรงเชิงเส้นกำกับที่ตัดกันที่จุดกำเนิดของพิกัดและสร้างมุมด้วยแกนจริงซึ่งกำหนดโดยนิพจน์

และรากทั้งหมดนี้อยู่บนรัศมีวงกลม

โดยคำนึงถึงข้อควรพิจารณาข้างต้นแล้วเราก็มี
ที่ใช้สัญกรณ์

และค่าสัมประสิทธิ์คงที่ /с, (/ =,พ-ที-) ไม่ขึ้นอยู่กับค่าของ X

ตอนนี้เราจะพิจารณาสองตัวเลือกที่เป็นไปได้ตามลำดับเกี่ยวกับพหุนามMPB(-s)ในการขยายตัว (6.41) ตามลำดับ โดยมีลักษณะตามเงื่อนไขเอ็มอาร์บี=1 และเอ็ม อาร์บี เอฟ 1.

ตัวเลือกที่ 1 สมมติว่าตรงตามเงื่อนไขม พี ข(~ ส) =1 ซึ่งเทียบเท่ากับความเท่าเทียมกัน Г) = 0 ซึ่งหมายความว่าพหุนามใน"(-s) ไม่มีรากที่เหมือนกันกับพหุนาม M(s) = B"(-

ให้เราพิจารณาพฤติกรรมจำกัดของพหุนามR(s,X)(6.47) จัดให้เอ็กซ์ ->°° โดยที่เคยตั้งข้อสังเกตไว้แล้วว่า

จาก (6.50) เป็นไปตามนั้นรากของพหุนามลิมก ฉ (-s,X)ตรงกับราก (3, (/ = 1,m) ของพหุนามB*(-ส), และที่เหลือ(พี - ที)

ราก - มีราก p g (g =เสื้อ + 1,พี)พหุนามพี(-ส,X)(6.53) ซึ่งกำหนดโดยนิพจน์ต่อไปนี้:

ในกรณีนี้ความสัมพันธ์เป็นที่พอใจอย่างเห็นได้ชัด

โดยคำนึงถึงความสัมพันธ์ (6.50) และ (6.54)-(6.56) ซึ่งเป็นลิมิตพหุนามR(s, X)สามารถแสดงเป็นผลรวมของพหุนามลิมิตสองตัวได้อาร์^ไซเอ็กซ์)และR2(ส,X):

พหุนามตัวแรกเหล่านี้เชื่อมโยงกับรากเท่านั้น (3 และตัวที่สอง - เฉพาะกับราก p:

ตาม (6.56) เรามี lim Р(-|3-Д) = Eagleเอ็กซ์1 ดังนั้นนิพจน์

สมการ (6.57) สามารถแสดงได้ในรูป หรือ

เนื่องจากตามสูตร (6.51), (6.53)

โปรดทราบว่าพหุนาม B,*(s) มีค่าสัมประสิทธิ์จำกัดที่ไม่เป็นศูนย์เนื่องจากเงื่อนไข M(P,.)*0 และไม่ขึ้นกับ เอ็กซ์

ตอนนี้เราแปลงความสัมพันธ์ (6.58) โดยนึกถึงความเท่าเทียมกันต่อไปนี้: deg A(s) =, เอสเจ =N(s)/T(s), องศาN(s) =พี, องศา T =ถาม- นอกจากนี้เรายังคำนึงว่าเงื่อนไข degB"(-s) = degB“(s) =ที,เพราะมันง่ายที่จะแสดงให้เห็น ย่อมนำมาซึ่งความสมหวังในความสัมพันธ์

แล้วเราก็มี

แต่จากสูตร (6.55) โดยคำนึงถึงความสัมพันธ์ของบัญชี (6.60) จะได้ดังนี้ และตาม (6.56), (6.51):

ที่ไหนก*และก**(/ = m + 1,н) - จำนวนเชิงซ้อนที่มีโมดูลัสจำกัดแตกต่างจากศูนย์ แล้วเราก็ได้

และตามลำดับ

โดยอาศัยอำนาจตาม (6.50)-(6.53) และ (6.55) เราได้:

และจำนวนเชิงซ้อนคงที่ r; - คุณ , r 2i , คิ ฉัน , k 2i , ... , เค(น - ม. -2 )ฉัน (ฉัน= + 1,i) ไม่ขึ้นอยู่กับค่าของ A

แล้วพิจารณาความถูกต้องของความไม่เท่าเทียมกัน หน้า> 1 (มิฉะนั้น Pj(s,X) = const) เรามี lim ?)(s,A)/A = 0 และตามสูตร (6.61)

แต่ตามอัตลักษณ์ (6.59) และ (6.62) เราได้รับ

ในกรณีนี้ ตาม (6.45) และ (6.46) เรามีสูตรต่อไปนี้สำหรับเมทริกซ์การถ่ายโอนขีดจำกัดของระบบปิดที่เหมาะสมที่สุด:

ตัวเลือกที่ 2ตอนนี้ให้พิจารณาสถานการณ์ที่สองเมื่อตัวตน ม ข (-ส) = 1 ไม่บรรลุผล กล่าวคือ ในกรณีนี้เราถือว่าพหุนามนั้น ใน"(-ส)และ M(s) = B"(-s)RC(s) มี D) รากที่เหมือนกัน

ในกรณีนี้คือพหุนาม บี-ส)จะแสดงด้วยผลิตภัณฑ์โดยที่

ต่างจากกรณีก่อนหน้านี้ เมื่อพิจารณาถึงพฤติกรรมจำกัดของพหุนาม R(s,X)ลองแสดงมันเป็นผลรวม สามเงื่อนไข:

และเราจะสร้างพหุนามอันแรกขึ้นมา เท่านั้นด้วยโดยใช้ราก (3, (/ = 1,Г)) ของพหุนาม Mpb(-s),ประการที่สอง - รากของ P g (I = T) +1, w) ของพหุนาม B" Q (-ส) และอันที่สาม - รูท c g (i = ม. + ล.n) พหุนาม ป.

ในกรณีนี้ เราได้รับพหุนามที่สองและสามในการเปรียบเทียบกับเวอร์ชันก่อนหน้าอย่างสมบูรณ์

สำหรับพหุนาม รับเรามี

เนื่องจาก M(RD = 0 วี .

จากสูตรที่กำหนด (6.67)-(6.69) จะเป็นไปตามเอกลักษณ์ lim Kj(s,A,) = ข*2และแทนที่ด้วยพหุนาม (6.64) บี[(s)บน B* 2 (ส),

เราได้รับเมทริกซ์การถ่ายโอนแบบจำกัดเวอร์ชันที่สองสำหรับระบบวงปิดที่เหมาะสมที่สุด เมื่อรวมทั้งสองตัวเลือกด้วยสัญลักษณ์เดียว เราจะได้ความสัมพันธ์ (6.37)-(6.41)

ทฤษฎีบทนี้ได้รับการพิสูจน์อย่างสมบูรณ์แล้ว -

ให้เราให้ข้อพิสูจน์ตามธรรมชาติจากทฤษฎีบท 6.3 ซึ่งมีนัยสำคัญที่เป็นอิสระ

ทฤษฎีบท 6.4ถ้ารากทั้งหมดของพหุนาม B*(-ส)ยังเป็นรากของพหุนาม M(s) =B"(-s)RC(s)และในขณะเดียวกันก็มีความเท่าเทียมกันเกิดขึ้นไรอาร์ = 0,แล้วฉัน x0= นช1 x (มี 0) = 0, เหล่านั้น.

โดยมีเงื่อนไขว่าข้อจำกัดด้านอำนาจของการดำเนินการควบคุมไม่น้อยกว่า 1 และ 0 =Nsh7 1((จาก 0),แบบฟอร์มที่กำหนด-

วันลอยกระทง (6.37 ก) สามารถบรรลุความแม่นยำในการควบคุมแบบสัมบูรณ์ (โดยไม่มีข้อผิดพลาดเป็นศูนย์)

การพิสูจน์. ตามเงื่อนไขของทฤษฎีบท ตามอัตลักษณ์ (6.41) ความสัมพันธ์ G) =ที,แต่จากสูตร (6.40) ตัวตนจะตามมาอาร์"(ส) = 0 .

ในกรณีนี้การเติมเต็มความเท่าเทียมกัน RyR = 0 ตามสูตร (6.38), (6.39) และ (6.37), (6.37a) และคำนึงถึง (6.41) ให้

ที่ไหน . ทฤษฎีบทได้รับการพิสูจน์แล้ว -

ลองพิจารณาสถานการณ์เฉพาะต่อไปนี้

ทฤษฎีบท 6.5ถ้าเป็นเมทริกซ์เป็นเส้นทแยงมุมโดยมีองค์ประกอบที่ไม่เป็นศูนย์เพียงตัวเดียว r pp = 1, กล่าวคือ ความแม่นยำของระบบวงปิดถูกกำหนดโดยการกระจายตัวขององค์ประกอบ p-th ของเวกเตอร์เอ็กซ์,แล้วความสัมพันธ์ต่อไปนี้จะคงอยู่:

ก)ถ้าพหุนาม В р(s)คือ Hurwitz หรือรากที่ "ถูกต้อง" ทั้งหมดรวมอยู่ในสเปกตรัมของรากของพหุนาม C p (s) แล้ว

ข)ถ้าพหุนาม B p (s) มีอย่างน้อยหนึ่งรากในระนาบครึ่งด้านขวาซึ่งไม่ใช่รากของพหุนาม C p (s) แล้ว

และนี่คือสูตรที่นำมาพิจารณา (6.37ก) และ (6.39)-(6.41) (ในกรณีนี้เรามี r

การพิสูจน์. จากสูตร (6.18) จะได้ว่าเมทริกซ์ 7(5) = ■ เราจะถือว่าที่ระดับบนสุดของลำดับชั้นจะมีองค์ประกอบ A0 ซึ่งเรียกว่าศูนย์กลาง เราแบ่งเซต Γ = 10\(/40) ออกเป็น 1> เซตย่อยที่ไม่ร่วม ¿>2 โดยที่ .และ £¿=7 มาแสดงกันเถอะ

ถึง 1Г, ..,^(0 ชุดของการกระทำที่ยอมรับได้ (control

คือ, กลยุทธ์) องค์ประกอบ A0> อัล เราจะถือว่า

สมมติว่าในกรณีทั่วไป ชุดของการดำเนินการที่ยอมรับได้จะขึ้นอยู่กับการควบคุมที่เลือกโดยองค์ประกอบของระดับที่สูงกว่าของระบบ และไม่ว่างเปล่าสำหรับค่าที่ยอมรับได้ของการควบคุมเหล่านี้ เราจะกำหนดเกณฑ์สำหรับองค์ประกอบใดๆ £е I ​​​​โดยฟังก์ชันบางอย่างที่กำหนดไว้บนเซต 1/x x ..l gse ^e^O), . แต่ละองค์ประกอบสนใจที่จะเพิ่มประสิทธิภาพการทำงานให้สูงสุด

เราจะจำลองกระบวนการตัดสินใจในระบบดังกล่าวด้วยเกมหลายระดับแบบมีลำดับชั้น Г ซึ่งเราจะเรียกว่าเกมแบบมีลำดับชั้นในรูปแบบทั่วไป

ใน § 1.2 มีการพูดคุยถึงปัญหาการปรับให้เหมาะสมที่สุดในการควบคุมและระบบการตัดสินใจที่มีโครงสร้างแบบลำดับชั้น และมีการกำหนดแนวคิดของโครงสร้างการควบคุมแบบลำดับชั้น องค์ประกอบลักษณะเฉพาะที่ใช้ในการเลือกโซลูชันในระบบลำดับชั้นคือชุดของปฏิกิริยาที่เหมาะสมที่สุดของแต่ละบุคคล

ส่วนประกอบของระบบ noP หรือกลุ่มของส่วนประกอบ /?( ) เปิดอยู่

การเลือกการควบคุมระบบย่อยในระดับที่สูงขึ้น ในส่วนนี้จะกล่าวถึงโมเดลการตัดสินใจเฉพาะจำนวนหนึ่งในระบบควบคุมสองระดับ

ส่วนที่ 1.3 เกี่ยวข้องกับหลักการของการเพิ่มประสิทธิภาพที่ใช้ในโมเดลทฤษฎีเกม ที่นี่เราจะพิจารณาเกมสองระดับที่มีลักษณะคล้ายต้นไม้และเกมที่มีลำดับชั้นทั่วไป ความสมดุลของ Nash และ Stackelberg ถูกใช้เป็นหลักการในการเพิ่มประสิทธิภาพในเกมเหล่านี้ แสดงให้เห็นว่าในเกมแบบต้นไม้ ภายใต้สมมติฐานของเอกลักษณ์ของจุดสูงสุดของฟังก์ชันผลตอบแทนสำหรับค่าทั้งหมดของพารามิเตอร์ โซลูชัน Stackelberg เกิดขึ้นพร้อมกับชุดของสถานการณ์สมดุลตาม Neu ของ Neu

สำหรับเกม Г เราแนะนำแนวคิดของกลยุทธ์ลำดับชั้นที่สมดุลของผู้เล่น

ให้เรากำหนดชุดปฏิกิริยาที่เหมาะสมที่สุดของผู้เล่นในระดับนี้ดังนี้:

/G(>Y,...U~1b(rLg/£_ ^ H; (u, y,1 .u1~\

ไอร์อยู่ที่ไหน

vl¡\!^" - เวกเตอร์ควบคุมที่องค์ประกอบ £th ถูกแทนที่ด้วย r>/

คำนิยาม. Mapping V n., u]..u^""1) » กำหนดให้กับแต่ละชุดที่ยอมรับได้ u> y1,.. การควบคุมเพียงระดับ k-th ที่เป็นของ

”ภายใต้ปฏิกิริยาที่เหมาะสมที่สุด เราจะทำ

เรียกมันว่ากลยุทธ์ลำดับชั้นสมดุลของระดับ L

มีปฏิกิริยาที่เหมาะสมที่สุดหลายอย่างที่นี่หรือไม่?< -го уровня определяется так:

โดยที่ V ( ),...(.) ตามลำดับคือลำดับชั้นสมดุล

กลยุทธ์ทางเทคนิคของระดับ &-I,...,b-th

เราจะเรียกวิธีแก้ปัญหาลำดับชั้นสมดุลของจุดศูนย์กลางว่าเซต R0 ของค่าทั้งหมดจะควบคุม ¿7 โดยที่

บทแทรก 1 พิสูจน์ว่าชุดกลยุทธ์ลำดับชั้นสมดุลใดๆ ก่อให้เกิดสถานการณ์สมดุลของแนช สำหรับกรณีพิเศษของเกม Г เมื่อมีผู้เล่นเพียงคนเดียวในแต่ละระดับของลำดับชั้น ทฤษฎีบทที่ 1 จะถูกกำหนดขึ้นเกี่ยวกับการมีอยู่ของสถานการณ์สมดุลทางอิเล็กทรอนิกส์

ใน § 1.4 มีการกล่าวถึงกระบวนการค้นหาวิธีแก้ปัญหาของ Dtakelberg ในเกมรูปทรงเพชรอย่างละเอียด รวมถึงพิจารณาระบบควบคุมรูปทรงเพชรหลายเกณฑ์ที่ใช้หลักการเพิ่มประสิทธิภาพแบบผสมด้วย เพื่อให้สอดคล้องกับระบบเกมรูปทรงเพชรนี้ จึงได้มีการนำเสนอแนวคิดของโซลูชัน SP ซึ่งมีคุณสมบัติของโซลูชัน Stackelberg และข้อกำหนดของการปรับให้เหมาะสมที่สุดของ Pareto เพื่อแสดงให้เห็นกระบวนการตัดสินใจในระบบที่มีโครงสร้างรูปสี่เหลี่ยมขนมเปียกปูน เราจะพิจารณาปัญหาของการสร้างแผนการที่เหมาะสมที่สุดสำหรับหน่วยการผลิต C ซึ่งอยู่ใต้บังคับบัญชาของศูนย์บริหาร 2 แห่ง B1 และ A ซึ่งก็จะอยู่ใต้บังคับบัญชาของศูนย์กลาง A0 เช่นกัน และปัญหาดังกล่าวของการจัดสรรทรัพยากรในระบบการผลิตแบบลำดับชั้น -

คุณสมบัติหลักของเกมความร่วมมือที่มีโครงสร้างแบบลำดับชั้นคือฟังก์ชั่นที่เป็นลักษณะเฉพาะในเกมเหล่านี้ถูกสร้างขึ้นโดยคำนึงถึงโครงสร้างข้อมูล ในงานของ L.A. Petrosyan ฟังก์ชั่นที่เป็นลักษณะเฉพาะของเกมรูปทรงเพชรถูกสร้างขึ้นโดยใช้สถานการณ์สมดุลของแนช ส่วนที่ 1.5 เสนอวิธีการสร้างฟังก์ชันลักษณะของเกมแบบลำดับชั้นแบบร่วมมือในรูปแบบทั่วไปโดยใช้กลยุทธ์แบบลำดับชั้นสมดุลของผู้เล่นในเกมที่ไม่ร่วมมือ G พิสูจน์ความเป็น superadditivity ของฟังก์ชันลักษณะเฉพาะที่สร้างขึ้นแล้ว ทฤษฎีบทที่ 4 กำหนดว่าเวกเตอร์ผลตอบแทนในสถานการณ์สมดุลของเกม Г เป็นส่วนหนึ่งในเกมร่วมมือและเป็นของ C-core ในตอนท้ายของส่วนนี้ จะพิจารณาตัวอย่างการสร้างฟังก์ชันลักษณะเฉพาะในเกมรูปเพชร

สิ่งพิมพ์ทางวิทยาศาสตร์ 3 ชุดโดย R.D. Auman, N.N. Vorobyov, P.P. Lewis, E. Dmmme, D. M. Kreps, N. Kuhn และนักวิจัยคนอื่นๆ

การปรับเปลี่ยนแนวคิดเรื่องเสถียรภาพของสถานการณ์สมดุลในเกมต่างๆ ถือเป็นรูปแบบที่ขยายออกไป ในส่วนที่ 1.6 จะมีการแนะนำแนวคิดใหม่เกี่ยวกับความเสถียรของวิธีแก้ปัญหาในเกมแบบลำดับชั้น Г ในรูปแบบทั่วไป ให้เราแสดงโดย

M = (O, วี,...,r>n); u.e/g°, vke ..k = \,r,...,b)

วิธีแก้ปัญหาของเกมแบบลำดับชั้น Г ซึ่งชุดของการแก้ปัญหาแบบลำดับชั้นที่ดีที่สุดของศูนย์อยู่ที่ไหน /?*( ] คือชุดของปฏิกิริยาที่ดีที่สุดของผู้เล่นในระดับ kth ซึ่งไม่ว่างเปล่าสำหรับค่าที่ยอมรับได้ทั้งหมดของการควบคุมของ ผู้เล่นระดับสูงกว่า

ให้เราแสดงกลยุทธ์แบบลำดับชั้นของผู้เล่น r โดย Ε>-(") และแนวร่วมโดย

ขอให้เราพิจารณาสถานการณ์ (และ y 1(-), ■ ■., เช่นนั้น

ใดๆ -ue/?0, = u, A = 1,2,...,1-

ให้ M^ เป็นเซตย่อยของ M รวมถึงทางเลือกทั้งหมดที่มีจุดศูนย์กลางคงที่ สำหรับแต่ละ k = 1,2,...,1 เราจะแนะนำเซตนี้

m1m.... V1"") = ((g>?..., V1): . 1>1.y-"), 1-K..L

คำนิยาม. ทางเลือกอื่น (และ V1,... เรียกว่า

มีเสถียรภาพตามลำดับชั้นเมื่อเทียบกับสถานการณ์ ถ้าสำหรับ k = ใดๆ ■(, 2,..., I

เราจะเรียกเซตย่อย A/" ของเซต Mi ตามลำดับชั้นที่เสถียรโดยคำนึงถึงสถานการณ์ (.u.uH"),...,X10)) ถ้าทางเลือกอื่นจากเซต M^ นั้นมีความเสถียรแบบลำดับชั้นตามสถานการณ์นี้ . สถานการณ์ (และ<рV-;,... ...»ф^С-)) будем называть абсолютно иерархически устойчивой, если относительно нее устойчиво множество М1о.

ให้เรากำหนดทฤษฎีบทต่อไปนี้เกี่ยวกับเงื่อนไขที่จำเป็นและเพียงพอสำหรับเสถียรภาพของลำดับชั้นซึ่งได้รับการพิสูจน์แล้วในบทแรก

ทฤษฎีบทที่ 6 เพื่อเป็นทางเลือก

มีความเสถียรตามลำดับชั้นเมื่อเทียบกับสถานการณ์ (_ และ, $4-),...

-»С-)) มีความจำเป็นและเพียงพอสำหรับทุกคน

£ =1,2,",..,£ เป็นไปตามเงื่อนไข

พี เค-<1()у*"*;,

โดยที่ У^ср1^,»1,..., V , £=

ทฤษฎีบท 7 เพื่อให้สถานการณ์ที่เหมาะสมที่สุด C, ^"O,--"/?^")) มีความเสถียรแบบลำดับชั้นอย่างแน่นอน จำเป็นและเพียงพอสำหรับทางเลือกอื่น (u, r>1...>y1 )&M1 ตรงตามเงื่อนไข

สำหรับทุก A = (,2., ... ,1 .

บทที่ 2 ระบบควบคุมความขัดแย้งแบบไดนามิก

ด้วยโครงสร้างแบบลำดับชั้น

บทนี้กำหนดปัญหาการจัดการความขัดแย้งของระบบไดนามิกทั่วไปที่มีโครงสร้างแบบลำดับชั้น สำหรับระบบควบคุมแบบลำดับชั้นซึ่งพลศาสตร์ถูกอธิบายโดยสมการเชิงอนุพันธ์ของเวกเตอร์และฟังก์ชันผลตอบแทนประกอบด้วยเงื่อนไขอินทิกรัลและเทอร์มินัลปัญหาของความเสถียรแบบไดนามิกของการแก้ปัญหาสำหรับหลักการการปรับให้เหมาะสมที่สุดต่างๆ ได้รับการกำหนดเงื่อนไขภายใต้การแก้ปัญหาที่กลายเป็นแบบไดนามิก มีการศึกษาความเสถียร และสำหรับหลักการเพิ่มประสิทธิภาพที่ไม่เสถียร มีการเสนอวิธีการทำให้เป็นมาตรฐานเพื่อให้แน่ใจว่าโซลูชั่นของเกมที่มีลำดับชั้นมีความเสถียรแบบไดนามิก

ส่วนที่ 2.1 กำหนดปัญหาการควบคุมข้อขัดแย้งในแบบจำลองไดนามิกที่มีโครงสร้างแบบลำดับชั้น อภิปรายเงื่อนไขที่รับรองการมีอยู่และไม่ซ้ำกันของการแก้ปัญหาของระบบสมการเชิงอนุพันธ์สำหรับกลยุทธ์และการควบคุมประเภทต่างๆ และจัดเตรียมเงื่อนไขภายใต้ชุดที่เป็นไปได้ทั้งหมด วิถีเมื่อใช้โปรแกรมและการควบคุมการสังเคราะห์ตรงกัน ในตอนท้ายของส่วนนี้ เราจะพิจารณาสองตัวอย่างในการค้นหาสถานการณ์สมดุลในเกมดิฟเฟอเรนเชียลสองระดับที่มีเทอร์มินัล

ชัยชนะ ตัวอย่างที่พิจารณานั้นโดดเด่นด้วยความจริงที่ว่ากลยุทธ์ที่เหมาะสมที่สุดในหนึ่งในนั้นกลายเป็นความไม่เสถียรแบบไดนามิกและในอีกอันหนึ่งก็มีคุณสมบัติตรงกันข้าม

พลวัตของระบบลำดับชั้นความขัดแย้งทั้งหมดที่กล่าวถึงในย่อหน้าแรกและตลอดทั้งบทอธิบายไว้ในสมการเชิงอนุพันธ์เวกเตอร์

ในสภาวะเริ่มต้น

ฉัน T > ควบคุม gs อีอาร์ e ในแต่ละช่วงเวลาจะถูกเลือกจากชุดกะทัดรัด,..., Рп, £ = ■1,2,...,п ฟังก์ชั่นผลตอบแทนของผู้เล่นจะพิจารณาในรูปแบบ

= ¿-0.1....น.

จุดสำคัญในการสร้างแบบจำลองทฤษฎีเกมของการตัดสินใจในระบบการจัดการความขัดแย้งคือการเลือกหลักการของการเพิ่มประสิทธิภาพ เช่นเดียวกับประเภทของกลยุทธ์ที่ผู้เล่นใช้ นี้จะกล่าวถึงในย่อหน้าที่ 2.2 ตามคำศัพท์ที่ยอมรับ เรากำหนดกลยุทธ์ของผู้เล่นเป็นการแมปข้อมูลของผู้เล่นรายนี้ที่ตั้งค่าไว้กับชุดพารามิเตอร์ควบคุมของเขา ในกรณีทั่วไป จะถือว่าพื้นที่กลยุทธ์ของผู้เล่นคนที่ 1 เป็นชุดของการแมป ^¿(¿,xO>) โดยที่ I คงที่ (p.(-) ขึ้นอยู่กับ

นี่เป็นกรณีที่ในเกมความแตกต่างที่มีลำดับชั้นของคนสองคน มีการใช้กลยุทธ์ที่รวมถึงการเชิญผู้เล่นระดับล่างให้ติดตาม ร่วมกับผู้เล่นระดับบน ซึ่งเป็นวิถีที่แน่นอนที่เป็นประโยชน์ต่อผู้เล่นทั้งสอง ตัวอย่างเช่นมีการใช้กลยุทธ์ดังกล่าวในงานของ A.F. Kleimenov

ในส่วนที่ 2.2 กลยุทธ์ที่คล้ายกันจะได้รับการพิจารณาสำหรับเกม p-N person สองระดับที่มีหนึ่งเซ็นเตอร์ - ผู้เล่นระดับบนสุด เมื่อศูนย์กลางไม่ส่งผลกระทบต่อไดนามิกของระบบ แต่เพียงมูลค่าของฟังก์ชันผลตอบแทนของเกมเท่านั้น

หินระดับล่าง คุณลักษณะเฉพาะของการออกแบบโซลูชันที่นำเสนอคือการมีกลยุทธ์ UG เป็นศูนย์กลาง ea ซึ่งสันนิษฐานว่าในกรณีที่มีการเบี่ยงเบนไปจากการดำเนินการตามวิถีที่เสนอ ศูนย์จะเปลี่ยนไปใช้ยุทธศาสตร์สากล ซึ่งสามารถตีความได้ว่าเป็นกลยุทธ์การลงโทษด้วย ย่อหน้าต่อไปนี้จะกล่าวถึงการประยุกต์ใช้หลักการที่เหมาะสมที่สุด! ประเภท Stackolberg สำหรับเกมดิฟเฟอเรนเชียลสองและสามระดับ ในตอนท้ายของส่วนนี้ จะพิจารณาตัวอย่างของการค้นหา o: วิธีแก้ปัญหา Tical ตาม Ltakelbsrg รวมถึงโซลูชัน BR ในเกมดิฟเฟอเรนเชียลสองระดับ

ในส่วนที่ 2.3 จะมีการกล่าวถึงปัญหาความเสถียรแบบไดนามิกของวิธีแก้ปัญหาของเกมดิฟเฟอเรนเชียลแบบลำดับชั้น วิธีแก้ปัญหา M(10>x0) ของเกมดิฟเฟอเรนเชียลแบบลำดับชั้น ГС^0,ар^м ถูกเรียกว่าเสถียรแบบไดนามิก หากสำหรับชุดกลยุทธ์ใดๆ еМ(10,х0) และ ¿ец0> ใดๆ

แค่รู้สภาพ.

โดยที่ _ การจำกัดกลยุทธ์ที่เหมาะสมให้แคบลง เปิด

ช่วงเวลา Г] . А/((,х(ξ)) คือคำตอบของเกมปัจจุบันซึ่งใช้จุดของวิถีที่ดีที่สุด ณ เวลา b เป็นตำแหน่งเริ่มต้น จากคำจำกัดความของความเสถียรแบบไดนามิกของวิธีแก้ปัญหานี้เป็นไปตามกลยุทธ์ที่เหมาะสมที่สุด มีคุณสมบัติในการมีความเสถียรแบบไดนามิกตลอดระยะเวลาของวงโคจรของเกมตามวิถีที่ดีที่สุด

นอกจากนี้ในส่วนนี้ เสถียรภาพแบบไดนามิกของสมดุล Nohl และโซลูชัน Pareto ที่เหมาะสมที่สุดในระบบกลยุทธ์โปรแกรมได้รับการพิสูจน์แล้ว พูดคุยโดยละเอียดที่นี่:< динамические свойства решения по Стапельбергу перархическо! даффереициальной игры двух лиц. Показано, что даже в том с. чае, когда множество оптимальных реакций игрока нижнего ур>nya ประกอบด้วยกลยุทธ์เดียว นั่นคือโซลูชัน Stackelbe ในกรณีทั่วไป ปรากฏว่ามีความไม่เสถียรแบบไดนามิกทั้งในโปรแกรมและกลยุทธ์ตำแหน่งทั้งหมด ในขณะเดียวกัน ยังมีเกมแบบลำดับชั้นที่โซลูชัน Stackelberg มีความเสถียรแบบไดนามิก สิ่งนี้ได้รับการยืนยันโดยตัวอย่างเฉพาะที่อยู่ท้ายย่อหน้า

ส่วนที่ 2.4 มีไว้สำหรับวิธีการทำให้เป็นมาตรฐานของสองระดับ

เกมที่แตกต่าง เป้าหมายของวิธีนี้คือเพื่อให้แน่ใจว่าโซลูชันเกมมีความเสถียรแบบไดนามิก ในการดำเนินการนี้ ขอเสนอให้ผู้เล่นแต่ละคนจ่ายเงินส่วนหนึ่งของการชนะรวม ณ ขณะนั้นในช่วงเวลาที่เหลือจนกว่าจะสิ้นสุดเกม จะไม่สร้างผลกำไรสำหรับผู้เล่นที่จะเบี่ยงเบนไปจากกลยุทธ์ที่เลือก ในช่วงต้นเกม คุณสมบัติเฉพาะของโซลูชัน Stackel'erg สำหรับเกมสองระดับในคลาสของกลยุทธ์โปรแกรม สรุปไว้ในบทแทรกต่อไปนี้

เลมมา 2L. ให้ M(i0,x0) เป็นคำตอบของ Stackelberg ของเกมสองระดับ Г ในคลาสของกลยุทธ์โปรแกรม สำหรับทุกสถานการณ์ (ü,v^,...,vn)

วิล, P eRsCü.Li,T)),

โดยที่ Rs(ñ TU) คือชุดของปฏิกิริยาที่ดีที่สุดของผู้เล่นระดับล่างในเกมปัจจุบัน I. й-lГ]~ = (ß^iyT]).,., vn lít Г]) - การจำกัดการควบคุมที่เหมาะสมให้แคบลง ของผู้เล่นในช่วงเวลาดังกล่าว

บทแทรกที่คล้ายกันในส่วนนี้จัดทำขึ้นสำหรับวิธีแก้ปัญหา SP ของเกมดิฟเฟอเรนเชียลสองระดับ

ตอนนี้ให้เราพิจารณาดินสอของวิถี X?.(í) ¿0¡x0) Stackelberg เหมาะสมที่สุด โดยให้การควบคุมของจุดศูนย์กลาง il.(i) ได้รับการแก้ไขแล้ว จากนั้น ดังแสดงในทฤษฎีบทที่ 2 เงื่อนไข

N" °(ya,"P, vltj]) = ค่าต่ำสุดสูงสุด

คุณ- "eVCtSJ กับ£ R ^ ut) 0 *

โดยที่ vb) คือฟังก์ชันการทำงานของศูนย์กลางในเกมปัจจุบัน

xÍb xí(¿ í„, x\ คือตำแหน่งที่ต้องการของส่วนลำแสงในขณะนั้น

โอ>>โอ"โอ"

เวลา í เพียงพอสำหรับความเสถียรแบบไดนามิกของโซลูชัน เงื่อนไขที่คล้ายกันถูกสร้างขึ้นสำหรับโซลูชัน SP ในทฤษฎีบทที่ 3 ในทฤษฎีบทเหล่านี้ เงื่อนไขประเภท (I) ถือว่าการตอบสนองระดับล่างที่เหมาะสมที่สุดในกรณีของสถานการณ์สมดุลที่เสถียรแบบไดนามิก (,ü,v) ก็เป็น กลยุทธ์การลงโทษ อย่างไรก็ตาม ดังที่แสดงในทฤษฎีบทที่ 2 เงื่อนไขนี้สามารถอ่อนลงได้โดยการแนะนำแนวคิดของกลยุทธ์การลงโทษสากลบางประการ

และมีการกำหนดเงื่อนไข (í) สำหรับกลยุทธ์ระดับล่างนี้แล้ว นอกจากนี้ เพื่อใช้วิธีการทำให้เป็นมาตรฐาน จะถือว่าผลตอบแทนรวม a.At) ของผู้เล่น i ซึ่ง

เขาได้รับเงิน ณ เวลา íe[í0,T) กำหนดดังนี้:

คุณ( (t) = ¡i¿ (b) ฉัน h; C^C-c;, ü(T), ü(T)) dr, i=0,i,...,n,

โดยที่ p¿(í) เป็นฟังก์ชันต่อเนื่องแบบเป็นชิ้น ๆ โดยรับค่าในช่วงจากศูนย์ถึงหนึ่ง ยิ่งไปกว่านั้น ค่าของฟังก์ชัน ji-(i) โดยทั่วไปแล้วจะขึ้นอยู่กับ "." จากวิถีที่เลือกไว้ดังนั้น

สิ่งนี้ช่วยให้เราสามารถคำนวณค่าของฟังก์ชันผลตอบแทนของผู้เล่นสำหรับการหดตัวของการควบคุมที่เหมาะสมที่สุด ¿¿, vLi, T3 โดยคำนึงถึงฟังก์ชัน Ji(-) และสำหรับชุดของกลยุทธ์ที่ไม่ตรงกับตัวเลือกที่เหมาะสมที่สุดที่เลือก ประการหนึ่ง ตามปกติ เราจะเรียกกระบวนการกระจายผลตอบแทนตามวิถีที่เหมาะสมที่สุดว่า การทำให้เกมส่วนต่างแบบลำดับชั้นเป็นปกติ และเกมส่วนต่างแบบลำดับชั้นที่ยอมรับการทำให้เป็นมาตรฐานด้วยผลตอบแทนที่โอนได้ทันเวลา หรือ ¿-ผลตอบแทนที่โอนได้

ให้ ü(_í) กับ(i),äi)

สนับสนุนโครงการ - แชร์ลิงก์ ขอบคุณ!
อ่านด้วย
ภรรยาของเซอร์เก ลาฟรอฟ รัฐมนตรีว่าการกระทรวงการต่างประเทศ ภรรยาของเซอร์เก ลาฟรอฟ รัฐมนตรีว่าการกระทรวงการต่างประเทศ บทเรียน-บรรยาย กำเนิดฟิสิกส์ควอนตัม บทเรียน-บรรยาย กำเนิดฟิสิกส์ควอนตัม พลังแห่งความไม่แยแส: ปรัชญาของสโตอิกนิยมช่วยให้คุณดำเนินชีวิตและทำงานได้อย่างไร ใครคือสโตอิกในปรัชญา พลังแห่งความไม่แยแส: ปรัชญาของสโตอิกนิยมช่วยให้คุณดำเนินชีวิตและทำงานได้อย่างไร ใครคือสโตอิกในปรัชญา